1-s2 0-S0888613X17300063-main en Id

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.
com
Jurnal Internasional Penalaran Perkiraan 90 (2017) 389–410
Daftar isi tersedia diSainsLangsung
Jurnal Internasional Penalaran Perkiraan
www.elsevier.com/locate/ijar
Pengelompokan Fuzzy C-Means berdasarkan ekspresi ganda antara

prototipe cluster dan data yang direkonstruksi
Liyong Zhangsebuah,b,∗, Wanxie Zhongb, Chongquan Zhongsebuah, Wei Lusebuah,

Xiaodong Liusebuah, Witold Pedryczc,d,e
sebuahSekolah
Ilmu dan Teknik Kontrol, Universitas Teknologi Dalian, Dalian 116024, Cina
bDepartemen Mekanika Teknik, Universitas Teknologi Dalian, Dalian 116024, Cina
cDepartemen Teknik Elektro dan Komputer, Universitas Alberta, Edmonton T6R 2V4 AB, Kanada
dDepartemen Teknik Elektro dan Komputer, Fakultas Teknik, Universitas King Abdulaziz, Jeddah, Arab Saudi
eLembaga Penelitian Sistem, Akademi Ilmu Pengetahuan Polandia, Warsawa, Polandia
artikel info abstrak
Sejarah artikel: Algoritma Fuzzy C-Means (FCM) adalah salah satu metode clustering yang paling umum digunakan.
Diterima 3 Januari 2017 Diterima dalam Dalam studi ini, data yang direkonstruksi yang diawasi oleh data asli dimasukkan ke dalam
bentuk revisi 31 Juli 2017 Diterima 18 pengelompokan FCM, dan ekspresi ganda antara prototipe cluster dan data yang direkonstruksi
Agustus 2017
ditambang dengan memperluas model pengelompokan FCM menggunakan prototipe cluster,
Tersedia online 24 Agustus 2017
keanggotaan, dan data yang direkonstruksi sebagai variabel. Konvergensi dan kompleksitas waktu
Kata kunci: dari algoritma yang diusulkan juga dibahas. Eksperimen menggunakan kumpulan data sintetis dan
Pengelompokan kabur kumpulan data dunia nyata difokuskan pada pengaruh sejauh mana data yang direkonstruksi
Fuzzy C-Means diawasi oleh data asli pada kinerja pengelompokan. Sebuah cara pemilihan parameter disediakan
Data yang direkonstruksi yang berguna untuk meningkatkan kegunaan dari algoritma yang diusulkan. Studi kasus aplikasi
Ekspresi ganda untuk data pemantauan konstruksi perisai juga disajikan. Ini mengungkapkan efektivitas algoritma
Pemilihan parameter yang diusulkan dari sudut pandang interpretabilitas hasil pengelompokan dan keterwakilan
prototipe cluster.
©2017 Elsevier Inc. Semua hak dilindungi undang-undang.
1. Perkenalan
Pengelompokan fuzzy dianggap sebagai salah satu pendekatan yang umum digunakan untuk analisis data. Algoritma Fuzzy C-Means
(FCM)[1]adalah metode yang paling terkenal dan banyak digunakan untuk pengelompokan fuzzy dan menyediakan cara penting untuk
membangun butiran informasi fuzzy[2]. Prototipe cluster dan nilai keanggotaan data di semua cluster dapat dikembangkan dengan
mengoptimalkan model clustering FCM. Pada dasarnya, FCM adalah algoritma turunan paling curam dengan panjang langkah variabel yang
disesuaikan dengan prinsip mayorisasi untuk panjang langkah.[3], menunjukkan kesederhanaan dan efisiensi algoritma.
Seiring dengan kemajuan penelitian clustering fuzzy, beberapa ekstensi ke algoritma FCM telah diusulkan. Ini biasanya terwujud
dalam perubahan fungsi tujuan pengelompokan. Jenis ekstensi yang sering ditemui melibatkan pengubahan ukuran ketidakmiripan
antara data dan prototipe cluster dalam fungsi tujuan FCM. Bobrowski dan Bezdek menggantikan jarak Euclidean denganaku1dan
aku∞ norma dalam pengelompokan berbasis FCM, yang mencocokkan struktur data dengan geometri non-hiperelips[4]. Selanjutnya,
Hathaway et al. memperluas ukuran ketidakmiripan ke kasus yang lebih umum
* Penulis koresponden di: School of Control Science and Engineering, Dalian University of Technology, Dalian 116024, China. Alamat
email:zhly@dlut.edu.cn (L.Zhang).
http://dx.doi.org/10.1016/j.ijar.2017.08.008 0888-613X/©2017
Elsevier Inc. Semua hak dilindungi undang-undang.
390 L.Zhang dkk. / Jurnal Internasional Penalaran Perkiraan 90 (2017) 389–410
dimanaakupnorma digunakan[5]. Gustafson dan Kessel memperluas algoritma FCM dengan menggunakan norma jarak adaptif,
yang didefinisikan oleh matriks kovarians fuzzy[6]. Carvalho dkk. menyajikan versi adaptif dari algoritma FCM berdasarkan jarak
kuadratik adaptif tunggal[7]. Serir dkk. mengusulkan algoritme Gustafson-Kessel yang berevolusi, yang memungkinkan adaptasi
matriks partisi kredensial saat data tiba[8]. Zainuddin dan Pauline memperkenalkan ukuran kesamaan simetri ke dalam FCM, yang
mempertimbangkan rasa simetris dari suatu pengamatan ke pusat cluster tertentu dari sudut pandang perbedaan jarak dan sudut
orientasi.[9]. Karena karakteristik umum dari fungsi jarak yang cocok untuk FCM masih belum jelas, Wu et al. mengusulkan definisi
umum fungsi jarak. Penelitian mereka menunjukkan bahwa setiap fungsi jarak yang secara langsung cocok dengan FCM dapat
diturunkan oleh fungsi cembung yang dapat diturunkan secara kontinu[10].
Jenis ekstensi lain yang sering ditemui melibatkan penambahan istilah penalti ke fungsi tujuan FCM. Krishnapuram dan Keller
mengusulkan model pengelompokan baru yang disebut sebagai kemungkinan C-means (PCM) dengan merelaksasi kendala kolom
bahwa nilai keanggotaan data di seluruh cluster harus berjumlah satu dan menambahkan kendala baris nilai keanggotaan (tipikal)
ke fungsi tujuan FCM sebagai istilah hukuman[11]. Pendekatan PCM menyelaraskan interpretasi nilai keanggotaan dengan konsep
fungsi keanggotaan yang ditemui di sebagian besar aplikasi teori himpunan fuzzy dan mengarah pada kekebalan kebisingan yang
lebih tinggi. Mempertimbangkan fakta bahwa keanggotaan dan tipikal keduanya penting untuk interpretasi yang benar dari
substruktur data, Pal et al. mengusulkan model fuzzy possibilistic C-means (FPCM) campuran[12]. Selanjutnya, mereka
melonggarkan batasan pada nilai tipikal dan mempertahankan batasan pada nilai keanggotaan berdasarkan model FPCM dan
mengusulkan algoritma kemungkinan fuzzy C-means (PFCM) dengan menambahkan istilah penalti dalam fungsi tujuan PCM ke
fungsi tujuan FPCM[13]. Melalui analisis rinci dari partisi campuran fuzzy-possibilistic yang ada, Szilagyi mencampur dua partisi
dengan cara yang berbeda dan mengusulkan partisi produk fuzzy-possibilistic C-means (FP3CM) model. Pendekatan ini dapat
menghilangkan efek buruk dari outlier yang jauh, sambil menghasilkan partisi berkualitas tinggi[14]. Dalam kasus di mana
kumpulan data terdiri dari pola berlabel, Pedrycz dan Waletzky mengusulkan algoritma pengelompokan dengan pengawasan parsial
yang menggabungkan informasi klasifikasi yang tersedia sebagai bagian dari fungsi tujuan FCM untuk meningkatkan hasil
pengelompokan[15]. Untuk menghasilkan penugasan yang lebih mirip biner, Zhu et al. membangun model pengelompokan dengan
memperkenalkan fungsi kendala keanggotaan ke fungsi tujuan FCM dan menyajikan pengelompokan FCM dengan partisi fuzzy yang
ditingkatkan[16]. Zarinbal dkk. membangun entropi relatif ke fungsi tujuan FCM sebagai fungsi regularisasi dan mengusulkan
algoritma FCM entropi relatif untuk memaksimalkan ketidakmiripan antar cluster[17]. Untuk mengintegrasikan hubungan
berpasangan antara data ke dalam clustering fuzzy, Mei dan Chen mendefinisikan ukuran kualitas cluster dalam hal hubungan
berpasangan dan mengembangkan pendekatan clustering LinkFCM dengan menambahkannya ke fungsi tujuan FCM[18]. Untuk
meningkatkan kemampuan menangani klaster yang tumpang tindih, Wikaisukakul memperkenalkan ukuran pemisahan tumpang
tindih ke pengelompokan FCM dan mempresentasikan algoritme optimisasi multi-tujuan[19]. Lebih umum, Berget et al. menyajikan
metodologi tentang cara menggunakan fungsi penalti untuk membatasi solusi FCM[20].
Selain itu, sejumlah ekstensi penting lainnya dari algoritma FCM juga telah diusulkan secara berurutan. Terinspirasi oleh gagasan
pembelajaran kompetitif, Wei dan Xie mengusulkan algoritma FCM yang diperiksa saingan untuk meningkatkan kecepatan
konvergensi FCM dengan memperbesar keanggotaan terbesar dan menekan keanggotaan terbesar kedua[21]. Selanjutnya, Fan et
al. memodifikasi metode Wei dan Xie' dengan menghargai keanggotaan terbesar dan menekan yang lain dan mengusulkan
algoritma FCM yang ditekan[22]. Sejauh ini, algoritme FCM yang ditekan terus ditingkatkan dan digunakan secara luas[23–25].
Pedrycz mengusulkan metode pengelompokan berbasis FCM bersyarat dengan menyesuaikan batasan keanggotaan yang
bergantung pada variabel bersyarat untuk pola yang sesuai. Metode ini mengungkapkan struktur dalam keluarga pola dengan
mempertimbangkan sekitarnya dalam ruang fitur bersama dengan kesamaan nilai-nilai yang diasumsikan oleh variabel kondisional
tertentu.[26]. Berdasarkan ekstensi set kasar C-means, Zhang et al. berfokus pada distribusi tidak seimbang dari struktur titik-ke-titik
dan titik-ke-area dan menyajikan pendekatan pengelompokan c-means kasar yang dimodifikasi menggunakan ukuran jarak dan
kepadatan hibrida yang tidak seimbang[27]. Pimentel dan Souza mengusulkan algoritma FCM multivariat dengan memperkenalkan
keanggotaan yang berbeda untuk individu dari satu fitur ke fitur lainnya. Ini mencapai perpaduan informasi yang melekat di setiap
fitur untuk algoritma FCM, berdasarkan pengelompokan FCM multivariat berbobot untuk data interval dicapai[28,29]. Pedrycz
mengusulkan algoritma FCM kolaboratif yang beroperasi pada subset data terpisah yang berkolaborasi dengan bertukar informasi
tentang matriks partisi lokal. Algoritma FCM kolaboratif ini berpotensi cocok untuk memproses data dalam jumlah besar[30].
Apa yang umum untuk ekstensi di atas adalah bahwa data yang terlibat langsung dalam iterasi pengelompokan adalah semua data asli
yang tetap. Ide baru yang akan dikejar dalam penelitian ini terinspirasi oleh strategi penyelesaian optimal (OCS) dari pengelompokan FCM
untuk kumpulan data yang tidak lengkap dengan nilai yang hilang[31,32]. Saat mempartisi kumpulan data yang tidak lengkap menjadic
cluster, OCS memperlakukan nilai yang hilangxjksebagai variabel, yang dapat diperhitungkan dalam iterasi pengelompokan dengan ekspresi
linier dari nilai atribut yang sesuaivJiuntuksaya=1,2,· · ·,cdari prototipe cluster dengan keanggotaankamuikuntuksaya=1,2,· · ·,c di bawah yang
sesuaiksebagai bobot, seperti yang dijelaskan dalam
∑c
ik ji.
xjk= ∑c saya=1kamumv
m
(1)
saya=1kamu ik
Bahkan, ketika kumpulan data lengkapX∗ = {x∗ 1,x∗2,· · ·,x∗ n}dikelompokkan oleh FCM, mengikuti derivasi dari(1), kita juga bisa
merekonstruksi semua data dengan ekspresi linier dari prototipe cluster, yaitu
∑c
xk= ∑c saya=1kamu v
ikmsaya
m
untukk=1,2,· · ·,n, (2)
saya=1kamu ik
L.Zhang dkk. / Jurnal Internasional Penalaran Perkiraan 90 (2017) 389–410 391
Gambar 1.Konsep dan pemrosesan yang mendasari di balik perluasan pengelompokan FCM.
di manaxkmenunjukkan data yang direkonstruksi oleh prototipe clustervsayauntuksaya=1,2,· · ·,cdan keanggotaankamuikuntuksaya=

1,2,· · ·,cdi bawah yang sesuaik.
Karena prototipe klaster itu sendiri dalam FCM diperoleh dengan ekspresi linier data, yaitu
∑n mx∗
vsaya= ∑n=1kamu baiklah
k
kamum
untuksaya=1,2, ...,c, (3)
k=1 ik
dapat dikatakan bahwa terdapat hubungan ganda yang dapat diekspresikan antara prototipe cluster dan data yang direkonstruksi jika kita
menggantix ∗ untukk=1,2,· · ·,ndi(3)dengan data mereka yang direkonstruksix.Ekspresi
k ganda seperti itu sebenarnya ada sebagai karakteristik
k
struktural intrinsik dari algoritma FCM, dan penggalian mendalam dan pemanfaatan konsep ini dapat membantu untuk pemahaman lebih
lanjut tentang struktur cluster dan meningkatkan kinerja algoritma.
Berdasarkan motivasi yang dijelaskan di atas, kami mengusulkan konsep dan menetapkan aliran pemrosesan umum untuk memperluas algoritma
FCM, seperti yang ditunjukkan padaGambar 1.
Untuk memperkenalkan ekspresi ganda antara prototipe cluster dan data yang direkonstruksi ke dalam pengelompokan FCM, seperti yang
ditunjukkan oleh panah pertama (tanda hubung) diGambar 1, konsep data yang direkonstruksi yang diawasi oleh data asli diturunkan secara alami,
seperti yang ditunjukkan oleh panah ke-2. Mulai dari melibatkan langsung data yang direkonstruksi dalam iterasi pengelompokan, seperti yang
ditunjukkan oleh panah ke-3, kami mengusulkan model pengelompokan FCM yang diperluas menggunakan data yang direkonstruksi sebagai variabel
yang diawasi oleh data asli, dan menyimpulkan optimasi tiga tingkat bergantian dari prototipe cluster, keanggotaan dan data yang direkonstruksi
dengan menggunakan metode berbasis gradien, di mana ekspresi ganda antara prototipe cluster dan data yang direkonstruksi diwujudkan, seperti
yang ditunjukkan oleh panah ke-4.
Makalah ini disusun sebagai berikut. Bagian2menyajikan deskripsi singkat tentang algoritma FCM. Di bagian3, model
pengelompokan FCM yang diperluas dengan penggunaan data yang direkonstruksi diusulkan. Bagian4menganalisis mekanisme
intrinsik algoritme dengan menjalankan beberapa studi eksperimental dan berfokus pada pemilihan parameter untuk
meningkatkan kegunaan algoritme. Bagian5menyajikan studi kasus aplikasi dari algoritma yang diusulkan untuk memantau data
konstruksi perisai. Akhirnya, kesimpulan tercakup dalam Bagian6.
2. Algoritma Fuzzy C-Means
FCM mempartisi satu set dataX∗ = {x∗ 1 ,x2∗,· · ·,x∗ n}R s

ke dalamc-klaster fuzzy dengan meminimalkan tujuan berbasis jarak
fungsi
∑c∑
n ∥ ∥
J (kamu,V)= − vsaya ∥22,
ikxmk∥ ∗
kamu (4)
saya=1k=1
di manaxk∗ = [x∗1,kx∗ ,2· k· ·,x∗ ]Tadalah

sk
titik data, danx∗ jk
adalahjnilai atribut darix∗;v k
adalahsayaprototipe kluster,vsaya∈ Rs,
saya
dan biarkan matriks prototipe clusterV= [vJi] = [v1,v2,· · ·,vc]Rs ×c;kamuikadalah keanggotaan yang mewakili derajat ke
yangx∗ milik sayakluster ke-,∀saya, k:kamu ik[0,1], dan memenuhi kondisi berikut:
k
∑c
kamuik=1 untukk=1,2, ...,n, (5)
saya=1
dan biarkan matriks partisikamu= [kamuik]Rc×n;madalah parameter fuzzifikasi,m∈ (1,∞);·2menunjukkan norma Euclidean pada Rs.
Kondisi yang diperlukan untuk meminimalkan(4)dengan kendala(5)menghasilkan rumus pembaruan berikut:

∑n
∑kn=1
kamumx∗
vsaya=
baiklah
untuksaya=1,2, ...,c, (3)
k=1kamumik
dan
[ 2)1 ]1
∑c(kanx∗ − v sayakan
m1
k 2
kamuik=
2
untuksaya=1,2, ...,c dan k=1,2, ...,n. (6)
kanx∗ − vtkan2
t=1 k
Algoritma FCM mengulangi optimasi bolak-balik (AO) dari(3)dan(6)sampai kondisi konvergensi terpenuhi.
3. Fuzzy C-Means clustering dengan menggunakan data yang direkonstruksi
3.1. Mengelompokkan fungsi tujuan dan optimasi bolak-balik tri-level
Ketika satu set dataX∗ = {x∗ 1 ,x∗2,· · ·,x∗ n}Rsberkerumun, apa yang terlibat langsung dalam iterasi pengelompokan tidak lagi
kumpulan data asliX∗ itu sendiri, tetapi kumpulan datanya yang direkonstruksiX= {x1,x2,· · ·,xn}. Kami memperlakukan data yang
direkonstruksi sebagai variabel dan mengawasinya dalam rentang yang sesuai dari data asli. Model clustering FCM yang dimodifikasi dapat
dirumuskan sebagai berikut: kita hitungkamu,VdanXuntuk mendapatkan nilai terkecil yang mungkin dari fungsi tujuan berikut:
∑c∑
n ∑n∥ ∥
J (kamu,V,X)= kamum
ikkanxk−
2
vsayakan2+ K ∥xk− ∗∥2 (7)
xk2
saya=1k=1 k=1
dengan kendala(5), di manaKadalah bilangan positif, yang disebut faktor gain.

Fungsi tujuan(7)memiliki dua komponen: yang pertama adalah fungsi tujuan FCM standar untuk pengelompokan data yang
direkonstruksi, yaitu untuk mencapai minimum untuk mendapatkan cluster kompak; yang kedua adalah fungsi penalti, yang
menentukan tingkat deviasi dari data yang direkonstruksixkdari data aslix∗. Seperti yang dapat dilihat,
k
saat meminimalkan(7),
semakin kecil nilaiKadalah, semakin jauh nilaixkmungkin jauh darix∗. Dalam model pengelompokan kFCM yang diperluas di atas,
pemilihan faktor penguatanKadalah kunci untuk memastikan kinerja pengelompokan.
Proposisi 1.Jika pengelompokan sekumpulan data{x∗ 1,x∗2,· · ·,x∗ n}Rsdiperoleh dengan meminimalkan fungsi tujuan(7)dengan kon-
ketegangan(5), maka kepuasan kondisi yang diperlukan menghasilkan prototipe cluster, keanggotaan dan data yang direkonstruksi dinyatakan sebagai berikut:
∑n
vsaya= ∑kn=1kamubaiklah
mx
m
untuk saya=1,2,· · ·,c, (8)
k=1kamu ik
[ ) ]1
∑c(
1
kanxk− vsayakan2 m1
2
kamuik= untuk saya=1,2,· · ·,c dan k=1,2,· · ·,n, (9)
kanxk− vtkan2
t=1 2
dan
∑c mv
Kx∗k+
xk= garpu=1,2,· · ·,n.
∑saya=1kamu
c
ik saya
m
(10)
K+ saya=1kamu ik
Di Sini,(8)dan(10)menunjukkan dualitas timbal balik antara prototipe pengelompokan dan data yang direkonstruksi. Dari(8)dan(9)
, dapat dilihat bahwa data yang direkonstruksi terlibat langsung dalam perhitungan prototipe cluster dan keanggotaan. Dari(10),
data yang direkonstruksi diperoleh dengan ekspresi linier dari data asli dan prototipe cluster, dan prototipe cluster yang sesuai
dengan nilai keanggotaan maksimum lebih menonjol untuk memandu rekonstruksi data daripada prototipe cluster lainnya. Dengan
kata lain, dibandingkan dengan data asli, data yang direkonstruksi biasanya lebih kompak relatif terhadap prototipe cluster masing-
masing ketika faktor gainKmengambil nilai-nilai yang sesuai.
Bukti.Menerapkan metode pengali Lagrange untuk menemukan solusi optimal dari fungsi tujuan(7), kita membentuk fungsi tujuan
yang diperbesar berikut:
( c )
∑c∑
n ∑n∥ ∥ ∑n ∑
Jλ(kamu,V,X)=
kamum
ikkanxk−
2
vsayakan2+ K ∥xk− ∗∥2+ λk kamuik− 1 , (11)
xk2
saya=1k=1 k=1 k=1 saya=1
di manaλk,k=1,2, ...,n, adalah pengali Lagrange.

Memperbaiki nilaikamuikdanxk,fungsi tujuan mencapai minimum ketika
∂ Jλ =2 ∑n
ik(xk− vsaya)=0, (12)
kamum
∂vsaya
k=1
lalu(8)dapat diturunkan secara langsung.

Untuk parameter tetapvsayadanxk,alat tulisJλ hasil
c
∂ Jλ = ∑
kamuik− 1 = 0, (13)
∂λk
saya=1
∂ Jλ =mum1kanxk
ik − vkan
saya2 2+λk = 0. (14)
∂kamuik
Dari(14), kita punya

( ) 1
− λk m1
kamuik= . (15)
mkanxk− vsayakan2
2
Mengganti(15)ke dalam(13), diperoleh hasil sebagai berikut :
( ) 1
∑c ( ) 1
− λk m− 1 1 m1
=1. (16)
m kanxk − vkan
saya22
saya=1
Dalam sekuelnya,
( ) ( )
∑c ( )
1 1 −1
− λk m− 1 1 m1
= . (17)
m kankx− vkan 22
saya
saya=1
Kami pasang(17)ke dalam(15)dan kemudian keanggotaankamuikdinyatakan seperti yang ditunjukkan pada(9).

Untuk nilai parameter tetapkamuikdanvsaya,fungsi tujuan stabil ketika
c
∂ Jλ =2 ∑ ( )
ik m(xk− vsaya)+
kamu 2Kxk− x∗ k=0. (18)
∂xk
saya=1
Kita mulai dengan penyelesaian(18)untukxk,yang mengarah ke(10). -
Proposisi 1menunjukkan bahwa kita hanya perlu melakukan optimasi bolak-balik tri-level dari(8),(9)dan(10)saat memperkenalkan data
yang direkonstruksi ke pengelompokan FCM. Bentuk algoritmanya mirip dengan pengelompokan untuk data yang tidak pasti menggunakan
regularisasi vektor penalti kuadrat[33], sedangkan keduanya berasal dari motivasi yang berbeda dan memiliki kerangka kerja konseptual
yang berbeda. Prosedur dariFCM pengelompokan dengan menggunakanr dibangun kembalid ata (RDFCM singkatnya) dapat digambarkan
sebagai berikut.
Langkah 1) Pilihm,c,Kdan nilai ambang>0; inisialisasi matriks partisi secara acakkamu(0), dan inisialisasi kumpulan data yang
direkonstruksiX(0)langsung menggunakan kumpulan data asliX∗.
Langkah 2) Ketika indeks iterasi adalahaku(aku=1,2,· · ·),menghitung matriks prototipe clusterV(l)menggunakan(8)dankamu(l1),X(l1). Langkah 3)
Perbarui kumpulan data yang direkonstruksiX(l)menggunakan(10)dankamu(l1),V(l). Langkah 4) Perbarui matriks partisikamu(l)menggunakan(9)danV(l),
X(l).
Langkah 5) Jika∀saya, k:maks |kamu (l)− kamu(l1)|<, lalu berhenti dan dapatkan matriks partisikamu, matriks prototipe clusterVdan kumpulan data
ik ik
yang direkonstruksiX; jika tidak, aturaku=aku+1 dan kembali ke langkah 2.
3.2. Pertimbangan terperinci
1) Konvergensi RDFCM
Sebagai optimasi bolak-balik tri-level yang khas, RDFCM dapat mencapai konvergensi. Teori umum konvergensi numerik dari
optimasi bolak-balik tri-level telah disediakan di[34]dan mirip dengan algoritma FCM standar.
2) Kompleksitas waktu
Kompleksitas waktu dari algoritma FCM standar adalahO (n2s)[28,35,36], di mananadalah jumlah data,cadalah jumlah cluster,
dansadalah dimensi data. Dalam RDFCM, perhitungan matriks partisi membutuhkan:nc2s operasi, dan perhitungan prototipe cluster
dan data yang direkonstruksi keduanya membutuhkanncsoperasi. Kesimpulannya, kompleksitas waktu dari algoritma RDFCM
adalahO (n2s), sama seperti algoritma FCM standar.
3) Pembahasan faktor gain K

faktor keuntunganKadalah parameter unik yang ditambahkan ke RDFCM, dibandingkan dengan algoritma FCM standar.
Mempertimbangkan bahwa salah satu karakteristik yang paling jelas dari algoritma RDFCM yang diusulkan adalah partisipasi langsung
kumpulan data yang direkonstruksi dalam pengelompokan, pertama-tama kita menyelidiki tingkat deviasi data yang direkonstruksi dari data
asli, yang dapat ditunjukkan oleh jarak antara keduanya yang dinyatakan sebagai
∥ ∑c kamu ∑c kamum∥∥ ∑c ∑c
∥ ∥ ∥ Kx∗k+ ik v K xk∗ +x∗ ki=1 m
ik∥ kansaya=1 kamu mv−

=1kamu baiklah2.
mx∗kan
∥xk− x∗∥ =∥ ∑ ∑ = ik saya∑c saya
(19)
k2 ∥ K+ saya=1
c kamu
saya−
K + cm m ∥ K +
saya=1 ik =1kamu ik 2 saya saya=1kamuikm
∑c
i) KapanK kamum,Kberdiri
saya=1ik di penyebut(19)dapat diabaikan, yaitu
∑c ∑c
∥ ∥ kansaya=1kamumv− baiklah2.
∥xk− x∗∥ ≈ ∑c ik saya saya=1kamumx∗kan
(20)
k2
saya=1kamum ik
∗
Dalam hal ini, deviasi darix kdarix pada dasarnya tidak ada hubungannya dengan nilai spesifikK.
∑c ∑ c m
k
ii) KapanK ik
saya=1kamum, saya=1
kamu
ik
stdan dalam penyebut(19)dapat diabaikan, yaitu
∑c ∑c
∥ ∥ kansaya m
=1 kamu − saya=1
ik vsaya
m
kamu k2.
ik x kan
∥xk− xk ∗ ∥ ≈
∗
2
(21)
K
Misalkan pembilang dari(21)adalah konstanta, deviasi darixkdarix∗ akan berbanding
k
terbalik dengan nilaiK. Apalagi jika nilaiK
cenderung tak terhingga,(21)dapat mendekati batas, ditunjukkan sebagai
∥ ∥
lim∥xk − xk∗=2 0. (22)
K→∞
Pada titik ini, kumpulan data yang direkonstruksi sama persis dengan kumpulan data asli itu sendiri, dan RDFCM berubah menjadi FCM
standar.
4. Studi Eksperimental
Untuk menyelidiki kinerja algoritma RDFCM yang diusulkan, pertama-tama kami mempertimbangkan kumpulan data sintetis di bawah
berbagai jumlah data, cluster, dan atribut untuk menganalisis mekanisme intrinsik algoritma. Kumpulan data dunia nyata dengan label data
yang diketahui diperoleh dari repositori data yang tersedia untuk umum kemudian digunakan untuk memeriksa kinerja pengelompokan.
Kinerja pengelompokan dievaluasi dalam hal kesalahan prototipe dan kesalahan klasifikasi. Di sini, kami mengadopsi jumlah
kesalahan kuadrat (ESS) antara prototipe cluster yang diperoleh dan yang sebenarnya
∑c ∥ ∥
ESS= ∥v saya− v∗ ∥2 (23)
saya
2
saya=1
untuk mengukur kesalahan prototipe, di manav∗ sayamenunjukkan prototipe cluster yang sebenarnya, dan mengadopsi kesalahan klasifikasi yang dibandingkan
dengan partisi data aktual untuk mengekspresikan kesalahan klasifikasi.
Parameter yang relevan dalam percobaan ditetapkan sebagai berikut: parameter fuzzifikasimditetapkan sebagai 2 (itu adalah nilai yang paling
umum digunakan), dan nilai ambang batasε ditetapkan sebagai 106.
4.1. Kumpulan data sintetis
Kami menghasilkan tiga set data sintetis untuk menguraikan kinerja algoritma yang diusulkan. Data disayakluster terdistribusi
secara acak menurut distribusi Gaussian dengan vektor rata-rataμsayadan matriks kovarians-saya. Untuk kumpulan data Gaussian
sintetik, prototipe klaster yang sebenarnya diketahui, yaitu, vektor rata-ratanyaμsayauntuksaya=1,2, . . . ,c. Setiap kumpulan data
diberi nama dengan memasukkan jumlah data, cluster, dan atribut.
1) Kumpulan data N200C2D2 terdiri dari 200 vektor dua dimensi yang tersebar di antara dua cluster, masing-masing berisi 100
poin. Data di setiap cluster diambil sesuai dengan parameter berikut:
[ ] [ ] [ ]
− 50 50 3600 0
μ1= − 50
, μ 2= 50
, - 1=-2 =
0 3600
.
2) Kumpulan data N900C9D3 terdiri dari 900 vektor tiga dimensi yang tersebar di sembilan cluster, masing-masing berisi 100
poin. Data di setiap cluster diambil mengikuti parameter berikut:
⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡⎤
10 10 10 10 0
μ1= ⎣ 10⎦ , μ2= ⎣ 10 ⎦ , μ3=⎣ -10⎦ , μ4= ⎣ -10⎦ , μ5= ⎣ 0⎦ ,
10 − 10 10 − 10 0
⎡⎤ ⎡ ⎤ ⎡⎤ ⎡⎤ ⎡ ⎤
− 10 − 10 − 10 − 10 5 0 0
μ6= ⎣ 10⎦ , μ7= ⎣ 10⎦ , μ8= ⎣ -10⎦ , μ9= ⎣ -10⎦ , - saya=⎣ 0 5 0⎦
10 − 10 10 − 10 0 0 5
untuksaya=1,2, ...,9.
3) Kumpulan data N200C2D5 terdiri dari 200 vektor lima dimensi yang didistribusikan antara dua cluster, masing-masing berisi 100
poin. Data di setiap cluster diambil sesuai dengan parameter berikut:
⎡⎤ ⎡ ⎤ ⎡ ⎤
1 −1 10000
⎢ 1⎥ ⎢ -1⎥ ⎢ 0 1 0 0 0⎥
μ1=⎢ 1⎢⎥⎥, μ2 =⎢ ⎢-1⎥⎥ , - 1 =- 2=⎢
⎢
0 0 1 0 0⎥ .
⎥
⎣ ⎦1 ⎣-⎦ 1 ⎣ 00010 ⎦
1 −1 00001
Saat menggunakan kumpulan data di atas untuk menguji algoritma RDFCM, kami fokus pada pengaruh faktor penguatanKpada kinerja
pengelompokan.
Gambar 2.Hasil eksperimen yang sesuai dengan variasi skala besar dariKuntuk kumpulan data N200C2D2.
4.1.1. Studi Eksperimental Berdasarkan Variasi Skala Besar Gain Factor K

Semua pangkat bilangan bulat 10 dari 106ke 106diambil sebagai nilai dariK.Kami melakukan 10 percobaan pada masing-masing set data di
atas di bawah masing-masingKnilai, masing-masing, dan hasil eksperimen rata-rata ditunjukkan padaGambar. 2–4.
Dari rata-rata kesalahan prototipe dan rata-rata hasil kesalahan klasifikasi ditunjukkan padaGambar. 2–4, kita dapat melihat bahwa ketika
nilaiKsangat kecil (katakanlah, kurang dari atau sama dengan 102, terutama kurang dari atau sama dengan 103), RDFCM mencapai efek
pengelompokan yang sangat buruk, dan sesuai dengan peranKdimainkan dalam algoritme, kita dapat menyimpulkan bahwa data yang
direkonstruksi dalam kasus ini seharusnya benar-benar menyimpang dari data aslinya. Bila nilaiKcukup besar (katakanlah, lebih besar dari
atau sama dengan 102), hasil clustering RDFCM sedikit berubah dan semakin mendekati FCM standar dengan bertambahnya K,jadi kami
menarik bahwa data yang direkonstruksi dalam hal ini juga semakin dekat dengan data aslinya. Dari Gambar.2(sebuah),3(a) dan4(a), kita bisa
melihatnya saat lgK=0, yaituK=1, kesalahan prototipe rata-rata yang dihasilkan oleh RDFCM untuk tiga set data masing-masing adalah 94.012,
1.8310 dan 0,1366, jauh lebih rendah daripada yang dihasilkan oleh FCM standar, yaitu masing-masing 131,56, 1,8536 dan 0,1433. Selain itu,
untuk kumpulan data N200C2D5, ketikaK=0.1, kesalahan prototipe rata-rata yang dihasilkan oleh RDFCM adalah 0,1348, yang juga lebih
rendah. Seperti yang ditunjukkan pada Gambar.2(b),3(pita4(b), ketikaK=1, kesalahan klasifikasi rata-rata yang dihasilkan oleh RDFCM untuk
kumpulan data N200C2D5 adalah 30,4, sedikit lebih rendah dari yang dihasilkan oleh FCM standar; untuk dua set data yang tersisa, hasil
RDFCM dan FCM standar sama dalam hal kesalahan klasifikasi, karena perbedaan prototipe yang diperoleh tidak cukup besar untuk
menyebabkan perubahan pada partisi yang diperoleh. Dari analisis di atas, kita dapat melihat:
1) Nilai dariKmemiliki pengaruh signifikan terhadap efek pengelompokan RDFCM, dan tidak boleh terlalu kecil; yang lebih besar
Kadalah, semakin dekat hasil RDFCM dengan FCM standar.
2) Ada kisaran tertentu dariK,di mana efek pengelompokan RDFCM lebih baik daripada efek standar
FCM. Untuk tiga set data di atas,K=1 berada dalam kisaran ini.
4.1.2. Deviasi rekonstruksi rata-rata versus faktor penguatan K

Kami melihat tingkat deviasi data yang direkonstruksi dari data asli untuk mengeksplorasi lebih lanjut peranKdalam kinerja
algoritma. Dalam proses evaluasi, kami mempertimbangkan indeks deviasi rekonstruksi berikut:
n
1∑ kanxk− x∗kan
k1,
RD= (24)
n s
k=1
di mana·1menunjukkan 1-norma. Untuk masing-masing set data di atas, kami menyajikan tren deviasi rekonstruksi rata-rata (MRD) untuk 10
percobaan dengan peningkatanK,yang digambarkan dalam koordinat logaritmik, seperti yang ditunjukkan padaGambar 5.
DiGambar 5, garis padat menunjukkan tren deviasi rekonstruksi rata-rata dengan peningkatanK,sedangkan garis putus-putus
merupakan garis regresi trend. KapanKsangat kecil, deviasi rekonstruksi rata-rata dari yang direkonstruksi
Gambar 5.Tren deviasi rekonstruksi rata-rata dengan peningkatanKuntuk tiga set data sintetis.
Tabel 1
Hasil rata-rata untuk 10 percobaan pada titik persilangan garis regresi.
Indeks Kumpulan data
N200C2D2 N900C9D3 N200C2D5

Nilai dariK 0.7078 0,5393 0,7591
Berarti kesalahan prototipe 97.171±23.939 30 1.7854±5.5×10−6 0.0 0.1353±4.2×10−8 2.0
Rata-rata misklasifikasi Deviasi .2±0.6 ±0.0 ±0.0
rekonstruksi rata-rata 24.122 1.1031 0.4212
perubahan data jelas dengan perubahanK,yang menegaskan situasi yang ditunjukkan dalam(20); garis regresi horizontal (kurang
lebih) adalah perkiraan dari tren ini. KapanKsangat besar, deviasi rekonstruksi rata-rata menunjukkan redaman linier dengan
peningkatanK(dalam koordinat logaritmik), yang bertepatan dengan situasi yang ditunjukkan pada(21); garis regresi dengan
kemiringan sekitar 1 mendekati tren ini.
Untuk kenyamanan, kami merujuk ke kisaranKdicakup oleh garis regresi horizontal yang sesuai dengan area rekonstruksi data
yang tidak terkendali, dan kisaranKditutupi oleh garis regresi atenuasi yang sesuai dengan area rekonstruksi data yang dapat
dikontrol. Pada uncontrollable data rekonstruksi area, data yang direkonstruksi menyimpang secara drastis dari data aslinya dan
tidak dapat diatur secara efektif oleh gain factor.Kterutama ketika nilaiKsangat kecil. Dari kesalahan prototipe rata-rata dan
kesalahan klasifikasi rata-rata yang ditunjukkan padaGambar. 2–4, dapat dilihat bahwa efek pengelompokan sangat buruk ketikaK
kecil, dan solusi yang menjadi tujuan konvergensi algoritme biasanya salah. Di area rekonstruksi data yang dapat dikontrol,
penyimpangan data yang direkonstruksi dari data asli dapat diatur dengan:K,dan sesuai dengan hasil yang diilustrasikan dalam
Gambar. 2–4, efek pengelompokan RDFCM secara bertahap cenderung ke FCM standar dengan peningkatanK,dan solusi yang
dikonvergensi oleh algoritme lebih stabil.
DiGambar 5, titik yang lebih besar merupakan titik persilangan antara garis regresi horizontal dan garis regresi redaman. Dapat
dilihat bahwa kesalahan antara garis regresi dan garis tren hampir mencapai titik maksimum pada titik persilangan, yang mewakili
perkiraan putaran maksimum dari kedua tren dalam transisi. Jadi, kinerja pengelompokan pada titik persilangan garis regresi patut
diperhatikan, seperti yang ditunjukkan padaTabel 1.
Tabel 1mencantumkan nilaiKpada titik persilangan garis regresi dan hasil pengelompokan yang sesuai, yang memuaskan jika
dibandingkan dengan hasil diGambar. 2–4.
Namun, perlu kita perhatikan:
1) Garis regresi adalah perkiraan, sehingga koordinat titik persilangan garis regresi horizontal dan perhatian
garis regresi tidak tepat.
2) Nilai dariKpada titik persilangan garis regresi tidak optimal.
3) Koordinat titik persilangan garis regresi dapat memberikan acuan untuk pemilihanK,dan kita akan
buat analisis terperinci tentang ini di bawah ini.
4.1.3. Hasil berdasarkan variasi skala halus K di sekitar titik persilangan garis regresi
Hasil pengelompokan RDFCM ketikaKmengasumsikan nilai di sekitar titik persilangan dari garis regresi (yaitu, K[0.1,1]) tercantum
dalamMeja 2. Sebagai referensi, hasil FCM standar juga disediakan. Di sini dua indeks, yaitu, kesalahan prototipe rata-rata dan
kesalahan klasifikasi rata-rata, bersama dengan standar deviasi (Std.), dipertimbangkan.
DariMeja 2, dapat dilihat bahwa memang ada kisaran yang layak untukKdekat titik persilangan garis regresi, yang membuat hasil
pengelompokan RDFCM lebih baik daripada FCM standar, lebih spesifik,K[0.5,1] untuk kumpulan data N200C2D2,K[0.4,1] untuk kumpulan
data N900C9D3, danK[0.1,1] untuk kumpulan data N200C2D5. Menggabungkan dengan Gambar. 2–4lagi, kita juga dapat menyimpulkan
bahwa kisaran ituKlebih besar dari 1 dan mendekati 1 (atau kurang dari 0,1 dan mendekati 0,1) mungkin juga merupakan kisaran yang layak
dariK,tapi kita tidak akan sampai ke dasar masalah ini. Perlu dicatat bahwa, untuk set data N900C9D3 dan N200C2D5 di mana sub-cluster
tidak tumpang tindih atau kurang tumpang tindih, bilaKsama dengan beberapa nilai, standar deviasi kesalahan prototipe yang dihasilkan oleh
RDFCM bahkan lebih kecil dari yang dihasilkan oleh FCM standar, yang menunjukkan bahwa RDFCM dapat secara stabil menyatu untuk hasil
pengelompokan yang memuaskan sesuai dengan nilai yang sesuai dariK.
4.2. Kumpulan data dunia nyata
Berikut ini, tujuh kumpulan data dunia nyata[37,38]digunakan untuk memvalidasi algoritma yang diusulkan.
1) Kumpulan data Minyak Mentah memiliki 56 titik data dan lima atribut, yang berasal dari analisis kimia minyak mentah
sampel dari tiga zona batupasir. Dalam kumpulan data, 7 sampel berasal dari Wilhelm, 11 sampel dari Sub-Mulinia dan 38 sampel
dari Mulinia Atas.
2) Kumpulan data Glass berisi 214 vektor atribut sembilan dimensi. Distribusi kelas dari kumpulan data adalah bahwa 163
sampel dari kaca Jendela dan 51 sampel dari kaca Non-jendela.
3) Kumpulan data Pelanggan Grosir berisi 440 vektor enam dimensi, yang mengacu pada klien dari distributor grosir.
pengiring. Ini termasuk pengeluaran tahunan dalam unit moneter untuk kategori produk yang beragam. Kumpulan data dapat dibagi
menjadi 2 kategori menurut indeks Saluran, di mana 298 sampel termasuk dalam kategori pertama dan sisanya 142 sampel termasuk dalam
kategori kedua.
4) Kumpulan data Bupa mencakup 345 vektor atribut enam dimensi dan dapat dibagi menjadi dua kategori, yang berisi:
145 sampel dan 200 sampel masing-masing. Lima atribut pertama adalah semua tes darah yang dianggap sensitif terhadap
gangguan hati yang mungkin timbul dari konsumsi alkohol yang berlebihan.
5) Kumpulan data Haberman terdiri dari 306 vektor atribut tiga dimensi yang menggambarkan kasus dari studi yang dilakukan
terhadap kelangsungan hidup pasien yang telah menjalani operasi kanker payudara. Dataset dapat dibagi menjadi 2 kelas, yang
masing-masing berisi 225 sampel dan 81 sampel.
6) Kumpulan data Wine terdiri dari 178 vektor atribut tiga belas dimensi yang menggambarkan hasil suatu bahan kimia
analisis anggur tumbuh di wilayah yang sama tetapi berasal dari tiga kultivar yang berbeda. Kelas yang sesuai berisi 59 sampel, 71
sampel dan 48 sampel masing-masing.
7) Kumpulan data Kanker Payudara diperoleh dari Rumah Sakit Universitas Wisconsin, yang berisi 683 sembilan-
vektor atribut dimensi. Kumpulan data dapat dibagi menjadi dua kategori, yaitu 444 kasus ganas dan 239 kasus jinak.
Untuk masing-masing set data dunia nyata di atas, pertama-tama kami memberikan tren deviasi rekonstruksi rata-rata untuk 10 percobaan dengan
peningkatanK,seperti yang ditunjukkan padaGambar 6.
Untuk setiap set data dunia nyata di atas, tren deviasi rekonstruksi rata-rata dengan peningkatanKkonsisten dengan yang
diamati untuk set data sintetis yang dipelajari sebelumnya. DiGambar 6, nilai dariKpada titik persilangan garis regresi ditandai, yaitu
0,5060, 0,7350, 0,7005, 0,6123, 0,6879, 0,5938 dan 0,7775. Selanjutnya akan kami detailkan hasil clustering RDFCM bila nilaiKberada
di sekitar titik persilangan garis regresi, yaitu ketika nilainya berkisar dari 0,1 hingga 1. Untuk kumpulan data dunia nyata di atas,
karena prototipe klaster aktualnya tidak diketahui, hanya hasil kesalahan klasifikasi rata-rata dan simpangan bakunya yang
disediakan di sini, sementara itu, iterasi rata-rata dan penyimpangan rekonstruksi rata-rata juga disediakan sebagai referensi,
seperti yang ditunjukkan padaTabel 3.
Dengan mengacu pada kesalahan klasifikasi rata-rata dari FCM standar yang disediakan olehTabel 3, kita dapat melihat kisaran spesifik
dariK dalam kisaran [0.1,1], yang dapat memungkinkan RDFCM untuk mencapai efek pengelompokan yang lebih baik daripada FCM standar.
Tentu saja, untuk beberapa kumpulan data, mungkin ada kisaran yang layak untukKdi luar [0.1,1]. Misalnya, untuk kumpulan data Haberman,
ketika K[1.1,2], kesalahan klasifikasi rata-rata RDFCM adalah antara 152 dan 157, dan standar deviasi kesalahan klasifikasi adalah 0 pada
setiap nilaiK.Agar lebih jelas, kami menggambarkan kisaran layak spesifik dari faktor keuntunganKuntuk masing-masing set data dunia nyata
di atas dalamGambar 7.
DiGambar 7, daerah yang diisi dengan berbagai warna menunjukkan kisaran yang layak dariKyang dapat memungkinkan RDFCM untuk
mencapai hasil pengelompokan yang baik, dan titik bulat hitam menunjukkan nilaiKpada titik persilangan garis regresi. Seperti dapat dilihat,
untuk kumpulan data Minyak Mentah, Pelanggan Grosir, Bupa, Anggur dan Payudara, nilaiKpada titik persilangan regresi
L.Zhang dkk. / Jurnal Internasional Penalaran Perkiraan 90 (2017) 389–410
Meja 2
Hasil rata-rata untuk 10 eksperimen menggunakan kumpulan data sintetis berdasarkan variasi skala halus dariK.
Himpunan data Indeks RDFCM FCM

K=0.1 =0.2 =0.3 =0.4 =0.5 =0.6 =0.7 =0.8 =0.9 =1.0
N200C2D2 Berarti kesalahan prototipe 263,57 211,46 181,54 156.25 122.81 107,73 97.693 89.930 89.294 94.012 131.56
Std. kesalahan prototipe Berarti 156.05 76,560 51.535 48.991 33.616 33.797 24.125 19.727 16.152 4.0411 7.4×10−4
kesalahan klasifikasi Std. 32.5 32.4 32.1 31.6 30.9 30.4 30.2 30.1 30.1 30.4 31.0
kesalahan klasifikasi Rata-rata 3.1385 2.1541 1.8682 1.6852 1.3000 0,4899 0,6000 0,5385 0,5385 0,4899 0
jumlah iterasi Rata-rata deviasi 87.4 60.0 50.0 57.9 75.8 58.7 50.2 60.6 74.9 99,6 21.6
rekonstruksi 40.249 36.670 33.579 30.801 28.324 26.174 24.262 22.558 21.039 19.701 /
N900C9D3 Berarti kesalahan prototipe 60.428 23.372 1.7278 1.7736 1.7816 1.7918 1.8029 1.8135 1.8229 1.8310 1.8536
Std. kesalahan prototipe Berarti 7.5×10 6.0×10 2.8×10−2 5.4×10−5 1.2×10−5 9.9×10−7 4.9×10−7 5.9×10−7 7.3×10−7 5.8×10−7 2.6×10−6
kesalahan klasifikasi Std. 55.2 13.5 1.4 0 0 0 0 0 0 0 0
kesalahan klasifikasi Rata-rata 20.410 15,351 0,4899 0 0 0 0 0 0 0 0
jumlah iterasi Rata-rata deviasi 109.2 224.9 52.5 46.1 43.2 44.3 42.8 41.0 39.3 37.1 24.3
rekonstruksi 1.9734 1,5403 1.3437 1.2349 1.1384 1.0514 0,9731 0,9033 0,8412 0,7860 /
N200C2D5 Berarti kesalahan prototipe 0.1348 0.1347 0.1346 0.1345 0.1345 0.1347 0,1350 0.1355 0,1360 0.1366 0.1433
Std. kesalahan prototipe Berarti 3.8×10−6 3.4×10−7 2.0×10−7 9.9×10−8 9.7×10−8 7.3×10−8 4.6×10−8 3.5×10−8 2.2×10−8 4.8×10−9 1.4×10−8
kesalahan klasifikasi Std. 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0 2.0
kesalahan klasifikasi Rata-rata 0 0 0 0 0 0 0 0 0 0 0
jumlah iterasi Rata-rata deviasi 81,8 54.7 43.6 37.9 34.5 32.3 30.9 29.8 29.3 29.9 14.2
rekonstruksi 0,7113 0,6505 0,5975 0,5508 0,5093 0,4722 0,4391 0,4095 0.3830 0.3593 /
399
Gambar 6.Tren deviasi rekonstruksi rata-rata dengan peningkatanKuntuk kumpulan data dunia nyata.
Tabel 3
Hasil rata-rata untuk 10 eksperimen menggunakan kumpulan data dunia nyata berdasarkan variasi skala halus dariK.
Himpunan data RDFCM FCM

Indeks
K=0.1 =0.2 =0.3 =0.4 =0.5 =0.6 =0.7 =0.8 =0.9 =1.0
Berarti kesalahan klasifikasi Std. 20.9 21.1 20.6 21.1 21.1 20.1 20.1 20.4 19.0 22.0 23.0
L.Zhang dkk. / Jurnal Internasional Penalaran Perkiraan 90 (2017) 389–410

Minyak mentah
kesalahan klasifikasi Rata-rata 3.8588 3.2696 2.5377 2.0224 1.7578 0,5385 0,5385 0,9165 0 0 0
jumlah iterasi Rata-rata deviasi 96.3 67.7 62.2 54.9 61.8 76,5 124.0 136.1 228.2 289.8 37.9
rekonstruksi 1,8175 1.6313 1.4617 1.3092 1.1609 1.0407 0.9329 0,8412 0,7576 0,7074 /
Kaca Berarti kesalahan klasifikasi Std. 16.8 17.0 17.1 17.0 17.0 18.8 19.0 20.0 20.0 20.0 20.0
kesalahan klasifikasi Rata-rata 0,4000 0 0,3000 0 0 0,4000 0 0 0 0 0
jumlah iterasi Rata-rata deviasi 95.3 65.4 59.2 59.1 51.4 62.8 66.7 82,5 76.7 65.4 21.7
rekonstruksi 0.3163 0.2884 0.2630 0.2402 0.2201 0,2030 0.1876 0.1748 0.1631 0.1528 /
Grosir Berarti kesalahan klasifikasi Std. 46.4 46,5 46.7 48.6 50.5 53.8 54.4 56.2 66.0 66.0 61.0
Pelanggan kesalahan klasifikasi Rata-rata 1.1136 1.2845 0,4583 0,9165 1.2845 1.2490 1.6852 0,6000 0 0 0
jumlah iterasi Rata-rata deviasi 130.0 70.3 56,7 52.9 63.8 72.2 115.6 296.3 220.8 154.3 34.9
rekonstruksi 3208.9 2899.7 2633.2 2399.7 2199.1 2030,6 1877,6 1752.1 1657,3 1548.9 /
bupa Berarti kesalahan klasifikasi Std. 176.0 177.3 178.5 177.9 176.4 173.0 174.0 174.0 174.0 176.0 177.0
kesalahan klasifikasi Rata-rata 1.4832 1.5524 0.9220 0.8307 0,9165 0 0 0 0 0 0
jumlah iterasi Rata-rata deviasi 112.8 80.3 97.7 115.6 152,4 250,7 191.2 213.5 122.5 163.2 40.2
rekonstruksi 8.5589 7.7358 6.9671 6.2744 5.6222 5.0362 4.6145 4.2459 3.9345 3.6667 /
Haberman Berarti kesalahan klasifikasi Std. 159.2 159,5 160.0 160.0 159.9 160.0 159,5 159,4 157.0 154.2 159.0
kesalahan klasifikasi Rata-rata 2.5612 2.0616 2.0976 2.3664 2.3854 2.7203 3.2326 2.9732 4.9193 4.8949 0
jumlah iterasi Rata-rata deviasi 95.7 63.6 51.3 48.1 49.4 87.3 103,5 91.1 121.5 109.0 22.3
rekonstruksi 4,5351 4.1403 3.7884 3.4702 3.1823 2.9232 2.6940 2.4947 2.3236 2.1740 /
Anggur Berarti kesalahan klasifikasi Std. 17.9 15.7 13.1 10.2 8.0 8.0 8.0 8.0 8.0 8.0 9.0
kesalahan klasifikasi Rata-rata 1.5780 1.2689 1.0440 1.0770 0 0 0 0 0 0 0
rekonstruksi 10,744 9.6867 8.6983 7.6928 6.8987 6.2183 5.6719 5.2190 4.8289 4.4905 /
Dada Berarti kesalahan klasifikasi Std. 24.0 23.0 23.5 24.0 24.0 25.0 25.0 25.0 26.0 26.0 30.0
kesalahan klasifikasi Rata-rata 0 0 0,5000 0 0 0 0 0 0 0 0
rekonstruksi 1.0638 0,9735 0,8952 0.8264 0,7651 0,7104 0,6610 0,6166 0,5775 0,5418 /
401
Gambar 7.Rentang yang layak dariKdan nilaiKpada titik persilangan garis regresi.
Gambar 8.Fungsi tujuan dalam iterasi yang berurutan.
semua garis berada dalam kisaran layak yang sesuai dariK;untuk set data Glass dan Haberman, meskipun nilaiKpada titik
persilangan garis regresi tidak berada dalam kisaran layakK,keduanya dekat dengan kisaran layak masing-masing.
Hasil percobaan di atas menunjukkan:

1) Untuk banyak set data dunia nyata, memang ada rentang yang layak dariKyang dapat memungkinkan RDFCM untuk mencapai yang lebih baik
hasil pengelompokan dari FCM standar.
2) Titik persilangan garis regresi memberikan acuan untuk pencarian nilai fisibel untukK.Kita dapat menentukan
nilai dariKdi sekitar titik persilangan garis regresi dengan metode coba-coba.
Akhirnya, kami memperhatikan konvergensi dan efisiensi komputasi dari algoritma RDFCM yang digabungkan dengan hasil eksperimen.
Untuk mendapatkan intuisi yang lebih baik di balik hasil, kami mengambil kumpulan data Minyak Mentah sebagai contoh dan melihat
perilaku fungsi tujuan dalam iterasi berturut-turut, seperti yang ditunjukkan padaGambar 8.
Fungsi tujuan RDFCM, seperti FCM standar, menurun dengan cepat dalam 10 iterasi pertama, dan kemudian cenderung stabil.
Menggabungkan dengan jumlah rata-rata iterasi yang ditunjukkan padaTabel 3, kita dapat melihat bahwa dibandingkan dengan FCM standar,
RDFCM biasanya membutuhkan lebih banyak iterasi untuk mencapai konvergensi.
5. Analisis pengelompokan untuk memantau data konstruksi perisai
Mesin pelindung adalah sejenis peralatan teknik khusus yang didedikasikan untuk pembangunan terowongan bawah tanah.
Mesin berisi sejumlah subsistem yang saling digabungkan seperti sistem kepala pemotong, sistem dorong, ruang kerja, konveyor
sekrup, koreksi kemudi, dan sebagainya. Prosedur konstruksi perisai sangat rumit. Di sini, kami menggunakan metode fuzzy
clustering untuk mewujudkan partisi yang efektif dan representasi prototipe dari data pemantauan konstruksi perisai.
5.1. Hasil pengelompokan dan interpretasinya
Data diperoleh selama lima hari berturut-turut melalui pemantauan status konstruksi perisai di bagian tertentu Metro Shenzhen,
dengan total 417965 vektor atribut lima puluh dimensi. Kami membagi data untuk setiap hari menjadi empat kelompok dan
memberikan nomor urut untuk setiap kelompok, yaitu, A1, A2, A3, A4; B1, B2, B3, B4; C1, C2, C3, C4; D1, D2, D3, D4; E1, E2, E3, E4.
Data dalam setiap kelompok dikelompokkan secara individual menggunakan algoritma FCM standar dan algoritma RDFCM yang
diusulkan. Pada bagian ini, kami secara selektif menganalisis hasil pengelompokan data dalam tiga kelompok tipikal—A1, A4 dan D4,
dan atas dasar ini, hasil pengelompokan data di semua kelompok dirangkum. Parameter yang relevan di
Gambar 9.Hasil pengelompokan grup A1 ketikac=2.
percobaan ditetapkan sebagai berikut: parameter fuzzifikasimditetapkan sebagai 2, nilai ambang batasε ditetapkan sebagai 106, dan faktor
keuntunganKdari algoritma RDFCM ditetapkan sebagai nilai pada titik persilangan dari garis regresi.
1) grup A1
Kami mengatur jumlah clustercsebagai 2. Nilai keanggotaan sampel data, yang termasuk dalam status tunneling (cluster 1), yang
dihasilkan oleh FCM dan RDFCM ditunjukkan padaGambar 9. Untuk memudahkan referensi, dua urutan atribut kecepatan kepala
pemotong dan tekanan penggerak kepala pemotong dalam proses konstruksi A1 juga disediakan.
DariGambar 9(a), dapat dilihat bahwa kecepatan kepala pemotong adalah sekitar 1,5 putaran/menit untuk pembuatan terowongan pada
konstruksi A1. Ketika kecepatan kepala pemotong sekitar 0, ereksi segmen, perawatan penurunan dan prosedur lain mungkin sedang
dilakukan, atau peralatan mungkin dalam keadaan mati seperti pemeliharaan.
DariGambar. 9(c) dan (d), dapat dilihat bahwa ketika mempartisi data menjadi dua cluster, baik FCM maupun RDFCM dapat
memisahkan data yang menjadi ciri tunneling cutterhead menjadi satu cluster dan mengkategorikan data lainnya sebagai cluster
lain, sesuai dengan fakta. bahwa sistem penggerak kepala pemotong adalah sistem dinamis konsumsi daya terbesar dari mesin
pelindung. Hasil clustering dari kedua algoritma menunjukkan interpretability yang benar untuk proses konstruksi.
PerbandinganGambar 9(c) denganGambar 9(d), kita dapat melihat bahwa nilai keanggotaan yang dihasilkan oleh RDFCM lebih berbeda
dari yang dihasilkan oleh FCM, yang menunjukkan bahwa interpretabilitas hasil pengelompokan RDFCM lebih kuat. Selanjutnya, kami
memperkenalkan indeks baru—jumlah jarak kuadrat (SSD) antara prototipe cluster:
11
∑c saya∑
SSD= kan v− v 12kan2.
saya
2 saya
(25)
saya1= 2saya2=1
Nilai SSD dari prototipe FCM adalah 2.47×108, dan prototipe RDFCM adalah 2.69×108; ini menunjukkan bahwa RDFCM mencapai
prototipe cluster dengan perbedaan besar.
2) kelompok A4
Pertama, kami mengatur jumlah clustercsebagai 2. Hasil keanggotaan yang dihasilkan oleh FCM dan RDFCM ditunjukkan padaGambar 10.
Terlihat bahwa hasil clustering kedua algoritma tidak menunjukkan interpretability yang benar. Secara khusus, dalam interval waktu yang
sesuai dengan bagian yang dilingkari oleh elips diGambar 10, kecepatan kepala pemotong dan tekanan penggerak kepala pemotong hampir
0, menunjukkan bahwa kepala pemotong jelas tidak dalam keadaan penerowongan, tetapi FCM dan RDFCM keduanya mengkategorikan data
dalam interval waktu ini ke dalam klaster yang mencirikan penerowongan kepala pemotong. Nilai SSD yang sesuai dengan FCM dan RDFCM
adalah 4.94×107dan 5.68×107, masing-masing. Nilai SSD yang lebih kecil menyiratkan bahwa kedua algoritme tidak mempartisi data secara
efektif.
Ketika data di grup A4 dipartisi menjadi dua cluster, informasi atribut lain dalam interval waktu yang dilingkari elips mengganggu
pemisahan pola tunneling dari seluruh grup A4. Oleh karena itu, perlu dilakukan penambahan jumlah cluster agar data pada
interval waktu yang dilingkari elips dapat dikategorikan secara mandiri.
Kami mengatur jumlah clustercsebagai 3 untuk iterasi lain. Nilai keanggotaan sampel data, milik masing-masing cluster, yang
dihasilkan oleh FCM dan RDFCM ditunjukkan pada:Gambar 11. Di Sini,Gambar. 11(a) dan (d) menunjukkan derajat keanggotaan
milik negara tunneling, danGambar. 11(b) dan (e) menunjukkan bahwa data dalam selang waktu yang dilingkari elips juga dapat
dipartisi secara terpisah.
Dapat dilihat bahwa hasil clustering kedua algoritma menunjukkan interpretability yang benar ketika data pada kelompok A4
dipartisi menjadi tiga cluster, dan interpretability hasil clustering yang dicapai oleh RDFCM jelas lebih kuat. Di
Tabel 4
Nilai yang sesuai daricsesuai dengan hasil pengelompokan yang dapat ditafsirkan.
Kelompok FCM RDFCM Kelompok FCM RDFCM Kelompok FCM RDFCM Kelompok FCM RDFCM
nomor nomor nomor nomor
A1 2 2 A2 2 2 A3 2 2 A4 3 3
B1 3 3 B2 2 2 B3 3 3 B4 3 3
C1 3 3 C2 / / C3 / / C4 / /
D1 4 4 D2 2 2 D3 3 3 D4 × 5
E1 2 2 E2 2 2 E3 4 4 E4 3 3
Selain itu, nilai SSD yang sesuai dengan FCM dan RDFCM adalah 5.63×108dan 5.79×108, masing-masing, yang juga mengkonfirmasi
kebenaran hasil kedua algoritma dan keunggulan algoritma RDFCM.
3) kelompok D4
Untuk data pada grup D4, hasil clustering kedua algoritma tidak menunjukkan interpretability yang benar saat mempartisi data menjadi
dua cluster; bahkan jika jumlah cluster ditingkatkan menjadi tiga atau bahkan empat, interpretasi yang benar tidak ditunjukkan. Di sini, kami
langsung memberikan hasil keanggotaan saat mempartisi data menjadi lima cluster, seperti yang ditunjukkan pada:Gambar 12; untuk
kemudahan referensi, tiga urutan atribut kecepatan kepala pemotong, tekanan penggerak kepala pemotong dan tekanan penyegelan ekor
pelindung dalam proses konstruksi D4 juga disediakan.
DariGambar 12(d) yang menunjukkan nilai keanggotaan sampel data, yang termasuk dalam kondisi tunneling, yang dihasilkan oleh FCM,
dapat dilihat bahwa bagian yang dilingkari oleh elips tidak menunjukkan kemampuan interpretasi untuk status tunneling dalam interval
waktu yang sesuai. Jika jumlah cluster ditambah lagi menjadi 6, dapat diketahui melalui eksperimen bahwa hasil clustering FCM masih belum
menunjukkan interpretability yang benar. Di sini, kami tidak akan membahas detailnya.
Gambar. 12(e) dan (f) menunjukkan nilai keanggotaan sampel data, masing-masing milik dua cluster, yang dihasilkan oleh RDFCM. Dapat
dilihat bahwa penyatuan kedua cluster ini hanyalah kumpulan data yang menggambarkan keadaan tunneling. DariGambar 12(c), kita dapat
menyimpulkan bahwa kedua kelompok ini masing-masing sesuai dengan keadaan terowongan di bawah tekanan penyegelan yang berbeda
dari ekor pelindung. Oleh karena itu, ketika jumlah cluster ditetapkan 5, hasil clustering RDFCM menunjukkan interpretabilitas yang wajar
untuk proses tunneling grup D4.
Omong-omong, kami menyajikan tren deviasi rekonstruksi (RD) dengan peningkatanKuntuk tiga kelompok fokus di atas, seperti yang
ditunjukkan padaGambar 13.
4) Ringkasan semua hasil grup
Tabel 4daftar nilai yang sesuai dari jumlah clustercuntuk setiap kelompok data, yang memungkinkan hasil pengelompokan
diinterpretasikan.
Hasil diTabel 4diilustrasikan seperti di bawah ini:
1) Data dalam grup C2, C3 dan C4 sesuai dengan status shutdown pelindung dan tidak dikelompokkan.
2) Untuk data pada kelompok D4, bila jumlah clusternyacadalah 2–6, hasil pengelompokan FCM tidak menunjukkan yang benar
interpretasi; ketika nilaicadalah 5, hasil pengelompokan RDFCM menunjukkan interpretasi yang wajar.
3) Untuk setiap kelompok data kecuali kelompok C2, C3, C4 dan D4, hasil clustering FCM dan RDFCM semuanya menunjukkan hasil yang lebih baik
interpretasi untuk keadaan tunneling; Selain itu, nilai-nilai yang sesuai daricdari kedua algoritma yang membuat hasil clustering dapat
diinterpretasikan adalah sama.
Selanjutnya, kami menyajikan nilai SSD untuk setiap kelompok data yang diperoleh oleh FCM dan RDFCM, seperti yang ditunjukkan padaGambar 14, Kapancdiatur seperti yang
tercantum dalamTabel 4.
Hal ini dapat dilihat dariGambar 14bahwa nilai SSD dari prototipe RDFCM lebih besar dari pada prototipe FCM, kecuali untuk grup
E4. Secara umum, dibandingkan dengan FCM, RDFCM dapat membedakan data yang mencirikan keadaan tunneling lebih jelas dan
mendapatkan hasil clustering dengan interpretabilitas yang lebih kuat.
5.2. Keterwakilan prototipe cluster
Menurut dinamika sistem penggerak kepala pemotong, dapat dipahami bahwa terdapat korelasi linier yang kuat antara tekanan
penggerak kepala pemotong dan torsi kepala pemotong dalam beberapa kondisi operasi. Berdasarkan kesimpulan di atas, metode
analisis regresi diterapkan untuk memverifikasi kelayakan penggunaan prototipe klaster dari keadaan tunneling sebagai perwakilan
dari klaster keadaan. Untuk tujuan ini, berdasarkan 16 kelompok data dan hasil pengelompokannya, kecuali kelompok C2, C3, C4
dan D4, kami membuat tiga kumpulan data berikut:
1) Satu set yang terdiri dari 85081 sampel data asli yang mencirikan status tunneling;
2) Satu set yang terdiri dari 16 prototipe cluster yang sesuai dengan status tunneling yang diperoleh FCM;
3) Satu set yang terdiri dari 16 prototipe cluster yang sesuai dengan status tunneling yang diperoleh RDFCM.
Kami menggunakan tiga set data di atas dan melakukan eksperimen regresi linier pada tekanan penggerak kepala pemotong (P)
dan torsi kepala pemotong (T),dengan nilai dan hasil yang sesuai, masing-masing, dari koefisien korelasi Pearson dan persamaan
regresi linier yang ditunjukkan padaTabel 5.
Gambar 12.Hasil pengelompokan grup D4 ketikac=5.

Gambar 13.Kecenderungan penyimpangan rekonstruksi dengan meningkatnyaKuntuk tiga kelompok tipikal.
Gambar 14.Jumlah jarak kuadrat antara prototipe untuk setiap kelompok data.
Tabel 5
Hasil regresi linier.
Data asli Prototipe klaster FCM Prototipe klaster RDFCM

Koefisien korelasi 0.9999 0,9988 0,9998
Persamaan regresi P=0.0346T+27.8897 P=0.0359T+22.2699 P=0.0347T+26.6619
Semakin dekat nilai koefisien korelasi Pearson dengan 1, semakin dekat korelasi linier antara dua atribut. DariTabel 5, dapat
dilihat bahwa terdapat korelasi linier yang cukup tinggi antara tekanan penggerak kepala pemotong dan torsi kepala pemotong,
baik pada prototipe cluster FCM maupun RDFCM, yang konsisten dengan hasil yang diperoleh dari data asli. Jika nilai koefisien
korelasi yang sesuai dengan dua algoritma dibandingkan secara khusus, hasil RDFCM ditemukan lebih menguntungkan.
Gambar 15.Garis regresi dua atribut.
Agar lebih intuitif, hubungan regresi linier antara tekanan penggerak kepala pemotong dan torsi kepala pemotong (Tabel 5),
seperti yang diperoleh dari tiga set data di atas, digambarkan dalam bidang koordinat, seperti yang ditunjukkan pada Gambar 15.
DariGambar 15, dapat dengan mudah dilihat bahwa garis regresi dua atribut yang diperoleh dari prototipe cluster RDFCM lebih
dekat dengan yang diperoleh dari data asli daripada yang diperoleh dari prototipe cluster FCM. Ini menyiratkan bahwa hasil
pengelompokan RDFCM tidak diragukan lagi lebih efektif ketika prototipe klaster bertindak sebagai perwakilan data dalam klaster
keadaan tunneling.
6. Kesimpulan
Dalam penelitian ini, data yang terlibat langsung dalam setiap langkah iterasi clustering bukanlah data asli itu sendiri melainkan
data hasil rekonstruksi. Di bawah kerangka kerja ini, model pengelompokan RDFCM menggunakan prototipe cluster, keanggotaan
dan data yang direkonstruksi sebagai variabel telah dirancang. Optimalisasi bolak-balik tri-level telah diusulkan sebagai cara untuk
melakukan pengelompokan. Eksperimen menggunakan kumpulan data sintetis dan kumpulan data dunia nyata dilaporkan, dan
algoritme yang diusulkan menunjukkan konvergensi yang stabil dan akurasi tinggi ketika faktor penguatan mengambil nilai yang
sesuai. Terutama, kami menganalisis struktur bagian dalam dari algoritma dengan memperkenalkan indeks deviasi rekonstruksi dan
menyediakan cara untuk memilih nilai faktor keuntungan dalam algoritma RDFCM, yang secara efektif dapat menghindari supervisi
atau supervisi untuk data yang direkonstruksi dan sangat membantu untuk meningkatkan kegunaan algoritme. Kasus aplikasi untuk
data pemantauan konstruksi perisai lebih lanjut menunjukkan efektivitas algoritma RDFCM dari sudut pandang interpretasi hasil
pengelompokan dan keterwakilan prototipe cluster.
Ucapan Terima Kasih
Karya ini didukung oleh National Natural Science Foundation of China (U1608256, 61472062, 61401061), Program Canada
Research Chair (CRC) dan Natural Sciences and Engineering Council of Canada (NSERC).
Referensi
[1]JC Bezdek, Pengenalan Pola dengan Algoritma Fungsi Objektif Fuzzy, Plenum Press, New York, 1981.
[2]OF Reyes-Galaviz, W. Pedrycz, Model fuzzy granular: analisis, desain, dan evaluasi, Int. J. Perkiraan. Alasan. 64 (2015) 1–19.
[3]L. Gröll, J. Jäkel, Sebuah bukti konvergensi baru dari fuzzy C-means, IEEE Trans. Sistem kabur. 13 (5) (2005) 717–720.
[4]L. Bobrowski, JC Bezdek, C-berarti pengelompokan denganaku1danaku∞ norma, IEEE Trans. Sistem Manusia Cybern. 21 (3) (1991) 545–554.
[5]RJ Hathaway, JC Bezdek, Y. Hu, Generalized fuzzy C-means clustering strategi menggunakanLpjarak norma, IEEE Trans. Sistem kabur. 8 (5) (2000) 576–582.
[6]E. Gustafson, W. Kessel, Fuzzy clustering dengan matriks kovarians fuzzy, dalam: IEEE Conference on Decision and Control, 1978, pp.
[7]FAT Carvalho, CP Tenório, NLC Junior, Metode clustering fuzzy partisipatif berdasarkan jarak kuadrat adaptif, Fuzzy Sets Syst. 157 (2006) 2833–2857.
[8]L. Serir, E. Ramasso, N. Zerhouni, Evidential mengembangkan algoritma Gustafson–Kessel untuk partisi aliran data online menggunakan teori fungsi kepercayaan, Int.
J. Perkiraan. Alasan. 53 (5) (2012) 747–768.
[9]Z. Zainuddin, O. Pauline, Algoritma fuzzy C-means yang efektif berdasarkan pendekatan kesamaan simetri, Appl. Komputer Lunak. 35 (2015) 433–448.
[10]J. Wu, H. Xiong, C. Liu, J. Chen, Sebuah generalisasi fungsi jarak untuk fuzzy C-berarti clustering dengan centroids sarana aritmatika, IEEE Trans. Sistem kabur. 20
(3) (2012) 557–571.
[11]R. Krishnapuram, JM Keller, Pendekatan kemungkinan untuk pengelompokan, IEEE Trans. Sistem kabur. 1 (2) (1993) 98–110.
[12]NR Pal, K. Pal, JC Bezdek, Model pengelompokan C-berarti campuran, dalam: Prosiding Konferensi Internasional IEEE Keenam tentang Sistem Fuzzy, 1997, hlm.
[13]NR Pal, K. Pal, JM Keller, JC Bezdek, Kemungkinan algoritma pengelompokan C-berarti fuzzy, IEEE Trans. Sistem kabur. 13 (4) (2005) 517–530.
[14]L. Szilágyi, Partisi produk Fuzzy-possibilistic: pendekatan baru yang kuat untuk pengelompokan C-berarti, Catatan Kuliah di Ilmu Komputer 6820 (2011) 150-161.
[15]W. Pedrycz, J. Waletzky, Fuzzy clustering dengan pengawasan parsial, IEEE Trans. Sistem Man Cybern., Bagian B, Cybern. 27 (5) (1997) 787–795.
[16]L. Zhu, FL Chung, S. Wang, Generalized fuzzy C-berarti algoritma clustering dengan partisi fuzzy ditingkatkan, IEEE Trans. Sistem Man Cybern., Bagian B, Cybern.
39 (3) (2009) 578–591.
[17]M. Zarinbal, MHF Zarandi, IB Turksen, Entropi relatif fuzzy C-berarti pengelompokan, Inf. Sci. 260 (2014) 74–97.
[18]JP Mei, L. Chen, LinkFCM: relasi terintegrasi fuzzy C-means, Pattern Recognit. 46 (1) (2013) 272–283.
[19]S. Wikaisukakul, Sebuah algoritma genetika multi-tujuan dengan fuzzy C-means untuk pengelompokan data otomatis, Appl. Komputer Lunak. 24 (2014) 679–691.
[20]I. Berget, BH Mevik, T. Næs, Modifikasi baru dan aplikasi metodologi fuzzy C-means, Comput. Stat. Data Anal. 52 (5) (2008) 2403–2418.
[21]L. Wei, W. Xie, Rival memeriksa algoritma fuzzy C-means, Acta Electron. Dosa. 28 (7) (2000) 63–66.
[22]J. Fan, W. Zhen, W. Xie, Algoritma pengelompokan C-berarti fuzzy yang ditekan, Pengenalan Pola. Lett. 24 (9-10) (2003) 1607–1612.
[23]F. Zhao, J. Fan, H. Liu, algoritma pengelompokan C-means fuzzy C-means berbasis seleksi optimal dengan self-tuning informasi spasial non lokal untuk
segmentasi gambar, Expert Syst. aplikasi 41 (9) (2014) 4083–4093.
[24]L. Szilágyi, SM Szilágyi, Z. Benyó, Evaluasi analitis dan numerik dari algoritma fuzzy C-means yang ditekan: studi tentang kompetisi dalam model clustering C-
means, Soft Comput. 14 (5) (2010) 495–505.
[25]L. Szilágyi, SM Szilágyi, Aturan generalisasi untuk algoritma pengelompokan C-berarti fuzzy yang ditekan, Neurocomputing 139 (2014) 298–309.
[26]W. Pedrycz, Conditional fuzzy C-means, Pattern Recognit. Lett. 17 (6) (1996) 625–631.
[27]T. Zhang, L. Chen, F. Ma, Sebuah algoritma pengelompokan C-means kasar yang dimodifikasi berdasarkan ukuran jarak dan kepadatan hibrida yang tidak seimbang, Int. J.
Perkiraan. Alasan. 55 (8) (2014) 1805–1818.
[28]BA Pimentel, RMCR Souza, Metode fuzzy C-means multivariat, Appl. Komputer Lunak. 13 (4) (2013) 1592–1607.
[29]BA Pimentel, RMCR Souza, Metode fuzzy C-means multivariat berbobot dalam data produksi ilmiah bernilai interval, Expert Syst. aplikasi 41 (7) (2014) 3223–3236.
[30]W. Pedrycz, Pengelompokan fuzzy kolaboratif, Pengenalan Pola. Lett. 23 (14) (2002) 1675–1686.
[31]RJ Hathaway, JC Bezdek, Fuzzy C-berarti pengelompokan data yang tidak lengkap, IEEE Trans. Sistem Man Cybern., Bagian B, Cybern. 31 (5) (2001) 735–744.
[32]L. Zhang, W. Lu, X. Liu, W. Pedrycz, C. Zhong, Fuzzy C-berarti pengelompokan data yang tidak lengkap berdasarkan butiran informasi probabilistik dari nilai yang hilang, Sistem
Berbasis Pengetahuan. 99 (2016) 51–70.
[33]Y. Endo, Y. Hasegawa, Y. Hamasuna, Y. Kanzawa, Fuzzy C-berarti pengelompokan untuk data yang tidak pasti menggunakan regularisasi vektor penalti kuadrat, J. Adv. Hitung.
Intel. Intel. Memberitahukan. 15 (1) (2011) 76–82.
[34]RJ Hathaway, Y. Hu, JC Bezdek, Konvergensi lokal optimasi bolak-balik tri-level, Neural Parallel Sci. Hitung. 9 (2001) 19–28.
[35]JF Kolen, T. Hutcheson, Mengurangi kompleksitas waktu dari algoritma fuzzy C-means, IEEE Trans. Sistem kabur. 10 (2) (2002) 263–267.
[36]L. Zhang, W. Pedrycz, W. Lu, X. Liu, L. Zhang, Sebuah interval ditimbang fuzzy C-berarti pengelompokan oleh optimasi bergantian dipandu genetik, Expert Syst.
aplikasi 41 (13) (2014) 5960–5971.
[37]RA Johnson, DW Wichern, Analisis Statistik Multivariat Terapan, Prentice-Hall, New Jersey, 1982.
[38] M. Lichman, Gudang Pembelajaran Mesin UCI [http://archive.ics.uci.edu/ml], 2017.

1-s2 0-S0888613X17300063-main en Id

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1-s2 0-S0888613X17300063-main en Id

Diunggah oleh

Hak Cipta:

Format Tersedia

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

Jurnal Internasional Penalaran Perkiraan 90 (2017) 389–410

Daftar isi tersedia diSainsLangsung

Jurnal Internasional Penalaran Perkiraan

Pengelompokan Fuzzy C-Means berdasarkan ekspresi ganda antara

Liyong Zhangsebuah,b,∗, Wanxie Zhongb, Chongquan Zhongsebuah, Wei Lusebuah,

artikel info abstrak

di manaxkmenunjukkan data yang direkonstruksi oleh prototipe clustervsayauntuksaya=1,2,· · ·,cdan keanggotaankamuikuntuksaya=

2. Algoritma Fuzzy C-Means

FCM mempartisi satu set dataX∗ = {x∗ 1 ,x2∗,· · ·,x∗ n}R s

di manaxk∗ = [x∗1,kx∗ ,2· k· ·,x∗ ]Tadalah

Kondisi yang diperlukan untuk meminimalkan(4)dengan kendala(5)menghasilkan rumus pembaruan berikut:

3. Fuzzy C-Means clustering dengan menggunakan data yang direkonstruksi

3.1. Mengelompokkan fungsi tujuan dan optimasi bolak-balik tri-level

dengan kendala(5), di manaKadalah bilangan positif, yang disebut faktor gain.

di manaλk,k=1,2, ...,n, adalah pengali Lagrange.

lalu(8)dapat diturunkan secara langsung.

Dari(14), kita punya

Kami pasang(17)ke dalam(15)dan kemudian keanggotaankamuikdinyatakan seperti yang ditunjukkan pada(9).

Kita mulai dengan penyelesaian(18)untukxk,yang mengarah ke(10). -

3.2. Pertimbangan terperinci

3) Pembahasan faktor gain K

ik∥ kansaya=1 kamu mv−

4.1. Kumpulan data sintetis

4.1.1. Studi Eksperimental Berdasarkan Variasi Skala Besar Gain Factor K

4.1.2. Deviasi rekonstruksi rata-rata versus faktor penguatan K

Indeks Kumpulan data

N200C2D2 N900C9D3 N200C2D5

4.2. Kumpulan data dunia nyata

Himpunan data Indeks RDFCM FCM

Himpunan data RDFCM FCM

L.Zhang dkk. / Jurnal Internasional Penalaran Perkiraan 90 (2017) 389–410

Gambar 8.Fungsi tujuan dalam iterasi yang berurutan.

Hasil percobaan di atas menunjukkan:

5. Analisis pengelompokan untuk memantau data konstruksi perisai

5.1. Hasil pengelompokan dan interpretasinya

Gambar 9.Hasil pengelompokan grup A1 ketikac=2.

Gambar 10.Hasil pengelompokan grup A4 ketikac=2.

Gambar 11.Hasil pengelompokan grup A4 ketikac=3.

4) Ringkasan semua hasil grup

5.2. Keterwakilan prototipe cluster

Gambar 12.Hasil pengelompokan grup D4 ketikac=5.

Gambar 13.Kecenderungan penyimpangan rekonstruksi dengan meningkatnyaKuntuk tiga kelompok tipikal.

Data asli Prototipe klaster FCM Prototipe klaster RDFCM

Gambar 15.Garis regresi dua atribut.

Ucapan Terima Kasih

Anda mungkin juga menyukai