Clustering Network Layers With The Strata Multilayer Stochastic Block Model - En.id
Clustering Network Layers With The Strata Multilayer Stochastic Block Model - En.id
Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
Abstrak —Jaringan multilayer adalah struktur data yang berguna untuk mengingat multipleksitas yang melekat dari data jaringan di seluruh bidang
secara bersamaan menangkap beberapa tipe hubungan antara serta perkembangan teoritis terkini untuk penanganannya
satu set node. Dalam jaringan seperti itu, setiap definisi relasional jenis data, ada kebutuhan untuk pengembangan
menimbulkan lapisan. Sementara setiap lapisan menyediakan setnya sendiri
alat yang tepat yang dapat memanfaatkan informasi dari semua lapisan
informasi, struktur komunitas lintas lapisan dapat secara kolektif
untuk menjelaskan pola struktural.
digunakan untuk menemukan dan mengukur pola relasional yang mendasari
Setiap lapisan dalam jaringan multilayer menyediakan in-
antar node. Untuk mengekstrak informasi secara ringkas dari multilayer
formasi tentang interaksi antar node, dan itu berguna
jaringan, kami mengusulkan untuk mengidentifikasi dan menggabungkan set lapisan
untuk menanyakan apakah set lapisan memberikan informasi yang berlebihan
dengan kesamaan yang berarti dalam struktur komunitas. Di dalam
kertas, kami menjelaskan "model blok stokastik lapisan multilayer" kawin. Mengatasi pertanyaan ini membutuhkan pengembangan
(sMLSBM), model probabilistik untuk komunitas multilayer dari suatu pendekatan untuk memampatkan jaringan menjadi lapisan yang dikurangi
struktur. Perpanjangan sentral dari model ini adalah keberadaannya representasi sedemikian rupa sehingga secara efektif menyimpan informasi
kelompok lapisan, disebut "strata", yang didefinisikan sedemikian rupa dari jaringan multilayer asli. Dapat menggabungkan lapisan
lapisan dalam lapisan tertentu memiliki struktur komunitas yang dijelaskan berpotensi mengakibatkan hilangnya informasi, tetapi bisa juga
oleh model blok stokastik umum (SBM). Artinya, berlapis-lapis berhasil menguatkan keberadaan struktural yang mendasari
sebuah strata menunjukkan tugas node-to-community yang serupa dan
pola. Selain itu, hal ini dapat meningkatkan identifikasi
Parameter probabilitas SBM. Memasang sMLSBM ke multilayer
pola struktural, termasuk deteksi komunitas yang ditingkatkan
jaringan menyediakan pengelompokan bersama yang menghasilkan node-to-community
[7]. Gagasan tentang reduksi dalam jaringan multilayer telah
dan penugasan lapisan-ke-lapisan, yang secara kooperatif membantu seseorang
lain selama inferensi. Kami menjelaskan algoritme untuk sep- dieksplorasi dengan seksama di [8]: menggunakan gagasan teori-informasi
menempatkan lapisan ke dalam strata dan kesimpulan yang sesuai jarak antara pasangan lapisan jaringan, penulis melakukan-
teknik untuk memperkirakan parameter SBM untuk setiap strata. membentuk pengelompokan hierarki lapisan dan memilih partisi
Kami mendemonstrasikan metode kami menggunakan jaringan sintetis dan a yang memaksimalkan fungsi kualitas yang mencerminkan hilangnya informasi
jaringan multilayer disimpulkan dari data yang dikumpulkan di Manusia karena agregasi lapisan.
Proyek Microbiome. Terinspirasi oleh ide-ide di [8] yang sering mengelompokkan lapisan
memberikan informasi yang berlebihan, kami berusaha untuk mengeksplorasi ini lebih lanjut
Kata kunci - Model Blok Stochastic, Clustering, Multilayer
Jaringan, Strata, Model Probabilistik Ide untuk mengidentifikasi kumpulan lapisan, yang kami tunjukkan sebagai "strata",
dengan setiap lapisan dijelaskan oleh model probabilistik tunggal berdasarkan struktur
komunitas. Ini secara efektif sama dengan definisi lokal model jaringan probabilistik, dan
I. Saya PENDAHULUAN analog dengan masalah biclustering [9] atau co-clustering [10]. Selain itu, metode kami
dapat dianggap sebagai prosedur pengelompokan bersama, di mana node dan lapisan
Pemodelan informasi relasional antara sekumpulan entitas seringkali dapat
jaringan dikelompokkan secara bersamaan. Seperti pada [10], di mana tujuannya
berhasil dicapai melalui representasi jaringan. Di sini, entitas terkait dengan
adalah untuk menggabungkan kata-kata dan dokumen sehingga subkelompok
node dan edge yang mencerminkan beberapa koneksi di antara mereka. Dalam
dokumen kata bersama sesuai dengan topik tertentu, tujuan kami adalah untuk
banyak aplikasi, ada banyak cara untuk mendefinisikan suatu edge yang dapat
mengelompokkan lapisan jaringan sedemikian rupa sehingga setiap strata adalah
dianalisis secara kolektif untuk pemahaman data yang lebih menyeluruh.
sekumpulan lapisan dengan karakteristik struktur komunitas . Untuk mencapai tujuan
Jaringan multilayer menyediakan kerangka kerja untuk melakukan ini, di mana
ini, kami telah mengembangkan model blok stokastik strata multilayer (sMLSBM). Kami
setiap definisi relasional mengarah ke lapisan baru dalam jaringan [1], [2], [3].
juga menekankan bahwa dengan secara kolektif memanfaatkan lapisan serupa dengan
Data tersebut dan jaringan yang sesuai telah terbukti berguna dalam banyak
cara yang berprinsip, kami dapat mencapai deteksi komunitas yang lebih kuat dan
konteks, seperti, dalam perbandingan interaksi genetik dan protein-protein
inferensi parameter untuk model deteksi komunitas probabilistik yang menggambarkan
dalam sel [4], dalam memahami hubungan yang mendasari dan struktur
setiap lapisan.
komunitas di seluruh jaringan sosial [5], dan dalam analisis jaringan temporal
[6]. Selanjutnya, Kemajuan terbaru dalam dasar matematika untuk jaringan
multilayer telah membuat analisis jenis data ini lebih layak. Secara khusus, [3]
telah memperkenalkan formalisme matematika dengan tensor. Melakukannya
memungkinkan untuk kalkulasi kuantitas jaringan yang penting, seperti
sentralitas dan koefisien clustering, serta modularitas [6]. Jadi,
A. Perbandingan Jaringan Berdasarkan Struktur Komunitas
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.
Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya. Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
adalah, mengingat suatu kumpulan jaringan, seseorang bertujuan untuk mengidentifikasi memberikan probabilitas tepi yang ada di antara node yang diberikan
himpunan sedemikian rupa sehingga jaringan di dalam himpunan memiliki karakteristik dalam komunitas m dan n lainnya ∑ ode dalam komunitas n. Matriks Z
yang serupa. Karakteristik ini, atau "fitur" dalam konteks ini, dapat menggambarkan salah adalah N × K matriks indikator, di mana setiap entri biner Z saya m
satu dari berikut ini: properti struktural skala mikro seperti motif subgraf [11], [12]; properti menunjukkan apakah node saya ada di komunitas m. Setiap baris
K
multiskala seperti struktur komunitas [13], [14], [15], spektrum matriks terkait jaringan [16] dari Z dibatasi sedemikian rupa
dan dengan mendefinisikan peran laten [17]. Meskipun lapisan pengelompokan dalam hanya milik 1 komunitas. W m = 1 Z im = 1, yaitu setiap
e juga node vektor z, yang
mendefinisikan
jaringan multilayer terkait erat dengan jaringan pengelompokan dalam sebuah ansambel, memiliki entri z i = argmax.dll m { Z saya m} yang menunjukkan komunitas ke node mana saya
ini adalah masalah yang berbeda dengan kesulitan dan nuansa yang berbeda. Kami fokus milik. Untuk jaringan tertentu, parameter ini
pada pengejaran sebelumnya; namun, kami berharap untuk ansambel jaringan tertentu sering disimpulkan melalui pendekatan kemungkinan maksimum, dan setelah
yang akan bermanfaat untuk memodifikasi dan menerapkan metode kami untuk dipelajari, mereka memberikan informasi tentang di dalam dan di antara keterkaitan
pengelompokan jaringan. komunitas.
Dalam pekerjaan ini, kami menganalisis dan membandingkan lapisan B. Pekerjaan Terkait MBS Multilayer
dalam jaringan multi-lapisan berdasarkan struktur komunitasnya. Deteksi
Karena data jaringan tersebar di mana-mana dengan beberapa lapisan
komunitas dalam jaringan single-layer merupakan alat penting untuk
jaringan, deteksi komunitas dalam jaringan multilayer merupakan badan penelitian
memahami organisasi dan keterkaitan fungsional antara node dalam jaringan
yang penting. Petunjuk penting mencakup generalisasi ukuran modularitas [6] dan
[18], [19]. Meskipun ada banyak definisi untuk apa yang merupakan
mempelajari dinamika [30] untuk pengaturan yang lebih umum ini.
"komunitas" [20], orang sering mengasumsikan "komunitas assortatif" di mana
terdapat prevalensi edge antara node dalam komunitas yang sama
dibandingkan dengan jumlah edge yang menghubungkan node ini ke node. Mengingat kegunaan MBS untuk memahami organisasi node dalam jaringan
jaringan yang tersisa. Dalam upaya untuk mengidentifikasi komunitas tersebut, lapisan tunggal, penting untuk memperluas MBS ke kerangka multilayer, dan
banyak pendekatan telah diusulkan, termasuk yang didasarkan pada memang arah penelitian ini menerima perhatian yang semakin meningkat [7],
memaksimalkan ukuran modularitas [21] dan menyesuaikan model probabilistik [31], [32], [33], [34]. Dalam konteks ini, asumsi umum adalah bahwa ada pola
generatif [22]. Karena masing-masing pendekatan ini menghadirkan tantangan bersama dalam struktur komunitas di seluruh lapisan jaringan multilayer, dan
komputasi untuk mendeteksi komunitas secara efisien, tujuannya adalah untuk mendefinisikan dan mengidentifikasi model blok stokastik
yang menangkap struktur ini. Karya-karya ini telah mengeksplorasi banyak jenis
aplikasi yang dapat timbul yang melibatkan jaringan multilayer, dan oleh karena
itu memunculkan beberapa model pelengkap untuk model blok stokastik
Sementara pendekatan kami adalah untuk mendefinisikan model probabilistik multilayer (MLSBM). Sekarang kami secara singkat meringkas pekerjaan
untuk struktur komunitas multilayer, kami mencatat bahwa sebelumnya ada sebelumnya yang sangat terkait, tetapi sangat berbeda, dari model yang kami
pendekatan untuk memahami kesamaan dalam ansambel jaringan yang pelajari di sini.
didasarkan pada eksploitasi kesamaan dalam struktur komunitas antar jaringan.
Dalam [14], penulis berusaha untuk mempartisi sekelompok jaringan menjadi
subkelompok melalui pembangunan jaringan jaringan (NoN). Komunitas di NoN Dalam Referensi. [7], [31], [32], penulis mempelajari situasi di mana banyak
dipilih sedemikian rupa sehingga jaringan yang mewakili node cukup mirip dalam lapisan mengikuti dari satu MBS. Dalam hal ini, dimungkinkan untuk
struktur komunitas yang mendasarinya. Dalam satu aplikasi signifikan dari metode mendapatkan inferensi yang lebih baik dari parameter SBM dengan
ini, penulis mengelompokkan jaringan ko-ekspresi gen dan menemukan menggabungkan beberapa sampel dari satu model. Misalnya, di Ref. [7] penulis
peningkatan jumlah kategori pengayaan fungsional yang signifikan untuk proses menganggap semakin banyak lapisan, L, dan mengeksplorasi sifat asimtotik dari
biologis. Demikian pula, di [15], penulis mengeksplorasi kesamaan mesoscopic estimasi parameter MBS. Secara khusus, mereka memasang MBS ke setiap
antara lapisan menggunakan pendekatan teori informasional. Meskipun mereka lapisan individu dengan cara yang memanfaatkan informasi dari semua lapisan,
telah merancang metode mereka untuk menangani fitur arsitektur jaringan apa dan mereka menunjukkan konvergensi penduga ini ke nilai sebenarnya sebagai L
pun, mereka menyoroti kemampuan mereka untuk mengukur kesamaan antara → ∞. Untuk jaringan dengan L lapisan dan K komunitas di setiap lapisan,
lapisan jaringan berdasarkan tugas node-to-komunitas di lapisan. pendekatan mereka membutuhkan perkiraan matriks penugasan komunitas Z l dan
matriks probabilitas π l untuk setiap lapisan aku, yang terakhir melibatkan
pembelajaran K (K + 1) L / 2 Untuk tujuan ini, penulis memperluas pendekatan
variasional untuk mendekati perkiraan kemungkinan maksimum dari parameter
Dalam mencari pendekatan berbasis statistik untuk mempelajari SBM yang diperkenalkan dalam SBM lapisan tunggal yang diperkenalkan di [35]
komunitas dalam jaringan multilayer, kami mempertimbangkan model blok ke pengaturan multilayer.
stokastik (SBM) [27], model generatif yang populer untuk struktur komunitas
dalam jaringan. Asumsi MBS adalah bahwa node dalam komunitas tertentu
terkait dengan node di dalam dan di antara komunitas dengan cara yang sama,
sehingga memungkinkan MBS untuk menggambarkan beberapa jenis Ref. [7] diikuti oleh Ref. [31], di mana penulis membahas masalah yang
komunitas (misalnya, assortative, disassortative, core-periphery, dll. [20] , [28]). dapat muncul untuk model kapan K dan / atau
Ada banyak aspek menarik lainnya dari model blok stokastik; misalnya, L berukuran besar, atau jika jaringannya jarang. Mereka mengusulkan model yang
pendekatan berbasis model memungkinkan untuk denoising jaringan melalui dimodifikasi yang disebut model blok stokastik multilayer terbatas (rMLSBM). Dalam
penghapusan tepi palsu dan penambahan tepi yang hilang [22], [29]. Prosedur model ini, alih-alih mempelajari satu set
inferensi untuk memasang SBM ke jaringan yang tidak diarahkan N node dan K komunitas
dari L parameter independen, π l M N, untuk setiap pasangan, ( M N),
melibatkan mempelajari dua parameter, π setiap entri masuk π sepenuhnya bergantung pada lapisan sehingga menghasilkan
pengurangan jumlah parameter bebas. Secara khusus, untuk menentukan
probabilitas suatu edge antara node dari komunitas m dan simpul dari komunitas n di
dan Z. Parameter π adalah K × K matriks simetris, dimana π M N lapisan aku,
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.
Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya. Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
}
atau jenis tepi tertentu. Dalam model ini,
itu perlu dipelajari K (K + 1) / 2 + L parameter total. Dengan demikian, estimasi 11
kemungkinan maksimum untuk rMLSBM adalah estimator yang diatur.
{ π, z}
}
gabungan dari lapisan. Dengan menggunakan ini, mereka memperkirakan jumlah 22
seperti probabilitas marjinal dari penetapan node ke komunitas dan probabilitas edge di { π, z}
dalam dan di antara grup. Aspek menarik dari pendekatan mereka adalah bahwa
mereka memperkenalkan kovariat yang menangkap kopling antara pasangan node.
Untuk jaringan dengan K komunitas dan L
}
lapisan, ini membutuhkan estimasi ( 2 L - 1) K 2 + ( K - 1)
parameter. { π 3, z 3}
Kami meringkas Ref. [33] dan [34], yang menyediakan teknik untuk
menentukan apakah jaringan lapisan tunggal adalah hasil dari prosedur
agregasi dalam jaringan multilayer. Di Ref. [33], penulis mendefinisikan versi
model blok stokastik multilayer dan prosedur inferensi untuk menilai apakah
Gambar 1. Tujuan dari model blok stokastik strata multilayer (sMLSBM).
jaringan lapisan tunggal benar-benar diperoleh dari agregasi lapisan dalam
Masing-masing L = 9 jaringan di sini mewakili lapisan dalam jaringan multilayer. Setiap lapisan jaringan
jaringan multilayer; mereka mempertimbangkan agregasi lapisan menggunakan
memiliki N = 36 node yang konsisten di semua lapisan. Ada S = 3 strata seperti yang ditunjukkan oleh
aturan boolean. Ref. [34] menjelaskan dua kemungkinan proses generatif untuk tiga baris dan warna simpul. Jelasnya, lapisan jaringan dalam suatu lapisan menunjukkan kesamaan
jaringan multilayer: the tepi-kovariat dan lapisan independen model. Dalam yang kuat dalam struktur komunitas. Artinya, meskipun setiap lapisan mengikuti MBS dengan K =
model tepi-kovariat, jaringan teragregasi didefinisikan di mana tepi tertentu ( aku
3 komunitas, parameter MBS identik untuk lapisan dalam suatu strata tetapi berbeda antara lapisan
j) hanya muncul dalam satu lapisan. Mengumpulkan lapisan dalam jaringan
dalam strata yang berbeda. Kami ingin mempartisi layer menjadi strata yang sesuai dan mempelajari
multilayer menjadi representasi jaringan tunggal menggabungkan semua tepi parameter SBM yang terkait,
dari masing-masing lapisan. Jadi, penerjemahan ide ini ke dalam model π s dan Z s.
generatif melibatkan pemilihan keanggotaan lapisan untuk setiap tepi dan tepi
sampling dengan probabilitas yang dikondisikan pada node yang berdekatan.
Dalam model lapisan independen, lapisan dihasilkan secara independen satu
lapisan menjadi strata dan prosedur inferensi untuk mempelajari parameter MBS
sama lain dan satu-satunya kendala adalah keanggotaan grup node sama di
untuk setiap strata. Yang penting, kedua langkah ini — menetapkan node ke
semua lapisan.
komunitas dan lapisan ke strata — digabungkan dalam algoritme berulang sehingga
peningkatan dalam deteksi komunitas dapat mengarah pada peningkatan
pengelompokan lapisan ke dalam strata, yang secara berulang dapat mengarah
pada peningkatan lebih lanjut dalam komunitas deteksi, dan sebagainya.
Sementara motivasi untuk mengejar masalah ini berasal dari [8], kami
menunjukkan bahwa pendekatan kami tidak menyediakan metode untuk
Untuk mendeskripsikan model, algoritma untuk pemasangan model, dan
menggabungkan lapisan atau mengurangi jumlah lapisan dalam jaringan. Alih-alih, ia
performanya, sisa makalah ini disusun sebagai berikut. Dalam Sec. II, kami
dapat memampatkan jaringan karena parameter model blok stokastik yang dipelajari
mendefinisikan model dan algoritma untuk memasangnya. Dalam Sec. III, kami
untuk setiap strata dapat digunakan untuk menghasilkan jaringan sampel yang
melakukan eksperimen numerik pada jaringan sintetis. Dalam Sec. IV, kami
berfungsi sebagai konsensus untuk stratum tersebut.
menguji model pada jaringan korelasi yang dibangun dari data dari Human
Microbiome Project.
C. Kontribusi
Sementara literatur tentang MLSBM baru-baru ini berkembang pesat, masih II. S MLSBM: S TRATA M ULTILAYER S TOCHASTIC
diperlukan model generatif probabilistik yang memungkinkan lapisan dalam jaringan B MENGUNCI M ODEL
multilayer untuk dijelaskan oleh beberapa SBM. Untuk tujuan ini, kami
mengembangkan model blok stokastik multilayer baru, sMLSBM, yang menetapkan A. Definisi Jaringan
lapisan jaringan ke dalam kumpulan terpisah yang kami sebut strata, di mana
Membiarkan G (N, E) mendefinisikan satu jaringan dengan N node dan satu set edge yang
kumpulan lapisan dalam lapisan tertentu diasumsikan sebagai sampel dari model
tidak terarah, E = {( aku j)}. Kami mendefinisikan jaringan multipleks, yang merupakan salah satu
generatif dasar yang sama. Metode kami dapat dilihat sebagai prosedur
jenis jaringan multilayer [1], [2], dengan mendefinisikan satu set jaringan
pengelompokan bersama, di mana kami berusaha mengelompokkan lapisan menjadi l l
E ∈L
strata dan node ke dalam komunitas. Artinya, kami mencari untuk secara bersamaan
dan set L = { 1, 2, · w · Hai · rk l} ayers,
, L menunjukkan
G (N,), dimana l
indeks lapisan.
menemukan tugas lapisan-ke-lapisan dan node-ke-komunitas.
W
G 1, Gthe
G ed= {enote 2, · · c · ollecti} ,pada
G L Lmembentuk jaringan
lapisan sebagai satu set,multipleks dan
G, seperti yang
setiap elemen himpunan adalah jaringan yang mewakili sebuah lapisan. Selanjutnya, kami
Untuk menangani aplikasi praktis yang dapat melibatkan jaringan multilayer mendefinisikan A = { SEBUAH 1, SEBUAH 2, · · ·, SEBUAH L} untuk menjadi koresponden
dengan beberapa strata, lapisan, komunitas, dan node, kami memperkenalkan
algoritme yang mempartisi secara efektif. lapisan dalam G .menggunakan representasi matriks ketetanggaan jaringan
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.
Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya. Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
B. Definisi Model algoritma pengelompokan untuk memilih yang terbaik Y. Pendekatan rakus ini mengarah
pada pengurangan yang signifikan untuk ukuran ruang pencarian sejak itu saja Z harus
Di bawah sMLSBM, lapisan jaringan, G l ( N, E l) diasumsikan dihasilkan oleh
disimpulkan secara statistik. Secara khusus, selama Tahap I, kami menyimpulkan SBM
satu set S model blok stokastik, dimana lapisan dalam stratum s ∈ { 1, 2, · · ·, S},
untuk setiap lapisan dalam isolasi, dan kami mengelompokkan kumpulan lapisan yang
diberi parameter oleh π s dan Z s ( atau setara, vektor z s, yang
memiliki parameter SBM serupa. Menggunakan hasil ini sebagai kondisi awal dalam Fase
memiliki entri z s i = argmax.dll m { Z s saya m} ). Perhatikan bahwa parameternya II, kami mengembangkan metode iteratif yang secara bersama-sama mengidentifikasi
π s dan Z s karena satu lapisan adalah ⋃ alogous artinya
penugasan lapisan ke lapisan dan node ke komunitas serta parameter MBS untuk setiap
parameternya masing-masing dalam kasus SBM lapisan tunggal (lihat Bagian IA.). Untuk setiap
lapisan. Kami menyediakan skema algoritme pada Gambar. 2, dan di bawah ini kami
strata s, kami biarkan L s ⊆ L menunjukkan himpunan
menyajikan algoritme dua fase secara detail.
lapisan yang sesuai dengan s, maka L = s
L s dan ∅ = L s ∩L t
∑
untuk semua s, t ∈ { 1,. . . , S}, s 6 = t. Kami membiarkan L s = | L s | menunjukkan jumlah lapisan
dalam strata s sehingga kami mengizinkan jumlah komunitas, Tahap I. Tahap I terdiri dari dua bagian. Pertama, kami memasang SBM ke setiap lapisan
s L s = L. Akhirnya,
K s, untuk bervariasi di seluruh individu l ∈ { 1,. . . , L}, yang menghasilkan kesimpulan
lapisan. Parameter SBM π̂ l dan keanggotaan node-to-community
Untuk jaringan multilayer tertentu, tujuan kami selama interferensi adalah untuk Ẑ l. Kemudian kami mengelompokkan lapisan berdasarkan kesamaan
mengidentifikasi penetapan strata dari setiap lapisan π̂ l dan Ẑ l. Untuk menyimpulkan π̂ l dan Ẑ aku, kami menggunakan metode inferensi yang
a {nd untuk mempelajari kumpulan parameter strata, Π = dijelaskan dalam [35]. Di sini, penulis menggunakan teknik inferensi variasional untuk
π 1, π 2,. . . , π S} dan Z = { Z 1, Z 2,. . . Z S}. Yang terpelajar memperkirakan perkiraan kemungkinan maksimum untuk parameter model blok
Parameter SBM untuk sebuah stratum mewakili konsensus untuk lapisan yang terkait, stokastik. Untuk set L lapisan, ini menghasilkan set parameter SBM untuk setiap
dan dalam pengertian tersebut dapat diartikan sebagai pengurangan jumlah efektif lapisan, yang kami tunjukkan dengan ˆ
lapisan [8]. Namun, strata juga dapat diartikan sebagai cara untuk mengidentifikasi Π = { π̂ 1, π̂ 2,. . . , π̂ L} dan
lapisan yang memiliki kesamaan dalam struktur komunitas. Gambar 1 menunjukkan Z ˆ = { Ẑ 1, Ẑ 2,. . . Ẑ L} ( yaitu, pada tahap prosedur ini, setiap lapisan untuk sementara
contoh mainan dari jaringan multilayer dengan S = 3 strata, di mana setiap lapisan diperlakukan sebagai lapisannya sendiri). Catatan
memiliki N = 36 node dan K = 3 komunitas. Setiap jaringan individu dalam gambar ini
juga itu masing-masing ˆ l Z dapat secara ekuivalen diwakili oleh vektor
mewakili satu lapisan dalam jaringan. Simpul dalam lapisan yang dimiliki setiap lapisan
ẑ aku, seperti yang dijelaskan di Sec. IA. Menggunakan perkiraan π̂ l dan
diberi warna sesuai dengan keanggotaan lapisannya; Selain itu, mudah untuk melihat
bahwa lapisan dari suatu lapisan menunjukkan kemiripan yang tinggi dalam struktur
Ẑ l untuk lapisan tertentu, aku, kita bisa membuat yang sesuai
oleh lθ̂ ij = π̂ l . Melakukan ini untuk setiap lapisan menghasilkan sebuah koleksi
ẑ saya, ẑ j
1 2· · ·, θ̂ L}.
Sebagai bagian dari prosedur kami, kami menetapkan parameter lain yang kami dari matriks probabilitas kedekatan, Θ̂ = { θ̂, θ̂,
rujuk sebagai matriks probabilitas kedekatan, θ s, yang dapat dihitung dari π s dan Z s. Secara Sekarang, kami mencari partisi awal dari lapisan menjadi strata berdasarkan Θ̂. Tujuannya
matriks seperti itu θ s aku j memberikan probabilitas keunggulan antara { ˆθ}l dengan l ∈ L s dekat satu sama lain, tetapi jauh dari matriks yang tersisa, { ˆ l
node saya dan j di strata s. Itu adalah, θ s ij = π s z s,sayadimana
z js θ} dengan l ∈ L \ L s.
z saya
s
menentukan komunitas ∑ nomor ity untuk node saya di strata s.
Ini dilakukan dengan memperlakukan masing-masing ˆ l θ sebagai vektor fitur
Akhirnya, kami mendefinisikan matriks Y ukuran L × S, dimana sebuah entri
dan melamar k- berarti pengelompokan dengan S pusat untuk mengidentifikasi S lapisan,
Y ls adalah indikator biner dari apakah lapisan l ditugaskan
L s. Catat itu S bisa dipilih a priori,
ke strata s. Catat itu s Y ls = 1. Kami juga mendefinisikan vektor
atau didekati dengan ukuran seperti statistik gap [36]. Ini memberi kita perkiraan
y, yang memiliki entri y l = argmax.dll s { Y ls} untuk menunjukkan strata ke lapisan mana l
awal Ŷ untuk Y. Perhatikan bahwa prosedur ini awalnya memperlakukan setiap
milik.
lapisan sebagai lapisan terpisah, tetapi memberikan aglomerasi berprinsip lapisan
menjadi S ≤ L
C. Inferensi untuk sMLSBM
lapisan.
Prosedur untuk memasang sMLSBM ke jaringan tertentu memerlukan Tahap II. Setelah pendekatan lintasan pertama untuk menetapkan lapisan ke
pencarian keanggotaan lapisan-ke-strata dan keanggotaan node-ke-komunitas strata, kami menginisialisasi fase berulang untuk memperkirakan tugas
yang paling menggambarkan jaringan multilayer. Untuk kenyamanan notasi, kami lapisan-ke-lapisan secara lebih efektif serta parameter model. Secara khusus,
memperkenalkan notasi hat untuk mewakili estimasi parameter yang dipelajari kami ingin menemukan konsensus SBM untuk setiap strata — yaitu, K s × K s matriks
dari inferensi π s dan
prosedur. Kita dapat menulis menurunkan kemungkinan marjinal untuk N × K s matriks Z s yang memaksimalkan kemungkinan lapisan yang diamati di setiap lapisan.
ers, ∑G, sebagai, Kami membiarkan SEBUAH s = { SEBUAH l} untuk l ∈ L s menunjukkan kumpulan matriks
kumpulan jaringan awam ∑ kedekatan yang sesuai dengan L s
p ( G | Π) = p ( G, Z, Y | Π). (1)
lapisan dalam lapisan s.
Z Y
Kami sekarang melanjutkan untuk memaksimalkan kemungkinan di setiap strata,
Kami mengasumsikan probabilitas tepi antara dua node dalam lapisan l milik
dengan memperluas kerangka Ref. [35] ke konteks multilayer. Perhatikan bahwa ini mirip
strata s dapat dimodelkan sebagai variabel acak Bernoulli, berdasarkan
dengan Ref. [7], kecuali bahwa kami tidak bertujuan untuk menyimpulkan matriks
keanggotaan komunitas dari
probabilitas MBS untuk setiap lapisan, secara individual. Secara khusus, kemungkinan log
node. Khususnya, p (A l ij = 1) ∼ Bernoulli ( π s rching
z saya jz). over data lengkap untuk strata s dapat ditulis sebagai,
Sejak Y dan Z keduanya kuantitas laten, laut
semua nilai yang mungkin dengan cepat menjadi tidak bisa diubah. Untuk mengatasi masalah ini, kami
mengembangkan algoritme dua fase yang menggabungkan a p ( SEBUAH s, Z s) = p ( SEBUAH s | Z s) p ( Z s), (2)
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.
Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya. Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
Fase & I & kasus jaringan. Untuk mengatasi tantangan ini, kami menggunakan pendekatan variasional,
Menghitung& k Amean & cluster & semua " analog dengan pendekatan dalam [7], [32], [35]. Secara umum, pendekatan variasional
Fit & SBM & untuk & masing-masing &
jaringan & lapisan & ✓ ( ẑ, ⇡̂) ✓ berusaha untuk mengoptimalkan yang lebih rendah
secara individu && untuk & setiap & lapisan & ke" S " lapisan& terikat pada kemungkinan log. T ∏ ya ini, kami pertama kali memperkirakan
R SEBUAH
s ( Z s) = h ( Z ssaya ·; τ saya ·). (6)
saya
dimana
s
∏ ∏∏ l
- τ ssaya m catatan( τ saya m).
p ( As Z| s) = π Ms ANaku j ( 1 - π s) ( 1 - SEBUAH
MN l
aku j).
(3) saya m
l ∈L s i <j mn
Sekarang kita bisa membedakan J ( R SEBUAH s) sehubungan dengan setiap parameter —
Untuk menulis p ( Z s), memperkenalkan parameter baru akan sangat membantu α s m saat menggunakan pengali Lagrange untuk menegakkan
yang mewakili probabilitas bahwa node yang dipilih secara acak
strain (yaitu probabilitas yang berjumlah 1) —untuk menghitung
di strata s b ∑ memanjang ke com ∏mu ∏
nity m, yaitu α s m=p (Z s im = 1). pembaruan. Melakukannya akan menghasilkan ∑berikut, letak notasi topi
Catat itu α s = 1. Dengan menggunakan parameter ini, kita bisa menulis melambangkan perkiraan terbaik saat ini untuk parameter yang diberikan:
mm
s s
s
α̂ m = ∑ τ̂ saya m/ N, (9)
p ( Z s) = α sm(Z saya m) . (4)
saya ∑
saya m
∑∑
Oleh karena itu, kemungkinan log-data lengkap untuk matriks kecocokan yang s l ∈L s i <j τ̂ s saya m τ̂jns SEBUAH
aku j , l
π̂ qt = (10)
mewakili lapisan dalam stratum. s dapat dinyatakan sebagai, l
τ̂ s τ̂ s
i <j im jn
∏ ∏∏ ∈L s
τ̂ saya
s ∝ mα̂ s [ π̂Ms NA l aku j ( 1 - π̂ s) 1 - SEBUAH l] aku j τ̂ s jn.
(11)
s Z)) m MN
catatan P ( SEBUAH s, Z s) = l ∑ og (P
∑ ( Z s)) + catatan( P ( A |s
l ∈L s i <jn
=∑ Z s saya
catatan( αs m)
m
Untuk menemukan perkiraan terbaik untuk τ̂ s dan π̂ s, kami bergantian antara
saya ∑∑
m ∑ SEBUAH l
memperbarui τ̂ s dan π̂ s sampai konvergensi. Ketika konvergensi telah terjadi, kami
+ (5) mengacu pada perkiraan yang dihasilkan sebagai persetujuan τ s dan π s untuk strata s. Demikian
aku j catatan( πMs N)
l ∈L s i <j mn pula, Z s mewakili matriks indikator konsensus dari tugas node-ke-komunitas yang dihitung
∑∑
dari τ s. Perhatikan bahwa kami menggunakan notasi batang untuk mencerminkan bahwa
+ (1 - SEBUAH
aku j
l) log (1 - π s).
MN
estimasi parameter tertentu adalah untuk lapisan, bukan untuk lapisan individu.
l ∈L s i <j mn
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.
Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya. Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
aku, yang kami tunjukkan dengan tilde dan karenanya, π̃ l dan τ̃ l. Begitu pula untuk tetap namun, kami tidak mengamati masalah ini dalam eksperimen data sintetis atau
π s, kami menghitung tugas node-ke-komunitas nyata kami. Seperti yang akan kita tunjukkan di bagian berikut, konvergensi
τ̃ l. Estimasi tersebut memungkinkan kami untuk menentukan apakah estimasi biasanya diamati hanya setelah beberapa iterasi (misalnya, lihat, misalnya, baris
konsensus strata merupakan estimasi akurat untuk MBS dari setiap lapisan strata. kedua dari Gambar 4). Jika masalah seperti itu muncul, mungkin berguna untuk
Lebih penting lagi, seperti yang akan kita gambarkan sekarang, perkiraan khusus membatasi jumlah iterasi di Tahap II.
lapisan ini memungkinkan kita untuk merancang algoritme berulang yang
memungkinkan pergantian antara mempelajari tugas node-to-community dan
layer-to-stratum. AKU AKU AKU. S YNTHETIC D ATA E PENGALAMAN
Setelah lulus tunggal Tahap II, yang membutuhkan tugas lapisan-ke-strata (yang Gambar 3 (C) menunjukkan rata-rata NMI untuk tugas komunitas di seluruh lapisan.
dapat dikodekan oleh vektor y) sebagai masukan, algoritme menghasilkan (idealnya) Memang, efek dari pemasangan model yang salah ke kumpulan lapisan dalam hal
tugas lapisan-ke-lapisan yang lebih baik (serta perkiraan konsensus untuk parameter kemampuan untuk memperkirakan secara efektif parameter MBS dan tugas komunitas
SBM dari lapisan tersebut, τ s dan π s). Oleh karena itu, Tahap II melibatkan terlihat jelas. Secara khusus, pemasangan model SBM tunggal menghasilkan inferensi
pengulangan prosedur di atas sampai penugasan lapisan-ke-lapisan tidak berubah. rata-rata yang lebih besar dan kesalahan penugasan komunitas, dibandingkan dengan
Kami mencatat bahwa pada prinsipnya, adalah mungkin bagi strata baru untuk muncul pemasangan SBM lapisan tunggal dan 3 strata sMLSBM. Dengan kata lain, sMLSBM
di setiap iterasi (yaitu, karena kami membuat strata untuk menghindari keanggotaan menyediakan pengelompokan yang efisien ke dalam strata hanya jika lapisan tersebut
lapisan campuran), dan ini dapat memungkinkan jumlah strata bertambah dengan benar-benar terkait (yaitu dihasilkan dari MBS yang sama), jika tidak, setiap lapisan
setiap iterasi; adalah strata tersendiri.
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.
Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya. Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
Kami menyajikan hasil untuk percobaan ini pada Gambar. 4, di mana kolom kiri
SEBUAH.
dan kanan memberikan hasil L = 10 dan L = 100,
masing-masing.
Simbol di setiap plot mewakili rata-rata lebih dari 50 jaringan multilayer, dan bilah
kesalahan menunjukkan kesalahan standar. Di setiap plot, garis putus-putus vertikal
menunjukkan N (hal 2
di - p2
mewakili titik di mana dua lapisan tersebut berada keluar) = 10, yang
tidak bisa dibedakan
Stratum 1 Stratum 2 Stratum 3
sejak ( p 1 di, p 1 keluar) = ( p2 di, p 2
B. C. antara layer-to-s yang sebenarnya di luar). Padatrata tugas
Gambar 4 (A),dan
kamiyang disimpulkan
menunjukkan NMI
0.4
1.00
oleh sMLSBM, atau NMI ( Y y). Sebagai dasar, kami membandingkan hasil sMSLBM untuk
langsung mengelompokkan matriks ketetanggaan lapisan menggunakan k- berarti
0.3 0.75
algoritma dengan K = 2. Kami secara konsisten mengamati NMI yang lebih tinggi sebagai
hasil dari sMLSBM dibandingkan dengan k- cara. Lebih menarik lagi adalah kasus dengan
0.2 0,50
Berarti π Kesalahan Inferensi
L = 100, dimana keduanya k- Mean dan sMLSBM bekerja paling tidak cukup
0.1 0.25
baik pada partisi layer menjadi strata sebelum titik dimana strata tidak dapat
dibedakan. Dalam Gambar 4 (B), kami memplot jumlah iterasi (NOI) yang
0.0 0,00 diperlukan untuk Fase II dari algoritme kami untuk bertemu. Kami mengamati
bahwa ketika jumlah lapisan dalam jaringan meningkat, begitu pula jumlah
SBM tunggal SBM Lapisan Tunggal sMLSBM SBM tunggal SBM Lapisan Tunggal sMLSBM
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.
Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya. Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
Kami menunjukkan 6 strata ini dengan kotak berwarna pada Gambar. 5. Kami mencatat
bahwa karena stokastisitas k-means dalam algoritme kami, komunitas dan strata oleh sMLSBM
dapat bervariasi dari satu realisasi ke realisasi berikutnya. Penugasan strata yang ditampilkan
mencerminkan penugasan yang diamati untuk menghasilkan kemungkinan log tertinggi.
Untuk mengukur kinerja saya tho d , w e compa kembali d strata mem b hasil ership ke
hie ra rc h yo b diwarnai sebagai bagian dari reducibil saya t Metode y dikembangkan saya n
[8]. Untuk melakukan ini, kami mengikuti langkah-langkah berikut:
Gambar 4. Eksperimen sintetis dengan dua strata. W e dilakukan num e rical
percobaan dengan jaringan multilayer dengan N = 128 node, derajat rata-rata
c = 16, S = 2 strata dan K 1 = K 2 = 4 c komunitas. T dia jaringan berisi baik L = 10 ( kolom kiri) atau L = 100 1) Hitung matriks Laplacian yang dinormalisasi untuk masing-masing dari 18
lapisan (kolom kanan), yang dibagi rata menjadi dua str Sebuah ta. Untuk str di um 1, kami tetap
jaringan situs badan s ;
2) Hitung nilai eigen untuk setiap matriks Laplasia yang dinormalisasi;
kuantitas N (hal 1 di - p1 keluar) = 10, yang sangat spesifik ( p 1 di, p 1 di luar) sejak
pengaturan c = 16 juga membatasi p ini Sebuah rameter s. Di Sebaliknya, kami berbeda-beda
N (hal 2
di - p2 di luar). SEBUAH. Sebagai fungsi dari N (hal 2 di - p2 Hai ut ) , kami merencanakan maksudnya
3) Gunakan nilai eigen ini untuk c Hai matikan entropi Von Neumann f atau
NMI untuk menafsirkan e • kemampuan sMLSBM untuk mengingat v eh tugas lapisan-ke-strata yang lapisan individu dan pasangan lapisan;
sebenarnya. Kami datang mengurangi th e p erfor m Sebuah n ce dari sMLSBM (kurva ungu) menjadi generik k- berarti
4) Menggunakan th e Von Neumann entropies untuk menghitung Jensen- Shannon d aku s t Sebuah
s clu steri ng (g kembali e n s ymbols) dari matriks kedekatan. B. Kami memplot jumlah rata-rata iterasi (NOI) yang
nces be twe dalam pasangan jaringan; dan
diperlukan untuk Fase II dari algoritme kami (lihat Bagian II-C) untuk menyatu. C. Terakhir, kami mengukur
kualitas hasil penugasan node-ke-komunitas dengan memplot nilai rata-rata NMI antara penugasan 5) Lakukan pengelompokan hierarkis menggunakan jarak Jensen-Shannon
node-to-community yang sebenarnya dan yang disimpulkan dengan sMLSBM di stratum 1 (simbol merah) dan dan hubungan Lingkungan.
stratum 2 (simbol biru).
satu koneksi ti ng tepi w e ight va lu e di lapisan di atas ambang batas 0,15. Ini Pada Gambar 6 , kita saya llustrat e lapisan jaringan untuk 4 dari 6 strata yang kami
menghasilkan N = 213 OTU (node) unik untuk identifikasi untuk menyoroti satu keuntungan dari memiliki
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.
Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya. Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
Cluster Dendrogram
tenggorokan
Tinggi
pertengahan vagina
bangku
air liur
langit-langit keras
amandel palatine
nares anterior
fornix posterior
introitus vagina
mukosa bukal
gingiva berkeratin
lidah dorsum
l fossa antekubiti
l lipatan retroaurikuler
r fossa antekubiti
r lipatan retroaurikuler
plak subgingiva
plak supragingiva
Gambar. 5. Perbandingan sMLSBM pada jaringan interaksi OTU [42] untuk masing-masing situs tubuh ke hierarki reduksi [8]. Seperti yang dijelaskan dalam teks, kami menganggap jaringan multipleks dengan L = 18 lapisan
dan N = 213 sebagai n . d Hai saya d s e t ( s D st Shebuah
saya w saya n c c h eM
, w Sebuah e t) kelompok di sini menjadi S = 6 strata, sedangkan dendrogram dibuat
dengan metode yang digunakan sebagai pendahulu kerangka redusibilitas. Kotak berwarna di sekitar daun dendrogram menunjukkan situs tubuh untuk tugas strata yang diperoleh dengan sMLSBM.
model generatif probabilistik untuk komposisi mikroba yang dibagikan dalam dan sebaliknya. Kami telah menunjukkan untuk jaringan multipleks dengan beberapa strata
subset situs tubuh. Secara khusus, setiap baris memberikan informasi tentang (misalnya, lihat Gambar 3) bahwa ketidakakuratan dapat muncul jika seseorang mencoba
lapisan jaringan dan model sMLSBM yang sesuai untuk lapisan tertentu. Setiap untuk memasang satu MBS ke jaringan atau mempelajari lapisan jaringan secara terpisah.
grid dalam gambar mewakili interaksi pengkodean matriks kedekatan biner Sebaliknya, model kami memungkinkan pemahaman tentang kesamaan antar lapisan
antara OTU: titik berwarna pada posisi ( aku j) menunjukkan keberadaan tepi ( aku dalam jaringan, dalam hal struktur komunitasnya.
j) di lapisan jaringan yang sesuai. Di kolom pertama dari setiap baris adalah
jaringan sampel yang dibuat dengan parameter SBM yang dipelajari dari strata Kemampuan untuk mengidentifikasi strata dalam kumpulan lapisan jaringan
itu, π s dan menjanjikan dalam banyak aplikasi. Salah satu aplikasi yang memotivasi adalah
redusibilitas jaringan, di mana seseorang memampatkan jaringan multilayer dengan
Z s. Kolom 2 dan 3 menunjukkan dua lapisan jaringan yang representatif di dalam menggabungkan lapisan yang serupa [8]. Kami menekankan bahwa meskipun
strata. Perhatikan bahwa sementara beberapa strata memiliki lebih dari dua redusibilitas adalah upaya yang terkait erat, hal ini pada dasarnya berbeda dari upaya
anggota, untuk tujuan ilustrasi kami hanya menampilkan dua contoh lapisan. Sangat pengelompokan bersama untuk mengidentifikasi komunitas dan strata secara
mudah untuk melihat struktur blok yang sangat mirip antara semua jaringan pada bersamaan. Secara khusus, pendekatan kami tidak menyediakan metode untuk
baris tertentu, yang menguatkan kegunaan pendekatan sMLSBM. Terakhir, kami menggabungkan lapisan. Sebaliknya, sMLSBM memampatkan informasi jaringan
menyoroti kegunaan pemasangan sMLSBM ke jaringan multilayer ini karena setiap dalam arti bahwa parameter MBS yang dipelajari mewakili konsensus untuk setiap
strata menjelaskan pemahaman mekanistik tentang hubungan antara kelompok strata, dan parameter konsensus tersebut dapat digunakan untuk menghasilkan
OTU, yang dapat menginspirasi pemahaman atau penyelidikan biologis lebih lanjut. jaringan sampel yang representatif untuk stratum tersebut. Untuk aplikasi yang
memerlukan agregasi lapisan, ada berbagai cara untuk menggabungkan lapisan
dalam suatu strata. Lihat, sebagai contoh, Ref. [44], di mana penulis mengeksplorasi
efek pada struktur komunitas untuk metode agregasi yang berbeda. Kami menyoroti
V. C KESIMPULAN DAN F UTURE W ORK bahwa pendekatan pemodelan sMLSBM sesuai dalam situasi di mana seseorang
mencari model generatif untuk struktur komunitas, dan mungkin sangat sesuai ketika
Kami mengembangkan model baru untuk model blok stokastik multilayer
bukti khusus aplikasi menunjukkan bahwa subset jaringan memiliki perbedaan
(MLSBM) dan algoritma terkait untuk bersama-sama mempartisi lapisan ke dalam
karakteristik dalam struktur komunitas.
strata dan node ke dalam komunitas. Model kami mengasumsikan bahwa lapisan
yang termasuk dalam suatu lapisan memiliki struktur komunitas yang mengikuti MBS
dasar yang sama. Untuk menyesuaikan sMLSBM ke jaringan multilayer, dan lebih
khusus lagi, jaringan multipleks, kami secara bergantian menata ulang penugasan
Perbandingan sMLSBM kami dengan metode redusibilitas Ref. [8] (lihat
lapisan-ke-strata dan memperbarui parameter model untuk setiap strata. Memiliki
Gambar 5) untuk aplikasi mempelajari jaringan interaksi mikroba
banyak jaringan dalam satu strata — karenanya banyak realisasi dari beberapa
mengungkapkan beberapa ekstensi ke sMLSBM yang dapat membuat
model yang mendasarinya — membantu membuat inferensi lebih akurat. Khususnya,
pendekatan lebih akurat dan berlaku untuk aplikasi yang lebih luas. Pertama,
penugasan node-to-community yang lebih akurat dalam suatu strata mengarah pada
metode reduksi [8] tidak membutuhkan jaringan untuk tidak diarahkan dan tidak
estimasi yang lebih baik dari parameter probabilitas MBS, dan
berbobot, dan itu bisa sangat berguna untuk memperluas kerangka sMLSBM
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.
Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya. Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
R EFERENSI
[9] SC Madeira dan AL Oliveira, “Algoritme biclustering untuk analisis data biologis: survei”, Transaksi
IEEE / ACM pada Computational Biology and Bioinformatics (TCBB), vol. 1, tidak. 1, hlm.
24–45, 2004.
ke jaringan tertimbang dan diarahkan mengikuti ekstensi untuk lapisan tunggal [10] IS Dhillon, “Mengelompokkan dokumen dan kata-kata menggunakan partisi graf spektrum
SBM, seperti yang dikembangkan masing-masing dalam [45] dan [46]. Ini juga bipartit,” di Prosiding konferensi internasional ACM SIGKDD ketujuh tentang penemuan
akan berguna untuk memperluas ke komunitas yang dikoreksi derajat dan Pengetahuan dan penggalian data.
tumpang tindih (yaitu, keanggotaan campuran) [47], serta keanggotaan lapisan ACM, 2001, hlm. 269–274.
campuran ke dalam strata. Selain itu, contoh Human Microbiome [11] J. Ugander, L. Backstrom, dan J. Kleinberg, "Frekuensi subgraf: Pemetaan geografi empiris
dan ekstrem dari kumpulan grafik besar," di Prosiding konferensi internasional ke-22 di World
mengungkapkan beberapa pertanyaan biologis menarik yang dapat memfasilitasi
Wide Web.
pengembangan alat jaringan yang lebih canggih. Untuk membangun jaringan Pengarah Konferensi Internasional World Wide Web
multilayer, tepi negatif dijauhkan; Namun, hubungan antagonis antara mikroba Komite, 2013, hlm. 1307–1318.
diketahui penting [48]. Oleh karena itu, akan berguna untuk mengembangkan [12] K. Tsuda dan T. Kudo, "Mengelompokkan grafik berdasarkan penambangan substruktur
versi sMLSBM bertanda tangan yang memungkinkan edge menjadi positif atau berbobot," di Prosiding konferensi internasional ke-23 tentang pembelajaran mesin. ACM, 2006,
[13] J.-P. Onnela, DJ Fenn, S. Reid, MA Porter, PJ Mucha, MD Fricker, dan NS Jones,
“Taksonomi jaringan dari struktur komunitas,” Review Fisik E, vol. 86, tidak. 3, hal. 036104,
Munculnya sejumlah besar kumpulan data jaringan multilayer memberikan
2012.
kebutuhan akan alat tambahan untuk pembangunan dan analisis jaringan semacam
[14] J. Ni, H. Tong, W. Fan, dan X. Zhang, "Pengelompokan multi-jaringan yang fleksibel dan
itu. SMLSBM menyediakan metode baru untuk menemukan sinyal dalam data
kuat," di Prosiding Konferensi Internasional ACM SIGKDD ke-21 tentang Penemuan
jaringan yang kompleks dan berisik. Pengetahuan dan Penambangan Data. ACM,
2015, hlm. 835–844.
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.
Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya. Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
[15] J. Iacovacci, Z. Wu, dan G. Bianconi, "Struktur mesoskopik mengungkapkan jaringan antara [38] L. Danon, A. Diaz-Guilera, J. Duch, dan A. Arenas, "Membandingkan identifikasi struktur
lapisan set data multipleks," arXiv pracetak arXiv: 1505.03824, 2015. komunitas", Jurnal Mekanika Statistik: Teori dan Eksperimen, vol. 2005, no. 09, hal. P09008,
2005.
[16] U. Brandes, J. Lerner, U. Nagel, dan B. Nick, "Tren struktural dalam ansambel jaringan," di Jaringan [39] A. Decelle, F. Krzakala, C. Moore, dan L. Zdeborová, "Inferensi dan transisi fase dalam
yang kompleks. Springer, 2009, hlm. 83–97. mendeteksi modul di jaringan yang jarang",
[17] U. Brandes, J. Lerner, dan U. Nagel, "Pengelompokan ansambel jaringan menggunakan peran
Surat Ulasan Fisik, vol. 107, tidak. 6, hal. 065701, 2011.
laten", Kemajuan dalam Analisis Data dan Klasifikasi, vol. 5, tidak. 2, hlm. 81–94, 2011. [40] PJ Turnbaugh, RE Ley, M. Hamady, CM Fraser-Liggett, R. Knight, dan JI Gordon, “Proyek
mikrobioma manusia,” Alam, vol. 449, tidak. 7164, hlm.804–810, 2007.
[20] MP Rombach, MA Porter, JH Fowler, dan PJ Mucha, “Struktur periferal inti dalam jaringan”, Jurnal
[42] J. Friedman dan EJ Alm, "Mengganggu jaringan korelasi dari data survei genom", Biologi
SIAM tentang Matematika Terapan, vol. 74, tidak. 1, hlm. 167–190, 2014.
komputasi PLoS, vol. 8, tidak. 9, hal. e1002687, 2012.
[22] AZ Jacobs dan A. Clauset, "Pandangan terpadu tentang model generatif untuk jaringan:
[44] D. Taylor, S. Shai, N. Stanley, dan PJ Mucha, "Peningkatan pendeteksian struktur komunitas
model, metode, peluang, dan tantangan," arXiv pracetak arXiv: 1411.4070, 2014.
di jaringan multilayer melalui agregasi lapisan," pracetak arXiv arXiv: 1511.05271, 2015.
[27] TA Snijders dan K. Nowicki, “Estimasi dan prediksi model blok stokastik untuk grafik dengan
struktur blok laten,” Jurnal klasifikasi, vol. 14, tidak. 1, hlm. 75–100, 1997.
[28] C. Aicher, AZ Jacobs, dan A. Clauset, "Mempelajari struktur blok laten dalam jaringan
berbobot", Jurnal Jaringan Kompleks, vol. 3, tidak. 2, hlm. 221–248, 2015.
[29] R. Guimerà dan M. Sales-Pardo, "Interaksi yang hilang dan palsu serta rekonstruksi jaringan
yang kompleks", Prosiding National Academy of Sciences, vol. 106, tidak. 52, hlm. 22 073–22
078, 2009.
[30] M. De Domenico, A. Lancichinetti, A. Arenas, dan M. Rosvall, “Mengidentifikasi aliran modular pada
jaringan multilayer mengungkapkan organisasi yang sangat tumpang tindih dalam sistem yang saling
berhubungan,” Review Fisik X, vol. 5, tidak. 1, hal. 011027, 2015.
[31] S. Paul dan Y. Chen, “Deteksi komunitas dalam data multi-relasional dengan model blok
stokastik multi-layer terbatas,” arXiv pracetak arXiv: 1506.02699, 2015.
[32] P. Barbillon, S. Donnet, E. Lazega, dan A. Bar-Hen, "Model blok stokastik untuk jaringan
multipleks: aplikasi untuk jaringan peneliti," pracetak arXiv arXiv: 1501.06444, 2015.
[35] J.-J. Daudin, F. Picard, dan S. Robin, "Model campuran untuk grafik acak", Statistik dan
komputasi, vol. 18, tidak. 2, hlm. 173–183, 2008.
[36] R. Tibshirani, G. Walther, dan T. Hastie, "Memperkirakan jumlah cluster dalam kumpulan
data melalui statistik gap", Jurnal Royal Statistics Society: Seri B (Metodologi Statistik), vol.
63, tidak. 2, hlm. 411–423, 2001.
[37] AP Dempster, NM Laird, dan DB Rubin, "Kemungkinan maksimum dari data yang tidak
lengkap melalui algoritme em", Jurnal masyarakat statistik kerajaan. Seri B (metodologis), hlm.
1–38, 1977.
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.