Clustering Network Layers With The Strata Multilayer Stochastic Block Model - En.id

Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya.
Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
Transaksi pada Ilmu dan Teknik Jaringan
Mengelompokkan lapisan jaringan dengan strata multilayer

model blok stokastik
Natalie Stanley ∗ †, Saray Shai †, Dane Taylor †, Peter J. Mucha †

∗ Kurikulum Bioinformatika dan Biologi Komputasi
† Carolina Center for Interdisciplinary Applied Mathematics, Department of Mathematics,
Universitas Carolina Utara, Chapel Hill

stanleyn@email.unc.edu , {sshai, taylordr}@live.unc.edu, mucha@unc.edu
Abstrak —Jaringan multilayer adalah struktur data yang berguna untuk mengingat multipleksitas yang melekat dari data jaringan di seluruh bidang
secara bersamaan menangkap beberapa tipe hubungan antara serta perkembangan teoritis terkini untuk penanganannya
satu set node. Dalam jaringan seperti itu, setiap definisi relasional jenis data, ada kebutuhan untuk pengembangan
menimbulkan lapisan. Sementara setiap lapisan menyediakan setnya sendiri
alat yang tepat yang dapat memanfaatkan informasi dari semua lapisan
informasi, struktur komunitas lintas lapisan dapat secara kolektif
untuk menjelaskan pola struktural.
digunakan untuk menemukan dan mengukur pola relasional yang mendasari
Setiap lapisan dalam jaringan multilayer menyediakan in-
antar node. Untuk mengekstrak informasi secara ringkas dari multilayer
formasi tentang interaksi antar node, dan itu berguna
jaringan, kami mengusulkan untuk mengidentifikasi dan menggabungkan set lapisan
untuk menanyakan apakah set lapisan memberikan informasi yang berlebihan
dengan kesamaan yang berarti dalam struktur komunitas. Di dalam
kertas, kami menjelaskan "model blok stokastik lapisan multilayer" kawin. Mengatasi pertanyaan ini membutuhkan pengembangan
(sMLSBM), model probabilistik untuk komunitas multilayer dari suatu pendekatan untuk memampatkan jaringan menjadi lapisan yang dikurangi
struktur. Perpanjangan sentral dari model ini adalah keberadaannya representasi sedemikian rupa sehingga secara efektif menyimpan informasi
kelompok lapisan, disebut "strata", yang didefinisikan sedemikian rupa dari jaringan multilayer asli. Dapat menggabungkan lapisan
lapisan dalam lapisan tertentu memiliki struktur komunitas yang dijelaskan berpotensi mengakibatkan hilangnya informasi, tetapi bisa juga
oleh model blok stokastik umum (SBM). Artinya, berlapis-lapis berhasil menguatkan keberadaan struktural yang mendasari
sebuah strata menunjukkan tugas node-to-community yang serupa dan
pola. Selain itu, hal ini dapat meningkatkan identifikasi
Parameter probabilitas SBM. Memasang sMLSBM ke multilayer
pola struktural, termasuk deteksi komunitas yang ditingkatkan
jaringan menyediakan pengelompokan bersama yang menghasilkan node-to-community
[7]. Gagasan tentang reduksi dalam jaringan multilayer telah
dan penugasan lapisan-ke-lapisan, yang secara kooperatif membantu seseorang
lain selama inferensi. Kami menjelaskan algoritme untuk sep- dieksplorasi dengan seksama di [8]: menggunakan gagasan teori-informasi
menempatkan lapisan ke dalam strata dan kesimpulan yang sesuai jarak antara pasangan lapisan jaringan, penulis melakukan-
teknik untuk memperkirakan parameter SBM untuk setiap strata. membentuk pengelompokan hierarki lapisan dan memilih partisi
Kami mendemonstrasikan metode kami menggunakan jaringan sintetis dan a yang memaksimalkan fungsi kualitas yang mencerminkan hilangnya informasi
jaringan multilayer disimpulkan dari data yang dikumpulkan di Manusia karena agregasi lapisan.
Proyek Microbiome. Terinspirasi oleh ide-ide di [8] yang sering mengelompokkan lapisan
memberikan informasi yang berlebihan, kami berusaha untuk mengeksplorasi ini lebih lanjut
Kata kunci - Model Blok Stochastic, Clustering, Multilayer
Jaringan, Strata, Model Probabilistik Ide untuk mengidentifikasi kumpulan lapisan, yang kami tunjukkan sebagai "strata",
dengan setiap lapisan dijelaskan oleh model probabilistik tunggal berdasarkan struktur
komunitas. Ini secara efektif sama dengan definisi lokal model jaringan probabilistik, dan
I. Saya PENDAHULUAN analog dengan masalah biclustering [9] atau co-clustering [10]. Selain itu, metode kami
dapat dianggap sebagai prosedur pengelompokan bersama, di mana node dan lapisan
Pemodelan informasi relasional antara sekumpulan entitas seringkali dapat
jaringan dikelompokkan secara bersamaan. Seperti pada [10], di mana tujuannya
berhasil dicapai melalui representasi jaringan. Di sini, entitas terkait dengan
adalah untuk menggabungkan kata-kata dan dokumen sehingga subkelompok
node dan edge yang mencerminkan beberapa koneksi di antara mereka. Dalam
dokumen kata bersama sesuai dengan topik tertentu, tujuan kami adalah untuk
banyak aplikasi, ada banyak cara untuk mendefinisikan suatu edge yang dapat
mengelompokkan lapisan jaringan sedemikian rupa sehingga setiap strata adalah
dianalisis secara kolektif untuk pemahaman data yang lebih menyeluruh.
sekumpulan lapisan dengan karakteristik struktur komunitas . Untuk mencapai tujuan
Jaringan multilayer menyediakan kerangka kerja untuk melakukan ini, di mana
ini, kami telah mengembangkan model blok stokastik strata multilayer (sMLSBM). Kami
setiap definisi relasional mengarah ke lapisan baru dalam jaringan [1], [2], [3].
juga menekankan bahwa dengan secara kolektif memanfaatkan lapisan serupa dengan
Data tersebut dan jaringan yang sesuai telah terbukti berguna dalam banyak
cara yang berprinsip, kami dapat mencapai deteksi komunitas yang lebih kuat dan
konteks, seperti, dalam perbandingan interaksi genetik dan protein-protein
inferensi parameter untuk model deteksi komunitas probabilistik yang menggambarkan
dalam sel [4], dalam memahami hubungan yang mendasari dan struktur
setiap lapisan.
komunitas di seluruh jaringan sosial [5], dan dalam analisis jaringan temporal
[6]. Selanjutnya, Kemajuan terbaru dalam dasar matematika untuk jaringan
multilayer telah membuat analisis jenis data ini lebih layak. Secara khusus, [3]
telah memperkenalkan formalisme matematika dengan tensor. Melakukannya
memungkinkan untuk kalkulasi kuantitas jaringan yang penting, seperti
sentralitas dan koefisien clustering, serta modularitas [6]. Jadi,
A. Perbandingan Jaringan Berdasarkan Struktur Komunitas
Masalah agregasi lapisan dalam jaringan multilayer terkait erat dengan

masalah jaringan pengelompokan. Bahwa
2327-4697 (c) 2015 IEEE. Penggunaan pribadi diperbolehkan, tetapi publikasi ulang / redistribusi memerlukan izin IEEE. Lihat http://www.ieee.org/publications_standards/publications/rights/index.html untuk informasi lebih lanjut.
Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya. Konten dapat berubah sebelum publikasi akhir. Informasi kutipan: DOI 10.1109 / TNSE.2016.2537545, IEEE
adalah, mengingat suatu kumpulan jaringan, seseorang bertujuan untuk mengidentifikasi memberikan probabilitas tepi yang ada di antara node yang diberikan
himpunan sedemikian rupa sehingga jaringan di dalam himpunan memiliki karakteristik dalam komunitas m dan n lainnya ∑ ode dalam komunitas n. Matriks Z
yang serupa. Karakteristik ini, atau "fitur" dalam konteks ini, dapat menggambarkan salah adalah N × K matriks indikator, di mana setiap entri biner Z saya m
satu dari berikut ini: properti struktural skala mikro seperti motif subgraf [11], [12]; properti menunjukkan apakah node saya ada di komunitas m. Setiap baris
K
multiskala seperti struktur komunitas [13], [14], [15], spektrum matriks terkait jaringan [16] dari Z dibatasi sedemikian rupa
dan dengan mendefinisikan peran laten [17]. Meskipun lapisan pengelompokan dalam hanya milik 1 komunitas. W m = 1 Z im = 1, yaitu setiap
e juga node vektor z, yang
mendefinisikan
jaringan multilayer terkait erat dengan jaringan pengelompokan dalam sebuah ansambel, memiliki entri z i = argmax.dll m { Z saya m} yang menunjukkan komunitas ke node mana saya
ini adalah masalah yang berbeda dengan kesulitan dan nuansa yang berbeda. Kami fokus milik. Untuk jaringan tertentu, parameter ini
pada pengejaran sebelumnya; namun, kami berharap untuk ansambel jaringan tertentu sering disimpulkan melalui pendekatan kemungkinan maksimum, dan setelah
yang akan bermanfaat untuk memodifikasi dan menerapkan metode kami untuk dipelajari, mereka memberikan informasi tentang di dalam dan di antara keterkaitan
pengelompokan jaringan. komunitas.
Dalam pekerjaan ini, kami menganalisis dan membandingkan lapisan B. Pekerjaan Terkait MBS Multilayer
dalam jaringan multi-lapisan berdasarkan struktur komunitasnya. Deteksi
Karena data jaringan tersebar di mana-mana dengan beberapa lapisan
komunitas dalam jaringan single-layer merupakan alat penting untuk
jaringan, deteksi komunitas dalam jaringan multilayer merupakan badan penelitian
memahami organisasi dan keterkaitan fungsional antara node dalam jaringan
yang penting. Petunjuk penting mencakup generalisasi ukuran modularitas [6] dan
[18], [19]. Meskipun ada banyak definisi untuk apa yang merupakan
mempelajari dinamika [30] untuk pengaturan yang lebih umum ini.
"komunitas" [20], orang sering mengasumsikan "komunitas assortatif" di mana
terdapat prevalensi edge antara node dalam komunitas yang sama
dibandingkan dengan jumlah edge yang menghubungkan node ini ke node. Mengingat kegunaan MBS untuk memahami organisasi node dalam jaringan
jaringan yang tersisa. Dalam upaya untuk mengidentifikasi komunitas tersebut, lapisan tunggal, penting untuk memperluas MBS ke kerangka multilayer, dan
banyak pendekatan telah diusulkan, termasuk yang didasarkan pada memang arah penelitian ini menerima perhatian yang semakin meningkat [7],
memaksimalkan ukuran modularitas [21] dan menyesuaikan model probabilistik [31], [32], [33], [34]. Dalam konteks ini, asumsi umum adalah bahwa ada pola
generatif [22]. Karena masing-masing pendekatan ini menghadirkan tantangan bersama dalam struktur komunitas di seluruh lapisan jaringan multilayer, dan
komputasi untuk mendeteksi komunitas secara efisien, tujuannya adalah untuk mendefinisikan dan mengidentifikasi model blok stokastik
yang menangkap struktur ini. Karya-karya ini telah mengeksplorasi banyak jenis
aplikasi yang dapat timbul yang melibatkan jaringan multilayer, dan oleh karena
itu memunculkan beberapa model pelengkap untuk model blok stokastik
Sementara pendekatan kami adalah untuk mendefinisikan model probabilistik multilayer (MLSBM). Sekarang kami secara singkat meringkas pekerjaan
untuk struktur komunitas multilayer, kami mencatat bahwa sebelumnya ada sebelumnya yang sangat terkait, tetapi sangat berbeda, dari model yang kami
pendekatan untuk memahami kesamaan dalam ansambel jaringan yang pelajari di sini.
didasarkan pada eksploitasi kesamaan dalam struktur komunitas antar jaringan.
Dalam [14], penulis berusaha untuk mempartisi sekelompok jaringan menjadi
subkelompok melalui pembangunan jaringan jaringan (NoN). Komunitas di NoN Dalam Referensi. [7], [31], [32], penulis mempelajari situasi di mana banyak
dipilih sedemikian rupa sehingga jaringan yang mewakili node cukup mirip dalam lapisan mengikuti dari satu MBS. Dalam hal ini, dimungkinkan untuk
struktur komunitas yang mendasarinya. Dalam satu aplikasi signifikan dari metode mendapatkan inferensi yang lebih baik dari parameter SBM dengan
ini, penulis mengelompokkan jaringan ko-ekspresi gen dan menemukan menggabungkan beberapa sampel dari satu model. Misalnya, di Ref. [7] penulis
peningkatan jumlah kategori pengayaan fungsional yang signifikan untuk proses menganggap semakin banyak lapisan, L, dan mengeksplorasi sifat asimtotik dari
biologis. Demikian pula, di [15], penulis mengeksplorasi kesamaan mesoscopic estimasi parameter MBS. Secara khusus, mereka memasang MBS ke setiap
antara lapisan menggunakan pendekatan teori informasional. Meskipun mereka lapisan individu dengan cara yang memanfaatkan informasi dari semua lapisan,
telah merancang metode mereka untuk menangani fitur arsitektur jaringan apa dan mereka menunjukkan konvergensi penduga ini ke nilai sebenarnya sebagai L
pun, mereka menyoroti kemampuan mereka untuk mengukur kesamaan antara → ∞. Untuk jaringan dengan L lapisan dan K komunitas di setiap lapisan,
lapisan jaringan berdasarkan tugas node-to-komunitas di lapisan. pendekatan mereka membutuhkan perkiraan matriks penugasan komunitas Z l dan
matriks probabilitas π l untuk setiap lapisan aku, yang terakhir melibatkan
pembelajaran K (K + 1) L / 2 Untuk tujuan ini, penulis memperluas pendekatan
variasional untuk mendekati perkiraan kemungkinan maksimum dari parameter
Dalam mencari pendekatan berbasis statistik untuk mempelajari SBM yang diperkenalkan dalam SBM lapisan tunggal yang diperkenalkan di [35]
komunitas dalam jaringan multilayer, kami mempertimbangkan model blok ke pengaturan multilayer.
stokastik (SBM) [27], model generatif yang populer untuk struktur komunitas
dalam jaringan. Asumsi MBS adalah bahwa node dalam komunitas tertentu
terkait dengan node di dalam dan di antara komunitas dengan cara yang sama,
sehingga memungkinkan MBS untuk menggambarkan beberapa jenis Ref. [7] diikuti oleh Ref. [31], di mana penulis membahas masalah yang
komunitas (misalnya, assortative, disassortative, core-periphery, dll. [20] , [28]). dapat muncul untuk model kapan K dan / atau
Ada banyak aspek menarik lainnya dari model blok stokastik; misalnya, L berukuran besar, atau jika jaringannya jarang. Mereka mengusulkan model yang
pendekatan berbasis model memungkinkan untuk denoising jaringan melalui dimodifikasi yang disebut model blok stokastik multilayer terbatas (rMLSBM). Dalam
penghapusan tepi palsu dan penambahan tepi yang hilang [22], [29]. Prosedur model ini, alih-alih mempelajari satu set
inferensi untuk memasang SBM ke jaringan yang tidak diarahkan N node dan K komunitas
dari L parameter independen, π l M N, untuk setiap pasangan, ( M N),
melibatkan mempelajari dua parameter, π setiap entri masuk π sepenuhnya bergantung pada lapisan sehingga menghasilkan
pengurangan jumlah parameter bebas. Secara khusus, untuk menentukan
probabilitas suatu edge antara node dari komunitas m dan simpul dari komunitas n di
dan Z. Parameter π adalah K × K matriks simetris, dimana π M N lapisan aku,
mereka menggunakan fungsi tautan logistik dan memodelkan probabilitas

sebagai logit ( π l) = π mn + β l. Itu β l adalah representasi parameter offset m g n lapisan
}
atau jenis tepi tertentu. Dalam model ini,
itu perlu dipelajari K (K + 1) / 2 + L parameter total. Dengan demikian, estimasi 11
kemungkinan maksimum untuk rMLSBM adalah estimator yang diatur.
{ π, z}
Konsisten dengan tema pemasangan model blok tunggal ke kumpulan lapisan,

Ref. [32] mirip dengan Referensi. [7] dan [31] di mana penulis berusaha untuk
memanfaatkan informasi dari semua lapisan dengan mempertimbangkan distribusi
}
gabungan dari lapisan. Dengan menggunakan ini, mereka memperkirakan jumlah 22
seperti probabilitas marjinal dari penetapan node ke komunitas dan probabilitas edge di { π, z}
dalam dan di antara grup. Aspek menarik dari pendekatan mereka adalah bahwa
mereka memperkenalkan kovariat yang menangkap kopling antara pasangan node.
Untuk jaringan dengan K komunitas dan L
}
lapisan, ini membutuhkan estimasi ( 2 L - 1) K 2 + ( K - 1)
parameter. { π 3, z 3}
Kami meringkas Ref. [33] dan [34], yang menyediakan teknik untuk
menentukan apakah jaringan lapisan tunggal adalah hasil dari prosedur
agregasi dalam jaringan multilayer. Di Ref. [33], penulis mendefinisikan versi
model blok stokastik multilayer dan prosedur inferensi untuk menilai apakah
Gambar 1. Tujuan dari model blok stokastik strata multilayer (sMLSBM).
jaringan lapisan tunggal benar-benar diperoleh dari agregasi lapisan dalam
Masing-masing L = 9 jaringan di sini mewakili lapisan dalam jaringan multilayer. Setiap lapisan jaringan
jaringan multilayer; mereka mempertimbangkan agregasi lapisan menggunakan
memiliki N = 36 node yang konsisten di semua lapisan. Ada S = 3 strata seperti yang ditunjukkan oleh
aturan boolean. Ref. [34] menjelaskan dua kemungkinan proses generatif untuk tiga baris dan warna simpul. Jelasnya, lapisan jaringan dalam suatu lapisan menunjukkan kesamaan
jaringan multilayer: the tepi-kovariat dan lapisan independen model. Dalam yang kuat dalam struktur komunitas. Artinya, meskipun setiap lapisan mengikuti MBS dengan K =
model tepi-kovariat, jaringan teragregasi didefinisikan di mana tepi tertentu ( aku
3 komunitas, parameter MBS identik untuk lapisan dalam suatu strata tetapi berbeda antara lapisan
j) hanya muncul dalam satu lapisan. Mengumpulkan lapisan dalam jaringan
dalam strata yang berbeda. Kami ingin mempartisi layer menjadi strata yang sesuai dan mempelajari
multilayer menjadi representasi jaringan tunggal menggabungkan semua tepi parameter SBM yang terkait,
dari masing-masing lapisan. Jadi, penerjemahan ide ini ke dalam model π s dan Z s.
generatif melibatkan pemilihan keanggotaan lapisan untuk setiap tepi dan tepi
sampling dengan probabilitas yang dikondisikan pada node yang berdekatan.
Dalam model lapisan independen, lapisan dihasilkan secara independen satu
lapisan menjadi strata dan prosedur inferensi untuk mempelajari parameter MBS
sama lain dan satu-satunya kendala adalah keanggotaan grup node sama di
untuk setiap strata. Yang penting, kedua langkah ini — menetapkan node ke
semua lapisan.
komunitas dan lapisan ke strata — digabungkan dalam algoritme berulang sehingga
peningkatan dalam deteksi komunitas dapat mengarah pada peningkatan
pengelompokan lapisan ke dalam strata, yang secara berulang dapat mengarah
pada peningkatan lebih lanjut dalam komunitas deteksi, dan sebagainya.
Sementara motivasi untuk mengejar masalah ini berasal dari [8], kami
menunjukkan bahwa pendekatan kami tidak menyediakan metode untuk
Untuk mendeskripsikan model, algoritma untuk pemasangan model, dan
menggabungkan lapisan atau mengurangi jumlah lapisan dalam jaringan. Alih-alih, ia
performanya, sisa makalah ini disusun sebagai berikut. Dalam Sec. II, kami
dapat memampatkan jaringan karena parameter model blok stokastik yang dipelajari
mendefinisikan model dan algoritma untuk memasangnya. Dalam Sec. III, kami
untuk setiap strata dapat digunakan untuk menghasilkan jaringan sampel yang
melakukan eksperimen numerik pada jaringan sintetis. Dalam Sec. IV, kami
berfungsi sebagai konsensus untuk stratum tersebut.
menguji model pada jaringan korelasi yang dibangun dari data dari Human
Microbiome Project.
C. Kontribusi
Sementara literatur tentang MLSBM baru-baru ini berkembang pesat, masih II. S MLSBM: S TRATA M ULTILAYER S TOCHASTIC
diperlukan model generatif probabilistik yang memungkinkan lapisan dalam jaringan B MENGUNCI M ODEL
multilayer untuk dijelaskan oleh beberapa SBM. Untuk tujuan ini, kami
mengembangkan model blok stokastik multilayer baru, sMLSBM, yang menetapkan A. Definisi Jaringan
lapisan jaringan ke dalam kumpulan terpisah yang kami sebut strata, di mana
Membiarkan G (N, E) mendefinisikan satu jaringan dengan N node dan satu set edge yang
kumpulan lapisan dalam lapisan tertentu diasumsikan sebagai sampel dari model
tidak terarah, E = {( aku j)}. Kami mendefinisikan jaringan multipleks, yang merupakan salah satu
generatif dasar yang sama. Metode kami dapat dilihat sebagai prosedur
jenis jaringan multilayer [1], [2], dengan mendefinisikan satu set jaringan
pengelompokan bersama, di mana kami berusaha mengelompokkan lapisan menjadi l l
E ∈L
strata dan node ke dalam komunitas. Artinya, kami mencari untuk secara bersamaan
dan set L = { 1, 2, · w · Hai · rk l} ayers,
, L menunjukkan
G (N,), dimana l
indeks lapisan.
menemukan tugas lapisan-ke-lapisan dan node-ke-komunitas.
W
G 1, Gthe
G ed= {enote 2, · · c · ollecti} ,pada
G L Lmembentuk jaringan
lapisan sebagai satu set,multipleks dan
G, seperti yang
setiap elemen himpunan adalah jaringan yang mewakili sebuah lapisan. Selanjutnya, kami
Untuk menangani aplikasi praktis yang dapat melibatkan jaringan multilayer mendefinisikan A = { SEBUAH 1, SEBUAH 2, · · ·, SEBUAH L} untuk menjadi koresponden
dengan beberapa strata, lapisan, komunitas, dan node, kami memperkenalkan
algoritme yang mempartisi secara efektif. lapisan dalam G .menggunakan representasi matriks ketetanggaan jaringan
B. Definisi Model algoritma pengelompokan untuk memilih yang terbaik Y. Pendekatan rakus ini mengarah
pada pengurangan yang signifikan untuk ukuran ruang pencarian sejak itu saja Z harus
Di bawah sMLSBM, lapisan jaringan, G l ( N, E l) diasumsikan dihasilkan oleh
disimpulkan secara statistik. Secara khusus, selama Tahap I, kami menyimpulkan SBM
satu set S model blok stokastik, dimana lapisan dalam stratum s ∈ { 1, 2, · · ·, S},
untuk setiap lapisan dalam isolasi, dan kami mengelompokkan kumpulan lapisan yang
diberi parameter oleh π s dan Z s ( atau setara, vektor z s, yang
memiliki parameter SBM serupa. Menggunakan hasil ini sebagai kondisi awal dalam Fase
memiliki entri z s i = argmax.dll m { Z s saya m} ). Perhatikan bahwa parameternya II, kami mengembangkan metode iteratif yang secara bersama-sama mengidentifikasi
π s dan Z s karena satu lapisan adalah ⋃ alogous artinya
penugasan lapisan ke lapisan dan node ke komunitas serta parameter MBS untuk setiap
parameternya masing-masing dalam kasus SBM lapisan tunggal (lihat Bagian IA.). Untuk setiap
lapisan. Kami menyediakan skema algoritme pada Gambar. 2, dan di bawah ini kami
strata s, kami biarkan L s ⊆ L menunjukkan himpunan
menyajikan algoritme dua fase secara detail.
lapisan yang sesuai dengan s, maka L = s
L s dan ∅ = L s ∩L t
∑
untuk semua s, t ∈ { 1,. . . , S}, s 6 = t. Kami membiarkan L s = | L s | menunjukkan jumlah lapisan
dalam strata s sehingga kami mengizinkan jumlah komunitas, Tahap I. Tahap I terdiri dari dua bagian. Pertama, kami memasang SBM ke setiap lapisan
s L s = L. Akhirnya,
K s, untuk bervariasi di seluruh individu l ∈ { 1,. . . , L}, yang menghasilkan kesimpulan
lapisan. Parameter SBM π̂ l dan keanggotaan node-to-community
Untuk jaringan multilayer tertentu, tujuan kami selama interferensi adalah untuk Ẑ l. Kemudian kami mengelompokkan lapisan berdasarkan kesamaan
mengidentifikasi penetapan strata dari setiap lapisan π̂ l dan Ẑ l. Untuk menyimpulkan π̂ l dan Ẑ aku, kami menggunakan metode inferensi yang
a {nd untuk mempelajari kumpulan parameter strata, Π = dijelaskan dalam [35]. Di sini, penulis menggunakan teknik inferensi variasional untuk
π 1, π 2,. . . , π S} dan Z = { Z 1, Z 2,. . . Z S}. Yang terpelajar memperkirakan perkiraan kemungkinan maksimum untuk parameter model blok
Parameter SBM untuk sebuah stratum mewakili konsensus untuk lapisan yang terkait, stokastik. Untuk set L lapisan, ini menghasilkan set parameter SBM untuk setiap
dan dalam pengertian tersebut dapat diartikan sebagai pengurangan jumlah efektif lapisan, yang kami tunjukkan dengan ˆ
lapisan [8]. Namun, strata juga dapat diartikan sebagai cara untuk mengidentifikasi Π = { π̂ 1, π̂ 2,. . . , π̂ L} dan
lapisan yang memiliki kesamaan dalam struktur komunitas. Gambar 1 menunjukkan Z ˆ = { Ẑ 1, Ẑ 2,. . . Ẑ L} ( yaitu, pada tahap prosedur ini, setiap lapisan untuk sementara
contoh mainan dari jaringan multilayer dengan S = 3 strata, di mana setiap lapisan diperlakukan sebagai lapisannya sendiri). Catatan
memiliki N = 36 node dan K = 3 komunitas. Setiap jaringan individu dalam gambar ini
juga itu masing-masing ˆ l Z dapat secara ekuivalen diwakili oleh vektor
mewakili satu lapisan dalam jaringan. Simpul dalam lapisan yang dimiliki setiap lapisan
ẑ aku, seperti yang dijelaskan di Sec. IA. Menggunakan perkiraan π̂ l dan
diberi warna sesuai dengan keanggotaan lapisannya; Selain itu, mudah untuk melihat
bahwa lapisan dari suatu lapisan menunjukkan kemiripan yang tinggi dalam struktur
Ẑ l untuk lapisan tertentu, aku, kita bisa membuat yang sesuai
komunitas. matriks probabilitas kedekatan, ˆ l θ, yang didefinisikan dengan bijaksana
oleh lθ̂ ij = π̂ l . Melakukan ini untuk setiap lapisan menghasilkan sebuah koleksi
ẑ saya, ẑ j
1 2· · ·, θ̂ L}.
Sebagai bagian dari prosedur kami, kami menetapkan parameter lain yang kami dari matriks probabilitas kedekatan, Θ̂ = { θ̂, θ̂,
rujuk sebagai matriks probabilitas kedekatan, θ s, yang dapat dihitung dari π s dan Z s. Secara Sekarang, kami mencari partisi awal dari lapisan menjadi strata berdasarkan Θ̂. Tujuannya
khusus, θ s adalah N × N adalah untuk mengidentifikasi S set L s sehingga matriksnya
matriks seperti itu θ s aku j memberikan probabilitas keunggulan antara { ˆθ}l dengan l ∈ L s dekat satu sama lain, tetapi jauh dari matriks yang tersisa, { ˆ l
node saya dan j di strata s. Itu adalah, θ s ij = π s z s,sayadimana
z js θ} dengan l ∈ L \ L s.
z saya
s
menentukan komunitas ∑ nomor ity untuk node saya di strata s.
Ini dilakukan dengan memperlakukan masing-masing ˆ l θ sebagai vektor fitur
Akhirnya, kami mendefinisikan matriks Y ukuran L × S, dimana sebuah entri
dan melamar k- berarti pengelompokan dengan S pusat untuk mengidentifikasi S lapisan,
Y ls adalah indikator biner dari apakah lapisan l ditugaskan
L s. Catat itu S bisa dipilih a priori,
ke strata s. Catat itu s Y ls = 1. Kami juga mendefinisikan vektor
atau didekati dengan ukuran seperti statistik gap [36]. Ini memberi kita perkiraan
y, yang memiliki entri y l = argmax.dll s { Y ls} untuk menunjukkan strata ke lapisan mana l
awal Ŷ untuk Y. Perhatikan bahwa prosedur ini awalnya memperlakukan setiap
milik.
lapisan sebagai lapisan terpisah, tetapi memberikan aglomerasi berprinsip lapisan
menjadi S ≤ L
C. Inferensi untuk sMLSBM
lapisan.
Prosedur untuk memasang sMLSBM ke jaringan tertentu memerlukan Tahap II. Setelah pendekatan lintasan pertama untuk menetapkan lapisan ke
pencarian keanggotaan lapisan-ke-strata dan keanggotaan node-ke-komunitas strata, kami menginisialisasi fase berulang untuk memperkirakan tugas
yang paling menggambarkan jaringan multilayer. Untuk kenyamanan notasi, kami lapisan-ke-lapisan secara lebih efektif serta parameter model. Secara khusus,
memperkenalkan notasi hat untuk mewakili estimasi parameter yang dipelajari kami ingin menemukan konsensus SBM untuk setiap strata — yaitu, K s × K s matriks
dari inferensi π s dan
prosedur. Kita dapat menulis menurunkan kemungkinan marjinal untuk N × K s matriks Z s yang memaksimalkan kemungkinan lapisan yang diamati di setiap lapisan.
ers, ∑G, sebagai, Kami membiarkan SEBUAH s = { SEBUAH l} untuk l ∈ L s menunjukkan kumpulan matriks
kumpulan jaringan awam ∑ kedekatan yang sesuai dengan L s
p ( G | Π) = p ( G, Z, Y | Π). (1)
lapisan dalam lapisan s.
Z Y
Kami sekarang melanjutkan untuk memaksimalkan kemungkinan di setiap strata,
Kami mengasumsikan probabilitas tepi antara dua node dalam lapisan l milik
dengan memperluas kerangka Ref. [35] ke konteks multilayer. Perhatikan bahwa ini mirip
strata s dapat dimodelkan sebagai variabel acak Bernoulli, berdasarkan
dengan Ref. [7], kecuali bahwa kami tidak bertujuan untuk menyimpulkan matriks
keanggotaan komunitas dari
probabilitas MBS untuk setiap lapisan, secara individual. Secara khusus, kemungkinan log
node. Khususnya, p (A l ij = 1) ∼ Bernoulli ( π s rching
z saya jz). over data lengkap untuk strata s dapat ditulis sebagai,
Sejak Y dan Z keduanya kuantitas laten, laut
semua nilai yang mungkin dengan cepat menjadi tidak bisa diubah. Untuk mengatasi masalah ini, kami
mengembangkan algoritme dua fase yang menggabungkan a p ( SEBUAH s, Z s) = p ( SEBUAH s | Z s) p ( Z s), (2)
Fase & I & kasus jaringan. Untuk mengatasi tantangan ini, kami menggunakan pendekatan variasional,
Menghitung& k Amean & cluster & semua " analog dengan pendekatan dalam [7], [32], [35]. Secara umum, pendekatan variasional
Fit & SBM & untuk & masing-masing &
jaringan & lapisan & ✓ ( ẑ, ⇡̂) ✓ berusaha untuk mengoptimalkan yang lebih rendah
secara individu && untuk & setiap & lapisan & ke" S " lapisan& terikat pada kemungkinan log. T ∏ ya ini, kami pertama kali memperkirakan
distribusi bersyarat, P ( Z s | SEBUAH s) ≈ R SEBUAH s, dimana
R SEBUAH
s ( Z s) = h ( Z ssaya ·; τ saya ·). (6)
saya
Fase & II &

Di sini, matriks τ s berisi entri τ s yang mendekati m munity m di strata s.
probabilitas node itu · saya milik co saya m
Menghitung& Menghitung&
s l s l Selanjutnya, fungsi h () mewakili distribusi multinomial, dengan parameter, { τ s} untuk m ∈
✓ ( 1) ( ⌧̂, ⇡̂) ✓ ( 2) ( ⌧̂, ⇡̂)
{ 1,. . . , K s}. Dengan menggunakan ini, kami mendefinisikan variasi a saya l m perkiraan
sebagai
J ( R SEBUAH s) = `` ( SEBUAH s) - KL ( R SEBUAH s ( Z s), P ( Z s | SEBUAH s)), (7)

Kluster & lapisan & ke dalam &
Iterasi & sampai & strata & bawah &&

di mana `` adalah kemungkinan log dan KL adalah divergensi Kullback-Leibler.
konvergensi& ✓ ( 1) dan& ✓ ( 2)
Melalui memaksimalkan J ( R SEBUAH s), kami meminimalkan perbedaan KL antara

Perbarui & strata & untuk & unik & distribusi bersyarat yang sebenarnya, P ( Z s | SEBUAH s),
kombinasi & dari &&& dan perkiraannya, R SEBUAH s ( Z s). Selain itu, kami mengikuti
✓ ( 1) dan& ✓ ( 2)
derivasi dalam ∑ Ref. ∑[35] dan tulis ulang J ( R SEBUAH s) sebagai
J ( R SEBUAH s) = ∑∑∑ τ ssaya

catatan(
m
α s) m
Gambar 2. Ilustrasi skematis dari algoritma kami: Algoritme kami untuk memasang sMLSBM dibagi
saya m
menjadi dua fase: fase inisialisasi untuk mengelompokkan lapisan menjadi strata, dan fase berulang
s
yang memungkinkan pembelajaran rekursif antara tugas node-to-community dan layer-to-strata. + τ ssaya m τjns [ SEBUAH
aku j catatan(
l π M N)]
∑ si ∑∑
l ∈L <j mn
(8)
+ τ simτ sjn[( 1 SEBUAH l) log
- aku j (1 - π s M N)]
∑saya
l ∈L s ∑< j mn
dimana
s
∏ ∏∏ l
- τ ssaya m catatan( τ saya m).
p ( As Z| s) = π Ms ANaku j ( 1 - π s) ( 1 - SEBUAH
MN l
aku j).
(3) saya m
l ∈L s i <j mn
Sekarang kita bisa membedakan J ( R SEBUAH s) sehubungan dengan setiap parameter —
Untuk menulis p ( Z s), memperkenalkan parameter baru akan sangat membantu α s m saat menggunakan pengali Lagrange untuk menegakkan
yang mewakili probabilitas bahwa node yang dipilih secara acak
strain (yaitu probabilitas yang berjumlah 1) —untuk menghitung
di strata s b ∑ memanjang ke com ∏mu ∏
nity m, yaitu α s m=p (Z s im = 1). pembaruan. Melakukannya akan menghasilkan ∑berikut, letak notasi topi
Catat itu α s = 1. Dengan menggunakan parameter ini, kita bisa menulis melambangkan perkiraan terbaik saat ini untuk parameter yang diberikan:
mm
s s
s
α̂ m = ∑ τ̂ saya m/ N, (9)
p ( Z s) = α sm(Z saya m) . (4)
saya ∑
saya m
∑∑
Oleh karena itu, kemungkinan log-data lengkap untuk matriks kecocokan yang s l ∈L s i <j τ̂ s saya m τ̂jns SEBUAH
aku j , l
π̂ qt = (10)
mewakili lapisan dalam stratum. s dapat dinyatakan sebagai, l
τ̂ s τ̂ s
i <j im jn
∏ ∏∏ ∈L s
τ̂ saya
s ∝ mα̂ s [ π̂Ms NA l aku j ( 1 - π̂ s) 1 - SEBUAH l] aku j τ̂ s jn.
(11)
s Z)) m MN
catatan P ( SEBUAH s, Z s) = l ∑ og (P
∑ ( Z s)) + catatan( P ( A |s
l ∈L s i <jn
=∑ Z s saya
catatan( αs m)
m
Untuk menemukan perkiraan terbaik untuk τ̂ s dan π̂ s, kami bergantian antara
saya ∑∑
m ∑ SEBUAH l
memperbarui τ̂ s dan π̂ s sampai konvergensi. Ketika konvergensi telah terjadi, kami
+ (5) mengacu pada perkiraan yang dihasilkan sebagai persetujuan τ s dan π s untuk strata s. Demikian
aku j catatan( πMs N)
l ∈L s i <j mn pula, Z s mewakili matriks indikator konsensus dari tugas node-ke-komunitas yang dihitung
∑∑
dari τ s. Perhatikan bahwa kami menggunakan notasi batang untuk mencerminkan bahwa
+ (1 - SEBUAH
aku j
l) log (1 - π s).
MN
estimasi parameter tertentu adalah untuk lapisan, bukan untuk lapisan individu.
l ∈L s i <j mn
Masalah varietas ini yang melibatkan kebutuhan untuk menghitung perkiraan

Sejak τ s dan π s dihitung dalam kaitannya satu sama lain, kita dapat
kemungkinan maksimum dengan data yang tidak lengkap biasanya diatasi dengan
menggunakan salah satu parameter konsensus untuk menghitung parameter lain di
kerangka ekspektasi maksimisasi (EM) | o SEBUAH
rk [37]. Melakukannya membutuhkan kemampuan untuk menghitung setiap lapisan. Secara khusus, menggunakan penugasan node-to-community tetap
s); Namun demikian, Ref. [35] menunjukkan bahwa sulit untuk
P ( Zs dari τ s, kami menghitung parameter SBM kemungkinan maksimum untuk lapisan
menghitung distribusi bersyarat untuk lapisan tunggal tertentu
aku, yang kami tunjukkan dengan tilde dan karenanya, π̃ l dan τ̃ l. Begitu pula untuk tetap namun, kami tidak mengamati masalah ini dalam eksperimen data sintetis atau
π s, kami menghitung tugas node-ke-komunitas nyata kami. Seperti yang akan kita tunjukkan di bagian berikut, konvergensi
τ̃ l. Estimasi tersebut memungkinkan kami untuk menentukan apakah estimasi biasanya diamati hanya setelah beberapa iterasi (misalnya, lihat, misalnya, baris
konsensus strata merupakan estimasi akurat untuk MBS dari setiap lapisan strata. kedua dari Gambar 4). Jika masalah seperti itu muncul, mungkin berguna untuk
Lebih penting lagi, seperti yang akan kita gambarkan sekarang, perkiraan khusus membatasi jumlah iterasi di Tahap II.
lapisan ini memungkinkan kita untuk merancang algoritme berulang yang
memungkinkan pergantian antara mempelajari tugas node-to-community dan
layer-to-stratum. AKU AKU AKU. S YNTHETIC D ATA E PENGALAMAN
A. Perbandingan sMLSBM dengan Pendekatan MBS lainnya

Untuk tujuan ini, kami merepresentasikan setiap lapisan dengan matriks probabilitas
Untuk mendemonstrasikan situasi di mana kerangka kerja sMLSBM memiliki
kedekatan, yang kami hitung dengan dua cara berbeda: membiarkan θ (τ, π) mewakili matriks
keunggulan yang jelas dibandingkan model lainnya, kami merancang eksperimen sintetis
probabilitas kedekatan yang ditentukan oleh τ dan π, kami mendefinisikan
dan membandingkan hasilnya dengan dua pendekatan SBM yang berbeda: i)
memasang satu SBM ke semua lapisan (dilambangkan dengan "SBM tunggal" ), dan ii).
θ l(1) = θ l ( τ s, π̃ l), (12) memasang model blok stokastik ke setiap lapisan secara individual (dilambangkan
dengan "SBM lapisan tunggal"). Kami menghasilkan jaringan multilayer, di mana setiap
s lapisan memiliki N = 128 node, K = 4 komunitas dan tingkat rata-rata yang diharapkan
θ l(2) = θ l ( τ̃ aku, π) (13)
dari c = 20 ( yaitu, setiap lapisan jaringan diharapkan berisi cN / 2 = 1280 tepi yang tidak
Perhatikan bahwa definisi pertama menggunakan estimasi konsensus strata untuk τ s dan diarahkan). Kami menetapkan sMLSBM dengan S = 3 strata dan 10 lapisan per strata,
perkiraan khusus lapisan untuk π s, sedangkan yang terakhir menggunakan estimasi untuk yang menghasilkan L = 30 total lapisan. Kami mendefinisikan
lapisan khusus τ s dan estimasi konsensus strata untuk π s.
π s untuk setiap strata s dalam dua parameter, p s di dan

Selama Fase I, kami mengidentifikasi strata dengan mengelompokkan matriks
p ou
s t, yang masing-masing memberikan probabilitas tepi dalam komunitas dan
probabilitas kecocokan untuk L lapisan menggunakan k- berarti algoritma. Kami
tw probabilitas tepi komunitas een. Itu adalah,
menjadi
menggunakan prosedur serupa di sini, tetapi bukannya pengelompokan L matriks, kita
kami mendefinisikan π s
=ps kapan m = n dan π s mn = p s kapan
sekarang mengelompokkan 2 L matriks, karena setiap lapisan diwakili dalam dua cara mn
m = n.
6 Ini mengikuti th saya Sebuah n t derajat rata-rata yang diharapkan adalah Hai g u saya t Ven oleh
berbeda. Selain itu, mengelompokkan ini 2 L matriks menghasilkan dua tugas cluster
c = N (hal s
di + ( K - 1) p s K. Dalam percobaan kami, kami memilih
untuk setiap lapisan. Biasanya, kedua representasi dari lapisan tertentu akan di luar)/
parameter SBM berikut: ( p 1 di, p 1 keluar) = ( 0,6, 0,0083);

menerima tugas cluster identik — yaitu untuk
( p di,
2
p2 0,4, 0,075); dan ( p 3
keluar) = ( di, p 3 keluar) = ( 0,125, 0,167).
Pada Gambar. 3 (A), kami menunjukkan contoh lapisan jaringan dari setiap
diberikan aku, θ l (1) dan θl (2) ditugaskan ke cluster yang sama,
strata. Node diwarnai oleh penugasan komunitas mereka di stratum 1.
atau strata. Namun, kasus yang menarik muncul ketika kedua representasi tersebut
Perhatikan bahwa penugasan node-to-komunitas berbeda di setiap strata dan
menyebabkan penetapan strata yang berbeda untuk lapisan tertentu, karena ini
bahwa tingkat struktur blok menurun dari stratum 1 ke stratum 3.
menyiratkan bahwa ada ketidaksepakatan.
antara θ l (1) dan θ l (2), yang menyiratkan ketidakpastian di strata
tugas lapisan tertentu itu l. Karena algoritme iteratif kami mengharuskan setiap Untuk membandingkan akurasi fit untuk tiga model — single-layer SBM,
lapisan ditempatkan ke satu lapisan (yaitu, kami tidak mengizinkan keanggotaan single SBM dan sMLSBM — kami mengukur akurasi inferensi dari parameter
campuran lapisan menjadi lapisan), lapisan dengan keanggotaan campuran SBM, π y aku,
menurut θ l
(1) dan dan tugas komunitas, Z s l. Pertama, untuk setiap lapisan dan setiap model, kami
θ l(2) harus ditangani dengan cara tertentu. Untuk menjelaskan situasi ini, kami menghitung kesalahan (` 2̀ norma) antara vec ( π y l) dan
mendefinisikan strata tambahan untuk setiap kombinasi nilai sebenarnya, vec ( π l). Perhatikan bahwa vec ( X) adalah K (K + 1) vektor panjang yang
2
keanggotaan yang muncul. Misalnya jika ada beberapa lapisan mewakili segitiga bawah dari matriks X. Lebih-
{ l} yang dikelompokkan ke dalam strata 1 menurut θ l (1) dan
over, untuk mengukur kesalahan, kita menghitung || vec ( π l) - vec ( π s l) || 2. Kami mencatat bahwa kesalahan
ini didefinisikan dengan baik karena kami mengidentifikasi K = 4

stratum 2 menurut θ l (2), kemudian kami mendefinisikan strata baru itu
komunitas untuk semua lapisan dan semua model. Kesalahan rata-rata di seluruh lapisan
hanya berisi lapisan ini. Kami mencatat bahwa terdapat berbagai opsi untuk
di bawah setiap model ditunjukkan pada Gambar. 3 (B). Dalam contoh ini, sMLSBM
menangani lapisan dengan keanggotaan campuran
mengungguli dua model lainnya. Kedua, kami menghitung untuk setiap lapisan rata-rata
setelah melamar k- berarti pengelompokan ke θ l (1) dan θl (2) ( misalnya, satu
informasi timbal balik yang dinormalisasi (NMI) [38] antara tugas node-to-komunitas yang
dapat menetapkan lapisan seperti itu ke lapisan secara acak); namun, kami membiarkan
sebenarnya, z aku, dan nilai yang disimpulkan, z y aku, di bawah setiap model. Dengan kata
pekerjaan di masa mendatang terbuka untuk eksplorasi opsi-opsi lain ini.
lain, untuk setiap lapisan, kami menghitung, NMI ( z aku, z y l).
Setelah lulus tunggal Tahap II, yang membutuhkan tugas lapisan-ke-strata (yang Gambar 3 (C) menunjukkan rata-rata NMI untuk tugas komunitas di seluruh lapisan.
dapat dikodekan oleh vektor y) sebagai masukan, algoritme menghasilkan (idealnya) Memang, efek dari pemasangan model yang salah ke kumpulan lapisan dalam hal
tugas lapisan-ke-lapisan yang lebih baik (serta perkiraan konsensus untuk parameter kemampuan untuk memperkirakan secara efektif parameter MBS dan tugas komunitas
SBM dari lapisan tersebut, τ s dan π s). Oleh karena itu, Tahap II melibatkan terlihat jelas. Secara khusus, pemasangan model SBM tunggal menghasilkan inferensi
pengulangan prosedur di atas sampai penugasan lapisan-ke-lapisan tidak berubah. rata-rata yang lebih besar dan kesalahan penugasan komunitas, dibandingkan dengan
Kami mencatat bahwa pada prinsipnya, adalah mungkin bagi strata baru untuk muncul pemasangan SBM lapisan tunggal dan 3 strata sMLSBM. Dengan kata lain, sMLSBM
di setiap iterasi (yaitu, karena kami membuat strata untuk menghindari keanggotaan menyediakan pengelompokan yang efisien ke dalam strata hanya jika lapisan tersebut
lapisan campuran), dan ini dapat memungkinkan jumlah strata bertambah dengan benar-benar terkait (yaitu dihasilkan dari MBS yang sama), jika tidak, setiap lapisan
setiap iterasi; adalah strata tersendiri.
Kami menyajikan hasil untuk percobaan ini pada Gambar. 4, di mana kolom kiri
SEBUAH.
dan kanan memberikan hasil L = 10 dan L = 100,
masing-masing.
Simbol di setiap plot mewakili rata-rata lebih dari 50 jaringan multilayer, dan bilah
kesalahan menunjukkan kesalahan standar. Di setiap plot, garis putus-putus vertikal
menunjukkan N (hal 2
di - p2
mewakili titik di mana dua lapisan tersebut berada keluar) = 10, yang
tidak bisa dibedakan
Stratum 1 Stratum 2 Stratum 3
sejak ( p 1 di, p 1 keluar) = ( p2 di, p 2
B. C. antara layer-to-s yang sebenarnya di luar). Padatrata tugas
Gambar 4 (A),dan
kamiyang disimpulkan
menunjukkan NMI
0.4
1.00
oleh sMLSBM, atau NMI ( Y y). Sebagai dasar, kami membandingkan hasil sMSLBM untuk
langsung mengelompokkan matriks ketetanggaan lapisan menggunakan k- berarti
0.3 0.75
algoritma dengan K = 2. Kami secara konsisten mengamati NMI yang lebih tinggi sebagai
hasil dari sMLSBM dibandingkan dengan k- cara. Lebih menarik lagi adalah kasus dengan
0.2 0,50
Berarti π Kesalahan Inferensi
Mean Community Assignment NMI
L = 100, dimana keduanya k- Mean dan sMLSBM bekerja paling tidak cukup
0.1 0.25
baik pada partisi layer menjadi strata sebelum titik dimana strata tidak dapat
dibedakan. Dalam Gambar 4 (B), kami memplot jumlah iterasi (NOI) yang
0.0 0,00 diperlukan untuk Fase II dari algoritme kami untuk bertemu. Kami mengamati
bahwa ketika jumlah lapisan dalam jaringan meningkat, begitu pula jumlah
SBM tunggal SBM Lapisan Tunggal sMLSBM SBM tunggal SBM Lapisan Tunggal sMLSBM
iterasi sMLSBM yang diperlukan. Apalagi puncaknya di panel

Gambar 3. Eksperimen sintetis yang membandingkan sMLSBM dengan SBM lain. SEBUAH. Kami
menentukan model dengan S = 3 strata dan L = 10 lapisan per lapisan. Sebuah lapisan perwakilan dari
B. sesuai dengan lonjakan tiba-tiba di strata NMI.
setiap lapisan diplot. Perhatikan bahwa node di semua jaringan diberi warna sesuai dengan keanggotaan
komunitasnya di strata
Akhirnya, pada Gambar. 4 (C) kami menunjukkan kualitas penugasan
1. Setiap jaringan memiliki N = 128 node, K = 4 komunitas dan kejahatan
simpul-ke-komunitas dengan memplot NMI antara penugasan simpul-ke-komunitas
gelar, c = 20. Itu p s di parameter untuk s = 1, 2 dan 3 adalah 0,6, 0,4 dan
0,25, masing-masing. Nilai yang sesuai dari p s
yang benar dan disimpulkan seperti yang dijelaskan dalam Sec. III-A. Perhatikan
di luar dipilih untuk dipertahankan
derajat rata-rata yang diharapkan, c = 20. B. Kami menyesuaikan 3 jenis model ke 30 lapisan jaringan: i) bahwa lapisan 1 di sini mewakili lapisan tempat sebagian besar lapisan dihasilkan
SBM tunggal: menyesuaikan satu SBM ke semua lapisan; ii) single-layer SBM: menyesuaikan satu SBM dari model S 1
ke setiap layer; dan iii) sMLSBM: mengidentifikasi strata dan menyesuaikan MBS untuk setiap strata.
dan analog untuk stratum 2. Oleh karena itu, ketika NMI strata rendah (panel A.),
Setiap model menghasilkan
memperkirakan π s l untuk SBM sebenarnya dari setiap lapisan aku, yang dilambangkan π l. Sini s l
kami melihat hasil deteksi komunitas yang lebih buruk dari yang diharapkan, karena
menunjukkan lapisan yang disimpulkan untuk lapisan l. Pada sumbu vertikal kami memplot mean lapisan tercampur secara tidak tepat. Dengan meningkatnya strata NMI, lapisan dari
` 2 kesalahan norma || vec ( π l) - vec ( π s l) || 2. C. Untuk masing-masing dari tiga model, kami menghitung model yang sama ditempatkan bersama dan IPN komunitas menjadi stabil. Terakhir,
informasi timbal balik yang dinormalisasi (NMI) antara node-
dengan membandingkan hasil untuk L = 100 untuk itu L = 10,
tugas ke komunitas z l dan nilai-nilai yang disimpulkan z s l.
kami mengamati peningkatan jumlah lapisan, L, umumnya mengarah pada

perbaikan dalam deteksi komunitas dan identifikasi strata.
B. Eksperimen Sintetis dengan Dua Strata
Selanjutnya, kami lebih jauh mengeksplorasi kinerja algoritma kami (lihat

Bagian II-C) untuk menyimpulkan sMLSBM dalam berbagai situasi: 1) dibandingkan
IV. C ORRELASI N ETWORKS DARI H. UMAN
dengan metode pengelompokan dasar;
M ICROBIOME P. ROJECT
2) sebagai tanggapan atas peningkatan jumlah lapisan; dan
3) di bawah variasi tingkat deteksi. Secara khusus, kami merancang eksperimen Sebagai aplikasi sMLSBM, kami mempertimbangkan jaringan korelasi yang
sintetik di mana kami menghasilkan jaringan multilayer dengan keduanya L = 10 atau dibangun dari data dari Human Microbiome Project [40]. Untuk berbagai lokasi
L = 100 lapisan. Setiap jaringan multilayer ada S = 2 strata (masing-masing di tubuh, proyek mikrobioma manusia telah berhasil mengumpulkan banyak
memiliki sampel manusia untuk lebih memahami interaksi antara spesies bakteri. Dalam
K 1 = K 2 = 4 komunitas), dan di setiap lapisan ada konteks ini, inferensi jaringan sangat menarik, karena metode tersebut bertujuan
N = 128 node (masing-masing memiliki derajat rata-rata yang diharapkan c = 16). untuk menangkap hubungan antara berbagai organisme. Mikroorganisme
Perhatikan bahwa dalam contoh ini kedua strata memiliki penugasan menunjukkan ekologi yang rumit di dalam usus inang manusia mereka dan situs
node-to-community yang sama. Strata ditetapkan agar berukuran sama, L 1 = L 2 = L tubuh tertentu telah terbukti memiliki interaksi yang khas. Selanjutnya, interaksi
/ 2. Mirip dengan eksperimen yang dijelaskan di Sec. III-A, parameter SBM tertentu antara mikroba seringkali dapat dikaitkan dengan kondisi kesehatan dan
dibangun menggunakan p s penyakit tertentu [41]. Data mikrobioma biasanya dikumpulkan melalui
pengurutan metagenomik dan pembacaan selanjutnya dikelompokkan ke dalam
menentukan m yang diharapkan saya e n dansebuah
ps degr ,Hai
parameter
e u e t. Sejak
ini harus
kita sudah kelompok, dikenal sebagai unit taksonomi operasional (OTU), untuk mewakili
memenuhi kendala c = N (hal s di + p s
organisme tertentu. Sifat data pengurutan berbasis hitungan ini membuat
rameters
Dalam semua simulasi, kami memperbaiki SBM Hai p u Sebuah t) / 2 untuk dari pertama
kedua strata. inferensi jaringan menjadi menantang, dan dengan demikian merupakan bidang
strata sebagai ( p 1 di, p 1 keluar) = (. 1836, .1055). Ini juga nyaman untuk yang menarik. Untuk mendemonstrasikan potensi penggunaan sMLSBM dalam
jelaskan jumlahnya, N (hal 1 di - p 1
konteks mikrobioma manusia, kami menerapkan algoritme kami untuk
deteksi komunitas [3 keluar) = 10, yang berhubungan
9]. Misalnya,
dengan
kemampuan mempelajari sMLSBM ke multilayer
mendeteksi struktur komunitas pada suatu lapisan dan / atau strata tertentu, secara umum diharapkan
dapat meningkat seiring dengan peningkatan N (hal s
di - ps di luar).
Untuk strata kedua, kami mengizinkan N (hal 2 di - p2 di luar) untuk bervariasi.
analisis jaringan multilayer kami. Kami menekankan bahwa membatasi perhatian ke

SEBUAH.
node yang berpartisipasi dalam banyak lapisan adalah pilihan yang kami buat dalam
fokus kami untuk mengidentifikasi struktur komunitas umum di seluruh lapisan, untuk
menunjukkan keakuratan dalam algoritma dan prosedur inferensi sMLSBM. Perlakuan
yang lebih relevan secara biologis dari dataset ini tentu saja harus mempertimbangkan
keahlian khusus domain dalam merumuskan representasi jaringan yang sesuai
dengan pertanyaan yang ada.
B.
Kami menyimpulkan sMLSBM untuk jaringan multilayer dan memilih untuk

menampilkan hasil S = 6 lapisan. Artinya, pemilihan ini mengarahkan kita untuk
menemukan 6 kelompok situs tubuh sedemikian rupa sehingga mikrobioma serupa
antara situs dalam cluster yang sama tetapi berbeda dari mikrobiom di situs di cluster
C. yang tersisa.
Kami menunjukkan 6 strata ini dengan kotak berwarna pada Gambar. 5. Kami mencatat
bahwa karena stokastisitas k-means dalam algoritme kami, komunitas dan strata oleh sMLSBM
dapat bervariasi dari satu realisasi ke realisasi berikutnya. Penugasan strata yang ditampilkan
mencerminkan penugasan yang diamati untuk menghasilkan kemungkinan log tertinggi.
Untuk mengukur kinerja saya tho d , w e compa kembali d strata mem b hasil ership ke
hie ra rc h yo b diwarnai sebagai bagian dari reducibil saya t Metode y dikembangkan saya n
[8]. Untuk melakukan ini, kami mengikuti langkah-langkah berikut:
Gambar 4. Eksperimen sintetis dengan dua strata. W e dilakukan num e rical
percobaan dengan jaringan multilayer dengan N = 128 node, derajat rata-rata
c = 16, S = 2 strata dan K 1 = K 2 = 4 c komunitas. T dia jaringan berisi baik L = 10 ( kolom kiri) atau L = 100 1) Hitung matriks Laplacian yang dinormalisasi untuk masing-masing dari 18
lapisan (kolom kanan), yang dibagi rata menjadi dua str Sebuah ta. Untuk str di um 1, kami tetap
jaringan situs badan s ;
2) Hitung nilai eigen untuk setiap matriks Laplasia yang dinormalisasi;
kuantitas N (hal 1 di - p1 keluar) = 10, yang sangat spesifik ( p 1 di, p 1 di luar) sejak
pengaturan c = 16 juga membatasi p ini Sebuah rameter s. Di Sebaliknya, kami berbeda-beda
N (hal 2
di - p2 di luar). SEBUAH. Sebagai fungsi dari N (hal 2 di - p2 Hai ut ) , kami merencanakan maksudnya
3) Gunakan nilai eigen ini untuk c Hai matikan entropi Von Neumann f atau
NMI untuk menafsirkan e • kemampuan sMLSBM untuk mengingat v eh tugas lapisan-ke-strata yang lapisan individu dan pasangan lapisan;
sebenarnya. Kami datang mengurangi th e p erfor m Sebuah n ce dari sMLSBM (kurva ungu) menjadi generik k- berarti
4) Menggunakan th e Von Neumann entropies untuk menghitung Jensen- Shannon d aku s t Sebuah
s clu steri ng (g kembali e n s ymbols) dari matriks kedekatan. B. Kami memplot jumlah rata-rata iterasi (NOI) yang
nces be twe dalam pasangan jaringan; dan
diperlukan untuk Fase II dari algoritme kami (lihat Bagian II-C) untuk menyatu. C. Terakhir, kami mengukur
kualitas hasil penugasan node-ke-komunitas dengan memplot nilai rata-rata NMI antara penugasan 5) Lakukan pengelompokan hierarkis menggunakan jarak Jensen-Shannon
node-to-community yang sebenarnya dan yang disimpulkan dengan sMLSBM di stratum 1 (simbol merah) dan dan hubungan Lingkungan.
stratum 2 (simbol biru).
Kami menunjukkan hasil clustering hierarki ini dengan dendrogram pada

Gambar. 5, yang sangat sesuai dengan hasil sMLSBM. Namun, a s diharapkan,
kami mengamati sedikit perbedaan, karena metode ini mengelompokkan lapisan
berdasarkan kriteria yang berbeda; Secara khusus, partisi sMLSBM
jaringan yang dibangun dari metode inferensi jaringan SparCC [42].
mencerminkan kesamaan hanya dalam struktur komunitas.
SparCC adalah metode inferensi jaringan korelasi yang bertujuan untuk

Hasil keduanya bertemu h ods relatif setia pada daerah tubuh dalam hal kelompok
memperkirakan korelasi linier Pearson antar komponen dalam suatu sistem.
situs tubuh yang secara spasial proksimal. Satu-satunya pengecualian Hai n untuk ini s observasi
Metode ini berkinerja baik, karena memperhitungkan tingkat keragaman dalam
adalah s berwarna coklat t r Sebuah tum saya n Gambar 5, yang mana saya s terdiri dari
komunitas mikroba, yang memainkan peran penting dalam mendeteksi interaksi
beberapa tubuh yang tampaknya tidak terkait si t es. Meskipun pengelompokan ini
yang valid. . Furthe r lebih banyak, jaringan s ar e dibangun dengan asumsi th Sebuah t
mungkin tidak intuitif, t dia r e adalah B saya bukti logis c e untuk menjelaskan
th e mati rasa r dari komponen t s saya n itu sy s t e m (misalnya OTU) besar dan
kemasukakalannya. Secara khusus, Ref. [43] menawarkan pengelompokan situs
jaringan korelasinya harus jarang. Sebagai data pelengkap di Ref. [42], penulis
tubuh yang canggih berdasarkan keahlian biologis. Di sini, penulis memiliki
memberikan kesimpulan interaksi mikroba mereka n e t w atau ks f Hai r 18 situs di
pemahaman yang mendalam tentang komposisi komunitas mikroba melalui ap p lica t saya
tubuh manusia, menggunakan kerangka kerja SparCC yang jarang. Tepi dalam
di dari model campuran multinomial untuk mendefinisikan tipe komunitas s untuk
jaringan ini memiliki posit saya ve dan bobot nilai riil negatif, berdasarkan hasil
mencirikan situs tubuh. Secara khusus, setiap sampel yang dikumpulkan melalui
inferensi SparCC. Dalam analisis ini, kami mengubah jaringan SparCC menjadi
Proyek Mikrobioma Manusia ditetapkan ke 1 dari 4 tipe komunitas. Mereka kemudian
matriks ketetanggaan biner oleh al l karena sebuah lin k hanya jika SparCC
mengkuantifikasi hubungan antara situs tubuh menggunakan nilai-p dari ex Fisher Sebuah
edge-weight antara dua OTUs wa s di le ast 0,15 (dipilih sebagai nilai yang
ct menguji keanggotaan sampel untuk tipe komunitas. Mirip dengan apa yang kita
mendekati 0,2, g saya ven di Ref [ 4 2 ]). Untuk mengubah 18 jaringan lapisan
amati di str berwarna coklat Sebuah Tum, penulis [43] menemukan korelasi yang
tunggal c atau sesuai dengan spe c saya e s interaksi di 18 situs tubuh, kami ide n memperbaiki
mengejutkan antara sampel dari tinja dan rongga mulut, yang tercermin dalam hasil
kumpulan node (OTU) yang berpartisipasi dalam setidaknya dua lapisan s istilah
kami.
dari h avi n ga tl ea st
satu koneksi ti ng tepi w e ight va lu e di lapisan di atas ambang batas 0,15. Ini Pada Gambar 6 , kita saya llustrat e lapisan jaringan untuk 4 dari 6 strata yang kami
menghasilkan N = 213 OTU (node) unik untuk identifikasi untuk menyoroti satu keuntungan dari memiliki
Cluster Dendrogram
tenggorokan
Tinggi
pertengahan vagina
bangku
air liur
langit-langit keras
amandel palatine
nares anterior
fornix posterior
introitus vagina
mukosa bukal
gingiva berkeratin
lidah dorsum
l fossa antekubiti
l lipatan retroaurikuler
r fossa antekubiti
r lipatan retroaurikuler
plak subgingiva
plak supragingiva
Gambar. 5. Perbandingan sMLSBM pada jaringan interaksi OTU [42] untuk masing-masing situs tubuh ke hierarki reduksi [8]. Seperti yang dijelaskan dalam teks, kami menganggap jaringan multipleks dengan L = 18 lapisan
dan N = 213 sebagai n . d Hai saya d s e t ( s D st Shebuah
saya w saya n c c h eM
, w Sebuah e t) kelompok di sini menjadi S = 6 strata, sedangkan dendrogram dibuat
dengan metode yang digunakan sebagai pendahulu kerangka redusibilitas. Kotak berwarna di sekitar daun dendrogram menunjukkan situs tubuh untuk tugas strata yang diperoleh dengan sMLSBM.
model generatif probabilistik untuk komposisi mikroba yang dibagikan dalam dan sebaliknya. Kami telah menunjukkan untuk jaringan multipleks dengan beberapa strata
subset situs tubuh. Secara khusus, setiap baris memberikan informasi tentang (misalnya, lihat Gambar 3) bahwa ketidakakuratan dapat muncul jika seseorang mencoba
lapisan jaringan dan model sMLSBM yang sesuai untuk lapisan tertentu. Setiap untuk memasang satu MBS ke jaringan atau mempelajari lapisan jaringan secara terpisah.
grid dalam gambar mewakili interaksi pengkodean matriks kedekatan biner Sebaliknya, model kami memungkinkan pemahaman tentang kesamaan antar lapisan
antara OTU: titik berwarna pada posisi ( aku j) menunjukkan keberadaan tepi ( aku dalam jaringan, dalam hal struktur komunitasnya.
j) di lapisan jaringan yang sesuai. Di kolom pertama dari setiap baris adalah
jaringan sampel yang dibuat dengan parameter SBM yang dipelajari dari strata Kemampuan untuk mengidentifikasi strata dalam kumpulan lapisan jaringan
itu, π s dan menjanjikan dalam banyak aplikasi. Salah satu aplikasi yang memotivasi adalah
redusibilitas jaringan, di mana seseorang memampatkan jaringan multilayer dengan
Z s. Kolom 2 dan 3 menunjukkan dua lapisan jaringan yang representatif di dalam menggabungkan lapisan yang serupa [8]. Kami menekankan bahwa meskipun
strata. Perhatikan bahwa sementara beberapa strata memiliki lebih dari dua redusibilitas adalah upaya yang terkait erat, hal ini pada dasarnya berbeda dari upaya
anggota, untuk tujuan ilustrasi kami hanya menampilkan dua contoh lapisan. Sangat pengelompokan bersama untuk mengidentifikasi komunitas dan strata secara
mudah untuk melihat struktur blok yang sangat mirip antara semua jaringan pada bersamaan. Secara khusus, pendekatan kami tidak menyediakan metode untuk
baris tertentu, yang menguatkan kegunaan pendekatan sMLSBM. Terakhir, kami menggabungkan lapisan. Sebaliknya, sMLSBM memampatkan informasi jaringan
menyoroti kegunaan pemasangan sMLSBM ke jaringan multilayer ini karena setiap dalam arti bahwa parameter MBS yang dipelajari mewakili konsensus untuk setiap
strata menjelaskan pemahaman mekanistik tentang hubungan antara kelompok strata, dan parameter konsensus tersebut dapat digunakan untuk menghasilkan
OTU, yang dapat menginspirasi pemahaman atau penyelidikan biologis lebih lanjut. jaringan sampel yang representatif untuk stratum tersebut. Untuk aplikasi yang
memerlukan agregasi lapisan, ada berbagai cara untuk menggabungkan lapisan
dalam suatu strata. Lihat, sebagai contoh, Ref. [44], di mana penulis mengeksplorasi
efek pada struktur komunitas untuk metode agregasi yang berbeda. Kami menyoroti
V. C KESIMPULAN DAN F UTURE W ORK bahwa pendekatan pemodelan sMLSBM sesuai dalam situasi di mana seseorang
mencari model generatif untuk struktur komunitas, dan mungkin sangat sesuai ketika
Kami mengembangkan model baru untuk model blok stokastik multilayer
bukti khusus aplikasi menunjukkan bahwa subset jaringan memiliki perbedaan
(MLSBM) dan algoritma terkait untuk bersama-sama mempartisi lapisan ke dalam
karakteristik dalam struktur komunitas.
strata dan node ke dalam komunitas. Model kami mengasumsikan bahwa lapisan
yang termasuk dalam suatu lapisan memiliki struktur komunitas yang mengikuti MBS
dasar yang sama. Untuk menyesuaikan sMLSBM ke jaringan multilayer, dan lebih
khusus lagi, jaringan multipleks, kami secara bergantian menata ulang penugasan
Perbandingan sMLSBM kami dengan metode redusibilitas Ref. [8] (lihat
lapisan-ke-strata dan memperbarui parameter model untuk setiap strata. Memiliki
Gambar 5) untuk aplikasi mempelajari jaringan interaksi mikroba
banyak jaringan dalam satu strata — karenanya banyak realisasi dari beberapa
mengungkapkan beberapa ekstensi ke sMLSBM yang dapat membuat
model yang mendasarinya — membantu membuat inferensi lebih akurat. Khususnya,
pendekatan lebih akurat dan berlaku untuk aplikasi yang lebih luas. Pertama,
penugasan node-to-community yang lebih akurat dalam suatu strata mengarah pada
metode reduksi [8] tidak membutuhkan jaringan untuk tidak diarahkan dan tidak
estimasi yang lebih baik dari parameter probabilitas MBS, dan
berbobot, dan itu bisa sangat berguna untuk memperluas kerangka sMLSBM
Model Jaringan Empiris SEBUAH UCAPAN TERIMA KASIH
Kami berterima kasih kepada James D. Wilson untuk diskusi yang

membantu tentang pekerjaan terkait dalam jaringan multilayer, dan khususnya,
model blok stokastik multilayer. Penelitian yang dilaporkan dalam publikasi ini
didukung oleh Eunice Kennedy Shriver National Institute of Child Health &
Human Development dari National Institutes of Health di bawah Penghargaan
Nomor R01HD075712, penghargaan James S. McDonnell Foundation 21st
Century Science Initiative Complex Systems Scholar Award # 220020315 ,
air liur lidah dorsum
hibah pelatihan T32GM067553 dan T32CA201159 dari National Institutes of
Health, dan UNC Lineberger Com-prehensive Cancer Center dengan dana yang
disediakan oleh University Cancer Research Fund (UCRF) melalui State of
North Carolina. Konten tersebut sepenuhnya menjadi tanggung jawab penulis
dan tidak selalu mewakili pandangan resmi dari lembaga pendanaan.
plak subgingiva plak supragingiva
R EFERENSI
[1] M. Kivelä, A. Arenas, M. Barthelemy, JP Gleeson, Y. Moreno, dan

MA Porter, "Jaringan multilayer", Jurnal Jaringan Kompleks,
vol. 2, tidak. 3, hlm.203–271, 2014.
[2] S. Boccaletti, G. Bianconi, R. Criado, CI Del Genio, J. Gómez- Gardeñes, M. Romance, I.

Sendina-Nadal, Z. Wang, dan M. Zanin, “Struktur dan dinamika jaringan multilayer, ” Laporan
l fossa antekubiti r fossa antekubiti Fisika,
vol. 544, no. 1, hlm. 1–122, 2014.
[3] M. De Domenico, A. Solé-Ribalta, E. Cozzo, M. Kivelä, Y. Moreno,

MA Porter, S. Gómez, dan A. Arenas, "Formulasi matematika jaringan multilayer," Review
Fisik X, vol. 3, tidak. 4, hal. 041022,
2013.
[4] M. Costanzo, A. Baryshnikova, J. Bellay, Y. Kim, ED Spear, CS Sevier, H. Ding, JL Koh, K.

Toufhi, S. Mostafavi dkk., “Lanskap genetik sebuah sel,” ilmu, vol. 327, no. 5964, hlm.
425–431, 2010.
pertengahan vagina introitus vagina
[5] D. Greene dan P. Cunningham, "Memproduksi representasi grafik terpadu dari beberapa
tampilan jaringan sosial," di Prosiding Konferensi Sains Web ACM Tahunan ke-5. ACM,
Gambar 6. Visualisasi Strata di Jaringan SparCC. Kami memvisualisasikan 2013, hlm. 118–121.
matriks adjacency untuk jaringan SparCC yang menyandikan interaksi mikrobioma di situs tubuh. Di [6] PJ Mucha, T. Richardson, K. Macon, MA Porter, dan J.-P. Onnela, "Struktur komunitas dalam
setiap panel, titik berwarna pada posisi ( aku j) menunjukkan keberadaan tepi ( aku j) di lapisan jaringan jaringan yang bergantung pada waktu, multiskala, dan multipleks", ilmu, vol. 328, tidak. 5980,
yang sesuai. Keempat baris tersebut sesuai dengan empat strata yang berbeda. Di kolom 1, kami hlm. 876–878, 2010.
menunjukkan jaringan sampel yang dihasilkan dari parameter SBM, π s dan Z s, yang kami simpulkan
[7] Q. Han, K. Xu, dan E. Airoldi, "Estimasi yang konsisten dari model blok multi-layer dan
untuk lapisan itu. Di Kolom 2 dan 3, kami menunjukkan jaringan SparCC dari lapisan tertentu.
dinamis," di Prosiding Konferensi Internasional ke-32 tentang Pembelajaran Mesin (ICML-15),
Perhatikan kesamaan yang kuat di setiap baris.
2015, hlm. 1511–1520.
[8] M. De Domenico, V. Nicosia, A. Arenas, dan V. Latora, "Penguraian struktural jaringan

multilayer," Komunikasi alam, vol. 6,
2015.
[9] SC Madeira dan AL Oliveira, “Algoritme biclustering untuk analisis data biologis: survei”, Transaksi
IEEE / ACM pada Computational Biology and Bioinformatics (TCBB), vol. 1, tidak. 1, hlm.
24–45, 2004.
ke jaringan tertimbang dan diarahkan mengikuti ekstensi untuk lapisan tunggal [10] IS Dhillon, “Mengelompokkan dokumen dan kata-kata menggunakan partisi graf spektrum
SBM, seperti yang dikembangkan masing-masing dalam [45] dan [46]. Ini juga bipartit,” di Prosiding konferensi internasional ACM SIGKDD ketujuh tentang penemuan
akan berguna untuk memperluas ke komunitas yang dikoreksi derajat dan Pengetahuan dan penggalian data.
tumpang tindih (yaitu, keanggotaan campuran) [47], serta keanggotaan lapisan ACM, 2001, hlm. 269–274.
campuran ke dalam strata. Selain itu, contoh Human Microbiome [11] J. Ugander, L. Backstrom, dan J. Kleinberg, "Frekuensi subgraf: Pemetaan geografi empiris
dan ekstrem dari kumpulan grafik besar," di Prosiding konferensi internasional ke-22 di World
mengungkapkan beberapa pertanyaan biologis menarik yang dapat memfasilitasi
Wide Web.
pengembangan alat jaringan yang lebih canggih. Untuk membangun jaringan Pengarah Konferensi Internasional World Wide Web
multilayer, tepi negatif dijauhkan; Namun, hubungan antagonis antara mikroba Komite, 2013, hlm. 1307–1318.
diketahui penting [48]. Oleh karena itu, akan berguna untuk mengembangkan [12] K. Tsuda dan T. Kudo, "Mengelompokkan grafik berdasarkan penambangan substruktur
versi sMLSBM bertanda tangan yang memungkinkan edge menjadi positif atau berbobot," di Prosiding konferensi internasional ke-23 tentang pembelajaran mesin. ACM, 2006,
negatif. hlm. 953–960.
[13] J.-P. Onnela, DJ Fenn, S. Reid, MA Porter, PJ Mucha, MD Fricker, dan NS Jones,
“Taksonomi jaringan dari struktur komunitas,” Review Fisik E, vol. 86, tidak. 3, hal. 036104,
Munculnya sejumlah besar kumpulan data jaringan multilayer memberikan
2012.
kebutuhan akan alat tambahan untuk pembangunan dan analisis jaringan semacam
[14] J. Ni, H. Tong, W. Fan, dan X. Zhang, "Pengelompokan multi-jaringan yang fleksibel dan
itu. SMLSBM menyediakan metode baru untuk menemukan sinyal dalam data
kuat," di Prosiding Konferensi Internasional ACM SIGKDD ke-21 tentang Penemuan
jaringan yang kompleks dan berisik. Pengetahuan dan Penambangan Data. ACM,
2015, hlm. 835–844.
[15] J. Iacovacci, Z. Wu, dan G. Bianconi, "Struktur mesoskopik mengungkapkan jaringan antara [38] L. Danon, A. Diaz-Guilera, J. Duch, dan A. Arenas, "Membandingkan identifikasi struktur
lapisan set data multipleks," arXiv pracetak arXiv: 1505.03824, 2015. komunitas", Jurnal Mekanika Statistik: Teori dan Eksperimen, vol. 2005, no. 09, hal. P09008,
2005.
[16] U. Brandes, J. Lerner, U. Nagel, dan B. Nick, "Tren struktural dalam ansambel jaringan," di Jaringan [39] A. Decelle, F. Krzakala, C. Moore, dan L. Zdeborová, "Inferensi dan transisi fase dalam
yang kompleks. Springer, 2009, hlm. 83–97. mendeteksi modul di jaringan yang jarang",
[17] U. Brandes, J. Lerner, dan U. Nagel, "Pengelompokan ansambel jaringan menggunakan peran
Surat Ulasan Fisik, vol. 107, tidak. 6, hal. 065701, 2011.
laten", Kemajuan dalam Analisis Data dan Klasifikasi, vol. 5, tidak. 2, hlm. 81–94, 2011. [40] PJ Turnbaugh, RE Ley, M. Hamady, CM Fraser-Liggett, R. Knight, dan JI Gordon, “Proyek
mikrobioma manusia,” Alam, vol. 449, tidak. 7164, hlm.804–810, 2007.
[18] MA Porter, J.-P. Onnela, dan PJ Mucha, “Komunitas dalam jaringan”,

Pemberitahuan AMS, vol. 56, tidak. 9, hlm. 1082–1097, 2009. [41] K. Faust, JF Sathirapongsasuti, J. Izard, N. Segata, D. Gevers, J. Raes, dan C. Huttenhower,
"Hubungan kejadian bersama mikroba dalam mikrobioma manusia", Biologi komputasi PLoS,
[19] S. Fortunato, "Deteksi komunitas dalam grafik", Laporan Fisika, vol.
vol. 8, tidak. 7, hal. e1002606, 2012.
486, no. 3, hlm. 75–174, 2010.
[20] MP Rombach, MA Porter, JH Fowler, dan PJ Mucha, “Struktur periferal inti dalam jaringan”, Jurnal
[42] J. Friedman dan EJ Alm, "Mengganggu jaringan korelasi dari data survei genom", Biologi
SIAM tentang Matematika Terapan, vol. 74, tidak. 1, hlm. 167–190, 2014.
komputasi PLoS, vol. 8, tidak. 9, hal. e1002687, 2012.
[21] ME Newman, "Modularitas dan struktur komunitas dalam jaringan",

[43] T. Ding dan PD Schloss, "Dinamika dan asosiasi jenis komunitas mikroba di seluruh tubuh
Prosiding National Academy of Sciences, vol. 103, tidak. 23, hlm. 8577–8582, 2006.
manusia," Alam, vol. 509, tidak. 7500, hlm. 357–360, 2014.
[22] AZ Jacobs dan A. Clauset, "Pandangan terpadu tentang model generatif untuk jaringan:
[44] D. Taylor, S. Shai, N. Stanley, dan PJ Mucha, "Peningkatan pendeteksian struktur komunitas
model, metode, peluang, dan tantangan," arXiv pracetak arXiv: 1411.4070, 2014.
di jaringan multilayer melalui agregasi lapisan," pracetak arXiv arXiv: 1511.05271, 2015.
[23] MA Porter, J.-P. Onnela, dan PJ Mucha, “Komunitas dalam jaringan”,

[45] C. Aicher, AZ Jacobs, dan A. Clauset, "Mempelajari struktur blok laten dalam jaringan
Pemberitahuan AMS, vol. 56, tidak. 9, hlm. 1082–1097, 2009.
berbobot", Jurnal Jaringan Kompleks, vol. 3, tidak. 2, hlm. 221–248, 2015.
[24] J. Leskovec, KJ Lang, A. Dasgupta, dan MW Mahoney, "Struktur komunitas dalam jaringan
besar: Ukuran cluster alami dan tidak adanya cluster besar yang didefinisikan dengan baik," Matematika
[46] YJ Wang dan GY Wong, "Model blok stokastik untuk grafik terarah," Jurnal Asosiasi Statistik
Internet, vol. 6, tidak. 1, hlm. 29–123, 2009.
Amerika, vol. 82, tidak.
397, hlm. 8–19, 1987.
[25] A. Clauset, C. Moore, dan ME Newman, "Inferensi struktural hierarki dalam jaringan," di Analisis
[47] B. Karrer dan ME, "Model blok stokastik dan struktur komunitas dalam jaringan", Review Fisik
jaringan statistik: model, masalah, dan arah baru. Springer, 2007, hlm. 1–13.
E, vol. 83, tidak. 1, hal. 016107, 2011.
[48] R. Zapién-Campos, G. Olmedo-Álvarez, dan M. Santillán, "Interaksi antagonis cukup untuk
[26] MEJ Newman, "Menemukan struktur komunitas dalam jaringan menggunakan vektor eigen
menjelaskan kumpulan komunitas bakteri sendiri dalam lingkungan homogen: pendekatan
matriks," Phys. Rev. E, vol. 74, hal. 036104, Sep
pemodelan komputasi," Batasan dalam Mikrobiologi, vol. 6, hal. 489, 2015.
2006. [Online]. Tersedia: http://link.aps.org/doi/10.1103/PhysRevE.74. 036104
[27] TA Snijders dan K. Nowicki, “Estimasi dan prediksi model blok stokastik untuk grafik dengan
struktur blok laten,” Jurnal klasifikasi, vol. 14, tidak. 1, hlm. 75–100, 1997.
[28] C. Aicher, AZ Jacobs, dan A. Clauset, "Mempelajari struktur blok laten dalam jaringan
berbobot", Jurnal Jaringan Kompleks, vol. 3, tidak. 2, hlm. 221–248, 2015.
[29] R. Guimerà dan M. Sales-Pardo, "Interaksi yang hilang dan palsu serta rekonstruksi jaringan
yang kompleks", Prosiding National Academy of Sciences, vol. 106, tidak. 52, hlm. 22 073–22
078, 2009.
[30] M. De Domenico, A. Lancichinetti, A. Arenas, dan M. Rosvall, “Mengidentifikasi aliran modular pada
jaringan multilayer mengungkapkan organisasi yang sangat tumpang tindih dalam sistem yang saling
berhubungan,” Review Fisik X, vol. 5, tidak. 1, hal. 011027, 2015.
[31] S. Paul dan Y. Chen, “Deteksi komunitas dalam data multi-relasional dengan model blok
stokastik multi-layer terbatas,” arXiv pracetak arXiv: 1506.02699, 2015.
[32] P. Barbillon, S. Donnet, E. Lazega, dan A. Bar-Hen, "Model blok stokastik untuk jaringan
multipleks: aplikasi untuk jaringan peneliti," pracetak arXiv arXiv: 1501.06444, 2015.
[33] T. Valles-Catala, FA Massucci, R. Guimera, dan M. Sales-Pardo, "model blok stokastik

mengungkapkan struktur multilayer dari jaringan yang kompleks," arXiv pracetak arXiv:
1411.1098, 2014.
[34] TP Peixoto, “Menyimpang dari struktur mesoscale jaringan berlapis, nilai edge, dan waktu
bervariasi”, Phys. Rev. E, vol. 92, hal.
042807, Okt 2015. [Online]. Tersedia: http://link.aps.org/doi/10.1103/ PhysRevE.92.042807
[35] J.-J. Daudin, F. Picard, dan S. Robin, "Model campuran untuk grafik acak", Statistik dan
komputasi, vol. 18, tidak. 2, hlm. 173–183, 2008.
[36] R. Tibshirani, G. Walther, dan T. Hastie, "Memperkirakan jumlah cluster dalam kumpulan
data melalui statistik gap", Jurnal Royal Statistics Society: Seri B (Metodologi Statistik), vol.
63, tidak. 2, hlm. 411–423, 2001.
[37] AP Dempster, NM Laird, dan DB Rubin, "Kemungkinan maksimum dari data yang tidak
lengkap melalui algoritme em", Jurnal masyarakat statistik kerajaan. Seri B (metodologis), hlm.
1–38, 1977.

Clustering Network Layers With The Strata Multilayer Stochastic Block Model - En.id

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Clustering Network Layers With The Strata Multilayer Stochastic Block Model - En.id

Diunggah oleh

Hak Cipta:

Format Tersedia

Artikel ini telah diterima untuk diterbitkan pada terbitan mendatang jurnal ini, tetapi belum diedit sepenuhnya.

Mengelompokkan lapisan jaringan dengan strata multilayer

Natalie Stanley ∗ †, Saray Shai †, Dane Taylor †, Peter J. Mucha †

Universitas Carolina Utara, Chapel Hill

Masalah agregasi lapisan dalam jaringan multilayer terkait erat dengan

mereka menggunakan fungsi tautan logistik dan memodelkan probabilitas

Konsisten dengan tema pemasangan model blok tunggal ke kumpulan lapisan,

komunitas. matriks probabilitas kedekatan, ˆ l θ, yang didefinisikan dengan bijaksana

khusus, θ s adalah N × N adalah untuk mengidentifikasi S set L s sehingga matriksnya

distribusi bersyarat, P ( Z s | SEBUAH s) ≈ R SEBUAH s, dimana

Fase & II &

J ( R SEBUAH s) = `` ( SEBUAH s) - KL ( R SEBUAH s ( Z s), P ( Z s | SEBUAH s)), (7)

Iterasi & sampai & strata & bawah &&

Melalui memaksimalkan J ( R SEBUAH s), kami meminimalkan perbedaan KL antara

J ( R SEBUAH s) = ∑∑∑ τ ssaya

Masalah varietas ini yang melibatkan kebutuhan untuk menghitung perkiraan

A. Perbandingan sMLSBM dengan Pendekatan MBS lainnya

π s untuk setiap strata s dalam dua parameter, p s di dan

parameter SBM berikut: ( p 1 di, p 1 keluar) = ( 0,6, 0,0083);

ini didefinisikan dengan baik karena kami mengidentifikasi K = 4

Mean Community Assignment NMI

iterasi sMLSBM yang diperlukan. Apalagi puncaknya di panel

kami mengamati peningkatan jumlah lapisan, L, umumnya mengarah pada

Selanjutnya, kami lebih jauh mengeksplorasi kinerja algoritma kami (lihat

analisis jaringan multilayer kami. Kami menekankan bahwa membatasi perhatian ke

Kami menyimpulkan sMLSBM untuk jaringan multilayer dan memilih untuk

Kami menunjukkan hasil clustering hierarki ini dengan dendrogram pada

SparCC adalah metode inferensi jaringan korelasi yang bertujuan untuk

Model Jaringan Empiris SEBUAH UCAPAN TERIMA KASIH

Kami berterima kasih kepada James D. Wilson untuk diskusi yang

plak subgingiva plak supragingiva

[1] M. Kivelä, A. Arenas, M. Barthelemy, JP Gleeson, Y. Moreno, dan

[2] S. Boccaletti, G. Bianconi, R. Criado, CI Del Genio, J. Gómez- Gardeñes, M. Romance, I.

[3] M. De Domenico, A. Solé-Ribalta, E. Cozzo, M. Kivelä, Y. Moreno,

[4] M. Costanzo, A. Baryshnikova, J. Bellay, Y. Kim, ED Spear, CS Sevier, H. Ding, JL Koh, K.

[8] M. De Domenico, V. Nicosia, A. Arenas, dan V. Latora, "Penguraian struktural jaringan

negatif. hlm. 953–960.

[18] MA Porter, J.-P. Onnela, dan PJ Mucha, “Komunitas dalam jaringan”,

[21] ME Newman, "Modularitas dan struktur komunitas dalam jaringan",

[23] MA Porter, J.-P. Onnela, dan PJ Mucha, “Komunitas dalam jaringan”,

[33] T. Valles-Catala, FA Massucci, R. Guimera, dan M. Sales-Pardo, "model blok stokastik

Anda mungkin juga menyukai