com
Abstrak
Latar belakang:Kanker manusia adalah ekosistem kompleks yang terdiri dari sel-sel dengan tanda tangan molekuler yang berbeda.
Heterogenitas intratumoral seperti itu menimbulkan tantangan besar bagi diagnosis dan pengobatan kanker. Kemajuan terbaru dari teknik
sel tunggal seperti scRNA-seq telah membawa wawasan yang belum pernah terjadi sebelumnya ke dalam heterogenitas seluler.
Selanjutnya, masalah komputasi yang menantang adalah mengelompokkan kumpulan data bising dimensi tinggi dengan sel yang jauh
lebih sedikit daripada jumlah gen.
Metode:Dalam makalah ini, kami memperkenalkan conCluster kerangka kerja pengelompokan konsensus, untuk identifikasi subtipe kanker
dari data RNA-seq sel tunggal. Menggunakan strategi ensemble, conCluster menggabungkan beberapa partisi dasar ke cluster konsensus.
Hasil:Diterapkan pada set data scRNA-seq kanker nyata, conCluster dapat mendeteksi subtipe kanker secara lebih akurat daripada metode
pengelompokan scRNA-seq yang banyak digunakan. Selanjutnya, kami melakukan analisis jaringan ekspresi bersama untuk subtipe
melanoma yang teridentifikasi.
Kesimpulan:Analisis kami menunjukkan bahwa subtipe ini menunjukkan jaringan ko-ekspresi gen yang berbeda dan set gen
yang signifikan dengan pengayaan fungsional yang berbeda.
Kata kunci:Pengelompokan konsensus, heterogenitas intratumoral, Subtipe kanker, Pengurutan sel tunggal
© Penulis. 2018Akses terbukaArtikel ini didistribusikan di bawah ketentuan Lisensi Internasional Creative Commons Attribution 4.0 (
http://creativecommons.org/licenses/by/4.0/), yang mengizinkan penggunaan, distribusi, dan reproduksi tanpa batas dalam media apa
pun, asalkan Anda memberikan kredit yang sesuai kepada penulis asli dan sumbernya, memberikan tautan ke lisensi Creative Commons,
dan menunjukkan jika ada perubahan. Pengabaian Dedikasi Domain Publik Creative Commons
(http://creativecommons.org/publicdomain/zero/1.0/) berlaku untuk data yang disediakan dalam artikel ini, kecuali dinyatakan lain.
Gandkk. Genomik Medis BMC2018,11(Suppl 6): 117 Halaman 66 dari 112
data dimensi ke dalam subruang dimensi yang lebih rendah sel tunggal ini, dengan mengontrol hubungan antara
dan menerapkan pengelompokan tradisional ke data ekspresi rata-rata dan variabilitas.
pengurangan dimensi. Metode pengurangan dimensi yang
Langkah 2 Kurangi dimensi menggunakan t-SNE
banyak digunakan termasuk analisis komponen utama (PCA) [
14] atau algoritma Embedding Stochastic Neighbor Untuk lebih mengurangi dimensi, kami mengadopsi t-SNE yang banyak
Terdistribusi (t-SNE) [15]. Sementara itu, sejumlah metode digunakan untuk mengurangi data berdimensi tinggi menjadi
yang dirancang khusus untuk analisis scRNA-seq telah subruang dimensi yang lebih rendah. Secara rinci, kebingungan
diperkenalkan, termasuk Seurat [16], Rp [17], SNN-klik [18], merupakan parameter penting dari t-SNE, yang digunakan sebagai
SINCERA [19] dan SC3 [20]. Metode canggih ini telah sangat ukuran halus dari jumlah tetangga yang efektif. Studi sebelumnya
meningkatkan kemampuan analisis data scRNA-seq. Namun, menunjukkan bahwa kinerja t-SNE cukup kuat dengan perubahan
karena metode pengelompokan sebagian besar sensitif kebingungan antara 5 dan 50. Di sini, kami menetapkan kebingungan
terhadap kebisingan dan parameter awal, bagaimana sebagai 30 dan menggunakan t-SNE untuk mengurangi data ekspresi
mengelompokkan data scRNA-seq secara akurat di lingkungan scRNA yang difilter menjadi dua dimensi.
2 /2 n
gen yang paling bervariasi di seluruh dataset sel tunggal. Pertama, karena saya j saya j
gen langka dan ada di mana-mana biasanya tidak berguna untuk
(1)
pengelompokan, kami menyaring gen yang diekspresikan dalam waktu
kurang darir% sel (gen langka) atau diekspresikan dalam setidaknya (100-r)% di mana (.) menunjukkan koefisien binomial,naku jadalah elemen
sel (gen di mana-mana). Seperti pada penelitian sebelumnya [22],rditetapkan dari tabel kontingensi,sebuahsayaadalah jumlah darisayabaris ke-
sebagai 6. Selanjutnya, kami mengidentifikasi set gen yang paling banyakv% tiga dari tabel kontingensi,bjadalah jumlah darijkolom th dari tabel
variabel di seluruh kontingensi.
Gandkk. Genomik Medis BMC2018,11(Suppl 6): 117 Halaman 67 dari 112
Gambar 2.Evaluasi kinerja conCluster dan lima metode pengelompokan data scRNA yang banyak digunakan. Adjusted Rand Index (ARI) digunakan untuk
mengukur kesamaan antara label cluster yang disimpulkan dan benar
sangat baik dan K-means menunjukkan stokastik dalam struktur Identifikasi subtipe kanker
pengelompokan karena inisialisasi acak, konCluster kami berdasarkan Selanjutnya, kami menerapkan conCluster dan lima
beberapa tSNE+K-means memperoleh solusi yang lebih baik daripada algoritma yang dibandingkan pada sel tumor melanoma
metode lain. Kinerjanya menunjukkan bahwa ensemble dari beberapa ganas di GSE72056. Dalam dataset ini, terdapat 1257 sel
partisi data membantu untuk menggabungkan cluster bersama-sama ganas setelah mengecualikan sel tumor jinak. Menentukan
dengan cara yang masuk akal. jumlah cluster diketahui sulit dalam clustering.
Gambar 3Identifikasi subtipe dari kumpulan data scRNA-seq melanoma manusia. Warna yang berbeda menunjukkan keluaran cluster oleh masing-masing algoritma
(Nomor cluster k = 6)
Gandkk. Genomik Medis BMC2018,11(Suppl 6): 117 Halaman 69 dari 112
Karena tidak ada kebenaran dasar dari cluster untuk sel-sel ganas pola ekspresi terkoordinasi dalam subtipe tertentu. Jaringan ko-
ini, kami menggunakan Indeks Calinski-Harabaz [22] untuk ekspresi ini dapat direpresentasikan sebagai matriks kesamaan gen-
menentukan jumlah cluster. conCluster berhasil mengidentifikasi Cgen. Di sini, kami mengidentifikasi gen yang memiliki perbedaan
enam cluster dalam dataset. Seperti yang ditunjukkan pada ekspresi yang signifikan di antara sel dengan menerapkan FDR 5%.
Gambar.3, conCluster menampilkan lima cluster yang lebih jelas Gen-gen ini digunakan untuk merekonstruksi jaringan koekspresi
dikenali daripada metode yang dibandingkan. SNN-cliq, spesifik subtipe dan mengidentifikasi sejumlah modul gen koekspresi
tSNE+Kmeans dan SC3 juga mendapatkan cluster yang relatif jelas, tinggi. kami menggunakan WGCNA untuk membuat modul ekspresi
sedangkan spectral clustering dan CIDR kurang baik dalam bersama, yang merupakan alat yang banyak digunakan untuk analisis
membedakan cluster tersebut. ekspresi bersama. Angka4menunjukkan jaringan co-ekspresi untuk
Selanjutnya, untuk mengidentifikasi gen pengatur dari setiap subtipe melanoma. Kami memperhatikan bahwa subtipe yang
setiap subtipe melanoma ganas, kami melakukan analisis berbeda mencakup subset gen koekspresi yang berbeda. Gen-gen ini
jaringan ekspresi bersama gen. Jaringan ekspresi bersama dengan tingkat konektivitas tertinggi biasanya adalah
mengidentifikasi gen mana yang cenderung ditampilkan
Gambar 4Jaringan ko-ekspresi divisualisasikan untuk enam subtipe yang berbeda dari tumor melanoma maligna manusia. Node mewakili gen, Edge
weight menunjukkan signifikansi statistik dari hubungan ko-ekspresi
Gandkk. Genomik Medis BMC2018,11(Suppl 6): 117 Halaman 70 dari 112
diharapkan menjadi driver yang diperlukan untuk Misalnya, dalam subtipe 1, gen yang paling terhubung
jalur sinyal fungsi penting. terlibat dalam inisiasi translasi (RPL12, RPL38, RPS24,
Kami menghitung tingkat jaringan untuk setiap gen dalam RPS3); dalam subtipe 2, set gen yang paling terhubung
jaringan ekspresi bersama dari subtipe melanoma yang berbeda, erat termasuk gen yang terlibat dalam respons seluler
dan mengidentifikasi gen dengan koneksi paling banyak. Untuk terhadap respons stimulus (FOS, DUSP1, JUN, FOSB);
memeriksa fungsi potensial dari gen-gen tersebut, kami dalam subtipe 3, set gen termasuk B2M, HLA-A, HLA-B,
melakukan analisis pengayaan ontologi gen sistematis terkait dengan pemrosesan dan penyajian antigen.
menggunakan alat DAVID dan merangkum proses dan jalur
biologis utama [27]. Gen yang paling terhubung di setiap jaringan Kesimpulan
dan analisis pengayaan ontologi gen yang sesuai tercantum dalam Kanker biasanya menunjukkan heterogenitas tumor yang substansial
Tabel1. Secara keseluruhan, modul-modul ini diperkaya secara di hampir semua fitur fenotipik yang dapat dibedakan, seperti
signifikan untuk proses biologis penting yang relevan dengan morfologi seluler, ekspresi gen, dan metabolisme. Untuk menganalisis
melanoma, termasuk respons terhadap stimulus cahaya, heterogenitas tumor, penting untuk mengelompokkan populasi sel
pemrosesan antigen, dan regulasi kematian sel. dengan benar ke dalam kelompok yang berbeda
Tabel 1Gen signifikan dan analisis GO dari jaringan ekspresi bersama dari subtipe melanoma yang berbeda
IL12RB1 HLA-A CTSD BP: regulasi positif sitotoksisitas yang dimediasi sel T BP: 2.96E-9
SPC25 ARHGEF26-AS1
subtipe berdasarkan data ekspresi sel tunggal. Karena variasi Catatan Penerbit
Springer Nature tetap netral sehubungan dengan klaim yurisdiksi dalam peta
biologis dan teknis yang tidak dapat dihindari, set data scRNA-
yang diterbitkan dan afiliasi institusional.
seq ini berisik dan berdimensi tinggi, yang menimbulkan
tantangan besar bagi metode komputasi. Dalam makalah ini, Detail penulis
1Sekolah Ilmu dan Teknologi Komputer, Universitas Donghua, Shanghai,
kami mengusulkan, conCluster, metode pengelompokan
Cina.2Sekolah Teknik Komputer dan Sains, Universitas Shanghai, Shanghai,
konsensus tanpa pengawasan untuk mengatasi keterbatasan Cina.3Departemen Ilmu dan Teknologi Komputer, Universitas Tongji,
ini dan menyediakan pengelompokan yang kuat. Secara Shanghai, Cina.
khusus, conCluster kami menggabungkan banyak partisi
Diterbitkan: 31 Desember 2018
dasar menjadi satu konsensus, prosedur ini dapat
mengurangi dampak bahwa kinerja metode pengelompokan Referensi
individu cenderung dipengaruhi oleh noise dan parameter 1. Meacham CE, Morrison SJ. Heterogenitas tumor dan plastisitas sel
kanker. Alam. 2013;501(7467):328.
awal yang berbeda. Selain itu, langkah-langkah pra- 2. Oesper L, Mahmoody A, Raphael BJ. Theta: menyimpulkan heterogenitas intra-
pemrosesan data seperti pengurangan dimensi penting dalam tumor dari data sekuensing DNA throughput tinggi. Biola genom.
analisis data scRNA-seq. Hasil eksperimen menunjukkan 2013;14(7):R80.
3. Roth A, Khattra J, Yap D, Wan A, Laks E, Biele J, Ha G, Aparicio S,
bahwa con-Cluster yang diusulkan dapat lebih akurat
Bouchard-Cté A, Shah SP. Pyclone: inferensi statistik struktur
mendeteksi subtipe kanker daripada metode clustering populasi klonal pada kanker. Metode Nat. 2014;11(4):396.
scRNA-seq yang banyak digunakan dibandingkan. 4. Navin N, Kendall J, Troge J, Andrews P, Rodgers L, McIndoo J, Cook K, Stepansky
A, Levy D, Esposito D, dkk. Evolusi tumor disimpulkan oleh sekuensing sel
Peningkatan kinerja conCluster akan menarik bagi para
tunggal. Alam. 2011;472(7341):90.
peneliti di bidang analisis data scRNA-seq. 5. Patel AP, Tirosh I, Trombetta JJ, Shalek AK, Gillespie SM, Wakimoto H, Cahill DP,
Nahed BV, Curry WT, Martuza RL, dkk. rna-seq sel tunggal menyoroti
Singkatan heterogenitas intratumoral pada glioblastoma primer Sains.
CIDR: Pengelompokan melalui imputasi dan pengurangan dimensi; DAVID: Basis 2014;344(6190):1396–401.
data untuk anotasi, visualisasi, dan penemuan integrasi; PCA: Analisis komponen 6. Pollen AA, Nowakowski TJ, Chen J, Retallack H, Sandoval-Espinosa C, Nicholas
utama; SC3: Pengelompokan konsensus sel tunggal; scRNA-seq: Pengurutan RNA CR, Shuga J, Liu SJ, Oldham MC, Diaz A, dkk. Identitas molekuler glia radial
sel tunggal; SINCERA: Analisis pembuatan profil RNA-seq SEL TUNGGAL; SNN-Cliq: luar manusia selama perkembangan kortikal. Sel. 2015;163(1):55–67.
Berbagi tetangga terdekat-Cliq; t-SNE: algoritma embedding tetangga stokastik
terdistribusi-t; WGCNA: Analisis jaringan ko-ekspresi gen tertimbang 7. Zeisel A, Muñoz-Manchado AB, Codeluppi S, Lönnerberg P, La Manno G, Juréus
A, Marques S, Munguba H, He L, Betsholtz C, dkk. Jenis sel di korteks tikus dan
hippocampus diungkapkan oleh sel tunggal rna-seq.
Pekerjaan ini dan biaya publikasi sebagian disponsori oleh Dana Penelitian
9. Haque A, Engel J, Teichmann SA, Lönnberg T. Panduan praktis untuk
Fundamental untuk Universitas Pusat (2232016A3-05), Yayasan Ilmu Pengetahuan
pengurutan rna sel tunggal untuk penelitian biomedis dan aplikasi
Alam Nasional Tiongkok (61772128, 61772367), Program Penelitian dan
klinis. Obat Genom. 2017;9(1):75.
Pengembangan Kunci Nasional Tiongkok (2016YFC0901704) dan Yayasan Ilmu
Pengetahuan Alam Shanghai (17ZR1400200,18ZR1414400). 10. Kharchenko PV, Silberstein L, Scadden DT. Pendekatan Bayesian untuk
analisis ekspresi diferensial sel tunggal. Metode Nat. 2014;11(7):740.
11. Ji Z, Ji H. Tscan: Rekonstruksi dan evaluasi pseudo-waktu dalam analisis rna-seq
Ketersediaan data dan bahan
sel tunggal. Asam Nukleat Res. 2016;44(13):e117.
Dataset GSE72056 dan GSE73727 dapat diunduh di URL berikut: https://
12. Fiers MW, Minnoye L, Aibar S, Bravo González-Blas C, Kalender Atak Z, Aerts
www.ncbi.nlm.nih.gov/geo/query/acc.cgi.
S. Memetakan jaringan pengatur gen dari data omics sel tunggal. Genomik
Fungsi Singkat. 2018;17(4):246–54.
Tentang suplemen ini
13. Stegle O, Teichmann SA, Marioni JC. Tantangan komputasi dan analitik dalam
Artikel ini telah diterbitkan sebagai bagian dariBMC Medical Genomics
transkriptomik sel tunggal. Nat Rev Genet. 2015;16(3):133.
Volume 11 Tambahan 6, 2018: Prosiding Konferensi Internasional ke-29
14. Yau C, dkk. pcareduce: pengelompokan hierarkis profil transkripsi sel tunggal.
tentang Informatika Genom (GIW 2018): genomik medis. Isi lengkap
Bioinforma BMC. 2016;17(1):140.
suplemen tersedia online dihttps://bmcmedgenomics.biomedcentral.com/
15. Maaten Lvd, Hinton G. Visualisasi data menggunakan t-sne. J Mach Pelajari Res.
articles/ supplement/volume-11-supplement-6.
2008;9(Nov):2579–605.
Kontribusi penulis 16. Macosko EZ, Basu A, Satija R, Nemesh J, Shekhar K, Goldman M, Tirosh I, Bialas
YLG dan NL bertanggung jawab atas gagasan utama, serta penyelesaian naskah AR, Kamitaki N, Martersteck EM, dkk. Profil ekspresi genom-lebar yang sangat
dan eksperimen. GBZ, YCX dan JHG telah mengoordinasikan pra-pemrosesan data paralel dari sel-sel individual menggunakan tetesan nanoliter Sel.
dan mengawasi upaya tersebut. Semua penulis telah membaca dan menyetujui 2015;161(5):1202–14.
naskah akhir. 17. Lin P, Rombongan M, Ho JW. Cidr: Pengelompokan yang sangat cepat dan akurat
melalui imputasi untuk data rna-seq sel tunggal. Biola genom. 2017;18(1):59.
Persetujuan etika dan persetujuan untuk berpartisipasi Tak 18. Xu C, Su Z. Identifikasi tipe sel dari transkriptom sel tunggal menggunakan
dapat diterapkan. metode pengelompokan baru. Bioinformatika. 2015;31(12):1974–80.
19. Guo M, Wang H, Potter SS, Whitsett JA, Xu Y. Sincera: saluran untuk
Persetujuan untuk publikasi Tak analisis profil rna-seq sel tunggal. PLoS Comput Biol. 2015;11(11):
dapat diterapkan. 004575.
20. Kiselev VY, Kirschner K, Schaub MT, Andrews T, Yiu A, Chandra T, Natarajan KN,
Kepentingan bersaing Reik W, Barahona M, Green AR, dkk. Sc3: pengelompokan konsensus data
Para penulis menyatakan bahwa mereka tidak memiliki kepentingan yang bersaing. rna-seq sel tunggal. Metode Nat. 2017;14(5):483.
Gandkk. Genomik Medis BMC2018,11(Suppl 6): 117 Halaman 72 dari 112