Alessandro Sentelli, Emanuele Peschiera, Riccardo Trevisan, Giovanni Maschietto, Elena Torri, Riccardo Inchingolo , Andrea Smargiassi, Gino Soldati, Paolo
Rota, Andrea Passerini, Ruud J. G. van Sloun , Elisa Ricci , and Libertario Demi
Pembelajaran mendalam (PL) telah terbukti berhasil dalam pencitraan medis dan
setelah pandemi COVID-19 baru-baru ini, beberapa pekerjaan telah mulai menyelidiki
solusi berbasis (PL) untuk mendiagnosis penyakit paru-paru. Sementara pekerjaan yang ada
saat ini fokus pada CT scan, makalah ini mempelajari penerapan teknik (PL) untuk
menganalisis gambar ultrasonografi paru (LUS). Secara khusus, kami menyajikan
kumpulan data gambar ultrasonografi paru (LUS) yang sepenuhnya beranotasi yang
dikumpulkan dari beberapa rumah sakit di Italia, dengan label yang menunjukkan tingkat
keparahan penyakit pada tingkat bingkai, tingkat video, dan tingkat piksel (masker
segmentasi).
I. PENDAHULUAN
Pneumonia COVID-19 dapat dengan cepat berkembang menjadi kondisi yang sangat
kritis. Pemeriksaan gambaran radiologis over 1.000 pasien COVID-19 menunjukkan banyak
karakteristik seperti sindrom gangguan pernapasan akut (ARDS), seperti kekeruhan kaca
bilateral dan multi-lobar (terutama terdistribusi ke posterior dan/atau perifer). computed
tomography (CT) telah diciptakan sebagai alternatif potensial untuk mendiagnosis pasien
COVID-19 . Sementara RT-PCR dapat memakan waktu hingga 24 jam dan memerlukan
beberapa tes untuk hasil yang pasti, diagnosis menggunakan CT bisa jauh lebih cepat.
Namun, penggunaan CT dada memiliki kelemahan yang signifikan: mahal, membuat pasien
terpapar radiasi, membutuhkan pembersihan ekstensif setelah pemindaian, dan bergantung
pada interpretasi ahli radiologi.
Akhir-akhir ini, pencitraan ultrasound, teknik pencitraan yang lebih banyak tersedia,
hemat biaya, aman dan real-time, mendapatkan perhatian. Secara khusus, USG paru (LUS)
semakin banyak digunakan di tempat perawatan untuk mendeteksi dan pengelolaan
gangguan pernapasan akut. Dalam beberapa kasus menunjukkan sensitivitas yang lebih baik
daripada rontgen dada dalam mendeteksi pneumonia. Dokter baru-baru ini menggambarkan
penggunaan pencitraan LUS di ruang gawat darurat untuk diagnosis COVID-19. Temuan
menunjukkan karakteristik LUS spesifik dan biomarker pencitraan untuk pasien COVID-19,
yang dapat digunakan untuk mendeteksi pasien ini dan mengelola kemanjuran pernapasan
ventilasi mekanis. Jangkauan penerapan yang luas dan biaya yang relatif rendah menjadikan
pencitraan ultrasound sebagai teknik yang sangat berguna dalam situasi ketika arus masuk
pasien melebihi kemampuan infrastruktur pencitraan rumah sakit biasa.
Berkat biayanya yang rendah, ini juga dapat diakses oleh negara-negara
berpenghasilan rendah dan menengah. Namun, menafsirkan gambar ultrasound bisa menjadi
tugas yang menantang dan rentan terhadap kesalahan karena kurva belajar yang curam.
Baru-baru ini, analisis citra otomatis dengan metode mesin dan pembelajaran
mendalam telah menjanjikan untuk rekonstruksi, klasifikasi, regresi dan segmentasi jaringan
menggunakan citra ultrasound,. Dalam makalah ini kami menjelaskan penggunaan DL untuk
membantu dokter dalam mendeteksi pola pencitraan terkait COVID-19 pada LUS tempat
perawatan.
Gambar 1. Tinjauan tentang berbagai tugas yang dipertimbangkan dalam pekerjaan ini.
Mengingat urutan gambar LUS, kami mengusulkan pendekatan untuk: (oranye) prediksi
skor keparahan penyakit untuk setiap bingkai masukan dan lokalisasi pola patologis yang
diawasi dengan lemah; (merah muda) agregasi skor tingkat bingkai untuk menghasilkan
prediksi pada video; (hijau) estimasi topeng segmentasi yang menunjukkan artefak
patologis.
Secara khusus, kami menangani tiga tugas berbeda pada pencitraan LUS ( Gambar
1): klasifikasi berbasis bingkai, penilaian tingkat video, dan segmentasi artefak patologis.
Tugas pertama terdiri dari mengklasifikasikan setiap frame tunggal dari urutan gambar LUS
menjadi salah satu dari empat tingkat keparahan penyakit, yang ditentukan oleh sistem
penilaian di. Penilaian tingkat video bertujuan untuk memprediksi skor untuk seluruh urutan
bingkai berdasarkan skala penilaian yang sama. Segmentasi terdiri dari klasifikasi tingkat
piksel dari artefak patologis dalam setiap frame.
Makalah ini memajukan seni dalam analisis otomatis gambar LUS untuk
mendukung tenaga medis dalam diagnosis patologi terkait COVID-19 di berbagai arah. (1)
Kami mengusulkan versi database ICLUS-DB yang diperluas dan beranotasi penuh [18].
Dataset berisi label pada skala 4 tingkat yang diusulkan di, baik di tingkat bingkai maupun
video.
Selain itu, ini mencakup subset gambar LUS beranotasi tingkat piksel yang berguna untuk
mengembangkan dan menilai metode segmentasi semantik.(2) Kami memperkenalkan
arsitektur mendalam baru yang memungkinkan untuk memprediksi skor yang terkait
dengan satu gambar LUS, serta untuk mengidentifikasi daerah yang mengandung artefak
patologis dengan cara yang diawasi dengan lemah. Jaringan kami memanfaatkan Spatial
Transformers Network (STN) dan kehilangan konsistensi untuk mencapai lokalisasi pola
penyakit dan dari kerugian regresi ordinal lunak untuk estimasi skor yang kuat.
(3) Kami memperkenalkan pendekatan sederhana dan ringan berdasarkan uninorms untuk
menggabungkan prediksi tingkat bingkai dan memperkirakan skor yang terkait dengan
urutan video. (4) Kami membahas masalah lokalisasi otomatis artefak patologis yang
mengevaluasi kinerja metode segmentasi semantik canggih yang berasal dari arsitektur
konvolusi penuh. (5) Akhirnya, kami melakukan evaluasi ekstensif terhadap metode kami
pada semua tugas, menunjukkan bahwa prediksi akurat dan lokalisasi biomarker pencitraan
COVID-19 dapat dicapai dengan solusi yang diusulkan. Dataset dan kode tersedia di
https://iclus- web.bluetensor.ai dan di https://github.com/mhug-Trento/
DL4covidUltrasound.
II. PEKERJAAN YANG BERHUBUNGAN
DL telah terbukti berhasil dalam berbagai visi tugas komputer mulai dari pengenalan
obyek dan deteksi untuk segmentasi vasi oleh keberhasilan ini, baru-baru ini, DL semakin
banyak digunakan dalam aplikasi medis, misalnya untuk segmentasi citra biomedis [23]
atau deteksi pneumonia dari rontgen dada [24]. Karya-karya mani ini menunjukkan bahwa,
dengan ketersediaan data, DL dapat mengarah pada bantuan dan otomatisasi diagnosis awal
yang sangat penting dalam komunitas medis.
Setelah pandemi saat ini, karya terbaru berfokus pada deteksi COVID-19 dari CT
dada [25], [26]. Dalam [27], jaringan tipe U-Net digunakan untuk meregresi kotak pembatas
untuk setiap wilayah pneumonia COVID-19 yang mencurigakan pada CT scan berturut-
turut, dan penyaringan berbasis kuadran dieksploitasi untuk mengurangi kemungkinan
deteksi positif palsu. Secara berbeda, dalam [28] proposal wilayah berbasis ambang batas
pertama kali digunakan untuk mengambil wilayah yang diminati (RoI) dalam pemindaian
input dan jaringan Inception dieksploitasi untuk mengklasifikasikan setiap RoI yang
diusulkan. Demikian pula, dalam [29], model VNET-IR-RPN yang telah dilatih sebelumnya
untuk deteksi tuberkulosis paru digunakan untuk mengusulkan RoI pada input CT dan versi
3D dari Resnet-18 digunakan untuk mengklasifikasikan setiap RoI.
Namun, sangat sedikit karya yang menggunakan DL pada gambar LUS dapat
ditemukan dalam literatur [30]. Klasifikasi dan metode lokalisasi yang diawasi dengan
lemah untuk patologi paru dijelaskan dalam [17]. Berdasarkan ide gagasan yang sama,
dalam [18] klasifikasi berbasis bingkai dan metode segmentasi yang diawasi dengan lemah
diterapkan pada gambar LUS untuk deteksi pola terkait COVID-19. Di sini, Efficientnet
dilatih untuk mengenali COVID-19 dalam gambar LUS, setelah itu peta aktivasi kelas
(CAM) [31] dieksploitasi untuk menghasilkan peta segmentasi yang diawasi dengan lemah
dari gambar input. Karya kami memiliki beberapa perbedaan dibandingkan dengan semua
karya sebelumnya. Pertama, sementara di [18] CAM digunakan untuk lokalisasi, dalam
pekerjaan ini kami mengeksploitasi STN untuk mempelajari kebijakan lokalisasi yang
diawasi dengan lemah dari data (yaitu tidak mengeksploitasi lokasi berlabel eksplisit tetapi
menyimpulkannya dari label klasifikasi berbasis bingkai sederhana). Kedua, sementara
dalam [18] masalah klasifikasi diselesaikan, kami fokus pada regresi ordinal, yang
memprediksi tidak hanya keberadaan artefak terkait COVID-19, tetapi juga skor yang
terkait dengan tingkat keparahan penyakit. Ketiga, kami bergerak maju dibandingkan
dengan semua metode sebelumnya dengan mengusulkan model prediksi tingkat video yang
dibangun di atas metode berbasis bingkai.
Sebuah proposal baru-baru ini oleh Soldati et al. menjelaskan bagaimana biomarker
pencitraan spesifik di LUS dapat digunakan dalam pengelolaan pasien COVID-19 [12].
Secara khusus, untuk mengevaluasi perkembangan patologi, sistem penilaian 4 tingkat
dirancang [32], dengan skor mulai dari 0 hingga 3. Skor 0 menunjukkan adanya garis pleura
terus menerus disertai dengan artefak horizontal yang disebut garis A[33], yang mencirikan
permukaan paru-paru yang sehat. Sebaliknya, skor 1 menunjukkan tanda-tanda pertama
kelainan, yaitu munculnya perubahan pada garis pleura dalam hubungannya dengan artefak
vertikal. Skor 2 dan 3 mewakili keadaan patologis yang lebih lanjut, dengan adanya
konsolidasi kecil atau besar, masing-masing. Akhirnya skor 3 dikaitkan dengan adanya area
hiperekogenik yang lebih luas di bawah permukaan pleura, yang dapat disebut sebagai
"paru-paru putih".
Sebanyak 45.560 dan 13.364 frame, diperoleh dengan menggunakan probe cembung
dan linier masing-masing, diberi label sesuai dengan sistem penilaian yang ditentukan di
atas. Dari 58.924 bingkai LUS yang membentuk kumpulan data, 5.684 diberi label skor 3
(10%), 18.972 skor 2 (32%), 14.295 skor 1 (24%), 19.973 skor 0 (34%). Sebuah plot
menunjukkan distribusi skor dan probe per rumah sakit ditunjukkan pada Gambar. 2.
Selain itu, subset dari 60 video yang diambil sampelnya dari 35 pasien dipilih dan
anotasi tingkat video disediakan untuk mereka. Anotasi ini menggunakan penilaian yang
sama yang ditentukan untuk anotasi tingkat bingkai. Untuk mengatasi bias subjektif dalam
evaluasi video, lima dokter yang berbeda memberikan evaluasi mereka untuk setiap urutan.
Kami menilai kompleksitas tugas ini dengan menghitung kesepakatan antar-operator,
membandingkan evaluasi prediksi masing-masing dokter dengan prediksi rata-rata dari
empat dokter lainnya. Kesepakatan rata-rata yang dihasilkan adalah sekitar 67% di antara
label yang tersedia.
Akhirnya, untuk 33 pasien, total 1.005 dan 426 frame masing-masing diperoleh
menggunakan probe cembung dan linier, secara semantik dijelaskan pada tingkat piksel
dengan membentuk biomarker pencitraan yang disebutkan di atas menggunakan alat anotasi
LabelMe [34]. Untuk frame yang diperoleh dengan menggunakan probe linier, kemunculan
tingkat piksel relatif untuk skor 0, 1, 2, dan 3 adalah 6.4%, 0.080%, 0.67%, dan 3.7%,
masing-masing. Untuk probe cembung, statistik ini adalah 1.9%, 0.074%, 1.8%, dan 2.1%,
masing-masing. Khususnya, sebagian besar piksel tidak terkait dengan salah satu dari skor
ini. Piksel ini tidak menampilkan karakteristik yang jelas dari kelas tertentu, dan disebut
sebagai latar belakang (BG). Beberapa gambar dan anotasi yang sesuai ditampilkan dalam
materi tambahan.
Dengan tujuan mendukung tenaga medis dalam analisis gambar LUS, dalam
makalah ini kami memperkenalkan pendekatan untuk memprediksi ada atau tidak adanya
artefak patologis di setiap bingkai dari urutan gambar LUS dan untuk secara otomatis
menilai skor keparahan penyakit yang terkait dengan pola tersebut menurut sistem penilaian
COVID-19 LUS [12]. Kami juga tertarik pada lokalisasi spasial artefak patologis dalam
bingkaitanpa mengasumsikan anotasi apa pun tentang posisi artefak tersebut dalam bingkai.
Lokalisasi yang lemah dicapai melalui penggunaan Jaringan Trafo Tata Ruang (STN) [19].
Penggunaan STN berasal dari fakta bahwa sebagian besar artefak patologis
terkonsentrasi di area gambar yang relative kecil, dan, karenanya, seluruh gambar harus
tidak dianggap oleh jaringan untuk membuat prediksi. Masalah tersebut dapat diformalkan
sebagai berikut.Membiarkan x menunjukkan ruang input (yaitu ruang gambar) dan S
himpunan skor yang mungkin. Selama pelatihan, kami diberikan perlengkapan latihan T =
{(Xn, Sn)}N n=1 di mana xn ∈ x dan Sn ∈ S.
Sebuah STN dimodelkan oleh stn memprediksi dua transformasi θ1 dan θ2 yang
diterapkan pada gambar input yang menghasilkan dua versi yang diubah x1dan x2 yang
melokalisasi artefak patologis. Ekstraktor fiturcnn diterapkan ke x1 untuk menghasilkan
prediksi akhir.
3) Definisi Rugi:
Seperti yang dinyatakan sebelumnya, kami tertarik pada merancang jaringan yang
dalam ᶲ untuk secara otomatis memprediksi skor 4 tingkat yang diidentifikasi dalam [12].
Sementara masalah ini sepele dapat dilemparkan dalam kerangka klasifikasi, dalam makalah
ini kami berpendapat bahwa regresi ordinal [37] lebih tepat karena kami tertarik untuk
memprediksi label dari skala ordinal. Alasan di balik pilihan regresi ordinal adalah bahwa
ada kategori tertentu yang lebih benar daripada yang lain sehubungan dengan label yang
sebenarnya, yang bertentangan dengan skenario kelas independen, di mana urutan level
tidak menjadi masalah. Faktanya, kesalahan pada level jarak rendah seharusnya lebih sedikit
dihukum sehubungan dengan kesalahan jarak jauh. Misalnya, memprediksi pasien yang
sakit parah (skor 3) sebagai sehat (skor 0) harus sangat tidak dianjurkan, Sementara regresi
ordinal dapat diimplementasikan dengan menggunakan pendekatan tradisional untuk
menguraikan masalah dengan asumsi |S|-peringkat formulasi [38], berikut [21] kami
memperkenalkan pendekatan ringan untuk regresi ORDinal Lembut (SORD).
di mana δ adalah fungsi jarak yang ditentukan secara manual antara skor / level yang kami
gunakan jarak kuadrat dikalikan oleh faktor konstan. Formulasi ini menghasilkan halus
distribusi probabilitas atas S, di mana besarnya elemen berkurang sementara jarak ke tanah
kebenaran meningkat. Mengkodekan label kebenaran dasar sebagai probabilitas distribusi
berpadu mulus dengan klasifikasi umum fungsi loss yang menggunakan output softmax.
Oleh karena itu, pada pelatihan waktu, kami cukup melatih jaringan menggunakan cross
entropy:
Hasilnya adalah fungsi kerugian yang menghasilkan biaya yang lebih kecil untuk
prediksi yang ada di sekitar tanah label kebenaran, yang, pada gilirannya menghasilkan
gradien yang lebih kecil, karenanya mencegah pembaruan drastis jaringan untuk kesalahan
kecil. Secara empiris, kami menemukan bahwa algoritme kami berfungsi paling baik ketika
kami meningkatkan jarak skor 0 dari yang lain. Seperti yg disebutkan sebelumnya, ini juga
divalidasi oleh semantik skor.
Properti lain yang diinginkan dari jaringan adalah mengekstrak fitur semantik
penting dari gambar input, untuk memungkinkan prediksi skor bingkai yang akurat. Ini bisa
diperkuat dengan menggunakan regularisasi dalam bentuk konsistensi kerugian pada
prediksi dua cabang (ᶲ cnn(x1), ᶲ cnn (x2)) dengan alasan bahwa dua tanaman yang
berbeda dari gambar yang sama harus memiliki prediksi yang sama. Dalam kasus
kami, kedua tanaman ini diproduksi olehᶲ st n. Secara rinci, kehilangan konsistensi
didefinisikan pada representasi jaringan sebagai berikut:
Kami membagi dataset ICLUS-DB menjadi kereta api dan tes split. Pembagian tes
terdiri dari 80 video dari 11 pasien, dengan total 10.709 frame. Semua bingkai dari video
yang tersisa termasuk dalam set kereta. NS split dilakukan pada tingkat pasien, sehingga set
pasien dalam set pelatihan dan tes terputus-putus. STN dimodelkan oleh ConvNet mirip
dengan [17]. Secara khusus, kami menghapus Penggabungan Rata-rata dan lapisan keluaran
dan menggantinya dengan dua lapisan yang terhubung sepenuhnya untuk memprediksi
transformasi affine parameter.
Arsitektur CNN [17] tetap tidak berubah. STN dan CNN dilatih bersama
menggunakan pengoptimal Adam dengan tingkat pembelajaran awal 1e - 4, ukuran batch 64
dan dilatih untuk 120 zaman. Kami juga menggunakan strategi augmentasi data yang serupa
dan peluruhan tingkat pembelajaran seperti yang disarankan dalam [17], [18]. Kami
menetapkan nilaiσ1 dan σ2 ke 0.50 dan 0.75 masingmasing, memanfaatkan pengetahuan
sebelumnya tentang gambar LUS bahwa artefak patologis kira-kira mencakup 25% hingga
50% area gambar.
Identifikasi dari artefak berpotensi patologis dalam gambar LUS adalah langkah
penting menuju dukungan diagnosis. Namun, prediksi berbasis bingkai harus diubah
menjadi prediksi skor berbasis video tunggal untuk menilai keadaan patologis pasien.
Masalah agregasi skor berbasis video dapat diformalkan sebagai berikut. Membiarkan Let v
= {xi }iM=1, jadilah video, V jadilah kumpulan video dengan panjang berapa pun, dan S
kumpulan skor. Tujuan dari prediksi skor tingkat video adalah mempelajari pemetaan Ψ :
V → S.
Pada prinsipnya pemetaan dapat diperoleh dengan mengambil skor maksimum yang
ditetapkan untuk setiap bingkai video saat ini karena identifikasi artefak skor S dalam
bingkai menyiratkan bahwa pasien memiliki tingkat keparahan setidaknya S. Aturan keras
ini, bagaimanapun, tidak dapat diterapkan dalam praktik ketika berhadapan dengan skor
yang diprediksi mesin, karena bahkan kesalahan prediksi berbasis bingkai tunggal dapat
merusak prediksi keseluruhan. Jadi, di bagian ini kami mengusulkan mekanisme agregasi
yang lebih fleksibel yang dirancang untuk memprediksi skor yang terkait dengan video,
dengan memanfaatkan anotasi tingkat video yang disediakan di ICLUS-DB (Bagian III).
2)Definisi Model:
a b
eT ( e , e ) jika a, b ϵ [0, e]
untuk pilihan tertentu T , S dan Ȗ (a, b) sedemikian rupa sehingga min(a,b) ≤ Ȗ (a,
b) ≤ maksimal(a, b). Fungsi-fungsinyaT dan S disebut t-norm dan t-conorm masing-masing,
dan memodelkan perilaku non-kompensasi dan kompensasi. Pilihan yang berbeda untuk
fungsi-fungsi ini menyebabkan uninorms yang berbeda. Kami menemukan produk t-
normaT (a, b) = ab (dan kesesuaian-t yang sesuai S(a, b) = A +B - ab) menjadi pilihan yang
paling efektif karena memungkinkan gradien mengalir paling banyak. Mengenai fungsi Ȗ
(a, b), pilihan umum adalah min(a, b) dan maksimal(a, b), menghasilkan apa yang masing-
masing disebut unnorm min dan unnorm maks.
Kami menemukan min- uninorms menjadi pilihan terbaik dalam pengaturan kami
(sehubungan dengan max(a, b) tapi juga berarti(a, b)), kemungkinan karena perilaku non-
kompensasi sepenuhnya di bidang perbedaan tertinggi antara prediksi berbasis bingkai.
3)Definisi Rugi:
Arsitektur dilatih menggunakan kerugian SORD dijelaskan dalam Persamaan. (5) dihitung
melalui prediksi tingkat video.
4)Strategi Pelatihan:
Prediktor berbasis bingkai mengeluarkan pra-skor diksi dengan distribusi yang
berbeda antara pelatihan dan set tes. Agar prediktor berbasis video tidak terlalu sesuai
dengan distribusi skor pelatihan, kami benar-benar memisahkan set pelatihan prediktor
berbasis bingkai dan berbasis video. Kami melatih prediktor berbasis bingkai pada semua
urutan videoT tanpa anotasi berbasis video, dan evaluasi pada urutan yang tersisa T’ .
C. Semantik Segmentasi
Membiarkan x = Ri× j dan y menunjukkan input (yaitu ruang gambar) dan output
Gambar 4. Contoh hasil crop gambar yang dihasilkan oleh jaringan Reg-STN.
Kolom pertama menunjukkan gambar input yang diperoleh masing-masing dengan sensor
linier dan cembung. Di kolom kedua kami melaporkan peta panas yang dihasilkan oleh
GradCam [44] dan kotak pembatas yang diperoleh dengan thresholding. Di kolom yang
tersisa, gambar asli dilapis dengan kotak pembatas dan dua tanaman masing-masing (merah
dan hijau) dihasilkan ketika model Reg-STN:a) hanya terjemahan dan penskalaan tetap; b)
semua kemungkinan transformasi yaitu. translasi, penskalaan dan rotasi, ditampilkan. Dalam
setiap kasus Reg-STN berfokus pada bagian paling menonjol yang berisi artefak patologis
(yaitu topeng segmentasi) ruang, masing-masing.
Dalam kerangka yang disajikan sebelumnya untuk klasifikasi berbasis gambar dan
video, set skor didefinisikan sebagai:S = {0, 1, 2, 3}. Untuk segmentasi semantik, kami
membedakan lima skor yang berbeda, yaitu empat skor dalamS, dilengkapi dengan skor
latar belakang (BG), ditetapkan ke piksel yang tidak diberi anotasi untuk menampilkan
penanda yang terkait dengan salah satu kelas dalam S. Dengan demikian,kamu = {0, 1, 2, 3,
BG}i× j .
2)Definisi Model:
Kami menggunakan koneksi lewati antara setiap blok lapisan encoder dan decoder.
Untuk mengurangi overfitting kami menerapkan dropout (P = 0.5) selama pelatihan di
kemacetan laten model. Varian Unet++ memanfaatkan empat blok encoder pertama dari
model ResNet50 [42] untuk membangun ruang laten.
Ruang laten diambil sampelnya dalam tahap dekoder melalui transpos lapisan konvolusi 2D.
Dekoder berisi blok sisa, dan juga memanfaatkan koneksi lewati antara output lapisan
tersembunyi (berukuran sama) di enkoder ResNet50 dan dekoder. Model Deeplabv3+ juga
menggunakan struktur encoder-decoder, di mana fitur diekstraksi menggunakan pooling
piramida spasial (yaitu pooling pada skala grid yang berbeda) dan konvolusi atrous,
menghasilkan peta segmentasi yang didekodekan dengan batas objek yang terperinci.
3)Definisi Rugi:
4)Strategi Pelatihan:
Karena lebih besar (dan lebih mewakili tative) set anotasi tingkat piksel untuk probe
cembung, dibandingkan dengan akuisisi probe linier (masing-masing 1.005 dan 426
anotasi), kami di sini secara khusus fokus pada akuisisi cembung. Kami membagi dataset
kami menjadi satu rangkaian (70%) dan set uji (30%) pada tingkat pasien, yaitu semua film
dan bingkai dari satu pasien termasuk dalam set tertentu. Di antara 1005 frame, total 1158
biomarker pencitraan tersegmentasi.
Untuk mempromosikan invarian pada transformasi gambar LUS umum dan dengan
demikian meningkatkan generalisasi pada inferensi, setiap pasangan label-gambar
dimanipulasi secara online selama pelatihan oleh serangkaian fungsi augmentasi yang
masing-masing diaktifkan pada pasangan label-gambar dengan probabilitas 0,33. Himpunan
fungsi augmentasi, masing-masing diterapkan dengan kekuatan sampel acak yang dibatasi
oleh himpunan maksimum, terdiri dari: transformasi affine (terjemahan (maks.±15%), rotasi
(maks. ±15◦), penskalaan (maks. ±45%), dan geser (maks. ±4.5◦)), perkalian dengan
konstanta (maks. ±45%), pengaburan Gaussian (σmaksimal = 3 4 ), distorsi kontras (maks.
±45%), membalik horizontal ( P = 0. 5), dan derau Gaussian putih aditif (σmaksimal =
0.015).
5)Inferensi:
inferensi, kami secara stokastik menerapkan putus sekolah di ruang laten, menghasilkan
beberapa perkiraan titik dari prediksi kelas kami. Besarnya variasi prediksi yang dihasilkan,
pada akhirnya memberikan indikasi ketidakpastian untuk setiap piksel.
V.HASIL EKSPERIMEN
Di Tabel I, kami mengevaluasi kinerja metode kami dalam hal skor F1. Karena,
anotasi dalam gambar LUS cukup subjektif (lihat nanti) kami juga melaporkan hasil
untuk dua metrik tambahan, yang kemudian didefinisikan sebagai Pengaturan 2 dan
Pengaturan 3, masing-masing. Metriknya adalah: i) Pengaturan 1 menganggap skor F1
yang dihitung pada seluruh set uji, ii) Pengaturan 2 menganggap skor F1 yang dihitung
pada versi modifikasi dari set uji yang diperoleh dengan menjatuhkan, untuk setiap
video, bingkai K sebelum dan sesudah setiap transisi antara dua skor kebenaran tanah
yang berbeda, berpotensi menghapus bingkai ambigu yang menyajikan karakteristik
pada batas antara dua kelas, dengan demikian memungkinkan kita untuk
mengidentifikasi dampak pelabelan bising pada kinerja model; dan iii) Menetapkan 3,
kami menjatuhkan video yang paling menantang dengan menggunakan perjanjian antar-
dokter antara 5 anotasi tingkat video independen.
Tabel II
MEAN DAN DEVIASI DARI SKOR F1, PRESISI DAN RECALL YANG DIHITUNG
PADA LIMA LIPAT LIMA VALIDASI LIMA, UNTUK METODE DAN BASELINE
KLASIFIKASI BERBASIS VIDEO YANG DIUSULKAN
Kami mengevaluasi prediksi skor berbasis video dalam hal skor F1 tertimbang, Presisi
dan Recall. Ini diperoleh dengan terlebih dahulu menghitung metrik untuk setiap skor (nol
hingga tiga), dan kemudian menghitung rata-rata tertimbang di atas skor, di mana beratnya
adalah fraksi dari contoh yang memiliki skor itu. Perhatikan bahwa penarikan tertimbang
sesuai dengan akurasi (multiscore), yaitu, fraksi skor yang diprediksi dengan benar atas
jumlah total prediksi. Tabel II melaporkan rata-rata dan standar deviasi metrik ini selama
lima lipatan prosedur validasi silang.
Kami membandingkan prediktor tingkat video kami dengan dua metode agregasi
standar, max_argmax dan argmax_mean. Yang pertama menerapkan aturan keras yang
dijelaskan dalam Bagian IV-B. Ini memberi label setiap frame dengan skor yang paling
mungkin sesuai dengan prediktor tingkat bingkai, dan mengambil skor maksimal di
sepanjang video. Yang terakhir rata-rata prediksi frame-level atas video dan mengembalikan
skor dengan rata-rata maksimal.
Metode yang diusulkan mengungguli kedua baseline dalam hal skor F1, presisi dan
penarikan kembali. Tabel III menunjukkan matriks kebingungan untuk tiga metode, diperoleh
dengan menggabungkan prediksi untuk semua lipatan. Tabel III menunjukkan matriks
kebingungan untuk tiga metode, diperoleh dengan menggabungkan prediksi untuk semua
lipatan. Seperti yang diharapkan, aturan keras max_argmax sangat bias terhadap memprediksi
skor tertinggi, menghasilkan kinerja buruk pada semua skor lainnya.
Di sisi lain, baseline argmax_mean memiliki kinerja terbaik dalam memprediksi skor nol,
tetapi berkinerja buruk pada skor lainnya (under_predicting skor satu dan tiga dan over-
memprediksi skor dua). Agregasi berbasis uninorm lebih seimbang, mengungguli masing-
masing garis dasar pada tiga dari empat skor.
Empat contoh dari frame gambar B-mode (kolom pertama), pembatalan mereka (kolom
kedua) termasuk COVID-19 biomarkers (moderat/score 2: orange, parah/score 3:
merah), dan tanda-tanda paru-paru sehat (biru). Segmentarasi yang sesuai dan kontures
dari COVID-19 penanda oleh pembelajaran mendalam diberikan pada ketiga dan
keempat colomn, masing-masing.
Tabel III
KEBINGUNGAN MATRIKS (%) UNTUK METODE KLASIFIKASI BERBASIS VIDEO
YANG DIUSULKAN DAN BASELINES
C.Semantik Segmentasi
Tabel IV
KINERJA SEGMENTASI
AKURASI KATEGORIAL DI SEMUA PIXEL DAN
SKOR (ACC.), KOEFISIEN DADU UNTUK
PERSATUAN SKOR TERKAIT COVID-19 (DICE),
DAN DADU BERARTI LUAS SKOR 0, 2,
DAN 3 (C AT. D ICE). SKOR 1 W SEBAGAI DIKECUALIKAN
KARENA RENDAHNYA JUMLAH ANOTASI
Di dalam Gambar 6 kami memberikan visualisasi ketidakpastian dalam segmentasi
yang diprediksi untuk dua contoh gambar dengan rancangngan deviasi standar piksel yang
dihasilkan dari mode MC di 40 sampel dimana Panah di (A) menunjukkan wilayah yang
menampilkan penanda COVID-19 yang ambiguitas dalam bentuk dan luas yang tepat
tercermin dengan baik dalam tingkat piksel yang belum pasti. Panah di (B) menunjukkan
daerah yang tampaknya positif salah yang dinilai sebagai penanda COVID-19 tingkat tinggi
oleh jaringan dan tanpa keterangan . Menariknya, secara retrospektif hasil keluaran jaringan
dinilai sebagai positif oleh orang yang mencatat laporan , menunjukkan area paru
hiperekogenik di bawah permukaan pleura [12], yang mencirikan permeabilitas tinggi dan
keadaan penyakit lanjut.
Model lengkap kami, yang menyematkan modul STN, kehilangan SORD dan kehilangan
konsistensi yang diusulkan mencapai skor F1 65,1, mengungguli semua baseline dengan
selisih besar. Untuk menyelidiki lebih lanjut apakah peningkatan terjadi karena istilah
konsistensi atau STN, kami bereksperiment melakukan percobaan menggunakan dua tanaman
acak yang cukup tumpang tindih dan kehilangan konsistensi yang dipaksakan di antara
keduanya.
Tidak heran , jika skor F1 untuk CNN + Random Crop + SORD tetap jauh di bawah metode
yang kami usulkan. Kami berhipotesis bahwa kehilangan konsistensi hanya berguna ketika
tanaman menutupi area tersebut. Berbeda dengan pekerjaan sebelumnya [18], kami
menemukan bahwa penggunaan arsitektur yang lebih kompleks seperti ResNet18 tidak
membawa peningkatan kinerja yang positif.
Kami berpendapat bahwa ini karena kompleksitas intrinsik tugas yang rendah.
Sebaliknya, kami menyarankan bahwa sebagian besar model disebabkan oleh hasil pada
frame dan label. Namun kami percaya bahwa ini disebabkan oleh subjektivitas anotasi dan
adanya bingkai yang ambigu. Faktanya, label bingkai tidak memperhitungkan bahwa
beberapa artefak dapat hadir sekaligus. Ini terjadi terutama ketika sensor bergerak,
menyebabkan transisi dari satu skor ke skor lainnya.
Kami menghitung skor F1 65,9 ketika STN memodelkan terjemahan yang dapat
dipelajari dengan penskalaan tetap. Dalam kedua kasus tersebut, STN menghasilkan tanaman
yang sangat terlokalisasi yang sebagian besar bergantung di sekitar area patologis.
Menariknya, untuk akuisisi sensor cembung dan linier, Reg-STN belajar mengabaikan area di
atas pleura, yang pada dasarnya tidak relevan untuk prediksi bingkai yang kegunaan untuk
menggabungkan blok STN dalam prediktor berdasarkan bingkai kami.
Kami juga melaporkan peta panas yang dihasilkan oleh GradCam [44] untuk gambar
yang sama. Secara kualitatif, GradCam tidak selalu fokus pada area gambar yang relevan.
Misalnya, untuk gambar dari probe linier yang ditampilkan pada gambar, dimana diberikan
pada lapisan jaringan interkostal dan bukan pada area gambar di bawah garis pleura, yang
merupakan area yang menarik untuk analisis data LUS
Selain itu, kami memperhatikan bahwa kualitas peta panas memburuk ketika prediksi
jaringan salah.
Selain itu, kami merasa sulit untuk menghasilkan kotak yang masuk akal dari peta panas yang
dihasilkan oleh GradCam, karena memerlukan ambang batas Untuk alasan ini, kami percaya
bahwa STN menghasilkan lokalisasi yang unggul.
Ketika dilatih tentang anotasi oleh dokter ahli, klasifikasi berbasis video mencapai skor F1
61%, presisi 70%, dan recall 60%. Terlihat bahwa nilai-nilai ini sejalan dengan kesepakatan
antar-annotator rendah yang dilaporkan di Bagian III, yang bersama-sama dengan sejumlah
kecil sampel dengan anotasi tingkat video dapat menjelaskan keragaman skor yang tinggi .
Kami berharap bahwa memperluas kumpulan anotasi tingkat video yang relatif kecil akan
membantu mengatasi gangguan pelabelan, meningkatkan kinerja model, dan mengurangi
varian nya.
Gambar 6.Dua contoh (A, B) ketidakpastian kelas dalam segmentasi, menampilkan bingkai
gambar input mode-B (kolom pertama), anotasi (kolom kedua), termasuk biomarker
COVID-19 (sedang/skor 2: oranye, parah/skor 3: merah), semantik yang sesuai segmentasi
berdasarkan pembelajaran mendalam (kolom ketiga), dan ketidakpastian kelas COVID-19
tingkat piksel oleh MC-dropout (kolom keempat).
C. Evaluasi Segmentasi
Setelah mengevaluasi kembali beberapa contoh tersebut dari rangkaian tes, bersama
dengan annotator, kami mengetahui bahwa annotator belum tentu apakah akan memberi
anotasi pada suatu wilayah seperti misalnya skor 2 atau 3, dan oleh karena itu memutuskan
bahwa penanda tidak cukup jelas untuk membuat anotasi wilayah sama sekali, yang
menyebabkan perbedaan tersebut.
Kinerja segmentasi dan ekstraksi semantik dapat lebih ditingkatkan dengan memanfaatkan
struktur temporal di antara bingkai dalam model sekuensial. Model tersebut dapat belajar dari
anotasi di seluruh video, atau melalui anotasi sebagian dan pengawasan yang lemah. Kami
meninggalkan ekstensi dari metode ini untuk pekerjaan di masa depan.
D. Keterbatasan Dataset
Selanjutnya, cara pengumpulan data rentan terhadap bias tertentu, misalnya karena
arus masuk pasien yang tinggi, pasien yang paling parah diprioritaskan dan dinilai, dan
diagnosis ultrasonografi dilakukan pada pasien dengan kecurigaan klinis yang tinggi. Tidak
ada pengujian selanjutnya yang dilakukan, sehingga kemungkinan dimasukkannya kasus
positif palsu. Label di ICLUS-DB ternyata berisik. Selanjutnya, untuk tugas klasifikasi dan
segmentasi berbasis bingkai, perjanjian antar-operator tidak tersedia. Kebisingan dapat
diamati secara tidak langsung pada Tabel I, di mana hanya dengan menggunakan pilihan
sampel pelatihan, kinerja meningkat hampir 5%.
Memperluas basis data untuk mendapatkan label tingkat bingkai dari beberapa
annotator pasti akan menghasilkan model yang lebih kuat. Akhirnya, video LUS yang
disertakan dengan skor 0 semuanya adalah pasien sehat, dan oleh karena itu kami sama sekali
tidak mengklaim untuk membedakan antara pasien COVID-19 dan mereka yang memiliki
patologi berbeda.
E. Kemungkinan Aplikasi
Manfaat menggunakan ultrasound adalah risiko infeksi silang yang rendah saat
menggunakan penutup plastik sekali pakai dan gel ultrasound yang dikemas secara individual
pada mesin genggam portabel [45]. Hal ini berbeda dengan penggunaan CT, di mana ruangan
dan sistem perlu dibersihkan secara ketat untuk mencegah kontaminasi (dan sebaiknya
disediakan untuk pasien dengan kecurigaan COVID-19 yang tinggi). LUS dapat dilakukan di
dalam kamar pasien tanpa memerlukan transportasi, menjadikannya metode yang unggul
untuk penilaian pasien di tempat perawatan.
REFERENCES
[1] WHO. (2020). Laboratory Testing Strategy Recommenda tions for COVID-19: Interim Guidance.
[Online]. Available: https://apps.who.int/iris/bitstream/handle/10665/331509/WHO COVID-19-
lab_testing-2020.1-eng.pdf
[2] R. Niehus, P. M. de Salazar, A. Taylor, and M. Lipsitch, “Quantifying bias of COVID-19 prevalence
and severity estimates in Wuhan, China that depend on reported cases in international travelers,”
medRxiv 2020.02.13.20022707, Feb. 2020.
[3] Y. Yang et al., “Evaluating the accuracy of different respiratory speci mens in the laboratory
diagnosis and monitoring the viral shedding of 2019-nCoV infections,” medRxiv
2020.02.11.20021493, Feb. 2020.
[4] S. Salehi, A. Abedi, S. Balakrishnan, and A. Gholamrezanezhad, “Coronavirus disease 2019
(COVID-19): A systematic review of imaging findings in 919 patients,” Amer. J. Roentgenology, pp. 1–
7, Mar. 2020.
[5] A. Bernheim et al., “Chest CT findings in coronavirus disease-19 (COVID-19): Relationship to
duration of infection,” Radiology, Feb. 2020, Art. no. 200463. [Online]. Available:
http://pubs.rsna.org/doi/10.1148/radiol.2020200463
[6] F. Mojoli, B. Bouhemad, S. Mongodi, and D. Lichtenstein, “Lung ultrasound for critically ill
patients,” Amer. J. Respiratory Crit. Care Med., vol. 199, pp. 701–714, Mar. 2019.
[7] R. Raheja, M. Brahmavar, D. Joshi, and D. Raman, “Application of lung ultrasound in critical care
setting: A review,” Cureus, vol. 11, no. 7, p. e5233, Jul. 2019.
[8] Y. Amatya, J. Rupp, F. M. Russell, J. Saunders, B. Bales, and D. R. House, “Diagnostic use of lung
ultrasound compared to chest radiograph for suspected pneumonia in a resource-limited setting,”
Int. J. Emergency Med., vol. 11, no. 1, p. 8, Dec. 2018.
[9] E. Poggiali et al., “Can lung US help critical care clinicians in the early diagnosis of novel
coronavirus (COVID-19) pneumonia?” Radiology, Mar. 2020, Art. no. 200847.
[10] Q.-Y. Peng, Chinese Critical Care Ultrasound Study Group, X.-T. Wang, and L.-N. Zhang, “Findings
of lung ultrasonography of novel corona virus pneumonia during the 2019-2020 epidemic,” Intensive
Care Med., vol. 46, no. 5, pp. 849–850, May 2020.
[11] G. Soldati et al., “Is there a role for lung ultrasound during the COVID-19 pandemic?” J.
Ultrasound Med., Apr. 2020.
[12] G. Soldati et al., “Proposal for international standardization of the use of lung ultrasound for
patients with COVID-19: A simple, quantitative, reproducible method,” J. Ultrasound Med., Apr.
2020.
[13] K. Stefanidis et al., “Lung sonography and recruitment in patients with early acute respiratory
distress syndrome: A pilot study,” Crit. Care, vol. 15, no. 4, p. R185, 2011.
[14] K. A. Stewart et al., “Trends in ultrasound use in low and middle income countries: A systematic
review,” Int. J. MCH AIDS, vol. 9, no. 1, pp. 103–120, 2020.
[15] L. Tutino, G. Cianchi, F. Barbani, S. Batacchi, R. Cammelli, and A. Peris, “Time needed to achieve
completeness and accuracy in bedside lung ultrasound reporting in intensive care unit,” Scandin. J.
Trauma, Resuscitation Emergency Med., vol. 18, no. 1, p. 44, 2010.
[16] R. J. van Sloun, R. Cohen, and Y. C. Eldar, “Deep learning in ultrasound imaging,” Proc. IEEE, vol.
108, no. 1, pp. 11–29, Jul. 2019. [Online]. Available: http://arxiv.org/abs/1907.02994
[17] R. J. G. van Sloun and L. Demi, “Localizing B-Lines in lung ultra sonography by weakly
supervised deep learning, in-vivo results,” IEEE J. Biomed. Health Informat., vol. 24, no. 4, pp. 957–
964, Apr. 2020.
[18] G. Soldati et al., “Towards computer aided lung ultrasound imaging for the management of
patients affected by COVID-19,” Tech. Rep.
[19] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu, “Spatial transformer networks,”
in Proc. NIPS, 2015, pp. 2017–2025.
[20] S. Roy, A. Siarohin, E. Sangineto, S. R. Bulo, N. Sebe, and E. Ricci, “Unsupervised domain
adaptation using feature-whitening and consen sus loss,” in Proc. IEEE/CVF Conf. Comput. Vis.
Pattern Recognit. (CVPR), Jun. 2019, pp. 9471–9480.
[21] R. Diaz and A. Marathe, “Soft labels for ordinal regression,” in Proc. IEEE/CVF Conf. Comput. Vis.
Pattern Recognit. (CVPR), Jun. 2019, pp. 4738–4747.
[22] V. Melnikov and E. Hüllermeier, “Learning to aggregate using uni norms,” in Proc. ECML, 2016,
pp. 756–771.
[23] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional net works for biomedical image
segmentation,” in Proc. MICCAI, 2015, pp. 234–241.
[24] P. Rajpurkar et al., “CheXNet: Radiologist-level pneumonia detection on chest X-Rays with deep
learning,” 2017, arXiv:1711.05225. [Online]. Available: http://arxiv.org/abs/1711.05225
[25] D. Dong et al., “The role of imaging in the detection and management of COVID-19: A review,”
IEEE Rev. Biomed. Eng., early access, Apr. 27, 2020, doi: 10.1109/RBME.2020.2990959.
[26] F. Shi et al., “Review of artificial intelligence techniques in imag ing data acquisition,
segmentation and diagnosis for COVID-19,” IEEE Rev. Biomed. Eng., early access, Apr. 16, 2020, doi:
10.1109/RBME.2020.2987975.
[27] J. Chen et al., “Deep learning-based model for detecting 2019 novel coronavirus pneumonia on
high-resolution computed tomography: A prospective study,” MedRxiv, Tech. Rep., 2020.
[28] S. Wang et al., “A deep learning algorithm using ct images to screen for corona virus disease
(COVID-19),” MedRxiv, Tech. Rep., 2020.
[29] X. Xu et al., “Deep learning system to screen coronavirus dis ease 2019 pneumonia,” 2020,
arXiv:2002.09334. [Online]. Available: http://arxiv.org/abs/2002.09334
[30] S. Liu et al., “Deep learning in medical ultrasound analysis: A review,” Engineering, vol. 5, no. 2,
pp. 261–275, Apr. 2019.
[31] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, “Learning deep features for
discriminative localization,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp.
2921–2929.
[32] G. Soldati et al., “Simple, safe, same: Lung ultrasound for COVID-19 (LUSCOVID19),”
ClinicalTrials.gov Identifier: NCT04322487, 2020.
[33] G. Soldati, M. Demi, R. Inchingolo, A. Smargiassi, and L. Demi, “On the physical basis of
pulmonary sonographic interstitial syndrome,” J. Ultrasound Med., vol. 35, no. 10, pp. 2075–2086,
Oct. 2016.
[34] K. Wada. (2016). Labelme: Image Polygonal Annotation With Python. [Online]. Available:
https://github.com/wkentaro/labelme
[35] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classifica tion with deep convolutional
neural networks,” in Proc. NIPS, 2012, pp. 1097–1105.
[36] M. Sajjadi, M. Javanmardi, and T. Tasdizen, “Regularization with stochastic transformations and
perturbations for deep semi-supervised learning,” in Proc. NIPS, 2016, pp. 1163–1171.
[37] C. Winship and R. D. Mare, “Regression models with ordinal variables,” Amer. Sociol. Rev., vol.
49, no. 4, p. 512, Aug. 1984.
[38] K. Crammer and Y. Singer, “Pranking with ranking,” in Proc. NIPS, 2002, pp. 641–647.
[39] R. R. Yager and A. Rybalov, “Uninorm aggregation operators,” Fuzzy Sets Syst., vol. 80, no. 1, pp.
111–120, May 1996.
[40] Z. Zhou, M. M. R. Siddiquee, N. Tajbakhsh, and J. Liang, “Unet++: A nested u-net architecture for
medical image segmentation,” in Proc. Deep Learn. Med. Image Anal. Multimodal Learn. Clin. Decis.
Support. Cham, Switzerland: Springer, 2018, pp. 3–11.
[41] L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, “Encoder-decoder with atrous
separable convolution for semantic image segmentation,” in Proc. Eur. Conf. Comput. Vis. (ECCV),
2018, pp. 801–818.
[42] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. IEEE
Conf. Comput. Vis. Pattern Recog nit. (CVPR), Jun. 2016, pp. 770–778.
[43] Y. Gal and Z. Ghahramani, “Dropout as a Bayesian approximation: Representing model
uncertainty in deep learning,” in Proc. ICML, 2016, pp. 1050–1059.
[44] R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra, “Grad-cam: Visual
explanations from deep networks via gradient-based localization,” in Proc. IEEE Int. Conf. Comput.
Vis., 2017, pp. 618–626.
[45] J. C.-H. Cheung and K. N. Lam, “POCUS in COVID-19: Pearls and pitfalls,” Tech. Rep., Apr. 2020.
[46] S. Sippel, K. Muruganandan, A. Levine, and S. Shah, “Review article: Use of ultrasound in the
developing world,” Int. J. Emergency Med., vol. 4, no. 1, p. 72, Dec. 2011.
[47] S. Shah, B. A. Bellows, A. A. Adedipe, J. E. Totten, B. H. Backlund, and D. Sajed, “Perceived
barriers in the use of ultrasound in developing countries,” Crit. Ultrasound J., vol. 7, no. 1, p. 11, Dec.
201