Tugas Kelompok 4 (9) Metopel

Pembelajaran Mendalam Untuk Klasifikasi dan Lokalisasi Penanda
COVID-19 Dalam Point-of-Care Lung Ultrasound

Subhankar Roy, Willi Menapace, Sebastiaan Oei, Ben Luijten, Enrico Fini, Cristiano Saltori, Iris Huijben, Nishith Chennakeshava, Federico Mento ,
Alessandro Sentelli, Emanuele Peschiera, Riccardo Trevisan, Giovanni Maschietto, Elena Torri, Riccardo Inchingolo , Andrea Smargiassi, Gino Soldati, Paolo
Rota, Andrea Passerini, Ruud J. G. van Sloun , Elisa Ricci , and Libertario Demi
Pembelajaran mendalam (PL) telah terbukti berhasil dalam pencitraan medis dan
setelah pandemi COVID-19 baru-baru ini, beberapa pekerjaan telah mulai menyelidiki
solusi berbasis (PL) untuk mendiagnosis penyakit paru-paru. Sementara pekerjaan yang ada
saat ini fokus pada CT scan, makalah ini mempelajari penerapan teknik (PL) untuk
menganalisis gambar ultrasonografi paru (LUS). Secara khusus, kami menyajikan
kumpulan data gambar ultrasonografi paru (LUS) yang sepenuhnya beranotasi yang
dikumpulkan dari beberapa rumah sakit di Italia, dengan label yang menunjukkan tingkat
keparahan penyakit pada tingkat bingkai, tingkat video, dan tingkat piksel (masker
segmentasi).
Memanfaatkan data ini, kami memperkenalkan beberapa model mendalam yang

membahas tugas yang relevan untuk menganalisis otomatis gambar ultrasonografi paru
(LUS). Secara khusus, kami menyajikan jaringan dalam baru yang berasal dari Jaringan
Transformer Spasial, yang secara bersamaan memprediksi skor keparahan penyakit yang
terkait dengan bingkai input dan menyediakan lokalisasi artefak patologis dengan cara yang
diawasi dengan lemah. Selanjutnya, kami memperkenalkan metode baru berdasarkan
uninorm untuk agregasi skor bingkai yang efektif di tingkat video. Akhirnya, kami membuat
tolak ukur model dalam yang canggih untuk memperkirakan segmentasi tingkat piksel dari
biomarker pencitraan COVID-19.
I. PENDAHULUAN
Wabah SARS-CoV-2 global yang menyebar dengan cepat mengakibatkan

kelangkaan peralatan medis. Selain kekurangan masker mulut dan ventilator mekanik di
seluruh dunia, kapasitas pengujiannya pun sangat terbatas. Prioritas pengujian itu diberikan
kepada pasien dan staf rumah sakit yang dicurigai. Namun, pengujian dan diagnostik
ekstensif sangat penting untuk secara efektif mengatasi pandemi.
Memang, negara-negara yang telah mampu melakukan pengujian dengan skala

besar terhadap orang yang mungkin terinfeksi dikombinasikan sebagai negara dengan
pengawasan warga secara besar-besaran, mencapai penahanan yang signifikan terhadap
virus SARS-CoV-2 . Oleh karena itu, kapasitas pengujian yang tidak mencukupi di sebagian
besar negara telah mendorong kebutuhan dan pencarian metode alternatif lain yang
memungkinkan untuk mendiagnosis COVID-19.Sebagai tambahan keakuratan tes
laboratorium saat ini, transkripsi terbalik susunan polymerase chainreaction (RT-PCR), tetap
sangat tinggi tergantung pada teknik dan lokasi swab.
Pneumonia COVID-19 dapat dengan cepat berkembang menjadi kondisi yang sangat
kritis. Pemeriksaan gambaran radiologis over 1.000 pasien COVID-19 menunjukkan banyak
karakteristik seperti sindrom gangguan pernapasan akut (ARDS), seperti kekeruhan kaca
bilateral dan multi-lobar (terutama terdistribusi ke posterior dan/atau perifer). computed
tomography (CT) telah diciptakan sebagai alternatif potensial untuk mendiagnosis pasien
COVID-19 . Sementara RT-PCR dapat memakan waktu hingga 24 jam dan memerlukan
beberapa tes untuk hasil yang pasti, diagnosis menggunakan CT bisa jauh lebih cepat.
Namun, penggunaan CT dada memiliki kelemahan yang signifikan: mahal, membuat pasien
terpapar radiasi, membutuhkan pembersihan ekstensif setelah pemindaian, dan bergantung
pada interpretasi ahli radiologi.
Akhir-akhir ini, pencitraan ultrasound, teknik pencitraan yang lebih banyak tersedia,
hemat biaya, aman dan real-time, mendapatkan perhatian. Secara khusus, USG paru (LUS)
semakin banyak digunakan di tempat perawatan untuk mendeteksi dan pengelolaan
gangguan pernapasan akut. Dalam beberapa kasus menunjukkan sensitivitas yang lebih baik
daripada rontgen dada dalam mendeteksi pneumonia. Dokter baru-baru ini menggambarkan
penggunaan pencitraan LUS di ruang gawat darurat untuk diagnosis COVID-19. Temuan
menunjukkan karakteristik LUS spesifik dan biomarker pencitraan untuk pasien COVID-19,
yang dapat digunakan untuk mendeteksi pasien ini dan mengelola kemanjuran pernapasan
ventilasi mekanis. Jangkauan penerapan yang luas dan biaya yang relatif rendah menjadikan
pencitraan ultrasound sebagai teknik yang sangat berguna dalam situasi ketika arus masuk
pasien melebihi kemampuan infrastruktur pencitraan rumah sakit biasa.
Berkat biayanya yang rendah, ini juga dapat diakses oleh negara-negara
berpenghasilan rendah dan menengah. Namun, menafsirkan gambar ultrasound bisa menjadi
tugas yang menantang dan rentan terhadap kesalahan karena kurva belajar yang curam.
Baru-baru ini, analisis citra otomatis dengan metode mesin dan pembelajaran
mendalam telah menjanjikan untuk rekonstruksi, klasifikasi, regresi dan segmentasi jaringan
menggunakan citra ultrasound,. Dalam makalah ini kami menjelaskan penggunaan DL untuk
membantu dokter dalam mendeteksi pola pencitraan terkait COVID-19 pada LUS tempat
perawatan.
Gambar 1. Tinjauan tentang berbagai tugas yang dipertimbangkan dalam pekerjaan ini.
Mengingat urutan gambar LUS, kami mengusulkan pendekatan untuk: (oranye) prediksi
skor keparahan penyakit untuk setiap bingkai masukan dan lokalisasi pola patologis yang
diawasi dengan lemah; (merah muda) agregasi skor tingkat bingkai untuk menghasilkan
prediksi pada video; (hijau) estimasi topeng segmentasi yang menunjukkan artefak
patologis.
Secara khusus, kami menangani tiga tugas berbeda pada pencitraan LUS ( Gambar
1): klasifikasi berbasis bingkai, penilaian tingkat video, dan segmentasi artefak patologis.
Tugas pertama terdiri dari mengklasifikasikan setiap frame tunggal dari urutan gambar LUS
menjadi salah satu dari empat tingkat keparahan penyakit, yang ditentukan oleh sistem
penilaian di. Penilaian tingkat video bertujuan untuk memprediksi skor untuk seluruh urutan
bingkai berdasarkan skala penilaian yang sama. Segmentasi terdiri dari klasifikasi tingkat
piksel dari artefak patologis dalam setiap frame.
Makalah ini memajukan seni dalam analisis otomatis gambar LUS untuk
mendukung tenaga medis dalam diagnosis patologi terkait COVID-19 di berbagai arah. (1)
Kami mengusulkan versi database ICLUS-DB yang diperluas dan beranotasi penuh [18].
Dataset berisi label pada skala 4 tingkat yang diusulkan di, baik di tingkat bingkai maupun
video.
Selain itu, ini mencakup subset gambar LUS beranotasi tingkat piksel yang berguna untuk
mengembangkan dan menilai metode segmentasi semantik.(2) Kami memperkenalkan
arsitektur mendalam baru yang memungkinkan untuk memprediksi skor yang terkait
dengan satu gambar LUS, serta untuk mengidentifikasi daerah yang mengandung artefak
patologis dengan cara yang diawasi dengan lemah. Jaringan kami memanfaatkan Spatial
Transformers Network (STN) dan kehilangan konsistensi untuk mencapai lokalisasi pola
penyakit dan dari kerugian regresi ordinal lunak untuk estimasi skor yang kuat.
(3) Kami memperkenalkan pendekatan sederhana dan ringan berdasarkan uninorms untuk
menggabungkan prediksi tingkat bingkai dan memperkirakan skor yang terkait dengan
urutan video. (4) Kami membahas masalah lokalisasi otomatis artefak patologis yang
mengevaluasi kinerja metode segmentasi semantik canggih yang berasal dari arsitektur
konvolusi penuh. (5) Akhirnya, kami melakukan evaluasi ekstensif terhadap metode kami
pada semua tugas, menunjukkan bahwa prediksi akurat dan lokalisasi biomarker pencitraan
COVID-19 dapat dicapai dengan solusi yang diusulkan. Dataset dan kode tersedia di
https://iclus- web.bluetensor.ai dan di https://github.com/mhug-Trento/
DL4covidUltrasound.
II. PEKERJAAN YANG BERHUBUNGAN
DL telah terbukti berhasil dalam berbagai visi tugas komputer mulai dari pengenalan
obyek dan deteksi untuk segmentasi vasi oleh keberhasilan ini, baru-baru ini, DL semakin
banyak digunakan dalam aplikasi medis, misalnya untuk segmentasi citra biomedis [23]
atau deteksi pneumonia dari rontgen dada [24]. Karya-karya mani ini menunjukkan bahwa,
dengan ketersediaan data, DL dapat mengarah pada bantuan dan otomatisasi diagnosis awal
yang sangat penting dalam komunitas medis.
Setelah pandemi saat ini, karya terbaru berfokus pada deteksi COVID-19 dari CT
dada [25], [26]. Dalam [27], jaringan tipe U-Net digunakan untuk meregresi kotak pembatas
untuk setiap wilayah pneumonia COVID-19 yang mencurigakan pada CT scan berturut-
turut, dan penyaringan berbasis kuadran dieksploitasi untuk mengurangi kemungkinan
deteksi positif palsu. Secara berbeda, dalam [28] proposal wilayah berbasis ambang batas
pertama kali digunakan untuk mengambil wilayah yang diminati (RoI) dalam pemindaian
input dan jaringan Inception dieksploitasi untuk mengklasifikasikan setiap RoI yang
diusulkan. Demikian pula, dalam [29], model VNET-IR-RPN yang telah dilatih sebelumnya
untuk deteksi tuberkulosis paru digunakan untuk mengusulkan RoI pada input CT dan versi
3D dari Resnet-18 digunakan untuk mengklasifikasikan setiap RoI.
Namun, sangat sedikit karya yang menggunakan DL pada gambar LUS dapat
ditemukan dalam literatur [30]. Klasifikasi dan metode lokalisasi yang diawasi dengan
lemah untuk patologi paru dijelaskan dalam [17]. Berdasarkan ide gagasan yang sama,
dalam [18] klasifikasi berbasis bingkai dan metode segmentasi yang diawasi dengan lemah
diterapkan pada gambar LUS untuk deteksi pola terkait COVID-19. Di sini, Efficientnet
dilatih untuk mengenali COVID-19 dalam gambar LUS, setelah itu peta aktivasi kelas
(CAM) [31] dieksploitasi untuk menghasilkan peta segmentasi yang diawasi dengan lemah
dari gambar input. Karya kami memiliki beberapa perbedaan dibandingkan dengan semua
karya sebelumnya. Pertama, sementara di [18] CAM digunakan untuk lokalisasi, dalam
pekerjaan ini kami mengeksploitasi STN untuk mempelajari kebijakan lokalisasi yang
diawasi dengan lemah dari data (yaitu tidak mengeksploitasi lokasi berlabel eksplisit tetapi
menyimpulkannya dari label klasifikasi berbasis bingkai sederhana). Kedua, sementara
dalam [18] masalah klasifikasi diselesaikan, kami fokus pada regresi ordinal, yang
memprediksi tidak hanya keberadaan artefak terkait COVID-19, tetapi juga skor yang
terkait dengan tingkat keparahan penyakit. Ketiga, kami bergerak maju dibandingkan
dengan semua metode sebelumnya dengan mengusulkan model prediksi tingkat video yang
dibangun di atas metode berbasis bingkai.
Akhirnya, kami mengusulkan metode sederhana namun efektif untuk memprediksi

topeng segmentasi menggunakan alat anotasi beberapa arsitektur jaringan konvolusi
canggih untuk segmentasi gambar. Selain itu, prediksi model disertai dengan perkiraan
ketidakpastian untuk memfasilitasi interpretasi hasil.
III. CLUS-DB: PENGUMPULAN DATA DAN ANOTASI
Kami di sini menyajikan database USG Paru-Paru COVID-19 Italia (ICLUS-DB),

yang saat ini mencakup total 277 video USG paru (LUS) dari 35 pasien, sesuai dengan
58.924 frame.1 Data diperoleh dalam pusat klinis yang berbeda (BresciaMed , Brescia,
Italia,Rumah Sakit Umum Valle del Serchio, Lucca, Italia, Fondazione Policlinico
Universitario A. Gemelli IRCCS, Roma, Italia, Fon-dazione Policlinico Universitario San
Matteo IRCCS, Pavia, Italia, Rumah Sakit Umum Tione, Tione (TN), Italia) dan
menggunakan berbagai pemindai ultrasound (Mindray DC-70 Exp, Esaote MyLabAlpha,
Toshiba Aplio XV, WiFi Ultrasound Probe - ATL ). Baik probe linier dan cembung
digunakan, tergantung pada kebutuhan. Dari 35 pasien tersebut, 17 orang terkonfirmasi
positif COVID-19 dengan teknik swab (49%), 4 orang suspek COVID-19 (11%), dan 14
orang sehat dan tidak bergejala (40%)
Sebuah proposal baru-baru ini oleh Soldati et al. menjelaskan bagaimana biomarker
pencitraan spesifik di LUS dapat digunakan dalam pengelolaan pasien COVID-19 [12].
Secara khusus, untuk mengevaluasi perkembangan patologi, sistem penilaian 4 tingkat
dirancang [32], dengan skor mulai dari 0 hingga 3. Skor 0 menunjukkan adanya garis pleura
terus menerus disertai dengan artefak horizontal yang disebut garis A[33], yang mencirikan
permukaan paru-paru yang sehat. Sebaliknya, skor 1 menunjukkan tanda-tanda pertama
kelainan, yaitu munculnya perubahan pada garis pleura dalam hubungannya dengan artefak
vertikal. Skor 2 dan 3 mewakili keadaan patologis yang lebih lanjut, dengan adanya
konsolidasi kecil atau besar, masing-masing. Akhirnya skor 3 dikaitkan dengan adanya area
hiperekogenik yang lebih luas di bawah permukaan pleura, yang dapat disebut sebagai
"paru-paru putih".
Sebanyak 45.560 dan 13.364 frame, diperoleh dengan menggunakan probe cembung
dan linier masing-masing, diberi label sesuai dengan sistem penilaian yang ditentukan di
atas. Dari 58.924 bingkai LUS yang membentuk kumpulan data, 5.684 diberi label skor 3
(10%), 18.972 skor 2 (32%), 14.295 skor 1 (24%), 19.973 skor 0 (34%). Sebuah plot
menunjukkan distribusi skor dan probe per rumah sakit ditunjukkan pada Gambar. 2.
Gambar 2. Distribusi probe dan skor frame dikelompokkan

berdasarkan rumah sakit dan statistik keseluruhan
Untuk menjamin anotasi yang objektif, proses pelabelan dikelompokkan menjadi 4
tingkatan:
1) skor yang diberikan frame-by-frame oleh empat mahasiswa master dengan pengetahuan
latar belakang ultrasound,
2) validasi skor yang diberikan dilakukan oleh mahasiswa PhD dengan keahlian di LUS,
3) kedua tingkat validasi yang dilakukan oleh seorang insinyur biomedis dengan lebih dari
10 tahun pengalaman di LUS dan
4) tingkat ketiga validasi dan kesepakatan antara dokter dengan pengalaman lebih dari 10
tahun di LUS.
Selain itu, subset dari 60 video yang diambil sampelnya dari 35 pasien dipilih dan
anotasi tingkat video disediakan untuk mereka. Anotasi ini menggunakan penilaian yang
sama yang ditentukan untuk anotasi tingkat bingkai. Untuk mengatasi bias subjektif dalam
evaluasi video, lima dokter yang berbeda memberikan evaluasi mereka untuk setiap urutan.
Kami menilai kompleksitas tugas ini dengan menghitung kesepakatan antar-operator,
membandingkan evaluasi prediksi masing-masing dokter dengan prediksi rata-rata dari
empat dokter lainnya. Kesepakatan rata-rata yang dihasilkan adalah sekitar 67% di antara
label yang tersedia.
Akhirnya, untuk 33 pasien, total 1.005 dan 426 frame masing-masing diperoleh
menggunakan probe cembung dan linier, secara semantik dijelaskan pada tingkat piksel
dengan membentuk biomarker pencitraan yang disebutkan di atas menggunakan alat anotasi
LabelMe [34]. Untuk frame yang diperoleh dengan menggunakan probe linier, kemunculan
tingkat piksel relatif untuk skor 0, 1, 2, dan 3 adalah 6.4%, 0.080%, 0.67%, dan 3.7%,
masing-masing. Untuk probe cembung, statistik ini adalah 1.9%, 0.074%, 1.8%, dan 2.1%,
masing-masing. Khususnya, sebagian besar piksel tidak terkait dengan salah satu dari skor
ini. Piksel ini tidak menampilkan karakteristik yang jelas dari kelas tertentu, dan disebut
sebagai latar belakang (BG). Beberapa gambar dan anotasi yang sesuai ditampilkan dalam
materi tambahan.
IV.PEMBELAJARAN ANALISIS BERBASIS GAMBAR LUS
Makalah ini membahas beberapa tantangan terhadap pengembangan pendekatan

otomatis untuk mendukung tenaga medis dalam diagnosis patologi terkait COVID-19
(lihatGambar 1). Secara khusus, mengikuti sistem penilaian LUS COVID-19 di [12] kami
menyajikan arsitektur mendalam baru yang secara otomatis memprediksi skor patologis
yang terkait dengan semua bingkai dari urutan gambar LUS (Bagian IV-A) dan
menggabungkannya secara optimal untuk menghasilkan penyakit skor keparahan di tingkat
video (Bagian IV-B). Kami juga menunjukkan bahwa model yang diusulkan secara otomatis
mengidentifikasi wilayah dalam gambar yang terkait dengan artefak patologis tanpa
memerlukan anotasi tingkat piksel. Terakhir, untuk lebih meningkatkan akurasi dalam
deteksi otomatis pola terkait penyakit, kami juga mempertimbangkan skenario di mana
bingkai dilengkapi dengan anotasi tingkat piksel dan kami mengusulkan model segmentasi
yang diturunkan dari arsitektur jaringan konvolusi yang canggih (Bagian IV -C). Berikut ini,
kami menjelaskan model pembelajaran mendalam yang diusulkan.
A.Prediksi Skor Berbasis Kerangka
1) Rumusan Masalah dan Notasi:
Dengan tujuan mendukung tenaga medis dalam analisis gambar LUS, dalam
makalah ini kami memperkenalkan pendekatan untuk memprediksi ada atau tidak adanya
artefak patologis di setiap bingkai dari urutan gambar LUS dan untuk secara otomatis
menilai skor keparahan penyakit yang terkait dengan pola tersebut menurut sistem penilaian
COVID-19 LUS [12]. Kami juga tertarik pada lokalisasi spasial artefak patologis dalam
bingkaitanpa mengasumsikan anotasi apa pun tentang posisi artefak tersebut dalam bingkai.
Lokalisasi yang lemah dicapai melalui penggunaan Jaringan Trafo Tata Ruang (STN) [19].
Penggunaan STN berasal dari fakta bahwa sebagian besar artefak patologis
terkonsentrasi di area gambar yang relative kecil, dan, karenanya, seluruh gambar harus
tidak dianggap oleh jaringan untuk membuat prediksi. Masalah tersebut dapat diformalkan
sebagai berikut.Membiarkan x menunjukkan ruang input (yaitu ruang gambar) dan S
himpunan skor yang mungkin. Selama pelatihan, kami diberikan perlengkapan latihan T =
{(Xn, Sn)}N n=1 di mana xn ∈ x dan Sn ∈ S.
Gambar 3. Ilustrasi arsitektur untuk prediksi skor berbasis bingkai
Sebuah STN dimodelkan oleh stn memprediksi dua transformasi θ1 dan θ2 yang
diterapkan pada gambar input yang menghasilkan dua versi yang diubah x1dan x2 yang
melokalisasi artefak patologis. Ekstraktor fiturcnn diterapkan ke x1 untuk menghasilkan
prediksi akhir.
Kami tertarik untuk mempelajari pemetaan ᶲ : x → S, yang diberi input gambar

LUS mengeluarkan label skor patologis terkait. Kami memodelkan- sebagai komposisi
dari dua fungsi ᶲ = ᶲst n ◦ ᶲcnn di mana ᶲst n :x → x memperkirakan transformasi affine
dan menerapkannya ke gambar input x dan ᶲcnn : x → S memberikan skor ke gambar
yang diubah. Secara intuitif, ᶲst n belajar melokalisasi wilayah yang diinginkan pada
gambar masukan dan menyediakan ᶲcnn dengan pemotongan gambar di mana informasi
tentang skor paling menonjol. Akibatnya, ᶲst n menghasilkan sebagai efek samping
lokalisasi artefak patologis dalam bingkai. Pemetaanᶲcnn disusun oleh ekstraktor fitur
konvolusi dan lapisan linier dengan |S| log keluaran dimensi.Modelᶲst n
diimplementasikan sebagai jaringan saraf dalam yang diturunkan STN [19].Gambar 3
menunjukkan gambaran arsitektur dalam yang diusulkan.
Dalam konteks pembelajaran mendalam, kemampuan generalisasidari suatu jaringan

sangat penting. Untuk tujuan ini, augmentasi data telah terbukti sangat efektif [35] dalam
meningkatkan kinerja sebuah jaringan. Karya-karya sebelumnya [18] menunjukkan bahwa
menambah kumpulan data yang terdiri dari gambar LUS dapat secara drastis meningkatkan
kemampuan jaringan untuk membedakan sehat dan pasien yang sakit. Cara lain untuk
mencapai prediksi yang kuat adalah untuk menegakkan beberapa konsistensi antara dua
versi yang terganggu (warna jitter, dropout, dll.) dari gambar yang sama [20], [36]. Ini
membuat jaringan menghasilkan prediksi yang dihaluskan dengan memperhatikan fitur-fitur
yang menonjol dalam sebuah gambar. Terinspirasi dari ini ide, kami mengusulkan untuk
menggunakan STN [19] untuk menghasilkan dua yang berbeda tanaman dari satu gambar
dan menegakkan prediksi jaringan menjadi serupa. Kami menamai pendekatan kami Teratur
Jaringan Trafo Spasial (Reg-STN).
STN [19] adalah modul terdiferensiasi yang menerapkan transformasi affine

yang dapat dipelajari ke gambar input, atau lebih umum ke peta fitur, yang
dikondisikan pada input itu sendiri. Ini terdiri dari tiga bagian: (i) ajaringan lokalisasi
yang memprediksi parameter transformasi affine, (ii) a generator jaringan yang
memilih koordinat grid pada gambar sumber, untuk dijadikan sampel,dan (iii) a
pembuat sampel yang membelokkan gambar input berdasarkan transformasi,
menghasilkan peta output.Untuk apa menyangkut jaringan lokalisasi, itu dilatih untuk
menghasilkan matriks transformasi θ seperti yang:
di mana αS , βS , αT , βT , adalah koordinat sumber dan target masing-masing dalam peta

fitur input dan output. Pada prinsipnya θdapat menjelaskan transformasi affine apa pun,
namun, dengan mengingat properti gambar LUS, kami membatasi ruangkemungkinan
transformasi untuk rotasi, translasi, dan penskalaan isotropik:
Dalam metode yang kami usulkan, gambar input, x diproses oleh -st n yang
memprediksi dua set transformasi θ1 dan θ2, bukannya satu θ . Selanjutnya, transformasi
diterapkan kex, menghasilkan gambar yang dipotong x1 dan x2, masingmasing. Jaringan-
cnn kemudian diterapkan pada x1 dan x2, menghasilkan dua set logit untuk gambar yang
sama di bawah transformasi yang berbeda. Sebagai efek samping, gambar perantarax1
danx2 diproduksi dan dapat ditafsirkan sebagai lokalisasi artefak patologis pada gambar
input x. Akhirnya,-cnn( x1) cabang kemudian dapat dilatih dengan kehilangan klasifikasi
terawasi standar dan (-cnn(x1), -cnn(x2)) dilatih dengan konsistensi menegakkan kerugian
(lihat di bawah).
3) Definisi Rugi:
Seperti yang dinyatakan sebelumnya, kami tertarik pada merancang jaringan yang
dalam ᶲ untuk secara otomatis memprediksi skor 4 tingkat yang diidentifikasi dalam [12].
Sementara masalah ini sepele dapat dilemparkan dalam kerangka klasifikasi, dalam makalah
ini kami berpendapat bahwa regresi ordinal [37] lebih tepat karena kami tertarik untuk
memprediksi label dari skala ordinal. Alasan di balik pilihan regresi ordinal adalah bahwa
ada kategori tertentu yang lebih benar daripada yang lain sehubungan dengan label yang
sebenarnya, yang bertentangan dengan skenario kelas independen, di mana urutan level
tidak menjadi masalah. Faktanya, kesalahan pada level jarak rendah seharusnya lebih sedikit
dihukum sehubungan dengan kesalahan jarak jauh. Misalnya, memprediksi pasien yang
sakit parah (skor 3) sebagai sehat (skor 0) harus sangat tidak dianjurkan, Sementara regresi
ordinal dapat diimplementasikan dengan menggunakan pendekatan tradisional untuk
menguraikan masalah dengan asumsi |S|-peringkat formulasi [38], berikut [21] kami
memperkenalkan pendekatan ringan untuk regresi ORDinal Lembut (SORD).
Dalam praktiknya, kami menerapkan kerangka regresi ordinal dengan menggunakan

mekanisme perataan label yang dirancang dengan cermat. Alih-alih representasi label yang
panas, kami mengkodekan informasi kebenaran dasar menjadi vektor bernilai lunak (vektor
SORD)S ∈R|S|, di mana S adalah himpunan kemungkinan skor untuk sebuah frame. Oleh
karena itu, untuk bingkaix dengan skor S ∈ S NS Saya -elemen ke-th dari vektor SORD
dihitung sebagai berikut:
di mana δ adalah fungsi jarak yang ditentukan secara manual antara skor / level yang kami
gunakan jarak kuadrat dikalikan oleh faktor konstan. Formulasi ini menghasilkan halus
distribusi probabilitas atas S, di mana besarnya elemen berkurang sementara jarak ke tanah
kebenaran meningkat. Mengkodekan label kebenaran dasar sebagai probabilitas distribusi
berpadu mulus dengan klasifikasi umum fungsi loss yang menggunakan output softmax.
Oleh karena itu, pada pelatihan waktu, kami cukup melatih jaringan menggunakan cross
entropy:
Hasilnya adalah fungsi kerugian yang menghasilkan biaya yang lebih kecil untuk
prediksi yang ada di sekitar tanah label kebenaran, yang, pada gilirannya menghasilkan
gradien yang lebih kecil, karenanya mencegah pembaruan drastis jaringan untuk kesalahan
kecil. Secara empiris, kami menemukan bahwa algoritme kami berfungsi paling baik ketika
kami meningkatkan jarak skor 0 dari yang lain. Seperti yg disebutkan sebelumnya, ini juga
divalidasi oleh semantik skor.
Properti lain yang diinginkan dari jaringan adalah mengekstrak fitur semantik
penting dari gambar input, untuk memungkinkan prediksi skor bingkai yang akurat. Ini bisa
diperkuat dengan menggunakan regularisasi dalam bentuk konsistensi kerugian pada
prediksi dua cabang (ᶲ cnn(x1), ᶲ cnn (x2)) dengan alasan bahwa dua tanaman yang
berbeda dari gambar yang sama harus memiliki prediksi yang sama. Dalam kasus
kami, kedua tanaman ini diproduksi olehᶲ st n. Secara rinci, kehilangan konsistensi
didefinisikan pada representasi jaringan sebagai berikut:
Sayangnya, LMS E digabungkan dengan transformasi affine yang dapat

dipelajari menghasilkan solusi yang merosot di mana jaringan lokalisasi dari STN
belajar untuk menghasilkan parameter identik untuk transformasi affine. Bahkan, itu
cukup untuk memaksakanθ1 = θ2 untuk meminimalkan LMS E . Untuk mencegah
perilaku patologis jaringan ini, kami menerapkan prior pada parameter transformasi.
Secara khusus, kami merangsangjaringan lokalisasi untuk menghasilkan patch berskala
cukup dengan meminimalkan |σ - σP |, di mana σP adalah prior yang tetap. Sekarang,
untuk mengaktifkan STN agar menghasilkan parameter yang berbeda θ1 ≠ θ2, kita
tinggal memilih σP1≠ σP2. Oleh karena itu, kerugian didefinisikan sebagai berikut:
Akhirnya, model Reg-STN yang diusulkan dilatih end-to-end meminimalkan fungsi

kerugian bersama berikut:
4) Strategi Pelatihan:
Kami membagi dataset ICLUS-DB menjadi kereta api dan tes split. Pembagian tes
terdiri dari 80 video dari 11 pasien, dengan total 10.709 frame. Semua bingkai dari video
yang tersisa termasuk dalam set kereta. NS split dilakukan pada tingkat pasien, sehingga set
pasien dalam set pelatihan dan tes terputus-putus. STN dimodelkan oleh ConvNet mirip
dengan [17]. Secara khusus, kami menghapus Penggabungan Rata-rata dan lapisan keluaran
dan menggantinya dengan dua lapisan yang terhubung sepenuhnya untuk memprediksi
transformasi affine parameter.
Arsitektur CNN [17] tetap tidak berubah. STN dan CNN dilatih bersama
menggunakan pengoptimal Adam dengan tingkat pembelajaran awal 1e - 4, ukuran batch 64
dan dilatih untuk 120 zaman. Kami juga menggunakan strategi augmentasi data yang serupa
dan peluruhan tingkat pembelajaran seperti yang disarankan dalam [17], [18]. Kami
menetapkan nilaiσ1 dan σ2 ke 0.50 dan 0.75 masingmasing, memanfaatkan pengetahuan
sebelumnya tentang gambar LUS bahwa artefak patologis kira-kira mencakup 25% hingga
50% area gambar.
B.Agregasi Skor Tingkat Video
Identifikasi dari artefak berpotensi patologis dalam gambar LUS adalah langkah
penting menuju dukungan diagnosis. Namun, prediksi berbasis bingkai harus diubah
menjadi prediksi skor berbasis video tunggal untuk menilai keadaan patologis pasien.
Masalah agregasi skor berbasis video dapat diformalkan sebagai berikut. Membiarkan Let v
= {xi }iM=1, jadilah video, V jadilah kumpulan video dengan panjang berapa pun, dan S
kumpulan skor. Tujuan dari prediksi skor tingkat video adalah mempelajari pemetaan Ψ :
V → S.
Pada prinsipnya pemetaan dapat diperoleh dengan mengambil skor maksimum yang
ditetapkan untuk setiap bingkai video saat ini karena identifikasi artefak skor S dalam
bingkai menyiratkan bahwa pasien memiliki tingkat keparahan setidaknya S. Aturan keras
ini, bagaimanapun, tidak dapat diterapkan dalam praktik ketika berhadapan dengan skor
yang diprediksi mesin, karena bahkan kesalahan prediksi berbasis bingkai tunggal dapat
merusak prediksi keseluruhan. Jadi, di bagian ini kami mengusulkan mekanisme agregasi
yang lebih fleksibel yang dirancang untuk memprediksi skor yang terkait dengan video,
dengan memanfaatkan anotasi tingkat video yang disediakan di ICLUS-DB (Bagian III).
2)Definisi Model:
Dalam merancang model Ψ , kami mempertimbangkan fakta bahwa ia perlu

beroperasi dalam rezim data rendah, di mana beberapa video dilengkapi dengan anotasi
seperti pada versi ICLUS-DB saat ini. Terinspirasi oleh aturan keras yang disebutkan
sebelumnya, kami mengusulkan strategi sederhana yang menggabungkan prediksi tingkat
bingkai menggunakan lapisan agregasi berparameter, yaitu:
Ψ(v) = ΨU (Φ(x1), .. . , Φ(xM ))
Di Sini Φ adalah pemetaan tingkat bingkai dan Ψu adalah agregasi fungsi

berdasarkan seragam [39], yang merupakan cara berprinsip untuk melunakkan aturan keras.
Sebuah ketidaknormalan U adalah pemetaan naik, komutatif, dan asosiatif monoton dari [0,
1] × [0, 1] hingga [0, 1] dengan elemen netral e ϵ[0, 1]. Ini berarti bahwaU(a, e) = U(e, a) =
a untuk semua e ϵ [0, 1]. Jika e = 1, U sepenuhnya non- kompensasi (seperti mengambil
minimum antara a dan b), sementara itu sepenuhnya kompensasi jika e = 0 (seperti
pengambilan maksimum). Memilih e ∈ (0, 1) memungkinkan uninorm untuk memiliki
perilaku hybrid.
Perhatikan bahwa sebagai asosiatif, uninorms dapat diterapkan ke sejumlah input
yang berubah-ubah (misalnya,U(a, b, c) = U(U(a, b), c))Mengikuti [22], kita mempelajari
nilai yang sesuai untuk elemen netrale dari data. Lapisan agregasi kami mengambil sebagai
masukan urutan skor prediksi berbasis bingkai Φ(x), menggabungkannya di sepanjang setiap
dimensi/skor menggunakan ketidaknormalan U dan mengembalikan softmax dari agregasi
yang dihasilkan sebagai prediksi berbasis video. Lapisan hanya memiliki empat parameter,
yang merupakan elemen netral untuk setiap kandidat skor {0, 1, 2, 3}, dan dengan demikian
dapat menerima pelatihan dengan sedikit pengawasan.
Setiap uninorm dengan elemen netral e dapat ditulis sebagai [39]:
a b
eT ( e , e ) jika a, b ϵ [0, e]
Ue(a, b) = e + (1 – e) S ( a – e , b – e ) ) jika a, b ϵ [e, 1]

(9)
1- e 1- e sebaliknya
Ȗ (a, b)
untuk pilihan tertentu T , S dan Ȗ (a, b) sedemikian rupa sehingga min(a,b) ≤ Ȗ (a,
b) ≤ maksimal(a, b). Fungsi-fungsinyaT dan S disebut t-norm dan t-conorm masing-masing,
dan memodelkan perilaku non-kompensasi dan kompensasi. Pilihan yang berbeda untuk
fungsi-fungsi ini menyebabkan uninorms yang berbeda. Kami menemukan produk t-
normaT (a, b) = ab (dan kesesuaian-t yang sesuai S(a, b) = A +B - ab) menjadi pilihan yang
paling efektif karena memungkinkan gradien mengalir paling banyak. Mengenai fungsi Ȗ
(a, b), pilihan umum adalah min(a, b) dan maksimal(a, b), menghasilkan apa yang masing-
masing disebut unnorm min dan unnorm maks.
Kami menemukan min- uninorms menjadi pilihan terbaik dalam pengaturan kami
(sehubungan dengan max(a, b) tapi juga berarti(a, b)), kemungkinan karena perilaku non-
kompensasi sepenuhnya di bidang perbedaan tertinggi antara prediksi berbasis bingkai.
3)Definisi Rugi:
Arsitektur dilatih menggunakan kerugian SORD dijelaskan dalam Persamaan. (5) dihitung
melalui prediksi tingkat video.
4)Strategi Pelatihan:
Prediktor berbasis bingkai mengeluarkan pra-skor diksi dengan distribusi yang
berbeda antara pelatihan dan set tes. Agar prediktor berbasis video tidak terlalu sesuai
dengan distribusi skor pelatihan, kami benar-benar memisahkan set pelatihan prediktor
berbasis bingkai dan berbasis video. Kami melatih prediktor berbasis bingkai pada semua
urutan videoT tanpa anotasi berbasis video, dan evaluasi pada urutan yang tersisa T’ .
Kami kemudian melatih dan mengevaluasi prediktor berbasis video di T’ ,

menggunakan prosedur validasi silang k-fold (k = 5) dengan pemisahan yang dibuat pada
tingkat pasien (yaitu semua video dari pasien yang sama berada di lipatan yang sama). Kami
memilih untuk menggunakan anotasi tingkat video yang dihasilkan oleh anotator pertama,
dokter dengan keahlian tertinggi. Kami melatih (8) model kami menggunakan pengoptimal
Adam dengan tingkat pembelajaran 10-2 tanpa penurunan berat badan dan tanpa penjadwalan
tingkat pembelajaran. Untuk setiap epoch, kami menghitung kerugian untuk setiap
rangkaian video train dan mengakumulasi gradiennya, melakukan satu langkah optimasi di
akhir setiap epoch. Kami melatih model untuk maksimal 30 epoch dan menggunakan
kerugian pada set pelatihan untuk menentukan strategi penghentian awal.
Perhatikan bahwa seluruh arsitektur termasuk komponen tingkat bingkai dapat

dilatih sepenuhnya dari ujung keujung. Namun, solusi ini tidak efektif mengingat
ketidakseimbangan yang besar dalam jumlah pengawasan di tingkat video dan bingkai yang
saat ini tersedia di ICLUS-DB. Dengan demikian, kami melatih lapisan agregasi setelah
membekukan bobot arsitektur berbasis bingkai. Pelatihan end-to-end penuh yang
menggabungkan pengawasan berbasis bingkai dan berbasis video akan diselidiki dalam
pekerjaan mendatang.
C. Semantik Segmentasi
1)Rumusan Masalah dan Notasi:
Membiarkan x = Ri× j dan y menunjukkan input (yaitu ruang gambar) dan output
Gambar 4. Contoh hasil crop gambar yang dihasilkan oleh jaringan Reg-STN.
Kolom pertama menunjukkan gambar input yang diperoleh masing-masing dengan sensor
linier dan cembung. Di kolom kedua kami melaporkan peta panas yang dihasilkan oleh
GradCam [44] dan kotak pembatas yang diperoleh dengan thresholding. Di kolom yang
tersisa, gambar asli dilapis dengan kotak pembatas dan dua tanaman masing-masing (merah
dan hijau) dihasilkan ketika model Reg-STN:a) hanya terjemahan dan penskalaan tetap; b)
semua kemungkinan transformasi yaitu. translasi, penskalaan dan rotasi, ditampilkan. Dalam
setiap kasus Reg-STN berfokus pada bagian paling menonjol yang berisi artefak patologis
(yaitu topeng segmentasi) ruang, masing-masing.
Dalam kerangka yang disajikan sebelumnya untuk klasifikasi berbasis gambar dan
video, set skor didefinisikan sebagai:S = {0, 1, 2, 3}. Untuk segmentasi semantik, kami
membedakan lima skor yang berbeda, yaitu empat skor dalamS, dilengkapi dengan skor
latar belakang (BG), ditetapkan ke piksel yang tidak diberi anotasi untuk menampilkan
penanda yang terkait dengan salah satu kelas dalam S. Dengan demikian,kamu = {0, 1, 2, 3,
BG}i× j .
2)Definisi Model:
Kami tertarik untuk mempelajari pemetaan: Ω : x → y, yang diberi gambar LUS

masukan, keluaran topeng segmentasi patologis asosiasi. Untuk memodelkan , kami
membandingkan beberapa arsitektur jaringan untuk segmentasi citra end-to-end, seperti
vanilla U-Net [23], dan U- Net++ yang baru-baru ini diusulkan [40], dan Deeplabv3+ [41].
Model U-Net dasar kami memiliki tiga blok lapisan penyandian, masing-masing terdiri dari
dua lapisan konvolusi dengan aktivasi ReLU dan satu lapisan maxpool (pengumpulan di 2,
2, dan 5 piksel di kedua dimensi, masing-masing), lapisan laten, dan dekoder cermin (
dimana pooling diganti dengan upsampling tetangga terdekat).
Kami menggunakan koneksi lewati antara setiap blok lapisan encoder dan decoder.
Untuk mengurangi overfitting kami menerapkan dropout (P = 0.5) selama pelatihan di
kemacetan laten model. Varian Unet++ memanfaatkan empat blok encoder pertama dari
model ResNet50 [42] untuk membangun ruang laten.
Ruang laten diambil sampelnya dalam tahap dekoder melalui transpos lapisan konvolusi 2D.
Dekoder berisi blok sisa, dan juga memanfaatkan koneksi lewati antara output lapisan
tersembunyi (berukuran sama) di enkoder ResNet50 dan dekoder. Model Deeplabv3+ juga
menggunakan struktur encoder-decoder, di mana fitur diekstraksi menggunakan pooling
piramida spasial (yaitu pooling pada skala grid yang berbeda) dan konvolusi atrous,
menghasilkan peta segmentasi yang didekodekan dengan batas objek yang terperinci.
3)Definisi Rugi:
Kami mengadopsi kategoris pixel-bijaksana kehilangan lintas-entropi antara topeng

segmentasinya g(yn) dan model prediksi Ŷn = Ω(h(xn)). Fungsi g(·), dan h(·)adalah
transformasi pra-pemrosesan yang diterapkan sebelum pelatihan. Fungsi h(·) terdiri dari
pengubahan ukuran semua gambar mode-B yang diperoleh menjadi 260 × 200 piksel,
mempertahankan rasio aspek asli pindaian dengan bantalan nol yang sesuai, dan normalisasi
berikutnya antara -1 dan 1.
4)Strategi Pelatihan:
Karena lebih besar (dan lebih mewakili tative) set anotasi tingkat piksel untuk probe
cembung, dibandingkan dengan akuisisi probe linier (masing-masing 1.005 dan 426
anotasi), kami di sini secara khusus fokus pada akuisisi cembung. Kami membagi dataset
kami menjadi satu rangkaian (70%) dan set uji (30%) pada tingkat pasien, yaitu semua film
dan bingkai dari satu pasien termasuk dalam set tertentu. Di antara 1005 frame, total 1158
biomarker pencitraan tersegmentasi.
Selama pelatihan, kami diberikan satu set pelatihan n gambar-label berpasangan T =

{(xn, yn)}nN=1 di mana xn ∈ x dan yn ∈ y. parameter model dipelajari dengan
menyebarkan kembali entropi silang kategoris yang ditentukan sebelumnya menggunakan
pengoptimal Adam (pengaturan default), dengan kecepatan pembelajaran 105. Pelatihan
dihentikan setelah konvergensi kerugian pelatihan.
Setiap batch pelatihan terdiri dari 32 gambar B-mode dan topeng segmentasi yang sesuai,
yang seimbang di seluruh pasien dan skor untuk menghindari bias yang dihasilkan dari
panjang pemindaian ultrasound (jumlah frame dalam satu video) dan distribusi skor tingkat
populasi . Sementara bias ini umumnya membantu akurasi keseluruhan, mereka
menghambat pengambilan keputusan tingkat pasien di seluruh demografi.
Untuk mempromosikan invarian pada transformasi gambar LUS umum dan dengan
demikian meningkatkan generalisasi pada inferensi, setiap pasangan label-gambar
dimanipulasi secara online selama pelatihan oleh serangkaian fungsi augmentasi yang
masing-masing diaktifkan pada pasangan label-gambar dengan probabilitas 0,33. Himpunan
fungsi augmentasi, masing-masing diterapkan dengan kekuatan sampel acak yang dibatasi
oleh himpunan maksimum, terdiri dari: transformasi affine (terjemahan (maks.±15%), rotasi
(maks. ±15◦), penskalaan (maks. ±45%), dan geser (maks. ±4.5◦)), perkalian dengan
konstanta (maks. ±45%), pengaburan Gaussian (σmaksimal = 3 4 ), distorsi kontras (maks.
±45%), membalik horizontal ( P = 0. 5), dan derau Gaussian putih aditif (σmaksimal =
0.015).
5)Inferensi:
Untuk lebih meningkatkan ketahanan dan kinerja, kami menerapkan model

ensambling dan menghitung rata-rata tidak tertimbang di atas perkiraan softmax logit dari
model U-net, U-net++, dan Deeplabv3+ (semua dilatih dengan augmentasi data).
Untuk memungkinkan penilaian kualitatif ketidakpastian prediksi, kami menghasilkan
perkiraan tingkat piksel ketidakpastian model dengan menggunakan putus sekolah Monte-Carlo
(MC) [43].
Tabel I
SKOR F1 (%) UNTUK KLASIFIKASI BERBASIS FRAME DI BAWAH
PENGATURAN EVALUASI YANG BERBEDA.SETTING 1 MENYATAKAN
EVALUASI PADA SET TEST LENGKAP, SETTING 2 MENYATAKAN ANALISIS
PADA TEST SET DENGAN FRAME DAN SETTING TRANSISI YANG DITOLONG
3 MENYATAKAN ANALISIS AKUNTANSI UNTUK PERJANJIAN ANTAR
DOKTER. DASAR UNTUK PENGATURAN INI DISEDIAKAN OLEH EVALUASI
PADA SET UJIAN DENGAN VIDEO-LEVEL ANNOTATIONS (VIDEO ANN.).
TERBAIK DAN SKOR F1 TERBAIK KEDUA (%) MASUK BOLD DAN DIGAWAI
inferensi, kami secara stokastik menerapkan putus sekolah di ruang laten, menghasilkan
beberapa perkiraan titik dari prediksi kelas kami. Besarnya variasi prediksi yang dihasilkan,
pada akhirnya memberikan indikasi ketidakpastian untuk setiap piksel.
V.HASIL EKSPERIMEN
A.Prediksi Skor Berbasis Bingkai

Untuk mengevaluasi kinerja metode penilaian berbasis bingkai yang kami
usulkan dan komponen penyusunnya, kami mempertimbangkan garis dasar berikut: i)
CNN dilatih dengan Cross Entropy loss (CE), ii) CNN dilatih dengan SORD, iii)
Resnet-18 dilatih dengan SORD, iv) CNN berbasis STN yang dilatih dengan SORD; v)
CNN + Tanaman Acak + SORD, CNN yang dilatih tentang SORD dengan tanaman
acak daripada kotak pembatas yang diekstraksi oleh STN dan vi) Model Reg-STN yang
kami usulkan. CNN dilatih dengan Cross Entropyloss (CE), ii) CNN dilatih dengan
SORD, iii) Resnet-18 dilatih dengan SORD, iv) STN berbasis CNN dilatih dengan
SORD;v) CNN + Random Crop + SORD, CNN dilatih pada SORD dengan tanaman
acak daripada kotak batas yang diekstraksi oleh STN dan vi) Model Reg STN yang
kami usulkan.
Di Tabel I, kami mengevaluasi kinerja metode kami dalam hal skor F1. Karena,
anotasi dalam gambar LUS cukup subjektif (lihat nanti) kami juga melaporkan hasil
untuk dua metrik tambahan, yang kemudian didefinisikan sebagai Pengaturan 2 dan
Pengaturan 3, masing-masing. Metriknya adalah: i) Pengaturan 1 menganggap skor F1
yang dihitung pada seluruh set uji, ii) Pengaturan 2 menganggap skor F1 yang dihitung
pada versi modifikasi dari set uji yang diperoleh dengan menjatuhkan, untuk setiap
video, bingkai K sebelum dan sesudah setiap transisi antara dua skor kebenaran tanah
yang berbeda, berpotensi menghapus bingkai ambigu yang menyajikan karakteristik
pada batas antara dua kelas, dengan demikian memungkinkan kita untuk
mengidentifikasi dampak pelabelan bising pada kinerja model; dan iii) Menetapkan 3,
kami menjatuhkan video yang paling menantang dengan menggunakan perjanjian antar-
dokter antara 5 anotasi tingkat video independen.
Dalam praktiknya, kami hanya mengikuti tes mengatur video dengan

setidaknya seorang dokter menyetujui anotasi tingkat video. Untuk kelengkapan, kami
melaporkan di bawah Pengaturan 3 juga skor yang diperoleh pada bagian lengkap dari
set tes yang berisi anotasi tingkat video (Video Ann.).
Seperti yang ditunjukkan pada Tabel I, Reg-STN yang dilatih dengan SORD
mengalahkan model baseline di sebagian besar pengaturan dan merupakan yang terbaik
kedua di sisanya. Rata-rata, Reg-STN melakukan yang terbaik di antara semua garis
dasar. Ini membuktikan efektivitas metode yang kami usulkan untuk melakukan
prediksi berbasis bingkai untuk deteksi patologi dalam gambar LUS. Exprements kami
dijalankan pada GPU NVIDIA RTX-2080, Adapun kompleksitas komputasi,
dibutuhkan ∼ 11 jam untuk melatih model CNN + Reg-STN + SORD pada perangkat
keras ini.
Tabel II
MEAN DAN DEVIASI DARI SKOR F1, PRESISI DAN RECALL YANG DIHITUNG
PADA LIMA LIPAT LIMA VALIDASI LIMA, UNTUK METODE DAN BASELINE
KLASIFIKASI BERBASIS VIDEO YANG DIUSULKAN
B.Prediksi Skor Berbasis Video
Kami mengevaluasi prediksi skor berbasis video dalam hal skor F1 tertimbang, Presisi
dan Recall. Ini diperoleh dengan terlebih dahulu menghitung metrik untuk setiap skor (nol
hingga tiga), dan kemudian menghitung rata-rata tertimbang di atas skor, di mana beratnya
adalah fraksi dari contoh yang memiliki skor itu. Perhatikan bahwa penarikan tertimbang
sesuai dengan akurasi (multiscore), yaitu, fraksi skor yang diprediksi dengan benar atas
jumlah total prediksi. Tabel II melaporkan rata-rata dan standar deviasi metrik ini selama
lima lipatan prosedur validasi silang.
Kami membandingkan prediktor tingkat video kami dengan dua metode agregasi
standar, max_argmax dan argmax_mean. Yang pertama menerapkan aturan keras yang
dijelaskan dalam Bagian IV-B. Ini memberi label setiap frame dengan skor yang paling
mungkin sesuai dengan prediktor tingkat bingkai, dan mengambil skor maksimal di
sepanjang video. Yang terakhir rata-rata prediksi frame-level atas video dan mengembalikan
skor dengan rata-rata maksimal.
Metode yang diusulkan mengungguli kedua baseline dalam hal skor F1, presisi dan
penarikan kembali. Tabel III menunjukkan matriks kebingungan untuk tiga metode, diperoleh
dengan menggabungkan prediksi untuk semua lipatan. Tabel III menunjukkan matriks
kebingungan untuk tiga metode, diperoleh dengan menggabungkan prediksi untuk semua
lipatan. Seperti yang diharapkan, aturan keras max_argmax sangat bias terhadap memprediksi
skor tertinggi, menghasilkan kinerja buruk pada semua skor lainnya.
Di sisi lain, baseline argmax_mean memiliki kinerja terbaik dalam memprediksi skor nol,
tetapi berkinerja buruk pada skor lainnya (under_predicting skor satu dan tiga dan over-
memprediksi skor dua). Agregasi berbasis uninorm lebih seimbang, mengungguli masing-
masing garis dasar pada tiga dari empat skor.
Empat contoh dari frame gambar B-mode (kolom pertama), pembatalan mereka (kolom
kedua) termasuk COVID-19 biomarkers (moderat/score 2: orange, parah/score 3:
merah), dan tanda-tanda paru-paru sehat (biru). Segmentarasi yang sesuai dan kontures
dari COVID-19 penanda oleh pembelajaran mendalam diberikan pada ketiga dan
keempat colomn, masing-masing.
Tabel III
KEBINGUNGAN MATRIKS (%) UNTUK METODE KLASIFIKASI BERBASIS VIDEO
YANG DIUSULKAN DAN BASELINES
C.Semantik Segmentasi
Gambar 5 menunjukkan beberapa contoh ilustratif hasil segmentasi semantik dari

jaringan ensemble kami, bersama dengan anotasi ground-truth. Penilaian kuantitatif dan
perbandingan kinerja segmentasi untuk model U-Net, U-Net++, Deeplabv3+, dan ensemble
disediakan di Tabel IV.
Kami mengamati bahwa menggunakan augmentasi gambar dan anotasi online dalam
kombinasi dengan model ensambling menghasilkan peningkatan kinerja yang kuat di atas U-
Net dasar, meningkatkan koefisien Dadu dari 0,64 menjadi 0,75 untuk penyatuan penanda
COVID-19.
Model ensemble menghasilkan skor Dadu kategoris 0,65 (rata-rata di seluruh segmentasi
untuk skor 0, 2 dan 3). Metrik ini adalah 0,47 untuk U-net dasar kami.
Tabel IV
KINERJA SEGMENTASI
AKURASI KATEGORIAL DI SEMUA PIXEL DAN
SKOR (ACC.), KOEFISIEN DADU UNTUK
PERSATUAN SKOR TERKAIT COVID-19 (DICE),
DAN DADU BERARTI LUAS SKOR 0, 2,
DAN 3 (C AT. D ICE). SKOR 1 W SEBAGAI DIKECUALIKAN
KARENA RENDAHNYA JUMLAH ANOTASI
Di dalam Gambar 6 kami memberikan visualisasi ketidakpastian dalam segmentasi
yang diprediksi untuk dua contoh gambar dengan rancangngan deviasi standar piksel yang
dihasilkan dari mode MC di 40 sampel dimana Panah di (A) menunjukkan wilayah yang
menampilkan penanda COVID-19 yang ambiguitas dalam bentuk dan luas yang tepat
tercermin dengan baik dalam tingkat piksel yang belum pasti. Panah di (B) menunjukkan
daerah yang tampaknya positif salah yang dinilai sebagai penanda COVID-19 tingkat tinggi
oleh jaringan dan tanpa keterangan . Menariknya, secara retrospektif hasil keluaran jaringan
dinilai sebagai positif oleh orang yang mencatat laporan , menunjukkan area paru
hiperekogenik di bawah permukaan pleura [12], yang mencirikan permeabilitas tinggi dan
keadaan penyakit lanjut.
VI. Pembahasan dan kesimpulan
A.Evaluasi prediksi skor berbasis bingkai
Di dalam Tabel 1 kami mengurangi kontribusi untuk prediksi berbasis bingkai.

Penggantian cross- entropy (CE) tradisional dengan kehilangan SORD untuk suatu hubungan
jelas meningkatkan kinerja. Di sisi lain, kami menemukan bahwa penambahan STN
menyebabkan penurunan skor F1 karena parameter tambahan yang dapat dilatih (sebanyak
CNN) yang diperkenalkan oleh STN dan tidak adanya regularisasi. Namun, STN hadir
dengan dua efek samping positif:
(i) memberikan pelokalan yang diawasi secara lemah tanpa menggunakan pengawasan yang
ketat
(ii) memungkinkan penggunaan regularisasi berbasis konsistensi, yang sangat bermanfaat
dalam hal kinerja.
Model lengkap kami, yang menyematkan modul STN, kehilangan SORD dan kehilangan
konsistensi yang diusulkan mencapai skor F1 65,1, mengungguli semua baseline dengan
selisih besar. Untuk menyelidiki lebih lanjut apakah peningkatan terjadi karena istilah
konsistensi atau STN, kami bereksperiment melakukan percobaan menggunakan dua tanaman
acak yang cukup tumpang tindih dan kehilangan konsistensi yang dipaksakan di antara
keduanya.
Tidak heran , jika skor F1 untuk CNN + Random Crop + SORD tetap jauh di bawah metode
yang kami usulkan. Kami berhipotesis bahwa kehilangan konsistensi hanya berguna ketika
tanaman menutupi area tersebut. Berbeda dengan pekerjaan sebelumnya [18], kami
menemukan bahwa penggunaan arsitektur yang lebih kompleks seperti ResNet18 tidak
membawa peningkatan kinerja yang positif.
Kami berpendapat bahwa ini karena kompleksitas intrinsik tugas yang rendah.
Sebaliknya, kami menyarankan bahwa sebagian besar model disebabkan oleh hasil pada
frame dan label. Namun kami percaya bahwa ini disebabkan oleh subjektivitas anotasi dan
adanya bingkai yang ambigu. Faktanya, label bingkai tidak memperhitungkan bahwa
beberapa artefak dapat hadir sekaligus. Ini terjadi terutama ketika sensor bergerak,
menyebabkan transisi dari satu skor ke skor lainnya.
Untuk menyoroti konsentrasi kesalahan model kami di sekitar transisi, kami

merancang Pengaturan 2 eksperimental, seperti yang ditunjukkan padaTabel I, di mana kita
menjatuhkan frame dekat dengan titik transisi. Hasil di Tabel I menunjukkan bahwa
menghapus bingkai ambigu dari set pengujian secara dramatis mengurangi jumlah kesalahan
model, terlepas dari arsitekturnya, secara empiris memvalidasi hipotesis
Di dalam Tabel I kami juga mengukur bagaimana subjektivitas skor beranotasi

memengaruhi kinerja model di Pengaturan 3 dan menemukan bahwa ketika ada kesepakatan
yang kuat di antara dokter (lebih dari 2 dokter menyetujui skor) jaringan kami berkinerja
lebih baik, meningkatkan F1- mencetak hampir 3 poin. Ini menunjukkan bahwa beberapa
video secara intrinsik lebih jelas daripada yang lain. Selain itu, kami menemukan bahwa,
dalam hal ini, jaringan tampaknya berperilaku serupa dengan yang di tulis manusia, yang
merupakan properti yang diinginkan.
Selain itu, meskipun tampaknya kontra-intuitif, eksperimen kami menunjukkan bahwa

kinerja model ini tidak banyak berubah setelah tingkat kesepakatan tertentu antara dokter (A
= 3 dengan A = 4) Ini mungkin bisa saja disebabkan oleh fakta bahwa memaksakan
persetujuan yang lebih kuat membuat set tes lebih kecil,menghasilkan hasil yang kurang
signifikan secara statistik.
Terakhir kami memvisualisasikan hasil STN dan mengilustrasikan dalam gambar 4.

Kami mempertimbangkan 2 jenis transformasi affine yang dimodelkan oleh Reg-STN dalam
percobaan kami:
i) terjemahan yang dapat dipelajari dengan penskalaan tetap;
ii) terjemahan, penskalaan, dan rotasi yang dapat dipelajari.
Kami menghitung skor F1 65,9 ketika STN memodelkan terjemahan yang dapat
dipelajari dengan penskalaan tetap. Dalam kedua kasus tersebut, STN menghasilkan tanaman
yang sangat terlokalisasi yang sebagian besar bergantung di sekitar area patologis.
Menariknya, untuk akuisisi sensor cembung dan linier, Reg-STN belajar mengabaikan area di
atas pleura, yang pada dasarnya tidak relevan untuk prediksi bingkai yang kegunaan untuk
menggabungkan blok STN dalam prediktor berdasarkan bingkai kami.
Kami juga melaporkan peta panas yang dihasilkan oleh GradCam [44] untuk gambar
yang sama. Secara kualitatif, GradCam tidak selalu fokus pada area gambar yang relevan.
Misalnya, untuk gambar dari probe linier yang ditampilkan pada gambar, dimana diberikan
pada lapisan jaringan interkostal dan bukan pada area gambar di bawah garis pleura, yang
merupakan area yang menarik untuk analisis data LUS
Selain itu, kami memperhatikan bahwa kualitas peta panas memburuk ketika prediksi
jaringan salah.
Selain itu, kami merasa sulit untuk menghasilkan kotak yang masuk akal dari peta panas yang
dihasilkan oleh GradCam, karena memerlukan ambang batas Untuk alasan ini, kami percaya
bahwa STN menghasilkan lokalisasi yang unggul.
B.Evaluasi Prediksi Skor Berbasis Video
Ketika dilatih tentang anotasi oleh dokter ahli, klasifikasi berbasis video mencapai skor F1
61%, presisi 70%, dan recall 60%. Terlihat bahwa nilai-nilai ini sejalan dengan kesepakatan
antar-annotator rendah yang dilaporkan di Bagian III, yang bersama-sama dengan sejumlah
kecil sampel dengan anotasi tingkat video dapat menjelaskan keragaman skor yang tinggi .
Kami berharap bahwa memperluas kumpulan anotasi tingkat video yang relatif kecil akan
membantu mengatasi gangguan pelabelan, meningkatkan kinerja model, dan mengurangi
varian nya.
Gambar 6.Dua contoh (A, B) ketidakpastian kelas dalam segmentasi, menampilkan bingkai
gambar input mode-B (kolom pertama), anotasi (kolom kedua), termasuk biomarker
COVID-19 (sedang/skor 2: oranye, parah/skor 3: merah), semantik yang sesuai segmentasi
berdasarkan pembelajaran mendalam (kolom ketiga), dan ketidakpastian kelas COVID-19
tingkat piksel oleh MC-dropout (kolom keempat).
C. Evaluasi Segmentasi
Model segmentasi kami mampu mengelompokkan dan membedakan antara area

dalam gambar LUS mode-B yang berisi latar belakang, penanda yang sehat, dan (tahap
berbeda dari) biomarker COVID-19 pada tingkat piksel, mencapai akurasi piksel sebesar 96%
dan skor Dadu biner 0,75. Di samping segmentasi ini, kami memberikan perkiraan
ketidakpastian spasial yang dapat digunakan untuk menginterpretasikan prediksi model.
Menariknya, dan yang penting, tidak ada anotasi indeks skor tertinggi (dan paling
parah) dalam set pengujian yang terlewatkan oleh model kami, dinilai dengan penilaian
visual dari segmentasi yang dihasilkan, dan dengan menganalisis perpotongan tingkat gambar
relatif di antara prediksi dan daerah beranotasi. Selain itu, kami mengamati prediksi model
wilayah positif COVID-19, yang belum dianotasi seperti itu. Gambar 6b menunjukkan
contoh yang representatif dari kasus seperti itu.
Setelah mengevaluasi kembali beberapa contoh tersebut dari rangkaian tes, bersama
dengan annotator, kami mengetahui bahwa annotator belum tentu apakah akan memberi
anotasi pada suatu wilayah seperti misalnya skor 2 atau 3, dan oleh karena itu memutuskan
bahwa penanda tidak cukup jelas untuk membuat anotasi wilayah sama sekali, yang
menyebabkan perbedaan tersebut.
Kinerja segmentasi dan ekstraksi semantik dapat lebih ditingkatkan dengan memanfaatkan
struktur temporal di antara bingkai dalam model sekuensial. Model tersebut dapat belajar dari
anotasi di seluruh video, atau melalui anotasi sebagian dan pengawasan yang lemah. Kami
meninggalkan ekstensi dari metode ini untuk pekerjaan di masa depan.
D. Keterbatasan Dataset
Untuk mengungkap karakteristik spesifik penyakit ini, peneliti perlu mengumpulkan

data sebanyak mungkin dari pasien. Namun, karena dampak yang sangat besar dan
penyebaran cepat dari pasien yang terinfeksi, pengumpulan data secara terorganisir terbukti
menjadi tantangan. Akibatnya, demografi yang tepat dari kelompok pasien dalam database
kami tetap tidak diketahui. Idealnya, dataset harus lebih besar, lebih heterogen, dan lebih
seimbang dalam hal skor agar dapat digunakan untuk mempelajari model mendalam yang
akurat. Dalam kasus kami, data telah dikumpulkan di sejumlah rumah sakit terbatas,
semuanya berlokasi di Italia.
Selanjutnya, cara pengumpulan data rentan terhadap bias tertentu, misalnya karena
arus masuk pasien yang tinggi, pasien yang paling parah diprioritaskan dan dinilai, dan
diagnosis ultrasonografi dilakukan pada pasien dengan kecurigaan klinis yang tinggi. Tidak
ada pengujian selanjutnya yang dilakukan, sehingga kemungkinan dimasukkannya kasus
positif palsu. Label di ICLUS-DB ternyata berisik. Selanjutnya, untuk tugas klasifikasi dan
segmentasi berbasis bingkai, perjanjian antar-operator tidak tersedia. Kebisingan dapat
diamati secara tidak langsung pada Tabel I, di mana hanya dengan menggunakan pilihan
sampel pelatihan, kinerja meningkat hampir 5%.
Memperluas basis data untuk mendapatkan label tingkat bingkai dari beberapa
annotator pasti akan menghasilkan model yang lebih kuat. Akhirnya, video LUS yang
disertakan dengan skor 0 semuanya adalah pasien sehat, dan oleh karena itu kami sama sekali
tidak mengklaim untuk membedakan antara pasien COVID-19 dan mereka yang memiliki
patologi berbeda.
E. Kemungkinan Aplikasi
Manfaat menggunakan ultrasound adalah risiko infeksi silang yang rendah saat
menggunakan penutup plastik sekali pakai dan gel ultrasound yang dikemas secara individual
pada mesin genggam portabel [45]. Hal ini berbeda dengan penggunaan CT, di mana ruangan
dan sistem perlu dibersihkan secara ketat untuk mencegah kontaminasi (dan sebaiknya
disediakan untuk pasien dengan kecurigaan COVID-19 yang tinggi). LUS dapat dilakukan di
dalam kamar pasien tanpa memerlukan transportasi, menjadikannya metode yang unggul
untuk penilaian pasien di tempat perawatan.
Selain itu, ultrasound membuat gambar real-time dan, dikombinasikan dengan

metode DL kami, memberikan hasil secara instan. Ini juga dapat secara langsung membantu
dalam triase pasien; estimasi pandangan pertama dari keparahan penyakit dan urgensi di
mana pasien perlu ditangani. Selain itu, negara-negara berpenghasilan rendah dan menengah,
di mana diagnosis melalui RT-PCR atau CT mungkin tidak selalu tersedia, khususnya dapat
mengambil manfaat dari pencitraan ultrasound berbiaya rendah juga [46]. Namun kurangnya
pelatihan tentang interpretasi gambar LUS ini [47] masih dapat membatasi penggunaannya
dalam praktik. Oleh karena itu, metode DL yang kami usulkan dapat memfasilitasi pencitraan
ultrasound di negara-negara ini.
REFERENCES
[1] WHO. (2020). Laboratory Testing Strategy Recommenda tions for COVID-19: Interim Guidance.
[Online]. Available: https://apps.who.int/iris/bitstream/handle/10665/331509/WHO COVID-19-
lab_testing-2020.1-eng.pdf
[2] R. Niehus, P. M. de Salazar, A. Taylor, and M. Lipsitch, “Quantifying bias of COVID-19 prevalence
and severity estimates in Wuhan, China that depend on reported cases in international travelers,”
medRxiv 2020.02.13.20022707, Feb. 2020.
[3] Y. Yang et al., “Evaluating the accuracy of different respiratory speci mens in the laboratory
diagnosis and monitoring the viral shedding of 2019-nCoV infections,” medRxiv
2020.02.11.20021493, Feb. 2020.
[4] S. Salehi, A. Abedi, S. Balakrishnan, and A. Gholamrezanezhad, “Coronavirus disease 2019
(COVID-19): A systematic review of imaging findings in 919 patients,” Amer. J. Roentgenology, pp. 1–
7, Mar. 2020.
[5] A. Bernheim et al., “Chest CT findings in coronavirus disease-19 (COVID-19): Relationship to
duration of infection,” Radiology, Feb. 2020, Art. no. 200463. [Online]. Available:
http://pubs.rsna.org/doi/10.1148/radiol.2020200463
[6] F. Mojoli, B. Bouhemad, S. Mongodi, and D. Lichtenstein, “Lung ultrasound for critically ill
patients,” Amer. J. Respiratory Crit. Care Med., vol. 199, pp. 701–714, Mar. 2019.
[7] R. Raheja, M. Brahmavar, D. Joshi, and D. Raman, “Application of lung ultrasound in critical care
setting: A review,” Cureus, vol. 11, no. 7, p. e5233, Jul. 2019.
[8] Y. Amatya, J. Rupp, F. M. Russell, J. Saunders, B. Bales, and D. R. House, “Diagnostic use of lung
ultrasound compared to chest radiograph for suspected pneumonia in a resource-limited setting,”
Int. J. Emergency Med., vol. 11, no. 1, p. 8, Dec. 2018.
[9] E. Poggiali et al., “Can lung US help critical care clinicians in the early diagnosis of novel
coronavirus (COVID-19) pneumonia?” Radiology, Mar. 2020, Art. no. 200847.
[10] Q.-Y. Peng, Chinese Critical Care Ultrasound Study Group, X.-T. Wang, and L.-N. Zhang, “Findings
of lung ultrasonography of novel corona virus pneumonia during the 2019-2020 epidemic,” Intensive
Care Med., vol. 46, no. 5, pp. 849–850, May 2020.
[11] G. Soldati et al., “Is there a role for lung ultrasound during the COVID-19 pandemic?” J.
Ultrasound Med., Apr. 2020.
[12] G. Soldati et al., “Proposal for international standardization of the use of lung ultrasound for
patients with COVID-19: A simple, quantitative, reproducible method,” J. Ultrasound Med., Apr.
2020.
[13] K. Stefanidis et al., “Lung sonography and recruitment in patients with early acute respiratory
distress syndrome: A pilot study,” Crit. Care, vol. 15, no. 4, p. R185, 2011.
[14] K. A. Stewart et al., “Trends in ultrasound use in low and middle income countries: A systematic
review,” Int. J. MCH AIDS, vol. 9, no. 1, pp. 103–120, 2020.
[15] L. Tutino, G. Cianchi, F. Barbani, S. Batacchi, R. Cammelli, and A. Peris, “Time needed to achieve
completeness and accuracy in bedside lung ultrasound reporting in intensive care unit,” Scandin. J.
Trauma, Resuscitation Emergency Med., vol. 18, no. 1, p. 44, 2010.
[16] R. J. van Sloun, R. Cohen, and Y. C. Eldar, “Deep learning in ultrasound imaging,” Proc. IEEE, vol.
108, no. 1, pp. 11–29, Jul. 2019. [Online]. Available: http://arxiv.org/abs/1907.02994
[17] R. J. G. van Sloun and L. Demi, “Localizing B-Lines in lung ultra sonography by weakly
supervised deep learning, in-vivo results,” IEEE J. Biomed. Health Informat., vol. 24, no. 4, pp. 957–
964, Apr. 2020.
[18] G. Soldati et al., “Towards computer aided lung ultrasound imaging for the management of
patients affected by COVID-19,” Tech. Rep.
[19] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu, “Spatial transformer networks,”
in Proc. NIPS, 2015, pp. 2017–2025.
[20] S. Roy, A. Siarohin, E. Sangineto, S. R. Bulo, N. Sebe, and E. Ricci, “Unsupervised domain
adaptation using feature-whitening and consen sus loss,” in Proc. IEEE/CVF Conf. Comput. Vis.
Pattern Recognit. (CVPR), Jun. 2019, pp. 9471–9480.
[21] R. Diaz and A. Marathe, “Soft labels for ordinal regression,” in Proc. IEEE/CVF Conf. Comput. Vis.
Pattern Recognit. (CVPR), Jun. 2019, pp. 4738–4747.
[22] V. Melnikov and E. Hüllermeier, “Learning to aggregate using uni norms,” in Proc. ECML, 2016,
pp. 756–771.
[23] O. Ronneberger, P. Fischer, and T. Brox, “U-net: Convolutional net works for biomedical image
segmentation,” in Proc. MICCAI, 2015, pp. 234–241.
[24] P. Rajpurkar et al., “CheXNet: Radiologist-level pneumonia detection on chest X-Rays with deep
learning,” 2017, arXiv:1711.05225. [Online]. Available: http://arxiv.org/abs/1711.05225
[25] D. Dong et al., “The role of imaging in the detection and management of COVID-19: A review,”
IEEE Rev. Biomed. Eng., early access, Apr. 27, 2020, doi: 10.1109/RBME.2020.2990959.
[26] F. Shi et al., “Review of artificial intelligence techniques in imag ing data acquisition,
segmentation and diagnosis for COVID-19,” IEEE Rev. Biomed. Eng., early access, Apr. 16, 2020, doi:
10.1109/RBME.2020.2987975.
[27] J. Chen et al., “Deep learning-based model for detecting 2019 novel coronavirus pneumonia on
high-resolution computed tomography: A prospective study,” MedRxiv, Tech. Rep., 2020.
[28] S. Wang et al., “A deep learning algorithm using ct images to screen for corona virus disease
(COVID-19),” MedRxiv, Tech. Rep., 2020.
[29] X. Xu et al., “Deep learning system to screen coronavirus dis ease 2019 pneumonia,” 2020,
arXiv:2002.09334. [Online]. Available: http://arxiv.org/abs/2002.09334
[30] S. Liu et al., “Deep learning in medical ultrasound analysis: A review,” Engineering, vol. 5, no. 2,
pp. 261–275, Apr. 2019.
[31] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, “Learning deep features for
discriminative localization,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2016, pp.
2921–2929.
[32] G. Soldati et al., “Simple, safe, same: Lung ultrasound for COVID-19 (LUSCOVID19),”
ClinicalTrials.gov Identifier: NCT04322487, 2020.
[33] G. Soldati, M. Demi, R. Inchingolo, A. Smargiassi, and L. Demi, “On the physical basis of
pulmonary sonographic interstitial syndrome,” J. Ultrasound Med., vol. 35, no. 10, pp. 2075–2086,
Oct. 2016.
[34] K. Wada. (2016). Labelme: Image Polygonal Annotation With Python. [Online]. Available:
https://github.com/wkentaro/labelme
[35] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classifica tion with deep convolutional
neural networks,” in Proc. NIPS, 2012, pp. 1097–1105.
[36] M. Sajjadi, M. Javanmardi, and T. Tasdizen, “Regularization with stochastic transformations and
perturbations for deep semi-supervised learning,” in Proc. NIPS, 2016, pp. 1163–1171.
[37] C. Winship and R. D. Mare, “Regression models with ordinal variables,” Amer. Sociol. Rev., vol.
49, no. 4, p. 512, Aug. 1984.
[38] K. Crammer and Y. Singer, “Pranking with ranking,” in Proc. NIPS, 2002, pp. 641–647.
[39] R. R. Yager and A. Rybalov, “Uninorm aggregation operators,” Fuzzy Sets Syst., vol. 80, no. 1, pp.
111–120, May 1996.
[40] Z. Zhou, M. M. R. Siddiquee, N. Tajbakhsh, and J. Liang, “Unet++: A nested u-net architecture for
medical image segmentation,” in Proc. Deep Learn. Med. Image Anal. Multimodal Learn. Clin. Decis.
Support. Cham, Switzerland: Springer, 2018, pp. 3–11.
[41] L.-C. Chen, Y. Zhu, G. Papandreou, F. Schroff, and H. Adam, “Encoder-decoder with atrous
separable convolution for semantic image segmentation,” in Proc. Eur. Conf. Comput. Vis. (ECCV),
2018, pp. 801–818.
[42] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in Proc. IEEE
Conf. Comput. Vis. Pattern Recog nit. (CVPR), Jun. 2016, pp. 770–778.
[43] Y. Gal and Z. Ghahramani, “Dropout as a Bayesian approximation: Representing model
uncertainty in deep learning,” in Proc. ICML, 2016, pp. 1050–1059.
[44] R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra, “Grad-cam: Visual
explanations from deep networks via gradient-based localization,” in Proc. IEEE Int. Conf. Comput.
Vis., 2017, pp. 618–626.
[45] J. C.-H. Cheung and K. N. Lam, “POCUS in COVID-19: Pearls and pitfalls,” Tech. Rep., Apr. 2020.
[46] S. Sippel, K. Muruganandan, A. Levine, and S. Shah, “Review article: Use of ultrasound in the
developing world,” Int. J. Emergency Med., vol. 4, no. 1, p. 72, Dec. 2011.
[47] S. Shah, B. A. Bellows, A. A. Adedipe, J. E. Totten, B. H. Backlund, and D. Sajed, “Perceived
barriers in the use of ultrasound in developing countries,” Crit. Ultrasound J., vol. 7, no. 1, p. 11, Dec.
201

Tugas Kelompok 4 (9) Metopel

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas Kelompok 4 (9) Metopel

Diunggah oleh

Hak Cipta:

Format Tersedia

Pembelajaran Mendalam Untuk Klasifikasi dan Lokalisasi Penanda

COVID-19 Dalam Point-of-Care Lung Ultrasound

Memanfaatkan data ini, kami memperkenalkan beberapa model mendalam yang

Wabah SARS-CoV-2 global yang menyebar dengan cepat mengakibatkan

Memang, negara-negara yang telah mampu melakukan pengujian dengan skala

Akhirnya, kami mengusulkan metode sederhana namun efektif untuk memprediksi

III. CLUS-DB: PENGUMPULAN DATA DAN ANOTASI

Kami di sini menyajikan database USG Paru-Paru COVID-19 Italia (ICLUS-DB),

Gambar 2. Distribusi probe dan skor frame dikelompokkan

IV.PEMBELAJARAN ANALISIS BERBASIS GAMBAR LUS

Makalah ini membahas beberapa tantangan terhadap pengembangan pendekatan

1) Rumusan Masalah dan Notasi:

Gambar 3. Ilustrasi arsitektur untuk prediksi skor berbasis bingkai

Kami tertarik untuk mempelajari pemetaan ᶲ : x → S, yang diberi input gambar

Dalam konteks pembelajaran mendalam, kemampuan generalisasidari suatu jaringan

STN [19] adalah modul terdiferensiasi yang menerapkan transformasi affine

di mana αS , βS , αT , βT , adalah koordinat sumber dan target masing-masing dalam peta

Dalam praktiknya, kami menerapkan kerangka regresi ordinal dengan menggunakan

Sayangnya, LMS E digabungkan dengan transformasi affine yang dapat

Akhirnya, model Reg-STN yang diusulkan dilatih end-to-end meminimalkan fungsi

B.Agregasi Skor Tingkat Video

Dalam merancang model Ψ , kami mempertimbangkan fakta bahwa ia perlu

Ψ(v) = ΨU (Φ(x1), .. . , Φ(xM ))

Di Sini Φ adalah pemetaan tingkat bingkai dan Ψu adalah agregasi fungsi

Ue(a, b) = e + (1 – e) S ( a – e , b – e ) ) jika a, b ϵ [e, 1]

Kami kemudian melatih dan mengevaluasi prediktor berbasis video di T’ ,

Perhatikan bahwa seluruh arsitektur termasuk komponen tingkat bingkai dapat

1)Rumusan Masalah dan Notasi:

Kami tertarik untuk mempelajari pemetaan: Ω : x → y, yang diberi gambar LUS

Kami mengadopsi kategoris pixel-bijaksana kehilangan lintas-entropi antara topeng

Selama pelatihan, kami diberikan satu set pelatihan n gambar-label berpasangan T =

Untuk lebih meningkatkan ketahanan dan kinerja, kami menerapkan model

A.Prediksi Skor Berbasis Bingkai

Dalam praktiknya, kami hanya mengikuti tes mengatur video dengan

B.Prediksi Skor Berbasis Video

Gambar 5 menunjukkan beberapa contoh ilustratif hasil segmentasi semantik dari

VI. Pembahasan dan kesimpulan

A.Evaluasi prediksi skor berbasis bingkai

Di dalam Tabel 1 kami mengurangi kontribusi untuk prediksi berbasis bingkai.

Untuk menyoroti konsentrasi kesalahan model kami di sekitar transisi, kami

Di dalam Tabel I kami juga mengukur bagaimana subjektivitas skor beranotasi

Selain itu, meskipun tampaknya kontra-intuitif, eksperimen kami menunjukkan bahwa

Terakhir kami memvisualisasikan hasil STN dan mengilustrasikan dalam gambar 4.

B.Evaluasi Prediksi Skor Berbasis Video

Model segmentasi kami mampu mengelompokkan dan membedakan antara area

Untuk mengungkap karakteristik spesifik penyakit ini, peneliti perlu mengumpulkan

Selain itu, ultrasound membuat gambar real-time dan, dikombinasikan dengan

Anda mungkin juga menyukai