Anda di halaman 1dari 40

Halaman 1

diagnostik
Artikel

Pengembangan Algoritma Pembelajaran yang Dalam


untuk Deteksi Penyakit Periapikal dalam Radiografi
Gigi
Michael G. Endres 1 , Florian Hillen 1,2 , Marios Salloumis 3 , Ahmad R. Sedaghat 4 ,
Stefan M. Niehues 5, Olivia Quatela 6 , Henning Hanken 6 , Ralf Smeets 6 ,Benedicta Beck-
Broichsitter 3, Carsten Rendenbach 3 , Karim Lakhani 1,7 , Max Heiland 3danRobert A.
Gaudin 1,3, *
1
Laboratorium Ilmu Inovasi, Universitas Harvard, 175 N. Harvard Street, Suite 1350, Boston, MA
02134, AS; mgendres@gmail.com
2
Institut Data, Sistem dan Masyarakat, Institut Teknologi Massachusetts, 50 Ames St, Cambridge,
MA 02142, AS; florian.hillen@videahealth.io
3
Departemen Bedah Mulut dan Maksilofasial, Charité-Universitätsmedizin Berlin, Anggota
Perusahaan Freie Universität Berlin, Humboldt-Universität zu Berlin, dan Institut Kesehatan Berlin,
Hindenburgdamm 30, 12203 Berlin, Jerman; marios.salloumis@charite.de
(MS); carsten.rendenbach@charite.de (CR); benedicta.beck-broichsitter@charite.de (BB-
B.); max.heiland@charite.de (MH)
4
Departemen Otolaringologi — Bedah Kepala dan Leher, Fakultas Kedokteran Universitas
Cincinnati, Gedung Ilmu Kedokteran 6410, 231 Albert Sabin Way, Cincinnati, OH 45267, AS;
ahmad.sedaghat@uc.edu
5
Departemen Radiologi, Charité-Universitätsmedizin Berlin, Anggota Perusahaan Freie Universität
Berlin, Humboldt-Universität zu Berlin, dan Institut Kesehatan Berlin, Hindenburgdamm 30, 12203
Berlin, Jerman; stefan.niehues@charite.de
6
Departemen Bedah Mulut dan Maksilofasial, Universitätsklinikum Hamburg, Eppendorf,
Maritnistraße 52, 20246 Hamburg, Jerman; oquatela@u.rochester.edu (OQ); r.smeets@uke.de (RS);
h.hanken@uke.de (HH)
7
Unit Manajemen Teknologi dan Operasi, Harvard Business School, Wyss House, Boston, MA
02163, AS; klakhani@hbs.edu
*
Korespondensi: robert-andre.gaudin@charite.de
Diterima: 25 Mei 2020; Diterima: 19 Juni 2020; Diterbitkan: 24 Juni 2020

Abstrak: Radiolusen periapical dapat dideteksi dengan radiografi panoramic


merupakan salah satu temuan radiografi yang paling umum dalam kedokteran gigi dan
memiliki diagnosis banding termasuk infeksi, granuloma, kista dan tumor. Dalam studi
ini, kami berusaha untuk menyelidiki kemampuan dari 24 ahli bedah oral dan
maxillofacial (OMF) menilai adanya liapensi periapikal pada radiografi panoramik, dan
kami membandingkan temuan ini dengan kinerja algoritma pembelajaran mendalam
prediktif yang kami kembangkan menggunakan set data kurasi dari 2902 radiograf
panoramik yang tidak diidentifikasi. Nilai prediksi positif diagnostik (PPV) rata-rata
dari ahli bedah OMF berdasarkan penilaian mereka terhadap gambar radiografi
panoramik adalah 0,69 (± 0,13), menunjukkan bahwa dokter gigi rata-rata salah
mendiagnosis 31% kasus sebagai radiolusen.. Namun, hasil rata-rata diagnostik True
Positive Rate (TPR) adalah 0,51 (± 0,14), menunjukkan bahwa rata-rata 49% dari
semua radiolusen yang terlewatkan. Kami menunjukkan bahwa algoritma pembelajaran
dalam mencapai kinerja yang lebih baik daripada 14 dari 24 ahli bedah OMF dalam
kohort, menunjukkan presisi rata-rata 0,60 (± 0,04), dan skor F1 0,58 (± 0,04) sesuai
dengan PPV 0,67 (± 0,05) dan TPR 0,51 (± 0,05). Algoritma, dilatih tentang data
terbatas dan dievaluasi pada kebenaran dasar yang divalidasi secara klinis, memiliki
potensi untuk membantu ahli bedah OMF dalam mendeteksi periapical lucency pada
radiografi panoramik.
Kata kunci: kecerdasan buatan; diagnosa; dibantu komputer; interpretasi
gambar; dibantu komputer; pembelajaran mesin; radiografi; radiografi panoramic

Diagnostik 2020 , 10, 430; doi : 10.3390 / Diagnostics10060430


www.mdpi.com/journal/diagnostics

Halaman 2
Diagnostik 2020 , 10, 430 2 dari 21

1. Perkenalan

Radiografi panoramik adalah alat diagnostik umum dan modalitas pencitraan


standar itu sering digunakan dalam praktik klinis rutin oleh dokter gigi dan oral dan
maksilofasial (OMF) ahli bedah [1- 3] Meskipun penilaian radiografi panoramik dapat
dikontrak oleh ahli radiologi dalam keadaan tertentu, dalam banyak praktik klinis, ahli
bedah OMF sering membaca panorama mereka sendiri radiografi. Penelitian
sebelumnya telah menunjukkan bahwa pelatihan dokter memainkan peran integral
dengan benar menafsirkan pencitraan medis [4] Di bidang kedokteran gigi khususnya,
tingkat perjanjian (proxy untuk mereka) kinerja diagnostik) penilaian profesional
radiografi terhadap citra radiografi tampaknya berbeda sebagian karena pengetahuan
individu, keterampilan dan bias [5, 6] Keragaman dalam kemampuan profesional gigi
membaca radiografi panoramik membuka pintu untuk kesalahan diagnosis atau
penganiayaan [7, 8] Sebagai contoh, penelitian terbaru menunjukkan bahwa tingkat
kesalahan diagnosis oleh dokter gigi dalam menentukan kedalaman karies pada
radiograf konvensional mencapai 40 persen, dan pada 20 persen kasus, gigi adalah salah
didiagnosis sebagai berpenyakit [9, 10]
Dalam dunia kedokteran, banyak penelitian baru-baru ini berfokus pada
pengembangan diagnostik dan terapi buatan alat intelijen (AI) untuk mendukung proses
pengambilan keputusan klinis [11- 14] Sejauh ini, AI sudah diperkenalkan dan
digunakan dalam banyak spesialisasi klinis seperti radiologi [12, 15, 16], patologi
[ 17- 19], dermatologi [20] dan oftalmologi [ 21, 22] untuk membantu dengan deteksi
penyakit dan selanjutnya rekomendasi opsi perawatan. Algoritma AI juga telah
dikembangkan untuk segmentasi medis gambar untuk tugas terapi, seperti
penggambaran tumor di kepala dan leher untuk penargetan dengan radiasi terapi
[23] Pekerjaan sebelumnya dalam diagnostik berbantuan komputer dalam kedokteran
gigi dan bedah OMF terbatas. Penelitian sebelumnya berfokus pada deteksi karies pada
citra radiografi bitewing serta segmentasi gigi dan untuk perhitungan ortodontik
[24- 27] Satu-satunya Administrasi Makanan dan Obat-obatan (FDA) yang disetujui
alat sampai saat ini, detektor karies Logicon, diperkenalkan pada tahun 1998, dan
dimaksudkan hanya untuk mendeteksi dan tepatnya mendiagnosis kedalaman lesi karies
inter-proksimal [28]
Deteksi radiolusen dalam radiografi panoramik adalah tugas umum bagi ahli
bedah OMF [29] Bahkan, prevalensi radiolusen periapikal pada gambar radiografi
diperoleh pada pasien rawat jalan gigi departemen telah dilaporkan sekitar 9–10%
[29- 31] Kehadiran periapical radiolusen dapat mencerminkan beberapa penyakit gigi
umum atau serius termasuk infeksi (akuntansi untuk sekitar 55-70% radiolusen), kista
(25-40% radiolusen), granuloma (1-2% dari radiolusen) dan tumor [29- 31] Diagnosis
tertunda dari perubahan periapikal radiolusen ini dapat menyebabkan penyebaran
penyakit ke jaringan di sekitarnya, komplikasi dan morbiditas pasien [32] Meskipun
banyak dokter gigi dan ahli bedah OMF membaca radiografi panoramik mereka sendiri,
sudah ada sedikit penelitian yang dilakukan untuk mempelajari keakuratannya dalam
mengidentifikasi periapikal radiolusen umum perubahan. Dalam penelitian ini, kami
menyelidiki deteksi radiolusen periapikal pada panoramic radiografi. Kami mempelajari
kemampuan dengan mana ahli bedah OMF mengidentifikasi adanya periapical
radiolusen dalam radiografi panoramik. Selain itu, kami menggunakan pembelajaran
mendalam untuk mengembangkan gambar algoritma analisis untuk deteksi radiolusen
periapikal pada radiografi panoramik yang bisa berfungsi sebagai bantuan dalam
praktek klinis, dan membandingkan kinerjanya dengan yang dari ahli bedah OMF.

2. Bahan-bahan dan metode-metode

Gambar untuk penelitian ini diperoleh dari klinik rawat jalan di Departemen
Oral dan Bedah Maksilofasial, Charite, Berlin. Di Departemen Bedah Mulut dan
Maksilofasial, Charite, Di Berlin, radiografi panoramik digunakan sebagai modalitas
pencitraan standar karena keseluruhan barangnya bagus kemampuan diskriminatif
diagnostik. Selanjutnya, modalitas ini memungkinkan ikhtisar dengan menilai
keseluruhan pertumbuhan gigi ditambah struktur tulang di sekitarnya, sambil
menggunakan radiasi dosis rendah [33- 35] Namun, standar keseluruhan dalam
radiografi endodontik untuk mendeteksi perubahan periapikal radiolusen, terutama
untuk deteksi periodontitis apikal, adalah radiografi periapikal [33]
Penggunaan gambar dan partisipasi ahli bedah OMF dalam penelitian ini
disetujui oleh dewan peninjau kelembagaan di Universitas Harvard (nomor referensi
dewan: IRB17-0456; tanggal persetujuan: 01 Mei 2018) dan Charite, Berlin (nomor
referensi dewan: EA2 / 030/18; tanggal persetujuan:

Halaman 3
Diagnostik 2020 , 10, 430 3 dari 21

15 Maret 2018). Persetujuan tertulis untuk penelitian ini diperoleh dari semua OMF
yang berpartisipasi ahli bedah. Semua metode dan eksperimen dilakukan sesuai dengan
pedoman yang relevan dan peraturan (Deklarasi Helsinki). Anotasi dari semua radiograf
panoramik berlangsung di ruang baca radiologi standar termasuk monitor radiologi
klinis yang terhubung ke sistem teknologi informasi rumah sakit. Semua ahli bedah
OMF yang berpartisipasi memberi catatan gambar pada aplikasi berbasis web, yang
dikembangkan untuk penelitian ini.

2.1. Menilai Keandalan Diagnosis Ahli Bedah OMF tentang Radiolusen Periapikal di


Indonesia Radiografi Panoramik

Untuk evaluasi keandalan diagnosis radiolusen periapikal secara panoramic


radiografi oleh ahli bedah OMF dalam praktek klinis rutin, 24 ahli bedah OMF direkrut
(delapan belas dari Departemen Bedah Mulut dan Maksilofasial, Charite, Berlin, tiga
dari Departemen Bedah Mulut dan Maksilofasial, Klinik Universitas Hamburg,
Eppendorf, dan tiga dari swasta praktek untuk operasi OMF). Ahli bedah OMF ini
mewakili sampel acak yang terdiri dari 13 penduduk
dan 11 dokter umum (6 wanita dan 18 pria). Ahli bedah OMF diinstruksikan untuk
membubuhi keterangan 102 radiografi panoramik untuk klinis radiolusen periapikal
yang relevan (Tabel 1). Data standar referensi dikumpulkan oleh satu OMF ahli bedah
dengan 7 tahun pengalaman yang merawat semua 102 pasien unik menggunakan
prosedur berikut.
Pertama, radiografi panoramik diambil dari pasien dan dievaluasi; semua
radiolusen yang terdeteksi adalah selanjutnya direkam. Kedua, setiap gigi pasien diuji
periapikal yang relevan secara klinis penyakit (mis. abses) menggunakan uji vitalitas
pulpa melalui uji termal dan perkusi — emas standar untuk memvalidasi penyakit
periapikal secara klinis [7] Secara umum, gigi dengan penyakit periapikal dapat
melakukannya tidak menunjukkan respons terhadap metode pengujian yang berbeda
dibandingkan dengan gigi sehat, karena kehilangan daya hidup. Akibatnya, ahli bedah
OMF memiliki petunjuk tambahan apakah radiolusen periapical adalah artefak atau
memang karena penyakit, dibandingkan dengan hanya mengandalkan radiograf. Jika
radiolusen telah terjawab oleh pembacaan OMF ahli bedah tetapi penyakit periapikal
kemudian terdeteksi oleh uji klinis, gambar radiografi kemudian dinilai untuk kedua
kalinya untuk menentukan apakah perubahan periapikal radiolusen terlihat dan
kemudian direkam.

2.2. Pengembangan Algoritma Pembelajaran yang Mendalam untuk Deteksi Otomatis


Radiolusen Periapikal di Indonesia Radiografi Panoramik

Kami mengembangkan model kami menggunakan pendekatan pembelajaran


terawasi, di mana fungsional hubungan antara input (yaitu, gambar radiografi) dan
output (yaitu, daftar radiolusen yang terdeteksi lokasi perubahan periapikal, dan skor
kepercayaan yang sesuai) “dipelajari” dengan contoh. Tugas umumnya membutuhkan
beberapa set data berlabel: satu set data yang digunakan untuk tujuan pelatihan model
satu set data validasi yang digunakan untuk menentukan apakah model tersebut terlalu
pas untuk dan set pelatihan tujuan memilih yang terbaik di antara beberapa model
kandidat, dan set data pengujian yang digunakan untuk final evaluasi model yang
dipilih. Kami menilai model kami dengan membandingkan kinerjanya pada hal yang
sama 102 gambar dijelaskan oleh 24 ahli bedah OMF yang dijelaskan dalam
Bagian 1 Metode dan Bahan.

2.3. Gambar dan Pelabelan Radiografi untuk Pelatihan Model


Set data pelatihan, yang terdiri dari 3240 gambar radiografi, dilabeli oleh empat
ahli bedah OMF dari Departemen Bedah Mulut dan Maksilofasial, Charite, Berlin, dari
pasien rawat jalan yang sama departemen (pengalaman mulai dari 5 hingga 20 tahun)
yang secara visual menilai gambar, tidak ada informasi klinis tambahan, dan kemudian
menghasilkan label kontur di sekitar tanda yang terlihat dan radiolusen periapikal yang
dapat diobati yang telah mereka identifikasi (Tabel 1). Dari catatan, dokter mulai
program residensi operasi OMF di Jerman telah memiliki setidaknya dua tahun
pengalaman membaca radiografi gigi dan merawat pasien karena program di sekolah
kedokteran gigi. Selanjutnya, di Jerman, pelatihan radiologi dentomaxillofacial adalah
bagian dari program residensi operasi OMF. Tidak ada subspesialisasi tunggal dari
radiologi OMF ada di Jerman.

Halaman 4
Diagnostik 2020 , 10, 430 4 dari 21

Tabel 1. Deskripsi lengkap lesi yang dipertimbangkan dalam penelitian ini.

Perubahan Periapikal Radiolusen Karakteristik [32


Peradangan / infeksi periapical Ligamentum periodontal melebar
Granuloma periapical Lesi kecil dengan batas yang tidak jelas
(<200 mm 3 )
Kista periapical Lesi berbentuk bulat dan berbatas tegas
dengan batas sklerotik sekitar akar gigi
(> 200 mm 3 ).

Osteomielitis Lesi dengan batas tidak beraturan dan


kepadatan tidak teratur, sering tersebar di
lebih dari satu root

Tumor Lesi dengan batas tidak beraturan dan


kepadatan tidak teratur, sering tersebar di
lebih dari satu root
Di antara 3240 gambar yang dinilai, 338 dikeluarkan dari set data
pelatihan. Pengecualian kriteria termasuk cakupan anatomi yang tidak tepat karena
posisi atau artefak yang buruk, kepadatan yang lebih rendah dan kontras yang buruk
antara enamel dan dentin, serta kepadatan yang lebih rendah dan kontras yang buruk
dari gigi sendiri dengan tulang di sekitarnya. Kriteria ini memenuhi standar yang
dinyatakan dalam literatur [5, 36]
Distribusi alterasi periapikal radiolusen dari sisa 2902 gambar berlabel
ditunjukkan pada Gambar 1, dan di antara gambar yang disimpan, 872 dinilai bebas dari
radiolusen yang terlihat.
Gambar 1. Distribusi perubahan periapikal radiolusen per gambar untuk set data
pelatihan, validasinya set data, dan set data pengujian.

2.4. Standar Referensi untuk Pemilihan Model dan Evaluasi

Serangkaian 197 gambar radiografi panoramik dan diagnosis terkait


dikumpulkan dari Departemen Bedah Mulut dan Maksilofasial, Charite, Berlin. Data ini
mewakili a standar referensi untuk pemilihan model dan tujuan evaluasi akhir. Gambar
dan label dikumpulkan dan diproduksi oleh seorang ahli bedah OMF tunggal dengan
pengalaman tujuh tahun. Diagnosa

Halaman 5
Diagnostik 2020 , 10, 430 5 dari 21

dibuat oleh ahli bedah OMF, yang mengambil dan menilai gambar radiografi setiap
pasien, kemudian secara klinis menguji setiap gigi dalam rahang pasien menggunakan
perkusi dan vitalitas termal tes. Kumpulan data dibagi menjadi dua himpunan bagian
terputus-putus pada tingkat pasien: satu set validasi gambar (digunakan untuk pemilihan
model) dan set uji gambar 102 (sama seperti yang dijelaskan dalam Bagian 2.1 Metode
dan Bahan) yang digunakan untuk evaluasi akhir dari model kami yang
terlatih. Periapikal radiolusen terkait distribusi perubahan untuk set ini, bersama dengan
set data pelatihan, ditunjukkan pada Gambar 1.

2.5. Benchmark untuk Perbandingan Model

Kinerja model dibandingkan dengan tolok ukur dari 24 ahli bedah


OMF. Protokol untuk mendiagnosis gambar identik dengan yang diberikan kepada ahli
bedah OMF yang berlabel set data pelatihan, bagaimanapun, ahli bedah OMF diminta
untuk menghasilkan satu titik di pusat setiap perubahan periapikal radiolusen sebagai
lawan dari kontur yang ketat.

2.6. Model
Kami membingkai tugas deteksi perubahan periapikal radiolusen sebagai
masalah klasifikasi padat, dimana setiap piksel dalam gambar radiografi yang
dimasukkan ditentukan mengandung radiolusen perubahan periapikal atau tidak (lihat
Lampiran A untuk detail lengkap). Model ini didasarkan pada convolutional yang
mendalam jaringan saraf untuk segmentasi gambar [37], yang menampilkan peta
intensitas yang menunjukkan wilayah tinggi atau keyakinan rendah mengandung
perubahan periapikal radiolusen. Peta intensitas ini selanjutnya postprocessed untuk
menghasilkan daftar titik lokasi dari perubahan periapikal radiolusen dalam gambar, dan
skor kepercayaan terkait pada interval (0,1) (Gambar 2 dan A1, Angka A2- A5).

Gambar 2. Contoh gambar radiografi panoramik (preprocessed untuk input model)


dipilih dari set data uji dengan overlay kontur kebenaran tanah (Ground Truth), output
intensitas peta diproduksi oleh model kami (Output Model) dan lokasi yang diproduksi
oleh prosedur pasca-pemrosesan kami (Output Diproses). Hanya prediksi dengan skor
kepercayaan lebih besar dari 0,25 yang ditampilkan (ini ambang dipilih untuk
memaksimalkan F 1 skor pada validasi data set). Versi resolusi lebih tinggi dari gambar-
gambar ini disediakan dalam Gambar A1- A4 .

Halaman 6
Diagnostik 2020 , 10, 430 6 dari 21

2.7. Metrik Evaluasi

Kinerja model kami dinilai dari segi nilai prediksi positif (umumnya disebut
sebagai "presisi"), PPV = N TP / (N TP + N FP ), tingkat positif sejati (umumnya
disebut sebagai "Sensitivitas" atau "recall"), TPR = N TP / (N TP + N FN ),
dan skor F 1 (metrik kinerja yang umum digunakan dalam pembelajaran mesin,
didefinisikan sebagai rata-rata harmonik dari PPV dan TPR), di mana N TP adalah
benar hitung positif (TP), N FP adalah jumlah false positive (FP) dan N FN adalah false
negative (FN) count untuk prediksi pada seluruh rangkaian data yang dipertimbangkan
(lihat Lampiran A untuk detail lengkap). Modelnya juga dinilai menggunakan presisi
rata-rata (AP), didefinisikan sebagai area di bawah kurva PPV-TPR berdasarkan
Riemann penjumlahan. Metrik kinerja ditentukan sebagai fungsi dari ambang batas
kepercayaan, pengobatan lokasi dengan skor kepercayaan lebih besar dari ambang
sebagai prediksi positif.

2.8. Evaluasi Korelasi antara Model dan Kinerja Ahli Bedah OMF

Selain metrik evaluasi tradisional dan perbandingan tolok ukur, kami


mempelajari hubungan antara skor kepercayaan model kami dan yang disimpulkan dari
kohort 24 OMF ahli bedah. Lokasi diidentifikasi sebagai perubahan periapikal
radiolusen oleh 24 ahli bedah OMF di set data pengujian dikelompokkan secara manual
oleh ahli bedah OMF berdasarkan radiolusen periapical lokasi perubahan ditunjukkan
oleh standar referensi atau oleh lokasi root dalam kasus negative contoh
kondisi. Wilayah kontur kemudian diproduksi di sekitar masing-masing kelompok dan
kepercayaan kelompok skor ditugaskan ke masing-masing wilayah berdasarkan proporsi
ahli bedah OMF yang menemukan wilayah tersebut menjadi perubahan periapikal
radiolusen. Di setiap daerah, kami juga menentukan model
skor kepercayaan berdasarkan prediksi model untuk tujuan perbandingan. Kami
kemudian digunakan Koefisien korelasi peringkat Spearman untuk menilai hubungan
monoton antara model dan skor kepercayaan kohort.

3. Hasil

3.1. Keandalan Diagnosis Ahli Bedah OMF dari Radiolusen Periapikal dalam


Radiografi Panoramik

Secara total, 2448 gambar (102 gambar per ahli bedah OMF, untuk 24 ahli
bedah OMF) dijelaskan dalam ini belajar. Hasil dari analisis ini (Tabel 2) menunjukkan
bahwa untuk tugas mendeteksi radiolusen menggunakan radiografi panoramik, ahli
bedah OMF memiliki PPV rata-rata 0,69 (± 0,13), menunjukkan bahwa pada rata-rata
31% kasus salah didiagnosis sebagai positif (tipe I kesalahan). TPR rata-rata dari semua
OMF ahli bedah adalah 0,51 (± 0,14), menunjukkan bahwa rata-rata 49% dari semua
radiolusen terlewatkan (tipe IIkesalahan). Kinerja ahli bedah OMF secara signifikan
lebih rendah dalam hal TPR dibandingkan dengan PPV berdasarkan uji peringkat
bertanda Wilcoxon (p = 0,003). Berdasarkan distribusi kinerja (Tabel 2), probabilitas
bahwa ahli bedah OMF memiliki PPV lebih besar dari 0,5 adalah 96 (± 4)% sedangkan
probabilitas bahwa mereka memiliki TPR lebih besar dari 0,5 hanya 50 (± 10)%, di
mana nilai-nilai dalam tanda kurung mewakili 1σ ketidakpastian statistik dalam
estimasi.
Hubungan antara pengalaman dalam mendiagnosis radiolusen periapikal dan
kinerja dapat dilihat pada Gambar 3, di mana ahli bedah OMF telah dibagi menjadi tiga
yang kira-kira berukuran sama kelompok (≤4 tahun, 4-8 tahun, dan ≥8 tahun). Kinerja
rata-rata di dalam plot menunjukkan bahwa ada tidak ada efek signifikan pada PPV atau
TPR karena pengalaman.

Halaman 7
Diagnostik 2020 , 10, 430 7 dari 21

Tabel 2. Metrik kinerja untuk setiap ahli bedah OMF, berdasarkan penilaian mereka
terhadap 102 radiografi gambar (2248 gambar dibaca total) dan respons survei.
Label kolom: A: Pengalaman bertahun-tahun menganalisis gambar radiografi
panoramik (dibagi menjadi tiga kira-kira kelompok berukuran sama); B: waktu rata-rata
yang dihabiskan per gambar (detik); C: jam kerja sebelum tugas. Ketidakpastian 1σ di
PPV dan TPR dari masing-masing dokter gigi berkisar antara 0,03-0,06.
Gambar 3. Kinerja dikelompokkan berdasarkan pengalaman bertahun-tahun yang
dilaporkan sendiri dalam mendiagnosis panorama radiografi (garis menunjukkan
median, kotak membentang kuartil pertama dan ketiga dan pagar membentang total)
jarak). Kelompok berisi masing-masing 9 (≤4 tahun), 6 (4-8 tahun), dan 9 (≥8 tahun)
ahli bedah OMF.

Halaman 8
Diagnostik 2020 , 10, 430 8 dari 21

3.2. Kinerja Algoritma Pembelajaran yang Mendalam

Perbandingan kinerja model dan 24 ahli bedah OMF dalam


hal skor F 1 ditunjukkan pada Gambar 4. Dalam hal metrik ini, kami menemukan
bahwa model ini mengungguli 14 dari 24 ahli bedah OMF (58% dari ahli bedah OMF)
pada ambang kepercayaan berkinerja terbaik dari 0,25, ditentukan dengan menggunakan
set data validasi. Model ini menghasilkan sebuah AP 0,60 (± 0,04) dan F 1 skor 0,58 (±
0,04) yang sesuai ke PPV 0,67 (± 0,05) dan TPR 0,51 (± 0,05), di mana kesalahan
standar dalam kurung ditentukan menggunakan analisis jackknife. Hasil kinerja ini
konsisten dengan PPV rata-rata dan TPR diukur untuk kohort dari 24 ahli bedah OMF.

Gambar 4. Perbandingan 24 ahli bedah OMF dan prediksi model dalam


hal skor F 1 pada pengujian Himpunan data. Ambang model dipilih
sehingga skor F 1 dimaksimalkan pada data validasi set. Kesalahan standar (kumis dan
pita ketidakpastian) dihitung melalui analisis jackknife.

Kinerja model (PPV sebagai fungsi TPR, juga dikenal sebagai presisi-recall
kurva) ditunjukkan pada Gambar 5, dan dibandingkan dengan kinerja benchmark dari
24 ahli bedah OMF. Kurva dan pita kesalahan standar ditentukan dengan memetakan
secara parametrik PPV dan TPR sebagai fungsi dari ambang batas kepercayaan. Secara
khusus, ketika ambang kepercayaan menghilang, PPV menghilang tetapi TPR mencapai
nilai maksimum sekitar 0,9. Di sisi lain, sebagai ambang kepercayaan mendekati
persatuan, PPV mendekati persatuan, tetapi dengan biaya TPR berkurang. Ambang
batas optimal ditentukan oleh pengguna, dan tergantung pada faktor-faktor eksternal
seperti kesehatan relative risiko dan biaya yang terkait dengan kelebihan kasus FP
versus kelebihan kasus FN. Dari catatan,
model melebihi kinerja sekitar setengah dari 24 ahli bedah OMF (yaitu, mereka yang
menunjukkan PPV dan TPR di bawah dan di sebelah kiri kurva model pada Gambar 5)
dalam hal itu untuk OMF ini ahli bedah selalu ada ambang kepercayaan di mana model
menunjukkan kinerja yang lebih baik di baik PPV dan TPR.

Korelasi antara model dan kelompok peringkat skor kepercayaan dokter bedah
OMF adalah ditunjukkan secara terpisah pada Gambar 6 untuk kasus kondisi positif
(kehadiran radiolusen periapikal) dan kasus-kasus kondisi negatif (tidak adanya
radiolusen periapikal) yang diidentifikasi oleh kohort OMF ahli bedah. Untuk kasus
kondisi positif, korelasi Spearman adalah 0,72 (p-value: <0,001), sedangkan untuk
kasus kondisi negatif, korelasi Spearman adalah 0,34 (p-value: <0,001). Yang positif
korelasi menunjukkan bahwa model skor kepercayaan cenderung meningkat secara
monoton dengan kohort

Halaman 9
Diagnostik 2020 , 10, 430 9 dari 21

skor kepercayaan diri. Menariknya, korelasi ini tampak secara signifikan lebih kuat
untuk kondisi positif kasus dibandingkan dengan kasus kondisi negatif. Korelasi yang
kuat dalam yang pertama menunjukkan bahwa keduanya model dan kohort ahli bedah
OMF menemukan jenis yang sama dari perubahan periapikal radiolusen mudah atau
sulit dideteksi. Namun, korelasi yang lebih lemah pada yang terakhir menunjukkan
lebih besar saling melengkapi antara model dan kohort untuk kasus kondisi negatif.
Gambar 5. Perbandingan 24 ahli bedah OMF dan kinerja model pada set data
uji. Kesalahan standar (Kumis), dihitung melalui analisis
jackknife. Kurva skor F 1 konstan sama dengan 0,58 yang ditunjukkan adalah
digunakan untuk membandingkan hasil kinerja pada Gambar 3 .
Gambar 6. Perbandingan peringkat skor kepercayaan untuk kasus kondisi positif (kiri)
dan negative kondisi case (kanan) yang diproduksi oleh model (sumbu berlabel Deep
Learning Model) dan kohort OMF ahli bedah (sumbu berlabel Cohort dari ahli bedah
OMF). Wilayah minat yang paling banyak dinilai (paling sedikit) kemungkinan menjadi
perubahan periapikal radiolusen memiliki peringkat tertinggi (terendah).

Halaman 10
Diagnostik 2020 , 10, 430 10 dari 21

4. Diskusi

Sementara kemajuan dalam radiografi digital telah menjadi fokus utama


penelitian medis baru-baru ini tahun, fokus yang sama kurang dalam kedokteran
gigi. Meskipun ahli bedah OMF secara rutin membaca radiografi panoramik dalam
praktek, penelitian kami menunjukkan bahwa kemampuan ahli bedah OMF untuk
mengidentifikasi radiolusen periapikal dalam radiografi panoramik mungkin
terbatas. Secara khusus, hasilnya menyarankan bahwa perubahan periapikal radiolusen
mungkin terlewatkan, menyebabkan hasil pasien yang lebih buruk atau masuk
mortalitas kasus terburuk dalam keadaan darurat dan secara total mengekspos ahli
bedah OMF terhadap tanggung jawab yang signifikan.
Berdasarkan temuan ini, kami mengembangkan algoritma pembelajaran mesin
untuk identifikasi periapikal
radiolusen yang tidak hanya berkinerja lebih baik daripada setengah dari ahli bedah
OMF berpengalaman dibandingkan
ditentang oleh beberapa metrik, tetapi dapat berfungsi sebagai alat pelengkap dalam
membuat diagnosis ini juga berfungsi sebagai dasar untuk radiolusen periapikal yang
lebih komprehensif dan otomatis alat deteksi di masa depan.
Hasil kami sangat cocok dengan studi yang baru-baru ini diterbitkan yang melaporkan
algoritma untuk mendeteksi radiolusen apikal dalam radiografi gigi panoramik untuk
perawatan endodontik [33] dengan TPR dari 0,65 (± 0,12) dan PPV 0,49 (±
0,10). Kelompok studi ini memilih pendekatan yang berbeda dengan mengevaluasi
algoritma pada dataset berlabel berdasarkan perjanjian interrater dari enam dokter
gigi. Karena itu hasilnya mungkin kurang dapat diandalkan daripada metodologi kami,
yang mencakup pemeriksaan silang klinis dari yang berlabel perubahan periapikal
radiolusen untuk menegakkan kebenaran dasar. Selanjutnya, dalam penelitian itu [33],
gambar diberi label oleh dokter gigi yang umumnya menggunakan gambar radiografi
periapikal untuk endodontic perawatan daripada radiografi panoramik, yang selanjutnya
dapat membatasi keandalannya. Khususnya, final evaluasi kinerja model pada set data
uji penahan (yaitu, set data yang tidak tersentuh sampai setelahnya proses pelatihan,
penyetelan hyperparameter dan pemilihan model) belum dilakukan membuat hasilnya
rentan terhadap overfitting pada set data validasi.

Meskipun hasil kami menjanjikan, masih ada beberapa batasan untuk penelitian
ini. Pertama, algoritma kami dilatih tentang data yang dilabeli oleh ahli bedah OMF
berdasarkan pembacaan radiografi yang bertentangan dengan klinis pengujian. Sebagai
konsekuensinya, algoritma kami dapat mencerminkan keterbatasan dan bias yang
melekat dari OMF tersebut ahli bedah. Keterbatasan dan bias semacam itu, jika
dipelajari oleh algoritma kami, akan tercermin dalam degradasi kinerja pada set data
pengujian. Penting untuk dicatat bahwa masalah seperti itu tidak membatalkan
penelitian kami sejak set tes diberi label berdasarkan hasil tes klinis. Namun, dengan
mengatasi masalah tersebut, kinerja yang lebih baik dapat dicapai. Meskipun tergoda
untuk menganggap bahwa set data pelatihan diberi label oleh
banyak pembaca akan memperbaiki situasi, ini mungkin tidak terjadi jika keterbatasan
dan bias para pembaca itu berkorelasi. Korelasi yang kuat ditemukan antara peringkat
skor kepercayaan kami model dan yang disimpulkan dari kohort dari 24 ahli bedah
OMF yang membaca radiografi yang sama menunjukkan bahwa mungkin memang ada
kesamaan antara driver untuk kesalahan diagnosis antara model dan kohort, yang perlu
eksplorasi lebih lanjut (misalnya, dengan mempelajari kinerja model dan OMF kohort
ahli bedah pada subpopulasi, idealnya dari kumpulan data tes yang jauh lebih
besar). Pemahaman yang lebih baik tentang driver ini, apakah mereka terkait dengan
kualitas gambar, aspek inheren periapikal radiolusen perubahan (misalnya, tingkat
perkembangan) atau perbedaan pendidikan, dapat lebih baik menginformasikan
pengumpulan data proses pelatihan model. Penting untuk dicatat, bagaimanapun, bahwa
bahkan dengan klinis atau histologis label data pelatihan yang divalidasi, masalah
tersebut dapat tetap ada.

Kedua, meskipun kami mengevaluasi model kami menggunakan label yang


divalidasi secara klinis untuk membangun landasan kebenaran, masih ada potensi untuk
salah label karena tes klinis seperti itu dapat disalahtafsirkan
dan dalam kasus kami dilakukan oleh satu ahli bedah OMF yang berpengalaman. Ini
dapat dikontrol, misalnya, dengan melakukan beberapa uji klinis pada pasien yang sama
dengan beberapa ahli bedah OMF, meskipun ini akan menjadi upaya yang mahal untuk
ahli bedah OMF dan pasien. Meskipun ada keterbatasan ini, kami percaya
menggunakan label berdasarkan uji klinis tetap lebih baik daripada alternatif umum
untuk pelabelan, seperti perjanjian antar pengamat, yang memiliki bias dan keterbatasan
yang melekat.

Halaman 11
Diagnostik 2020 , 10, 430 11 dari 21

Akhirnya, meskipun kami telah menguji algoritme kami pada kumpulan data
independen dengan 102 gambar label divalidasi secara klinis, tes lebih lanjut akan
diperlukan untuk menunjukkan generalisasi dari model kami untuk data dikumpulkan
dari situs lain. Perhatian di sini, sekali lagi, berpusat pada bias yang dapat dipelajari data
pelatihan yang dikumpulkan dari satu sumber (misalnya, jika praktik pencitraan berbeda
berdasarkan institusi atau jika populasi pasien berbeda). Dalam studi selanjutnya,
pelatihan yang dikumpulkan dari berbagai lokasi kemungkinan akan dilakukan
mengarah pada kekokohan algoritma yang lebih besar di seluruh situs.

Secara umum, tantangan utama untuk aplikasi ML dalam radiologi tetap tentang
bagaimana mencapai a tingkat kinerja manusia super. Dalam pekerjaan ini, mencapai
tingkat kinerja seperti itu akan dibutuhkan satu set data pelatihan berlabel yang lebih
besar, berkualitas lebih tinggi. Literatur telah menunjukkan bahwa kinerja seperti itu
mungkin dimungkinkan dengan meningkatkan ukuran dataset kami 10 hingga 100 kali
lipat dan melalui beberapa pelabelan yang sama data pelatihan yang ditetapkan oleh
annotator yang berbeda atau dengan memperoleh secara klinis, jika mungkin, bahkan
secara histologis, label yang divalidasi untuk kumpulan data pelatihan [38, 39] Namun,
strategi-strategi ini akan datang pada signifikan biaya karena sumber daya manusia-ahli
yang dibutuhkan. Penting untuk dicatat, bagaimanapun, bahwa histologis diagnosis juga
memiliki keterbatasan. Meskipun dalam hal ini PPV diharapkan menjadi 1,0 (semua
contoh kasus didiagnosis sebagai positif adalah positif), TPR mungkin akan tetap
kurang dari 1.0, karena dokter gigi / OMF ahli bedah harus membuat keputusan tentang
apakah akan melakukan diagnosa histologis atau tidak. Bukti a perubahan periapikal
radiolusen tidak harus menyebabkan ekstraksi gigi untuk mendapatkan sampel jaringan
untuk analisis histologis. Tanpa beberapa prompt untuk mengambil tes yang diperlukan
(misalnya, karena a indikasi yang terlewatkan pada radiograf atau tidak ada laporan
nyeri), lesi mungkin masih terlewatkan. Karena ini, kami melihat nilai dalam
menawarkan solusi algoritmik untuk meningkatkan kemungkinan menarik perhatian
potensi lesi dalam radiografi, mendorong dokter gigi / ahli bedah OMF untuk
melakukan tes lebih lanjut.

Pertanyaannya tetap mengapa pandangan panorama digunakan untuk


mendiagnosis radiolusen periapical alih-alih, misalnya, radiografi periapikal dalam
penelitian ini. Perubahan periapikal radiolusen bisa dideteksi dengan beberapa
modalitas gambar yang berbeda, dengan radiograf periapikal menjadi standar untuk
radiografi endodontik. Namun, modalitas ini hanya menampilkan satu atau beberapa
gigi, dan kapan diukur terhadap standar emas (yaitu, dalam mayat atau studi histologis)
itu menunjukkan diskriminasi rendah kinerja [40] Cone-beam computed tomography
(CBCT) adalah modalitas gambar 3D yang telah ditampilkan kinerja diskriminatif
terbaik [41] Namun demikian, penggunaannya terbatas karena biaya tinggi dan dosis
radiasi terkait. Radiografi panoramik di sisi lain memiliki diagnostik yang baik secara
keseluruhan kemampuan diskriminatif dan memungkinkan penilaian seluruh gigi
ditambah tulang sekitarnya struktur, sementara membutuhkan dosis radiasi yang jauh
lebih rendah dibandingkan dengan pencitraan CBCT [33- 35] Di sini, banyak praktik
gigi umum serta ahli bedah OMF memilih untuk menggunakan radiografi panoramic
karena manfaat ini [33]

Kecerdasan buatan memiliki potensi untuk meningkatkan hasil klinis dan


selanjutnya meningkatkan nilai pencitraan medis dengan cara yang berada di luar
imajinasi kita. Terutama dalam pencitraan medis, AI bergerak cepat dari fase percobaan
ke fase implementasi. Mengingat kemajuan besar dalam pengenalan gambar melalui
pembelajaran yang mendalam, menggoda untuk mengasumsikan bahwa peran ahli
radiologi akan melakukannya segera berkurang. Namun, gagasan ini mengabaikan
batasan peraturan yang ditempatkan pada penggunaan AI dalam pengaturan
klinis. Misalnya, FDA dan Komite Kesesuaian Eropa (CE) saat ini hanya izinkan
perangkat lunak seperti itu sebagai alat bantu. Pekerjaan rumit ahli radiologi mencakup
banyak hal tugas-tugas lain yang membutuhkan akal sehat dan kecerdasan umum,
dengan mengintegrasikan konsep medis dari berbagai spesialisasi klinis dan bidang
ilmiah yang belum dapat dicapai melalui AI.
Selain hambatan regulasi, dampak AI dalam kedokteran gigi dan spesialisasi
lainnya akan tergantung pada interaksi manusia-mesin. Pertanyaan tetap sekitar
seberapa besar kemungkinan seorang ahli akan mengambil saran dari suatu algoritma
dan melakukan tes lebih lanjut. Bagaimana penyajian prediksi AI berdampak pada
respons ahli? Apakah pasien akan mempercayai algoritma seperti itu? Bagaimana
jawaban untuk ini pertanyaan bervariasi menurut budaya atau dengan waktu seiring
kepercayaan pada AI tumbuh? Kami tidak berusaha untuk melakukannya menjawab
pertanyaan seperti itu dalam penelitian ini, tetapi memahami masalah ini akan menjadi
penting untuk masa depan AI dalam pencitraan medis.
Halaman 12
Diagnostik 2020 , 10, 430 12 dari 21

5. Kesimpulan

Dalam studi ini, kami telah menunjukkan bahwa model pembelajaran yang
mendalam dilatih pada set data kurasi 2902 gambar radiografi yang tidak diidentifikasi,
dapat menyamai kinerja esehatan rata-rata dari 24 ahli bedah OMF dalam tugas
mendeteksi perubahan radiolusen esehata. PPV rata-rata untuk ahli bedah OMF adalah
0,69 (± 0,13), dan TPR rata-rata adalah 0,51 (± 0,14) pada set data uji penahan 102
radiograf. Dengan perbandingan, mean PPV untuk model itu 0,67 (± 0,05) dan mean
TPR adalah 0,51 (± 0,05), sesuai dengan F 1 skor 0,58 (± 0,04). AP untuk model adalah
0,60 (± 0,14). Korelasi peringkat antara model dan skor kepercayaan kelompok untuk
kasus kondisi positif dan esehata masing-masing adalah 0,72 dan 0,34.
AI eseha menjadi eseh berharga bagi para esehatan l di bidang perawatan
esehatan. Meski lebih jauh diperlukan penelitian untuk menjawab berbagai pertanyaan
terbuka yang tersisa; pekerjaan kami memberikan harapan esehat pertama menuju
mewujudkan alat bantu berbasis ML dalam kedokteran gigi yang kompetitif dengan
OMF ahli bedah dalam mendeteksi perubahan esehatan radiolusen berdasarkan
penilaian visual radiografi. Sebagai peran AI dalam perawatan esehatan menjadi lebih
menonjol, kami optimis bahwa organisasi perawatan Kesehatan akan menyesuaikan
praktik pengumpulan data mereka agar lebih selaras dengan kebutuhan ML, yang pada
akhirnya akan menghapus jalur untuk pembelajaran online (model yang terus belajar
dan meningkatkan) serta pengembangan model data-menyatu yang menggabungkan
radiografi dengan data pasien lainnya untuk menghasilkan sangat diagnosis yang dapat
diandalkan.

Kontribusi Penulis: RAG; kontribusi substansial pada konsepsi atau desain pekerjaan


dan akuisisi, analisis dan interpretasi data untuk pekerjaan. Merancang
pekerjaan. Penulis setuju untuk itu bertanggung jawab untuk semua aspek pekerjaan
dalam memastikan bahwa pertanyaan terkait dengan keakuratan atau integritas bagian
mana pun dari pekerjaan itu diselidiki dengan tepat dan diselesaikan atau merevisinya
secara kritis untuk konten intelektual yang penting; persetujuan akhir dari versi yang
akan diterbitkan; dan persetujuan untuk bertanggung jawab atas semua aspek pekerjaan
di Indonesia memastikan bahwa pertanyaan yang terkait dengan keakuratan atau
integritas bagian mana pun dari pekerjaan diselidiki dengan tepat dan
diselesaikan. MGE; kontribusi substansial pada konsepsi atau desain pekerjaan dan
akuisisi, analisis dan interpretasi data untuk pekerjaan. Merancang pekerjaan. Revisi
kritis untuk intelektual penting konten dan persetujuan final dari versi yang akan
diterbitkan. FH; kontribusi substansial pada konsepsi atau desain pekerjaan dan akuisisi,
analisis, dan interpretasi data untuk pekerjaan tersebut. Merancang pekerjaan. MS;
kontribusi substansial perolehan dan interpretasi data untuk pekerjaan. BB-
B .; kontribusi besar perolehan dan interpretasi data untuk pekerjaan. CR; kontribusi
substansial untuk akuisisi dan interpretasi data untuk pekerjaan. SMN; kontribusi
substansial untuk perolehan dan interpretasi data untuk pekerjaan. OQ; kontribusi untuk
akuisisi data. Revisi kritis untuk konten intelektual penting dan persetujuan final dari
versi yang akan diterbitkan. HH; kontribusi untuk akuisisi data. Revisi kritis untuk
konten intelektual penting dan persetujuan akhir dari versi yang akan
diterbitkan. RS; kontribusi ke data Akuisisi. Revisi kritis untuk konten intelektual
penting dan persetujuan final dari versi yang akan diterbitkan. MH; revisi kritis untuk
konten intelektual penting dan persetujuan final dari versi yang akan diterbitkan. KL;
revisi kritis untuk konten intelektual penting dan persetujuan final dari versi yang akan
diterbitkan. ARS; kritis revisi untuk konten intelektual penting dan persetujuan final
dari versi yang akan diterbitkan. Semua penulis telah membaca dan menyetujui versi
manuskrip yang diterbitkan.

Pendanaan: MGE didanai oleh Yayasan Keluarga Eric dan Wendy Schmidt.

Ucapan Terima Kasih: Penulis ingin mengucapkan terima kasih kepada 24 dokter gigi
yang berpartisipasi dalam penelitian ini, juga Neil Thompson, dan Eva Guinan, untuk
membaca naskah dengan cermat dan umpan balik mereka.

Benturan Kepentingan: FH adalah direktur perusahaan yang mengembangkan


algoritma dalam kedokteran gigi. KL ada di
jajaran direktur. Sisa penulis, RAG, MGE, MH, OQ, RS, SMN, ARS, BBB, CR, MS
dan HH, nyatakan tidak ada potensi konflik kepentingan.

Halaman 13
Diagnostik 2020 , 10, 430 13 dari 21

Lampiran A.
Lampiran A.1. Bahan dan metode
Lampiran A.1.1. Model
Kami membingkai tugas sebagai masalah klasifikasi padat, di mana setiap piksel dalam
gambar itu ditentukan untuk mengandung perubahan periapikal radiolusen (positif) atau
tidak (negatif). Kami menggunakan model arsitektur berdasarkan U-Net [37] dengan
lapisan konvolusional padding yang sama, lima tingkat resolusi dan lapisan normalisasi
batch [42] diperkenalkan sebelum setiap lapisan aktivasi (Tabel A1). Penggunaan
arsitektur ini terinspirasi oleh hasil dari kompetisi inovasi terbuka yang diadakan
TopCoder.com, Wipro, Bengaluru, India. Jaringan diterima sebagai input 256 × 512
piksel yang sudah diproses gambar radiografi panoramik di (0,1) 256 × 512 , dan
menampilkan peta intensitas di (0,1) 256 × 512 , di mana piksel intensitas dekat
kesatuan menunjukkan daerah dengan kepercayaan diri tinggi untuk menjadi
positif. Preprocessing melibatkan mengubah ukuran gambar radiografi asli, yang
bervariasi dalam bentuk, ke bentuk referensi (1280 × 2560 piksel), diikuti dengan
pemotongan batas gambar (100 piksel di bagian atas dan bawah)
batas, dan 300 piksel pada batas kiri dan kanan), dan akhirnya mengubah ukuran
gambar yang dipangkas menjadi bentuk target standar 256 × 512 piksel. Pengubahan
ukuran dilakukan menggunakan interpolasi bi-linear. Intensitas piksel gambar kemudian
diskalakan ke interval (0,1).
Model dilatih pada 7/8 set data pelatihan (sisanya 1/8 digunakan untuk validasi,
misalnya, untuk memeriksa overfitting) menggunakan fungsi objektif berdasarkan
fungsi kehilangan dadu [43] dengan augmentasi data, termasuk terjemahan acak dalam
arah horisontal dan vertikal (hingga ± 20 piksel di setiap arah), flips dan rotasi
horizontal (hingga ± 15 derajat). Gambar diperbesar dengan probabilitas satu setengah
setiap kunjungan selama pelatihan. Model itu dilatih menggunakan Adam optimasi [44]
untuk 25 zaman dan dalam kumpulan 10 gambar mini. Tingkat pembelajaran awal
adalah 0,001 dan tingkat pembelajaran kemudian dikurangi menggunakan peluruhan
eksponensial dengan konstanta peluruhan 0,1 / zaman. Model hiperparameter dipilih
berdasarkan kinerja terbaik pada set data validasi. Pelatihan model dilakukan dengan
menggunakan akselerator GPU Nvidia Tesla K80.
Model ensemble kemudian dibuat dengan menggabungkan prediksi 10 model
yang terlatih, di mana masing-masing model dilatih menggunakan hiperparameter
terpilih yang sama dan periode pelatihan seperti dijelaskan sebelumnya. Setiap model
konstituen, bagaimanapun, dilatih pada 10 pilih 9 subset terpisah dari set data pelatihan,
pisahkan secara acak pada tingkat pasien. Peta intensitas ensemble akhirnya diproduksi
dengan mengambil output rata-rata yang dihasilkan oleh 10 model konstituen.

Halaman 14
Diagnostik 2020 , 10, 430 14 dari 21
Legenda: Conv2D: lapisan konvolusional dua dimensi; MaxPool: lapisan max-
pooling; UpConv2D: dua dimensi lapisan transpose-convolutional; Concat (k): saluran
gabungan dengan output dari layer k.

Lampiran A.1.2. Inferensi dan Pasca Pemrosesan

Output dari model ensemble kami diposkan sebelum dievaluasi


(Gambar A1- A4). Filter Gaussian (lebar tiga piksel) pertama kali diterapkan pada peta
intensitas output 256 × 512 piksel menghaluskan segala variasi ultra-lokal; selanjutnya
algoritma penemuan puncak digunakan untuk menentukan semua maxima lokal dan
skor kepercayaan terkait. Yang terakhir didefinisikan sebagai nilai intensitas peta pada
setiap maksimum lokal. Algoritma penemuan puncak melibatkan penerapan maksimum
memfilter ke peta intensitas dengan radius lingkungan empat piksel dan identifikasi
selanjutnya poin (puncak) di mana gambar yang disaring sama dengan gambar
asli. Lingkungan filter maksimum radius dipilih berdasarkan pengamatan bahwa tidak
lebih dari 0,5% dari gambar dalam preprocessed set data pelatihan memiliki jarak
centroid minimum antara lesi kurang dari empat piksel.

Halaman 15
Diagnostik 2020 , 10, 430 15 dari 21

Gambar A1. Contoh 1 dari gambar radiografi panoramik (preprocessed untuk input


model) dipilih dari set data uji dengan overlay kontur kebenaran tanah (Ground Truth),
output intensitas peta diproduksi oleh model kami (Output Model) dan lokasi yang
diproduksi oleh prosedur pasca-pemrosesan kami (Output Diproses). Hanya prediksi
dengan skor kepercayaan lebih dari 0,25 yang ditampilkan sebagai contoh (ambang ini
dipilih untuk memaksimalkan skor F 1 pada set data validasi).

Halaman 16
Diagnostik 2020 , 10, 430 16 dari 21

Gambar A2. Contoh 2; lihat Gambar A1 untuk detailnya.


Halaman 17
Diagnostik 2020 , 10, 430 17 dari 21
Gambar A3. Contoh 3; lihat Gambar A1 untuk detailnya.

Halaman 18
Diagnostik 2020 , 10, 430 18 dari 21
Gambar A4. Contoh 4; lihat Gambar A1 untuk detailnya.

Halaman 19
Diagnostik 2020 , 10, 430 19 dari 21

Lampiran A.1.3. Metrik Evaluasi


Kinerja algoritma kami dinilai dalam hal PPV, TPR, skor F 1 dan AP, yang
dalam gilirannya bergantung pada jumlah true positive (N TP ), false positive (N FP )
dan false negative (N FN ) sebagai fungsi dari ambang batas. Prediksi pada ambang
yang diberikan didefinisikan sebagai bagian dari lokasi puncak yang terdeteksi dalam
peta intensitas output yang memiliki skor kepercayaan lebih besar dari ambang yang
ditentukan. Untuk sebuah diberikan serangkaian prediksi, N TP didefinisikan sebagai
jumlah total wilayah positif yang ada di dalamnya toleransi kesalahan ditentukan
sebagai lessor dari empat piksel (pilihan konservatif berdasarkan jarak antar-akar
tipikal; lihat Gambar A5) atau setengah jarak minimum antara kontur dalam gambar jika
ada beberapa lesi (perhatikan bahwa dengan definisi ini, daerah kesalahan tetangga)
tidak bisa tumpang tindih). Pengenalan toleransi kesalahan seperti itu diperlukan untuk
menjelaskan variabilitas yang melekat dalam interpretasi wilayah yang diminati oleh
ahli bedah OMF yang diproduksi label, mencatat bahwa kontur kebenaran tanah ditarik
dengan ketat. N FN didefinisikan sebagai angka dari wilayah positif yang menarik tanpa
titik kandidat yang terletak di dalam toleransi kesalahan yang ditentukan.
N FP didefinisikan sebagai jumlah total kandidat poin yang terletak pada jarak yang
lebih besar dari toleransi kesalahan yang ditentukan dari setiap wilayah yang diminati.
Gambar A5. Contoh gambar radiografi panoramik yang telah diproses, dipilih dari
kumpulan data uji, dengan overlay kontur kebenaran tanah (solid) dan daerah toleransi
kesalahan empat piksel (putus-putus).

Referensi

1. Perschbacher, S. Interpretation of Panoramic Radiographs. Aust. Dent. J. 2012,


57, 40–45. [CrossRef]
2. Molander, B. Panoramic Radiography in Dental Diagnostics. Swed. Dent. J.
Suppl. 1996, 119, 1–26. [PubMed]
3. Osman, F.; Scully, C.; Dowell, T.B.; Davies, R.M. Use of Panoramic
Radiographs in General Dental Practice in England. Community Dent. Oral
Epidemiol. 1986, 14, 8–9. [CrossRef] [PubMed]
4. Rafferty, E.A.; Park, J.M.; Philpotts, L.E.; Poplack, S.P.; Sumkin, J.H.; Halpern,
E.F.; Niklason, L.T. Assessing Radiologist Performance Using Combined
Digital Mammography and Breast Tomosynthesis Compared with Digital
Mammography Alone: Results of a Multicenter, Multireader Trial. Radiology
2013, 266, 104–113. [CrossRef] [PubMed]
5. Sabarudin, A.; Tiau, Y.J. Image Quality Assessment in Panoramic Dental
Radiography: A Comparative Study between Conventional and Digital Systems.
Quant. Imaging Med. Surg. 2013, 3, 43–48. [CrossRef] [PubMed]
6. Kantor, M.L.; Reiskin, A.B.; Lurie, A.G. A Clinical Comparison of X-Ray
Films for Detection of Proximal Surface Caries. J. Am. Dent. Assoc. 1985, 111,
967–969. [CrossRef]
7. Fitzgerald, R. Error in Radiology. Clin. Radiol. 2001, 56, 938–946. [CrossRef]
8. Brady, A.; Laoide, R.Ó.; McCarthy, P.; McDermott, R. Discrepancy and Error
in Radiology: Concepts, Causes Consequences. Ulster Med. J. 2012, 81, 3–9.

Halaman 20
Diagnostik 2020 , 10, 430 20 dari 21
9. Valizadeh, S.; Goodini, M.; Ehsani, S.; Mohseni, H.; Azimi, F.; Bakhshandeh,
H. Designing of a Computer Software for Detection of Approximal Caries in
Posterior Teeth. Iran. J. Radiol. 2015, 12, e16242. [CrossRef]

10. White, S.C.; Hollender, L.; Gratt, B.M. Comparison of Xeroradiographs and
Film for Detection of Proximal Surface Caries. J. Am. Dent. Assoc. 1984, 108,
755–759. [CrossRef]

11. Fiorellini, J.P.; Howell, T.H.; Cochran, D.; Malmquist, J.; Lilly, L.C.; Spagnoli,
D.; Toljanic, J.; Jones, A.; Nevins, M. Randomized Study Evaluating
Recombinant Human Bone Morphogenetic Protein-2 for Extraction Socket
Augmentation. J. Periodontol. 2005, 76, 605–613. [CrossRef] [PubMed]

12. Yasaka, K.; Abe, O. Deep Learning and Artificial Intelligence in Radiology:
Current Applications and Future Directions. PLoS Med. 2018, 15, e1002707.
[CrossRef] [PubMed]

13. Pesapane, F.; Codari, M.; Sardanelli, F. Artificial Intelligence in Medical


Imaging: Threat or Opportunity? Radiologists Again at the Forefront of
Innovation in Medicine. Eur. Radiol. Exp. 2018, 2, 35. [CrossRef] [PubMed]

14. Nevin, L.; PLoS Medicine Editors. Advancing the Beneficial Use of Machine
Learning in Health Care and Medicine: Toward a Community Understanding.
PLoS Med. 2018, 15, e1002708. [CrossRef]

15. Setio, A.A.A.; Traverso, A.; de Bel, T.; Berens, M.S.N.; van den Bogaard, C.;
Cerello, P.; Chen, H.; Dou, Q.; Fantacci, M.E.; Geurts, B.; et al. Comparison,
and Combination of Algorithms for Automatic Detection of Pulmonary Nodules
in Computed Tomography Images: The LUNA16 Challenge. Med. Image Anal.
2017, 42, 1–13. [CrossRef]

16. Cruz-Roa, A.; Gilmore, H.; Basavanhally, A.; Feldman, M.; Ganesan, S.; Shih,
N.N.C.; Tomaszewski, J.; González, F.A.; Madabhushi, A. Accurate and
Reproducible Invasive Breast Cancer Detection in Whole-Slide Images: A Deep
Learning Approach for Quantifying Tumor Extent. Sci. Rep. 2017, 7, 46450.
[CrossRef]

17. Komura, D.; Ishikawa, S. Machine Learning Methods for Histopathological


Image Analysis. Comput. Struct. Biotechnol. J. 2018, 16, 34–42. [CrossRef]

18. Hou, L.; Samaras, D.; Kurc, T.M.; Gao, Y.; Davis, J.E.; Saltz, J.H. Patch-Based
Convolutional Neural Network for Whole Slide Tissue Image Classification.
Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern Recognit. 2016, 2016,
2424–2433. [CrossRef]

19. Xu, J.; Luo, X.; Wang, G.; Gilmore, H.; Madabhushi, A. A Deep Convolutional
Neural Network for Segmenting and Classifying Epithelial and Stromal Regions
in Histopathological Images. Neurocomputing 2016, 191, 214–223. [CrossRef]

20. Esteva, A.; Kuprel, B.; Novoa, R.A.; Ko, J.; Swetter, S.M.; Blau, H.M.; Thrun,
S. Dermatologist-Level Classification of Skin Cancer with Deep Neural
Networks. Nature 2017, 542, 115–118. [CrossRef]

21. De Fauw, J.; Ledsam, J.R.; Romera-Paredes, B.; Nikolov, S.; Tomasev, N.;
Blackwell, S.; Askham, H.; Glorot, X.; O’Donoghue, B.; Visentin, D.; et al.
Clinically Applicable Deep Learning for Diagnosis and Referral in Retinal
Disease. Nat. Med. 2018, 24, 1342–1350. [CrossRef] [PubMed]

22. Kermany, D.S.; Goldbaum, M.; Cai, W.; Valentim, C.C.S.; Liang, H.; Baxter,
S.L.; McKeown, A.; Yang, G.; Wu, X.; Yan, F.; et al. Identifying Medical
Diagnoses and Treatable Diseases by Image-Based Deep Learning. Cell 2018,
172, 1122–1131. [CrossRef] [PubMed]

23. Nikolov, S.; Blackwell, S.; Mendes, R.; De Fauw, J.; Meyer, C.; Hughes, C.;
Askham, H.; Romera-Paredes, B.; Karthikesalingam, A.; Chu, C.; et al. Deep
Learning to Achieve Clinically Applicable Segmentation of Head and Neck
Anatomy for Radiotherapy. arXiv 2018, arXiv:1809.04430.
24. Wang, C.-W.; Huang, C.-T.; Lee, J.-H.; Li, C.-H.; Chang, S.-W.; Siao, M.-J.;
Lai, T.-M.; Ibragimov, B. ;Vrtovec, T.; Ronneberger, O.; et al. A Benchmark for
Comparison of Dental Radiography Analysis Algorithms. Med. Image Anal.
2016, 31, 63–76. [CrossRef]

25. Wenzel, A.; Hintze, H.; Kold, L.M.; Kold, S. Accuracy of Computer-Automated
Caries Detection in Digital Radiographs Compared with Human Observers. Eur.
J. Oral Sci. 2002, 110, 199–203.[CrossRef]

26. Wenzel, A. Computer–Automated Caries Detection in Digital Bitewings:


Consistency of a Program and Its Influence on Observer Agreement. Caries Res.
2001, 35, 12–20. [CrossRef]

27. Murata, S.; Lee, C.; Tanikawa, C.; Date, S. Towards a Fully Automated
Diagnostic System for Orthodontic Treatment in Dentistry. In Proceedings of the
2017 IEEE 13th International Conference on e-Science (e-Science), Auckland,
New Zealand, 24–27 October 2017; pp. 1–8. [CrossRef]

28. Behere, R.; Lele, S. Reliability of Logicon Caries Detector in the Detection and
Depth Assessment of Dental Caries: An in-Vitro Study. Indian J. Dent. Res.
2011, 22, 362. [CrossRef]

Halaman 21
Diagnostik 2020 , 10, 430 21 dari 21

29. Cachovan, G.; Phark, J.-H.; Schön, G.; Pohlenz, P.; Platzer, U. Odontogenic
Infections: An 8-Year Epidemiologic Analysis in a Dental Emergency
Outpatient Care Unit. Acta Odontol. Scand. 2013, 71, 518–524. [CrossRef]

30. Kirkevang, L.L.; Ørstavik, D.; Hörsted-Bindslev, P.; Wenzel, A. Periapical


Status and Quality of Root Fillings and Coronal Restorations in a Danish
Population. Int. Endod. J. 2000, 33, 509–515. [CrossRef]
31. Lupi-Pegurier, L.; Bertrand, M.-F.; Muller-Bolla, M.; Rocca, J.P.; Bolla, M.
Periapical Status, Prevalence and Quality of Endodontic Treatment in an Adult
French Population. Int. Endod. J. 2002, 35, 690–697. [CrossRef]

32. Chapman, M.N.; Nadgir, R.N.; Akman, A.S.; Saito, N.; Sekiya, K.; Kaneda, T.;
Sakai, O. Periapical Lucency around the Tooth: Radiologic Evaluation and
Differential Diagnosis. RadioGraphics 2013, 33, E15–E32. [CrossRef]
[PubMed]

33. Ekert, T.; Krois, J.; Meinhold, L.; Elhennawy, K.; Emara, R.; Golla, T.;
Schwendicke, F. Deep Learning for the Radiographic Detection of Apical
Lesions. J. Endod. 2019, 45, 917–922.e5. [CrossRef] [PubMed]

34. Nardi, C.; Calistri, L.; Pradella, S.; Desideri, I.; Lorini, C.; Colagrande, S.
Accuracy of Orthopantomography for Apical Periodontitis without Endodontic
Treatment. J. Endod. 2017, 43, 1640–1646. [CrossRef] [PubMed]

35. Nardi, C.; Calistri, L.; Grazzini, G.; Desideri, I.; Lorini, C.; Occhipinti, M.;
Mungai, F.; Colagrande, S. Is Panoramic Radiography an Accurate Imaging
Technique for the Detection of Endodontically Treated Asymptomatic Apical
Periodontitis? J. Endod. 2018, 44, 1500–1508. [CrossRef]

36. Choi, B.R.; Choi, D.H.; Huh, K.H.; Yi, W.J.; Heo, M.S.; Choi, S.C.; Bae, K.H.;
Lee, S.S. Clinical Image Quality Evaluation for Panoramic Radiography in
Korean Dental Clinics. Imaging Sci. Dent. 2012, 42, 183–190. [CrossRef]

37. Ronneberger, O.; Fischer, P.; Brox, T. U-Net: Convolutional Networks for
Biomedical Image Segmentation. arXiv 2015, arXiv:1505.04597.

38. Langlotz, C.P.; Allen, B.; Erickson, B.J.; Kalpathy-Cramer, J.; Bigelow, K.;
Cook, T.S.; Flanders, A.E.; Lungren, M.P.; Mendelson, D.S.; Rudie, J.D.; et al.
A Roadmap for Foundational Research on Artificial Intelligence in Medical
Imaging: From the 2018 NIH/RSNA/ACR/The Academy Workshop. Radiology
2019, 291, 781–791. [CrossRef]
39. Haenssle, H.A.; Fink, C.; Schneiderbauer, R.; Toberer, F.; Buhl, T.; Blum, A.;
Kalloo, A.; Hassen, A.B.H.; Thomas, L.; Enk, A.; et al. Reader study level-I and
level-II Groups. Man against Machine: Diagnostic Performance of a Deep
Learning Convolutional Neural Network for Dermoscopic Melanoma
Recognition in Comparison to 58 Dermatologists. Ann. Oncol. Off. J. Eur. Soc.
Med. Oncol. 2018, 29, 1836–1842. [CrossRef]

40. Kanagasingam, S.; Hussaini, H.M.; Soo, I.; Baharin, S.; Ashar, A.; Patel, S.
Accuracy of Single and Parallax Film and Digital Periapical Radiographs in
Diagnosing Apical Periodontitis—A Cadaver Study. Int. Endod. J. 2017, 50,
427–436. [CrossRef]

41. Leonardi Dutra, K.; Haas, L.; Porporatti, A.L.; Flores-Mir, C.; Nascimento
Santos, J.; Mezzomo, L.A.; Corrêa, M.; De Luca Canto, G. Diagnostic Accuracy
of Cone-Beam Computed Tomography and Conventional Radiography on
Apical Periodontitis: A Systematic Review and Meta-Analysis. J. Endod. 2016,
42, 356–364. [CrossRef]

42. Ioffe, S.; Szegedy, C. Batch Normalization: Accelerating Deep Network


Training by Reducing Internal Covariate Shift. arXiv 2015, arXiv:1502.03167.

43. Milletari, F.; Navab, N.; Ahmadi, S.A. V-Net: Fully Convolutional Neural
Networks for Volumetric Medical Image Segmentation. arXiv 2016,
arXiv:1606.04797.

44. Kingma, D.P.; Adam, B.A. A Method for Stochastic Optimization. arXiv 2014,
arXiv:1412.6980.

Anda mungkin juga menyukai