Anda di halaman 1dari 13

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com
PENELITIAN ASLI•GAMBAR TORAK

Alat AI Radiograf Dada yang Tersedia Secara Komersial


untuk Mendeteksi Penyakit Wilayah Udara, Pneumotoraks,
dan Efusi Pleura

Louis Lind Plesner, MD • Felix C. Müller, MD, PhD • Mathias W. Brejnebøl, MD • Lene C. Laustrup, MD • Finn
Rasmussen, MD, DMSc • Olav W. Nielsen, MD, PhD • Mikael Boesen, MD, PhD* •
Michael Brun Andersen, MD, PhD*

Dari Departemen Radiologi, Rumah Sakit Herlev dan Gentofte, Borgmester Ib, Juuls vej 1 Herlev, Copenhagen 2730, Denmark (LLP, FCM, MWB, LCL, MBA); Fakultas
Ilmu Kesehatan, Universitas Kopenhagen, Kopenhagen, Denmark (LLP, MWB, OWN, MB, MBA); Pusat Tes Kecerdasan Buatan Radiologi, RAIT. dk, Wilayah Ibu Kota
Denmark (LLP, FCM, MWB, MB, MBA); Departemen Radiologi (MWB, MB) dan Kardiologi (OWN), Rumah Sakit Bispebjerg dan Frederiksberg, Kopenhagen,
Denmark; dan Departemen Radiologi, Rumah Sakit Universitas Aarhus, Aarhus, Denmark (FR). Diterima 17 Mei 2023; revisi diminta 27 Juni; revisi diterima 1
Agustus; diterima 14 Agustus.Alamat korespondensi keLLP (email:louislindplesner@gmail.com).

Penelitian ini didukung oleh dana penelitian dari pemerintah Denmark (Project SmartChest, jr. nr 2020–6718). LLP, FCM, MWB, MB, MBA didukung oleh pendanaan dari hibah AI
Signature (SmartChest) dari pemerintah Denmark, yang mencakup gaji PhD yang terkait dengan studi dan pertemuan dan/atau dukungan perjalanan. FCM didukung oleh hibah
dari Badan Digitalisasi (Digitaliseringsstyrelsen) dan Innovation Fund Denmark, Capitol Region of Denmark.

* MB dan MBA adalah rekan penulis senior.

Konflik kepentingan dicantumkan di akhir artikel ini. Lihat juga

editorial Yanagawa dan Tomiyama dalam terbitan ini.

Radiologi 2023; 308(3):e231236•https://doi.org/10.1148/radiol.231236•Kode konten:

Latar belakang:Alat kecerdasan buatan (AI) yang tersedia secara komersial dapat membantu ahli radiologi dalam menafsirkan radiografi dada, namun keakuratan
diagnostiknya di kehidupan nyata masih belum jelas.

Tujuan:Untuk mengevaluasi keakuratan diagnostik dari empat alat AI yang tersedia secara komersial untuk mendeteksi penyakit wilayah udara, pneumotoraks, dan
efusi pleura pada radiografi dada.

Bahan dan metode:Penelitian retrospektif ini melibatkan pasien dewasa berturut-turut yang menjalani radiografi dada di salah satu dari empat rumah
sakit di Denmark pada bulan Januari 2020. Dua ahli radiologi toraks (atau tiga, jika terjadi perselisihan) yang memiliki akses ke semua pencitraan
sebelumnya dan masa depan memberi label radiografi dada secara independen sebagai standar referensi. . Area di bawah kurva karakteristik operasi
penerima, sensitivitas, dan spesifisitas dihitung. Sensitivitas dan spesifisitas juga dikelompokkan berdasarkan tingkat keparahan temuan, jumlah
temuan pada radiografi dada, dan proyeksi radiografi. χ2dan tes McNemar digunakan untuk perbandingan.

Hasil:Kumpulan data terdiri dari 2.040 pasien (usia rata-rata, 72 tahun [IQR, 58-81 tahun]; 1.033 perempuan), di antaranya 669 (32,8%) memiliki target
temuan. Alat AI menunjukkan area di bawah kurva karakteristik operasi penerima yang berkisar antara 0,83–0,88 untuk penyakit wilayah udara, 0,89–
0,97 untuk pneumotoraks, dan 0,94–0,97 untuk efusi pleura. Sensitivitas berkisar 72%–91% untuk penyakit wilayah udara, 63%–90% untuk pneumotoraks,
dan 62%–95% untuk efusi pleura. Nilai prediksi negatif berkisar 92%–100% untuk semua temuan target. Pada penyakit wilayah udara, pneumotoraks, dan
efusi pleura, spesifisitasnya tinggi untuk radiografi dada dengan temuan normal atau tunggal (masing-masing berkisar 85%–96%, 99%–100%, dan 95%–
100%) dan jauh lebih rendah untuk radiografi dada. radiografi dengan empat temuan atau lebih (kisaran, masing-masing 27%–69%, 96%–99%, 65%–92%)
(P< .001). Sensitivitas AI lebih rendah untuk penyakit wilayah udara samar (kisaran, 33%–61%) dan pneumotoraks kecil atau efusi pleura (kisaran, 9%–
94%) dibandingkan dengan temuan yang lebih besar (kisaran, 81%–100%;P rentang nilai, > 0,99 hingga < 0,001).

Kesimpulan:Alat AI generasi saat ini menunjukkan sensitivitas sedang hingga tinggi untuk mendeteksi penyakit wilayah udara, pneumotoraks, dan efusi pleura pada
radiografi dada. Namun, laporan tersebut menghasilkan lebih banyak temuan positif palsu dibandingkan laporan radiologi, dan kinerjanya menurun untuk temuan
target berukuran lebih kecil dan ketika terdapat banyak temuan.

© RSNA, 2023

Materi tambahan tersedia untuk artikel ini.

C Radiografi terbaik adalah alat diagnostik yang umum, namun pelatihan

dan pengalaman yang signifikan diperlukan untuk menafsirkan

pemeriksaan dengan benar (1-3). Dalam beberapa tahun terakhir, kecerdasan


pengembangan alat AI yang dapat membantu ahli radiologi dalam
diagnosis, segmentasi, dan triase daftar kerja, beberapa di antaranya
telah mendapat persetujuan peraturan dan kini tersedia secara
buatan (AI) telah menunjukkan kemahiran dalam tugas klasifikasi gambar komersial (5). Studi pengamat retrospektif yang menggunakan
menggunakan pembelajaran mendalam yang diawasi dengan jaringan saraf penilaian AI pada radiografi dada sebagai alat pendukung pengambilan
konvolusional. Karena meluasnya penggunaan radiografi dada untuk keputusan untuk pembaca manusia telah menunjukkan peningkatan
pengambilan keputusan dalam banyak skenario klinis dan ketersediaan kinerja pembaca, terutama bagi pembaca yang kurang berpengalaman
kumpulan data pelatihan yang besar bagi publik, banyak penelitian telah (6). Namun, penggunaan klinis alat AI berbasis pembelajaran
menyelidiki kemampuan model AI berbasis pembelajaran mendalam untuk mendalam untuk diagnosis radiologi masih dalam tahap awal (5) dan,
melaksanakan berbagai tugas dalam analisis radiografi dada. (4). Hal ini telah meskipun studi kasus-kontrol telah dilakukan, studi sampel berturut-
menyebabkan turut masih kurang (7). Hal ini jelas bahwa

Salinan ini hanya untuk penggunaan pribadi. Untuk memesan salinan, hubungicetak ulang@rsna.org
Alat AI Radiografi Dada yang Tersedia Secara Komersial untuk Mendeteksi Penyakit Toraks

di rumah sakit yang disertakan, atau berasal dari pasien


Singkatan duplikat dikeluarkan. Diperkirakan bahwa setiap temuan target
AI = kecerdasan buatan
akan diwakili dengan minimal 75 kasus (lihat Analisis Statistik
Ringkasan
untuk ukuran sampel) dalam sampel berturut-turut sebanyak
Empat alat kecerdasan buatan radiografi dada komersial mendeteksi penyakit wilayah
2000 radiografi dada. Namun, pengayaan kasus dilakukan
udara, pneumotoraks, dan efusi pleura dengan sensitivitas sedang hingga tinggi, untuk pneumotoraks karena rendahnya prevalensi temuan ini,
namun memiliki lebih banyak temuan positif palsu dibandingkan laporan radiologi dimana pemeriksaan pengayaan diidentifikasi dengan
dan penurunan sensitivitas untuk temuan target yang lebih kecil.
pencarian kata kunci laporan radiologi dada dari tahun yang
Hasil Utama
sama (Januari hingga Desember 2020) dan rumah sakit yang
■ Dalam studi retrospektif ini, empat alat kecerdasan buatan (AI) yang tersedia sama sebagai sampel berturut-turut. Semua radiografi dada
secara komersial mengevaluasi radiografi dada tahun 2040, dan mencapai diidentifikasi dengan mencari sistem pengarsipan dan
sensitivitas berkisar 72%–91%, 63%–90%, dan 62%–95% untuk penyakit komunikasi gambar, atau PACS (Impax 6; AGFA HealthCare).
wilayah udara, pneumotoraks, dan efusi pleura. masing-masing.
Radiografi dada dan laporan digabungkan dengan data klinis
■ Spesifisitas alat AI tinggi untuk radiografi dengan temuan normal atau dari catatan kesehatan elektronik (Epic; Epic Systems) sebelum
tunggal (kisaran untuk penyakit wilayah udara, 85%–96%; pneumotoraks,
99%–100%; efusi pleura, 95%–100%) namun lebih rendah pada radiografi
de-identifikasi.
dengan temuan multipel (kisaran , 27%–69%, 96%–99%, 65%–92%, masing-
masing) (P< .001). Temuan Sasaran
■ Angka positif palsu lebih tinggi pada alat AI dibandingkan laporan Radiografi dada dinilai untuk tiga temuan berikut: penyakit
radiologi, sedangkan angka negatif palsu serupa. wilayah udara, pneumotoraks, dan efusi pleura. Untuk referensi
pembaca ahli standar, penyakit wilayah udara didefinisikan
sebagai kekeruhan yang terlihat pada alveoli paru yang tidak
prevalensi penyakit, spektrum dan tingkat keparahan penyakit, serta kesamaan data dianggap sebagai tumor dan/atau atelektasis (misalnya
yang digunakan untuk melatih dan menguji AI dapat memengaruhi kinerja AI yang pneumonia, edema paru, tuberkulosis, perdarahan) dan
diukur (7–11). Meskipun alat AI semakin banyak disetujui untuk digunakan di dikategorikan sebagai difus, multifokal, unifokal, atau unifokal.
departemen radiologi (12), terdapat kebutuhan yang belum terpenuhi untuk tidak jelas. Pneumothorax dikategorikan menjadi kecil (jarak <1
mengujinya lebih lanjut dalam skenario klinis di kehidupan nyata. cm dari dinding dada ke tepi paru di apeks paru), sedang (jarak
Tujuan dari penelitian ini adalah untuk mengevaluasi alat AI <2 cm pada tingkat hilus), atau besar (> 2 cm pada tingkat
generasi terkini yang tersedia secara komersial untuk mendeteksi hilus). ). Efusi pleura dikategorikan menjadi kecil (sudut
temuan akut yang umum (penyakit wilayah udara, pneumotoraks, kostofrenikus menumpul pada rontgen dada bagian depan),
efusi pleura) pada radiografi dada pada sampel rumah sakit sedang (kadar cairan di bawah hilus), atau besar (di atas hilus)
multisenter berturut-turut. Tujuan utamanya adalah untuk menilai (untuk rontgen dada terlentang, tingkat ini dinilai).
kinerja diagnostik algoritma ini dengan mengevaluasi sensitivitas,
spesifisitas, dan area di bawah kurva karakteristik pengoperasian Standar referensi
penerima. Tujuan sekundernya adalah untuk membandingkan Penilaian standar referensi dilakukan oleh ahli
keakuratan diagnostik alat AI dengan laporan radiologi klinis dan radiologi toraks (MBA, LCL, dan FR, masing-masing
menilai kinerja alat AI ini ketika target temuannya kecil, ketika dengan pengalaman radiologi toraks selama 8, 17,
beberapa temuan bersamaan muncul pada radiografi dada, dan dan 33 tahun) yang tidak mengetahui prediksi AI. Dua
ketika proyeksi radiografi anteroposterior digunakan. . pembaca (MBA dan LCL) memberi label pada semua
radiografi dada secara independen diikuti dengan
diskusi konsensus jika terjadi perselisihan. Jika masih
Bahan dan metode terdapat perbedaan pendapat, rontgen dada dikirim
Artikel ini disiapkan sesuai dengan pedoman Standar ke pembaca ketiga arbitrator senior (FR) yang tidak
Pelaporan Studi Akurasi Diagnostik, STARD (13). Penelitian mengetahui label sebelumnya. Seluruh temuan yang
ini disetujui oleh Komite Nasional Etika Penelitian Kesehatan diberi label, baik temuan target maupun temuan
(J-76643), yang mengesampingkan persyaratan informed nontarget, termasuk prevalensinya dalam kumpulan
consent. data, disajikan pada Tabel S1. Pembaca standar
referensi memiliki akses ke riwayat medis lengkap
Contoh Studi pasien, termasuk CT scan atau rontgen dada sebelum
Pasien dewasa unik berturut-turut (>18 tahun) dengan radiografi atau sesudahnya.
dada dari empat rumah sakit berbeda di wilayah Kopenhagen (12
hari pada Januari 2020) diidentifikasi secara retrospektif untuk Laporan Radiologi Klinis
dimasukkan dalam penelitian ini. Hanya radiografi dada pertama Seorang dokter dengan pelatihan radiologi klinis (LLP) selama 1 tahun,
pasien selama masa penelitian yang dimasukkan. Radiografi dada yang tidak mengetahui hasil AI, mengambil label dari laporan radiologi
yang disaring untuk inklusi yang memiliki visualisasi paru yang tidak prosa tidak terstruktur yang dibuat oleh ahli radiologi dalam praktik
memadai sesuai dengan laporan radiologi klinis atau standar klinis. Ketika laporan dianggap tidak cukup untuk ekstraksi label (yaitu,
referensi, tidak memiliki gambar Digital Imaging and jika laporan tidak menyatakan ada atau tidaknya temuan rontgen dada
Communications in Medicine (DICOM), tidak diperoleh tetapi, misalnya, merujuk lebih banyak

2 radiologi.rsna.org ■ Radiologi:Volume 308: Nomor 3—September 2023


Lind Plesner dkk

Gambar 1:Diagram alur menunjukkan inklusi dan eksklusi studi. Sampel diperkaya dengan memasukkan radiografi dada (CXR)
dengan pneumotoraks (N=44) untuk mencapai ukuran sampel yang memadai. Sampel analisis (N=2040) didefinisikan sebagai
sampel yang dianalisis oleh semua alat kecerdasan buatan (AI) dalam penelitian ini. Untuk perbandingan kinerja AI dengan
laporan radiologi klinis terkait (*), laporan radiologi tidak memadai (N=29; didefinisikan sebagai laporan yang tidak menyatakan
ada atau tidaknya temuan rontgen dada, melainkan, misalnya, merujuk pada temuan CT yang lebih baru) dikeluarkan dari
analisis. Radiografi dada temuan target didefinisikan sebagai radiografi dada dengan satu atau lebih temuan berikut yang
ditentukan berdasarkan standar referensi: penyakit wilayah udara, pneumotoraks, dan/atau efusi pleura. Radiografi dada
normal dan abnormal lainnya juga ditentukan berdasarkan standar referensi. DICOM = Pencitraan Digital dan Komunikasi
dalam Kedokteran.

temuan CT baru-baru ini alih-alih menafsirkan rontgen radiografi dada posteroanterior dimasukkan untuk temuan ini
dada), rontgen dada dikeluarkan dari penilaian akurasi dengan alat ini. Tidak ada alat AI yang dilatih berdasarkan data dari
diagnostik laporan ahli radiologi klinis. Pemeriksaan yang rumah sakit mana pun yang disertakan.
dilaporkan samar-samar diberi label positif.
Analisis statistik
Alat AI Data kontinu disajikan sebagai median dengan IQR dan data
Tujuh vendor dengan alat AI kelas IIA/IIB bertanda konformitas Eropa kategorikal disajikan sebagai angka dan persentase. Untuk
(bertanda CE) pada tahun 2022 diundang untuk berpartisipasi dalam tujuan utama, nilai tingkat pemeriksaan untuk sensitivitas,
penelitian ini. Empat vendor menyetujui sebagai berikut: vendor A, spesifisitas, nilai prediksi positif, dan nilai prediksi negatif
Annalise Enterprise CXR (versi 2.2; Annalise-AI); vendor B, SmartUrgences dengan CI 95% dihitung menggunakan metode eksak binomial.
(versi 1.24; Milvue); vendor C, ChestEye (versi 2.6; Oxipit); dan vendor D, Perbandingan frekuensi tabulasi silang dilakukan dengan
AI-Rad Companion (versi 10; Siemens Healthineers). Alat AI dirinci pada menggunakan χ2tes untuk observasi independen atau tes eksak
Tabel S2. Radiografi dada bagian depan yang tidak teridentifikasi Fischer jika dinyatakan secara spesifik. Masing-masing alat AI
diproses oleh masing-masing alat AI untuk mendapatkan skor tidak dibandingkan secara statistik, melainkan dikelompokkan
probabilitas untuk setiap temuan target (skor 0–1, dengan nilai rendah untuk menilai perbedaan kinerja di semua alat. Untuk tujuan ini,
menunjukkan probabilitas penyakit yang rendah dan sebaliknya). Metrik uji McNemar digunakan untuk membandingkan sensitivitas dan
akurasi diagnostik biner dihitung menggunakan ambang batas spesifisitas, dan χ2Tes digunakan untuk membandingkan nilai
probabilitas yang ditentukan produsen. Tiga alat AI menggunakan prediksi positif dan nilai prediksi negatif. Area di bawah kurva
ambang batas tunggal, sedangkan vendor B menggunakan ambang karakteristik operasi penerima untuk mendeteksi temuan target
batas sensitivitas tinggi (selanjutnya, vendor B sens) dan ambang dihitung dan dibandingkan menggunakan metode DeLong.
spesifisitas tinggi (selanjutnya disebut spesifikasi vendor B). Jika tidak Untuk tujuan kedua, tes McNemar digunakan untuk
mampu memproses rontgen dada, skor probabilitas AI adalah 0. Dua alat membandingkan tingkat positif palsu dan negatif palsu antara
AI (vendor A dan vendor B) dapat mengevaluasi gambar lateral dalam alat AI dan laporan radiologi. Dengan ukuran sampel minimal
penggunaan klinis; namun, hanya radiografi dada frontal yang diproses 75 kasus, sensitivitas atau spesifisitas AI sebesar 85% ± 15 (SD)
dalam penelitian ini. Alat vendor D tidak mengklasifikasikan efusi pleura dapat dideteksi dengan kekuatan 0,9 dan tingkat signifikansi
pada radiografi dada anteroposterior; oleh karena itu, saja 0,05.P< .05 dianggap menunjukkan perbedaan yang signifikan
secara statistik. Analisis statistik adalah

Radiologi:Volume 308: Nomor 3—September 2023 ■ radiologi.rsna.org 3


Alat AI Radiografi Dada yang Tersedia Secara Komersial untuk Mendeteksi Penyakit Toraks

Tabel 1: Karakteristik Pasien dengan dan tanpa Temuan Target pada Radiografi Dada

Semua Pasien Penemuan Sasaran Tidak Ada Target yang Ditemukan

Ciri (N=2040) (N=669) (N=1371) PNilai


Usia (tahun)* 72 (58–81) 76 (66–84) 69 (55–79) <.001
Seks <.001
F 1033 (50.6) 300 (44,8) 733 (53,5)
M 1007 (49.4) 369 (55.2) 638 (46,5)
Proyeksi radiografi <.001
Posteroanterior 1451 (71.1) 407 (60.8) 1044 (76.1)
Anteroposterior 476 (23.3) 228 (34.1) 248 (18.1)
Posteroanteriornya kurang optimal 113 (5.5) 34 (5.1) 79 (5.8)
Situs rujukan <.001
Departemen darurat 1056 (51.8) 356 (53.2) 700 (51.1)
Bangsal rumah sakit atau lainnya 500 (24,5) 241 (36.0) 259 (18.9)
Rawat jalan 484 (23.7) 72 (10.8) 412 (30.1)
PPOK 375 (18.4) 155 (23.2) 220 (16.0) <.001
Penyakit jantung iskemik 331 (16.2) 119 (17.8) 212 (15.5) . 24
Gagal jantung 250 (12.3) 129 (19.3) 121 (8.8) <.001
Tumor paru-paru saat ini 115 (5.6) 53 (7.9) 62 (4.5) . 002
Operasi paru-paru sebelumnya 130 (6.4) 79 (11.8) 51 (3.7) <.001
Operasi jantung sebelumnya 144 (7.1) 46 (6.9) 98 (7.1) . 83
Sejarah merokok . 06
Saat ini 705 (34.6) 252 (37.7) 453 (33.0)
Tidak dikenal 496 (24.3) 141 (21.1) 355 (25.9)
Tidak pernah 484 (23.7) 156 (23.3) 328 (23.9)
Mantan 355 (17.4) 120 (17.9) 235 (17.1)
Jumlahnya tidak. temuan pada radiografi dada <.001
Tidak ada 461 (22.6) 0 (0,0) 461 (33.6)
Satu 357 (17.5) 56 (8.4) 301 (22.0)
Dua atau tiga 576 (28.2) 189 (28.3) 387 (28.2)
Empat atau lebih 646 (31.7) 424 (63.4) 222 (16.2)
Catatan.—Data adalah jumlah pasien, dengan persentase dalam tanda kurung, untuk data kategorikal. Temuan target pada radiografi dada termasuk
penyakit wilayah udara, pneumotoraks, dan/atau efusi pleura. Gambar posteroanterior yang kurang optimal mencakup gambar dengan objek eksternal,
inspirasi tidak lengkap, rotasi, pencahayaan berlebih atau kurang, atau masalah kualitas gambar lainnya.Pnilai dihitung dengan uji jumlah peringkat
Wilcoxon (usia) atau χ2tes (lainnya). PPOK = penyakit paru obstruktif kronik.
* Data adalah median, dengan IQR dalam tanda kurung, untuk data berkelanjutan.

dilakukan oleh satu penulis (LLP) menggunakan R Software dari 2040 pasien (0,4%) memiliki radiografi dada tanpa keluaran AI dari
(versi 3.6.1; The R Foundation [14]) dengan paket vendor A dan dua pasien pada tahun 2040 (0,1%) tidak memiliki keluaran
pROC,thresholdROC, rapiverse, dan gtsummary. AI dari vendor C.
Informasi demografis disajikan pada Tabel 1. Usia rata-rata
Hasil dalam sampel analisis adalah 72 tahun (IQR, 58-81 tahun),
dengan 1.033 pasien perempuan dan 1.007 pasien laki-laki.
Karakteristik Pasien dan Temuan Pemeriksaan Radiografi dada sebelum atau sesudahnya atau CT scan dada
Sebanyak 2055 pasien berturut-turut dengan radiografi dada tersedia untuk masing-masing 1.641 dari 2040 (80,4%) dan
disaring untuk dimasukkan, bersama dengan 44 pasien dengan 1.165 dari 2040 (57,1%) pasien. Terdapat 1.222 dari 2040 pasien
radiografi dada dalam sampel pengayaan untuk pneumotoraks (59,9%) dengan dua atau lebih temuan dan 646 dari 2040
(Gambar 1). Sebanyak 59 dari 2099 pasien (2,8%) dikeluarkan karena (31,7%) dengan empat atau lebih temuan pada radiografi dada.
visualisasi paru yang tidak memadai (N=35), gambar DICOM hilang ( Proyeksi radiografi adalah posteroanterior pada 1564 dari 2040
N=14), rontgen dada dari rumah sakit lain (N=9), atau penyertaan pasien (76,7%) dan anteroposterior pada 476 dari 2040 pasien
duplikat (N=1). Sisanya 2040 pasien dimasukkan dalam sampel (23,3%). Terdapat 113 dari 1564 pasien (7,2%) dengan radiografi
analisis; dari jumlah tersebut, 669 (32,8%) memiliki setidaknya satu dada posteroanterior diberi label sebagai suboptimal pada
target temuan, sementara 1.371 (67,2%) tidak memiliki target penilaian standar referensi karena satu atau lebih masalah
temuan apa pun. Terdapat 461 dari 2040 pasien (22,6%) tanpa kualitas yang mencakup objek eksternal (36,3% [41 dari 113]),
temuan rontgen dada. Delapan radiografi dada yang kurang terang (32.

4 radiologi.rsna.org ■ Radiologi:Volume 308: Nomor 3—September 2023


Lind Plesner dkk

Gambar 2:Akurasi diagnostik empat alat kecerdasan buatan (AI) untuk mendeteksi penyakit wilayah udara, pneumotoraks, dan efusi pleura sebagai temuan target. Atas: Kurva pengoperasian
penerima menunjukkan kinerja alat AI untuk mendeteksi temuan target pada radiografi dada. Bawah: Kurva perolehan presisi menunjukkan kinerja untuk temuan target yang sama. Berlian
berwarna menandai ambang batas titik operasi yang ditetapkan oleh produsen dan digunakan dalam penelitian ini, sedangkan berlian putih mewakili kinerja laporan radiologi klinis (N=2011).
Dua ahli radiologi toraks, atau tiga ahli radiologi jika terjadi perbedaan pendapat, secara independen memberi label pada semua radiografi dada, dan standar acuannya adalah temuan
konsensus. ** = Alat vendor D AI tidak mendeteksi efusi pleura pada rontgen dada anteroposterior, sehingga garis hijau pada grafik ini hanya mewakili rontgen dada posteroanterior (N=1564).
PPV = nilai prediksi positif.

(19,5% [22 dari 113]), inspirasi tidak lengkap (15,9% [18 dari Akurasi Diagnostik Alat AI
113]), atau lainnya (8,8% [10 dari 113]). Dengan menggunakan radiografi dada berlabel ahli sebagai standar
Di antara 393 radiografi dada yang penyakit wilayah referensi, keempat alat AI menunjukkan area di bawah kurva
udaranya teridentifikasi pada penilaian standar referensi, 74 karakteristik pengoperasian penerima dengan rentang 0,83–0,88
(18,8%) diklasifikasikan sebagai difus, 146 (37,2%) sebagai (kisaran CI 95%: 0,81–0,90) untuk penyakit wilayah udara, 0,89–0,97
multifokal, 112 (28,5%) sebagai unifokal, dan 61 (15,5%) (kisaran CI 95%: : 0,84–1,00) untuk pneumotoraks, dan 0,94–0,97
sebagai unifokal. dan tidak jelas. Di antara 78 radiografi (kisaran CI 95%: 0,93–0,98) untuk efusi pleura (Gambar 2; Tabel 2,
dada yang menunjukkan pneumotoraks, 31 (39,7%) S3). Sensitivitas alat AI berkisar 72%–91% (kisaran CI 95%: 67–94)
berukuran besar, 25 (32,1%) berukuran sedang, dan 22 untuk penyakit wilayah udara, 63%–90% (kisaran CI 95%: 51–95)
(28,2%) berukuran kecil. Di antara 365 radiografi dada yang untuk pneumotoraks, dan 62%–95% ( Kisaran CI 95%: 57–97) untuk
menunjukkan efusi pleura, 36 (9,9%) berukuran besar, 81 efusi pleura, sedangkan spesifisitasnya berkisar 62%–86% (kisaran
(22,2%) sedang, dan 248 (67,9%) berukuran kecil. Selain itu, CI 95%: 60–88), 98%–100% (kisaran CI 95%: 97–100), dan 83 %–97%
selang drainase interkostal terdapat pada 29,5% (23 dari 78) (kisaran CI 95%: 82–98), masing-masing, untuk temuan target. Nilai
pasien dengan temuan pneumotoraks dan 2,7% (10 dari prediksi negatif tergolong tinggi di seluruh temuan, berkisar antara
365) pasien dengan temuan efusi pleura pada radiografi 92%–100% (kisaran CI 95%: 91–100), namun nilai prediksi positif
dada. Akhirnya, efusi pleura atau penyakit wilayah udara lebih rendah, terutama untuk penyakit wilayah udara (kisaran, 37%–
hanya terlihat pada proyeksi lateral selama 27 dan tujuh 55%) tetapi juga untuk pneumotoraks (kisaran, 60%–86%) dan efusi
pemeriksaan, pleura (kisaran, 56%–84%). Area di bawah penerima

Radiologi:Volume 308: Nomor 3—September 2023 ■ radiologi.rsna.org 5


Alat AI Radiografi Dada yang Tersedia Secara Komersial untuk Mendeteksi Penyakit Toraks

Tabel 2: Akurasi Diagnostik Alat AI untuk Penyakit Wilayah Udara, Pneumotoraks, dan Efusi Pleura

Vendor B (Tinggi Vendor B (Tinggi Klinis


Kepekaan Kekhususan Radiologi
Temuan dan Metrik Penjual A Ambang) Ambang) Penjual C Penjual D* Laporan† PNilai‡
Penyakit wilayah udara

Sensitivitas (%) 72 (67, 76) 91 (88, 94) 81 (77, 85) 80 (75,83) 79 (75, 83) 78 (74 ,82) <.001
Kekhususan (%) 86 (84, 88) 62 (60, 65) 71 (69, 73) 76 (74, 78) 72 (70, 75) 88 (87, 90) <.001
PPV (%) 55 (51, 59) 37 (34, 40) 40 (37, 44) 45 (41, 48) 41 (37, 44) 62 (57, 66) <.001
NPV (%) 93 (91, 94) 97 (95, 98) 94 (93, 95) 94 (93, 95) 94 (92, 95) 94 (93, 96) <.001
AUC 0,88 0,85 0,85 0,86 0,83 TIDAK <.001
(0,87, 0,90) (0,84, 0,87) (0,84, 0,87) (0,84, 0,88) (0,81, 0,85)
Pneumotoraks
Sensitivitas (%) 90 (80, 95) 73 (62, 82) 63 (51, 73) 78 (67, 86) 71 (59, 80) 85 (75, 92) <.001
Kekhususan (%) 98 (98, 99) 99 (98, 99) 100 (99, 100) 98 (97, 98) 98 (97, 99) 100 (100, 100) <.001
PPV (%) 67 (57, 76) 72 (61, 81) 86 (74, 93) 56 (46, 65) 60 (50, 70) 96 (87, 99) <.001
NPV (%) 100 (99, 100) 99 (98, 99) 99 (98, 99) 99 (99, 99) 99 (98, 99) 99 (99, 100) <.001
AUC 0,97 0,97 0,97 0,97 0,89 TIDAK <.001
(0,94, 1) (0,96, 0,99) (0,96, 0,99) (0,94, 0,99) (0,84, 0,94)
Efusi pleura
Sensitivitas (%) 95 (93, 97) 78 (73, 82) 62 (57, 67) 68 (63, 73) 80 (74, 85) 74 (70, 79) <.001
Kekhususan (%) 83 (82, 85) 92 (91,94) 97 (96, 98) 97 (96, 98) 92 (90, 93) 96 (95, 97) <.001
PPV (%) 56 (52, 60) 69 (64, 73) 81 (76, 85) 84 (79, 88) 63 (57, 69) 79 (75, 84) <.001
NPV (%) 99 (98, 99) 95 (94,96) 92 (91, 93) 93 (92, 95) 96 (95, 97) 94 (93, 95) <.001
AUC 0,96 0,94 0,94 0,97 0,94 TIDAK <.001
(0,95, 0,98) (0,93, 0,95) (0,93, 0,95) (0,96, 0,98) (0,93, 0,96)
Catatan.—Data dalam tanda kurung adalah 95% CI. Pengukuran akurasi diagnostik seluruh alat AI dan laporan radiologi klinis dibandingkan
dengan radiografi dada berlabel ahli sebagai standar referensi pada pasien tahun 2040. Data yang digunakan untuk menghitung metrik akurasi
diagnostik biner tersedia di Tabel S3. AI = kecerdasan buatan, AUC = area di bawah kurva karakteristik operasi penerima, PPV = nilai prediksi
positif, NA = tidak berlaku, NPV = nilai prediksi negatif.
* Vendor D tidak mengklasifikasikan efusi pleura pada rontgen dada anteroposterior, sehingga hanya rontgen dada posteroanterior yang
disertakan untuk evaluasi efusi pleura (N=1564).
†Laporan klinis hanya dimasukkan untuk radiografi dada pada pasien tahun 2011 karena 29 laporan dianggap tidak mencukupi.
Pnilai adalah selisih antara nilai tertinggi dan terendah di seluruh alat AI (AUC, metode DeLong; sensitivitas dan spesifisitas, uji

McNemar; PPV dan NPV, χ2tes).

kurva karakteristik operasi, sensitivitas, spesifisitas, nilai prediksi untuk semua). Untuk efusi pleura, sensitivitas untuk lesi besar dan
positif, dan nilai prediksi negatif berbeda untuk temuan target kecil serupa untuk vendor A yaitu 94% (kisaran CI 95%: 80–99)
serupa di seluruh alat AI (P< .001), dan sensitivitas yang lebih berbanding 94% (kisaran CI 95%: 90–96) (P= > .99) namun lebih
rendah berhubungan langsung dengan spesifisitas yang lebih tinggi rendah untuk vendor lain (kisaran, 81%–100% [kisaran CI 95%: 63–
(Gambar 2). Tidak ada perbedaan yang teramati pada sensitivitas 100] vs 56%–76% [kisaran CI 95%: 49–82];P< .001 untuk semua).
rata-rata semua alat AI untuk deteksi pneumotoraks pada radiografi Spesifisitas temuan target pada rontgen dada dengan 0–1 temuan
dada antara sampel pengayaan dan sampel berturut-turut (77,9% vs dibandingkan dengan empat temuan atau lebih lebih tinggi pada semua
77,8%,P= > .99). alat AI (Prentang nilai, 0,10 hingga <0,001), kecuali untuk vendor B
dengan ambang spesifisitas tinggi (spesifikasi vendor B) untuk
Kinerja Diagnostik untuk Temuan Target Berdasarkan pneumotoraks (P= .17) (Gambar 4). Hal ini terutama terlihat pada
Ukuran, Jumlah Temuan, dan Proyeksi penyakit wilayah udara, dimana rata-rata spesifisitas alat AI adalah 90,7%
Gambar 3–5 mengilustrasikan kinerja AI dan laporan radiologi klinis pada untuk rontgen dada dengan 0–1 temuan dibandingkan 46,8% untuk 4
subkelompok yang telah ditentukan sebelumnya (data lengkap tersedia temuan atau lebih (P< .001). Spesifisitas penyakit wilayah udara pada
di Tabel S4 dan S5). Kisaran sensitivitas alat AI untuk penyakit wilayah radiografi dada posteroanterior dibandingkan dengan radiografi dada
udara difus adalah 92%–100% (kisaran CI 95%: 83–100) dibandingkan anteroposterior juga lebih tinggi pada semua alat AI (P< .001 untuk
dengan 33%–61% (kisaran CI 95%: 22–73) untuk penyakit wilayah udara semua), dengan rata-rata spesifisitas AI masing-masing sebesar 77,8%
samar unifokal (P< .001 untuk semua alat AI). Untuk pneumotoraks, berbanding 56,2% (P< .001) (Gambar 5). Untuk pneumotoraks, pola ini
sensitivitas untuk lesi besar dan kecil serupa pada vendor A yaitu 97% juga terlihat pada vendor A, B sens, B spec, dan C (P< .001 untuk semua)
(kisaran CI 95%: 81–100) berbanding 86% (kisaran CI 95%: 64–96) (P= .30), tetapi tidak untuk vendor D (P= .30). Untuk efusi pleura, vendor A dan C
namun lebih rendah untuk vendor lain (kisaran, 94%–100% [kisaran CI memiliki spesifisitas yang lebih rendah untuk posteroanterior
95%: 77–100] vs 9%–59% [kisaran CI 95%: 2–79];P< .001 dibandingkan dengan

6 radiologi.rsna.org ■ Radiologi:Volume 308: Nomor 3—September 2023


Lind Plesner dkk

Gambar 3:Sensitivitas alat kecerdasan buatan (AI) dan laporan radiologi klinis dikelompokkan berdasarkan temuan target. Atas: Grafik batang menunjukkan temuan penyakit wilayah udara (N
=393), yang dikategorikan sebagai menyebar (N=74), multifokal (N=146), unifokal (N=112), atau samar-samar unifokal (N=61), untuk alat AI dan laporan radiologi, dengan nilai sensitivitas
terendah untuk temuan samar unifokal (kisaran, 33%–61%;P< .001 untuk semua). Tengah: Grafik batang menunjukkan temuan pneumotoraks (N=78), yang tergolong besar (N=31), sedang (N=
25), atau kecil (N=22), untuk alat AI dan laporan radiologi, dengan sensitivitas lebih rendah untuk temuan kecil (kisaran, 9%–59%;P< .001), kecuali vendor A. Bawah: Grafik batang menunjukkan
temuan efusi pleura (N=365), yang dikategorikan besar (N=36), sedang (N=81), atau kecil (N=248), untuk alat AI dan laporan radiologi, dengan sensitivitas lebih rendah untuk temuan kecil
(kisaran, 56%–76%;P< .001), kecuali untuk vendor A. Vendor B menggunakan ambang batas probabilitas sensitivitas tinggi (Vendor B Sens.) dan spesifisitas tinggi (Vendor B Spec.). Bilah
kesalahan mewakili 95% CI pada estimasi sensitivitas. * = Perbedaan yang signifikan secara statistik (P< .05) ditunjukkan dengan mengacu pada bilah yang menggambarkan sensitivitas tertinggi
untuk masing-masing alat AI (tidak untuk semua alat AI yang berbeda), yang dihitung menggunakan uji eksak Fisher. ** = Alat vendor D AI tidak mendeteksi efusi pleura pada rontgen dada
anteroposterior, sehingga grafik hanya menggambarkan hasil untuk posteroanterior saja (N=1564) dan tidak boleh dibandingkan langsung dengan vendor lain. Semua data disediakan di Tabel
S4. NS = tidak signifikan.

radiografi dada anteroposterior (masing-masing 86% dan 98% vs subspesialisasi yang memvalidasi satu atau lebih rontgen dada, termasuk lima
72% dan 94%;P< .001 untuk keduanya), sedangkan vendor B sens ahli radiologi dalam pelatihan yang bersama-sama memvalidasi total 14
dan vendor B spec tidak menunjukkan perbedaan yang signifikan rontgen dada (0,7% [14 tahun 2011]). Tidak ada bukti perbedaan yang diamati
antara proyeksi posteroanterior dan anteroposterior (masing- dalam tingkat temuan negatif palsu penyakit wilayah udara antara alat AI dan
masing 93% dan 97% vs 90% dan 96%;P= .09 danP= .29) (Tabel S5). laporan radiologi klinis, kecuali ketika vendor B merasakan (angka negatif
Vendor D tidak dirancang untuk mendeteksi efusi pleura pada palsu, 9% vs 21,5%; P< .001) digunakan (Tabel 3). Semua alat AI memiliki
gambar anteroposterior. tingkat positif palsu yang lebih tinggi untuk penyakit wilayah udara (kisaran,
13,7%–36,9%) dibandingkan dengan laporan radiologi (11,6%;Prentang nilai, <
Perbandingan Alat AI dengan Laporan Radiologi Klinis untuk 0,001 hingga 0,01). Untuk pneumotoraks, tidak ditemukan perbedaan dalam
Temuan Target angka negatif palsu antara alat AI dan laporan radiologi kecuali ketika
Laporan radiologi klinis dianggap tidak mencukupi sehingga spesifikasi vendor B digunakan, yang mana angka negatif palsunya lebih tinggi
dikeluarkan dari analisis berikut pada 29 dari 2040 pasien (1,4%). (37,3% vs 16,0%,P= .01). Sebagian besar alat AI memiliki nilai lebih tinggi
Ada 72 pembaca laporan berbeda dari berbagai radiologi

Radiologi:Volume 308: Nomor 3—September 2023 ■ radiologi.rsna.org 7


Alat AI Radiografi Dada yang Tersedia Secara Komersial untuk Mendeteksi Penyakit Toraks

Gambar 4:Kekhususan alat kecerdasan buatan (AI) dan laporan radiologi klinis dikelompokkan berdasarkan jumlah temuan bersamaan pada radiografi dada. Atas: Grafik batang menunjukkan
pengendalian penyakit wilayah udara yang dikelompokkan menjadi 0–1 (N=772), 2–3 (N=454), dan 4 atau lebih (N=421) temuan rontgen dada, dengan nilai spesifisitas terendah pada kategori 4
atau lebih (kisaran, 27%–69%;P< .001 untuk semua, dibandingkan dengan temuan 0–1). Tengah: Grafik batang menunjukkan kontrol pneumotoraks dikelompokkan menjadi 0–1 (N=814), 2–3 (N=
548), dan 4 atau lebih (N=600) temuan rontgen dada, dengan nilai terendah pada kategori 4 atau lebih (kisaran, 96%–99%;P= .17 untuk spesifikasi vendor B;Prentang nilai, . 01 hingga < 0,001
untuk yang lain). Bawah: Grafik batang menunjukkan kontrol efusi pleura yang dikelompokkan menjadi 0–1 (N=812), 2–3 (N=510), dan 4 atau lebih (N=353) temuan rontgen dada, dengan nilai
terendah pada kategori 4 atau lebih (kisaran, 65%–92%;P< .001 untuk semua). Vendor B menggunakan ambang probabilitas sensitivitas tinggi (Vendor B Sens.) dan spesifisitas tinggi (Vendor B
Spec.). Bilah kesalahan mewakili 95% CI pada perkiraan spesifisitas. * = Perbedaan yang signifikan secara statistik (P< .05) ditunjukkan dengan mengacu pada bilah yang menggambarkan
sensitivitas tertinggi untuk masing-masing alat AI (tidak untuk semua alat AI yang berbeda), yang dihitung menggunakan uji eksak Fisher. ** = Alat vendor D AI tidak mendeteksi efusi pleura
pada rontgen dada anteroposterior, sehingga grafik hanya menggambarkan hasil untuk posteroanterior saja (N=1564) dan tidak boleh dibandingkan langsung dengan vendor lain. Semua data
disediakan di Tabel S5. NS = tidak signifikan.

8 radiologi.rsna.org ■ Radiologi:Volume 308: Nomor 3—September 2023


Lind Plesner dkk

Gambar 5:Kekhususan alat kecerdasan buatan (AI) dan laporan radiologi klinis dikelompokkan berdasarkan proyeksi radiografi. Atas: Grafik batang menunjukkan pengendalian penyakit
wilayah udara yang dikelompokkan menjadi anteroposterior (AP,N=318) dan posteroanterior (PA,N=1329), dengan nilai terendah pada proyeksi anteroposterior (kisaran, 42%–73%; P< .001
untuk semua, dibandingkan dengan posteroanterior). Tengah: Grafik batang menunjukkan kontrol pneumotoraks dikelompokkan menjadi anteroposterior (N=466) dan posteroanterior (N=
1496), dengan nilai terendah pada proyeksi anteroposterior (kisaran, 93%–99%;P= .30 untuk penjual D,P< .001 untuk yang lain). Bawah: Grafik batang menunjukkan kontrol efusi pleura yang
dikelompokkan menjadi anteroposterior (N=340) dan posteroanterior (N=1335), dengan nilai terendah pada proyeksi anteroposterior untuk vendor A dan C (P< .001 untuk keduanya) dan
proporsinya tidak berubah untuk vendor B pada ambang sensitivitas tinggi (Vendor B Sens.) dan spesifisitas tinggi (Vendor B Spec.) (P= .09 danP= .29). Bilah kesalahan mewakili 95% CI pada
perkiraan sensitivitas. * = Perbedaan yang signifikan secara statistik (P< .05) ditunjukkan dengan mengacu pada bilah yang menggambarkan sensitivitas tertinggi untuk masing-masing alat AI
(tidak untuk semua alat AI yang berbeda), yang dihitung menggunakan uji eksak Fisher. ** = Alat vendor D AI tidak mendeteksi efusi pleura pada rontgen dada anteroposterior, sehingga grafik
hanya menggambarkan hasil untuk posteroanterior saja (N=1564). Data yang digunakan untuk menghasilkan angka ini disediakan pada Tabel S5. NS = tidak signifikan.

tingkat positif palsu dibandingkan dengan laporan radiologi untuk pneumotoraks (4,7% vs 27,5%,P< .001) dan spesifikasi vendor B dan vendor C memiliki
(kisaran, 1,1% –2,4% vs 0,2%;P< .001 untuk semua), kecuali untuk spesifikasi vendor B tingkat negatif palsu yang lebih tinggi dibandingkan laporan (31,7% dan
yaitu 0,4% (P= .91). Untuk efusi pleura, vendor A memiliki tingkat negatif palsu yang 38,0% vs 27,5%,P= .01 danP< .001). Tidak ada perbedaan yang diamati
lebih rendah dibandingkan laporan radiologi untuk tingkat negatif palsu efusi pleura antara vendor B

Radiologi:Volume 308: Nomor 3—September 2023 ■ radiologi.rsna.org 9


Alat AI Radiografi Dada yang Tersedia Secara Komersial untuk Mendeteksi Penyakit Toraks

Tabel 3: Kinerja Alat AI Dibandingkan dengan Laporan Radiologi Terkait untuk Temuan Target

Menemukan dan PNilai PNilai


Metode Penilaian Tingkat Negatif Palsu Tingkat Positif Palsu (Temuan Negatif Palsu) (Temuan Positif Palsu)
Penyakit wilayah udara

Laporan klinis 84/390 (21.5) 188/1621 (11.6) Referensi Referensi


Penjual A 109/390 (27.9) 222/1621 (13.7) . 12 . 01
Spesifikasi Vendor B 72/390 (18.5) 459/1621 (28.3) > . 99 <.001
Vendor B sen 35/390 (9.0) 598/1621 (36.9) <.001 <.001
Penjual C 79/390 (20.3) 377/1621 (23.3) > . 99 <.001
Penjual D 80/390 (20,5) 441/1621 (27.2) > . 99 <.001
Pneumotoraks
Laporan klinis 12/75 (16.0) 3/1936 (0,2) Referensi Referensi
Penjual A 8/75 (10.7) 33/1936 (1.7) > . 99 <.001
Spesifikasi Vendor B 28/75 (37.3) 8/1936 (0,4) . 01 . 91
Vendor B sen 21/75 (28.0) 22/1936 (1.1) . 40 <.001
Penjual C 17/75 (22.7) 47/1936 (2.4) > . 99 <.001
Penjual D 23/75 (30.7) 35/1936 (1.8) . 19 <.001
Efusi pleura
Laporan klinis 100/360 (27,8) 70/1648 (4.2) Referensi Referensi
Penjual A 17/360 (4.7) 270/1648 (16.4) <.001 <.001
Spesifikasi Vendor B 138/360 (38,3) 52/1648 (3.2) <.001 . 45
Vendor B sen 82/360 (22.8) 127/1648 (7.7) . 53 <.001
Penjual C 114/360 (31,7) 44/1648 (2.7) . 01 <.001
Penjual D* 43/227 (18.9) 106/1315 (8.1) . 07 <.001

Catatan.—Kecuali jika disebutkan, data adalah jumlah pasien, dengan persentase dalam tanda kurung. Laporan klinis yang tidak memadai tidak dimasukkan,
sehingga pasien tahun 2011 dimasukkan, bukan tahun 2040. Radiografi dada yang diberi label ahli berfungsi sebagai standar referensi untuk menentukan
angka negatif palsu dan positif palsu untuk alat AI dan laporan radiologi klinis. Vendor B menggunakan ambang probabilitas sensitivitas tinggi (vendor B sens)
dan spesifisitas tinggi (spesifikasi vendor B).Pnilai (tes McNemar, koreksi Bonferroni per temuan) disediakan untuk perbandingan angka negatif palsu dan
positif palsu antara alat AI apa pun dan laporan radiologi klinis. AI = kecerdasan buatan.
* Perbandingan dengan laporan klinis hanya untuk radiografi dada posteroanterior (N=1542).

sens dan vendor D alat AI dan laporan radiologi (P= .53 danP = 0,07). Tiga alat mayoritas telah menggunakan alat Lunit INSIGHT AI,
AI memiliki tingkat positif palsu yang lebih tinggi untuk efusi pleura yang tidak diuji di sini. Saat ini belum ada penelitian yang
dibandingkan laporan radiologi (kisaran, 7,7% –16,4% vs 4,2%;P < 0,001 untuk dipublikasikan mengenai temuan target yang diuji dalam
semua), satu memiliki tingkat positif palsu yang lebih rendah (2,7% vs 4,2%, P penelitian ini dengan alat vendor B, vendor C, atau
< .001), dan satu tidak menunjukkan perbedaan (3,2% vs 4,2%,P= .45). Contoh vendor D. Untuk penyakit wilayah udara, sensitivitas dan
rontgen dada yang salah diberi label oleh alat AI ditunjukkan pada Gambar 6 spesifisitas yang dilaporkan masing-masing berkisar
dan contoh rontgen dada yang diberi label dengan benar oleh alat AI antara 81%–92% dan 67%–94% (15,20,21). Angka yang
ditunjukkan pada Gambar S4. sesuai berkisar 39%–99% dan 92%–100% untuk
pneumotoraks (15–17,19,20,22) dan 78%–89% dan 94%–
Diskusi 99% untuk efusi pleura (15,19,20) . Khususnya, hanya
Studi ini menguji keakuratan diagnostik alat kecerdasan buatan (AI) yang satu dari penelitian ini yang menyertakan sampel
tersedia secara komersial saat ini untuk mengidentifikasi penyakit berturut-turut yang tidak dipilih (20), sementara tiga
wilayah udara, pneumotoraks, dan efusi pleura pada radiografi dada penelitian berturut-turut lainnya dilakukan dengan
dalam sampel pasien multisenter di kehidupan nyata. Alat AI mencapai cakupan deteksi pneumotoraks yang lebih sempit
sensitivitas sedang hingga tinggi berkisar 62%–95% dan nilai prediksi setelah biopsi paru-paru (17), deteksi pneumonia pada
negatif yang sangat baik lebih dari 92%. Nilai prediksi positif alat AI lebih pria muda yang menderita penyakit pernapasan demam
rendah dan menunjukkan lebih banyak variasi, berkisar antara 37%–86%, di militer rumah sakit (21), atau pasien yang dirawat
paling sering dengan tingkat positif palsu yang lebih tinggi dibandingkan karena trauma akut (22).
laporan radiologi klinis. Selain itu, kami menemukan bahwa sensitivitas Di antara alat-alat AI yang diteliti dalam penelitian ini, kami mengamati adanya

AI umumnya lebih rendah untuk temuan target berukuran lebih kecil dan perbedaan yang jelas dalam keseimbangan antara sensitivitas dan spesifisitas untuk

spesifisitas AI umumnya lebih rendah untuk radiografi dada masing-masing alat, yang tampaknya tidak dapat diprediksi. Oleh karena itu, ketika

anteroposterior dan temuan yang dilakukan bersamaan. menerapkan alat AI, tampaknya penting untuk memahami prevalensi penyakit dan

Penelitian sebelumnya telah mengevaluasi keakuratan diagnostik dari tingkat keparahan penyakit di lokasi tersebut dan bahwa mengubah ambang batas

temuan target ini menggunakan alat AI yang tersedia secara komersial (15-23). alat AI setelah penerapan mungkin diperlukan agar sistem dapat memperoleh hasil

Tiga dari penelitian ini menggunakan alat vendor A, sedangkan diagnostik yang diinginkan.

10 radiologi.rsna.org ■ Radiologi:Volume 308: Nomor 3—September 2023


Lind Plesner dkk

Gambar 6:Radiografi dada yang representatif pada enam pasien menunjukkan(KARTU AS)temuan positif palsu dan(B, D, F)temuan negatif palsu seperti
yang diidentifikasi oleh alat kecerdasan buatan (AI). Secara umum, temuan negatif palsu yang ditentukan oleh alat AI merupakan representasi penyakit

yang sangat halus, sedangkan temuan positif palsu merupakan salah tafsir. Semua contoh ini diklasifikasikan dengan benar berdasarkan laporan

radiologi klinis.(A)Radiografi dada posteroanterior pada pasien laki-laki berusia 71 tahun yang menjalani pemeriksaan karena perkembangan dispnea

menunjukkan fibrosis bilateral (panah), yang salah diklasifikasikan sebagai penyakit wilayah udara dengan keempat alat AI.(B)Radiografi dada

posteroanterior pada pasien wanita berusia 31 tahun yang dirujuk untuk radiografi karena batuk selama sebulan menunjukkan kekeruhan ruang udara

yang halus di batas jantung kanan (panah), yang terlewatkan oleh semua alat AI.

(C)Radiografi dada anteroposterior pada pasien pria berusia 78 tahun yang dirujuk setelah pemasangan kateter vena sentral
menunjukkan lipatan kulit di sisi kanan (panah), yang salah diklasifikasikan sebagai pneumotoraks oleh semua alat AI.(D)
Radiografi dada posteroanterior pada pasien pria berusia 78 tahun yang dirujuk untuk menyingkirkan pneumotoraks
menunjukkan pneumotoraks sisi kanan apikal yang sangat halus (panah), yang terlewatkan oleh semua alat AI kecuali vendor B
(dengan ambang sensitivitas tinggi).(E)Radiografi dada posteroanterior pada pasien pria berusia 72 tahun yang dirujuk untuk
radiografi tanpa alasan tertentu menunjukkan pembulatan kronis sudut kostofrenikus (panah), yang disalahartikan sebagai
efusi pleura oleh semua alat AI dan diverifikasi sesuai dengan standar referensi yang sesuai. gambar CT dada.
(F)Radiografi dada anteroposterior pada pasien wanita berusia 76 tahun yang dirujuk untuk radiografi karena dugaan kongesti
dan/atau pneumonia menunjukkan efusi pleura sisi kiri yang sangat halus (panah), yang terlewatkan oleh ketiga alat AI yang
mampu menganalisis. radiografi dada anteroposterior untuk efusi pleura.

Radiologi:Volume 308: Nomor 3—September 2023 ■ radiologi.rsna.org 11


Alat AI Radiografi Dada yang Tersedia Secara Komersial untuk Mendeteksi Penyakit Toraks

kemampuan. Selain itu, rendahnya sensitivitas yang diamati untuk beberapa untuk membaca bersamaan yang mendukung pembaca manusia dan idealnya
alat AI dalam penelitian kami menunjukkan bahwa, seperti ahli radiologi klinis, harus dievaluasi secara prospektif dalam situasi tersebut; namun, hal ini tidak
kinerja alat AI menurun untuk temuan yang lebih halus pada radiografi dada. dapat dilakukan saat menguji beberapa alat AI.
Hal ini telah diamati sebelumnya dalam penelitian yang menggunakan Kesimpulannya, alat kecerdasan buatan (AI) generasi saat ini
algoritma tunggal untuk pneumotoraks (16), nodul paru, dan pneumonia, di menunjukkan sensitivitas sedang hingga tinggi untuk mendeteksi
mana terdapat struktur yang tumpang tindih dan/atau ukuran lesi yang kecil penyakit wilayah udara, pneumotoraks, dan efusi pleura pada radiografi
(7,10). dada. Namun, hasil tersebut menghasilkan lebih banyak hasil positif
Kami selanjutnya menemukan bahwa untuk rontgen dada anteroposterior dan rontgen dada dengan palsu dibandingkan laporan radiologi dan kinerjanya menurun untuk
beberapa temuan, spesifisitas alat AI untuk penyakit wilayah udara dan efusi pleura menurun dibandingkan temuan target berukuran lebih kecil, rontgen dada dengan banyak
dengan rontgen dada posteroanterior dan rontgen dada dengan satu temuan. Efek ini paling menonjol pada temuan, dan rontgen dada dengan proyeksi radiografi anteroposterior.
penyakit wilayah udara, dan hal ini tidak mengherankan karena penyakit wilayah udara dapat menyerupai Penelitian di masa depan dapat fokus pada penilaian prospektif terhadap
temuan radiografi dada lainnya, namun kami juga mengamati efek pada pneumotoraks dan efusi pleura, yang konsekuensi klinis penggunaan AI untuk radiografi dada pada hasil yang
memiliki definisi pencitraan yang lebih jelas. Ahn et al (15) melaporkan kinerja alat Lunit INSIGHT AI dan berhubungan dengan pasien.
menemukan, serupa dengan penelitian kami, bahwa spesifisitas untuk pneumonia adalah 85% pada pasien tanpa

temuan tambahan pada rontgen dada dan 51% pada pasien dengan temuan bersamaan. Temuan-temuan ini Kontribusi penulis:Penjamin integritas seluruh studi,LLP, FCM, MB, MBA; konsep
kajian/desain kajian atau perolehan data atau analisis/interpretasi data, semua
menunjukkan bahwa ahli radiologi harus menyadari keterbatasan ini, baik dalam hal sensitivitas maupun
penulis; penyusunan naskah atau revisi naskah untuk konten intelektual penting,
spesifisitas, dan tidak boleh terlalu percaya diri terhadap sistem dalam kasus-kasus sulit ini. Namun, perlu semua penulis; persetujuan versi final naskah yang diserahkan, semua penulis; setuju
disebutkan bahwa banyak kesalahan yang dilakukan oleh alat AI juga akan sulit atau bahkan tidak mungkin untuk memastikan setiap pertanyaan yang terkait dengan karya ini diselesaikan
dengan tepat, semua penulis; penelitian literatur,LLP; studi klinis,LLP, MWB, LCL, FR,
dideteksi oleh pembaca manusia tanpa akses ke pencitraan tambahan dan riwayat pasien. Untuk mengatasi
MB, MBA; studi eksperimental,LLP; Analisis statistik,LLP, FCM, MBA; dan
keterbatasan ini, alat AI generasi berikutnya harus berupaya menggabungkan perbandingan dengan pencitraan penyuntingan naskah, semua penulis
medis sebelumnya, yang saat ini sedang dieksplorasi (24). bahwa banyak kesalahan yang dilakukan oleh alat AI

juga akan sulit atau bahkan tidak mungkin dideteksi oleh pembaca manusia tanpa akses ke pencitraan tambahan Pengungkapan konflik kepentingan:LLPPembayaran kuliah dari Siemens Healthineers.FCM
Hibah penelitian institusional dari Siemens Healthineers dan Innovation Fund Denmark;
dan riwayat pasien. Untuk mengatasi keterbatasan ini, alat AI generasi berikutnya harus berupaya
pembayaran kuliah dari Siemens Healthineers.MWBTidak ada hubungan yang relevan.LCL
menggabungkan perbandingan dengan pencitraan medis sebelumnya, yang saat ini sedang dieksplorasi (24). Tidak ada hubungan yang relevan.PerancisTidak ada hubungan yang relevan.MEMILIKI
bahwa banyak kesalahan yang dilakukan oleh alat AI juga akan sulit atau bahkan tidak mungkin dideteksi oleh Pembayaran kuliah dari Roche, Orion, Pharmacosmos, dan Novartis; opsi saham di Bavarian
Nordic dan Merck; saat ini bekerja di Novo Nordisk.MBTidak ada hubungan yang relevan.
pembaca manusia tanpa akses ke pencitraan tambahan dan riwayat pasien. Untuk mengatasi keterbatasan ini,
MBAPembayaran kuliah dari Philips Healthcare, Siemens Healthineers, Boehringer
alat AI generasi berikutnya harus berupaya menggabungkan perbandingan dengan pencitraan medis Ingelheim, dan Roche.
sebelumnya, yang saat ini sedang dieksplorasi (24).

Penelitian kami memiliki beberapa keterbatasan. Pertama, meskipun


sampel yang digunakan berurutan, sampel ini mungkin kurang dapat Referensi
digeneralisasikan selain di rumah sakit karena median usia yang tinggi 1. Raoof S, Feigin D, Sung A, Raoof S, Irugulpati L, Rosenow EC ke-3.
Interpretasi foto polos dada. Peti 2012;141(2):545–558.
dalam sampel dan tingginya prevalensi pasien dengan temuan multipel 2. Eng J, Mysko WK, Weller GER, dkk. Interpretasi radiografi Departemen
pada radiografi dada. Kedua, definisi penyakit yang digunakan sebagai Gawat Darurat: perbandingan dokter pengobatan darurat dengan ahli
standar acuan kami mungkin berbeda dengan definisi yang digunakan radiologi, residen dengan fakultas, dan film dengan tampilan digital. AJR
Am J Roentgenol 2000;175(5):1233–1238.
dalam pelatihan AI, sehingga mungkin lebih memilih salah satu alat AI 3. Gatt ME, Spectre G, Paltiel O, Hiller N, Stalnikowicz R. Radiografi dada di unit
dibandingkan alat lainnya. Ketiga, alat AI dibandingkan dengan laporan gawat darurat: apakah ahli radiologi benar-benar diperlukan? Kedokteran
radiologi klinis yang dihasilkan oleh ahli radiologi yang memiliki akses Pascasarjana J 2003;79(930):214–217.
4. Çallı E, Sogancioglu E, van Ginneken B, van Leeuwen KG, Murphy K. Pembelajaran mendalam
terhadap radiografi dada lateral, informasi klinis, dan pencitraan untuk analisis rontgen dada: Sebuah survei. Anal Gambar Medis 2021;72:102125.
sebelumnya, sedangkan alat AI tidak, sehingga memberikan 5. van Leeuwen KG, Schalekamp S, Rutten MJCM, van Ginneken B, de Rooij
M. Kecerdasan buatan dalam radiologi: 100 produk yang tersedia secara
“keuntungan yang tidak adil” bagi ahli radiologi. Selain itu, Akurasi ahli
komersial dan bukti ilmiahnya. Radiol Euro 2021;31(6):3797–3804.
radiologi klinis untuk pneumotoraks meningkat karena metode inklusi 6. Li D, Pehrson LM, Lauridsen CA, dkk. Efek Tambahan Kecerdasan
pengayaan untuk pemeriksaan dengan temuan ini, yang diidentifikasi Buatan pada Kinerja Dokter dalam Mendeteksi Patologi Toraks pada
menggunakan laporan radiologi yang sama yang disertakan dalam CT dan Rontgen Dada: Tinjauan Sistematis. Diagnostik (Basel)
2021;11(12):2206.
analisis kami. Keempat, analisis untuk penelitian ini dilakukan pada 7. KimC, Yang Z, Park SH, dkk. Validasi eksternal multisenter dari perangkat lunak kecerdasan
tingkat pemeriksaan dan, oleh karena itu, alat AI dan ahli standar buatan komersial untuk menganalisis rontgen dada di lingkungan pemeriksaan kesehatan
dengan prevalensi penyakit yang rendah.EurRadiol2023;33(5):3501–3509.
referensi dapat mengambil keputusan berdasarkan piksel yang berbeda
8. Pemilih AF, Larson ME, Garrett JW, Yu JJ. Akurasi Diagnostik dan Analisis Mode
pada radiografi dada. Hal ini akan memberikan keuntungan terhadap Kegagalan Algoritma Pembelajaran Mendalam untuk Deteksi Fraktur Tulang
alat AI yang kurang spesifik karena temuan positif palsu dapat dihitung Belakang Serviks. AJNR Am J Neuroradiol 2021;42(8):1550–1556.

sebagai positif nyata dan karenanya meningkatkan kinerja AI. Namun, 9. Oakden-Rayner L, Gale W, Bonham TA, dkk. Validasi dan audit algoritmik
dari sistem pembelajaran mendalam untuk mendeteksi fraktur femur
karena tingginya spesifisitas alat AI untuk pneumotoraks dan efusi proksimal pada pasien di unit gawat darurat: studi akurasi diagnostik.
pleura, hal ini mungkin hanya relevan untuk deteksi penyakit wilayah Kesehatan Lancet Digit 2022;4(5):e351–e358.
udara. Kelima, tidak ada radiografi dada lateral yang digunakan sebagai 10. Sun J, Peng L, Li T, dkk. Kinerja Alat Diagnostik AI Radiografi Dada
untuk COVID-19: Studi Observasional Calon. Radiol Artif Intell
masukan pada alat AI mana pun, sehingga tidak diketahui apakah kedua 2022;4(4):e210217.
vendor AI dengan kapasitas pemrosesan gambar lateral dapat memiliki 11. Taman SH. Kontrol Kasus Diagnostik versus Studi Kelompok Diagnostik
performa yang sedikit lebih tinggi. Terakhir, penelitian ini merupakan untuk Validasi Klinis Kinerja Algoritma Kecerdasan Buatan. Radiologi
2019;290(1):272–273.
studi retrospektif terhadap kinerja alat AI yang berdiri sendiri, meskipun 12. Pusat AI. Institut Ilmu Data, American College of Radiology. https://
alat AI tersebut telah disetujui secara klinis aicentral.acrdsi.org/. Diakses 1 Mei 2023.

12 radiologi.rsna.org ■ Radiologi:Volume 308: Nomor 3—September 2023


Lind Plesner dkk

13. Bossuyt PM, Reitsma JB, Bruns DE, dkk. STARD 2015: daftar terbaru ahli radiologi: studi multikasus retrospektif dan multireader. Kesehatan Lancet Digit
item penting untuk melaporkan studi akurasi diagnostik. BMJ 2021;3(8):e496–e506.
2015;351:h5527. 20. van Beek EJR, Ahn JS, Kim MJ, Murchison JT. Studi validasi perangkat lunak
14. Tim Inti R. R: Bahasa dan lingkungan untuk komputasi statistik. Wina, rontgen dada pembelajaran mesin dalam pengobatan primer dan darurat. Klinik
Austria: R Foundation for Statistical Computing, 2022. Radiol 2023;78(1):1–7.
15. Ahn JS, Ebrahimian S, McDermott S, dkk. Asosiasi Interpretasi Radiografi 21. Kim JH, Kim JY, Kim GH, dkk. Validasi Klinis Algoritma Pembelajaran
Dada Berbantuan Kecerdasan Buatan Dengan Kinerja dan Efisiensi Mendalam untuk Deteksi Pneumonia pada Radiografi Dada pada
Pembaca. JAMA Netw Terbuka 2022;5(8):e2229289. Pasien IGD dengan Penyakit Pernafasan Demam Akut. J Clin Med
16. Hillis JM, Bizzo BC, Mercaldo S, dkk. Evaluasi Model Kecerdasan Buatan 2020;9(6):1981.
untuk Deteksi Pneumothorax dan Tension Pneumothorax pada Radiografi 22. Gipson J, Tang V, Seah J, dkk. Keakuratan diagnostik dari algoritma pembelajaran mendalam yang
Dada. JAMA Netw Terbuka 2022;5(12):e2247172. tersedia secara komersial pada radiografi dada terlentang setelah trauma.
17. Hong W, Hwang EJ, Lee JH, Park J, Goo JM, Park CM. Pembelajaran Mendalam Br J Radiol 2022;95(1134):20210979.
untuk Mendeteksi Pneumotoraks pada Radiografi Dada setelah Biopsi Jarum: 23. Choi SY, Park S, Kim M, Park J, Choi YR, Jin KN. Evaluasi algoritma deteksi
Implementasi Klinis. Radiologi 2022;303(2):433–441. berbantuan komputer berbasis pembelajaran mendalam pada radiografi dada:
18. Nam JG, Kim M, Park J, dkk. Pengembangan dan validasi algoritma pembelajaran Studi kasus-kontrol. Kedokteran (Baltimore) 2021;100(16):e25663.
mendalam yang mendeteksi 10 kelainan umum pada radiografi dada. Euro 24. Bannur S, Hyland S, Liu Q, dkk. Belajar Memanfaatkan Struktur Temporal
Respir J 2021;57(5):2003061. untuk Pemrosesan Bahasa Penglihatan Biomedis. arXiv 2301.04558
19. Seah JCY, Tang CHM, Buchlak QD, dkk. Pengaruh model pembelajaran mendalam [pracetak] https://arxiv.org/abs/2301.04558. Diposting 11 Januari 2023.
yang komprehensif terhadap keakuratan interpretasi rontgen dada oleh Diakses 13 April 2023.

Radiologi:Volume 308: Nomor 3—September 2023 ■ radiologi.rsna.org 13

Anda mungkin juga menyukai