Translated Copy of 1362361315592378
Translated Copy of 1362361315592378
378
AUT0010.1177 / 1362361315592378AutismPantelis dan Kennedy penelitian-article2015
Ulasan
Autisme
Estimasi prevalensi autisme
2016, Vol. 20 (5) 517 -527 © The Author (s) gangguan 2015 spektrum di Korea Selatan, ditinjau
Cetak ulang dan izin: sagepub.co.uk/journalsPermissions.nav DOI: 10,1177 / 1362361315592378 aut.sagepub.com
Pendahuluan
sekunder dari diagnosa komunitas dan klinik berbasis gangguan spektrum autisme (ASD) sering kekurangan
kekakuan evaluasi standar emas yang digunakan dalam penelitian ilmiah dan mungkin bias oleh arus tren
diagnostik, kekhawatiran orangtua, dan urgensi praktis dari sistem perawatan kesehatan ern mod-. Oleh karena itu,
dalam rangka mencapai estimasi terbaik dari prevalensi ASD, orang akan ide- sekutu menguji seluruh populasi
sasaran menggunakan standar emas alat diagnostik. Namun, pendekatan ini tidak praktis untuk beberapa alasan:
pertama, umumnya tidak mungkin untuk mengakses seluruh penduduk; kedua, standar emas alat nostic diag- mahal
dalam hal waktu dan sumber daya (Autism Diagnostic Observation Jadwal (ADOS;. Tuhan et al, 2001) dan Autism
Diagnostic Wawancara Revisi (ADI-R;. Tuhan et al, 1994 ) memerlukan beberapa jam untuk diberikan, setelah
diagnosis diberikan oleh dokter yang telah menjalani pelatihan yang cukup untuk menjadi memuaskan handal
dengan instrumen ini). Menguji seluruh penduduk dengan ini diagnostikmahal
alat Indiana University, Amerikaakan menjadi cara
yang efisien untuk mengungkap kasus kondisi langka.
Oleh karena itu, peneliti mengendap untukestimasi berasal
sampelkembali ke populasi yang lebih luas. Ada dua pendekatan epidemiologi dasar desain penelitian ini,
masing-masing dengan kekuatan dan kelemahan mencatat. Yang pertama adalah desain-fase tunggal, dimana subset
acak dari populasi yang dipilih, dan praktek diagnostik standar emas diterapkan untuk bagian yang lebih kecil ini.
Ini mengatasi beberapa biaya Test- ing seluruh penduduk, namun masih kekurangan efisiensi ketika kondisi ini
jarang terjadi; untuk mencapai keyakinan bahwa yang benar prevalensi lation ketenarannya jatuh dalam selang
waktu setiap presisi yang berguna, salah satu mungkin perlu untuk mengelola ratusan, jika tidak ribuan, tes pada
individu yang dipilih secara acak. Dan untuk ganda presisi, salah satu harus biasanya menguji lebih dari dua kali
lipat individu-lebih seperti 3-4 kali lebih banyak. Desain dua-fase mencoba untuk mengatasi tions limita- dengan
memperkenalkan fase penyaringan awal, dalam rangka untuk fokus pengujian pada (non-random) sampel dari
penulisSesuai: Peter C Pantelis, Departemen Psikologi dan Ilmu Otak, Indiana University, 1101 E. 10th Street, Bloomington, IN
47.405, USA. dari sampel yang lebih kecil dan berharap untuk menggeneralisasi dariini:
Email pcpantel@indiana.edu
518 Autisme 20 (5)
populasi yang lebih mungkin untuk memiliki kondisi langka. Emas standar evaluasi diagnostik dapat terkonsentrasi
pada sampel layar-positif, dan jumlah con- menguat kasus di bagian ini individu dapat digunakan untuk
menggeneralisasi kembali ke populasi yang lebih luas. Dalam kondisi ideal, memperkenalkan screener-tahap
pertama (mungkin salah satu dari banyak tersedia kuesioner skrining ASD;. Lihat Baron-Cohen et al, 2001;
Chandler et al, 2007;. Posserud et al, 2006;. Ritvo et al, 2011. ) secara teoritis memungkinkan untuk penyebaran
yang efisien sumber daya yang langka.
Faktor kunci dalam menurunkan perkiraan prevalensi dengan desain dua fase adalah seberapa baik screener
dipilih discrim- inates antara mereka yang benar-benar memiliki kondisi tertentu dan mereka yang benar-benar tidak
(McNamee, 2003). Misalnya, jika salah satu mempekerjakan screener dengan sensitivitas yang sempurna (yaitu
100% dari individu disaring dengan ASD datang positif), maka salah satu dapat yakin bahwa screener akan
menangkap setiap kasus ASD dalam populasi target (yaitu tidak akan ada terjawab kasus mengintai di antara negatif
layar). Tetapi jika screener memiliki kurang dari sensitivitas sempurna pada cutoff diberikan skor-seperti umumnya
benar-maka ini harus menjadi faktor dalam desain dan analisis, dan perkiraan prevalensi harus disesuaikan. Selain
itu, jika salah satu tidak yakin tentang betapa sensitif dan spesifik screener pertama adalah di ambang tertentu, ini
tentu membatasi ketepatan estimasi yang dihasilkan (Erkanli et al., 1997). Untuk ini dalih di balik, menggunakan
cutoff tunggal untuk Screener-fase pertama dan tidak sampel peserta di bawah ambang batas untuk kedua-tahap
evaluasi-menghambat mation esti- statistik prevalensi (Dunn et al., 1999).
Peracikan ketidakpastian di kedua tunggal-fase dan dua-tahap desain adalah bahwa pilihan non-acak peserta
penelitian (misalnya melalui non-respon bias) dapat sangat mempengaruhi hasil (Posserud et al., 2010). Misalnya,
jika individu dengan ASD dua kali lebih mungkin untuk menanggapi sebuah iklan untuk berpartisipasi dalam studi
penelitian, maka responden tidak akan lagi menjadi sampel yang representatif dari populasi yang lebih luas dari
mana mereka ditarik, dan non-respon bias ini akan akhirnya mengakibatkan terlalu tinggi bruto ASD-kecuali sejauh
bias ini diukur dan faktor dalam analisis untuk tepat menyesuaikan estimasi prevalensi.
Pilihan yang optimal antara satu fase dan desain fase dua dapat sangat tergantung pada circumstances- misalnya,
kelangkaan kondisi dan biaya relatif dan kinerja screener dibandingkan dengan penilaian penuh (Shrout dan
Newman, 1989). Namun, desain fase single lebih mudah untuk mengelola dan menganalisis (Deming, 1977), dan
karena komplikasi kal methodologi- yang dapat diperkenalkan oleh desain dua-tahap, beberapa menyeluruh
menyambut kematian mereka (Pangeran, 2003). Pertimbangan seperti ini telah memicu diskusi penting pada
halaman Autisme tentang apakah beberapa ASD estimasi prevalensi lebih tinggi dilaporkan dalamterakhir
beberapa tahunharus dipercaya (Durkin et al, 2014;. Mandell dan Lecavalier 2014; Newschaffer 2015). Di sini, kita
mengembangkan beberapa argumen ini dengan cara yang menyeluruh dan kuantitatif, yang menggambarkan
konsekuensi dari pilihan odological meth- khusus pada hasil estimasi prevalensi. Daripada membuat poin murni
teoritis, kita menggunakan sebuah temuan profil tinggi baru-baru ini sebagai studi kasus (Kim et al., 2011).
Para penulis penelitian ini menggunakan desain dua-tahap untuk memperkirakan bahwa ASD mempengaruhi
2,64% dari Dren chil- berusia 12 tahun 7- ke dalam distrik Korea Selatan. Ini adalah ing menemukan-mencolok dan
menarik perhatian bukan hanya karena prevalensinya lebih tinggi daripada perkiraan diterbitkan lain (Elsabbagh et
al., 2012), tetapi juga karena penelitian menyimpulkan bahwa 90% dari mereka dengan ASD dalam populasi target
mereka sedang menghadiri sekolah umum, dan 72% tidak memiliki riwayat layanan psikiatris atau psikologis
apapun. Data yang sama terus diperluas dalam studi berikutnya (Kim et al., 2014), dan ings menemukan-kelompok
penelitian ini menimbulkan pertanyaan penting. Apakah mayoritas tersembunyi dari kasus ASD yang tidak
terdiagnosis juga ada di negara lain? Apakah ada sesuatu yang unik tentang Korea Selatan yang pantas penyelidikan
tambahan sehubungan dengan tingkat yang sangat tinggi ini?
Pada awalnya, kami ingin membuat jelas bahwa ini bukan satu-satunya studi yang keprihatinan ini mungkin
berlaku. Salah satu alasan mengapa kami memilih penelitian ini adalah karena ruang lingkup dan provokatif
kesimpulan yang sangat ambisius mengakibatkan dampak dalam commensurately tinggi, baik melalui literatur yang
ilmiah (lebih dari 450 Google Scholar kutipan to date) dan saluran utama (misalnya statistik terdaftar di situs resmi
Pusat Pengendalian dan Pencegahan Penyakit). Faktor lain yang penting adalah bahwa makalah ini terdapat cukup,
detil metodologis dipahami, sehingga kita bisa kembali mengeksplorasi analisis dan bekerja melalui mereka dengan
cara kuantitatif.
Kami berharap untuk menyampaikan serangkaian poin, baik umum untuk masalah estimasi prevalensi dan khusus
untuk studi kasus ini.
1. kesehatan asumsi yang mendasarinya adalah cal criti- untuk derivasi dari perkiraan prevalensi bermakna. 2.
asumsi tertentu akhirnya dapat membatasi asumsi lainnya. Satu set asumsi dapat diri memalsukan. 3. Ketidakpastian
asumsi sekitarnya harus diperhitungkan dalam prosedur estimasi; bijaksana, interval kepercayaan lain-akan artifisial
kecil. 4. Kesimpulan: dalam kasus ini, perkiraan prevalensi 2,64% berasal dari asumsi tidak masuk akal, sehingga
perkiraan tidak dapat diandalkan dan kepercayaan meningkat dalam presisi perkiraan ini.
Pantelis dan Kennedy 519
Metode
Untuk memulai, kami merangkum metodologi Kim et al. (2011) kertas, atas mana kita mendasarkan argumen kami.
Untuk rincian lengkap, kita merujuk pembaca tertarik untuk publikasi nal origi- dan bahan pembantu nya.
Populasi sasaran terdiri dari 55.266 anak-anak (aged7-12 tahun) yang tinggal di distrik Ilsan dari Goyang City,
Korea Selatan, pada saat penelitian. Estimasi titik prevalensi studi 2,64% menyiratkan bahwa, dari anak-anak di
populasi sasaran, 55.266 × 2,64% = 1459 diperkirakan telah memiliki ASD. Sebagai bagian dari perhitungan
penulis, mereka memperkirakan bahwa 150 dari anak-anak ini dengan ASD berada di registri cacat atau di
sekolah-sekolah pendidikan khusus. Tarif dari ASD antara subset kecil ini anak-anak (n = 294) dianggap secara
singkat dan secara terpisah oleh penulis dan tidak faktor menonjol dalam cerns con- berikutnya; Namun demikian,
tingkat diduga ini menyiratkan bahwa 1459 - 150 = 1309 anak-anak dengan ASD diperkirakan oleh penulis telah
menghadiri sekolah pendidikan reguler.
Dari 41 sekolah pendidikan reguler di kabupaten, 30 setuju untuk berpartisipasi dalam penelitian ini. Tidak
semua keluarga di sekolah yang berpartisipasi setuju untuk berpartisipasi dalam fase screener pertama-(Autism
Spectrum Screening Questionnaire (ASSQ)). Salah satu asumsi kunci yang digunakan penulis untuk mendapatkan
estimasi prevalensi (yang kita akan kembali) adalah bahwa sekolah-sekolah yang berpartisipasi dan keluarga diri
dipilih yang akhirnya menanggapi screener itu tidak lebih dan tidak kurang cenderung memiliki anak dengan
ASD-eksplisit asumsi zero non-respon bias yang. Lihat Gambar 1 untuk ilustrasi prosedur pengambilan sampel ini,
dianggap telah mencapai sampel dasarnya acak 23.234 dari 54.972 anak yang terdaftar di sekolah reguler di
kabupaten ini.
Mengingat kurangnya diasumsikan bias dalam partisipasi sekolah, perkiraan penulis terbaik dari jumlah
anak-anak dengan ASD menghadiri sekolah pendidikan reguler yang berpartisipasi akan 1309 × 66,6% = 871.
Kemudian, mengingat kurangnya diasumsikan bias seleksi mandiri dalam menanggapi untuk screener, estimasi
penulis terbaik dari jumlah anak-anak dengan ASD yang keluarganya setuju untuk berpartisipasi akan 871 × 63,5%
= 553. pada titik ini, 23.234 Total anak disaring (yang 553 harus memiliki ASD, mengingat prevalensi 2,64%),
terutama dengan porsi orangtua-selesai dari ASSQ (sekitar 1% dari anak-anak ini juga memiliki porsi guru-selesai
dari ASSQ selesai untuk mereka). Tepat 1742 anak diskrining positif, dan 21.492 disaring negatif.
Sayangnya, sensitivitas yang tepat dan spesifisitas ASSQ pada nilai cutoff yang digunakan tidak diketahui, dan
karena itu tidak bisa, pada fase ini, tahu betapa banyak dari 1742 positif layar yang positif benar atau salah, atau
berapa banyak dari layar 21.492 negatif adalah benar atau salah negatif (lihat Tabel 1). Tapi membuat beberapa
perkiraan
sensitivitas dan spesifisitas dari screener-tahap pertama merupakan langkah tak terhindarkan dan kritis dalam desain
dua-fase itu, seperti ini, tidak mencicipi salah satu peserta layar-negatif (yang terdiri dari 93% responden) untuk
penilaian lebih lanjut pada tahap kedua (Erkanli et al., 1997).
Satu bisa menggunakan tahap kedua untuk mengkalibrasi screener fase pertama-(Bekmetjev et al, 2012.); yaitu,
sensitivitas dan spesifisitas prosedur penyaringan (yaitu tahap pertama) dapat diperkirakan secara empiris dengan
menguji tingkat ASD baik dalam prosedur diagnostik standar layar-positif dan layar-negatif sam- prinsip keuangan
dengan emas (yaitu tahap kedua) . Bergantian, sensitivitas dan spesifisitas ASSQ di ambang batas tertentu bisa
kira-dikawinkan dari studi validasi sebelumnya (Ehlers et al, 1999;.. Posserud et al, 2009; lihat Tabel 3). Atau, salah
satu bisa menghindari menetapkan cutoff yang ketat sama sekali, bukan stratifikasi sampel ke dalam rentang skor
(dari atas ke bawah skala) dan sampling dari setiap strata untuk evaluasi tahap kedua.
Dalam penelitian ini, penulis mengambil satupun dari pendekatan ini sehubungan dengan memperkirakan
sensitivitas screener mereka, bukan hanya asumsi itu menjadi 100%. Ini bukan asumsi yang paling masuk akal, per
se, tapi itu asumsi yang-sebagai penulis benar diperhatikan-paling mungkin untuk menghasilkan terlalu tinggi dari
prevalensi. Kami tidak meneliti asumsi ini saat ini; bukan, kami menyebutkan itu karena implikasinya: mengingat
bahwa 553 anak-anak dengan ASD akan telah diputar di bawah asumsi yang dibuat ke titik ini, semua 553
anak-anak dengan ASD akan disaring positif di bawah asumsi lebih lanjut dari sensitivitas 100%.
Ini berarti bahwa penulis diasumsikan 0 negatif palsu dan digunakan tahap kedua penelitian untuk mendapatkan
perkiraan 553 positif sejati (lihat Tabel 2). Meskipun prosedur stratifikasi rumit dipekerjakan di tahap kedua untuk
menurunkan perkiraan ini yang terakhir dari jumlah positif sejati (prosedur yang sulit untuk setia merekonstruksi
dengan- keluar yang lengkap rincian metodologi dan data di luar lingkup publikasi asli, dan yang dengan demikian
kita memperlakukan sebagai “kotak hitam”), prosedur menimbang-kembali sederhana kemudian digunakan untuk
bekerja mundur dari tahap screening ke atas diagram alur, dalam rangka untuk memperoleh total perkiraan alence
prev- untuk target populasi.
Ini adalah bit informasi yang penting karena, mengingat jumlah dianggap positif sejati (553), salah satu dapat
menyimpulkan bahwa akan ada 1189 positif palsu dan 21.492 negatif yang benar (lihat Tabel 2). Dengan demikian,
seseorang dapat merekonstruksi spesifisitas tersirat dari prosedur penyaringan (yang centage per- individu tanpa
ASD yang benar disaring negatif): 95%.
Kita sekarang mengajukan pertanyaan-pertanyaan berikut: Apakah kinerja diduga dari screener ini (sensitivitas
100% dan 95% spesifisitas) masuk akal? Adalah titik estimasi prevalensi 2,64% wajar? Bagaimana diperkirakan
95% confi- dence interval (1,91%, 3,37%)?
520 Autisme 20 (5)
Dalam rangka untuk menjawab pertanyaan ini, kita melakukan simulasi Monte Carlo penelitian Kim et al. Itu.
Simulasi dimulai pada awal diagram alur yang ditampilkan pada Gambar 1 dan cermin metodologi yang diuraikan di
atas dalam berbagai asumsi awal. Rincian prosedur simulasi ini diberikan dalam Tambahan 1 (disediakan secara
online).
Hasil
kesehatan asumsi yang mendasari adalah penting untuk derivasi dari perkiraan prevalensi yang
berarti
atas, kami mengidentifikasi beberapa langkah di mana asumsi diperkenalkan oleh penulis dalam rangka untuk
memperoleh berikutnya
Populasi Sasaran 55.266 Anak-anak
Gambar 1. diagram alir metodologi Kim et Al. (2011). Rincian tambahan dapat ditemukan dalam artikel asli.
nilai-nilai. Secara khusus, asumsi mengenai non-respon bias (diasumsikan nol) dan sensitivitas screener
(diasumsikan 100%) tampak kritis. Apa yang akan menjadi implikasi memilih asumsi awal yang berbeda?
Sebagai contoh, penulis mengakui stigma sekitar diagnosis kesehatan mental di Korea Selatan (lihat Kang-Yi et
al., 2013). Jadi, bagaimana jika, karena stigma ini, orang tua dari anak-anak dengan ASD sebenarnya 30% lebih
kecil kemungkinannya untuk mengisi screener dari sebelumnya diasumsikan (sponding corre- ke tingkat partisipasi
ASD 44% bukan 63,5%)? Hal ini akan meningkatkan titik estimasi prevalensi 3,7% -a peningkatan 40% dalam hasil
estimasi yang dihasilkan dari perubahan kecil untuk asumsi yang mendasari tunggal. Atau, bagaimana jika salah satu
diasumsikan bahwa orang tua dari Dren chil- dengan ASD adalah 30% lebih mungkin untuk berpartisipasi dari
Pendidikan Khusus / Disability 294
Tahap 1: Autism Spectrum Screening Questionnaire (ASSQ)
Kembali untuk Assessment 234
Tahap 2: Standar Emas Clinical Assessment
30 (dari 41) Sekolah Berpartisipasi 36.592
Reguler Sekolah Pendidikan 54.972
menyetujui untuk Penilaian 785
disaring Positif 1742
Contoh Stratified 1111
ASD Diagnosis 152
23.234
Pantelis dan Kennedy 521
Tabel 1. empat hasil yang mungkin dari screener seperti ASSQ yang: positif sejati, positif palsu, benar negatif, dan negatif palsu.
Layar layar positif negatif Jumlah
Anak-anak dengan ASD positif Benar? Negatif palsu? ? Anak-anak tanpa ASD Salah positif? Negatif yang benar? ? Total 1742
21.492 23.234
ASSQ: Autism Spectrum Screening Angket; ASD: autisme spektrum gangguan.
Tabel 2. benar positif, positif palsu, negatif benar, dan negatif palsu yang dihasilkan oleh ASSQ, seperti yang tersirat oleh Kim et
al.
Layar layar positif negatif Jumlah
Anak-anak dengan ASD 553 0 553 Anak-anak tanpa ASD 1189 21.492 22.681 Jumlah 1742 21.492 23.234
ASSQ: Autism Spectrum Screening Angket; ASD: autisme spektrum gangguan.
Tabel 3. Sebuah tinjauan singkat dari instrumen skrining ASD.
Skrining autis alat Studi Sampel Sensitivitas d
'ASSQ(Swedia; induk) Ehlers et al. (1999) ASD + vs ketidakmampuan belajar 48% 1,4-2,1 ASSQ (Swedia; guru) Ehlers et al.
(1999) ASD + vs ketidakmampuan belajar 65% 1,3-1,9 ASSQ (Norwegia; induk) Posserud et al. (2009) Jumlah penduduk 91%
2.1 ASSQ (Norwegia; guru) Posserud et al. (2009) Jumlah penduduk 83% 2.1 ASSQ (Norwegia; Max [Guru, Orang Tua])
Posserud et al. (2009) Jumlah penduduk 91% 2.4 ASSQ (Cina; Parent) Guo et al. (2011) ASD + vs ASD- 82% 2,3-2,9
Autisme spektrum quotient Baron-Cohen et al. (2001) ASD + vs populasi umum 86% -95% 2,4-3,0 Sosial Responsiveness Skala
Constantino et al. (2007) PDD + vs PDD- 75% 2.4 Komunikasi Sosial Angket Chandler et al. (2007) ASD + vs populasi umum
88% 2,8
Sensitivitas sewenang-wenang tergantung pada cutoff yang dipilih; dengan demikian, kami menyediakan (perkiraan) kepekaan
masing-masing instrumen yang akan sesuai dengan kekhususan 95% tersirat oleh Kim et al. Sebaliknya, d 'secara teoritis ambang
batas-independen dan, di sini, menyampaikan seberapa baik suatu instrumen discrimi- Nates individu dengan ASD dari individu
tanpa ASD. ASSQ: Autism Spectrum Screening Angket; ASD: autisme spektrum gangguan; PDD: gangguan perkembangan
pervasif.
sebelumnya diasumsikan (sesuai dengan tingkat partisipasi 83% ASD bukan 63,5%)? Titik estimasi prevalensi akan
turun menjadi 2,1%.
Demikian pula, bagaimana jika penulis diasumsikan sensitivitas screener-tahap pertama dari 80%, bukan 100%?
Titik estimasi prevalensi akan meningkat menjadi 3,2%.
Dengan demikian, pilihan asumsi berat mempengaruhi estimasi berasal. Tanpa informasi tambahan untuk yang
nilai-nilai yang paling masuk akal (dalam hal baik respon bias non atau sensitivitas), kepercayaan pada perkiraan
yang dihasilkan akan selalu terbatas.
Asumsi membatasi asumsi lain Seperti yang telah kita ditunjukkan di atas, asumsi faktor cukup berat ke perhitungan
perkiraan prevalensi. Di sini, kami menunjukkan bahwa asumsi implisit dapat membatasi nilai-nilai sible pos-
parameter kunci lainnya masuk ke dalam perhitungan alence prev- dan seperangkat asumsi memang bisa menjadi
diri memalsukan.
Karena hanya 7,5% dari anak-anak (1742 dari 23.234) diputar positif pada tahap pertama, kekhususan prosedur
penyaringan sebenarnya dibatasi cukup tinggi; pada kenyataannya, tidak peduli apa prevalensi diduga mendasari,
non-respon bias, dan sensitivitas screener, kekhususan instrumen skrining akan harus jatuh dalam kisaran yang
sempit (93% -96%). Jika 2,64% lence preva- diambil untuk menjadi kenyataan (estimasi titik yang penulis berasal),
dan nol non-respon bias dan screener sensitivitas 100% juga diasumsikan (asumsi yang digunakan oleh penulis
untuk memecahkan bahwa estimasi titik), maka set ini kendala lanjut menunjukkan bahwa kekhususan screener akan
harus jatuh dalam kisaran sempit masih (94% -95%). Nilai spesifisitas ini (sekitar 95%) tidak secara eksplisit
diasumsikan atau disediakan untuk ers read, tetapi dibatasi oleh nilai-nilai diasumsikan dan berasal lainnya.
Sekarang, kita bertanya apakah sensitivitas / spesifisitas bination com- dari 100% / 95% sebenarnya karakteristik
dari screener mereka dipekerjakan (yang ASSQ).
522 Autisme 20 (5)
sensitivitas tinggi (seperti 100% screener sensitivitas diasumsikan) umumnya datang dengan mengorbankan
berkurang spesifisitas; untuk menangkap 100% dari individu dengan ASD dengan standar instrumen non-emas, akan
ada sejumlah besar positif palsu. Tidak ada screener memiliki sensitivitas yang sempurna dan spesifisitas; jika tidak,
itu akan menurut definisi dianggap sebagai standar emas.
Instrumen skrining dapat dibuat menjadi 100% sensitif dengan memberlakukan skor cutoff sewenang-wenang
rendah. Dalam kasus ekstrim, alat skrining yang mengidentifikasi setiap orang sebagai memiliki kondisi tidak hanya
akan 100% sensitif (yaitu memproduksi tidak ada negatif palsu) tetapi juga menjadi 0% tertentu, dan karena itu
sepenuhnya tidak efektif. Sensitivitas dan spesifisitas berhubungan langsung dengan satu sama lain dan bisa- tidak
dianggap secara terpisah.
Untuk memudahkan perbandingan di studi, kita mengubah kombinasi sensitivitas / spesifisitas menjadi 'nilai d
tunggal, 1 yang merupakan ukuran tunggal seberapa baik screener discrimi- keabu antara mereka dengan atau tanpa
kondisi. Tabel 3 mengkompilasi kinerja ASSQ di berbagai penelitian, di samping kinerja beberapa monly digunakan
instrumen skrining com- lainnya, untuk konteks tambahan. Ketika ASSQ yang digunakan sebelumnya dengan total
sampel tion popula- (seperti dalam penelitian ini), d 'adalah (terbaik) 2,4. Namun, diduga d 'dari ASSQ dalam
penelitian ini adalah setidaknya 4,2 jauh lebih diskriminatif dari kinerja terbaik dilaporkan dalam penelitian
sebelumnya, 3 termasuk studi yang dikembangkan instrumen (Ehlers et al, 1999;. Posserud et al ., 2009).
Kami berpendapat bahwa ini d dilaporkan sebelumnya 'dari 2,4 kemungkinan kinerja langit-langit untuk ASSQ,
seperti yang diterapkan dalam artikel ini, karena banyak tantangan praktis yang dihadapi oleh Kim et al.
1. threshold optimal diperoleh Posserud et al. (2009) ditetapkan dengan pengetahuan retrospektif kasus ASD positif
dan negatif, dan dengan demikian ceptible mempertahankan satu untuk overfitting. Ambang digunakan oleh Kim et
al. didirikan apriori. 2. Posserud et al. (2009) mencapai hasil terbaik mereka ketika menggunakan orangtua dan guru
bagian dari ASSQ di tandem. Dalam penelitian ini, hanya ity Minor kecil siswa (1%) memiliki porsi guru dari
ASSQ selesai. Sebagian besar kasus layar-posi- tive (87%) dan layar-negatif kasus (99% +) diputuskan atas dasar
induk ASSQ saja. 3. Sebanyak 6% dari responden orang tua tidak com- plete halaman kedua dari ASSQ tersebut;
dengan demikian, banyak item yang disimpulkan untuk anak-anak mereka. 4. Para penulis menerjemahkan ASSQ
dari bahasa di mana ia divalidasi untuk Korea, yang tampaknya tidak mungkin telah meningkatkan kinerjanya.
Ini kendala praktis tidak ada kesalahan dari penulis; memang, mereka adalah konsekuensi dari keputusan yang
sangat wajar dan defen- sible dibuat pada berbagai tahap proses penelitian.
Namun demikian, masing-masing pertimbangan berfungsi untuk membatasi kinerja yang mungkin dari ASSQ dalam
konteks ini. Dan, mengingat perkiraan yang lebih realistis kinerja screener, ini par- kombinasi TERTENTU
prevalensi (2,64%), non-respon bias (nol), dan sensitivitas screener (100%) tidak kompatibel.
Jika penelitian telah diasumsikan lebih realistis, kepekaan lebih rendah, ini akan mengakibatkan perkiraan lence
preva- bahkan lebih tinggi. Artinya, perkiraan yang sudah outlier sehubungan dengan temuan studi terbaru lainnya
akan menjadi lebih ekstrim.
Ketidakpastian asumsi sekitarnya harus diperhitungkan dalam prosedur estimasi; jika tidak,
interval kepercayaan akan artifisial kecil
Hal ini jelas mungkin bahwa asumsi nol non-respon bias dan screener sensitivitas 100% tidak benar. Dan pengakuan
bahwa satu atau kedua asumsi yang pos- sibly salah adalah sama dengan pengakuan bahwa nilai-nilai ini
diasumsikan tidak mungkin diketahui dengan pasti sempurna.
Kurangnya kepastian mengenai asumsi bukan masalah yang fatal, selama peneliti mengakui parameter
diasumsikan sebagai sumber bermakna dari ketidakpastian estimasi mereka akhirnya berasal. Namun, Kim et al.
rupanya dibangun interval kepercayaan mereka di bawah asumsi implisit justru nol non-respon bias dan tepat 100%
sensitivitas. Ini berarti bahwa interval kepercayaan melaporkan mereka tercermin ketidakpastian akibat random
sampling bawah asumsi-asumsi menyatakan, dan ketidakpastian jumlah tives posi- benar diperkirakan pada tahap
kedua, tetapi tidak mencerminkan ketidakpastian tambahan disalut seputar asumsi-asumsi diri. Dengan kata lain,
nilai-nilai ini akan masuk ke dalam model statistik (atau dalam kasus kami, tion simulation) sebagai tunggal,
parameter yang tepat, bukan sebagai tion distribu- nilai-nilai yang masuk akal untuk parameter ini.
Agar final estimasi prevalensi diturunkan untuk menjadi komunikasi yang berarti ke dunia klinis, estimasi (dan
interval kepercayaan nya) harus memperhitungkan semua sumber yang dikenal dan penting ketidakpastian. Jika
tidak, kesimpulan akan perlu terus memenuhi syarat (yaitu ASD prevalensi cenderung jatuh antara 1,91% dan 3,37%
jika kita menganggap nol non-respon bias dan screener sempurna sensitif).
Para penulis diasumsikan nol non-respon bias yang karena ada alasan bertentangan mengapa satu mungkin
berharap bias dalam kedua arah (misalnya tions motiva- bertentangan dari orang tua untuk menghindari stigma, vs
untuk memperoleh informasi yang mungkin bisa membantu anak-anak mereka). Meski begitu, kita masih harus rec-
ognize bahwa parameter bias ini tidak diketahui dan bisa karena-dalam tidak adanya informasi-tambahan masuk
akal ada di sepanjang berbagai nilai yang mungkin. Satu-satunya kendala keras adalah bahwa setiap individu tidak
bisa
Pantelis dan Kennedy 523
telah lebih dari 100% kemungkinan untuk berpartisipasi dalam fase screener pertama-, bahwa 23.234 individu
sebenarnya partici- pem- buatan, yang 1742 anak diskrining positif, dan bahwa 152 layar-positif individu dalam
sekolah reguler kemudian dikonfirmasi untuk menjadi kasus sejati ASD.
Jadi, daripada asumsi dengan keyakinan yang sempurna yang 63,5% dari anak-anak dengan ASD berpartisipasi
dalam screener (yaitu pada tingkat yang sama persis seperti anak-anak tanpa ASD; asumsi tercermin dalam baris 1,
2, dan 4 dari Gambar 2), itu akan mungkin lebih realistis untuk menganggap bahwa bias nol adalah skenario yang
paling mungkin, sementara pada saat yang sama mengakui bahwa tingkat responden antara ~ 40% dan ~ 80% juga
masuk akal (asumsi awal yang berbeda tercermin dalam baris 3 dan 5 dari Gambar 2).
Demikian pula, orang mungkin mengizinkan rentang lebar kemungkinan sensitivitas screener, berdasarkan sifat
psikometrik kemungkinan besar screener ini. Dalam simulasi kami, kami mengizinkan untuk berbagai kemungkinan,
dengan mungkin kasus yang paling masuk akal menjadi sesuatu seperti 80% -yaitu, cukup baik dalam dem Tan-
dengan 95% spesifisitas, tetapi tidak berarti sempurna (asumsi ing start- tercermin di baris 4 dan 5 dari Gambar 2).
Kami bukan yang pertama untuk membuat titik-titik umum, bahkan tentang makalah ini (Charman, 2011;
Newschaffer 2015). Namun, di sini kita menunjukkan secara kuantitatif bahwa jika salah satu acknowl- tepi bahwa
penulis tidak tahu dengan pasti baik besarnya non-respon bias atau sensitivitas screener, maka estimasi akhir datang
dikemas dalam interval kepercayaan yang artifisial sempit di presisi.
Baris 1 dari Gambar 2 mencerminkan interval keyakinan bahwa hipotetis dapat hasil dari pengetahuan yang
sempurna dari ketiga parameter yang tidak diketahui diperkenalkan oleh desain dua fase: kemungkinan anak dengan
ASD berpartisipasi dalam studi (kolom pertama), sensitivitas pertama screener -phase (kolom kedua), dan jumlah
tives posi- benar ditangkap oleh screener (kolom ketiga). Tion situa- ini akan mengakibatkan ketidakpastian Sejalan
rendah sekitarnya estimasi akhir; sempit interval kepercayaan 95% disajikan dalam kolom keempat hanya akan
mencerminkan kesalahan random sampling, dan untuk mencapai hal itu akan memerlukan tes diagnostik standar
emas dari semua 1742 anak ditangkap oleh screener-tahap pertama, dikombinasikan dengan keyakinan sempurna di
lain asumsi kritis.
Row 2 dari Gambar 2 merupakan model kami prosedur estimasi penulis. Probabilitas anak dengan ASD
berpartisipasi diasumsikan 63,5% (yaitu persis sama dengan probabilitas non-ASD). The screener sensitiv- ity
diasumsikan tepat 100%. Kita model ketidakpastian sekitar perkiraan jumlah positif sejati sebagai yang terdistribusi
normal (μ = 553, σ = 82; perkiraan jumlah positif sejati dan ketidakpastian perkiraan ini berasal oleh penulis
melalui prosedur stratifikasi dan metode inferensi statistik bahwa kita tidak bisa setia merekonstruksi dari rincian
yang diberikan dalam artikel inal orig-; untuk tujuan simulasi, karena itu kita
memperlakukan jumlah positif sejati sebagai nilai yang timbul dari “kotak hitam” tereduksi). Running simulations
under this combination of assumptions replicates the point estimate (2.6%) and 95% confidence interval (1.9%,
3.4%) reported by the authors.
What if one allowed for uncertainty around non- response bias (which we model as being sampled from a beta
distribution; α = 10, β = 5.75), while still assuming perfect knowledge of the screener sensitivity? Row 3 shows
the 95% confidence interval that results from this modified prior assumption. It expands to (1.7%, 4.3%)— 75%
larger than that which was reported by the authors.
What if one instead assumed perfect certainty around the non-response bias, but allowed for a range of plausible
screener sensitivities (which we model as being sampled from a beta distribution; α = 12, β = 3)? Row 4
represents this modified set of assumptions and expands the 95% confidence interval to (2.2%, 4.5%)—50% larger
than what was reported by the authors.
What if one allowed both of these assumptions to reflect a realistic level of uncertainty (row 5)? We argue that a
95% confidence interval reflecting these two sources of uncertainty not accounted for in the original publication
would probably resemble (2.0%, 5.4%)—more than twice as wide as that which was originally reported. The point
estimate, too, would rise to ~3.3%—owing mostly to the entertained possibility of less-than-perfect screener
sensitivity.
Conclusion: A prevalence estimate of 2.64% was derived based on incorrect assumptions and likely presented
within a confidence interval that was unrealistically narrow We have now demonstrated that at least one stated
assump- tion was probably incorrect. We have also shown that the reported confidence interval was artificially
narrow, owing to a failure to account for the fallibility of the assumptions.
Here, it should be emphasized that an estimated number of true positives (true cases of ASD who screened
positive at the first phase) may actually be consistent with many pos- sible underlying prevalences, non-response
biases, and first- phase screener sensitivities. Even if one knew that precisely 553 true positives had been captured
by the first-phase screener, one would still not have solved for a point, but for a surface (mathematically, a manifold
with 2 degrees of freedom) embedded in the three-dimensional parameter space (represented in black in Figure 3).
The authors made assumptions to artificially constrain two of these parameters (non-response bias and screener
sensitivity) to derive the point estimate (represented by the red circle in Figure 3). This estimate represents the point
in the three-dimensional parameter space presented by the authors as the most plau- sible: 2.64% prevalence, 0
participation bias, 100% sensi- tivity/95% specificity of the screener. But there was a whole
524 Autism 20(5)
Probability Prior Probability Prior Probability Prior Probability Prior Probability Prior e
A
tamits E ecnelaver PDSA
sevitiso P eur T
ytivisne S reneerc S
) DSA | noitapicitra P ( P
e
Probability
Prior cnelaver PDS
Pantelis and Kennedy 525
1
0.9
ytivitisne S reneerc S
0.8
0.7
0.6
0.5
0.4
0.3
0.2 0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08 0.2
P(Participation | ASD)
Figure 3. The black surface represents the possible combinations of ASD prevalences, screener sensitivities, and non-response
biases that would be consistent with 553 screener true positives. The cloud of green points is sampled in proportion to the
plausibility of that combination, given 553 screener true positives. The red circle conveys the point estimate put forth by Kim et
al.: 2.64% ASD prevalence, 100% screener sensitivity, and zero non-response bias. (For interpretation of the references to color
in this figure legend, the reader is referred to the online version of this article.)
universe of other possibilities to choose from, many of which may in fact have been more reasonable.
Discussion
Two-phase epidemiological studies aim to increase the efficiency by which precise and acc urate prevalence esti-
mates can be achieved, relative to a single-phase proce- dure. By employing a two-phase design, Kim et al.
produced an estimate that implied 292 gold standard clini- cal assessments had been leveraged into a 95%
confidence interval for ASD4 prevalence of (1.91%, 3.37%), purport- edly generalizable to a broader population of
55,266 South Korean children. To achieve an estimate of similar preci- sion with a single-phase design (given a true
underlying ASD prevalence of 2.64%), one would have had to admin- ister gold standard evaluations to
approximately 2000
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
ASD Prevalence
randomly selected children from the target population— nearly seven times as many.
We argue that this level of reported precision is illusory and only achieved by not accounting for sources of
uncertainty arising from the introduction of the screening instrument and potential non-response bias. A truer
reflection of the precision they achieved would have been conveyed by a point estimate of 3.3% and a confidence
interval of (2.0%, 5.4%)—a preva- lence estimate that is simultaneously both imprecise and 25% higher than their
original estimate, which was already the highest on the scientific record. We emphasize that we do not claim that
3.3% would be a more accurate estimate of ASD prevalence; rather, we note that an estimation procedure yield- ing
this result would give us pause to question whether the added methodological and statistical complications intro-
duced by a multiple-phase design had efficiently increased the accuracy or precision of the prevalence estimate in
this case.
526 Autism 20(5)
The authors apparently took great care in the quality control of their gold standard diagnostic procedure, which
was especially commendable in light of potentially chal- lenging cultural considerations. The benefits yielded by
such care, however, can be hijacked by vulnerabilities else- where in a study's design. A one-phase design may be
ostensibly inefficient, but will only introduce non-response bias once. Each additional phase introduces new
vulnera- bilities, and in the case of Kim et al., potential non-response bias was introduced no fewer than three times:
once for response to the first-phase screener (which we attempted to account for in our analysis), once in obtaining
consent for the second-phase diagnostic procedure, and once when only a minority subset of the consenting
individuals actu- ally returned for evaluation. The assumption of precisely zero non-response bias becomes
increasingly tenuous as each new opportunity for bias is introduced. The relative simplicity and transparency of a
single-phase study—both in terms of administration and subsequent statistical infer- ence—should not be
underestimated as practical benefits of this approach.
For researchers embarking on the ambitious task of prevalence estimation in a total population sample, we
endorse several prescriptions already put forth by others. The larger the study participation rate, the less possible
influence non-response bias can have on the resulting esti- mate. Before embarking on a two-phase design, one
should give serious consideration to the sensitivity and specificity of the screening tools at one's disposal. If one
decides upon a two-phase design, then it is probably best to avoid strict cutoff scores altogether, but if such a
threshold is applied, then the first-phase screener should be calibrated by the second-phase (gold standard)
assessment—which means also testing some of the screen-negative cases. Finally, one should fully explore the
implications of all assumptions that factor into the calculation of the preva- lence estimate (eg how assuming a
particular sensitivity would constrain possible specificities).
On the other hand, we acknowledge that statistical effi- ciency in deriving a prevalence estimate is not always the
sole consideration in a study's design. If Kim et al. had assessed a certain number of screen-negative cases with the
gold standard diagnostic procedure (as we prescribe above), then limited resources would have been diverted from
the gold standard assessment of an equal number of screen-positive cases. Because the latter assessments are more
likely to uncover actual cases of ASD and because helpful interventions may be available for the newly diag- nosed,
ethical considerations at the individual level here trade off with statistical considerations. Kim and col- leagues
identified many individuals in mainstream schools whose condition was previously unknown to both parents and
schools (n = 152, corresponding to 0.3% of the popu- lation), and the benefits to these children and their families
may be quite significant.
As a final note, we do not wish to detract from the much-needed attention the study has brought to mental illness
(and ASD in particular) in South Korea and beyond. We remain hopeful that continued research aim- ing to apply
rigorous diagnostic procedures to total popu- lations (like Kim et al., 2011) may indeed result in better estimates of
ASD prevalence than have been obtainable in the past.
Funding This research received no specific grant from any funding agency in the public, commercial, or not-for-profit sectors.
Notes
1. This formula may be used to estimate d′: norminv (sensitivity) − norminv(1 − specificity), where norminv is the inverse
cumulative distribution function of the standard normal. 2. d′ is infinite when sensitivity is 100%; an estimated d′ of 4
would result from instead assuming 99% sensitivity. 3. One study (Mattila et al., 2012) that employed the Autism Spectrum
Screening Questionnaire (ASSQ) reported ad′ of 4+, but this study, too, assumed 100% sensitivity at a given cutoff rather than
measuring it. 4. The original article reported 286 assessments, adjusted in
subsequent Corrections.
References
Baron-Cohen S, Wheelwright S, Skinner R, et al. (2001) The autism-spectrum quotient (AQ): evidence from Asperger
syndrome/high-functioning autism, males and females, scientists and mathematicians. Journal of Autism and Developmental
Disorders 31(1): 5–17. Bekmetjev A, VanBruggen D, McLellan B, et al. (2012) The cost-effectiveness of reclassification
sampling for preva- lence estimation. PLoS ONE 7(2): 1–6. Chandler S, Charman T, Baird G, et al. (2007) Validation of the
social communication questionnaire in a population cohort of children with autism spectrum disorders. Journal of the American
Academy of Child and Adolescent Psychiatry 46(10): 1324–1331. Charman T (2011) The highs and lows of counting autism.
American Journal of Psychiatry 168(9): 873–875. Constantino JN, Lavesser PD, Zhang Y, et al. (2007) Rapid quan- titative
assessment of autistic social impairment by class- room teachers. Journal of the American Academy of Child and Adolescent
Psychiatry 46(12): 1668–1676. Deming WE (1977) An essay on screening, or on two-phase sampling, applied to surveys of a
community. International Statistical Review 45(1): 29–37. Dunn G, Pickles A, Tansella M, et al. (1999) Two-phase epide-
miological surveys in psychiatric research. British Journal of Psychiatry 174: 95–100. Durkin MS, Bilder DA, Pettygrove S, et al.
(2014) The validity and usefulness of public health surveillance of autism spec- trum disorder. Autism 19(1): 118–119.
Pantelis and Kennedy 527
Ehlers S, Gillberg C and Wing L (1999) A screening questionnaire for Asperger syndrome and other high-function- ing autism
spectrum disorders in school age children. Journal of Autism and Developmental Disorders 29(2): 129–141. Elsabbagh M, Divan
G, Koh Y, et al. (2012) Global prevalence of autism and other pervasive developmental disorders. Autism Research 5(3):
160–179. Erkanli A, Soyer R and Stangl D (1997) Bayesian inference in two-phase prevalence studies. Statistics in Medicine 16:
1121–1133. Guo Y, Tang Y, Rice C, et al. (2011) Validation of the autism spectrum screening questionnaire, Mandarin Chinese
ver- sion (CH-ASSQ) in Beijing, China. Autism 15(6): 713–727. Kang-Yi CD, Grinker RR and Mandell DS (2013) Korean cul-
ture and autism spectrum disorders. Journal of Autism and Developmental Disorders 43(3): 503–520. Kim YS, Fombonne E,
Koh Y, et al. (2014) A comparison of DSM-IV pervasive developmental disorder and DSM-5 autism spectrum disorder
prevalence in an epidemiologic sample. Journal of the American Academy of Child and Adolescent Psychiatry 53(5): 500–508.
Kim YS, Leventhal BL, Koh Y, et al. (2011) Prevalence of autism spectrum disorders in a total population sample. American
Journal of Psychiatry 168: 904–912. Lord C, Rutter M and Le Couteur A (1994) Autism Diagnostic Interview-Revised: a revised
version of a diagnostic inter- view for caregivers of individuals with possible perva- sive developmental disorders. Journal of
Autism and Developmental Disorders 24(5): 659–685. Lord C, Risi S, Lambrecht L, et al. (2000) The Autism Diagnostic
Observation Schedule-Generic: A standard measure of social and communication deficits associated with the spectrum of autism.
Journal of Autism and Developmental Disorders 30(3): 205–223. McNamee R (2003) Efficiency of two-phase designs for preva-
lence estimation. International Journal of Epidemiology 32(6): 1072–1078.
Mandell D and Lecavalier L (2014) Should we believe the Centers for Disease Control and Prevention's autism spec- trum
disorder prevalence estimates? Autism 18(5): 482–485. Mattila ML, Jussila K, Linna SL, et al. (2012) Validation of the Finnish
autism spectrum screening questionnaire (ASSQ) for clinical settings and total population screening. Journal of Autism and
Developmental Disorders 42(10): 2162–2180. Newschaffer CJ (2015) Regarding Mandell and Lecavalier's editorial “Should we
believe the Centers for Disease Control and Prevention's autism spectrum disorders preva- lence estimates” and subsequent
exchange with Durkin et al. Autisme. Epub ahead of print 18 February. DOI: 10.1177/1362361314562617. Posserud M,
Lundervold AJ and Gillberg C (2006) Autistic fea- tures in a total population of 7–9-year-old children assessed by the ASSQ
(Autism Spectrum Screening Questionnaire). Journal of Child Psychology and Psychiatry 47(2): 167–175. Posserud M,
Lundervold AJ and Gillberg C (2009) Validation of the autism spectrum screening questionnaire in a total population sample.
Journal of Autism and Developmental Disorders 39(1): 126–134. Posserud M, Lundervold AJ, Lie SA, et al. (2010) The preva-
lence of autism spectrum disorders: impact of diagnostic instrument and non-response bias. Social Psychiatry and Psychiatric
Epidemiology 45(3): 319–327. Prince M (2003) Commentary: two-phase surveys. A death is announced; no flowers please.
International Journal of Epidemiology 32(6): 1078–1080. Ritvo RA, Ritvo ER, Guthrie D, et al. (2011) The Ritvo autism
Asperger diagnostic scale-revised (RAADS-R): a scale to assist the diagnosis of autism spectrum disorder in adults: an
international validation study. Journal of Autism and Developmental Disorders 41(8): 1076–1089. Shrout PE and Newman SC
(1989) Design of two-phase prevalence surveys of rare disorders. Biometrics 45(2): 549–555.