Anda di halaman 1dari 59

Pendahuluan

1. Tujuan uji banding


Uji kelayakan termasuk salah satu poin uji banding antar Lembaga untuk
menentukan kemampuan dari peserta ( laboratorium, Lembaga inspeksi atau
perorangan) , untuk Uji khusus atau pengukuran, dan memantau performa
kelanjutan nya. Tujuan khusus diadakan nya uji kelayakan ini, seperti yang
dijelaskan pada pembukaan ISO/IEC 17043/2010 , termasuk
 evaluasi kemampuan laboratorium,
 identifikasi masalah pada laboratorium,
 meningkatkan efektivitas metode pengukuran atau kemampuan uji
banding,
 ketentuan tambahan untuk meningkatkan kepercayan pada customer
laboratorium,
 validasi untuk klaim nilai ketidakpastian
 pengetahuan untuk laboratorium maupun peserta
Desain statistik dan penerapan teknik Analisa harus sesuai dengan tujuan yang
lain
2. Dasar penilaian dan skema uji kelayakan
Berbagai strategi penilaian tersedia dan digunakan untuk uji kelayakan,
meskipun kalkulasi yang dihasilkan memiliki nilai yang berbeda, kebanyakan uji
kelayakan memiliki skema membandingkan deviasi peserta dengan nilai yang
diberikan menggunakan kriteria numerik yang digunakan untuk menentukan
kategori peserta tersebut layak atau tidak, oleh karena itu kriteria untuk
penilaian penyimpangan peserta sangat penting.
Penting untuk mempertimbangkan apakah nilai dan kriteria yang ditugaskan
untuk menilai penyimpangan harus independen dari hasil peserta atau harus
diperoleh dari hasil yang disampaikan, dalam standard in,i (UJI PROFISIENSI)
kedua strategi ini sudah disiapkan, akan tetapi, perhatian diberikan untuk diskusi
pada bagian 7 dan 8 tentang keuntungan dan kerugian dalam memilih nilai atau
kriteria untuk menilai penyimpangan yang tidak berasal dari nilai peserta. Dapat
terlihat secara umum, memilih metode dan nilai yang ditetapkan secara terpisah
dari hasil peserta menawarkan banyak keuntungan,
Kasus ini khususnya pada kriteria yang digunakan untuk deviasi dari nilai yang
telah ditetapkan, seperti deviasi standar untuk uji kelayakan atau untuk
penyisihan nilai pengukuran.

3. ISO 13528 & ISO/IEC 17043


ISO 13528 memberikan bantuan penerapan ISO/IEC 17043 secara khusus, pada
kebutuhan desain statistic, validasi jenis uji kelayakan, tinjauan pada hasil, dan
pelaporan hasil statistika. Annex B pada ISO/IEC 17043 menjelaskan secara
singkat tentang metode statistika umum yang digunakan pada skema uji
kelayakan, standard ini dimaksudkan untuk melengkapi ISO/IEC 17043
memberikan panduan detail yang kurang pada dokumen tersebut khususnya
metode statistik pada uji banding
Definisi uji kelayakan pada ISO/IEC 17043 diulang pada ISO 13528 dengan
catatan menjelaskan perbedaan tipe uji banding, jangkauan desain yang dapat
digunakan. Standard ini tidak dapat digunakan kepada semua bidang seperti
desain, matrix, dan hasil Uji. Teknik Uji yang ada pada ISO 13528 saat ini sudah
banyak diaplikasikan terutama untuk pembuatan skema uji banding terbaru

,
4. Kemampuan statistika

ISO/IEC 17043 : 2010 membutuhkan individual yang berkompeten didalamnya,


penyelenggara uji banding harus memiliki kemampuan statistika dan mampu
memberikan wewenang kepada personil tertentu utnuk melakukan Analisa
statistik
ptBaik ISO / IEC 17043 maupun Standar ini tidak dapat menentukan lebih lanjut

keahlian apa yang diperlukan. Untuk beberapa aplikasi, gelar lanjutan dalam
statistik berguna dalam melakukan Analisa statistik, tetapi biasanya kebutuhan
untuk keahlian dapat dipenuhi oleh individu dengan keahlian teknis di bidang
lain, yang akrab dengan konsep statistik dasar dan memiliki pengalaman atau
pelatihan dalam teknik umum yang berlaku untuk analisis data dari skema uji
kelayakan. Jika seseorang dianggap ahli dengan desain statistik dan / atau
analisis, sangat penting bahwa orang ini memiliki pengalaman dengan
perbandingan antar laboratorium, bahkan jika orang itu memiliki gelar dalam
statistik. Pelatihan statistik lanjutan konvensional sering tidak mencakup latihan
dengan perbandingan antar laboratorium, dan penyebab unik kesalahan
pengukuran yang terjadi dalam Uji kelayakan tampaknya tidak jelas. Panduan
dalam Standar ini tidak dapat memberikan semua keahlian yang diperlukan
untuk mempertimbangkan semua aplikasi, dan tidak dapat menggantikan
pengalaman yang diperoleh dengan bekerja dengan perbandingan antar
laboratorium.

5. Perangkat lunak komputer


Perangkat lunak komputer yang diperlukan untuk analisis statistik dari data uji
kelayakan dapat sangat bervariasi, mulai dari aritmatika spread sheet sederhana
untuk skema Uji kelayakan kecil menggunakan nilai referensi yang dikenal hingga
perangkat lunak statistik canggih yang digunakan untuk metode statistik yang
bergantung pada perhitungan berulang atau metode numerik canggih lainnya.
Sebagian besar teknik dalam Standar ini dapat dipenuhi oleh aplikasi lembar
kerja konvensional, mungkin dengan rutin yang disesuaikan untuk skema atau
analisis tertentu; beberapa teknik akan memerlukan aplikasi komputer yang
tersedia secara bebas (pada saat penerbitan Standar ini). Dalam semua kasus,
pengguna harus memverifikasi keakuratan perhitungan mereka, terutama ketika
rutinitas khusus telah dimasukkan oleh pengguna. Namun, bahkan ketika teknik
dalam Standar ini tepat dan diterapkan dengan benar oleh aplikasi komputer
yang memadai, mereka tidak dapat diterapkan tanpa perhatian dari seorang
individu dengan keahlian teknis dan statistik yang cukup untuk mengidentifikasi
dan menyelidiki anomali yang dapat terjadi pada setiap putaran ujian kelayakan.

Penggunaan Metode Statistik Pada Uji Profisiensi Melalui Uji Banding


Antar Laboratorium

1. Tujuan

Standar ini memberikan uraian terperinci tentang metode statistik untuk penyedia
Uji kelayakan untuk digunakan untuk merancang skema Uji kelayakan dan untuk
menganalisis data yang diperoleh dari skema tersebut. Standar ini memberikan
rekomendasi tentang interpretasi data Uji kelayakan oleh peserta dalam skema
tersebut dan oleh badan akreditasi.
 Prosedur dalam Standar ini dapat diterapkan untuk menunjukkan bahwa hasil
pengukuran yang diperoleh oleh laboratorium, lembaga inspeksi, dan individu
memenuhi kriteria yang ditentukan untuk kinerja yang dapat diterima.
 Standar ini berlaku untuk Uji kelayakan di mana hasil yang dilaporkan adalah
pengukuran kuantitatif atau pengamatan kualitatif pada item tes.

2. Acuan Normatif
Dokumen ini secara keseluruhan atau sebagian, dirujuk secara normatif. Dalam
dokumen ini dan sangat diperlukan untuk penerapannya. Untuk referensi
bertanggal, hanya edisi yang dikutip yang berlaku. Untuk referensi yang tidak
bertanggal, edisi terakhir dari dokumen yang direferensikan (termasuk
perubahannya) berlaku
o ISO Guide 30, Referensi Bahan — istilah dan definisi yang dipilih
o ISO 3534-1, Statistics — kosakata dan simbol — Part 1: Istilah statistik umum dan
istilah yang digunakan dalam probabilitas
o ISO 3534-2, Statistics —kosakata dan simbol— Part 2: penerapan statistika
o ISO 5725-1, Ketepatan (kebenaran dan presisi ) dari metode pengukuran dan
hasil — Part 1: General principles and definitions
o ISO/IEC 17043, Conformity assessment — General requirements for proficiency
testing ISO/IEC Guide 99, International vocabulary of metrology — Basic and
general concepts and associated terms (VIM)

3. Istilah dan Definisi

Untuk keperluan dokumen ini, syarat dan definisi yang diberikan dalam ISO 3534-1,
ISO 3534-2, ISO 5725-1, ISO / IEC 17043, ISO / IEC Guide 99, ISO Guide 30, dan
Hak cipta Badan Standardisasi Nasional.
berikut berlaku. Dalam kasus perbedaan antara referensi ini tentang penggunaan
istilah, definisi dalam ISO 3534 bagian 1-2 berlaku. Simbol matematika tercantum
dalam Lampiran A.

3.1 perbandingan antar laboratorium

Organisasi, kinerja dan evaluasi pengukuran atau Uji pada item yang sama atau
serupa oleh dua atau lebih laboratorium sesuai dengan kondisi yang telah
ditentukan

3.2 Uji Kelayakan

Evaluasi kinerja peserta terhadap kriteria yang ditetapkan sebelumnya melalui


perbandingan antar laboratorium

Note 1 : Untuk keperluan Standar ini, istilah "Uji kelayakan" diambil dalam arti luas
dan mencakup, tetapi tidak terbatas pada:
- skema kuantitatif - di mana tujuannya adalah untuk mengukur satu atau lebih
pengukuran untuk setiap item tes kelayakan;
- skema kualitatif - di mana tujuannya adalah untuk mengidentifikasi atau
menggambarkan satu atau lebih karakteristik kualitatif dari item tes kelayakan;
- skema sekuensial - di mana satu atau lebih item uji kelayakan didistribusikan
secara berurutan untuk Uji atau pengukuran dan dikembalikan ke penyedia Uji
kelayakan secara berkala;
- Skema simultan - di mana item tes kelayakan didistribusikan untuk Uji atau
pengukuran bersamaan dalam periode waktu yang ditentukan;
- Latihan satu kali - di mana item tes kelayakan disediakan pada satu kesempatan; -
Skema kontinu - di mana item tes kelayakan diberikan secara berkala;
- pengambilan sampel - di mana sampel diambil untuk analisis selanjutnya dan
tujuan dari skema Uji kemahiran mencakup evaluasi pelaksanaan pengambilan
sampel; dan
- interpretasi data - di mana set data atau informasi lainnya dilengkapi dan
informasi diproses untuk memberikan interpretasi (atau hasil lainnya).

3.3 Penilaian

Nilai yang diberikan pada properti tertentu dalam item uji kelayakan

3.4 Standar Deviasi untuk penilaian uji kelayakan

Nilai penyimpangan yang digunakan untuk evaluasi hasil uji banding

 Catatan 1 : dapat diartikan sebagai standar deviasi populasi hasil dari


hipotesis laboratorium yang melakukan persis sesuai dengan persyaratan.
 Catatan 2 : Deviasi standar untuk penilaian kelayakan hanya berlaku
untuk hasil rasio dan skala interval.
 Catatan 3 : Tidak semua skema pengujian kelayakan mengevaluasi kinerja
berdasarkan penyimpangan hasil Uji.

3.5 Kesalahan Pengukuran

Jumlah nilai pengukuran dikurangi dengan jumlah nilai referensi


[Sumber : ISO/IEC Guide 99:2007, modified — catatan sudah terhapus]

3.6 Maksimal jumlah kesalahan yang diizinkan (Nilai Ekstrem Pengukuran)

sehubungan dengan nilai kuantitas referensi yang diketahui,makan diizinkan oleh


spesifikasi atau peraturan untuk pengukuran tertentu, alat ukur, atau sistem
pengukuran
[Sumber : ISO/IEC Guide 99:2007, modified — catatan sudah terhapus]
3.7 Nilai Z

Nilai performa yang sudah terstandarisasi dihitung dengan menggunakan hasil


peserta, nilai yang diberikan dan standar deviasi untuk aspek penilaian uji
kelayakan

 Catatan 1 : Variasi umum pada skor z, kadang-kadang dilambangkan z


'(biasanya diucapkan z-prime), dibentuk dengan menggabungkan
ketidakpastian dari nilai yang ditugaskan dengan standar deviasi untuk
penilaian kemampuan sebelum menghitung skor z

3.8 Nilai Zeta


Ukuran kinerja standar, dihitung dengan menggunakan hasil peserta, nilai yang
diberikan dan ketidakpastian standar digabungkan untuk hasil dan nilai yang
ditugaskan

3.9 Proporsi skor batas yang diizinkan


ukuran kinerja standar, dihitung dengan menggunakan hasil peserta, nilai yang
diberikan dan kriteria untuk kesalahan pengukuran dalam tes kelayakan

 Catatan 1 : Untuk hasil tunggal, performa dapat dinyatakan sebagai


penyimpangan dari nilai yang diberikan (D atau D%).

3.10 Sinyal Aksi


Indikasi untuk melakukan suatu aksi yang muncul dari hasil Uji Kelayakan

Contoh 1 :
 Skor z yang lebih dari 2 secara konvensional dianggap sebagai indikasi
kebutuhan untuk menyelidiki kemungkinan penyebab
 skor z melebihi 3 secara konvensional diambil sebagai sinyal tindakan
yang menunjukkan perlunya tindakan korektif.

3.11 Nilai consensus


Nilai yang berasal dari pengumpulan hasil uji banding antar Lembaga/
Laboratorium

3.12Pencilan
Yaitu anggota nilai yang memiliki nilai yang tidak konsisten dengan set nilai
tersebut

3.13 Peserta atau partisipan


Laboratorium, Lembaga, atau personel yang mengikuti seluruh tahapan uji
banding dan mengirimkan hasil uji tersebut kepada badan penyedia uji banding
3.14 penyedia uji kelayakan
organisasi atau Lembaga yang bentanggung jawab kepada penyediaan dan
pengembangan dalam tahapan skema uji banding

3.15 skema uji kelayakan


uji kelayakan di desain dan dioperasikan dalam satu atau lebih putaran untuk
area
+pengujian, pengukuran, kalibrasi atau inspeksi tertentu

3.16 Referensi bahan


material, homogen dan stabil berkenaan dengan satu atau lebih sifat yang
ditentukan, yang telah ditetapkan agar sesuai untuk penggunaan yang
dimaksudkan dalam proses pengukuran

3.17Referensi bahan tersertifikasi

bahan referensi (RM) ditandai dengan prosedur yang valid secara metrologi
untuk satu atau lebih properti yang ditentukan, disertai dengan sertifikat
referensi bahan yang memberikan nilai properti yang ditentukan, ketidakpastian
terkait, dan pernyataan keterlacakan metrologi

4. Prinsip utama
4.1 Persyaratan umum metode statistic
4.1.1 Metode statistik yang digunakan harus sesuai dengan tujuan dan secara
statistik valid. Asumsi statistik apa pun yang menjadi dasar metode atau desain
harus dinyatakan dalam desain atau dalam deskripsi tertulis dari skema pengujian
kemahiran, dan asumsi-asumsi ini harus ditunjukkan dengan wajar.
4.1.2 Desain statistik dan teknik analisis data harus konsisten dengan tujuan yang
dinyatakan untuk skema pengujian kelayakan
4.1.3 Penyedia pengujian kelayakan harus memberikan peserta dengan deskripsi metode
perhitungan yang digunakan, penjelasan tentang interpretasi umum hasil, dan
pernyataan tentang segala batasan yang berkaitan dengan interpretasi. Ini harus
tersedia baik di setiap laporan untuk setiap putaran skema pengujian kemahiran
atau dalam ringkasan terpisah dari prosedur yang tersedia untuk peserta
4.1.4 penyedia uji kelayakan harus memastikan software yang memadai dan tervalidasi
4.2 Dasar Permodelan
4.2.1 Untuk hasil kuantitatif dalam skema uji profisiensi di mana hasil tunggal
dilaporkan untuk item tes kemampuan yang diberikan, model dasar diberikan dalam
persamaan
X i = µ + εi
Dimana :
Xi : hasil uji kelayakan dari peserta i
µ : nilai uji sebenarnya
εi : kesalahan pengukuran untuk peserta, di distribusikan sesuai dengan modul yang
relevan

4.2.2 untuk hasil ordinal dan kualitatif, model lain mungkin sesuai, atau mungkin tidak ada
model yang sesuai
4.3 pendekatan general untuk evaluasi performa
4.3.1 Ada 3 jenis pendekatan yang berbeda untuk mengevaluasi kemampuan peserta
dalam skema uji kelayakan, pendekatan tersebut ada pada daftar dibawah ini :

a) kinerja dievaluasi dengan perbandingan dengan kriteria yang diturunkan secara


eksternal
b) kinerja dievaluasi dengan perbandingan dengan peserta lain
c) kinerja dievaluasi dengan perbandingan dengan ketidakpastian pengukuran
yang diklaim
4.3.2 Pendekatan umum dapat diterapkan secara berbeda untuk menentukan nilai yang
ditugaskan dan untuk menentukan kriteria untuk evaluasi kinerja;
misalnya ketika nilai yang ditetapkan adalah rata-rata yang kuat dari hasil
peserta dan evaluasi kinerja berasal dari σpt atau δE, di mana δE adalah penyisihan
yang telah ditetapkan untuk kesalahan pengukuran dan σpt = δE / 3;
dalam beberapa situasi nilai yang ditetapkan dapat menjadi nilai referensi, tetapi
σpt dapat menjadi standar deviasi yang kuat dari hasil peserta. Dalam pendekatan
(c) menggunakan ketidakpastian pengukuran, nilai yang diberikan biasanya
merupakan nilai referensi yang sesuai
5. Panduan untuk pemodelan statistika dalam skema uji kelayakan

5.1 Pendahuluan untuk pemodelan statistika dalam skema uji kelayakan

Pengujian kemahiran berkaitan dengan penilaian kinerja peserta dan karena itu tidak
secara khusus membahas bias atau presisi (meskipun ini dapat dinilai dengan desain
khusus). Kinerja peserta dinilai melalui evaluasi statistik dari hasil mereka mengikuti
pengukuran atau interpretasi yang mereka buat pada item tes kelayakan. Kinerja
sering dinyatakan dalam bentuk skor kinerja yang memungkinkan interpretasi yang
konsisten di berbagai pengukuran dan dapat memungkinkan hasil untuk pengukuran
yang berbeda untuk dibandingkan dengan dasar yang sama. Skor kinerja biasanya
diperoleh dengan membandingkan perbedaan antara hasil peserta yang dilaporkan
dan nilai yang ditetapkan dengan deviasi yang diijinkan atau dengan perkiraan
ketidakpastian pengukuran perbedaan. Pemeriksaan skor kinerja selama beberapa
putaran skema pengujian kemahiran dapat memberikan informasi apakah
laboratorium individu menunjukkan bukti efek sistematis yang konsisten ("bias")
atau presisi jangka panjang yang buruk. Bagian 5-10 berikut memberikan panduan
tentang desain skema pengujian kelayakan kuantitatif dan pada perlakuan statistik
hasil, termasuk perhitungan dan interpretasi berbagai skor kinerja. Pertimbangan
untuk skema pengujian kemahiran kualitatif (termasuk skema ordinal) diberikan
dalam Bagian 11.
5.2.1 dasar permodelan statistika

Menurut ISO / IEC 17043, 4.4.4.1, desain statistik “harus dikembangkan untuk
memenuhi tujuan dari skema pengujian kelayakan, berdasarkan pada sifat data
(kuantitatif atau kualitatif termasuk ordinal dan kategoris), asumsi statistik, sifat
kesalahan, dan jumlah hasil yang diharapkan ”. Oleh karena itu, skema pengujian
kelayakan dengan tujuan yang berbeda dan dengan sumber kesalahan yang
berbeda dapat memiliki desain yang berbeda. Pertimbangan desain untuk tujuan
bersama tercantum di bawah ini. Tujuan lain dimungkinkan

CONTOH 1 Untuk skema pengujian kelayakan untuk membandingkan hasil


peserta terhadap nilai referensi yang telah ditentukan dan dalam batas yang
ditentukan sebelum putaran dimulai, desain akan memerlukan metode untuk
mendapatkan nilai referensi yang ditentukan secara eksternal, metode
penetapan batas, dan metode penilaian;
CONTOH 2 Untuk skema pengujian kelayakan untuk membandingkan hasil
peserta dengan hasil gabungan dari suatu kelompok dalam putaran yang sama,
dan batas yang ditentukan sebelum putaran dimulai, desain perlu
mempertimbangkan bagaimana nilai yang ditetapkan akan ditentukan dari hasil
gabungan. serta metode untuk menetapkan batas dan penilaian;
CONTOH 3 Untuk skema pengujian kelayakan untuk membandingkan hasil
peserta dengan hasil gabungan dari kelompok dalam putaran yang sama, dan
batas yang ditentukan oleh variabilitas hasil peserta, desain perlu
mempertimbangkan perhitungan nilai yang ditugaskan dan ukuran yang tepat
dari dispersi serta metode penilaian; CONTOH 4 Untuk skema pengujian
kelayakan untuk membandingkan hasil peserta dengan nilai yang ditetapkan,
menggunakan ketidakpastian pengukuran peserta sendiri, desain perlu
mempertimbangkan bagaimana nilai yang ditugaskan dan ketidakpastiannya
akan diperoleh dan bagaimana ketidakpastian pengukuran peserta digunakan.
CONTOH 5 Untuk skema pengujian kelayakan dengan tujuan membandingkan
kinerja berbagai metode pengukuran, desain perlu mempertimbangkan statistik
ringkasan dan prosedur ringkasan yang relevan untuk menghitungnya.

5.2.2 Ada berbagai jenis data yang digunakan dalam pengujian kelayakan, termasuk
kuantitatif, nominal (kategorikal), dan ordinal. Di antara variabel kuantitatif,
beberapa hasil mungkin pada skala interval; atau kerabat, atau skala rasio. Untuk
beberapa pengukuran pada skala kuantitatif, hanya seperangkat nilai diskrit dan
diskontinyu yang dapat direalisasikan (misalnya, pengenceran berurutan);
Namun, dalam banyak kasus hasil ini dapat diperlakukan dengan teknik yang
berlaku untuk variabel kuantitatif kontinu.
CATATAN 1 Untuk nilai kuantitatif, skala interval adalah skala di mana
interval (perbedaan) bermakna tetapi rasio tidak, seperti skala suhu Celcius.
Skala rasio adalah skala di mana interval dan rasio keduanya bermakna, seperti
skala suhu Kelvin, atau satuan yang paling umum untuk panjang.
CATATAN 2 Untuk nilai kualitatif, skala kategorikal memiliki nilai berbeda
yang urutannya tidak berarti, seperti nama spesies bakteri. Nilai pada skala
ordinal memiliki urutan yang bermakna tetapi perbedaannya tidak bermakna;
misalnya skala seperti 'besar, sedang, kecil' dapat dipesan tetapi perbedaan
antara nilai-nilai tidak ditentukan selain dari segi jumlah nilai-nilai intervensi.
5.2.3 Skema pengujian kelayakan dapat digunakan untuk tujuan lain selain dari
yang disebutkan di atas, sebagaimana dibahas dalam bagian 0.1 dan dalam ISO /
IEC 17043. Desain harus sesuai untuk semua tujuan yang dinyatakan untuk
skema pengujian kelayakan khusus.

5.3 pertimbangan untuk distribusi statistik hasil

5.3.1 ISO / IEC 17043: 2010, 4.4.4.2, mensyaratkan bahwa teknik analisis statistik konsisten
dengan asumsi statistik untuk data. Sebagian besar teknik analisis untuk pengujian
kelayakan mengasumsikan bahwa serangkaian hasil dari peserta yang kompeten akan
terdistribusi secara normal, atau setidaknya unimodal dan cukup simetris (setelah
transformasi jika perlu). Asumsi tambahan umum adalah bahwa distribusi hasil dari
pengukuran yang ditentukan secara kompeten dicampur (atau 'terkontaminasi')
dengan hasil dari populasi dengan nilai yang salah yang dapat menghasilkan pencilan.
Biasanya, interpretasi penilaian bergantung pada asumsi normalitas, tetapi hanya
untuk distribusi asumsi yang mendasari untuk peserta yang kompeten.

5.3.1.1 Biasanya tidak perlu memverifikasi bahwa hasilnya terdistribusi secara


normal, tetapi penting untuk memverifikasi perkiraan simetri, setidaknya
secara visual. Jika simetri tidak dapat diverifikasi maka penyedia pengujian
kelayakan harus menggunakan teknik yang kuat untuk asimetri (lihat
Lampiran C).
5.3.1.2 Ketika distribusi yang diharapkan untuk skema pengujian profisiensi tidak
cukup simetris (memungkinkan kontaminasi oleh pencilan), penyedia
pengujian kelayakan harus memilih metode analisis data yang
memperhitungkan asimetri yang diharapkan dan yang tahan terhadap
pencilan, dan metode penilaian yang juga memperhitungkan distribusi yang
diharapkan untuk hasil dari peserta yang kompeten. Ini mungkin termasuk -
transformasi untuk memberikan perkiraan simetri; - metode estimasi yang
tahan terhadap asimetri; - metode estimasi yang menggabungkan asumsi
distribusi yang tepat (misalnya, kemungkinan maksimum sesuai dengan
asumsi distribusi yang sesuai dan, jika perlu, penolakan outlier).

CONTOH 1 Hasil yang didasarkan pada pengenceran, seperti untuk jumlah


mikrobiologis kuantitatif atau untuk teknik immunoassay, sering
didistribusikan menurut distribusi normal logaritmik, sehingga transformasi
logaritmik mungkin sesuai sebagai langkah pertama dalam analisis.
CONTOH 2 Hitungan sejumlah kecil partikel dapat didistribusikan menurut
distribusi Poisson, dan oleh karena itu kriteria untuk evaluasi kinerja dapat
ditentukan menggunakan tabel probabilitas Poisson, berdasarkan pada jumlah
rata-rata untuk kelompok peserta.

5.3.1.3 Di beberapa area kalibrasi, hasil peserta dapat mengikuti distribusi statistik
yang dijelaskan dalam prosedur pengukuran (misalnya, eksponensial, atau
bentuk gelombang); distribusi yang didefinisikan ini harus dipertimbangkan
dalam protokol evaluasi apa pun

5.3.2 Menurut ISO / IEC 17043: 2010, 4.4.4.2, penyedia pengujian kelayakan harus
menyatakan dasar untuk setiap asumsi statistik dan menunjukkan bahwa
asumsi tersebut masuk akal. Demonstrasi ini dapat didasarkan pada, misalnya,
data yang diamati, hasil dari putaran sebelumnya dari skema pengujian
kelayakan, atau literatur teknis.
CATATAN Demonstrasi kewajaran asumsi distribusi kurang ketat
daripada demonstrasi validitas asumsi

5.4 Pertimbangan Dalam Jumlah Peserta Sedikit


5.4.1 Desain statistik untuk skema pengujian kelayakan harus mempertimbangkan jumlah
minimum peserta yang diperlukan untuk memenuhi tujuan desain, dan menyatakan
pendekatan alternatif yang akan digunakan jika jumlah minimum tidak tercapai (ISO /
IEC 17043: 2010, 4.4 .4.3 b)). Metode statistik yang sesuai untuk sejumlah besar
peserta mungkin tidak sesuai dengan jumlah peserta yang terbatas. Kekhawatirannya
adalah bahwa statistik yang ditentukan dari sejumlah kecil hasil peserta mungkin
tidak cukup dapat diandalkan, dan seorang peserta dapat dievaluasi terhadap
kelompok pembanding yang tidak tepat.
CATATAN Laporan Teknis IUPAC / CITAC: Seleksi dan penggunaan skema pengujian
kelayakan untuk sejumlah kecil peserta [24] menyediakan panduan yang bermanfaat
untuk skema pengujian kelayakan di mana hanya ada sedikit peserta. Singkatnya,
laporan IUPAC / CITAC merekomendasikan bahwa nilai yang ditetapkan harus
didasarkan pada pengukuran independen yang dapat diandalkan; misalnya dengan
menggunakan bahan referensi bersertifikat, penugasan independen oleh kalibrasi
atau lembaga metrologi nasional, atau dengan persiapan gravimetri. Laporan
selanjutnya menyatakan bahwa standar deviasi untuk penilaian kelayakan mungkin
tidak didasarkan pada dispersi yang diamati antara hasil peserta untuk satu putaran
skema pengujian kelayakan

5.4.2 Jumlah minimum peserta yang diperlukan untuk berbagai metode statistik akan
tergantung pada berbagai situasi: - metode statistik yang digunakan, misalnya
metode kuat tertentu atau strategi penghilangan outlier yang dipilih; - pengalaman
peserta dengan skema pengujian kemahiran khusus; - pengalaman penyedia
pengujian kelayakan dengan matriks, ukur, metode, dan kelompok peserta; - apakah
tujuannya adalah untuk menentukan nilai yang ditetapkan atau standar deviasi (atau
keduanya). Panduan lebih lanjut tentang teknik untuk menangani sejumlah kecil
peserta diberikan dalam Lampiran D.1.
5.5 Panduan Untuk Memilih Format Pelaporan
5.5.1 Merupakan persyaratan ISO / IEC 17043: 2010, 4.6.1.2, bahwa penyedia tes
kelayakan menginstruksikan peserta untuk melakukan pengukuran dan
melaporkan hasil pada item tes kelayakan dengan cara yang sama seperti untuk
sebagian besar pengukuran yang dilakukan secara rutin, kecuali dalam keadaan
khusus . Persyaratan ini dapat, dalam beberapa situasi, menyulitkan untuk
memperoleh penilaian yang akurat tentang ketepatan dan kebenaran peserta,
atau kompetensi dengan prosedur pengukuran. Penyedia pengujian kelayakan
harus mengadopsi format pelaporan yang konsisten untuk skema pengujian
kelayakan tetapi harus, jika mungkin, menggunakan unit yang akrab bagi
sebagian besar peserta dan memilih format pelaporan yang meminimalkan
transkripsi dan kesalahan lainnya. Ini mungkin termasuk peringatan otomatis
dari unit yang tidak pantas ketika peserta diketahui melaporkan secara rutin di
unit selain yang diperlukan oleh skema.
 
CATATAN 1 Untuk beberapa skema pengujian kelayakan, tujuannya adalah untuk
mengevaluasi kemampuan peserta untuk mengikuti metode standar, yang dapat
mencakup penggunaan unit pengukuran tertentu atau jumlah digit signifikan.
 
CATATAN 2 Kesalahan transkripsi dalam penyusunan hasil oleh penyedia
pengujian kemampuan dapat secara substansial dikurangi atau dihilangkan
dengan menggunakan sistem pelaporan elektronik yang memungkinkan peserta
untuk memasukkan data mereka sendiri secara langsung.
5.5.2 Jika skema pengujian kelayakan membutuhkan pengukuran ulangan pada item
tes kelayakan, peserta harus diminta untuk melaporkan semua nilai replikasi. Ini
dapat terjadi, misalnya, jika suatu tujuan adalah untuk mengevaluasi ketepatan
peserta pada butir-butir tes kelayakan yang diketahui, atau ketika prosedur
pengukuran membutuhkan pelaporan terpisah dari banyak pengamatan. Dalam
situasi ini penyedia pengujian kelayakan mungkin juga perlu meminta nilai rata-
rata peserta (atau perkiraan lokasi lainnya) dan ketidakpastian untuk membantu
analisis data oleh penyedia pengujian kelayakan.
5.5.3 Jika praktik pelaporan konvensional melaporkan hasil sebagai 'kurang dari' atau
'lebih besar dari' batas (seperti tingkat kalibrasi atau batas kuantisasi) dan di
mana hasil numerik diperlukan untuk penilaian, penyedia pengujian kelayakan
harus menentukan bagaimana hasilnya akan diproses
5.5.3.1 Penyedia pengujian kelayakan harus mengadopsi prosedur pengolahan
data dan penilaian yang divalidasi yang mengakomodasi data yang
disensor (lihat Lampiran E.1), atau mengharuskan peserta untuk
melaporkan nilai hasil pengukuran baik di tempat, atau di samping, nilai
yang dilaporkan konvensional.
 
CATATAN 1 Opsi prosedur penilaian mungkin untuk tidak mencetak data
tersebut.
 CATATAN 2 Mewajibkan peserta untuk melaporkan nilai numerik di luar
rentang yang biasanya dilaporkan (misalnya, di bawah batas kuantisasi
peserta) akan mengizinkan penggunaan metode statistik yang
memerlukan nilai numerik tetapi dapat menghasilkan skor yang tidak
mencerminkan layanan rutin peserta kepada pelanggan.
5.5.3.2 Ketika statistik konsensus digunakan, tidak mungkin untuk
mengevaluasi kinerja jika jumlah nilai yang disensor cukup besar sehingga
metode yang kuat dipengaruhi oleh penyensoran. Dalam keadaan di
mana jumlah hasil yang disensor cukup untuk mempengaruhi metode
yang kuat, maka hasilnya harus dievaluasi menggunakan metode statistik
yang memungkinkan estimasi yang tidak bias di hadapan data yang
disensor [21], atau hasilnya tidak boleh dievaluasi. Ketika ragu tentang
efek dari prosedur yang dipilih, penyedia pengujian kelayakan harus
menghitung statistik ringkasan dan evaluasi kinerja dengan masing-
masing prosedur statistik alternatif yang dianggap berpotensi berlaku
dalam keadaan tersebut, dan menyelidiki pentingnya setiap perbedaan.
5.5.3.3 Jika hasil yang disensor seperti pernyataan 'kurang dari' diharapkan atau
telah diamati, desain skema pengujian kelayakan harus mencakup
ketentuan untuk penilaian dan / atau tindakan lain pada nilai-nilai yang
disensor yang dilaporkan oleh peserta, dan peserta harus diberitahu
tentang ketentuan ini.  
CATATAN Lampiran E.1 memiliki contoh beberapa pendekatan analisis
untuk data yang disensor. Contoh ini menunjukkan statistik konsensus
yang kuat dengan tiga pendekatan berbeda; dengan nilai-nilai yang
disensor dihapus, dengan nilai-nilai dipertahankan tetapi tanda ‘<’
dihapus, dan hasilnya diganti dengan setengah dari nilai batas
.
5.5.4 Biasanya, jumlah digit signifikan untuk dilaporkan akan ditentukan oleh desain
skema uji profisiensi
5.5.4.1 Ketika menentukan jumlah digit signifikan untuk dilaporkan, kesalahan
pembulatan harus diabaikan dibandingkan dengan variasi yang
diharapkan antara peserta.
CATATAN Dalam beberapa situasi, pelaporan yang benar adalah bagian
dari penentuan kompetensi peserta, dan jumlah angka dan tempat
desimal yang signifikan dapat bervariasi.
5.5.4.2 Jika jumlah digit yang dilaporkan dalam kondisi pengukuran rutin
memiliki efek buruk yang cukup besar pada perawatan data oleh
penyedia pengujian profisiensi (misalnya, di mana prosedur pengukuran
memerlukan pelaporan ke sejumlah kecil digit signifikan), penyedia
pengujian profisiensi dapat menentukan jumlah digit yang harus
dilaporkan.
 CONTOH Prosedur pengukuran dapat menentukan pelaporan hingga 0,1
g, yang mengarah ke sebagian besar (> 50%) dari hasil yang identik dan
pada gilirannya mengkompromikan perhitungan sarana yang kuat dan
standar deviasi. Penyedia pengujian kemahiran kemudian dapat
meminta peserta untuk melaporkan ke dua atau tiga tempat desimal
untuk mendapatkan perkiraan lokasi dan variasi yang cukup andal.
5.5.4.3 Jika diizinkan bahwa peserta yang berbeda akan melaporkan hasil
menggunakan jumlah digit signifikan yang berbeda, penyedia pengujian
kelayakan harus mempertimbangkan hal ini saat membuat statistik
konsensus (seperti nilai yang ditetapkan dan standar deviasi untuk
penilaian kelayakan).

6. Pedoman untuk tinjauan awal item dan hasil pengujian kelayakan

6.1 Homogenitas Dan Kestabilan Item Uji Kelayakan


6.1.1 Penyedia pengujian kelayakan harus memastikan bahwa kumpulan item uji
kelayakan cukup homogen dan stabil untuk keperluan skema pengujian
kelayakan. Penyedia harus menilai homogenitas dan stabilitas dengan
menggunakan kriteria yang memastikan bahwa ketidakhomogenan dan
ketidakstabilan item tes kelayakan tidak mempengaruhi evaluasi kinerja.
Penilaian homogenitas dan stabilitas harus menggunakan satu atau lebih
pendekatan berikut:
 a) studi eksperimental seperti yang dijelaskan dalam Lampiran B atau metode
eksperimen alternatif yang memberikan jaminan homogenitas dan stabilitas yang
setara atau lebih besar
 b) pengalaman dengan perilaku item tes kelayakan yang hampir mirip di babak
sebelumnya dari skema pengujian kelayakan, diverifikasi seperlunya untuk
putaran saat ini;
c) penilaian data peserta dalam putaran saat ini dari skema pengujian
kemahiran untuk bukti konsistensi dengan putaran sebelumnya, untuk bukti
perubahan dengan waktu pelaporan atau pesanan produksi, atau dispersi tak
terduga yang disebabkan oleh ketidakhomogenan atau ketidakstabilan.
CATATAN 1 Pendekatan ini dapat diadopsi berdasarkan kasus per kasus,
menggunakan teknik statistik yang sesuai dan justifikasi teknis. Pendekatan ini
akan sering berubah selama masa hidup dari skema pengujian kemahiran,
misalnya karena akumulasi pengalaman mengurangi persyaratan awal untuk
studi eksperimental.  CATATAN 2 Mengandalkan pengalaman (seperti pada b di
atas) hanya masuk akal selama: 1. Proses untuk memproduksi batch dari item uji
kelayakan tidak berubah dengan cara apa pun yang dapat berdampak pada
homogenitas; 2. Bahan-bahan yang digunakan dalam pembuatan butir uji
kelayakan tidak berubah dengan cara apa pun yang dapat berdampak
homogenitas; 3. Tidak ada "kegagalan" dalam homogenitas yang diidentifikasi
melalui pengujian homogenitas atau respons partisipan; dan, 4. Persyaratan
homogenitas untuk material ditinjau secara teratur, dengan mempertimbangkan
tujuan penggunaan material pada saat review, untuk memastikan bahwa
homogenitas yang dicapai oleh proses produksi tetap sesuai dengan tujuan.
CONTOH Jika putaran sebelumnya dari skema pengujian kelayakan
menggunakan item tes kelayakan yang diuji dan ditunjukkan cukup homogen dan
stabil, dan dengan peserta yang sama seperti pada putaran sebelumnya, maka
jika standar deviasi antar laboratorium dalam putaran saat ini tidak lebih besar
daripada standar deviasi pada putaran sebelumnya, ada bukti cukup
homogenitas dan stabilitas di putaran saat ini.
6.1.2 Untuk skema pengujian kelayakan kalibrasi di mana artefak yang sama digunakan
oleh banyak peserta, penyedia pengujian kelayakan harus memastikan stabilitas
di seluruh babak, atau memiliki prosedur untuk mengidentifikasi dan
memperhitungkan ketidakstabilan melalui pengembangan satu putaran skema
pengujian kelayakan. Ini harus mencakup pertimbangan kecenderungan untuk
item tes kelayakan khusus dan alat ukur, seperti drift. Apabila diperlukan,
jaminan stabilitas harus mempertimbangkan efek dari pengiriman berganda dari
artefak yang sama
6.1.3 Semua pengukuran (atau properti) biasanya harus diperiksa untuk homogenitas
dan stabilitas. Namun, di mana perilaku subset properti dapat ditunjukkan untuk
memberikan indikasi stabilitas dan / atau homogenitas yang baik untuk semua
properti yang dilaporkan dalam satu putaran, penilaian yang dijelaskan dalam
bagian 6.1.1 mungkin terbatas pada subset properti tersebut. pengukuran yang
diperiksa harus peka terhadap sumber ketidakhomogenan atau ketidakstabilan
dalam pemrosesan item tes kelayakan. Beberapa kasus penting adalah:
a) ketika pengukuran adalah proporsi, karakteristik yang sebagian kecil bisa lebih
sulit untuk dihomogenisasi dan jadi lebih sensitif dalam pemeriksaan
homogenitas;
b) jika item uji kelayakan dipanaskan selama pemrosesan, maka pilihlah ukur dan
peka terhadap pemanasan yang tidak merata;
c) jika properti yang diukur dapat dipengaruhi oleh pengendapan, presipitasi,
atau efek lain yang tergantung waktu selama persiapan item uji kelayakan, maka
properti ini harus diperiksa di seluruh urutan pengisian.
CONTOH Dalam skema pengujian kelayakan untuk kandungan logam beracun
tanah, kadar logam terukur terutama dipengaruhi oleh kadar air. Pemeriksaan
untuk kadar air yang konsisten dapat dianggap cukup untuk memastikan
stabilitas yang memadai dari logam beracun.
CATATAN Contoh homogenitas dan pemeriksaan stabilitas disediakan dalam
Lampiran E.2, menggunakan metode statistik yang direkomendasikan dalam
Lampiran B.
6.2 Pertimbangan untuk metode pengukuran yang berbeda

6.2.1 Ketika semua peserta diharapkan untuk melaporkan nilai untuk pengukuran yang
sama, nilai yang ditugaskan biasanya harus sama untuk semua peserta. Namun,
ketika peserta diizinkan untuk memilih metode pengukuran mereka sendiri, ada
kemungkinan bahwa nilai tunggal yang ditetapkan untuk setiap analit atau
properti tidak akan sesuai untuk semua peserta. Ini dapat terjadi, misalnya,
ketika metode pengukuran yang berbeda memberikan hasil yang tidak
sebanding. Dalam hal ini, penyedia pengujian kelayakan dapat menggunakan
nilai yang ditugaskan berbeda untuk setiap metode pengukuran.

CONTOH: a) pengujian medis di mana berbagai metode pengukuran yang


disetujui diketahui merespons secara berbeda terhadap bahan uji yang
sama dan menggunakan rentang referensi yang berbeda untuk diagnosis;
b) pengukuran yang ditetapkan secara operasional, seperti logam
beracun yang dapat larut dalam tanah, yang tersedia berbagai metode
standar dan tidak diharapkan untuk dibandingkan secara langsung, tetapi
jika skema pengujian kelayakan menentukan pengukuran dan tanpa
merujuk pada metode pengujian tertentu.

6.2.2 Kebutuhan akan nilai yang ditetapkan berbeda untuk subset peserta harus
dipertimbangkan dalam desain skema uji profisiensi (misalnya, untuk membuat
ketentuan untuk pelaporan metode tertentu) dan juga harus dipertimbangkan
ketika meninjau data untuk setiap putaran.

6.3 penghapusan kesalahan

6.3.1 ISO / IEC 17043: 2010, B.2.5 dan Protokol Harmonisasi IUPAC
merekomendasikan menghapus kesalahan yang jelas dari set data pada
tahap awal dalam analisis, sebelum menggunakan prosedur yang kuat atau
tes apa pun untuk mengidentifikasi pencilan statistik. Secara umum, hasil
ini akan diperlakukan secara terpisah (seperti menghubungi peserta).
Dimungkinkan untuk memperbaiki beberapa kesalahan, tetapi ini hanya
dapat dilakukan sesuai dengan kebijakan dan prosedur yang disetujui.

CATATAN Kesalahan yang jelas, seperti melaporkan hasil dalam unit yang
salah atau mengalihkan hasil dari item tes kelayakan berbeda, terjadi di
sebagian besar putaran pengujian kelayakan, dan hasil ini hanya
mengganggu kinerja metode statistik berikutnya. 6.3.2 Jika ada keraguan
tentang apakah suatu hasil adalah kesalahan, itu harus disimpan dalam
kumpulan data dan dikenakan perlakuan selanjutnya, seperti yang
dijelaskan dalam bagian 6.4 hingga 6.6.

6.4 Tinjauan visual terhadap data


6.4.1 Sebagai langkah pertama dalam analisis data apa pun penyedia harus
mengatur untuk tinjauan visual terhadap data, yang dilakukan oleh orang
yang memiliki keahlian teknis dan statistik yang memadai. Pemeriksaan ini
untuk mengonfirmasi distribusi hasil yang diharapkan, dan untuk
mengidentifikasi anomali, atau sumber variabilitas yang tidak terduga.
Sebagai contoh, distribusi bimodal mungkin merupakan bukti dari populasi
campuran hasil yang disebabkan oleh metode yang berbeda, sampel yang
terkontaminasi atau instruksi yang tidak memiliki kata-kata. Dalam situasi
ini, kekhawatiran harus diselesaikan sebelum melanjutkan dengan analisis
atau evaluasi.
 
CATATAN 1 Histogram adalah prosedur pemeriksaan yang berguna dan
tersedia secara luas, untuk mencari distribusi yang unimodal dan simetris,
dan untuk mengidentifikasi outlier yang tidak biasa (bagian 10.2). Namun
interval yang digunakan untuk menggabungkan hasil dalam histogram
sensitif terhadap jumlah hasil dan titik potong, dan karenanya bisa sulit
untuk dibuat. Plot kepadatan kernel seringkali lebih berguna untuk
mengidentifikasi kemungkinan bimodalities atau kurangnya simetri (bagian
10.3). CATATAN 2 Teknik ulasan lainnya dapat berguna, seperti plot
distribusi kumulatif atau diagram batang dan daun. Beberapa metode
grafis untuk tinjauan data diilustrasikan dalam Lampiran E.3 dan E.4.
6.4.2 Ketika tidak layak untuk melakukan tinjauan visual dari semua set data yang
menarik, harus ada prosedur untuk memperingatkan variabilitas yang tidak
terduga dalam dataset; misalnya dengan meninjau ketidakpastian nilai
yang ditugaskan dibandingkan dengan kriteria evaluasi, atau dengan
membandingkan dengan putaran sebelumnya dari skema pengujian
kelayakan. 6.5 Metode statistik yang kuat 6.5.1 Metode statistik yang kuat
dapat digunakan untuk menggambarkan bagian pusat dari serangkaian
hasil yang terdistribusi secara normal, tetapi tanpa memerlukan identifikasi
nilai-nilai spesifik sebagai pencilan dan mengeluarkannya dari analisis
selanjutnya. Banyak teknik kuat yang digunakan didasarkan (pada langkah
pertama) pada median dan kisaran 50% hasil pusat - ini adalah ukuran
pusat dan penyebaran data, mirip dengan mean dan standar deviasi.
Secara umum, metode yang kuat harus digunakan dalam preferensi untuk
metode yang menghapus hasil yang berlabel outlier. 
CATATAN Strategi yang menerapkan statistik klasik seperti standar deviasi
setelah menghapus outlier biasanya mengarah pada perkiraan kurang
dispersi untuk data yang hampir normal; statistik yang kuat biasanya
disesuaikan untuk memberikan perkiraan penyebaran yang tidak bias.
6.5.2 Median, skala median deviasi absolut (MADe), dan IQR dinormalisasi (nIQR)
diizinkan sebagai penduga sederhana. Algoritma A mengubah data asli
dengan proses yang dinamakan winorisation untuk menyediakan penduga
alternatif rata-rata dan standar deviasi untuk data yang hampir normal dan
paling berguna jika proporsi outlier yang diharapkan di bawah 20%.
Metode Qn dan Q (dijelaskan dalam Lampiran C) untuk memperkirakan
standar deviasi sangat berguna untuk situasi di mana sebagian besar (>
20%) hasil dapat berbeda, atau di mana data tidak dapat secara andal
ditinjau oleh para ahli. Metode lain yang dijelaskan dalam Lampiran C juga
memberikan kinerja yang baik ketika proporsi yang diharapkan dari nilai
ekstrim lebih dari 20% (lihat Lampiran D).
 
CATATAN Median, kisaran antar-kuartil, dan deviasi absolut berskala yang
ditingkatkan memiliki varians yang lebih besar daripada rata-rata dan
deviasi standar jika diterapkan pada data yang berdistribusi normal.
Alat penaksir canggih yang canggih memberikan kinerja yang lebih baik
untuk data yang didistribusikan secara normal sambil mempertahankan
banyak resistensi terhadap hasil yang ditawarkan oleh kisaran median dan
interkuartil.
6.5.3 Pilihan metode statistik adalah tanggung jawab penyedia pengujian
kelayakan. Rata-rata yang kuat dan standar deviasi dapat digunakan untuk
berbagai keperluan, di mana evaluasi kinerja hanya satu. Cara yang kuat
dan standar deviasi juga dapat digunakan sebagai statistik ringkasan untuk
berbagai kelompok peserta atau untuk metode tertentu. CATATAN Rincian
untuk prosedur yang kuat disediakan dalam Lampiran C. Lampiran E.3 dan
E.4 memiliki contoh komprehensif yang menggambarkan penggunaan
berbagai teknik statistik kuat yang disajikan dalam Lampiran C.
6.6 Teknik outlier untuk hasil individu
6.6.1 Tes outlier dapat digunakan untuk mendukung tinjauan visual untuk
anomali atau, ditambah dengan penolakan outlier, untuk memberikan
tingkat resistensi terhadap nilai-nilai ekstrem ketika menghitung statistik
ringkasan. Jika teknik deteksi outlier digunakan, asumsi yang mendasari
pengujian harus ditunjukkan untuk diterapkan secara memadai untuk
tujuan skema pengujian kelayakan; khususnya, banyak tes pencilan
mengasumsikan normal yang mendasarinya.
 
CATATAN ISO 16269-4 [10] dan ISO 5725-2 [1] menyediakan beberapa
prosedur identifikasi outlier yang berlaku untuk data antar-laboratorium.
6.6.2 Strategi penolakan outlier, yang didasarkan pada penolakan outlier yang
terdeteksi oleh tes outlier pada tingkat kepercayaan yang tinggi, diikuti
oleh penerapan statistik sederhana seperti rata-rata dan standar deviasi,
diizinkan jika metode yang kuat tidak berlaku (lihat 6.5.1). Jika strategi
penolakan outlier digunakan, penyedia pengujian kelayakan harus
a) mendokumentasikan tes dan tingkat kepercayaan yang
diperlukan untuk penolakan;
b) menetapkan batas untuk proporsi data yang ditolak oleh tes
outlier berturut-turut, jika digunakan;
 c) menunjukkan bahwa estimasi lokasi yang dihasilkan dan skala
(jika sesuai) memiliki kinerja yang cukup (termasuk efisiensi dan
bias) untuk keperluan skema pengujian kelayakan.
 
CATATAN ISO 5725-2 memberikan rekomendasi untuk tingkat
kepercayaan yang sesuai untuk penolakan outlier dalam studi antar
laboratorium untuk penentuan ketepatan metode pengujian. Secara
khusus, ISO 5725-2 merekomendasikan penolakan hanya pada level 99%
kecuali ada alasan kuat lain untuk menolak hasil tertentu.

7. Penentuan nilai yang diberikan dan ketidakpastian standarnya


 
7.1 Pilihan metode penentuan nilai yang ditugaskan
7.1.2 Lima cara menentukan nilai yang ditetapkan Xpt dijelaskan dalam bagian 7.3
hingga 7.7. Pilihan antara metode ini adalah tanggung jawab penyedia pengujian
kelayakan.
 
CATATAN Bagian 7.3-7.6 sangat mirip dengan pendekatan yang digunakan untuk
menentukan nilai properti bahan referensi bersertifikat yang dijelaskan dalam
ISO Guide 35 [13].
7.1.1 Metode alternatif untuk menentukan nilai yang ditetapkan dan
ketidakpastiannya dapat digunakan asalkan mereka memiliki basis statistik yang
kuat dan bahwa metode yang digunakan dijelaskan dalam rencana
terdokumentasi untuk skema pengujian kelayakan, dan dijelaskan sepenuhnya
kepada peserta. Terlepas dari metode yang digunakan untuk menentukan nilai
yang ditetapkan, selalu tepat untuk memeriksa validitas nilai yang diberikan
untuk putaran skema pengujian kelayakan. Ini dibahas di bagian 7.8.
7.1.3 Pendekatan untuk menentukan nilai yang ditugaskan secara kualitatif dibahas
dalam bagian 11.3.
7.1.4 Metode penentuan nilai yang diberikan dan ketidakpastian yang terkait harus
dinyatakan dalam setiap laporan kepada peserta atau dijelaskan secara jelas
dalam protokol skema yang tersedia untuk semua peserta.
7.2 Menentukan ketidakpastian dari nilai yang diberikan
7.2.1 Panduan untuk ekspresi ketidakpastian dalam pengukuran (ISO / IEC Guide 98-3
[14]) memberikan panduan tentang evaluasi ketidakpastian pengukuran. ISO
Guide 35 memberikan panduan tentang ketidakpastian nilai yang ditetapkan
untuk nilai properti bersertifikat, yang dapat diterapkan untuk banyak desain
skema pengujian kelayakan.
7.2.2 Model umum untuk nilai yang diberikan dan ketidakpastiannya dijelaskan dalam
persamaan (2) dan (3):
 Model untuk nilai yang diberikan dapat dinyatakan sebagai berikut
Xpt = xchar + δhom + δtrans + δstab (2)

where Xpt denotes the assigned value;


xchar menunjukkan nilai properti yang diperoleh dari karakterisasi (penentuan nilai yang
ditugaskan); δhom menunjukkan istilah kesalahan karena perbedaan antara item tes
kelayakan;
δtrans menunjukkan istilah kesalahan karena ketidakstabilan dalam kondisi transportasi;
δstab menunjukkan istilah kesalahan karena ketidakstabilan selama periode pengujian
kemampuan.

CATATAN 1 Kovarian antara sumber-sumber ketidakpastian, atau sumber-sumber yang


dapat diabaikan, dapat mengarah pada model yang berbeda untuk aplikasi spesifik. Setiap
komponen ketidakpastian bisa nol atau diabaikan, dalam beberapa situasi.
CATATAN 2 Ketika σpt dihitung sebagai standar deviasi hasil peserta, komponen
ketidakpastian karena ketidakhomogenan, transportasi, dan ketidakstabilan sebagian besar
tercermin dalam variabilitas hasil peserta. Dalam hal ini ketidakpastian karakterisasi, seperti
yang dijelaskan dalam bagian 7.3-7.7, sudah cukup.
CATATAN 3 Penyedia pengujian kelayakan biasanya diharapkan untuk
memastikan bahwa perubahan terkait ketidakstabilan atau yang terjadi dalam
transportasi dapat diabaikan dibandingkan dengan standar deviasi untuk
penilaian kelayakan; yaitu, untuk memastikan bahwa δtrans dan δstab dapat
diabaikan. Di mana persyaratan ini dipenuhi,
7.2.3 Mungkin ada bias dalam nilai yang diberikan yang tidak diperhitungkan dalam
ekspresi di atas. Ini harus, jika mungkin, dipertimbangkan dalam desain untuk
skema pengujian kelayakan. Jika ada penyesuaian untuk bias dalam nilai yang
diberikan, ketidakpastian penyesuaian ini harus dimasukkan dalam evaluasi
ketidakpastian nilai yang ditugaskan.
 7.3 Formulasi
 7.3.1 Item uji kelayakan dapat disiapkan dengan mencampurkan bahan dengan tingkat
properti yang diketahui berbeda dalam proporsi tertentu, atau dengan
menambahkan proporsi tertentu suatu bahan ke bahan dasar.
7.3.1.1 Nilai yang diberikan Xpt diperoleh dengan perhitungan dari massa
properti yang digunakan. Pendekatan ini sangat berharga ketika item uji
kelayakan individu disiapkan dengan cara ini, dan itu adalah proporsi sifat
yang harus ditentukan.
 7.3.1.2 Perawatan yang wajar harus diambil untuk memastikan bahwa:
 a) bahan dasar secara efektif bebas dari konstituen yang ditambahkan,
atau bahwa proporsi konstituen yang ditambahkan dalam bahan dasar
diketahui secara akurat;
  b) konstituen dicampur bersama secara homogen (jika ini diperlukan);
 c) semua sumber kesalahan signifikan diidentifikasi (mis., tidak selalu
disadari bahwa kaca menyerap senyawa merkuri, sehingga konsentrasi
larutan larutan senyawa merkuri dapat diubah oleh wadahnya);
  d) tidak ada interaksi yang merugikan antara konstituen dan matriks;
 e) perilaku item tes kelayakan yang mengandung bahan tambahan mirip
dengan sampel pelanggan yang diuji secara rutin. Misalnya, bahan murni
ditambahkan ke matriks alami lebih sering mengekstrak lebih mudah
daripada zat yang sama yang terjadi secara alami dalam bahan. Jika ada
kekhawatiran tentang hal ini terjadi, penyedia pengujian kelayakan harus
memastikan kesesuaian item tes kelayakan untuk metode yang akan
digunakan.
7.3.1.3 Ketika formulasi memberikan item tes kelayakan di mana
penambahan lebih terikat longgar daripada dalam sampel yang diuji
secara rutin, atau dalam bentuk yang berbeda, mungkin lebih baik
menggunakan pendekatan lain untuk menyiapkan item tes kelayakan.
7.3.1.4 Penentuan nilai yang ditetapkan dengan formulasi adalah satu
kasus pendekatan umum untuk karakterisasi bahan referensi bersertifikat
yang dijelaskan oleh ISO Guide 35, di mana satu laboratorium
menentukan nilai yang ditetapkan menggunakan metode pengukuran
primer. Penggunaan lain dari metode primer oleh satu laboratorium
dapat digunakan untuk menentukan nilai yang ditetapkan untuk
pengujian kelayakan (lihat bagian 7.5).

7.3.2 Ketika nilai yang diberikan dihitung dari perumusan item tes
kelayakan, ketidakpastian standar untuk karakterisasi (uchar) diperkirakan dengan
kombinasi ketidakpastian menggunakan model yang sesuai. Sebagai contoh, dalam
pengujian kelayakan untuk pengukuran kimia, ketidakpastian biasanya akan terkait
dengan pengukuran gravimetri dan volumetrik dan kemurnian bahan yang digunakan
dalam formulasi. Ketidakpastian standar dari nilai yang diberikan (u (Xpt)) kemudian
dihitung menurut persamaan (3).
7.4 Materi referensi tersertifikasi
7.4.1 Ketika item tes kelayakan adalah materi referensi tersertifikasi (CRM), nilai
properti tersertifikasi xCRM digunakan sebagai nilai yang ditetapkan X pt. Keterbatasan
dari pendekatan ini adalah: - Mungkin mahal untuk memberikan setiap peserta satu
unit bahan referensi bersertifikat; - CRMs sering diproses cukup banyak untuk
memastikan stabilitas jangka panjang, yang dapat membahayakan komutabilitas dari
item tes kelayakan. - CRM dapat diketahui oleh peserta sehingga penting untuk
menyembunyikan identitas item tes kelayakan.
7.4.2 Ketika bahan referensi bersertifikat digunakan sebagai item uji kelayakan,
ketidakpastian standar dari nilai yang diberikan berasal dari informasi tentang
ketidakpastian nilai properti yang diberikan pada sertifikat. Informasi sertifikat harus
mencakup komponen-komponen dalam persamaan (3), dan memiliki penggunaan
yang dimaksudkan sesuai dengan tujuan skema pengujian kelayakan.
7.5 Hasil dari satu laboratorium
7.5.1 Nilai yang ditetapkan dapat ditentukan oleh satu laboratorium menggunakan
metode referensi, seperti, misalnya, metode utama. Metode referensi yang
digunakan harus sepenuhnya dijelaskan dan dipahami, dan dengan pernyataan
ketidakpastian lengkap dan penelusuran metrologis yang sesuai untuk skema
pengujian kelayakan. Metode referensi harus dapat diubah untuk semua
metode pengukuran yang digunakan oleh peserta.
7.5.1.1 Nilai yang ditetapkan haruslah rata-rata dari studi yang dirancang
menggunakan lebih dari satu item uji kelayakan atau kondisi pengukuran,
dan jumlah pengukuran ulangan yang cukup.
7.5.1.2 Ketidakpastian karakterisasi adalah estimasi ketidakpastian yang
tepat untuk metode referensi dan kondisi studi yang dirancang.
7.5.2 Nilai yang ditetapkan Xpt dari item tes kelayakan dapat diturunkan oleh satu
laboratorium menggunakan metode pengukuran yang sesuai, dari kalibrasi
terhadap nilai referensi dari bahan referensi bersertifikat yang cocok.
Pendekatan ini mengasumsikan bahwa CRM dapat diubah untuk semua metode
pengukuran yang digunakan oleh peserta.
7.5.2.1 Penentuan ini membutuhkan serangkaian tes yang harus
dilakukan, di satu laboratorium, pada item tes kelayakan dan CRM,
menggunakan metode pengukuran yang sama, dan dalam kondisi
pengulangan.
 
Ketika: xCRM adalah nilai yang diberikan untuk CRM Xpt adalah nilai yang
ditetapkan untuk item tes kelayakan di adalah perbedaan antara hasil rata-rata
untuk item tes kelayakan dan CRM pada sampel ke-d, d adalah rata-rata dari
perbedaan di
 kemudian, Xpt CRMx xd = + (4)
CATATAN xCRM dan d bersifat independen kecuali dalam situasi yang jarang
terjadi bahwa laboratorium ahli juga menghasilkan CRM.
7.5.2.2 Ketidakpastian standar karakterisasi berasal dari ketidakpastian
pengukuran yang digunakan untuk penetapan nilai. Pendekatan ini
memungkinkan nilai yang ditetapkan untuk didirikan dengan cara yang dapat
dilacak secara metrologi ke nilai tersertifikasi CRM,
Contoh dalam Lampiran E.5 mengilustrasikan bagaimana ketidakpastian yang
diperlukan dapat dihitung dalam kasus sederhana ketika nilai yang ditetapkan
dari item tes kelayakan ditetapkan dengan perbandingan langsung dengan CRM
tunggal.
 
7.5.3 Ketika nilai referensi diberikan sebelum dimulainya putaran skema pengujian kemahiran
berurutan, dan kemudian nilai referensi selanjutnya diperiksa menggunakan sistem
pengukuran yang sama, perbedaan antara nilai-nilai harus kurang dari dua kali
ketidakpastian. dari perbedaan itu (yaitu, hasilnya harus kompatibel secara metrologi).
Dalam kasus seperti itu penyedia pengujian kelayakan dapat memilih untuk
menggunakan rata-rata pengukuran sebagai nilai yang ditetapkan, dengan
ketidakpastian yang sesuai. Jika hasilnya tidak kompatibel secara metrologis, penyedia
pengujian kelayakan harus menyelidiki alasan perbedaan, dan mengambil langkah-
langkah yang tepat, termasuk penggunaan metode alternatif untuk menentukan nilai
yang diberikan dan ketidakpastian atau pengabaian putaran.
7.6 Nilai konsensus dari laboratorium ahli
7.6.1 Nilai yang ditugaskan dapat ditentukan menggunakan studi perbandingan antar
laboratorium dengan laboratorium ahli, seperti yang dijelaskan dalam ISO Guide 35 untuk
penggunaan perbandingan antar laboratorium untuk mengkarakterisasi CRM. Item tes
kelayakan disiapkan terlebih dahulu dan siap untuk didistribusikan kepada para peserta.
Beberapa item tes kelayakan ini kemudian dipilih secara acak dan dianalisis oleh
sekelompok ahli menggunakan protokol yang menentukan jumlah item tes kelayakan dan
replikasi dan kondisi terkait lainnya. Setiap laboratorium ahli diharuskan untuk
memberikan ketidakpastian standar dengan hasilnya.
7.6.2 Apabila laboratorium ahli melaporkan hasil tunggal dan tidak diharuskan oleh protokol
pengukuran untuk memberikan informasi ketidakpastian yang cukup dengan hasil, atau di
mana bukti dari hasil yang dilaporkan atau di tempat lain menunjukkan bahwa
ketidakpastian yang dilaporkan tidak cukup dapat diandalkan, nilai konsensus harus
biasanya diperoleh dengan metode bagian 7.7, diterapkan pada himpunan hasil
laboratorium ahli. Jika laboratorium ahli melaporkan masing-masing lebih dari satu hasil
(misalnya, termasuk ulangan), penyedia skema pengujian kelayakan harus menetapkan
metode alternatif untuk menentukan nilai yang ditetapkan dan ketidakpastian terkait
yang secara statistik valid (lihat 4.1.1) dan memungkinkan untuk kemungkinan outlier
atau keberangkatan lain dari distribusi hasil yang diharapkan.
7.6.3 Apabila laboratorium ahli melaporkan ketidakpastian dengan hasil, estimasi nilai dengan
konsensus hasil merupakan masalah yang kompleks dan berbagai pendekatan telah
disarankan, termasuk, misalnya, rata-rata tertimbang, rata-rata tidak berbobot, prosedur
yang membuat penyisihan untuk dispersi yang berlebihan dan prosedur yang
memungkinkan untuk kemungkinan hasil yang keliru atau salah dan perkiraan
ketidakpastian [16]. Penyedia pengujian kemahiran karenanya harus menetapkan
prosedur untuk estimasi bahwa:
a) harus mencakup pemeriksaan validitas estimasi ketidakpastian yang dilaporkan,
misalnya dengan memeriksa apakah ketidakpastian yang dilaporkan bertanggung jawab
penuh atas dispersi hasil yang diamati;
b) harus menggunakan prosedur pembobotan yang sesuai untuk skala dan keandalan
ketidakpastian yang dilaporkan, yang dapat mencakup bobot yang sama jika
ketidakpastian yang dilaporkan adalah sama atau keandalannya buruk atau tidak
diketahui (lihat 7.6.2);
c) harus memungkinkan untuk kemungkinan bahwa ketidakpastian yang dilaporkan
mungkin tidak sepenuhnya bertanggung jawab atas dispersi yang diamati ('dispersi
berlebihan'), misalnya dengan memasukkan istilah tambahan untuk memungkinkan
dispersi berlebih;
d) harus memungkinkan untuk kemungkinan nilai outlying yang tidak terduga untuk
hasil yang dilaporkan atau ketidakpastian;
e) harus memiliki landasan teori yang kuat;
f) harus menunjukkan kinerja (misalnya pada data uji atau dalam simulasi) yang cukup
untuk keperluan skema pengujian kelayakan.
7.7 Nilai konsensus dari hasil peserta
7.7.1 Dengan pendekatan ini, nilai yang ditetapkan Xpt untuk item tes kelayakan yang
digunakan dalam putaran skema pengujian kelayakan adalah estimasi lokasi
(misalnya, mean kuat, median, atau rata-rata aritmatika) yang dibentuk dari hasil
yang dilaporkan oleh peserta dalam putaran, dihitung dengan menggunakan
prosedur yang sesuai sesuai dengan desain, seperti yang dijelaskan dalam
Lampiran C. Teknik yang dijelaskan dalam bagian 6.2-6.6 harus digunakan untuk
mengkonfirmasi bahwa ada perjanjian yang cukup, sebelum menggabungkan
hasil.
7.7.1.1 Dalam beberapa situasi, penyedia pengujian kelayakan mungkin
ingin menggunakan subset peserta yang ditentukan dapat diandalkan,
dengan beberapa kriteria yang telah ditentukan sebelumnya, seperti
status akreditasi atau berdasarkan kinerja sebelumnya. Teknik-teknik
bagian ini berlaku untuk situasi-situasi tersebut, termasuk pertimbangan
untuk ukuran kelompok.
7.7.1.2 Metode perhitungan lain dapat digunakan sebagai pengganti
metode yang ada dalam Lampiran C, asalkan memiliki basis statistik yang
kuat dan laporan menyatakan metode yang digunakan.
7.7.1.3 Keuntungan dari pendekatan ini adalah: a) tidak diperlukan
pengukuran tambahan untuk mendapatkan nilai yang ditetapkan; b)
pendekatan ini mungkin sangat berguna dengan pengukuran standar,
yang didefinisikan secara operasional, karena seringkali tidak ada metode
yang lebih dapat diandalkan untuk mendapatkan hasil yang setara.

7.7.1.4 Keterbatasan dari pendekatan ini adalah bahwa: a) mungkin ada


kesepakatan yang tidak memadai di antara para peserta; b) nilai
konsensus dapat mencakup bias yang tidak diketahui karena penggunaan
umum metodologi yang salah dan bias ini tidak akan tercermin dalam
ketidakpastian standar dari nilai yang diberikan; c) nilai konsensus dapat
menjadi bias karena efek bias dalam metode yang digunakan untuk
menentukan nilai yang ditugaskan. d) Mungkin sulit untuk menentukan
keterlacakan metrologi dari nilai konsensus. Sementara hasilnya selalu
dapat dilacak ke hasil masing-masing laboratorium, pernyataan yang jelas
tentang keterlacakan di luar itu hanya dapat dibuat ketika penyedia
pengujian kelayakan memiliki informasi lengkap tentang standar kalibrasi
yang digunakan dan kontrol kondisi metode relevan lainnya oleh semua
peserta. berkontribusi pada nilai konsensus.
7.7.2 Ketidakpastian standar dari nilai yang diberikan akan tergantung pada prosedur
yang digunakan. Jika pendekatan yang sepenuhnya umum diperlukan, penyedia
pengujian kemahiran harus mempertimbangkan penggunaan teknik resampling
("bootstrap") untuk memperkirakan kesalahan standar untuk nilai yang
diberikan. Referensi [17,18] memberikan rincian teknik bootstrap. 
CATATAN Contoh menggunakan teknik bootstrap disediakan dalam Lampiran
E.6.
7.7.3 Ketika nilai yang ditetapkan diturunkan sebagai rata-rata yang kuat yang dihitung
menggunakan prosedur dalam Lampiran C.2, C.3, atau C.5, ketidakpastian
standar dari nilai yang ditetapkan Xpt dapat diperkirakan sebagai:
s∗¿
u(x pt )=1,25 ¿
√p
di mana s * adalah standar deviasi hasil yang kuat. (Di sini "hasil" untuk
peserta adalah rata-rata dari semua pengukuran mereka pada item tes
kelayakan.) 
CATATAN 1 Dalam model ini, di mana nilai yang ditetapkan dan standar deviasi
yang kuat ditentukan dari hasil peserta, ketidakpastian dari nilai yang diberikan
dapat diasumsikan mencakup efek ketidakpastian karena ketidakhomogenan,
transportasi, dan ketidakstabilan.
CATATAN 2 Faktor 1,25 didasarkan pada standar deviasi median, atau efisiensi
median sebagai estimasi rata-rata, dalam sejumlah besar hasil yang diambil dari
distribusi normal. Diapresiasi bahwa efisiensi metode yang lebih canggih dan
kuat dapat jauh lebih besar daripada median, membenarkan faktor koreksi yang
lebih kecil dari 1,25. Namun, faktor ini telah direkomendasikan karena hasil
pengujian kelayakan biasanya tidak terdistribusi secara normal, dan
mengandung proporsi hasil yang tidak diketahui dari distribusi yang berbeda
('hasil yang terkontaminasi'). Faktor 1,25 dianggap sebagai perkiraan konservatif
(tinggi), untuk memperhitungkan kemungkinan kontaminasi. Penyedia pengujian
kelayakan mungkin dapat membenarkan menggunakan faktor yang lebih kecil,
atau persamaan yang berbeda, tergantung pada pengalaman dan prosedur yang
kuat yang digunakan.
CATATAN 3 Contoh penggunaan nilai yang ditetapkan dari hasil peserta diberikan
dalam Lampiran E.3.

7.8 Perbandingan nilai yang ditetapkan dengan nilai referensi independen


7.8.1 Ketika metode yang dijelaskan dalam 7.7 digunakan untuk menetapkan nilai
yang ditetapkan (Xpt), dan di mana perkiraan independen yang dapat diandalkan
(dilambangkan xref) tersedia, misalnya dari pengetahuan persiapan atau dari
nilai referensi, nilai konsensus Xpt harus dibandingkan dengan xref. Ketika metode
yang dijelaskan dalam 7.3 hingga 7.6 digunakan untuk menetapkan nilai yang
ditetapkan, rata-rata x * yang kuat yang diperoleh dari hasil putaran harus
dibandingkan dengan nilai yang diberikan setelah setiap putaran skema
pengujian kelayakan. Perbedaannya dihitung sebagai xdiff = (xref - Xpt) (atau (x * -
Xpt)) dan ketidakpastian standar perbedaan diperkirakan sebagai:
udiff = u2 ( xref ) +U 2 (x pt )

Dimana :
U( x ref ¿ = nilai referensi ketidakpastian untuk perbandingan
U( x pt ¿= ketidakpastian dari nilai yang diberikan
CATATAN Contoh perbandingan nilai referensi dengan nilai konsensus dimasukkan
dalam Lampiran E.7.
7.8.2 Jika perbedaannya lebih dari dua kali ketidakpastian standarnya, alasannya harus
diselidiki. Alasan yang mungkin adalah: - bias dalam metode pengukuran
referensi; - bias umum dalam hasil para peserta; - kegagalan untuk menghargai
keterbatasan metode pengukuran saat menggunakan metode formulasi yang
dijelaskan dalam 7.3; - bias dalam hasil "ahli" ketika menggunakan pendekatan di
bagian 7.5 atau 7.6; dan - nilai perbandingan dan nilai yang diberikan tidak dapat
dilacak ke referensi metrologi yang sama.
7.8.3 Bergantung pada alasan perbedaannya, penyedia pengujian kelayakan harus
memutuskan apakah akan mengevaluasi hasil atau tidak, dan (untuk skema
pengujian kelayakan berkelanjutan), apakah akan mengubah desain untuk skema
pengujian kelayakan berikutnya. Jika perbedaannya cukup besar untuk
mempengaruhi penilaian kinerja atau untuk menyarankan bias penting dalam
metode pengukuran yang digunakan oleh peserta, perbedaan tersebut harus
dicatat dalam laporan untuk putaran tersebut. Dalam kasus seperti itu,
perbedaannya harus dipertimbangkan dalam desain skema pengujian kemahiran
di masa depan.
8 Penentuan kriteria untuk evaluasi kinerja
  8.1 Pendekatan untuk menentukan kriteria evaluasi
8.1.1 Pendekatan dasar untuk semua tujuan adalah membandingkan hasil pada item
tes kelayakan (xi) dengan nilai yang diberikan (Xpt). Untuk evaluasi,
perbedaannya dibandingkan dengan penyisihan untuk kesalahan pengukuran.
Perbandingan ini umumnya dilakukan melalui statistik kinerja terstandarisasi
(mis., Z, z ’, ζ, En), seperti yang dibahas di bagian 9.4-9.7. Ini juga dapat dilakukan
dengan membandingkan perbedaan dengan kriteria yang ditentukan (D atau D%
dibandingkan dengan δE) seperti yang dibahas dalam 9.3. Pendekatan alternatif
untuk evaluasi adalah membandingkan perbedaannya dengan klaim peserta
untuk ketidakpastian hasil mereka dikombinasikan dengan ketidakpastian nilai
yang diberikan (En dan ζ).
8.1.2 Jika persyaratan peraturan atau kesesuaian untuk tujuan tujuan diberikan
sebagai standar deviasi, ia dapat digunakan secara langsung sebagai σpt. Jika
persyaratan atau tujuan adalah untuk kesalahan pengukuran maksimum yang
diijinkan, kriteria itu dapat dibagi dengan batas tindakan untuk mendapatkan σ pt.
Kesalahan maksimum yang ditentukan yang diresepkan dapat digunakan secara
langsung sebagai δE untuk digunakan dengan D atau D%. Keuntungan dari
pendekatan ini untuk skema berkelanjutan adalah: a) skor kinerja memiliki
interpretasi yang konsisten dalam hal kesesuaian untuk tujuan dari satu putaran
ke putaran berikutnya; b) skor kinerja tidak tunduk pada variasi yang diharapkan
ketika memperkirakan dispersi dari hasil yang dilaporkan.
CONTOH Jika kriteria peraturan ditetapkan sebagai kesalahan maksimum yang
diizinkan dan 3,0 adalah batas tindakan untuk evaluasi dengan skor z, maka
kriteria yang ditentukan dibagi dengan 3,0 untuk menentukan σ pt.
8.1.3 Ketika kriteria untuk evaluasi kinerja didasarkan pada statistik konsensus dari
putaran saat ini atau putaran sebelumnya dari skema pengujian kelayakan, maka
perkiraan yang kuat dari standar deviasi hasil peserta adalah statistik yang lebih
disukai. Ketika pendekatan ini digunakan, biasanya paling mudah untuk
menggunakan skor kinerja seperti skor z dan untuk menetapkan standar deviasi
untuk penilaian kelayakan (σpt) ke estimasi perhitungan standar deviasi.
8.2 Dengan persepsi para ahli
 8.2.1 Kesalahan maksimum yang diijinkan atau standar deviasi untuk penilaian
kemahiran dapat ditetapkan pada nilai yang sesuai dengan tingkat kinerja yang
oleh otoritas regulator, badan akreditasi, atau pakar teknis dari penyedia
pengujian kemahiran percaya wajar untuk peserta.
 8.2.2 Kesalahan maksimum yang diizinkan yang spesifik dapat diubah menjadi deviasi
standar untuk penilaian kelayakan dengan membagi batas dengan jumlah
kelipatan σpt yang digunakan untuk menentukan sinyal aksi (atau hasil yang tidak
dapat diterima). Demikian pula, σpt yang ditentukan dapat diubah menjadi intoE.
8.3 Berdasarkan pengalaman dari putaran sebelumnya dari skema pengujian kemahiran
8.3.1 Standar deviasi untuk penilaian kemahiran (σpt), dan kesalahan maksimum yang
diizinkan (δE), dapat ditentukan oleh pengalaman dengan putaran pengujian
kemampuan sebelumnya untuk pengukuran yang sama dan dengan nilai properti
yang sebanding, dan di mana peserta menggunakan prosedur pengukuran yang
kompatibel. Ini adalah pendekatan yang berguna ketika tidak ada kesepakatan di
antara para ahli tentang kebugaran untuk tujuan tertentu. Keuntungan dari
pendekatan ini adalah sebagai berikut: - evaluasi akan didasarkan pada
ekspektasi kinerja yang wajar; - kriteria evaluasi tidak akan bervariasi dari
putaran ke putaran dari skema pengujian kelayakan karena variasi acak atau
perubahan dalam populasi peserta; - kriteria evaluasi tidak akan berbeda antara
penyedia pengujian kelayakan yang berbeda, ketika ada dua atau lebih penyedia
pengujian kelayakan disetujui untuk bidang pengujian atau kalibrasi.
 
8.3.2 Tinjauan pada pembahasan sebelumnya dari skema pengujian kemahiran harus
mencakup pertimbangan kinerja yang dapat dicapai oleh peserta yang
kompeten, dan tidak terpengaruh oleh peserta baru atau variasi acak karena,
misalnya, ukuran kelompok yang lebih kecil atau faktor-faktor lain yang unik
untuk suatu tertentu bulat. Penentuan dapat dilakukan secara subyektif dengan
memeriksa putaran sebelumnya untuk konsistensi, atau secara obyektif dengan
rata-rata atau dengan model regresi yang menyesuaikan dengan nilai ukur dan.
Persamaan regresi mungkin garis lurus, atau bisa melengkung [31]. Deviasi
standar dan deviasi standar relatif harus dipertimbangkan, dengan pemilihan
berdasarkan yang lebih konsisten di berbagai tingkatan pengukuran dan
pengukuran yang sesuai. Kesalahan maksimum yang diijinkan yang tepat juga
dapat diperoleh dengan cara ini. 8.3.3 Ketika kriteria untuk evaluasi kinerja
didasarkan pada statistik konsensus dari putaran sebelumnya dari skema
pengujian kelayakan, estimasi kuat dari standar deviasi harus digunakan.
8.3.3 Ketika kriteria untuk evaluasi kinerja didasarkan pada statistik konsensus dari
putaran sebelumnya dari skema pengujian kelayakan, estimasi kuat dari standar
deviasi harus digunakan.
  CATATAN 1 Algoritma S (Lampiran C.4) memberikan deviasi standar gabungan
yang kuat yang berlaku ketika semua putaran sebelumnya dari skema pengujian
kelayakan yang sedang dipertimbangkan memiliki deviasi standar yang sama
diharapkan atau (jika deviasi relatif digunakan untuk penilaian) relatif sama
standar deviasi.
  CATATAN 2 Contoh untuk memperoleh nilai dari pengalaman putaran
sebelumnya dari skema pengujian kelayakan diberikan dalam Lampiran E.8.
8.4 Dengan menggunakan model umum
 8.4.1 Nilai standar deviasi untuk penilaian kelayakan dapat diturunkan dari model
umum untuk reproduksibilitas metode pengukuran. Metode ini memiliki
keunggulan objektivitas dan konsistensi lintas ukur, serta berbasis empiris.
Tergantung pada model yang digunakan, pendekatan ini dapat dianggap sebagai
kasus khusus kesesuaian untuk kriteria tujuan.
 8.4.2 Setiap deviasi standar yang diharapkan dipilih oleh model umum harus masuk
akal. Jika proporsi peserta yang sangat besar atau sangat kecil diberikan sinyal
tindakan atau peringatan, penyedia pengujian kelayakan harus memastikan
bahwa ini konsisten dengan tujuan skema pengujian kelayakan.
8.4.3 Estimasi khusus yang mempertimbangkan kekhususan masalah pengukuran pada
umumnya lebih disukai daripada pendekatan generik. Akibatnya, sebelum
menggunakan model umum, kemungkinan menggunakan pendekatan yang
dijelaskan dalam 8.2, 8.3 dan 8.5 harus dieksplorasi. CONTOH Kurva Horwitz.
Salah satu model umum yang umum untuk aplikasi kimia dijelaskan oleh Horwitz
[22] dan dimodifikasi oleh Thompson [31]. Pendekatan ini memberikan model
umum untuk reproduksibilitas metode analitik yang dapat digunakan untuk
memperoleh ungkapan berikut untuk standar deviasi reproduktifitas.

Standar deviasi

0,22c , ketika∧c< 1,2×10−7

{
σ R = 0.2 c 0.8495
, ketika∧1,2× 10−7 ≤ c ≤ 0,138
0,01 c0,5 , ketika∧c ≥0,138

Dimana c adalah Fraksi massa spesies kimia yang akan ditentukan di mana 0 ≤ c ≤ 1.
CATATAN 1 Model Horwitz bersifat empiris, berdasarkan pengamatan dari uji
coba kolaboratif dari banyak parameter selama periode waktu yang panjang.
Nilai σR adalah batas atas yang diharapkan dari variabilitas antar laboratorium
ketika uji coba kolaborasi tidak memiliki masalah yang signifikan. Nilai-nilai σR
karena itu mungkin bukan kriteria yang tepat untuk menentukan kompetensi
dalam skema pengujian kelayakan.
CATATAN 2 Contoh untuk memperoleh nilai dari model Horwitz yang
dimodifikasi disediakan dalam Lampiran E.9.
8.5 Menggunakan deviasi standar pengulangan dan reproduktifitas dari studi kolaboratif
sebelumnya mengenai ketepatan metode pengukuran
8.5.1 Ketika metode pengukuran yang akan digunakan dalam skema pengujian
kelayakan distandarisasi, dan informasi tentang pengulangan (σr) dan
reproduktifitas (σR) dari metode ini tersedia, standar deviasi untuk penilaian
kelayakan (σpt) dapat dihitung dengan menggunakan informasi ini, sebagai
berikut
σ pt=√ σ −σ
2 2
¿¿¿
R r

Dimana m adalah jumlah replika pengukuran setiap peserta dalam setiap kali
skema uji kelayakan
CATATAN : Persamaan ini diturunkan dari model efek acak dasar dari ISO 5725-
2.
8.5.2 Ketika penyimpangan standar pengulangan dan reproduktifitas bergantung pada
nilai rata-rata dari hasil pengujian, hubungan fungsional harus diperoleh dengan
metode yang dijelaskan dalam ISO 5725-2. Hubungan-hubungan ini kemudian
harus digunakan untuk menghitung nilai-nilai dari standar deviasi pengulangan
dan reproduktifitas yang sesuai untuk nilai yang ditetapkan yang akan digunakan
dalam skema pengujian profisiensi.
8.5.3 Agar teknik-teknik di atas valid, studi kolaboratif harus dilakukan sesuai dengan
persyaratan atau prosedur yang setara. CATATAN Contoh disajikan dalam
Lampiran E.10. ISO 5725
8.6 Dari data yang diperoleh dalam putaran yang sama dari skema pengujian kemahiran
8.6.1 Dengan pendekatan ini, deviasi standar untuk penilaian kemahiran, σ pt, dihitung
dari hasil peserta dalam putaran yang sama dari skema pengujian kemahiran.
Ketika pendekatan ini digunakan, biasanya paling nyaman untuk menggunakan
skor kinerja seperti skor z. Perkiraan yang kuat dari standar deviasi hasil yang
dilaporkan oleh semua peserta, dihitung dengan menggunakan teknik yang
tercantum dalam Lampiran C, biasanya harus digunakan untuk menghitung σ pt.
Secara umum, evaluasi dengan D atau D% dan penggunaan δE tidak sesuai dalam
situasi ini, namun PA masih dapat digunakan sebagai skor standar, untuk
perbandingan di seluruh pengukuran (bagian 9.3.6).
8.6.2 Penggunaan hasil peserta dapat mengarah pada kriteria untuk evaluasi kinerja
yang tidak sesuai. Penyedia pengujian kelayakan harus memastikan bahwa σpt
yang digunakan untuk evaluasi kinerja sesuai dengan tujuan.
8.6.2.1 Penyedia pengujian kelayakan harus memberikan batasan pada
nilai terendah σpt yang akan digunakan, dalam hal deviasi standar yang
kuat sangat kecil. Batas ini harus dipilih sehingga ketika kesalahan
pengukuran cocok untuk penggunaan yang paling menantang yang
dimaksudkan, skor kinerja akan z <3,0.
CONTOH Dalam skema pengujian kemampuan untuk kain, satu
pengukuran dan jumlah benang per sentimeter. Deviasi standar yang
kuat bisa kecil dalam beberapa putaran (<1 utas per cm.), Dan kesalahan
kurang dari 4 utas / cm dianggap tidak signifikan. Penyedia pengujian
kelayakan menentukan bahwa standar deviasi yang kuat digunakan
sebagai σpt, kecuali jika kurang dari 1,3 utas / cm, dalam hal ini σ pt = 1,3
digunakan.
8.6.2.2 Penyedia pengujian kelayakan harus memberi batasan pada σpt
terbesar yang akan digunakan, atau pada hasil pengukuran yang dapat
dievaluasi sebagai “dapat diterima” (tidak ada sinyal), dalam hal deviasi
standar yang kuat sangat besar. Batas ini harus dipilih sehingga hasil yang
tidak sesuai untuk tujuan akan menerima sinyal tindakan.
8.6.2.3 Dalam beberapa kasus penyedia pengujian kelayakan dapat
menempatkan batas atas atau bawah pada interval hasil yang dapat
dievaluasi sebagai 'dapat diterima' (tidak ada peringatan atau sinyal aksi),
ketika interval simetris mencakup hasil yang tidak sesuai dengan tujuan.
CONTOH Untuk skema pengujian kemampuan profisiensi untuk air yang
tidak dapat diminum, peraturan menetapkan bahwa hasil harus berada
dalam 3σpt dari rata-rata yang kuat dari hasil peserta. Namun, karena
dalam beberapa kasus kisaran hasil yang dapat diterima dapat mencakup
0 μg / L, setiap hasil yang kurang dari 10% dari nilai yang diformulasikan
akan menghasilkan sinyal aksi (atau 'tidak dapat diterima'). Item uji
kelayakan diformulasikan dengan 4,0 μg / L zat yang diatur. Rata-rata
peserta yang kuat adalah 3,2 μg / L dan σpt adalah 1,1 μg / L. Oleh karena
itu mungkin bagi peserta untuk mengirimkan hasil 0,0 μg / L dan berada
dalam 3σpt, tetapi setiap hasil kurang dari 0,4 μg / L akan dievaluasi
sebagai "tidak dapat diterima".
8.6.3 Keuntungan utama dari pendekatan ini adalah kesederhanaan dan penerimaan
konvensional karena keberhasilan penggunaan dalam banyak situasi. Ini mungkin
satu-satunya pendekatan yang layak.
8.6.4 Ada beberapa kelemahan dengan pendekatan ini: a) Nilai σpt dapat bervariasi
secara substansial dari putaran ke putaran dari skema pengujian kelayakan,
sehingga menyulitkan peserta untuk menggunakan nilai-nilai skor z untuk
mencari tren yang bertahan lebih lama. beberapa putaran. b) Penyimpangan
standar dapat tidak dapat diandalkan ketika jumlah peserta dalam skema
pengujian kelayakan adalah kecil atau ketika hasil dari metode yang berbeda
digabungkan. Misalnya, jika p = 20, standar deviasi untuk data yang terdistribusi
normal dapat bervariasi sekitar ± 30% dari nilai sebenarnya dari satu putaran
skema pengujian kelayakan ke tahap berikutnya. c) Menggunakan ukuran
dispersi yang berasal dari data dapat menyebabkan proporsi yang konstan dari
skor yang tampaknya dapat diterima. Umumnya kinerja yang buruk tidak akan
terdeteksi oleh inspeksi skor, dan umumnya kinerja yang baik akan menghasilkan
peserta yang baik menerima skor yang buruk. d) Tidak ada interpretasi yang
berguna dalam hal kesesuaian untuk penggunaan akhir dari hasil.
 
CATATAN Contoh penggunaan data peserta disediakan dalam contoh komprehensif dalam
Lampiran E.3.

9 Perhitungan statistik peforma


 9.1 Pertimbangan umum untuk menentukan kinerja
9.1.1 Statistik yang digunakan untuk menentukan kinerja harus konsisten dengan
tujuan untuk skema pengujian kelayakan. 
CATATAN Statistik kinerja paling berguna jika statistik dan turunannya dipahami oleh peserta
dan pihak berkepentingan lainnya.
9.1.2 Skor kinerja harus ditinjau dengan mudah di seluruh tingkat pengukuran dan
putaran berbeda dari skema pengujian kelayakan.
9.1.3 Hasil peserta harus ditinjau dan ditentukan agar konsisten dengan asumsi yang
digunakan dalam desain skema pengujian kelayakan, untuk memungkinkan
statistik kinerja yang bermakna. Misalnya, bahwa tidak ada bukti kemunduran
item tes kemahiran, atau campuran populasi peserta, atau pelanggaran parah
terhadap asumsi statistik tentang sifat data.
9.1.4 Secara umum, tidak tepat untuk menggunakan metode evaluasi yang dengan
sengaja mengklasifikasikan proporsi hasil yang tetap sebagai menghasilkan sinyal
tindakan.
 9.2 Membatasi ketidakpastian dari nilai yang diberikan
9.2.1 Jika ketidakpastian standar u (Xpt) dari nilai yang diberikan besar dibandingkan
dengan kriteria evaluasi kinerja, maka ada risiko bahwa beberapa peserta akan
menerima sinyal tindakan dan peringatan karena ketidakakuratan dalam
penentuan nilai yang ditugaskan, bukan karena sebab apa pun dari peserta.
Untuk alasan ini, ketidakpastian standar dari nilai yang ditetapkan harus
ditentukan dan harus dilaporkan kepada peserta (lihat ISO / IEC 17043: 2010,
4.4.5 dan 4.8.2). Jika kriteria berikut dipenuhi, maka ketidakpastian dari nilai
yang diberikan dapat dianggap diabaikan dan tidak perlu dimasukkan dalam
interpretasi hasil putaran pengujian profisiensi.
u (Xpt) <0,3σpt atau u (Xpt) <0,1δE (10)
 CATATAN 0,3 σpt sama dengan 0,1δE saat | z | ≥ 3,0 menghasilkan sinyal aksi.
 

9.2.2 Jika kriteria ini tidak terpenuhi, maka penyedia pengujian kelayakan harus
mempertimbangkan hal berikut, memastikan setiap tindakan yang diambil tetap
konsisten dengan kebijakan penilaian kinerja yang disepakati untuk skema
pengujian kelayakan.
a) Pilih metode untuk menentukan nilai yang ditetapkan sedemikian rupa
sehingga ketidakpastiannya memenuhi kriteria dalam persamaan (10).
b) Gunakan ketidakpastian dari nilai yang ditetapkan dalam interpretasi
hasil skema uji kemahiran (lihat bagian 9.5 pada skor z ', atau 9,6 pada
skor ζ, atau 9,7 pada skor En).
c) Jika nilai yang ditetapkan berasal dari hasil peserta, dan ketidakpastian
besar muncul dari perbedaan antara sub-populasi peserta yang dapat
diidentifikasi, laporkan nilai dan ketidakpastian yang terpisah untuk
setiap sub populasi (misalnya, peserta menggunakan metode pengukuran
yang berbeda).
CATATAN Protokol Harmonisasi IUPAC [32] menjelaskan prosedur khusus untuk mendeteksi
bimodality, berdasarkan inspeksi plot kepadatan kernel dengan bandwidth yang ditentukan.
d) Memberitahu peserta bahwa ketidakpastian nilai yang diberikan tidak
dapat diabaikan, dan evaluasi dapat dipengaruhi.
 Jika tidak ada a) - d) berlaku, maka para peserta harus diberitahu bahwa tidak ada nilai yang
dapat diandalkan yang dapat ditentukan dan bahwa tidak ada skor kinerja yang dapat
diberikan.
CATATAN Teknik yang disajikan dalam bagian ini ditunjukkan dalam Lampiran E.3 dan E.4.
 
9.3 Estimasi penyimpangan (kesalahan pengukuran)
9.3.1 Misalkan xi mewakili hasil (atau rata-rata ulangan) yang dilaporkan oleh peserta i
untuk pengukuran properti item tes kelayakan dalam satu putaran skema
pengujian kelayakan. Kemudian ukuran sederhana kinerja peserta dapat dihitung
sebagai perbedaan antara hasil xi dan nilai yang diberikan Xpt: i i pt Dxx = - (11)
Di dapat diartikan sebagai kesalahan pengukuran untuk hasil itu, sejauh mana
nilai yang ditetapkan dapat dianggap sebagai nilai kuantitas konvensional atau
referensi. Perbedaan Di dapat dinyatakan dalam unit yang sama dengan nilai
yang diberikan atau sebagai perbedaan persentase, dihitung sebagai: ()% 100% /
i i pt pt D x x x = - (12)
9.3.2 Perbedaan D atau D% biasanya dibandingkan dengan kriteria δE berdasarkan
kesesuaian untuk tujuan atau dengan pengalaman dari putaran sebelumnya dari
skema pengujian kelayakan; kriteria dicatat di sini sebagai δE, penyisihan untuk
kesalahan pengukuran. Jika -δE <D <δE maka kinerja dianggap ‘dapat diterima’
(atau ‘tidak ada sinyal’). (Kriteria yang sama berlaku untuk D%, tergantung pada
ekspresi δE.)
9.3.3 δE terkait erat dengan σpt seperti yang digunakan untuk skor z (lihat 9.4), ketika
σpt ditentukan oleh kesesuaian untuk tujuan atau harapan dari putaran
sebelumnya. Hubungan ditentukan oleh kriteria evaluasi untuk skor z. Misalnya,
jika z ≥ 3 menciptakan sinyal aksi maka δE = 3σpt, atau ekuivalen σpt = δE / 3.
Berbagai ekspresi δE konvensional dalam pengujian kelayakan untuk aplikasi
medis dan dalam spesifikasi kinerja untuk metode dan produk pengukuran.
9.3.4 Keuntungan D sebagai statistik kinerja dan δE sebagai kriteria kinerja adalah
bahwa peserta memiliki pemahaman intuitif tentang statistik ini karena mereka
terkait langsung dengan kesalahan pengukuran dan umum sebagai kriteria untuk
menentukan kesesuaian untuk tujuan. keuntungan dari D% adalah bahwa
pemahaman bersifat intuitif, standar untuk tingkat pengukuran dan, dan terkait
dengan penyebab umum kesalahan (misalnya, kalibrasi yang salah atau bias
dalam pengenceran).
9.3.5 Kerugiannya adalah tidak konvensional untuk pengujian kelayakan di banyak
negara atau bidang pengukuran; dan bahwa D tidak terstandarisasi, untuk
memungkinkan pemindaian laporan yang sederhana untuk sinyal aksi dalam
skema pengujian kemahiran dengan beberapa analit atau di mana kesesuaian
untuk kriteria tujuan dapat bervariasi berdasarkan tingkat pengukuran dan.
CATATAN Penggunaan D dan D% umumnya mengasumsikan simetri distribusi
hasil peserta dalam arti bahwa rentang yang dapat diterima adalah -δE <D <δE.
 9.3.6 Untuk tujuan perbandingan lintas tingkat pengukuran, di mana kesesuaian untuk
kriteria tujuan dapat bervariasi; atau untuk kombinasi lintas putaran atau lintas
pengukuran, D dan D% dapat diubah menjadi skor kinerja standar yang
menunjukkan perbedaan relatif terhadap kriteria kinerja untuk pengukuran.
Untuk melakukan ini, hitung “Persentase Penyimpangan yang Diizinkan” (PA)
untuk setiap hasil sebagai berikut: PAi = (Di / δE) x 100% (13) Oleh karena itu PA
≥ 100% atau PA ≤ -100% menunjukkan sinyal tindakan (atau 'kinerja yang tidak
dapat diterima').
 CATATAN 1 Skor PA dapat dibandingkan lintas level dan putaran berbeda dari
skema pengujian kelayakan, atau dilacak dalam bagan. Skor kinerja ini serupa
dalam penggunaan dan interpretasi dengan skor z yang memiliki kriteria evaluasi
umum seperti z ≤ -3 atau z ≥ 3 untuk sinyal aksi.
CATATAN 2 Variasi statistik ini biasanya digunakan, khususnya dalam aplikasi
medis, di mana biasanya ada frekuensi yang lebih tinggi dari pengujian kelayakan
dan sejumlah besar analit.
CATATAN 3 Mungkin tepat untuk menggunakan nilai absolut PA untuk
mencerminkan hasil yang secara konsisten dapat diterima (atau tidak dapat
diterima) relatif terhadap nilai yang diberikan.
9.4 z scores
9.4.1 The z score for a proficiency test result xi is calculated as:
( x i−x pt )
zi=
σ pt

9.4.2 Interpretasi konvensional skor z adalah sebagai berikut (lihat ISO / IEC 17043:
2010, B.4.1.1): - Hasil yang memberikan | z | ≤ 2,0 dianggap dapat diterima.
- Hasil yang menghasilkan 2,0 <| z | <3,0 dianggap memberikan sinyal
peringatan.
- Hasil yang menghasilkan | z | ≥ 3,0 dianggap tidak dapat diterima (atau sinyal
aksi).
Peserta harus disarankan untuk memeriksa prosedur pengukuran mereka
mengikuti sinyal peringatan jika mereka mengindikasikan masalah yang muncul
atau berulang.
CATATAN 1 Dalam beberapa aplikasi, penyedia pengujian kelayakan
menggunakan 2.0 sebagai sinyal aksi untuk skor z.
CATATAN 2 Pilihan kriteria σpt biasanya harus dibuat untuk memungkinkan interpretasi di
atas, yang banyak digunakan untuk penilaian kemahiran dan juga sangat mirip
dengan batas-batas peta kendali yang sudah dikenal.
CATATAN 3 Pembenaran untuk penggunaan batas 2,0 dan 3,0 untuk skor z adalah
sebagai berikut. Pengukuran yang dilakukan dengan benar diasumsikan
menghasilkan hasil yang dapat dijelaskan (setelah transformasi jika perlu)
dengan distribusi normal dengan rata-rata Xpt dan standar deviasi σpt. skor z
kemudian akan didistribusikan secara normal dengan rata-rata nol dan standar
deviasi 1,0. Dalam keadaan ini, hanya sekitar 0,3% dari skor yang diharapkan
akan jatuh di luar kisaran -3,0 ≤ z ≤ 3,0 dan hanya sekitar 5% yang diharapkan
berada di luar kisaran -2,0 ≤ z ≤ 2 , 0. Karena probabilitas z jatuh di luar ± 3,0
sangat rendah, tidak mungkin bahwa sinyal aksi akan terjadi secara kebetulan
ketika tidak ada masalah nyata, sehingga kemungkinan ada penyebab yang dapat
diidentifikasi untuk anomali ketika sinyal aksi diberikan .
CATATAN 4 Asumsi yang menjadi dasar interpretasi ini hanya berlaku untuk distribusi
hipotesis dari laboratorium yang kompeten dan bukan pada asumsi apa pun
tentang distribusi hasil yang diamati. Tidak ada asumsi yang perlu dibuat tentang
hasil yang diamati itu sendiri.
CATATAN 5 Jika variabilitas antar laboratorium yang benar lebih kecil dari σ pt maka
probabilitas kesalahan klasifikasi berkurang.
CATATAN 6 Ketika standar deviasi untuk penilaian kemahiran ditetapkan oleh salah satu
metode yang dijelaskan dalam 8.2 atau 8.4, itu mungkin berbeda secara
substansial dari standar deviasi hasil (kuat), dan proporsi hasil berada di
luar ± 2,0 dan ± 3 , 0 mungkin berbeda jauh dari 5% dan 0,3% masing-
masing.
9.4.2 Penyedia pengujian kelayakan harus menentukan pembulatan yang sesuai untuk
skor z yang dilaporkan, berdasarkan jumlah digit signifikan untuk hasilnya, dan
untuk nilai yang ditetapkan dan standar deviasi untuk pengujian kelayakan.
Aturan untuk pembulatan harus dimasukkan dalam informasi yang tersedia
untuk peserta
9.4.3 Ketika standar deviasi hasil peserta digunakan sebagai σpt dan skema pengujian
kelayakan melibatkan jumlah peserta yang sangat besar, penyedia pengujian
kelayakan mungkin ingin memeriksa normalitas distribusi, menggunakan hasil
aktual atau skor z. Di sisi lain, ketika hanya ada sedikit peserta, mungkin tidak
ada sinyal aksi yang diberikan. Dalam hal ini, metode grafis yang menggabungkan
skor kinerja selama beberapa putaran dapat memberikan indikasi kinerja peserta
yang lebih bermanfaat daripada hasil putaran individu.

9,5 z’ score
9.5.1 Ketika ada kekhawatiran tentang ketidakpastian nilai yang ditugaskan u (Xpt),
misalnya ketika u (Xpt)> 0,3σpt, maka ketidakpastian dapat diperhitungkan
dengan memperluas penyebut skor kinerja. Statistik ini disebut skor z ′ dan
dihitung sebagai berikut (dengan notasi seperti pada bagian 9.4)
xi −x pt
z⊄= 2
√σ pt +u2 ( x pt )
CATATAN Ketika Xpt dan / atau σpt dihitung dari hasil peserta, skor kinerja berkorelasi
dengan hasil masing-masing peserta, karena hasil individu memiliki dampak pada rata-rata yang
kuat dan standar deviasi. Korelasi untuk peserta individu tergantung pada bobot yang diberikan
kepada peserta tersebut dalam statistik gabungan. Untuk alasan ini, skor kinerja termasuk
ketidakpastian dari nilai yang ditetapkan tanpa termasuk penyisihan untuk korelasi mewakili
estimasi yang lebih rendah dari skor yang akan dihasilkan jika kovarians dimasukkan. Misalnya
kapan

u (Xpt) = 0,3σpt maka ada yang menurunkan sekitar 10% dari skor z '. Oleh karena itu
persamaan (15) dapat digunakan ketika Xpt dan / atau σpt ditentukan dari hasil peserta.
9.5.2 Skor D dan D% juga dapat dimodifikasi untuk mempertimbangkan ketidakpastian
nilai yang ditetapkan dengan rumus berikut untuk memperluas δE ke δE ’
δ ' E =√ δ +U
2 2
¿¿
E

di mana U (Xpt) adalah ketidakpastian diperluas dari nilai yang ditugaskan Xpt dihitung
dengan faktor cakupan k = 2.
9.5.3 skor z ′ dapat diinterpretasikan dengan cara yang sama dengan skor z (lihat 9.4)
dan menggunakan nilai kritis yang sama yaitu 2.0 dan 3.0, tergantung pada
desain untuk skema pengujian kelayakan. Demikian pula, skor D dan D%
kemudian akan dibandingkan dengan δE ’(lihat 9.3).
9.5.4 Perbandingan formula untuk skor z dan skor z in dalam 9.4 dan 9.5 menunjukkan
bahwa skor z ′ untuk putaran skema pengujian kelayakan akan selalu lebih kecil
daripada skor z terkait dengan faktor konstan dari
σ pt
2 2
√σ pt +U ¿ ¿ ¿

Ketika pedoman untuk membatasi ketidakpastian nilai yang diberikan dalam 9.2.1
dipenuhi,faktor ini akan jatuh dalam kisaran:
σ pt
0,96 ¿ 2 2 < 1,00
√σ pt +U ¿ ¿¿

Jadi, dalam hal ini, skor z ′ akan hampir identik dengan skor z, dan dapat
disimpulkan bahwa ketidakpastian dari nilai yang diberikan dapat diabaikan
untuk evaluasi kinerja.  Ketika pedoman dalam 9.2.1 untuk ketidakpastian nilai
yang ditugaskan tidak terpenuhi, perbedaan dalam besarnya skor z ′ dan skor z
mungkin sedemikian sehingga beberapa skor z melebihi nilai kritis 2,0 atau 3,0
dan jadi berikan "sinyal peringatan" atau "sinyal aksi", sedangkan skor z
corresponding yang sesuai tidak melebihi nilai kritis ini dan karenanya tidak
memberikan sinyal.  Secara umum, untuk situasi ketika nilai yang ditetapkan
dan / atau σpt tidak ditentukan dari hasil peserta, z ’dapat lebih disukai karena
ketika kriteria pada 9.2.1 dipenuhi, perbedaan antara z dan z’ akan diabaikan.  
9.6 Skor Zeta (ζ)
9.6.1 Skor Zeta dapat bermanfaat ketika tujuan untuk skema pengujian kelayakan
adalah untuk mengevaluasi kemampuan peserta untuk mendapatkan hasil yang
mendekati nilai yang diberikan dalam ketidakpastian yang mereka klaim. Dengan
notasi seperti pada 9,4, skor ζ dihitung sebagai:
ζ x i− x pt
i =¿ 2 2
¿
√u ( x )+ u (x
i pt )

Di mana u (xi) adalah estimasi peserta sendiri tentang ketidakpastian standar


dari hasilnya xi, dan u (Xpt) adalah ketidakpastian standar dari nilai yang diberikan
Xpt.
CATATAN 1 Ketika nilai yang ditetapkan Xpt dihitung sebagai nilai konsensus
dari hasil peserta, maka Xpt dikorelasikan dengan hasil masing-
masing peserta. Korelasi untuk peserta individu tergantung pada
bobot yang diberikan kepada peserta tersebut dalam nilai yang
diberikan, dan pada tingkat lebih rendah, dalam ketidakpastian
nilai yang diberikan. Untuk alasan ini, skor kinerja termasuk
ketidakpastian dari nilai yang ditetapkan tanpa termasuk
penyisihan untuk korelasi mewakili estimasi yang lebih rendah
dari skor yang akan dihasilkan jika kovarians dimasukkan. Estimasi
di bawah tidak serius jika ketidakpastian dari nilai yang diberikan
kecil; ketika metode yang kuat digunakan itu paling tidak serius
untuk peserta terluar yang paling mungkin menerima skor kinerja
yang merugikan. Oleh karena itu, Persamaan (17) dapat
digunakan dengan statistik konsensus tanpa penyesuaian korelasi.
CATATAN 2 ζ skor berbeda dari skor En (bagian 9.7) dengan menggunakan
ketidakpastian standar u (xi) dan u (pt), daripada ketidakpastian
diperluas U (xi) dan U (Xpt). ζ skor di atas 2 atau di bawah -2 dapat
disebabkan oleh metode yang bias secara sistematis atau oleh
estimasi yang buruk dari ketidakpastian pengukuran oleh peserta.
ζ Skor karena itu memberikan penilaian yang ketat atas hasil
lengkap yang disampaikan oleh peserta.

 9.6.2 Menggunakan skor allows memungkinkan penilaian langsung apakah


laboratorium dapat memberikan hasil yang benar, yaitu hasil yang setuju dengan
Xpt dalam ketidakpastian pengukurannya. ζ skor dapat diinterpretasikan
menggunakan nilai kritis yang sama yaitu 2,0 dan 3,0 untuk skor z, atau dengan
kelipatan dari faktor cakupan peserta yang digunakan ketika memperkirakan
ketidakpastian yang diperluas. Namun, skor ζ yang merugikan dapat
menunjukkan baik penyimpangan besar xi dari Xpt, meremehkan(underestimate)
ketidakpastian pada bagian peserta, atau kombinasi keduanya.
 
CATATAN Mungkin bermanfaat bagi penyedia pengujian kelayakan untuk
memberikan informasi tambahan tentang validitas ketidakpastian
yang dilaporkan. Pedoman yang berguna untuk penilaian tersebut
disarankan di bagian 9.8
9.6.3 ζ skor dapat digunakan bersama dengan skor z, sebagai bantuan untuk
meningkatkan kinerja peserta, sebagai berikut. Jika seorang peserta memperoleh
skor z yang berulang kali melebihi nilai kritis 3,0, mereka mungkin
menganggapnya berharga untuk memeriksa prosedur uji mereka langkah demi
langkah dan mendapatkan evaluasi ketidakpastian untuk prosedur itu. Evaluasi
ketidakpastian akan mengidentifikasi langkah-langkah dalam prosedur di mana
ketidakpastian terbesar muncul, sehingga peserta dapat melihat di mana harus
mengeluarkan upaya untuk mencapai peningkatan. Jika skor peserta juga
berulang kali melebihi nilai kritis 3,0, itu menyiratkan bahwa evaluasi
ketidakpastian peserta tidak mencakup semua sumber ketidakpastian yang
signifikan (mis., Mereka kehilangan sesuatu yang penting). Sebaliknya, jika
peserta berulang kali memperoleh skor z ≥ 3 tetapi ζ skor <2, ini menunjukkan
bahwa peserta mungkin telah menilai ketidakpastian hasil mereka secara akurat
tetapi hasilnya tidak memenuhi kinerja yang diharapkan untuk skema pengujian
kelayakan. Ini dapat menjadi kasus, misalnya, untuk peserta yang menggunakan
metode penyaringan dalam prosedur pengukuran di mana peserta lain
menerapkan metode kuantitatif. Tidak diperlukan tindakan jika peserta
menganggap bahwa ketidakpastian hasil-hasilnya cukup.
 
CATATAN Ketika ζ skor digunakan sendirian, skor tersebut dapat ditafsirkan
hanya sebagai tes apakah ketidakpastian peserta konsisten
dengan penyimpangan yang diamati dan tidak dapat diartikan
sebagai indikasi kesesuaian untuk tujuan hasil peserta tertentu.
Penentuan kesesuaian untuk tujuan dapat dilakukan secara
terpisah (misalnya, oleh peserta atau oleh badan akreditasi)
dengan memeriksa deviasi (x-Xpt) atau ketidakpastian standar
gabungan dibandingkan dengan ketidakpastian target.

 9.7 Skor En
 9.7.1 Skor En dapat berguna ketika tujuan untuk skema pengujian kemahiran adalah
untuk mengevaluasi kemampuan peserta untuk mendapatkan hasil yang dekat
dengan nilai yang diberikan dalam klaim mereka.
ketidakpastian diperluas. Statistik ini konvensional untuk pengujian kelayakan
dalam kalibrasi, tetapi dapat digunakan untuk jenis pengujian kelayakan lain.
x i−x pt
Statistik kinerja ini dihitung sebagai ( E n )i 2 2
√u ( x ) +u (x
i pt )

di mana Xpt adalah nilai yang ditetapkan ditentukan dalam laboratorium


referensi U (Xpt) adalah ketidakpastian diperluas dari nilai yang ditugaskan Xpt U
(xi) adalah ketidakpastian diperluas dari hasil peserta xi
 
CATATAN Kombinasi langsung dari ketidakpastian yang diperluas tidak
konsisten dengan persyaratan ISO / IEC Guide 98-3 dan tidak
setara dengan perhitungan gabungan ketidakpastian yang
diperluas kecuali faktor cakupan dan derajat kebebasan efektif
yang sama untuk U (xi) dan U (Xpt).
9.7.2 Skor En harus ditafsirkan dengan hati-hati, karena merupakan rasio dari dua
ukuran kinerja yang terpisah (tetapi terkait). Pembilang adalah penyimpangan
hasil dari nilai yang diberikan, dan memiliki interpretasi yang dibahas dalam
bagian 9.3. Penyebut adalah gabungan ketidakpastian yang diperluas yang tidak
boleh lebih besar dari penyimpangan dalam pembilang, jika peserta telah
menentukan U (xi) dengan benar dan jika penyedia pengujian kelayakan telah
menentukan U (Xpt) dengan benar. Oleh karena itu, skor En ≥ 1,0 atau En ≤ -1,0
dapat mengindikasikan kebutuhan untuk meninjau estimasi ketidakpastian, atau
untuk memperbaiki masalah pengukuran; sama dengan -1,0 <En <1,0 harus
diambil sebagai indikator kinerja yang sukses hanya jika ketidakpastiannya valid
dan penyimpangan (xi-Xpt) lebih kecil dari yang dibutuhkan oleh pelanggan
peserta.
 
CATATAN Meskipun interpretasi skor En bisa sulit, itu tidak mencegah
penggunaannya. Memasukkan informasi tentang ketidakpastian
ke dalam interpretasi hasil hasil pengujian kelayakan dapat
memainkan peran utama dalam meningkatkan pemahaman
peserta tentang ketidakpastian pengukuran dan evaluasinya.
 9.8 Evaluasi Ketidakpastian Peserta Dalam Pengujian
9.8.1 Dengan meningkatnya penerapan ISO / IEC 17025 ada pemahaman yang lebih
baik tentang ketidakpastian pengukuran. Penggunaan evaluasi laboratorium
tentang ketidakpastian dalam evaluasi kinerja telah umum dalam skema
pengujian kelayakan di berbagai bidang kalibrasi, seperti dengan skor En, tetapi
belum umum dalam pengujian kelayakan untuk pengujian laboratorium. Skor ζ
yang diuraikan dalam bagian 9.6, dan skor En di bagian 9.7, adalah opsi untuk
evaluasi hasil terhadap ketidakpastian yang diklaim.
9.8.2 Beberapa penyedia pengujian kelayakan telah mengakui kegunaan meminta
laboratorium untuk melaporkan ketidakpastian hasil dalam pengujian kelayakan.
Ini bisa bermanfaat bahkan ketika ketidakpastian tidak digunakan dalam
penilaian. Ada beberapa tujuan untuk mengumpulkan informasi tersebut:
a) badan akreditasi dapat memastikan bahwa peserta melaporkan
ketidakpastian yang konsisten dengan ruang lingkup akreditasi mereka;
b) peserta dapat meninjau ketidakpastian yang dilaporkan bersama dengan
peserta lainnya, untuk menilai konsistensi (atau tidak) dan dengan
demikian memperoleh peluang untuk mengidentifikasi apakah evaluasi
ketidakpastian mereka tidak menghitung semua komponen yang relevan,
atau menghitung terlalu banyak beberapa komponen; c) pengujian
kemampuan dapat digunakan untuk mengkonfirmasi klaim
ketidakpastian, dan ini paling mudah ketika ketidakpastian dilaporkan
dengan hasilnya.
CATATAN Contoh analisis data ketika ketidakpastian dilaporkan dalam Lampiran
E.3.
9.8.3 Jika Xpt ditentukan dengan menggunakan prosedur di bagian 7.3-7.6 dan u ( x pt )
memenuhi kriteria pada 9.2.1 maka tidak mungkin bahwa hasil peserta akan
memiliki ketidakpastian standar yang lebih kecil daripada ini, sehingga u (Xpt)
dapat digunakan sebagai batas bawah untuk penyaringan, disebut umin. Jika
nilai yang ditetapkan ditentukan dari hasil peserta (bagian 7.7), maka penyedia
pengujian kelayakan harus menentukan batas penyaringan praktis untuk umin. 
CATATAN Jika u (Xpt) menyertakan variabilitas karena ketidakhomogenan atau
ketidakstabilan, u (xi) peserta bisa lebih kecil dari Umin.
9.8.4 Juga tidak mungkin bahwa ketidakpastian standar yang dilaporkan setiap peserta
lebih besar dari 1,5 kali standar deviasi yang kuat dari peserta (1,5s *), sehingga
ini dapat digunakan sebagai batas atas praktis untuk menyaring ketidakpastian
yang dilaporkan, yang disebut umax .
CATATAN Faktor 1,5 adalah batas atas dari variabilitas dalam deviasi standar
yang dapat diharapkan untuk deviasi standar konsensus dengan
10 hasil atau lebih, berdasarkan akar kuadrat dari persentil
distribusi F. Penyedia pengujian kelayakan apa pun yang
mengadopsi prosedur ini mungkin ingin menggunakan pengganda
yang berbeda.
CATATAN Karena ketidakpastian tidak mungkin terdistribusi secara normal,
transformasi kemungkinan diperlukan ketika menggunakan batas
yang mengandalkan perkiraan atau normalitas yang
mendasarinya; misalnya batas kotak kumis plot berdasarkan
rentang interkuartil memiliki interpretasi probabilistik hanya
ketika distribusi mendekati normal.

 9.9 Skor kinerja gabungan


9.9.1 Adalah umum, dalam satu putaran skema pengujian kelayakan, untuk hasil yang
diperoleh untuk lebih dari satu item tes kelayakan atau untuk lebih dari satu
pengukuran dan. Dalam situasi ini, hasil untuk setiap item tes kelayakan dan
untuk setiap pengukuran dan harus ditafsirkan seperti yang dijelaskan dalam 9.3
hingga 9.7; yaitu, hasil untuk setiap item tes kelayakan dan setiap pengukuran
dan harus dievaluasi secara terpisah.
9.9.2 Ada aplikasi ketika dua atau lebih item uji kelayakan dengan tingkat yang
dirancang khusus dimasukkan dalam skema pengujian kelayakan untuk
mengukur aspek kinerja lainnya, seperti untuk menyelidiki pengulangan,
kesalahan sistematis, atau linieritas. Sebagai contoh, dua item tes kelayakan
serupa dapat digunakan dalam skema pengujian kelayakan dengan niat untuk
memperlakukan mereka dengan plot Youden, seperti dijelaskan dalam 10.5.
Dalam hal demikian, penyedia pengujian kelayakan harus memberikan peserta
dengan deskripsi lengkap tentang desain statistik dan prosedur yang digunakan.
9.9.3 Metode grafis yang dijelaskan dalam Bagian 10 harus digunakan ketika hasil
diperoleh untuk lebih dari satu item tes kelayakan atau untuk beberapa
pengukuran, asalkan mereka terkait erat dan / atau diperoleh dengan metode
yang sama. Prosedur ini menggabungkan skor kinerja dengan cara yang tidak
menyembunyikan nilai tinggi skor individu, dan mereka dapat mengungkapkan
informasi tambahan tentang kinerja peserta - seperti korelasi antara hasil untuk
pengukuran yang berbeda - yang tidak terlihat dalam tabel skor individu.
9.9.4 Dalam skema pengujian kelayakan yang melibatkan sejumlah besar pengukuran,
hitungan atau proporsi jumlah tindakan dan sinyal peringatan dapat digunakan
untuk mengevaluasi kinerja.
9.9.5 Skor kinerja gabungan atau skor penghargaan atau penalti harus digunakan
hanya dengan hati-hati, karena akan sulit untuk menggambarkan asumsi statistik
yang mendasari skor. Sementara skor kinerja gabungan untuk hasil pada item tes
kelayakan berbeda pada pengukuran yang sama dan dapat memiliki distribusi
yang diharapkan dan dapat berguna untuk mendeteksi bias persisten, skor rata-
rata atau dijumlahkan di seluruh pengukuran yang berbeda pada item tes
kelayakan yang sama atau berbeda dapat menyembunyikan bias dalam hasil
untuk tunggal terukur. Metode perhitungan, interpretasi, dan batasan skor
gabungan atau penalti yang digunakan karenanya harus diperjelas bagi para
peserta

10 Metode grafis untuk menggambarkan skor kinerja


 10.1 Penerapan metode grafis
Penyedia pengujian kelayakan biasanya harus menggunakan skor kinerja yang diperoleh
dalam setiap putaran skema pengujian kelayakan untuk menyiapkan grafik seperti yang
dijelaskan dalam 10.2 dan 10.3. Penggunaan skor kinerja, seperti PA, z, z ’, ζ, atau skor
En dalam grafik ini memiliki keuntungan bahwa mereka dapat ditarik menggunakan
sumbu standar, sehingga mempermudah presentasi dan interpretasi mereka. Grafik
harus dibuat tersedia untuk para peserta, memungkinkan setiap peserta untuk melihat
di mana hasil mereka jatuh dalam kaitannya dengan yang diperoleh oleh peserta lain.
Kode huruf atau kode angka dapat digunakan untuk mewakili peserta sehingga setiap
peserta dapat mengidentifikasi hasil mereka sendiri tetapi tidak dapat menentukan
peserta mana yang memperoleh hasil lainnya. Grafik juga dapat digunakan oleh
penyedia pengujian kelayakan dan lembaga akreditasi apa saja, untuk memungkinkan
mereka menilai efektivitas keseluruhan skema pengujian kelayakan dan untuk melihat
apakah ada kebutuhan untuk meninjau kembali kriteria yang digunakan untuk
mengevaluasi kinerja.
 10.2 Histogram hasil atau skor kinerja
10.2.1 Histogram adalah alat statistik umum, dan berguna pada dua titik berbeda dalam
analisis hasil pengujian kelayakan. Grafik berguna pada tahap analisis awal,
untuk memeriksa apakah asumsi statistik masuk akal, atau jika ada anomali -
seperti distribusi bimodal, sebagian besar pencilan, atau kemiringan tidak biasa
yang tidak diantisipasi. Histogram juga dapat berguna dalam laporan untuk
skema pengujian kemahiran, untuk menggambarkan skor kinerja, atau untuk
membandingkan hasil, misalnya, metode yang berbeda atau item tes kemahiran
yang berbeda. Histogram sangat berguna dalam laporan individu untuk skema
pengujian kelayakan berukuran kecil atau sedang (kurang dari 100 peserta)
untuk memungkinkan peserta menilai bagaimana kinerja mereka dibandingkan
dengan peserta lain, misalnya, dengan menyorot blok dalam bilah vertikal untuk
mewakili peserta. hasil atau, dalam skema pengujian kelayakan kecil (kurang dari
50 peserta), menggunakan karakter plot individual untuk setiap peserta.
10.2.2 Histogram dapat disiapkan menggunakan hasil peserta aktual atau skor kinerja.
Hasil peserta memiliki keuntungan yang terkait langsung dengan data yang
disampaikan dan dapat dinilai tanpa perhitungan atau transformasi lebih lanjut
dari skor kinerja ke kesalahan pengukuran. Histogram berdasarkan skor kinerja
memiliki keunggulan terkait langsung dengan evaluasi kinerja, dan dapat dengan
mudah dibandingkan di seluruh pengukuran dan putaran skema pengujian
kelayakan.
Rentang dan ukuran wadah yang digunakan untuk histogram harus ditentukan
untuk setiap set data, berdasarkan pada variabilitas dan jumlah hasil. Seringkali
dimungkinkan untuk melakukan ini berdasarkan pengalaman dengan uji
kelayakan, tetapi dalam kebanyakan situasi pengelompokan perlu disesuaikan
setelah pandangan pertama. Jika skor kinerja digunakan dalam histogram, akan
berguna untuk memiliki skala berdasarkan standar deviasi untuk penilaian
kelayakan dan titik potong untuk sinyal peringatan dan tindakan.
 10.2.3 Skala dan interval plot harus dipilih sehingga bimodalitas dapat dideteksi (jika
ada), tanpa membuat peringatan palsu karena resolusi hasil pengukuran atau
sejumlah kecil hasil.
 
CATATAN 1 Tampilan histogram sensitif terhadap lebar nampan yang dipilih dan lokasi
batas nampan (untuk lebar nampan konstan ini sangat tergantung pada titik
awal). Jika lebar nampan terlalu kecil, plot akan menampilkan banyak mode
kecil; mode terlalu besar dan lumayan dekat badan utama mungkin tidak cukup
berbeda. Munculnya mode sempit dan ketinggian relatif bar berdekatan
perubahan saya cukup pada perubahan posisi awal atau lebar bin, terutama di
mana kumpulan data kecil dan / atau menunjukkan beberapa pengelompokan.
 
CATATAN 2 Contoh plot histogram disediakan dalam Lampiran E.3.
 10.3 Plot kepadatan kernel
 10.3.1 Plot kepadatan kernel, sering disingkat menjadi 'plot kepadatan', memberikan
kurva halus yang menggambarkan bentuk umum distribusi set data. Ide yang
mendasari estimasi kernel adalah bahwa setiap titik data diganti oleh distribusi
yang ditentukan (biasanya normal), berpusat pada titik dan dengan standar
deviasi σk; σk biasanya disebut ‘bandwidth’. Distribusi ini ditambahkan bersama-
sama dan distribusi yang dihasilkan, diskalakan untuk memiliki satuan luas,
memberikan 'estimasi kepadatan' yang dapat diplot sebagai kurva yang halus.
 10.3.2 Langkah-langkah berikut dapat diikuti untuk menyiapkan plot densitas kernel.
Diasumsikan bahwa kumpulan data X yang terdiri dari nilai p x1, x2, ..., xp harus
dimasukkan dalam plot. Ini biasanya hasil peserta tetapi mungkin skor kinerja
berasal dari hasil. i) Pilih bandwidth yang sesuai σk. Dua opsi sangat berguna:
a) Untuk inspeksi umum, set σk = 0,9 s * / p0,2 di mana s * adalah standar
deviasi yang kuat dari nilai x1, ..., xp yang dihitung menggunakan
prosedur dalam Lampiran C.2 atau C.3.
b) Untuk memeriksa kumpulan data untuk mode kotor yang penting
dibandingkan dengan kriteria untuk penilaian kinerja, atur σk = 0,75σpt
jika menggunakan skor z atau ζ, atau σk = 0,25 δE jika menggunakan D
atau D%.
CATATAN 1 Opsi a) di atas mengikuti Silverman [30] yang merekomendasikan
s * berdasarkan rentang interkuartil yang dinormalisasi (nIQR).
Aturan pemilihan bandwidth lain yang memberikan hasil yang
serupa termasuk Scott [29], yang menggantikan pengali 0,9
dengan 1,06. Referensi [29] menjelaskan metode pemilihan
bandwidth yang hampir optimal, tetapi jauh lebih kompleks.
Dalam praktiknya, perbedaan untuk inspeksi visual sedikit dan
pilihannya tergantung pada ketersediaan perangkat lunak.
 CATATAN 2 Opsi b) di atas mengikuti panduan IUPAC [32].
 ii) Atur rentang plot qmin ke qmax sehingga qmin ≤ min (x1, ... xp) - 3σk dan
qmax ≥ maks (x1, ... xp) + 3σk.
iii) Pilih sejumlah titik nk untuk kurva yang diplot. nk = 200 biasanya cukup
kecuali ada outlier ekstrim dalam kisaran plot.
iv) Hitung lokasi plot q1 hingga qnk dari
(q nk −q1 )
q i=q min (i−1)
n k −1

v) hitung nk densitas h1 ke hnk dari


p
1 x j−qi
hi = ∑
p j=i
φ( φk )for i=1 ke i=i nk

vi) Plot hi terhadap qi.


CATATAN 1 Mungkin bermanfaat untuk menambahkan lokasi masing-
masing titik data ke plot. Ini paling umum dilakukan
dengan memplot lokasi di bawah kurva kepadatan diplot
sebagai penanda vertikal pendek (kadang-kadang disebut
'permadani'), tetapi juga dapat dilakukan dengan memplot
titik data pada titik yang tepat di sepanjang kurva
kepadatan yang dihitung.  
CATATAN 2 Plot kepadatan paling baik dilakukan oleh perangkat lunak.
Perhitungan bertahap di atas dapat dilakukan dalam
spread-sheet untuk ukuran kumpulan data sederhana.
Perangkat lunak statistik yang dapat dipatenkan dan
tersedia secara bebas seringkali mencakup plot kerapatan
berdasarkan pilihan bandwidth default yang serupa.
Implementasi perangkat lunak canggih dari plot kepadatan
dapat menggunakan algoritma ini atau perhitungan lebih
cepat berdasarkan metode konvolusi.  
CATATAN 3 Contoh plot kerapatan kernel diberikan dalam Lampiran
E.3, E.4, dan E.6.  
10.3.3 Bentuk kurva diambil sebagai indikasi distribusi dari mana data diambil. Mode
berbeda muncul sebagai puncak terpisah. Nilai terluar muncul sebagai puncak
terpisah yang terpisah dari badan utama data.  
CATATAN 1 Plot kepadatan sensitif terhadap bandwidth σk yang dipilih. Jika
bandwidth terlalu kecil, plot akan menampilkan banyak mode
kecil; mode terlalu besar dan lumayan dekat badan utama
mungkin tidak cukup berbeda.  
CATATAN 2 Seperti histogram, plot kerapatan paling baik digunakan dengan
set data sedang hingga besar karena set data kecil (sepuluh atau
lebih sedikit) mungkin secara kebetulan menyertakan outlier
ringan atau mode semu, terutama ketika standar deviasi yang
kuat digunakan sebagai dasar untuk bandwidth.
10.4 Bar-plot skor kinerja standar  
10.4.1 Bar-plot adalah metode yang cocok untuk menyajikan skor kinerja untuk
sejumlah karakteristik serupa dalam satu grafik. Mereka akan mengungkapkan
jika ada fitur umum dalam skor untuk peserta, misalnya jika peserta mencapai
beberapa skor z tinggi yang menunjukkan kinerja yang umumnya buruk, peserta
mungkin memiliki bias positif.  
10.4.2 Untuk menyiapkan plot-bar, kumpulkan skor kinerja standar ke dalam plot-bar
seperti yang ditunjukkan pada Gambar E.10, di mana skor untuk setiap peserta
dikelompokkan bersama. Skor kinerja standar lainnya, seperti D% atau PA dapat
diplot untuk tujuan yang sama.

10.4.3 Ketika penentuan ulangan dibuat dalam putaran skema pengujian kelayakan,
hasilnya dapat digunakan untuk menghitung grafik ukuran presisi; misalnya,
statistik k seperti dijelaskan dalam ISO 5725-2, atau ukuran terkait yang
diskalakan terhadap standar deviasi rata-rata yang kuat seperti yang
didefinisikan dalam Algoritma S (Lampiran C.4).
 CATATAN Contoh plot batang dengan skor z disediakan dalam Lampiran E.11.
 10.5 Youden Plot
 10.5.1 Ketika dua item uji kelayakan serupa telah diuji dalam satu putaran skema
pengujian kelayakan, Youden Plot menyediakan metode grafis yang sangat
informatif untuk mempelajari hasilnya. Ini dapat berguna untuk menunjukkan
korelasi (atau kemandirian) hasil pada item tes kelayakan berbeda, dan untuk
membimbing penyelidikan menjadi alasan untuk sinyal tindakan.
 10.5.2 Grafik dibuat dengan memplot hasil peserta, atau skor z, diperoleh pada salah
satu item tes kelayakan terhadap hasil peserta atau skor z yang diperoleh pada
item tes kemampuan lainnya. Garis vertikal dan horizontal biasanya digambar
untuk menciptakan empat kuadran nilai, untuk membantu interpretasi. Garis
digambar pada nilai yang ditetapkan atau pada median untuk dua distribusi hasil,
atau digambar pada 0 jika skor z diplot.
CATATAN Untuk interpretasi plot Youden yang tepat, penting agar kedua
item tes kelayakan memiliki tingkat pengukuran (atau identik)
yang sama; ini adalah agar sifat dari setiap kesalahan pengukuran
sistematis adalah sama di area interval pengukuran. Plot yang
Anda dapat dapat berguna untuk level pengukuran yang sangat
berbeda dan di hadapan kesalahan sistematis yang konsisten,
tetapi plot tersebut dapat menipu jika kesalahan kalibrasi tidak
secara konsisten positif atau negatif di seluruh rentang level ukur.
10.5.3 Ketika Plot Youden dibangun, interpretasinya adalah sebagai berikut: a) Periksa
plot untuk poin-poin yang terpisah dari sisa data. Jika peserta tidak mengikuti
metode pengujian dengan benar, sehingga hasilnya tunduk pada kesalahan
sistematis, suatu poin akan diberikan jauh di kiri bawah atau kuadran kanan atas.
Poin yang jauh dari yang lain di kuadran kiri atas dan kanan bawah mewakili
peserta yang pengulangannya lebih besar dari sebagian besar peserta lainnya,
yang metode pengukurannya menunjukkan sensitivitas yang berbeda terhadap
komposisi item tes kelayakan atau, kadang-kadang, peserta yang memiliki item
tes kelayakan yang secara tak sengaja dipertukarkan. b) Periksa plot untuk
melihat apakah ada bukti hubungan umum antara hasil untuk dua item tes
kelayakan (misalnya, jika mereka terletak kira-kira di sepanjang garis miring). Jika
ada bukti hubungan, maka itu menunjukkan bahwa ada bukti bias peserta yang
mempengaruhi item tes kelayakan yang berbeda dengan cara yang sama. Jika
tidak ada hubungan visual yang jelas antara hasil (mis., poin didistribusikan kira-
kira secara merata di wilayah melingkar, biasanya dengan kepadatan lebih tinggi
ke pusat) daripada kesalahan pengukuran untuk dua item uji kelayakan sebagian
besar independen. Ini dapat diperiksa dengan statistik korelasi peringkat, jika
pemeriksaan visual tidak konklusif. c) Periksa plot untuk kelompok-kelompok
peserta yang dekat, baik di sepanjang diagonal atau di tempat lain. Grup yang
jelas cenderung menunjukkan perbedaan antara metode yang berbeda.
 
CATATAN 1 Dalam studi di mana semua peserta menggunakan metode
pengukuran yang sama, atau plot hasil berasal dari metode
pengukuran tunggal, jika hasilnya berada di sepanjang garis, ini
mungkin menjadi bukti bahwa metode pengukuran belum
ditentukan secara memadai. Investigasi metode uji kemudian
memungkinkan reproduksibilitas metode secara umum
ditingkatkan.
  CATATAN 2 Contoh plot Youden disediakan dalam Lampiran E.12.
 10.6 Plot deviasi standar pengulangan
 10.6.1 Ketika pengukuran ulangan dilakukan oleh peserta dalam putaran skema
pengujian kelayakan, hasilnya dapat digunakan untuk menghasilkan plot untuk
mengidentifikasi peserta yang rata-rata dan standar deviasinya tidak biasa.
10.6.2 Grafik dibuat dengan memplotkan standar deviasi peserta-dalam si untuk setiap
peserta terhadap rata-rata xi yang sesuai untuk peserta. Atau rentang hasil
ulangan dapat digunakan sebagai pengganti deviasi standar. Misalkan x * = rata-
rata kuat x1, x2, ..., xp, yang dihitung oleh Algoritma A w * = rata-rata gabungan
kuat dari s1, s2, ..., sp, seperti yang dihitung oleh Algoritma S dan berasumsi
bahwa data terdistribusi secara normal. Di bawah hipotesis nol bahwa tidak ada
perbedaan antara peserta dalam nilai-nilai populasi dari rata-rata peserta atau
deviasi standar dalam-peserta, statistik
x∗¿
(√ m x i− +¿ ¿ ¿
w∗¿ ¿2
memiliki kira-kira distribusi χ2 dengan 2 derajat kebebasan. Karenanya wilayah
kritis dengan tingkat signifikansi sekitar 1% dapat digambarkan pada grafik
dengan memplot
1 x −x¿ 2
s=W∗exp¿ ±
√ 2 ℑ−1
√ (
x 22 :0. 9 9− √m
w¿ ) ¿

pada sumbu deviasi standar terhadap x pada sumbu rata - rata untuk

x 22 ;0,99 x2
x=x∗−w∗
√ m m √
¿ x=x∗−w∗ 2; 0,99

CATATAN Prosedur ini didasarkan pada Teknik Lingkaran yang diperkenalkan oleh van
Nuland [36]. Metode yang diuraikan menggunakan perkiraan Normal sederhana
untuk distribusi deviasi standar yang dapat memberikan wilayah kritis yang
mengandung deviasi standar negatif. Metode yang diberikan di sini
menggunakan perkiraan untuk distribusi deviasi standar yang menghindari
masalah ini, tetapi wilayah kritis tidak lagi berbentuk lingkaran seperti pada
aslinya. Selanjutnya, nilai-nilai kuat digunakan untuk titik pusat di tempat rata-
rata sederhana seperti pada metode asli.
 
10.6.3 Plot dapat menunjukkan peserta dengan bias yang luar biasa besar, mengingat
pengulangan mereka. Jika ada banyak ulangan, teknik ini juga dapat
mengidentifikasi peserta dengan pengulangan yang sangat kecil. Namun, karena
biasanya ada sejumlah kecil ulangan, interpretasi sulit.
 
CATATAN Contoh plot penyimpangan standar pengulangan disediakan dalam Lampiran
E.13.
10.7 Membagi sampel
 10.7.1 Sampel terpisah digunakan ketika perlu untuk melakukan perbandingan rinci dari
dua peserta, atau ketika pengujian kelayakan tidak tersedia dan beberapa
verifikasi eksternal diperlukan. Sampel dari beberapa bahan diperoleh, mewakili
berbagai properti yang menarik, setiap sampel dibagi menjadi dua bagian, dan
setiap laboratorium memperoleh sejumlah (setidaknya dua) penentuan ulangan
pada bagian dari masing-masing sampel. Kadang-kadang, lebih dari dua peserta
dapat terlibat, dalam hal ini satu harus diperlakukan sebagai referensi, dan yang
lain harus dibandingkan dengan menggunakan teknik yang dijelaskan di sini.
CATATAN 1 Jenis penelitian ini adalah umum, tetapi sering diberi nama
berbeda, seperti "sampel berpasangan" atau "perbandingan
bilateral".
CATATAN 2 Desain sampel split ini tidak boleh disamakan dengan desain 'level
split' yang digunakan dalam ISO 5725, yang melibatkan dua item
uji dengan level yang sedikit berbeda yang disediakan untuk
semua peserta.
 10.7.2 Data dari desain split-sampel dapat digunakan untuk menghasilkan grafik yang
menampilkan variasi antara pengukuran ulangan untuk dua peserta dan
perbedaan antara hasil rata-rata mereka untuk setiap item tes kelayakan. Plot
bivariat yang menggunakan rentang konsentrasi penuh dapat memiliki skala
yang menyulitkan untuk mengidentifikasi perbedaan penting antara peserta,
sehingga plot perbedaan atau persentase perbedaan antara hasil dari dua
peserta dapat lebih bermanfaat. Analisis lebih lanjut akan tergantung pada
potongan yang dibuat dari grafik ini. 10.8 Metode grafis untuk menggabungkan
skor kinerja selama beberapa putaran skema pengujian kelayakan
 10.8.1 Ketika skor kinerja terstandarisasi akan digabungkan dalam beberapa putaran
skema pengujian kelayakan, penyedia pengujian kelayakan dapat
mempertimbangkan untuk menyiapkan grafik, seperti yang dijelaskan dalam
10.8.2 atau 10.8.3. Penggunaan grafik ini, di mana skor kinerja untuk beberapa
putaran skema pengujian kelayakan digabungkan, dapat memungkinkan tren,
dan fitur lainnya dari hasil, dapat diidentifikasi yang tidak jelas ketika skor kinerja
untuk setiap putaran diperiksa secara terpisah.
CATATAN Dengan menggunakan "skor berjalan" atau "skor kumulatif", di
mana skor kinerja yang diperoleh oleh peserta digabungkan
selama beberapa putaran skema pengujian kemahiran, skor
kinerja harus ditampilkan secara grafis. Peserta mungkin memiliki
kesalahan yang muncul dengan item tes kelayakan yang
digunakan dalam satu putaran tetapi tidak pada yang lain; skor
lari dapat menyembunyikan kesalahan ini. Namun, dalam
beberapa keadaan (mis. Dengan putaran yang sering) 'merapikan'
skor outlying sesekali dapat membantu dalam menunjukkan
kinerja yang mendasarinya lebih jelas.
 
10.8.2 Diagram kontrol Shewhart adalah metode yang efektif untuk mengidentifikasi
masalah yang menyebabkan nilai z skor tidak menentu yang besar. Lihat ISO
7870-2 [6] untuk saran tentang merencanakan grafik Shewhart dan aturan untuk
batasan tindakan.
10.8.2.1 Untuk menyiapkan bagan ini, skor terstandarisasi, seperti skor z
atau skor PA, untuk peserta diplot sebagai poin individual, dengan
batas tindakan dan peringatan ditetapkan konsisten dengan
desain untuk skema pengujian kelayakan. Ketika beberapa
karakteristik diukur pada setiap putaran, skor kinerja untuk
karakteristik yang berbeda dapat diplot pada grafik yang sama,
tetapi poin untuk karakteristik yang berbeda harus diplot dengan
menggunakan simbol plot yang berbeda dan / atau warna yang
berbeda. Ketika beberapa item tes kelayakan dimasukkan dalam
putaran yang sama dari skema pengujian kelayakan, skor kinerja
dapat diplot bersama dengan beberapa poin pada setiap periode
waktu. Garis yang bergabung dengan skor rata-rata pada setiap
titik waktu juga dapat ditambahkan ke plot.
10.8.2.2 Aturan konvensional untuk menginterpretasikan diagram kontrol
Shewhart adalah bahwa sinyal outof-control diberikan ketika a)
satu titik jatuh di luar batas tindakan (± 3,0 untuk skor z, atau
100% untuk PA);
b) dua dari tiga titik berturut-turut di luar batas peringatan (± 2,0
untuk skor z atau 70% untuk PA);
c) enam hasil berturut-turut baik positif atau negatif.
10.8.2.3 Ketika diagram kontrol Shewhart memberikan sinyal di luar
kendali, peserta harus menyelidiki kemungkinan penyebabnya.
 
CATATAN Standar deviasi untuk penilaian kemahiran σpt biasanya tidak
merupakan standar deviasi perbedaan (xi - Xpt), sehingga tingkat
probabilitas yang biasanya terkait dengan batas tindakan dan
peringatan dari peta kendali Shewhart mungkin tidak berlaku.
 10.8.3 Ketika tingkat properti bervariasi dari satu putaran skema pengujian kemahiran
ke yang lain, plot skor kinerja terstandarisasi, seperti z dan PA, terhadap nilai
yang diberikan akan menunjukkan jika bias partisipan berubah dengan level.
Ketika lebih dari satu item tes kelayakan dimasukkan dalam babak yang sama
skor kinerja semua dapat diplot secara independen.
CATATAN 1 Berguna untuk memiliki simbol plot yang berbeda atau warna
yang berbeda untuk hasil dari putaran pengujian kelayakan saat
ini, untuk membedakan titik dari putaran sebelumnya.
CATATAN 2 Contoh plot seperti itu diberikan dalam Lampiran E.14,
menggunakan skor PA. Plot ini dapat dengan mudah
menggunakan z, dengan hanya perubahan skala vertikal.
11 Desain dan analisis skema pengujian kemahiran kualitatif (termasuk sifat nominal dan ordinal)
 11.1 Jenis data kualitatif
 Sejumlah besar pengujian kelayakan terjadi untuk properti yang diukur atau
diidentifikasi pada skala kualitatif. Ini termasuk yang berikut: - Skema pengujian
kemahiran yang membutuhkan pelaporan pada skala kategorikal (kadang-
kadang disebut 'nominal'), di mana nilai properti tidak memiliki besaran (seperti
jenis zat atau organisme); - Skema pengujian kelayakan untuk ada atau tidaknya
suatu properti, apakah ditentukan oleh kriteria subyektif atau oleh besarnya
sinyal dari prosedur pengukuran. Ini dapat dianggap sebagai kasus khusus dari
skala kategorikal atau ordinal, dengan hanya dua nilai (juga disebut 'dikotomi',
atau biner); - Skema pengujian kelayakan yang membutuhkan hasil yang
dilaporkan pada skala ordinal, yang dapat dipesan sesuai dengan besarnya tetapi
tidak ada hubungan aritmatika di antara hasil yang berbeda. Misalnya, 'tinggi,
sedang dan rendah' membentuk skala ordinal.  Skema pengujian kemahiran
seperti itu memerlukan pertimbangan khusus untuk tahap desain, penugasan
nilai, dan evaluasi kinerja (penilaian) karena - nilai yang diberikan seringkali
didasarkan pada pendapat ahli; dan - perlakuan statistik yang dirancang untuk
data yang bernilai terus-menerus dan penghitungan tidak berlaku untuk data
kualitatif. Misalnya, tidak berarti untuk mengambil cara dan standar deviasi hasil
skala ordinal bahkan ketika mereka dapat ditempatkan dalam urutan peringkat.
Paragraf berikut memberikan panduan tentang desain, penetapan nilai dan
evaluasi kinerja untuk skema pengujian kemahiran kualitatif.
CATATAN Pedoman untuk data ordinal tidak berlaku untuk hasil pengukuran
yang didasarkan pada skala kuantitatif dengan indikasi tidak
kontinyu (seperti pengenceran atau titer), lihat bagian 5.2.2.
 11.2 Desain statistik
 11.2.1 Untuk skema pengujian kelayakan di mana pendapat ahli sangat penting
baik untuk penetapan nilai atau untuk penilaian laporan peserta,
biasanya akan diperlukan untuk mengumpulkan panel ahli yang
berkualifikasi tepat dan untuk menyediakan waktu untuk debat dalam
rangka mencapai konsensus yang tepat tugas. Di mana ada kebutuhan
untuk bergantung pada ahli individu untuk penilaian atau penugasan
nilai, penyedia pengujian kemahiran juga harus menyediakan penilaian
dan kontrol konsistensi pendapat di antara para ahli yang berbeda.
CONTOH Dalam skema pengujian kelayakan klinis yang bergantung
pada mikroskop untuk diagnosis, pendapat ahli digunakan
untuk menilai slide mikroskop yang diberikan kepada
peserta dan memberikan diagnosis klinis yang sesuai untuk
item tes kelayakan. Penyedia pengujian kelayakan dapat
memilih untuk mengedarkan item tes kelayakan ‘buta’
kepada anggota panel ahli yang berbeda untuk
memastikan konsistensi diagnosis, atau melakukan latihan
berkala untuk mengevaluasi kesepakatan di antara panel.
 
11.2.2 Untuk skema pengujian kelayakan yang melaporkan hasil kategorikal atau
ordinal yang bernilai tunggal, dihargai, penyedia pengujian kelayakan
harus mempertimbangkan
  - Menyediakan dua atau lebih item tes kelayakan per putaran; atau
  - meminta hasil dari sejumlah pengamatan yang direplikasi pada setiap
item tes kelayakan, dengan jumlah ulangan yang ditentukan sebelumnya.
Salah satu dari strategi ini memungkinkan jumlah hasil untuk setiap
peserta yang dapat digunakan baik dalam meninjau data atau dalam
penilaian. Penyediaan dua atau lebih item uji kelayakan dapat
memberikan informasi tambahan tentang sifat kesalahan dan juga
memungkinkan penilaian kinerja pengujian kelayakan yang lebih canggih.
CONTOH 1 Dalam skema pengujian kelayakan yang dimaksudkan
untuk melaporkan ada atau tidak adanya kontaminan,
penyediaan item uji kelayakan yang mengandung berbagai
level kontaminan memungkinkan penyedia pengujian
kelayakan untuk memeriksa jumlah deteksi yang berhasil
pada setiap level sebagai fungsi dari tingkat kontaminan
hadir. Ini dapat digunakan, misalnya, untuk memberikan
informasi kepada peserta tentang kemampuan deteksi dari
metode pengujian yang mereka pilih, atau untuk
memperoleh probabilitas deteksi rata-rata yang pada
gilirannya memungkinkan skor kinerja dialokasikan kepada
peserta berdasarkan estimasi probabilitas pola respons
tertentu.
CONTOH 2 Pengujian kelayakan dalam perbandingan forensik sering
memerlukan item uji kecocokan yang cocok, apakah
mereka berasal dari sumber yang sama atau sumber yang
berbeda (misalnya, sidik jari, DNA, selongsong peluru, jejak
kaki, dll.). Dalam banyak kasus "tak tentu" adalah respons
yang diizinkan. Skema pengujian kelayakan mungkin
mencakup beberapa item uji kelayakan dari sumber yang
berbeda, dan peserta diminta untuk menyatakan mana
yang dari "sumber yang sama", "sumber yang berbeda",
atau "tidak ditentukan" untuk setiap pasangan. Ini
memungkinkan skor objektif angka (atau%) benar atau
salah, atau angka (%) benar cocok, atau mengoreksi
penolakan. Kriteria kinerja kemudian dapat ditentukan
pada kebugaran untuk digunakan, atau pada tingkat
kesulitan tantangan.
 11.2.3 Homogenitas harus ditunjukkan dengan peninjauan sampel sampel yang
sesuai untuk tes kelayakan, yang semuanya harus menunjukkan nilai
properti yang diharapkan. Untuk beberapa sifat kualitatif, misalnya ada
atau tidaknya, dimungkinkan untuk memverifikasi homogenitas dengan
pengukuran kuantitatif; misalnya jumlah mikrobiologis atau serapan
spektrum di atas ambang batas. Dalam situasi ini, uji homogenitas
konvensional mungkin sesuai, atau demonstrasi dari semua hasil berada
di atas atau di bawah nilai batas.
 11.3 Nilai yang ditetapkan untuk skema pengujian kelayakan kualitatif
 11.3.1 Nilai dapat ditugaskan untuk item tes kelayakan: a) berdasarkan penilaian
ahli; b) dengan menggunakan bahan referensi sebagai item tes
kelayakan; c) dari pengetahuan tentang asal atau persiapan item tes
kelayakan; d) menggunakan mode atau median hasil peserta (median
hanya sesuai untuk nilai-nilai ordinal). Metode penetapan nilai lainnya
yang dapat ditampilkan untuk memberikan hasil yang andal juga dapat
digunakan. Paragraf berikut mempertimbangkan masing-masing strategi
di atas.
CATATAN Biasanya tidak tepat untuk memberikan informasi
kuantitatif mengenai ketidakpastian nilai yang ditetapkan
dalam skema pengujian kemahiran kualitatif. Meskipun
demikian, masing-masing paragraf 11.3.2 hingga 11.3.5
mensyaratkan penyediaan informasi dasar yang berkaitan
dengan kepercayaan pada nilai yang diberikan sehingga
peserta dapat menilai apakah hasil yang buruk mungkin
disebabkan oleh kesalahan dalam penetapan nilai.
peserta Bukti asal dan / atau detail persiapan harus tersedia bagi peserta
setelah putaran baik atas permintaan atau sebagai bagian
dari laporan untuk putaran pengujian kelayakan.
 
CONTOH Item tes kelayakan anggur yang diedarkan untuk suatu skema
pengujian kemahiran keaslian dapat diperoleh langsung
dari produsen yang sesuai di daerah asal yang ditentukan,
atau melalui pemasok komersial yang dapat memberikan
jaminan keaslian.
11.3.4.1 Uji konfirmasi atau pengukuran
direkomendasikan jika memungkinkan,
terutama jika kontaminasi dapat
membahayakan penggunaan sebagai item
uji kelayakan. Misalnya, item tes kelayakan
yang diidentifikasi sebagai contoh mikroba
tunggal, tanaman atau spesies hewan
biasanya harus diuji untuk respon terhadap
tes untuk spesies lain yang relevan.
Pengujian tersebut harus sesensitif mungkin
untuk memastikan bahwa spesies yang
terkontaminasi tidak ada atau bahwa
tingkat kontaminasi dikuantifikasi.
11.3.4.2 Penyedia pengujian kelayakan harus
memberikan informasi tentang segala
kontaminasi yang terdeteksi atau keraguan
tentang asal yang dapat membahayakan
penggunaan item uji kelayakan.
 CATATAN Rincian lebih lanjut tentang karakterisasi item uji kelayakan
tersebut berada di luar cakupan Standar ini.

 11.3.5 Mode (pengamatan paling umum) dapat digunakan sebagai nilai


yang ditetapkan untuk hasil pada skala kategorikal atau
ordinal, sedangkan median dapat digunakan sebagai nilai
yang
ditetapkan untuk hasil pada skala ordinal. Di mana statistik
ini digunakan, laporan untuk putaran pengujian kelayakan
harus mencakup pernyataan proporsi hasil yang digunakan
dalam penugasan nilai yang cocok dengan nilai yang
ditugaskan. Tidak pernah tepat untuk menghitung rata-
rata atau standar deviasi untuk hasil pengujian kelayakan
untuk sifat kualitatif, termasuk nilai-nilai ordinal. Ini karena
tidak ada hubungan aritmatika antara nilai yang berbeda
pada setiap skala.
 11.3.6 Ketika nilai yang ditetapkan didasarkan pada pengukuran
(misalnya, ada atau tidaknya), nilai yang ditugaskan
biasanya dapat ditentukan secara definitif; yaitu, dengan
ketidakpastian rendah. Perhitungan statistik untuk
ketidakpastian mungkin sesuai untuk level pengukuran
dan level “tak tentu” atau “samar-samar”. 11.4 Evaluasi
kinerja dan penilaian untuk skema pengujian kemahiran
kualitatif
11.4.1 Evaluasi kinerja peserta dalam skema pengujian kemahiran kualitatif
sebagian tergantung pada sifat laporan yang diperlukan. Dalam beberapa
skema pengujian kemahiran, di mana sejumlah besar evaluasi diperlukan
dari peserta dan kesimpulan membutuhkan pertimbangan dan kata-kata
yang cermat, laporan peserta dapat diserahkan kepada para ahli untuk
penilaian dan dapat diberi tanda keseluruhan. Pada ekstrem yang lain,
peserta dapat dinilai hanya pada apakah hasilnya sesuai dengan nilai
yang diberikan untuk item tes kelayakan yang relevan. Paragraf berikut
memberikan panduan tentang penilaian kinerja dan penilaian untuk
berbagai keadaan.
11.4.2 Penilaian ahli dari laporan peserta membutuhkan satu atau lebih ahli
individu untuk meninjau setiap laporan peserta untuk setiap item tes
kelayakan dan mengalokasikan nilai atau skor kinerja. Dalam skema
pengujian kelayakan seperti itu, penyedia pengujian kelayakan harus
memastikan bahwa: - peserta tertentu tidak diketahui ahli. Secara
khusus, laporan yang disampaikan kepada ahli tidak boleh mencakup
informasi apa pun yang dapat mengidentifikasi peserta secara wajar; -
mengkaji, menandai, dan menilai kinerja mengikuti serangkaian kriteria
yang sebelumnya disepakati yang seobjektif mungkin; - ketentuan
paragraf 11.3.2 sehubungan dengan konsistensi di antara para ahli
dipenuhi;jika memungkinkan, ketentuan dibuat untuk banding peserta
terhadap pendapat pakar tertentu dan / atau untuk tinjauan sekunder
terhadap pendapat yang mendekati ambang batas kinerja penting

11.4.4 Jika beberapa ulangan dilaporkan untuk setiap item tes kelayakan
atau di mana item uji kelayakan ganda diberikan kepada
setiap peserta, penyedia pengujian kelayakan dapat
menghitung dan menggunakan skor kinerja gabungan atau
ringkasan skor dalam penilaian kinerja. Skor atau ringkasan
kinerja gabungan dapat dihitung sebagai, misalnya: -
jumlah sederhana skor kinerja di semua item tes
kelayakan; - hitungan setiap tingkat kinerja yang
dialokasikan; - proporsi hasil yang benar; - metrik jarak
berdasarkan perbedaan antara hasil dan nilai yang
diberikan.
 
CONTOH Sebuah metrik jarak yang sangat umum kadang-kadang
digunakan statistik untuk data kualitatif adalah koefisien
Gower [20]. Ini dapat menggabungkan variabel kuantitatif
dan kualitatif berdasarkan kombinasi skor untuk
kesamaan. Untuk data kategorikal atau biner, indeks
mengalokasikan skor 1 untuk kategori yang sama persis
dan 0 sebaliknya; untuk skala ordinal itu mengalokasikan
skor sama dengan 1 minus perbedaan peringkat dibagi
dengan jumlah peringkat yang tersedia, dan untuk data
skala interval atau rasio itu mengalokasikan skor sama
dengan 1 dikurangi perbedaan absolut dibagi dengan
rentang semua nilai yang diamati. Skor ini, yang semuanya
harus dari 0 hingga 1, dijumlahkan dan jumlah dibagi
dengan jumlah variabel yang digunakan. Varian tertimbang
juga dapat digunakan.
  Skor kinerja gabungan dapat dikaitkan dengan ringkasan
penilaian kinerja. Misalnya, proporsi tertentu dari skor
yang benar (biasanya tinggi) dapat dianggap kinerja 'dapat
diterima', jika itu konsisten dengan tujuan dari skema
pengujian kelayakan.
 11.4.5 Metode grafis dapat digunakan untuk memberikan informasi
kinerja kepada peserta atau untuk memberikan informasi
ringkasan dalam laporan untuk satu putaran.
 
CATATAN Contoh analisis data ordinal disediakan dalam Lampiran E.15.

 
.

Anda mungkin juga menyukai