Anda di halaman 1dari 9

Penelitian Keperawatan & Kesehatan, 2006, 29, 489–497

Indeks Validitas Konten: Apakah Anda


Yakin Anda Tahu Apa
Dilaporkan? Kritik dan
Rekomendasi
Denise F. Polit, 1,2 * Cheryl Tatano Beck 3 **

1 Humanalysis, Inc., Saratoga Springs, NY


2 Sekolah Keperawatan Universitas Grif, Gold Coast, Australia
3 Sekolah Keperawatan Universitas Connecticut, Storrs, CT

Diterima 16 Mei 2006

Abstrak: Pengembang skala sering memberikan bukti validitas konten dengan menghitung indeks validitas konten
(CVI), menggunakan peringkat relevansi item oleh para ahli konten. Kami menganalisis bagaimana peneliti perawat
telah mendefinisikan dan menghitung CVI, dan menemukan konsistensi yang cukup untuk CVI tingkat item (I-CVIs).
Namun, ada dua alternatif, tetapi tidak diakui, metode penghitungan skala indeks tingkat (S-CVI). Satu metode
membutuhkan persetujuan universal di antara para ahli, tetapi metode yang kurang konservatif rata-rata CVI tingkat
item. Menggunakan inferensi mundur dengan sampel purposive studi pengembangan skala, kami menemukan bahwa
kedua metode sedang digunakan oleh peneliti perawat, meskipun itu tidak selalu mungkin untuk menyimpulkan
metode perhitungan. Dua pendekatan tersebut dapat mengarah pada nilai yang berbeda, sehingga berisiko untuk
menarik kesimpulan tentang validitas konten.

2006 Wiley Periodicals, Inc. Res


Kesehatan Perawat 29: 489–497, 2006

Kata kunci: pengembangan dan validasi instrumen; penelitian metodologis;


penskalaan; validitas konten

Ketika skala baru dikembangkan, para peneliti yang kualitas. Validitas konten telah didefinisikan sebagai berikut:
mengikuti prosedur pengembangan skala ketat diharapkan
dapat memberikan informasi yang luas
reliabilitas dan validitas skala. Meskipun terkait (1) '' . . Sejauh mana instrumen memiliki sampel item yang
kriteria dan membangun validitas instrumen baru dianggap sesuai untuk konstruk yang diukur '' (Polit & Beck, 2004,
sangat penting, informasi tentang validitas konten dari
pengukuran juga dipandang perlu dalam menarik kesimpulan hal. 423);
tentang skala. (2) '' . .Apakah barang-barang yang diambil sampelnya untuk
dimasukkan pada alat cukup mewakili

Korespondensi dengan Denise F. Polit, Humanalysis, Inc., 75 Clinton Street, Saratoga Springs, NY 12866 dan Sekolah
Keperawatan Universitas Grif, Gold Coast, Australia. E-mail: dpolit@rocketmail.com

* Presiden dan Profesor Ajun.


* * Profesor.
Diterbitkan online di Wiley InterScience (www.interscience.wiley.com) DOI: 10.1002 / nur.20147

2006 Wiley Periodicals, Inc.


490 PENELITIAN PENELITIAN & KESEHATAN

domain konten yang ditangani oleh instrumen '' (Waltz, persentase ( ACP) dan dikaitkan dengan Popham (1978). Waltz et
Strickland, & Lenz, 2005, al. (2005, hal. 178) menyarankan bahwa ACP 90 persen atau
hal. 155); dan lebih tinggi akan dianggap dapat diterima.
(3) '' . . Sejauh mana instrumen memadai sampel domain
penelitian yang menarik ketika mencoba untuk mengukur Di antara peneliti perawat, ukuran validitas konten yang paling
fenomena '' (Wynd, Schmidt, & Schaefer, 2003, banyak dilaporkan adalah indeks validitas konten, atau CVI. CVI
(yang kami jelaskan dan uraikan secara panjang lebar dalam
hal. 509). artikel ini) telah digunakan selama bertahun-tahun, dan paling
sering dikaitkan dengan Martuza (1977), seorang spesialis
Ada kesepakatan umum dalam definisi ini bahwa validitas
pendidikan. Namun, para peneliti yang menggunakan CVI untuk
konten menyangkut sejauh mana sampel item, diambil
menilai validitas isi skala mereka — terlepas dari latar belakang
bersama-sama, merupakan definisi operasional yang memadai
disiplin mereka sendiri — sering mengutip kerja metodologi dalam
dari suatu konstruk.
literatur keperawatan, paling sering Davis (1992), Grant dan Davis
Ada juga kesepakatan dalam literatur metodologis bahwa
(1997), Lynn (1986) , Waltz et al. (2005), atau Waltz dan Bausell
validitas konten sebagian besar sangat berbeda dari penilaian,
(1981). Penelitian seminal Lynn sangat berpengaruh.
yang melibatkan dua fase yang berbeda: upaya apriori oleh
pengembang skala untuk meningkatkan validitas konten melalui
konseptualisasi dan analisis domain yang cermat sebelum
pembuatan item, dan upaya posteriori untuk mengevaluasi
Namun, CVI memiliki andil dalam hal kritik, bahkan di
relevansi konten skala melalui penilaian ahli (misalnya, Beck &
antara para peneliti perawat. Sebagai contoh, Wynd dan
Gable, 2001; Lynn, 1986; Mastaglia, Toye, & Kristjanson, 2003).
rekan-rekannya (2003) menggunakan kedua CVI dan
Artikel ini berfokus pada bagian kedua dari proses ini.
koefisien multirater kappa dalam validasi konten mereka dari
Alat Penilaian Risiko Osteoporosis. Mereka berpendapat
bahwa statistik kappa adalah suplemen penting untuk (jika
bukan pengganti) CVI karena rumus untuk kappa
menghasilkan indeks derajat perjanjian di luar perjanjian
LATAR BELAKANG PADA KONTEN kebetulan, tidak seperti CVI, yang tidak menyesuaikan
PENDEKATAN VALIDITAS perjanjian kebetulan. Kekhawatiran lain adalah bahwa CVI
membuang informasi dengan menciutkan peringkat ordinal
Banyak metode untuk mengukur tingkat persetujuan para ahli multipoint para pakar menjadi dua kategori (yaitu, ke dalam
mengenai relevansi konten instrumen telah diusulkan. Ini kategori yang relevan / tidak relevan, praktik umum),
termasuk, misalnya, rata-rata peringkat para pakar tentang
relevansi barang dan menggunakan kriteria penerimaan yang
telah ditetapkan sebelumnya (misalnya, Beck & Gable, 2001);
menggunakan koefisien alfa untuk mengukur kesepakatan
relevansi item oleh tiga atau lebih ahli (Waltz et al., 2005, hal.
157); dan menghitung koefisien multirater kappa (Wynd et al.,
2003). Berbagai indeks lain yang menangkap perjanjian Tujuan kami dalam artikel ini bukan untuk mengadvokasi atau menentang
antar-ras telah diusulkan dan digunakan terutama di bidang penggunaan CVI sebagai indeks standar validitas konten. Sebaliknya, karena
psikologi personel (Lindell & Brandt, CVI digunakan secara cerdik dalam menyusui, tujuan kami adalah untuk
memperjelas apa yang sebenarnya ditangkap oleh indeks ini dan untuk
menunjukkan bahwa para peneliti tidak selalu jelas dalam mengartikulasikan
1999). bagaimana mereka menghitungnya.
Satu pendekatan, yang direkomendasikan beberapa dekade
lalu, memiliki relevansi khusus dalam artikel ini. Pendekatan ini
melibatkan memiliki tim ahli yang mengindikasikan apakah setiap
item pada skala sesuai dengan (atau relevan dengan) konstruk, INDEKS VALIDITAS ISI UNTUK BARANG
menghitung persentase item yang dianggap relevan untuk (I-CVI)
masing-masing pakar, dan kemudian mengambil rata-rata
persentase di antara para ahli. Sebagai contoh dengan dua pakar, Seperti dicatat oleh Lynn (1986), peneliti menghitung dua jenis
jika Pakar 1 memberi peringkat 100% dari satu set item yang CVI. Jenis pertama melibatkan validitas konten dari
sesuai dengan konstruk, dan Pakar 2 memberi peringkat 80% dari masing-masing item dan yang kedua melibatkan validitas
barang-barang menjadi kongruen, nilai indeks ini akan menjadi konten dari skala keseluruhan.
90%. Ini telah disebut sebagai kongruensi rata-rata Ada banyak kesepakatan tentang bagaimana menghitung
CVI tingkat item, yang kami rujuk untuk tujuan kejelasan
sebagai I-CVI. Panel dari

Penelitian Keperawatan & Kesehatan DOI 10.1002 / nur


CONTENTVALIDITYINDEX / POLITANDBECK 491

ahli konten diminta untuk menilai setiap item skala dalam hal INDEKS VALIDITAS ISI
relevansinya dengan konstruk yang mendasarinya. Lynn (1986) UNTUK SKALA (S-CVI)
menyarankan minimal tiga ahli, tetapi mengindikasikan bahwa
lebih dari 10 mungkin tidak perlu. Berdasarkan tradisi, dan Prosedur komputasi untuk CVI tingkat skala, yang kami rujuk
berdasarkan saran dari penulis awal seperti Lynn, serta Walt demi kejelasan sebagai S-CVI, telah sepenuhnya dijelaskan
dan Bausell (1981), peringkat item ini biasanya pada skala dalam hal penilaian oleh dua ahli. Berikut adalah dua definisi
ordinal 4 poin. Lynn mengakui bahwa skala penilaian 3 atau 5 yang sering dikutip: S-CVI didefinisikan sebagai '' proporsi
poin mungkin dipertimbangkan, tetapi dia menganjurkan item yang diberi peringkat cukup / sangat relevan oleh kedua
menggunakan skala 4 poin untuk menghindari memiliki titik penilai yang terlibat '' (Waltz et al.,
tengah netral dan ambivalen. Beberapa label berbeda untuk
empat poin di sepanjang kontinum peringkat item telah muncul 2005, hal. 155) dan '' proporsi barang yang diberi peringkat 3 atau 4
dalam literatur, tetapi label yang dianjurkan oleh Davis (1992) oleh kedua penilai yang terlibat '' (Waltz & Bausell, 1981, hal. 71).
tampaknya sering digunakan: 1 ¼ tidak berhubungan, 2 ¼ agak Kedua referensi menyajikan tabel untuk menggambarkan
relevan, 3 ¼ cukup relevan, 4 ¼ sangat relevan. Kemudian, untuk bagaimana menghitung S-CVI dengan dua penilai menggunakan
setiap item, I-CVI dihitung sebagai jumlah ahli yang memberikan skala 4-poin relevansi item. Contoh serupa dengan yang ditunjukkan
peringkat 3 atau 4 (sehingga dikotomi skala ordinal menjadi relevan dalam Waltz et al. (hal. 155) disajikan pada Tabel 1. Dalam contoh
dan tidak berhubungan), ini, 8 dari 10 item dinilai cukup atau sangat

relevan (yaitu, peringkat 3 atau 4) oleh kedua ahli, dan S-CVI


dihitung menjadi 0,80. Banyak penulis telah menunjukkan
dibagi dengan jumlah total ahli. Misalnya, item yang dinilai bahwa S-CVI 0,80 atau lebih tinggi dapat diterima (misalnya,
sebagai cukup atau sangat Davis, 1992; Grant & Davis, 1997; Polit & Beck, 2004).
relevan oleh empat dari lima hakim akan memiliki ICVI 0,80.
Kata kunci dalam definisi S-CVI dua penilai adalah kedua. Menurut
Satu keprihatinan yang telah dikemukakan tentang CVI adalah definisi tersebut, kedua hakim harus setuju bahwa setiap item
bahwa itu adalah indeks kesepakatan antar-masyarakat yang adalah relevan agar dapat menghitung menuju S-CVI.
hanya mengungkapkan proporsi perjanjian, dan kesepakatan dapat
dilemahkan oleh faktor-faktor kebetulan. Sebagai contoh, jika dua Sekarang pertimbangkan kasus ketika ada lebih dari dua
hakim menilai relevansi versus tidak relevan suatu item, secara hakim, yang sejauh ini merupakan situasi yang lebih biasa -
kebetulan saja kedua hakim akan diharapkan untuk menyetujui dan, memang, memiliki lebih dari dua ahli secara eksplisit
relevansi 25 persen dari waktu. Dalam mengakui masalah ini, Lynn direkomendasikan oleh Lynn (1986). Berikut adalah
(1986) mengembangkan kriteria untuk penerimaan barang yang bagaimana CVI untuk skala telah didefinisikan untuk dua atau
memasukkan kesalahan standar proporsi. Dia merekomendasikan lebih penilai: CVI untuk seluruh skala adalah (1) '' proporsi
bahwa dengan panel '' lima atau lebih sedikit ahli, semua harus total item yang dinilai konten valid '' (Lynn, p. 384); (2) ''
menyetujui validitas konten untuk peringkat mereka untuk dianggap proporsi item pada instrumen yang mencapai peringkat 3 atau
sebagai representasi yang masuk akal dari semesta peringkat yang 4 oleh para ahli konten '' (Beck & Gable, 2001, hal. 209); (3)
mungkin '' (hal. 383). Dengan kata lain, I-CVI harus 1,00 ketika ada dan proporsi
lima hakim atau lebih sedikit. Ketika ada enam hakim atau lebih,

Tabel 1. Perhitungan S-CVI untuk Skala 10-ItemDengan Dua Penilai Ahli *

standar bisa santai, tetapi Lynn merekomendasikan


I-CVI tidak lebih rendah dari 0,78. Misalnya, dengan enam penilai, Penilai Ahli No. 1

mungkin ada satu peringkat '' tidak relevan '' (I-CVI ¼. 83) dan
Item Dinilai Item
dengan sembilan penilai mungkin ada dua tidak berhubungan peringkat
1 atau 2 Sebuah Peringkat 3
(I-CVI ¼. 78). atau 4 b
Total

Peneliti menggunakan informasi I-CVI untuk membimbing Penilai ahli no. 2 Item dengan
rating 1 atau 2 Sebuah
mereka dalam merevisi, menghapus, atau mengganti barang. 2 0 2
Namun, dalam laporan penelitian, para peneliti biasanya tidak Item dengan peringkat 3 atau 4 b 0 8 8

memberikan informasi tentang nilai-nilai I-CVI. I-CVI cenderung Total 2 8 10

hanya dilaporkan dalam studi metodologis yang berfokus pada S-CVI ¼ 8/10 ¼. 80

deskripsi proses validasi konten. Apa yang paling sering dilaporkan


S-CVI, indeks validitas konten untuk skala.
dalam studi pengembangan skala adalah CVI untuk seluruh skala,
* Setelah Waltz et al. (2005), hlm. 155.
dan di situlah letak masalahnya. Sebuah Peringkat 1 ¼ tidak berhubungan; 2 ¼ agak relevan.

b Peringkat 3 ¼ cukup relevan; 4 ¼ sangat relevan.

Penelitian Keperawatan & Kesehatan DOI 10.1002 / nur


492 PENELITIAN PENELITIAN & KESEHATAN

ahli yang menilai item sebagai relevan atau representatif situasi, probabilitas ketidaksepakatan kesempatan pada peringkat
dengan 3 atau 4 '' (Grant & Davis, 1997, hal. relevansi dikotomis adalah 0,500; ini analog dengan kemungkinan
273). Definisi-definisi ini lebih ambigu daripada definisi untuk mendapatkan satu kepala dan satu ekor (yaitu, ketidaksepakatan)
dua penilai karena tidak ada analog untuk spesifikasi '' dalam lemparan 2 koin. Dalam situasi 6-penilai, probabilitas
keduanya '', yang untuk tiga atau lebih penilai akan '' setidaknya satu ketidaksepakatan kesempatan pada peringkat
semuanya. '' Perpanjangan definisi untuk dua orang S -CVI relevansi dikotomis adalah 0,968. Ini analog dengan kemungkinan
untuk beberapa penilai adalah: proporsi item pada instrumen mendapatkan setidaknya satu kepala atau satu ekor
yang mencapai peringkat 3 atau 4 oleh (ketidaksepakatan) dalam lemparan 6 koin. Probabilitas bahwa semua
penilai akan setuju pada relevansi, dan pada tidak relevan, adalah 0,5 N,
semua para ahli konten. Untuk kenyamanan, kami merujuk pada dimana N ¼ jumlah penilai.
definisi CVI ini untuk skala sebagai S-CVI / UA (perjanjian
universal). Tiga definisi yang kami kutip untuk kasus umum S-CVI
Sebagai ilustrasi, Tabel 2 menunjukkan peringkat relevansi lakukan tidak gunakan kata '' semua. '' Faktanya, ada cara lain
dari enam ahli untuk skala 10-item. Dalam contoh ini, keenam untuk menafsirkan definisi, dan itu adalah dengan
pakar menilai 9 dari 10 item relevan. Namun, item yang dinilai menyimpulkan bahwa apa yang dimaksud adalah rata-rata proporsi
tidak relevan berbeda untuk enam ahli. Mengikuti definisi yang item yang dinilai 3 atau 4 di berbagai juri. Proporsi item yang
membutuhkan penilaian kongruen secara universal oleh para dinilai relevan oleh masing-masing dari enam ahli dalam Tabel
ahli, S-CVI / UA dalam contoh ini adalah 2 adalah 0,90, dan rata-rata juga akan

. 40. Hanya 4 dari 10 item (item 7-10) yang menerima peringkat . 90. Ini jelas merupakan interpretasi yang lebih liberal dari definisi
relevansi 3 atau 4 oleh semua para ahli. Sangat mudah untuk untuk S-CVI. Kami menyebut pendekatan ini sebagai S-CVI / Ave.
melihat bahwa ketika definisi S-CVI ini digunakan, semakin Gambar 1 merangkum istilah, akronim, dan definisi kami yang
banyak ahli dimasukkan, semakin besar kemungkinan bahwa terkait dengan validitas konten.
S-CVI akan rendah: Ketika jumlah pakar meningkat,
kemungkinan mencapai total perjanjian menurun . Sebagai Ada tiga cara untuk menghitung S-CVI / Ave, yang kami
contoh, jika seorang ahli ketujuh ditambahkan yang menilai ilustrasikan dengan informasi dalam Tabel 2. Yang pertama,
hanya item7 sebagai tidak relevan, S-CVI seperti yang seperti yang baru saja dijelaskan, rata-rata proporsi barang yang
didefinisikan akan menjadi .30 — terlepas dari kenyataan bahwa dinilai relevan di antara para ahli. Dengan demikian, kita dapat
semua ICVI berada dalam kisaran yang dapat diterima. menghitung S-CVI / Ave sebagai (.90 þ. 90 þ. 90 þ. 90 þ. 90 þ. 90) / 6 ¼.
Sementara para kritikus CVI khawatir bahwa S-CVI dan I-CVI 90. Cara lain adalah dengan rata-rata I-CVI dengan
salah karena kemungkinan kesepakatan kebetulan, ada menjumlahkannya dan membaginya dengan jumlah item: (.83 þ. 83
kemungkinan yang sesuai bahwa pertentangan akan marah þ. 83 þ. 83 þ. 83 þ. 83 þ 1,00 þ 1,00 þ
karena faktor kebetulan juga. Misalnya, dalam dua penilai
1,00 þ 1,00) / 10 ¼. 90. Cara ketiga adalah menghitung jumlah
Xs dalam tabel — jumlah

Tabel 2.Rating fiktif pada 10-ItemScalebySixExerts: ItemsRated 3 atau 4 ona 4-PointRevevance Scale

Nomor dalam Item Perjanjian CVI


Barang Ahli 1 Ahli 2 Ahli 3 Ahli 4 Ahli 5 Ahli 6

1 - X X X X X 5 . 83
2 X - X X X X 5 . 83
3 X X - X X X 5 . 83
4 X X X - X X 5 . 83
5 X X X X - X 5 . 83
6 X X X X X - 5 . 83
7 X X X X X X 6 1,00
8 X X X X X X 6 1,00
9 X X X X X X 6 1,00
10 X X X X X X 6 1,00
Berarti I-CVI ¼. 90
Proporsi S-CVI / UA ¼. 40
Relevan: Proporsi ahli berarti ¼. 90
. 90 . 90 . 90 . 90 . 90 . 90

I-CVI, indeks validitas konten tingkat item.


S-CVI / UA, indeks validitas konten tingkat-skala, metode perhitungan perjanjian universal.

Penelitian Keperawatan & Kesehatan DOI 10.1002 / nur


CONTENTVALIDITYINDEX / POLITANDBECK 493

CVI
Sejauh mana instrumen memiliki sampel item
yang sesuai untuk dikonstruksi
sedang diukur

I-CVI Konten Konten S-CVI


Validitas masing-masing item: Validitas skala
Proporsi ahli konten memberikan keseluruhan
item peringkat relevansi 3

atau 4

S-CVI / UA Proporsi S-CVI / Ave


item pada skala yang
mencapai peringkat relevansi 3 Rata-rata I-CVI untuk semua
atau 4 item pada skala
oleh semua ahli

GAMBAR 1. Definisi istilah validitas konten. I-CVI, indeks validitas konten tingkat item; S-CVI, indeks validitas
konten tingkat-skala; S-CVI / UA, indeks validitas konten tingkat-skala, metode perhitungan perjanjian universal;
S-CVI / Ave, indeks validitas konten tingkat-skala, metode penghitungan rata-rata.

item yang dinilai relevan oleh semua pakar, yang dalam hal ini skala baru ketika mereka menggunakan lebih dari dua ahli? Apakah
adalah 54 — dan kemudian dibagi dengan jumlah total peringkat: mereka menggunakan persyaratan konservatif perjanjian 100% pada
54/60 ¼. 90. Ketiga perhitungan akan selalu hasil yang sama. tingkat item untuk setidaknya 80% dari item? Atau, apakah mereka
Kami pikir, bagaimanapun, bahwa yang terbaik untuk rata-rata I-CVIs (atau rata-rata proporsi yang dinilai relevan di antara
mengkonseptualisasikan S-CVI / Ave sebagai nilai I-CVI rata-rata para ahli, yang menghasilkan hasil yang sama) dan menggunakan
karena ini menempatkan fokus pada kualitas barang rata-rata
daripada kinerja rata-rata oleh para ahli. . 80 sebagai standar penerimaan mereka? Dengan satu
pengecualian yang dibahas di bawah ini, kami tidak dapat
Satu hal lain yang penting untuk diperhatikan. S-CVI / Ave menemukan penjelasan dalam studi pengembangan instrumen.
identik dengan indeks yang disebutkan sebelumnya sebagai Ketika informasi tentang metode komputasi CVI tidak ada,
persentase kongruensi rata-rata (ACP). Pedoman yang pembaca studi tersebut tidak harus memiliki pemahaman yang
ditawarkan oleh Waltz et al. (2005, hal. 178) adalah bahwa ACP baik tentang validitas konten skala baru. Meskipun Tabel 2 diakui
harus 0,90 - bukan sebagai contoh yang dilebih-lebihkan sehingga kami dapat
. 80 seperti kriteria standar untuk penerimaan untuk S-CVI. menyoroti kemungkinan perbedaan dalam metode komputasi, jelas
Tampaknya masuk akal untuk menuntut standar yang lebih bahwa kedua pendekatan dapat mengarah pada kesimpulan yang
tinggi untuk ACP (atau S-CVI / Ave) daripada untuk S-CVI / berbeda.
UA karena yang pertama jauh lebih liberal dalam definisi
kongruensi. Dengan data akurat pada Tabel 2, S-CVI / UA Dalam mencari literatur untuk informasi tentang validitas konten,
akan menjadi 0,40 (bahkan tidak dapat diterima menurut kami hanya menemukan satu studi, yang ada dalam jurnal kerja sosial,
standar tradisional), sedangkan S-CVI / Ave (yaitu, ACP) yang sepenuhnya menentukan bagaimana para peneliti menghitung
adalah 0,90. S-CVI mereka. Ini juga satu-satunya penelitian yang kami temukan
yang mengakui fakta bahwa ada dua metode penghitungan indeks ini.
Rubio, Berg-Weger, Tebb, Lee, dan Rauch (2003) mengilustrasikan
CVI DALAM SASTRA PENGEMBANGAN proses validasi konten yang mereka gunakan dalam mengembangkan
SKALA Skala Pengasuh Kesejahteraan. Mereka menghitung S-CVI mereka
berdasarkan peringkat relevansi oleh enam hakim, menggunakan
Sebuah pertanyaan penting adalah, bagaimana para peneliti perawat
menghitung S-CVI untuk validitas konten

Penelitian Keperawatan & Kesehatan DOI 10.1002 / nur


494 PENELITIAN PENELITIAN & KESEHATAN

pendekatan rata-rata. Mereka secara khusus mengadopsi membuat kesimpulan tentang metode perhitungan S-CVI
pendekatan ini karena kekhawatiran mereka bahwa dengan begitu pengembang skala, kami pertama kali menguji apakah nilai
banyak penilai, validitas konten akan tertekan jika mereka S-CVI yang diterbitkan, ketika digabungkan dengan jumlah item
menggunakan pendekatan S-CVI / UA yang menuntut persetujuan pada skala, mendekati jumlah keseluruhan. Misalnya, untuk
100%. entri pertama (Champion, Skinner, & Menon, 2005), ketika
Meskipun kami tidak menemukan laporan tentang S-CVI dari .80 dikalikan dengan 10 item, hasilnya adalah 8. Ini
pengembangan skala dalam literatur keperawatan yang berarti bahwa S-CVI / UA masuk akal: nilai dari 0,80 bisa
menggambarkan sepenuhnya bagaimana para peneliti dicapai jika semua hakim secara universal menilai 8 dari 10
menghitung S-CVI mereka, kadang-kadang mungkin untuk item yang relevan. Selanjutnya, kami menilai masuk akal S-CVI
membuat kesimpulan dengan bekerja mundur dari informasi / Ave dengan terlebih dahulu mengalikan jumlah ahli dengan
tentang jumlah item, jumlah ahli, dan nilai CVI. Kami melakukan jumlah item. Ini menghasilkan jumlah total peringkat
analisis untuk menilai sejauh mana kesimpulan tentang item-menurut-ahli yang mungkin. Ingatlah bahwa pada Tabel 2,
perhitungan S-CVI mungkin, dan untuk menentukan apakah ada total 60 kemungkinan peringkat (6 ahli kali 10 item); 54 dari
kedua pendekatan perhitungan digunakan. Sayangnya, tidak ada mereka menunjukkan relevansi, dan S-CVI / Ave adalah 54/60 ¼.
'' populasi '' upaya validasi konten yang terdefinisi dengan baik 90. Kemudian dalam analisis kami untuk Tabel 3, jumlah total
dari mana untuk memilih sampel acak, dan jadi kami mengambil peringkat item-oleh-ahli dikalikan oleh S-CVI untuk melihat
sampel secara purposive, memilih 10 studi pengembangan skala apakah nilai ini dekat dengan seluruh nomor. Dalam kasus entri
dari literatur keperawatan terbaru. Sejauh tujuan analisis adalah pertama (Champion et al.), Nilai 50 peringkat (5 ahli kali 10
untuk menentukan apakah ada bukti bahwa kedua pendekatan item) dikalikan dengan 0,80 adalah 40, menunjukkan bahwa 40
komputasi S-CVI sedang digunakan, alih-alih menghitung dari 50 peringkat adalah penilaian relevansi. Dengan demikian,
persentase penelitian menggunakan satu pendekatan atau yang S / CVI untuk studi pertama ini juga bisa menggunakan
lain, sampel purposive seperti itu tampaknya dapat dibenarkan. pendekatan rata-rata.
Maksud kami adalah bahwa kami sengaja memilih 10 studi
psikometrik dari tujuh jurnal keperawatan yang berbeda, yang
ditulis oleh peneliti perawat dari berbagai negara (misalnya,

Kolom terakhir pada Tabel 3 menunjukkan kesimpulan apa


yang dapat dibuat dengan menggunakan strategi ini. Seperti
Amerika Serikat, yang ditunjukkan tabel, untuk 7 dari 10 studi, kesimpulan
Kanada, dan Cina), mengenai pengembangan skala yang berkaitan kalkulasi kami yang mundur tidak meyakinkan — yaitu, baik
dengan berbagai bidang spesialisasi keperawatan (misalnya, S-CVI / UA atau S-CVI / Ave masuk akal bisa digunakan.
kesehatan ibu dan anak, pediatri, perawatan paliatif, pendidikan, Namun, untuk dua dari tujuh studi ini, ada informasi tambahan
administrasi). yang cukup dalam artikel untuk menyimpulkan bahwa
Hasil analisis kami dari 10 studi pengembangan skala pendekatan S-CVI / UA telah
ditunjukkan pada Tabel 3. Untuk

Tabel 3. Perhitungan S-CVI dalam Studi Pengembangan Skala Terpilih di Jurnal Keperawatan

Jumlah Ahli Jumlah Nilai


Referensi Item S-CVI Metode Perhitungan S-CVI Tersirat

Champion et al. (2005) 5 10 . 80 Bisa jadi salah satunya

Chen et al. (2003) 10 12 . 92 Bisa jadi salah satunya

Chien & Norman (2004) 15 25 . 96 Bisa jadi, tetapi S-CVI / UA mungkin Sebuah
Dobratz (2004) 3 77 . 83 Bisa jadi salah satunya

Fowles & Feucht (2004) 2 18 . 72 Bisa jadi salah satunya

Li and Lopez (2004) 10 20 . 98 S-CVI / Ave


Lindgren (2005) 3 28 . 83 S-CVI / Ave
McGilton (2003) 5 6 . 83 Bisa jadi salah satunya

Sauls (2004) 6 43 . 81 Bisa jadi, tetapi S-CVI / UA mungkin Sebuah


Smith et al. (2004) 7 33 . 86 S-CVI / Ave

S-CVI, indeks validitas konten tingkat-skala.


S-CVI / UA, indeks validitas konten tingkat-skala, metode perhitungan perjanjian universal. S-CVI / Ave, indeks validitas konten tingkat-skala,
metode penghitungan rata-rata.
catatan: Sebuah Meskipun perhitungan mundur mendukung kesimpulan itu antara Metode perhitungan S-CVI dapat digunakan, informasi dalam artikel ini menunjukkan bahwa pendekatan S-CVI /
UA digunakan.

Penelitian Keperawatan & Kesehatan DOI 10.1002 / nur


CONTENTVALIDITYINDEX / POLITANDBECK 495

diadopsi. Sebagai contoh, Sauls (2004) secara khusus studi diperlukan. Kami menawarkan beberapa rekomendasi yang
menyebutkan bahwa penyebut kalkulasinya adalah item: '' kami pikir akan meningkatkan komunikasi tentang validitas konten
CVI adalah 0,81, yang berarti bahwa 81% dari total item dinilai bagi para peneliti yang menggunakan CVI untuk mengukur
konten valid '' (hal. 126). perjanjian tentang relevansi item.

Kami dapat mengesampingkan pendekatan S-CVI / UA Pertama, seperti yang disarankan artikel ini, penting untuk
untuk 3 dari 10 studi, dan dengan demikian menyimpulkan membedakan antara validitas konten di level item dan di level
bahwa metode S-CVI / Ave telah digunakan. Untuk skala. Akronim CVI telah digunakan untuk keduanya, mengikuti
menggambarkan, pertimbangkan studi oleh Li & Lopez (2004). studi berpengaruh Lynn '(1986). Sauls (2004), misalnya,
Untuk skala 20-item mereka, S-CVI adalah 0,98. Jika ada menggunakan akronim yang sama untuk kedua perhitungan
kesepakatan universal untuk 19 item, S-CVI akan menjadi 0,95 tingkat item (''. . .8 item memiliki CVI dari .67, '' hal. 126) dan
(19/20) ¼. 95), bukan 0,98. Ini menunjukkan bahwa metode perhitungan level-skala (dalam skala revisi-nya, '' CVI dari total
S-CVI / UA tidak digunakan untuk menentukan validitas konten instrumen adalah .95 '', hal. 126). Kami berpikir bahwa akronim
skala. Ketika 0,98 dikalikan dengan jumlah total peringkat pakar yang diperkenalkan dalam artikel ini untuk membedakan
per item (200), hasilnya adalah angka lubang 196 — yaitu, keduanya (I-CVI dan S-CVI) akan berguna, tetapi bahkan jika
semua kecuali 4 dari 200 peringkat yang menunjukkan akronim tidak diadopsi, perbedaannya masih harus dibuat jelas
relevansi. Akibatnya, dalam penelitian ini, kami menyimpulkan (misalnya, merujuk pada tingkat barang) CVI dan
bahwa metode S-CVI / Ave telah digunakan. Dalam situasi ini, scalelevel-CVIs).
S-CVI / Ave 0,98 bisa dicapai jika 16 item memiliki I-CVI 1,0,
dan 4 item sisanya memiliki I-CVI 0,90.
Kedua, kami merekomendasikan agar para peneliti
melaporkan kisaran nilai I-CVI mereka untuk item yang
dipertahankan dalam skala, di samping nilai S-CVI. Rempusheski
Sebagai kesimpulan, analisis kami menunjukkan bahwa peneliti & O'Hara, 2005, misalnya, memberikan berbagai informasi
perawat menggunakan kedua pendekatan komputasi dalam tentang item pada skala mereka, mencatat bahwa '' CVI berkisar
perhitungan S-CVI, dan bahwa kesimpulan tentang metode yang dari 0,60 hingga
1.0 '' (hlm. 421). Memberikan informasi jangkauan untuk item
digunakan tidak selalu mungkin. Bahkan jika kesimpulan seperti itu adalah
sangat penting ketika metode S-CVI / UA telah digunakan
mungkin, kami berpikir bahwa pembaca laporan psikometrik tidak karena metode perhitungan ini mengabaikan nilai-nilai I-CVI
harus melakukan perhitungan sendiri untuk memahami apa yang tidak ada kesepakatan universal. Untuk memberikan
artinya S-CVI yang dilaporkan. contoh yang berlebihan dan tidak mungkin, Champion et al.
Dapat dicatat bahwa, di samping dua metode (2005) studi, tercantum dalam Tabel 3, memiliki nilai S-CVI 0,80.
penghitungan S-CVI yang telah dibahas, pendekatan ketiga Jika metode kesepakatan universal digunakan, ini berarti bahwa
mungkin dilakukan. S-CVI dapat dihitung sebagai proporsi delapan item pada skala 10-item mereka memiliki ICVI 1,0 -
item pada skala yang dinilai konten valid pada level item. tetapi I-CVI pada dua item yang tersisa bisa jadi 0,0, .20, .40,
Seperti disebutkan sebelumnya, Lynn (1986) menganjurkan .60, atau .80 —Kami tidak tahu apa-apa tentang dua I-CVI,
I-CVIs dari 1.0 ketika ada lima atau lebih sedikit ahli, dan kecuali bahwa mereka tidak boleh 1,0.
I-CVIs di sekitar 0,80 ketika ada enam atau lebih ahli. Untuk
data pada Tabel 2, semua dari item memenuhi kriteria I-CVI
Lynn, dan jadi pendekatan ketiga ini akan berarti bahwa Kami juga mendesak pengembang skala yang menghitung CVI dalam
S-CVI untuk skala 10-item adalah 1,0. Jika definisi ini upaya validasi konten mereka agar jelas tentang bagaimana mereka
digunakan, semua S-CVIs, secara teori, harus 1,0, karena item menghitung S-CVI. Seperti yang telah kami tunjukkan, kedua pendekatan
dengan tingkat validitas konten yang lebih rendah dari yang tersebut dapat menghasilkan hasil yang sangat berbeda. Pengguna skala
dapat diterima harus direvisi atau dibuang. Beberapa studi harus memiliki informasi yang akurat tentang kualitas skala yang mereka
pengembangan skala melaporkan S-CVI 1,0, seperti yang pertimbangkan.
disarankan oleh data pada Tabel 3 dan kami menyimpulkan
bahwa pendekatan ketiga ini mungkin belum diadopsi. Kami lebih suka S-CVI / Avemethod untuk skala-tingkat
CVI, meskipun mungkin ada alasan yang sah untuk memilih
metode S-CVI / UA. Alasan kami adalah bahwa perjanjian
universal terlalu ketat ketika ada banyak ahli di panel validasi.
Tampaknya terlalu konservatif untuk menuntut persetujuan
REKOMENDASI ​UNTUK 100 persen — bagaimana jika, misalnya, seorang pakar tidak
CVI memahami tugas atau memiliki sudut pandang yang bias?
Contoh pada Tabel 2 menggambarkan alasan kami: meskipun
Investigasi kami menunjukkan bahwa kejelasan yang lebih besar tentang 90% dari
validasi konten dalam pengembangan skala

Penelitian Keperawatan & Kesehatan DOI 10.1002 / nur


496 PENELITIAN PENELITIAN & KESEHATAN

peringkat keseluruhan untuk 10-itemcalewere dinilai relevan, Chien, WT, & Norman, I. (2004). Validitas dan
dan semua I-CVI lebih tinggi dari keandalan Jadwal Wawancara Beban Keluarga versi Cina.

. 80, nilai S-CVI / UA hanya 0,40. Mungkin prosedur yang Penelitian Keperawatan, 53, 314–
322.
paling informatif adalah menghitung S-CVI dua arah, dan
Davis, LL (1992). Ulasan instrumen: Mendapatkan hasil maksimal
melaporkan kedua nilai.
dari panel ahli Anda. Penelitian Keperawatan Terapan, 5,
194–197.
Satu masalah terakhir menyangkut standar yang dapat diterima untuk
Dobratz, MC (2004). Skala Penutupan Kehidupan:
S-CVI. Davis (1992) dan yang lainnya merekomendasikan minimum-CVI tes psikometri nasional alat untuk mengukur adaptasi psikologis
0,80. Ini mungkin merupakan kriteria yang masuk akal (dan bahkan ketat) dalam kematian dan sekarat. Penelitian di Keperawatan &
untuk SCVI / UA, tetapi mungkin diperdebatkan bahwa para peneliti yang Kesehatan, 27, 52-62. Fowles, ER, & Feucht, J. (2004). Menguji
menggunakan mereka lebih liberal pendekatan SCVI / Ave harus mengikuti Pembatas untuk
saranWaltz et al. (2005) untuk menggunakan 0,90 sebagai standar untuk Skala Makan Kesehatan. Western Journal of Nursing Research,

indeks kongruitas rata-rata ini. Jika item dengan I-CVI yang tidak dapat
26, 429-443.
Grant, JS, & Davis, LT (1997). Seleksi dan penggunaan
diterima direvisi dan dievaluasi kembali, ini seharusnya tidak menjadi
ahli konten dalam pengembangan instrumen. Penelitian dalam Keperawatan
standar yang sulit untuk dipenuhi.
& Kesehatan, 20, 269-274.
Li, HCW, & Lopez, V. (2004). Evaluasi psikometrik dari versi Cina Skala
Kecemasan Negara untuk Anak-anak. Penelitian dalam
Singkatnya, kami merekomendasikan bahwa untuk skala Keperawatan & Kesehatan, 27, 198–
yang akan dinilai memiliki validitas konten yang sangat baik, itu 207.
akan terdiri dari item dengan I-CVI yang memenuhi kriteria Lindell, MK, & Brandt, CJ (1999). Menilai
Lynn (1986) (I-CVI). ¼ 1,00 dengan 3 hingga 5 ahli dan I-CVI perjanjian antar penilai mengenai relevansi pekerjaan suatu tes:
minimum 0,78 untuk 6 hingga 10 ahli) dan itu akan memiliki Perbandingan indeks CVI, T, rWG (J), dan r WG (J). Jurnal

SCVI / Ave 0,90 atau lebih tinggi. Ini membutuhkan Psikologi Terapan, 84, 640–
647.
konseptualisasi konstruk yang kuat, barang-barang bagus, para
Lindgren, K. (2005). Menguji Praktik Kesehatan
pakar yang dipilih dengan bijaksana (Davis, 1992), dan instruksi
dalam Kuesioner Kehamilan-II. Jurnal Keperawatan Kebidanan,
yang jelas kepada para ahli mengenai konstruk yang
Kandungan, & Neonatal, 34, 465–
mendasarinya dan tugas pemeringkatan (Lynn). Standar yang 472.
direkomendasikan mungkin mengharuskan dua putaran Lynn, MR (1986). Penentuan dan kuantifikasi
tinjauan ahli jika I-CVI awal menyarankan perlunya perbaikan validitas konten. Penelitian Keperawatan, 35, 382–
item yang substansial, atau jika pengulas mengidentifikasi 385.
aspek-aspek konstruksi yang tidak tercakup secara memadai Martuza, VR (1977). Menerapkan norma-referensi dan
oleh kumpulan item awal (Lynn). Apapun metode perhitungan pengukuran yang dirujuk kriteria dalam pendidikan. Boston: Allyn &

yang digunakan, kami mendesak pengembang skala untuk Bacon.


Mastaglia, B., Toye, C., & Kristjanson, LJ (2003).
secara eksplisit tentang bagaimana nilai CVI mereka dihitung
Memastikan validitas konten dalam pengembangan instrumen:
sehingga calon pengguna skala dapat menarik kesimpulan
Tantangan dan pendekatan inovatif. Perawat Kontemporer, 14,
informasi tentang validitas konten skala,
281–291.
McGilton, KS (2003). Pengembangan dan psiko-
evaluasi metrik skala kepemimpinan yang mendukung. Jurnal
Penelitian Keperawatan Kanada, 35, 72–
86.
Polit, DF, & Beck, CT (2004). Penelitian keperawatan:
Prinsip dan metode (edisi ke-7) Philadelphia: Lippincott, Williams,
& Wilkins. Popham, WJ (1978). Kriteria-referensi-ukuran
REFERENSI
ment. Englewood Cliffs, NJ: Prentice Hall. Rempusheski, VF, &
Beck, CT, & Gable, RK (2001). Memastikan konten O'Hara, CT (2005). Psiko-
validitas: Ilustrasi proses. Jurnal Pengukuran Keperawatan, 9, sifat metrik dari Persepsi Kakek tentang Skala Keluarga. Penelitian
201–215. Keperawatan, 54, 419–
Champion, V., Skinner, CC, & Menon, U. (2005). 427.
Pengembangan skala efikasi diri untuk mamografi. Penelitian Rubio, DM, Berg-Weger, M., Tebb, SS, Lee,
dalam Keperawatan & Kesehatan, 28, 329– ES, & Rauch, S. (2003), Objectifying validity content: Melakukan
336. studi validitas konten dalam pekerjaan sosial. Penelitian Pekerjaan
Chen, HS, Horner, SD, & Percy, MS (2003). Menyeberang- Sosial, 27, 94–
validasi budaya dari Tahapan Kuisioner Akuisisi Tembakau dan 104.
Skala Neraca Keputusan. Penelitian dalam Keperawatan & Sauls, DJ (2004). Kuesioner Dukungan Tenaga Kerja:
Kesehatan, 26, 233– Pengembangan dan analisis psikometri. Jurnal Pengukuran
243. Keperawatan, 12, 123-312.

Penelitian Keperawatan & Kesehatan DOI 10.1002 / nur


CONTENTVALIDITYINDEX / POLITANDBECK 497

Smith, AJ, Thurkettle, MA, & dela Cruz, FA (2004). Waltz, CF, Strickland, OL, & Lenz, ER (2005).
Penggunaan intuisi oleh mahasiswa keperawatan: Pengembangan Pengukuran dalam penelitian keperawatan dan kesehatan (edisi ke-3)
dan pengujian instrumen. Jurnal Perawatan Lanjut, 47, 614-622. New York: Springer Publishing Co. Wynd, CA, Schmidt, B., & Schaefer,
MA (2003).
Waltz, CF, & Bausell, RB (1981). Penelitian keperawatan: Dua pendekatan kuantitatif untuk memperkirakan validitas konten.
Desain, statistik, dan analisis komputer. Philadelphia: FA Davis. Western Journal of Nursing Research, 25, 508–518.

Penelitian Keperawatan & Kesehatan DOI 10.1002 / nur

Anda mungkin juga menyukai