Translate Measurement Hal 301-340

Hal 301-340
jatuh di tengah kesenjangan antara batas. Pada setiap titik di sepanjang sumbu x, jumlah dari
probabilitas adalah 1.0, karena ada kemungkinan sen 100 per bahwa salah satu pilihan akan
dipilih.
Sekarang mari kita lihat kurva respon untuk item yang berbeda, pada Gambar. 12,7. Apa ini
memberitahu kita adalah bahwa Setuju Tidak Setuju dan pilihan yang tidak digunakan oleh
responden; paling orang baik sangat setuju atau sangat tidak setuju dengan batang, dan
beberapa yang netral, tapi sangat sedikit yang mengambil posisi yang lebih marah. Apakah
ini berarti bahwa kita harus baik drop Setuju Tidak Setuju dan pilihan, atau, jika kita memilih
untuk menyimpan format yang sama untuk semua item, skor mereka di masing-masing
kategori Sangat. Indikasi lain dari masalah terjadi ketika urutan ambang batas yang teratur;
misalnya, jika SA diikuti oleh N, maka A, D, dan SD. Hal ini akan menunjukkan bahwa
subjek mengalami kesulitan membedakan antara pilihan, baik karena ada terlalu banyak dari
mereka atau label membingungkan (misalnya adalah 'sering' lebih atau kurang dari 'sering'?).
Di sini sekali lagi, pilihan akan menulis ulang pertanyaan, atau kategori runtuhnya.
informasi Item
Kami ingin semua item dalam skala untuk sama-sama informatif, karena mereka
membedakan antara orang-orang dengan berbagai tingkat sifat tersebut, tetapi kita tahu
bahwa ini tidak terjadi. Ketika kita membahas parameter, yang mencerminkan kekuatan
diskriminatif dari item dalam 2- dan 3 telapak tangan, kami katakan bahwa curam lereng,
semakin baik diskriminasi. Hal ini ditangkap di fungsi informasi item (IIF) untuk setiap item:
dimana IF | berarti informasi untuk item dengan nilai tertentu , dan Qi adalah (1 pi). Itu
berarti jika item memiliki kemiringan 1,0, ia memiliki empat kali kemampuan membedakan
item dengan kemiringan 0,5. Kita bisa menunjukkan ini dalam grafik IIF, seperti pada
Gambar. 12.8. Skala mereka-sumbu sewenang-wenang. Dengan demikian, informasi item
lebih, lebih tinggi dan
sempit adalah kurva. Item yang baik memberikan banyak informasi, tetapi hanya sekitar
fungsi diskriminatif tersebut; sedangkan item miskin memberikan informasi yang kurang, dan
itu tersebar di kisaran yang lebih besar dari sifat yang
Dengan item polytomous, IIF bergantung pada dua faktor : lereng rata-rata kategori respon;
dan jarak antara kategori. Akibatnya, item polytomous memiliki informasi lebih dari satu
dikotomis, dan informasi yang lebih tersebar di sepanjang rentang sifat tersebut, . Sementara
IIF untuk item dikotomis menyerupai kurva normal, bahwa untuk item polytomous mungkin
lebih luas, dan memiliki sejumlah puncak.
Item fit
Tujuan dari IRT adalah untuk menemukan satu set kecil item (biasanya jauh lebih kecil
dibandingkan dengan skala diturunkan menggunakan CTT, untuk alasan kita akan
menjelaskan sedikit kemudian) yang menjangkau berbagai konstruk. Karena parameter butir
kesulitan, b, adalah standar pada skala logit untuk memiliki rata-rata 0 dan SD dari 1, situasi
yang ideal adalah memiliki satu set item mana bs berkisar antara -3 hingga +3 (yaitu 3 SD di
atas dan di bawah rata-rata). Jika bs klaster ke arah ujung bawah skala logit ini, dengan
beberapa item di dekat +3, ini menunjukkan bahwa item yang terlalu 'mudah', dengan banyak
item mengukur sejumlah kecil sifat tersebut, dan beberapa yang didukung hanya oleh orang-
orang yang memiliki banyak. Sebagai contoh, jika kita mengembangkan skala nyeri, situasi
ini akan muncul jika ada banyak item tentang sakit umum dan nyeri yang dialami oleh
sejumlah besar orang, tapi beberapa item yang tingkat tap ekstrim dari rasa sakit, seperti yang
dialami oleh pasien dengan kanker tulang. Sebaliknya, beberapa item dekat -3 ujung skala
akan mencerminkan situasi-bukan sebaliknya sangat banyak item yang berkaitan dengan
nyeri ringan, dan banyak di ujung ekstrim. Situasi ketiga adalah di mana semua item klaster
dekat tengah, menunjukkan bahwa skala dibatasi pada kedua ujungnya.
Karena skala logit adalah interval satu, barang yang bisa dipilih dari kolam renang yang
relatif merata spasi sepanjang kontinum. Berapa banyak item untuk memilih tergantung pada
bagaimana tepatnya Anda ingin mengukur konstruk. Tes skrining singkat, misalnya, akan
membutuhkan item hanya dekat titik potong untuk menentukan caseness; sementara banyak,
erat item spasi akan digunakan untuk membuat perbedaan halus antara orang-orang, atau
untuk mengukur sejumlah kecil perubahan. Sisi kanan Gambar. 12,9 menunjukkan plot skala
10-item (untuk saat ini, kita akan mengabaikan sisi kiri, di mana mata pelajaran diplot).
Beberapa poin menonjol dari ini. Pertama, tes berisi item yang lebih mudah daripada yang
keras, karena tujuh item memiliki nilai logit bawah 0. Salah satu konsekuensi adalah bahwa
kita melompat dari skor lebih dari 1 (butir 2) untuk skor di bawah 3. Ini memberitahu kita
bahwa kita mungkin ingin menulis beberapa item cukup sulit untuk membedakan antara
orang-orang dalam kisaran ini. Demikian pula, itu akan membantu untuk menambahkan
beberapa item cukup mudah, plug kesenjangan antara item 4 dan 10. Kedua, ada sejumlah
item dengan sama skor kesulitan: 3 dan 8, dan triplet dari 6, 7, dan 9. Kita dapat
menghilangkan 3 atau 8, dan dua dari triplet, dan skala masih akan memiliki diskriminatif
yang sama kemampuan.
Gambar. 12,9 Plot item kesulitan kanan axis, dan orang lokasi ke kiri.
Jika 2PLM yang digunakan, kemudian memilih antara dua item yang memiliki nilai yang
sama b akan tergantung pada indeks diskriminasi untuk setiap item, a.Items dengan nilai yang
lebih tinggi memiliki barang curam kurva karakteristik dibandingkan dengan nilai yang lebih
rendah, dan dengan demikian membedakan lebih baik antara orang-orang yang nilai-nilai
sifat tersebut, , mirip, tetapi tidak identik.
Kami menyebutkan bahwa salah satu asumsi yang kuat dari IRT adalah bahwa skala adalah
unidimensional. Ini biasanya ditentukan oleh faktor pertama menganalisis data; jika skala
keran hanya satu atribut, maka harus ada beberapa faktor yang signifikan, dan yang pertama
harus jauh lebih tinggi dari yang lain. Bahkan setelah ini telah dilakukan, beberapa item
mungkin tetap yang tidak sesuai dengan asumsi unidimensionality. Ada beberapa statistik
yang bervariasi dari satu program komputer ke komputer berikutnya, yang menunjukkan
sejauh mana setiap item menyimpang dari itu. Yang paling umum adalah ukuran dari sisa dari
setiap item, yang dievaluasi dengan kemungkinan-rasio kebaikan-off itu statistik chi-square
(2GoF). Ini menilai perbedaan antara pola respon yang diharapkan dan aktual di seluruh
responden, berdasarkan kinerja mereka pada tes sebagai keseluruhan (Fan 1998). Item yang
memenuhi asumsi unidimensionality memiliki rendah nilai sisa (di bawah 1,96), dan 2GoF
non-signifikan , Yang secara konseptual mirip dengan item yang memiliki item-total tinggi
korelasi. Namun, 2GoF sangat sensitif terhadap ukuran sampel, sehingga jika besar, bahkan
sedikit penyimpangan dari unidimensionality mungkin signifikan secara statistik; dan
sebaliknya, ketika kecil, penyimpangan besar mungkin tidak menjadi signifikan.
karena 2GoF sulit untuk menafsirkan, dua statistik fit lain digunakan, disebut Infit dan Outfit.
Keduanya didasarkan pada perbedaan antara nilai aktual dan yang diperkirakan oleh model,
menyimpulkan atas orang. Infit berfokus pada perbedaan dekat item b tingkat- item kesulitan
moderat yang didukung oleh orang-orang dengan nilai-nilai yang rendah or tidak didukung
oleh orang-orang dengan nilai-nilai yang tinggi, misalnya. Di sisi lain, Outfit melihat item
pada orang-orang ekstrem-sulit didukung oleh orang-orang dengan nilai-nilai rendah dan
yang mudah terjawab oleh orang-orang dengan nilai-nilai yang tinggi. Berbagai kemungkinan
adalah dari 0 to, dengan nilai yang diharapkan dari 1. Nilai diterima adalah antara 0,5 dan
1,5. Item dengan nilai-nilai <0,5 tidak sangat informatif karena mereka mungkin berlebihan;
mereka tidak menurunkan skala tetapi dapat menyebabkan perkiraan keandalan menyesatkan
tinggi. Mereka yang memiliki nilai-nilai antara 1,5 dan 2,0 sama tidak menurunkan skala
tetapi tidak memberikan kontribusi untuk itu. Lebih dari 2.0, item mendistorsi atau
menurunkan skala karena kesalahan acak, dan ini harus dibuang. Secara umum, masalah yang
diidentifikasi oleh Infit lebih dari ancaman bagi pengukuran dari item diidentifikasi oleh
Outfit.
Orang fit
Kami disebutkan sebelumnya bahwa kedua item dan orang-orang yang mencetak gol di
sepanjang logit yang sama skala, yang biasanya berkisar dari -3 hingga +3. Akibatnya, kita
dapat menentukan derajat yang orang mungkin outlier, menggunakan sejenis statistik seperti
yang digunakan untuk melihat yang item gagal kriteria unidimensionality. Kami juga bisa
plot orang bersama kontinum yang sama, yang ditunjukkan pada sisi kiri Gambar. 12,9.
Dalam contoh ini, subyek cenderung mengelompok di ujung yang tinggi skala,
mencerminkan fakta bahwa sebagian besar dari mereka
didukung sebagian besar item. Dengan demikian, kelompok ini juga memiliki tingkat
signifikan nyeri atau, konsisten dengan evaluasi kami item, tidak ada cukup yang lebih sulit.
Situasi yang ideal adalah satu di mana nilai rata-rata lokasi untuk semua orang sekitar nol.
Ada Infit dan statistik Outfit bagi orang-orang juga. Dalam hal ini, mereka menyimpulkan
lebih item, tapi makna dan interpretasi yang sama. Infit melihat perbedaan dekat
people'slevel yang tidak sejalan dengan apa yang diharapkan; dan Outfit di perbedaan jauh
dari theirlevel, seperti barang-barang yang mudah gagal oleh orang-orang dengan nilai-nilai
yang tinggi dari atau yang sulit dilalui oleh orang-orang dengan nilai-nilai yang rendah.
Differential Item berfungsi

Salah satu asumsi IRT adalah bahwa hasil independen sampel. Artinya, orang-orang dengan
jumlah yang sama sifat laten () harus memiliki IRFs yang sama. Namun, kita tahu bahwa hal
ini tidak selalu benar. Wanita dengan jumlah yang sama depresi sebagai laki-laki lebih
mungkin untuk mendukung item yang mencerminkan kecenderungan untuk menjadi sedih
atau menangis dengan mudah. Apakah asumsi itu benar diperiksa pada tingkat kelompok
melalui teknik yang disebut barang diferensial berfungsi (DIF), di mana kelompok bisa laki-
laki dan perempuan, kelompok etnis yang berbeda, pasien dan non-pasien, atau orang yang
memakai asli versus versi terjemahan dari skala. Seperti yang sering terjadi dengan maju
statistik yang relatif baru, ada lusinan metode untuk mengevaluasi DIF, dan tidak ada
konsensus mengenai yang terbaik. Salah satu metode yang lebih umum adalah untuk
menjalankan analisis varians, dengan salah satu faktor menjadi kelompok dan faktor lainnya
yang berbagai tingkat sifat tersebut.
Dalam model Rasch, karena barang-barang yang dibatasi untuk memiliki kemiringan yang
konstan
atau parameter diskriminasi, DIF dapat terjadi hanya ketika kelompok berbeda dalam hal
lokasi mereka di sepanjang kontinum sifat. Dengan 2PLM dan dikotomis item, yang
kelompok dapat berbeda berkaitan dengan diskriminasi, lokasi, atau keduanya. Tak perlu
dikatakan, hidup menjadi lebih sulit dengan barang-barang polytomous, karena sekarang
kelompok juga bisa berbeda dalam hal pemisahan antara alternatif respon. Jika analisis
varians menunjukkan pengaruh yang signifikan dari kelompok, yang akan menunjukkan DIF
seragam; yaitu, ada perbedaan yang konstan antara kelompok di seluruh rentang atribut.
Sebuah kelompok dengan tingkat interaksi sifat, di sisi lain, menunjuk ke non-seragam DIF,
di mana pemisahan antara fungsi respon item dua kelompok bervariasi dengan tingkat yang
berbeda dari sifat tersebut; yaitu, perbedaan diskriminasi antara
kelompok.
Apa yang harus dilakukan ketika DIF ditemukan tergantung di mana Anda berada dalam
proses pengembangan skala. Jika Anda mengembangkan skala, dan berhipotesis bahwa
seharusnya tidak ada akan dif antara, katakanlah, laki-laki dan perempuan, maka aset dapat
dihapus atau ditulis ulang.
Demikian pula, jika Anda sedang mengembangkan sebuah tes dalam dua atau lebih bahasa
secara bersamaan, maka DIF mungkin menunjukkan masalah dengan baik konsep maupun
terjemahan. Jika Anda berurusan dengan skala yang ada, mungkin bendera mengapa
perbedaan antara kelompok yang ada.
Masalah dengan semua ini, meskipun, adalah bahwa DIF dapat terjadi karena alasan yang
berkaitan
dengan sifat itu sendiri. Sebagai contoh, perempuan secara keseluruhan lebih mungkin untuk
mengakui perasaan cemas atau depresi dibandingkan pria, sehingga tidak akan mengejutkan
bahwa lokasi mereka parameter untuk item tertentu akan berbeda. Seperti yang telah
disebutkan di bagian atas terjemahan, beberapa kelompok budaya lebih cenderung untuk
menggunakan ekstrem pada kata sifat dan Likert skala dibandingkan kelompok lain, sehingga
diharapkan bahwa nilai ambang batas untuk pilihan respon akan berbeda. Kami telah
menemukan halus namun konsisten perbedaan
antara Anglophones Kanada dan Francophones tentang langkah-langkah depresi dan
kecemasan (Streiner et al. 2005), dan DIF pada empat item. Masalahnya adalah apakah
prevalensi yang berbeda artefak karena DIF, atau apakah DIF mencerminkan budaya
perbedaan dalam ekspresi mempengaruhi. Sayangnya, ini adalah pertanyaan yang bisa
menjawab hanya dengan antropologi, bukan statistik.
Unidimensionality dan kemandirian daerah

Dalam pengantar topik ini, disebutkan bahwa IRT membuat dua 'keras' asumsi: orang-orang
dari unidimensionality dan kemandirian daerah. Seperti yang akan kita lihat, baik asumsi
sangat terkait satu sama lain. Unidimensionality berarti bahwa skala mengukur hanya satu
atribut, dan jumlah atribut yang merupakan satu-satunya faktor mempengaruhi kemungkinan
mendukung item.
unidimensionality
Cara yang paling umum pengujian untuk unidimensionality adalah dengan menggunakan
teknik yang disebut analisis faktor; pengenalan yang sangat singkat untuk analisis faktor
diberikan dalam Lampiran B, dan penjelasan yang lebih lengkap dapat ditemukan di Norman
dan Streiner (2008). Jika
skala yang unidimensional, maka semua item harus sangat berkorelasi dengan (yang istilah
teknis adalah 'beban pada') faktor pertama; dan jumlah varians menyumbang dengan faktor
pertama (sebut faktor yang 'eigen') harus jauh lebih tinggi daripada eigenvalues faktor
berhasil. Masalahnya adalah mendefinisikan 'jauh lebih tinggi'.
Beberapa orang mengatakan bahwa itu harus bertanggungjawab atas sedikitnya 20 persen
dari varians (misalnya Reckase 1979), sementara yang lain (Carmines dan Zeller 1979)
mengatakan 40 persen, tetapi tidak ada alasan telah diberikan untuk salah satu kriteria.
Lainnya (Lumsden 1957, 1961) menggunakan rasio varians antara dua faktor pertama
(misalnya eigen pertama harus sekitar sepuluh kali lebih tinggi dari nilai eigen untuk faktor
kedua), tapi sekali lagi, ada tidak ada pembenaran untuk jumlah ini. Sayangnya, seperti Hattie
(1985) menyimpulkan, "Namun, masih ada indeks memuaskan '(hal. 158). Peracikan
kesulitan, 'unidimensionality' itu sendiri merupakan konsep yang licin.
Kecemasan, misalnya, dapat dilihat sebagai atribut tunggal. Tapi, kita juga bisa membagi
kecemasan menjadi beberapa subkomponen, seperti fisiologis (misalnya takikardia, kering
mulut, dan sweatiness), perilaku (menghindari situasi tertentu, antisipasi menjadi takut), dan
kognitif (rasa takut, perenungan), yang masing-masing dapat disadap oleh subskala sendiri.
Namun, selama subkomponen ini berkorelasi dengan masing-masing lainnya, skala secara
keseluruhan mungkin masih unidimensional. Artinya, unidimensionality adalah bukan
fenomena semua atau tidak sama sekali; penghakiman diperlukan, serta pengetahuan
konstruk yang mendasari, untuk menentukan adalah skala adalah 'cukup unidimensional'.
Unidimensionality murni tidak mungkin; apa yang kita tertarik unidimensionality 'cukup'.
Ingatlah nasihat bijak Hill et al. (2007): "Ini adalah kurang penting bagi Model untuk menjadi
sempurna daripada untuk itu menjadi berguna '(hal. S41). Sebuah catatan hati-hati adalah
dalam rangka, meskipun. Sebagian besar paket komputer yang lebih umum yang dapat
melakukan analisis faktor (misalnya SAS, SPSS, atau Stata) dimulai dengan matriks korelasi
berdasarkan korelasi Pearson antara item. Hal ini tidak harus dilakukan jika Pilihan respon
yang dikotomis atau polytomous, seperti dengan skala Likert, untuk alasan diuraikan dalam
Lampiran B. Ada program khusus yang pertama menghitung matriks korelasi didasarkan
pada korelasi tetrakorik atau polikorik sebelum menjalankan faktor analisis, dan itu adalah
program yang harus digunakan.
kemandirian daerah Kemandirian daerah berarti bahwa, setelah kami menghapus pengaruh
sifat yang diukur (yaitu, faktor pertama dalam analisis faktor), maka kemungkinan
mendukung item tertentu tidak berhubungan dengan probabilitas menjawab setiap item lain.
di lain kata-kata, itu adalah sifat laten (atau 'membangun' dalam terminologi pengukuran, atau
'faktor' dalam analisis faktor terminologi) dan hanya sifat laten yang mempengaruhi
jawabannya.
Alasan bahwa item yang berkorelasi adalah bahwa mereka semua terpengaruh, meskipun
untuk berbeda derajat, dengan sifat tersebut; sekali pengaruh sifat dihapus, item tidak
berkorelasi. Ini hanyalah cara lain untuk mendefinisikan faktor pertama yang kuat, sehingga
kemandirian daerah dan unidimensionality dapat dilihat mengatakan hal yang sama dengan
cara yang berbeda. Alasan itu disebut 'kemandirian lokal didasarkan pada apa yang baru saja
kita bahas.
Di antara orang-orang yang menjangkau seluruh rentang sifat tersebut, akan ada korelasi
yang kuat
antara item. Tapi, untuk setiap sub-sampel dari orang-orang yang berada di tingkat yang sama
of (yang merupakan salah satu cara untuk menghilangkan efek dari sifat tersebut), tidak
akan ada korelasi antara item.
Pelanggaran kemandirian daerah (disebut, untuk alasan yang jelas, 'ketergantungan lokal)
dapat
disebabkan oleh sejumlah faktor. Yang pertama adalah bahwa skala tidak unidimensional,
melainkan
adalah menekan dua atau lebih atribut. Hal ini sering terungkap dalam kuat kedua atau
bahkan
Faktor ketiga dalam analisis faktor. Faktor lain yang dapat menyebabkan ketergantungan
lokal
adalah adanya item berlebihan: mereka yang mengajukan pertanyaan yang sama dalam dua
berbeda
cara, sehingga jika ada yang didukung, yang lain akan juga. Melihat korelasi
antara item mungkin menunjukkan masalah di daerah ini; Anda tidak harus mencakup item
yang berkorelasi atas, mengatakan, 0,80. Sumber ketiga masalah di daerah ini terjadi ketika
dua atau lebih jawaban terkait. Misalnya, responden mungkin akan diminta untuk membaca
ayat dan kemudian menjawab sejumlah pertanyaan berdasarkan itu. Jika orang tersebut tidak
memahami ayat, maka semua barang akan menjawab salah. akhirnya,
ketergantungan lokal dapat disebabkan oleh konteks atau isi dari item sebelumnya, sehingga
bahwa ada 'sisa-sisa' dalam jawaban dari satu item ke item berikutnya. Jika ketergantungan
lokal
ini, hal ini dapat menyebabkan parameter kemiringan menjadi menyesatkan tinggi, dan
keandalan
skala yang akan dibesar-besarkan.
Namun, kemandirian lokal mirip dengan unidimensionality bahwa itu bukan
semua atau tidak sama sekali fenomena. Jika, seperti yang disebutkan sebelumnya, konstruk
yang mendasari adalah
satu kompleks, maka berbeda item menekan berbagai aspek mungkin berlebihan.
Sekali lagi, penghakiman disebut untuk. Jika faktor pertama adalah jauh lebih kuat dari yang
lain,
maka adalah mungkin untuk hidup dengan redundansi; jika tidak, salah satu dari dua barang
serupa
harus dihilangkan. (Untuk pendekatan yang agak canggih untuk masalah ini, lihat
Reise dan Haviland 2005.)
kemonotonan
Berdasarkan asumsi kami telah menyebutkan bahwa-skala adalah unidimensional dan bahwa
probabilitas menanggapi item meningkat pada tingkat yang lebih tinggi
dari -maka item harus memenuhi syarat yang jauh: monotonicity.Thismeans
bahwa probabilitas menanggapi item yang diberikan harus meningkatkan monoton dengan
skor yang lebih tinggi pada skala (Reise dan Haviland 2005).
Untuk menguji item tertentu, kami menghitung skor total menghilangkan barang itu, untuk
setiap orang. Kemudian, untuk semua orang dengan skor yang diberikan, kita menentukan
proporsi yang
telah mendukung item sasaran. Item yang baik, seperti Pertanyaan 1 pada Gambar. 12.10,
memiliki
probabilitas mendekati 0 persen pada nilai terendah, dan meningkat menjadi hampir 100
persen
di tertinggi. Item berkinerja buruk, seperti Pertanyaan 2 pada gambar yang sama, memiliki
garis lebih datar, mulai jauh di atas 0 persen dan berakhir di bawah 100 persen
Barang-barang tersebut merupakan diskriminator miskin, dan mungkin harus turun dari akhir
skala.
Logits dan skor mentah

Seperti yang telah disebutkan dalam berbagai bagian dalam buku ini, skor yang dihasilkan
dari sisik
dikembangkan oleh CTT tidak memiliki sifat tingkat interval dan, kecuali mereka telah
dinormalisasi dengan menggunakan prosedur yang diuraikan dalam Bab 7, mereka jarang
terdistribusi secara normal. Ini berarti bahwa 5-titik perbedaan dalam mid-range skala tidak
bisa
akan dianggap setara dengan 5-titik perbedaan pada bagian bawah atau atas ekstrim.
Logits, di sisi lain, terutama yang dihasilkan dari model Rasch, yang interval. Hubungan
antara nilai logit dan skor mentah ditunjukkan pada Gambar. 12.11. dalam
tengah rentang skor, di mana item kurva karakteristik lurus, ada
satu-ke-satu hubungan antara perubahan logits dan perubahan skor mentah. tapi,
sebagai menunjukkan angka, ini rusak di ujungnya. Perubahan yang sama dalam
menerjemahkan logits dalam perubahan skor baku secara proporsional lebih kecil. Ini berarti
bahwa, pada dua ekstrem, perbedaan sifat yang diremehkan menggunakan skor baku,
sehingga lebih sulit untuk membedakan antara orang-orang dengan tingkat tinggi atau rendah
dari , atau untuk menentukan
kebermaknaan perubahan dalam individu (Cella dan Chang 2000).
Informasi tes dan kesalahan baku pengukuran

Di CTT, ada satu SEM untuk tes, didefinisikan sebagai:
di mana adalah keandalan perkiraan skala dan 2 varians estimasi. seperti kita
disebutkan dalam pendahuluan bab ini, ini adalah penyederhanaan yang tidak realistis,
karena kesalahan sebenarnya lebih kecil di tengah-tengah skala, dan lebih besar di
ekstrem di mana biasanya ada item jauh lebih sedikit dan orang-orang. Selanjutnya, SEM
bervariasi dari satu populasi yang lain, karena masing-masing memiliki keandalan dan
varians yang berbeda. Dalam IRT, konsep keandalan diganti oleh salah satu item atau
TestInformation, whichis fungsi dari parameter model. Dalam model Rasch dikotomis,
informasi item (I) adalah probabilitas respon yang benar atau positif, pi (), kali probabilitas
satu yang salah atau negatif, qi ():
yaitu, itu adalah fungsi informasi item (IIF) yang kita bahas sebelumnya, tapi tanpa
parameter kemiringan, karena itu adalah konstan untuk semua item. Untuk 2- dan 3PLM,
yang
parameter diskriminasi, ai, juga memainkan peran:
Informasi tes hanyalah jumlah dari semua kurva informasi item, dan SEM pada setiap tingkat
sifat yang diberikan adalah:
Formula ini memberitahu kita dua hal. Pertama, semakin banyak informasi yang ada (item
mana pi adalah sekitar 50 persen, dan dengan diskriminasi yang baik), semakin kecil
kesalahan pengukuran. Kedua, SEM adalah fungsi berbentuk U, terkecil saat adalah nol
(androughly sama dengan SEM diperkirakan dari CTT), dan meningkatkan seperti yang kita
bergerak towardthe ekstrem (Embretson 1996). Akhirnya, informasi ini dapat digunakan
untuk merancang tes untuk tujuan yang berbeda. Sebagai contoh, dalam ujian kualifikasi, di
mana seseorang baik melampaui titik potong dan melewati, atau berada di bawah dan gagal,
skor sebenarnya tidak begitu penting. Dengan demikian, barang yang bisa dipilih yang
memiliki nilai informasi tinggi dekat titik potong, sehingga tes yang sangat efisien Setelah
mengatakan bahwa, seringkali berguna untuk memiliki indeks yang berlaku untuk skala
secara keseluruhan. Hal ini diberikan oleh Orang Pemisahan Index, R, yang analog dengan
Alpha Cronbach. Hal ini didefinisikan sebagai
di mana istilah kesalahan, , adalah kesalahan kuadrat rata-rata perkiraan orang,

menyimpulkan
menemukan orang-orang.
menyamakan tes
Hal ini dimungkinkan untuk menyamakan instrumen di CTT, dan itu adalah praktek umum
dengan bakat, prestasi, masuk, dan tes tinggi-saham lainnya (lihat, misalnya, Kolen 1988;
Kolen dan Brennan 1995). Hal ini dilakukan agar masyarakat mengambil satu versi skala
tidak dirugikan jika versi paralel sedikit kurang sulit; pada dasarnya, linier transformasi
ditemukan sehingga nilai pada satu versi dapat disamakan dengan nilai pada versi lain. Hal
ini juga sangat berguna dalam pengukuran kesehatan bila berbeda skala yang digunakan
untuk mengukur atribut yang sama, seperti kualitas hidup atau depresi.
Dalam Bab 7, kami menguraikan beberapa teknik sederhana yang dapat digunakan, seperti
mengubah skor mentah menjadi skor deviasi (z-ORT-nilai). Namun, pendekatan ini
didasarkan pada sejumlah asumsi, seperti normalitas distribusi dan selang Sifat tingkat skor;
asumsi yang jarang bertemu.
IRT menyediakan metode lain untuk menyamakan tes. Namun, beberapa peringatan yang
diperlukan sebelum membahas beberapa rincian. Sebenarnya, tes menyamakan di IRT
(sebagai di CTT) dirancang untuk bentuk paralel tes yang sama. Ini harus notbe digunakan
jika timbangan sangat berbeda sehubungan dengan konten mereka, kesulitan, atau keandalan;
ada metode menyamakan bekerja dengan baik jika timbangan yang berbeda dalam setiap
aspek (Cook and Eignor 1991). Dua tes dianggap disamakan jika: (1) mereka berdua
mengukur atribut yang sama, (2) konversi dari satu ke yang lain adalah independen dari
kelompok yang digunakan untuk memperoleh skor baku, (3) tes yang dipertukarkan setelah
konversi, dan (4) skala baik dapat digunakan sebagai pembanding (Angoff 1984).
Penggunaan lain dari teknik ini di IRT adalah untuk menciptakan bank yang anitem, di mana
barang-barang dari sejumlah timbangan disamakan dan dikalibrasi sehingga mereka dapat
ditempatkan pada satu kontinum. Sebagai contoh, McHorney dan Cohen (2000)
menggunakan item status fungsional dari 75 kegiatan yang berbeda dari instrumen hidup
sehari-hari. Sebagai hasil dari latihan ini, mereka mampu mengidentifikasi item yang
berlebihan, karena mereka memiliki setara item yang kesulitan dan parameter diskriminasi,
dan untuk menentukan bahwa ada sangat sedikit item di semua timbangan yang akan
dianggap sangat sulit. Selain itu, sekarang mungkin bagi orang lain untuk menyesuaikan
skala untuk kelompok tertentu, dengan memilih item yang erat dengan kekacauan dan
rentang kegiatan kontinum hidup sehari-hari.
Namun, ada biaya yang berat terkait dengan prosedur ini. McHorney dan Cohen meratapi
kenyataan bahwa mereka bisa mendapatkan 'hanya' 2.306 kuesioner yang dapat digunakan;
sebuah 'sampel analitik lebih kecil dari yang diinginkan' (hal. S44), dan kepedulian mereka
tidak berdasar. Kolen dan Brennan (1995) merekomendasikan minimal 400 subjek untuk
1PLM, dan sekitar 1.500 untuk 3PLM, tapi ini adalah ukuran sampel untuk setiap form;
seperti yang akan kita lihat, ini nomor direkomendasikan sering harus dua kali lipat.
Karena kita membayangkan bahwa relatif sedikit pembaca buku ini akan memiliki baik
kebutuhan atau sumber daya untuk melakukan menyamakan diri mereka sendiri, kami akan
menjelaskan teknik hanya sebentar.
Mereka yang memerlukan informasi lebih lanjut diarahkan ke Kolen dan Brennan (1995) dan
Masak dan Eignor (1991).
Metode paling sederhana untuk menyamakan adalah desain kelompok tunggal: semua mata
pelajaran yang diberikan semua item. Ini mungkin tidak layak, meskipun, jika jumlah item
menjadi berat, atau jika individu timbangan dimaksudkan untuk digunakan dengan kelompok
yang berbeda. Itu Masalah pertama dapat diselesaikan dengan desain kelompok acak, di mana
dua atau lebih kelompok setara diberikan berbagai bentuk tes. Masalah kedua (serta pertama)
dapat ditangani dengan menggunakan desain jangkar tes. Di sini, kelompok, yang perlu tidak
setara, diberi bentuk yang terpisah, tapi ada blok item yang mereka berdua menerima-tes
jangkar. Ini kolam kecil item kemudian digunakan untuk menurunkan persamaan yang
menyamakan item. Dengan dua desain terakhir, meskipun, kita membayar harga perlu dua
kali ukuran sampel.
ukuran sampel
Meskipun kami telah membahas kedua 'sederhana' Model Rasch dan lebih kompleks 2- dan
3PLMs dalam pasal yang sama, mereka berbeda jauh sehubungan dengan sampel-size
persyaratan. Untuk model Rasch, Linacre (1994) dan Wright dan Tennant (1996) menyatakan
bahwa, menjadi 95 persen yakin bahwa tidak ada nilai kalibrasi butir (b) lebih dari 1 logit
dari nilai stabil, 30 mata pelajaran yang diperlukan; dan sekitar 100 subyek dibutuhkan untuk
1/2 logit. Namun, karena jumlah parameter meningkat, dan ketika kita bergerak dari
dikotomis item polytomous, sampel persyaratan ukuran peningkatan cepat. Embretson dan
Reise (2000) menyatakan bahwa 'beberapa parameter ambang batas kategori tidak baik
diperkirakan GRM dengan 350 peserta ujian (p 123.); dan Reise dan Yu (1990)
merekomendasikan 500 responden untuk GRM dengan tes 25-item; lagi kuesioner mungkin
memerlukan ukuran sampel yang lebih besar. Seperti CTT, semua yang kita miliki adalah
rekomendasi berdasarkan pengalaman dan simulasi. Kami (tentatif) saran pada saat ini
adalah:
1. Untuk 1PLM dengan pilihan respon dikotomis, persyaratan minimum adalah 30 mata
pelajaran.
2. Semakin banyak parameter yang diperkirakan, semakin besar ukuran sampel yang
dibutuhkan.
3. Dengan GRM dan 2 dan 3PLMs, bertujuan untuk minimal 500 orang.
4. halus diskriminasi antara orang-orang yang ingin Anda buat, semakin banyak mata
pelajaran diperlukan untuk menurunkan skala. Mokken skala Jatuh di suatu tempat antara
Guttman scaling, yang dibahas dalam Bab 4, dan IRT adalah teknik yang disebut analisis
skala Mokken (MSA). Skala Guttman sempurna membebankan kriteria yang cukup ketat
pada pola jawaban, bahwa seseorang yang merespon positif diberikan itemmustalso
merespon positif item terlalu sulit; dan jika item mencetak negatif, maka semua itemsmustbe
lebih sulit menjawab negatif juga. Artinya, Guttman skala isdeterministic; respon terhadap
satu item memprediksi respon terhadap semua item terlalu sulit. MSA (Mokken 1971;
Mokken dan Lewis 1982) melemaskan kriteria ini, sehingga menjawab secara positif satu
item meningkatkan theprobability menjawab item kurang sulit dengan cara yang sama, tanpa
mengenai pembalikan sebagai kesalahan dalam skala, seperti halnya dengan skala Guttman.
Kedua jenis skala menganggap bahwa sifat yang mendasari diukur dengan satu set item
hirarkis yang dapat dipesan oleh item kesulitan. Dengan demikian, skor seseorang hanyalah
jumlah tanggapan positif, atau pangkat item tertinggi di hirarki. MSA juga berbagi asumsi
dengan model Rasch; khususnya, unidimensionality, kemandirian lokal, dan monoton non-
penurunan fungsi respon butir (IRFs). Di mana mereka berpisah adalah bahwa semua model
IRT yang parametrik, dalam mereka menganggap bahwa IRFs mengikuti fungsi logistik,
sedangkan MSA adalah non-parametrik Teknik (atau, lebih tepatnya, satu set teknik).
Ada dua versi dari MSA: the monoton Homogenitas (MH) dan Double Monoton (DM)
model. Model MH mengasumsikan bahwa IRFs yang monoton menurun, tetapi bentuk kurva
respon dapat berbeda dari satu item ke yang berikutnya.
Dengan demikian, model MH adalah setara non-parametrik dari 2PLM di IRT. DM Model
membuat asumsi tambahan bahwa IRFs tidak berpotongan. ini berarti bahwa kurva semua
memiliki kemiringan yang sama, dan begitu juga rekan non-parametrik yang 1PLM (van
Schuur 2003).
Mokken scaling lebih jarang digunakan dibandingkan IRT. Salah satu alasannya adalah
bahwa, karena IRF tidak didefinisikan parametrically, parameter orang yang keluar dari IRT
tidak dapat diperkirakan di MSA (Sijtsma dan Verweij 1992). Juga, beberapa
mempertanyakan apakah prosedur skala yang digunakan mengakibatkan hasil yang jelas (mis
Roskam et al. 1986). Namun, hal itu tetap menjadi alternatif untuk IRT, terutama ketika
jumlah item dalam skala rendah. Jika Anda ingin mempelajari lebih lanjut, Anda harus
membaca Sijtsma dan Molenaar (2002).
Keuntungan IRT memiliki banyak keuntungan dibandingkan CTT, yang keduanya teoritis dan
praktis. Di sisi teoritis, yang utama adalah bahwa tidak ada kebutuhan untuk bermain 'mari
kita berpura-pura bahwa apa benar-benar skala ordinal dapat diperlakukan seolah-olah itu
adalah selang; skala yang muncul dari analisis IRT yang benar-benar memiliki sifat interval
tingkat. Akibatnya, bergerak dari skor 2-1 logits pada skala nyeri akan mewakili jarak yang
sama seperti berubah dari 0 ke -1. Karena banyak dari model matematika dari perubahan
yang dijelaskan dalam Bab 11 mengasumsikan bahwa skala adalah Interval (yaitu nilai
perbedaan yang konstan di berbagai kemungkinan jawaban), hasilnya lebih mungkin berlaku.
Ini harus mencatat, meskipun, bahwa beberapa penulis, seperti obligasi dan Fox (2007),
berpendapat bahwa skala tingkat Interval hanya berasal dari satu parameter Model Rasch, dan
menambahkan dua parameter lain menghilangkan properti ini.
Keuntungan teoritis kedua adalah bahwa IRT memberikan perkiraan yang lebih tepat dari
kesalahan pengukuran. Dalam CTT, seperti yang kita bahas, ada satu nilai untuk keandalan
dan merespon positif diberikan itemmustalso merespon positif item terlalu sulit; dan jika item
mencetak negatif, maka semua itemsmustbe lebih sulit menjawab negatif juga. Artinya,
Guttman skala isdeterministic; respon terhadap satu item memprediksi respon terhadap semua
item terlalu sulit. MSA (Mokken 1971; Mokken dan Lewis 1982) melemaskan kriteria ini,
sehingga menjawab secara positif satu item meningkatkan theprobability menjawab item
kurang sulit dengan cara yang sama, tanpa mengenai pembalikan sebagai kesalahan dalam
skala, seperti halnya dengan skala Guttman. Kedua jenis skala menganggap bahwa sifat yang
mendasari diukur dengan satu set item hirarkis yang dapat dipesan oleh item kesulitan.
Dengan demikian, skor seseorang hanyalah jumlah tanggapan positif, atau pangkat item
tertinggi di hirarki.
MSA juga berbagi asumsi dengan model Rasch; khususnya, unidimensionality, kemandirian
lokal, dan monoton non-penurunan fungsi respon butir (IRFs). Di mana mereka berpisah
adalah bahwa semua model IRT yang parametrik, dalam mereka menganggap bahwa IRFs
mengikuti fungsi logistik, sedangkan MSA adalah non-parametrik Teknik (atau, lebih
tepatnya, satu set teknik). Ada dua versi dari MSA: the monoton Homogenitas (MH) dan
Double Monoton (DM) model. Model MH mengasumsikan bahwa IRFs yang monoton
menurun, tetapi bentuk kurva respon dapat berbeda dari satu item ke yang berikutnya.
Schuur 2003).
Mokken scaling lebih jarang digunakan dibandingkan IRT. Salah satu alasannya adalah
bahwa, karena
IRF tidak didefinisikan parametrically, parameter orang yang keluar dari IRT tidak dapat
diperkirakan di MSA (Sijtsma dan Verweij 1992). Juga, beberapa mempertanyakan apakah
prosedur skala yang digunakan mengakibatkan hasil yang jelas (mis Roskam et al. 1986).
Namun, hal itu tetap menjadi alternatif untuk IRT, terutama ketika jumlah item dalam skala
rendah. Jika Anda ingin mempelajari lebih lanjut, Anda harus membaca Sijtsma dan
Molenaar (2002).
yang dijelaskan dalam Bab 11 mengasumsikan bahwa skala adalah Interval (yaitu nilai
perbedaan yang konstan di berbagai kemungkinan jawaban), hasilnya lebih mungkin berlaku.
Ini harus mencatat, meskipun, bahwa beberapa penulis, seperti obligasi dan Fox (2007),
berpendapat bahwa skala tingkat Interval hanya berasal dari satu parameter Model Rasch, dan
menambahkan dua parameter lain menghilangkan properti ini.
dan merespon positif diberikan itemmustalso merespon positif item terlalu sulit; dan jika item
mencetak negatif, maka semua itemsmustbe lebih sulit menjawab negatif juga. Artinya,
Guttman skala isdeterministic; respon terhadap satu item memprediksi respon terhadap semua
item terlalu sulit. MSA (Mokken 1971; Mokken dan Lewis 1982) melemaskan kriteria ini,
sehingga menjawab secara positif satu item meningkatkan theprobability menjawab item
kurang sulit dengan cara yang sama, tanpa mengenai pembalikan sebagai kesalahan dalam
skala, seperti halnya dengan skala Guttman. Kedua jenis skala menganggap bahwa sifat yang
mendasari diukur dengan satu set item hirarkis yang dapat dipesan oleh item kesulitan.
Dengan demikian, skor seseorang hanyalah jumlah tanggapan positif, atau pangkat item
tertinggi di hirarki. MSA juga berbagi asumsi dengan model Rasch; khususnya,
unidimensionality, kemandirian lokal, dan monoton non-penurunan fungsi respon butir
(IRFs). Di mana mereka berpisah adalah bahwa semua model IRT yang parametrik, dalam
mereka menganggap bahwa IRFs mengikuti fungsi logistik, sedangkan MSA adalah non-
parametrik Teknik (atau, lebih tepatnya, satu set teknik).
Ada dua versi dari MSA: the monoton Homogenitas (MH) dan Double Monoton (DM)
model. Model MH mengasumsikan bahwa IRFs yang monoton menurun, tetapi bentuk kurva
respon dapat berbeda dari satu item ke yang berikutnya.
Schuur 2003). Mokken scaling lebih jarang digunakan dibandingkan IRT. Salah satu
alasannya adalah bahwa, karena IRF tidak didefinisikan parametrically, parameter orang yang
keluar dari IRT tidak dapat diperkirakan di MSA (Sijtsma dan Verweij 1992). Juga, beberapa
mempertanyakan apakah prosedur skala yang digunakan mengakibatkan hasil yang jelas (mis
Roskam et al. 1986). Namun, hal itu tetap menjadi alternatif untuk IRT, terutama ketika
jumlah item dalam skala rendah. Jika Anda ingin mempelajari lebih lanjut, Anda harus
membaca Sijtsma dan Molenaar (2002).
yang dijelaskan dalam
Bab 11 mengasumsikan bahwa skala adalah Interval (yaitu nilai perbedaan yang konstan di
berbagai kemungkinan jawaban), hasilnya lebih mungkin berlaku. Ini harus mencatat,
meskipun, bahwa beberapa penulis, seperti obligasi dan Fox (2007), berpendapat bahwa skala
tingkat Interval hanya berasal dari satu parameter Model Rasch, dan menambahkan dua
parameter lain menghilangkan properti ini.
dan
SEM, yang kemudian berkaitan dengan semua responden, terlepas dari mana mereka jatuh
pada
skala. IRT lebih realistis, bahwa nilai-nilai ini bervariasi, tergantung pada berapa skor
responden adalah. Karena kebanyakan orang jatuh dalam kisaran tengah, skor dengan
perantara
nilai diperkirakan lebih akurat daripada di dua ekstrem.
Di sisi praktis, keuntungan utama adalah bahwa IRT memungkinkan pengukuran tes bebas;
yaitu, orang dapat dibandingkan pada sifat atau atribut bahkan jika mereka mengambil benar-
benar
item yang berbeda! Asumsikan bahwa kami telah mengembangkan tes mobilitas fisik dengan
menggunakan IRT,
dan telah diturunkan skala 30-item yang membentang berkisar dari imobilitas lengkap pada
low end, untuk dibatasi, gerakan bebas rasa sakit di bagian atas. Item ini dapat dianggap
sebagai terdiri skala Guttman-memerintahkan; menanggapi positif ke item kedelapan,
misalnya, berarti bahwa orang tersebut harus merespon positif sebelumnya
tujuh. Sebaliknya, jika seseorang menjawab ke arah negatif ke item 15, maka ia atau
dia tidak akan menjawab positif terhadap item apapun di atas angka 15. Mengetahui hal ini,
kita lakukan
tidak perlu memberikan semua item ke semua orang hanya barang-barang yang
mengangkang titik
di mana orang beralih dari menjawab dalam satu arah untuk menjawab yang lain.
Titik yang menempatkan orang pada titik tertentu pada kontinum mobilitas; dan
Titik dapat dibandingkan secara langsung dengan salah satu dari orang lain, yang diberi
berbeda
subset dari item. Pada kenyataannya, karena lereng item kurva karakteristik yang
tidak pernah sempurna vertikal, sejumlah barang yang mencakup titik kritis harus digunakan.
Bentuk pemerintahan telah menerima aplikasi terluas di prestasi
pengujian. Banyak tes yang dikembangkan selama tiga dekade terakhir, seperti versi revisi
dari Prestasi Beragam Test (Wilkinson 1993), Key matematika Diagnostik
Aritmatika Test (Connolly et al. 1976), dan Tes Woodcock Reading Mastery
(Woodcock 1987) telah menggunakannya, sehingga orang-orang pada tingkat yang berbeda
dapat diberikan item yang berbeda, namun ditempatkan pada skala yang sama di akhir. Ini
berarti bahwa orang dengan
kurang dari sifat (misalnya kemampuan ejaan) tidak frustrasi dengan diberi sejumlah besar
item yang berada di luar kemampuan mereka; atau orang-orang dengan lebih dari sifat bosan
dengan
harus mengeja kata-kata yang sangat mudah seperti 'kucing' atau 'berlari'. Selain mengurangi
frustrasi,
itu juga mengurangi waktu pengujian, karena calon tidak menghabiskan banyak waktu di
item yang sepele atau di luar kemampuan mereka. Ini 'adaptif' atau 'disesuaikan' pengujian
tidak
tergantung pada IRT (misalnya tes kecerdasan Wechsler tidak dikembangkan menggunakan
IRT,
tapi menggunakan gelar pengujian adaptif), tetapi sangat difasilitasi oleh itu.
Salah satu kekhawatiran yang mungkin diajukan adalah bahwa subtes dipersingkat akan
memiliki jauh lebih besar
SEM dan keandalan rendah dari seluruh tes, dan ini akan menjadi kenyataan di CTT. Namun,
di IRT, SEM tergantung semata-mata pada kemungkinan mendukung item di diberikan
Nilai of, sehingga tes singkat dapat diandalkan, atau bahkan lebih dapat diandalkan, dari
yang lama
(Embretson 1996; Embretson dan Reise 2000). Alasan lain adalah bahwa, di CTT, yang
asumsi adalah bahwa semua item berasal dari kolam renang umum, sehingga Spearman-
Brown
rumus nubuatan, dibahas dalam Bab 5, berlaku meningkat jumlah item
meningkatkan keandalan tes itu. Namun, dalam pengujian adaptif, item yang disajikan
disesuaikan dengan tingkat kemampuan seseorang, dan orang-orang yang terlalu ekstrim
untuk orang yang
tidak diberikan (Embretson 1996).
Keuntungan praktis kedua IRT adalah bahwa, di CTT, biasanya tidak diinginkan untuk
memiliki item dengan pilihan respon yang berbeda dalam skala yang sama (misalnya
pencampuran Benar / Salah
item dengan 5 dan 7 tingkat skala Likert) karena ini mengarah ke item berkontribusi
berbeda-beda dengan skor total, hanya karena skema penjawab. Ini bukan
masalah menggunakan IRT, karena berat ditugaskan untuk setiap item adalah fungsi dari
tingkat kesulitannya, bukan jawaban baku. Hal ini memberikan desainer tes fleksibilitas yang
lebih besar dalam
ungkapan pertanyaan, daripada solusi Procrustean biasa memaksa semua item
ke dalam format yang sama.
kekurangan
Mengingat banyak keuntungan praktis dan teoritis IRT, pertanyaannya bisa
mengangkat mengapa digunakan begitu luas dalam bakat dan pengujian prestasi, tetapi jarang
digunakan
untuk mengukur sikap, sifat, kualitas hidup, dan daerah lainnya disadap oleh buku ini.
Bahkan, Reise (2003) menemukan bahwa lebih dari 57 persen dari artikel di dua jurnal
terkemuka
yang fokus pada inovasi dalam psikometri (theJournal Pengukuran Pendidikan
dan Terapan Psikologi Pengukuran) terlibat IRT, tapi kurang dari 4 persen dari
artikel di dua jurnal berorientasi skala-sama bergengsi (Journal of Personality
Penilaian dan Penilaian Psikologis) lakukan.
Salah satu alasannya adalah bahwa, dengan ukuran sampel yang besar umumnya ditemukan
dalam mengembangkan tes pendidikan, perbedaan antara skala dibangun dengan IRT dan
CTT yang sepele.
Fan (1998), misalnya, menemukan bahwa korelasi antara parametersa, b, dan
berasal dari IRT, dan nilai-nilai setara RPB, p, dan skor T berasal dari
CTT berada di 0.80s tinggi dan 0.90s. Selanjutnya, seperti yang disebutkan sebelumnya, tidak
ada
versi tes kecerdasan banyak digunakan dikembangkan oleh Wechsler dikembangkan
menggunakan IRT, belum ada satu dalam komunitas psikometri menantang validitas mereka,
dan skala IQ yang dihasilkan dari mereka yang paling sering dianggap selang satu.
Kedua, salah satu keuntungan yang diklaim sebagai IRT itu dosa ceproperty varian; yaitu,
item yang
karakteristik yang independen dari sampel dari mana mereka berasal. ini memiliki
ditampilkan pada tingkat teoretis (misalnya Hambleton dan Swaminathan 1985), tapi Fan
(1998) menyatakan bahwa 'keunggulan IRT atas CTT dalam hal ini telah diambil untuk
diberikan oleh masyarakat pengukuran, dan tidak ada pengawasan empiris telah dianggap
diperlukan '(hal. 361). Bahkan, sejumlah studi telah menemukan perbedaan yang relatif besar
dari satu populasi atau tes kondisi yang lain, menunjukkan invariance yang tidak
terus (misalnya Masak et al 1988;. Miller dan Linn 1988). Salah satu alasan yang mungkin
untuk perbedaan pendapat mengenai invarian karakteristik barang mungkin harus melakukan
dengan
populasi yang diteliti. IRT dikembangkan dalam konteks tes pendidikan, di mana
populasi yang dinilai relatif homogen. Cella dan Chang (2000) menunjukkan bahwa populasi
klinis yang lebih heterogen, sehingga isu-isu seperti konteks,
urutan pertanyaan, dan sifat sampel tertentu dapat mempengaruhi item
parameter. Ini masih merupakan pertanyaan terbuka.
Alasan ketiga yang IRT tidak seperti yang banyak digunakan adalah yang asumsi 'keras' dari
unidimensionality. Salah satu implikasi dari hal ini adalah bahwa IRT tidak dapat digunakan
untuk membangun
indeks, di mana barang-barang yang kausal bukan indikator efek (ini dibahas
dalam Bab 5: "Ketika homogenitas tidak masalah '). Dengan demikian, hal itu akan salah
untuk
menggunakan IRT untuk membangun indeks kualitas hidup, daftar periksa gejala, dan alat-
alat lainnya
di mana barang-barang itu sendiri mendefinisikan konstruk, bukannya manifestasi
suatu sifat laten yang mendasari. Implikasi kedua adalah bahwa IRT tidak dapat digunakan
saat
konstruk yang mendasari itu sendiri beragam dan kompleks, seperti banyak di
bidang kesehatan. Sebagai contoh, Koksal dan Power (1990) mendalilkan bahwa kecemasan
terdiri
dari empat komponen-afektif, perilaku, kognitif, dan somatik-mana Antony
(2001) menyatakan dapat beroperasi secara independen satu sama lain. Meskipun IRT dapat
digunakan
untuk membuat empat sub-skala, tidak dapat digunakan dalam kasus ini untuk membuat skala
kecemasan 'global'.
Keempat, pengujian adaptif masuk akal ketika, seperti bakat, prestasi, dan
tes penerimaan, ada kolam yang sangat besar item, dan tidak praktis untuk mengelola
mereka semua untuk setiap orang. Namun, sebagian besar skala yang digunakan dalam
kepribadian dan terkait kesehatan
daerah yang relatif singkat, yang terdiri dari 20 atau 30 item paling banyak, sehingga ada
sedikit
keuntungan adalah menggunakan tes adaptif atau disesuaikan. Akhirnya, sebagai Reise
(2003) menunjukkan, pengujian
dalam bidang ini tidak berada di bawah pengawasan publik dan hukum dekat tentang
keadilan
dan validitas yang ada (setidaknya di Amerika Serikat) di alam prestasi dan
pengujian bakat, sehingga ada sedikit tekanan untuk mengembangkan skala yang memenuhi
lebih ketat
tuntutan psikometrik IRT.
program komputer
Ketika bab ini pertama kali ditulis, ada relatif sedikit program komputer
yang bisa menangani model IRT. Sekarang, ada proliferasi dari mereka, terutama untuk
yang 1PLM. Mungkin yang paling populer adalah RUMM untuk model Rasch polytomous
(Sheridan et al 1996.); Bilog (Mislevy dan Bock 1990), yang dapat menangani hingga
Model tiga parameter untuk data dikotomi; perpanjangan itu, disebut PARSCALE
(Muraki dan Bock 1993) untuk item polytomous; dan MULTILOG (Thissen 1991), untuk
sampai tiga parameter dan data dikotomi atau polytomous. Panduan untuk ini dan
lain dari program yang lebih populer dapat ditemukan di Embretson dan Reise (2000) dan
Obligasi dan Fox (2007). Macro juga telah dikembangkan untuk digunakan secara luas paket
perangkat lunak statistik seperti SAS (<http://www2.sas.com/proceedings/sugi30/204-
30.pdf>).
FURTHER READING
Allen, M.J. and Yen, W.M.(1979).Introduction to measurement theory. Wadsworth, Belmont,
CA.
Bejar, I.I. (1983). Achievement testing. Sage, Beverly Hills, CA.
Bond, T.G. and Fox, C.M.(2007).Applying the Rasch model: Fundamental measurement in
the
human sciences(2nd edn). Routledge, New York.
Crocker, L. and Algina, J.(2006).Introduction to classical and modern test theory.Wadsworth,
Belmont, CA.
Embretson, S.E. and Reise, S.P.(2000).Item response theory for psychologists. Lawrence
Erlbaum
Associates, Mahwah, NJ.
Hambleton, R.K. (ed.)(1983). Applications of item response theory. Educational Research
Institute of British Columbia, Vancouver.
Lord, F.M.(1980).Application of item response theory to practical testing problems. Erlbaum,
Hillsdale, NJ.
Traub, R.E. and Wolfe, R.G.(1981). Latent trait theories and assessment of educational
achievement. InReview of research in education 9(ed. D.C. Berliner), pp. 377435. American
Educational Research Association, Washington, DC.
REFERENCES
Angoff, W.H.(1984). Scales, norms, and equivalent scores. Educational Testing Service,
Princeton, NJ.
Birnbaum, A.(1968). Some latent trait models and their use in inferring an examinees ability.
InStatistical theories of mental test scores(ed. F.M. Lord and M.R. Novick), pp. 397479.
Addison-Wesley, Reading, MA.
Bond, T.G. and Fox, C.M.(2007).Applying the Rasch model: Fundamental measurement in
the
human sciences(2nd edn). Routledge, New York
Carmines, E.G. and Zeller, R.A.(1979).Reliability and validity assessment. Sage, Beverly
Hills,
CA.
Cella, D. andChang, C.-H. (2000). A discussion of item response theory and its applications
in
health status assessments.Medical Care,38(Suppl. II), S66S72.
Choppin, B.H.(1976). Recent developments in item banking. InAdvances in psychological
and
educational measurement (ed. D.N.M. De Gruitjer and L.J. van der Kamp), pp. 23345.
Wiley, New York.
Connolly, A.J., Nachtman, W., and Pritchett, E.M.(1976).Keymath Diagnostic Arithmetic
Test.
American Guidance Service, Circle Pines, MN.
Cook, L.L., Eignor, D.R., and Taft, H.L.(1988). A comparative study of the effects of recency
of instruction on the stability of IRT and conventional item parameter estimates.Journal of
Educational Measurement, 25, 3145.
Cook, L.L. and Eignor, D.R. (1991). IRT equating methods. Instructional Topics in
Educational Measurement, Module 10. Available at: <http://www.ncme.org/http://ncme.org/
publications/items/>.
Embretson, S.E.(1996). The new rules of measurement.Psychological Assessment,8, 3419.
Embretson, S.E. and Reise, S.P.(2000).Item response theory for psychologists. Lawrence
Erlbaum
Associates, Mahwah, NJ.
Fan, X.(1998). Item response theory and classical test theory: An empirical comparison of
their
item/person statistics.Educational and Psychological Measurement, 58, 35781.
Franke, G.H.(1997). The whole is more than the sum of its parts: The effects of grouping
and randomizing items on the reliability and validity of questionnaires.European Journal of
Psychological Assessment, 13, 6774.
Hambleton, R.K. and Swaminathan, H.(1985).Item response theory: Principles and
applications. Kluwer Nijhoff, Boston, MA.
Hambleton, R.K., Swaminathan, H., and Rogers, H.J.(1991).Fundamentals of item response
theory. Sage, Newbury Park, NJ.
Hattie, J.(1985). Assessing unidimensionality of tests and items. Applied Psychological
Measurement, 9, 13964.
Hill, C.D., Edwards, M.C., Thissen, D., Langer, M.M., Wirth, R.J., Burwinkle, T.M., et al.
(2007). Practical issues in the application of item response theory: A demonstration using
items from the Pediatric Quality of Life Inventory (PedsQL) 4.0 Generic Core scale.Medical
Care,45(Suppl. 1), S39S47.
Koksal, F. and Power, K.G.(1990). Four systems anxiety questionnaire (FSAQ): A self-report
measure of somatic, cognitive, behavioral, and feeling components.Journal of Personality
Assessment,54, 53445.
Kolen, M.J.(1988). Traditional equating methodology.Educational Measurement: Issues and
Practice, 7, 2936.
302 ITEM RESPONSE THEORY
Kolen, M.J. and Brennan, R.L.(1995). Test equating: Methods and practices. Springer,
New York.
Lang, P.J.(1971). The application of psychophysiological methods. InHandbook of
psychotherapy and behavior change(ed. S. Garfield and A. Bergin), pp. 75125. Wiley, New
York.
Linacre, J.M. (1994). Sample size and item calibration stability. Rasch Measurement
Transactions,7, 328. Available at: <http://www.rasch.org/rmt/rmt74m.htm>.
Lord, F.M.(1980).Application of item response theory to practical testing problems. Erlbaum,
Hillsdale, NJ.
Lord, F.M. and Novick, M.N.(1968).Statistical theories of mental test development. Addison
Wesley, Reading, MA.
Lumsden, J.(1957). A factorial approach to unidimensionality.Australian Journal of
Psychology,
9, 10511.
Lumsden, J.(1961). The construction of unidimensional tests.Psychological Bulletin,58, 122
31.
McHorney, C.A. and Cohen, A.S.(2000). Equating health status measures with item response
theory.Medical Care, 38(Suppl. II), S43S59.
Micceri, T.(1989). The unicorn, the normal curve, and other improbable creatures.
Psychological Bulletin, 105, 15666.
Miller, M.D. and Linn, R.L.(1988). Invariance of item characteristic functions with variations
in instructional coverage.Journal of Educational Measurement, 25, 20519.
Mislevy, R.J. and Bock, R.D.(1990).BILOG3: Item analysis and test scoring with binary
logistic
models. Scientific Software, Mooresville, IN.
Mokken, R.J.(1971).Theory and procedure of scale analysis. Mouton, The Hague.
Mokken, R.J. and Lewis, C.(1982). A nonparametric approach to the analysis of dichotomous
item responses.Applied Psychological Measurement, 6, 41730.
Muraki, E. and Bock, R.D.(1993). PARSCALE: IRT based test scoring and item analysis for
graded open-ended exercises and performance tasks. Scientific Software Int., Chicago, IL.
Norman, G.R. and Streiner, D.L.(2014).Biostatistics: The bare essentials(4th edn). PMPH
USA,
Shelton, CT.
Panter, A.T., Swygert, K.A., Dahlstrom, W.G., and Tanaka, J.S.(1997). Factor analytic
approaches to personality item-level data.Journal of Personality Assessment, 68, 56189.
Rasch, G.(1960).Probabilistic models for some intelligence and attainment tests. Nielson and
Lydiche, Copenhagen.
Reckase, M.D.(1979). Unifactor latent trait models applied to multifactor tests: Results and
implications.Journal of Educational Statistics,4, 20730.
Reise, S.P. and Henson, J.M.(2003). A discussion of modern versus traditional psychometrics
as applied to personality assessment scales.Journal of Personality Assessment, 81, 93103.
Reise, S.P. and Haviland, M.G.(2005). Item response theory and the measurement of clinical
change.Journal of Personality Assessment, 84, 22838.
Reise, S.P. and Yu, J.(1990). Parameter recovery in the graded response model using
MULTILOG.Journal of Educational Measurement,27, 13344.
Roskam, E.E., van den Wollenberg, A.L., and Jansen, P.G.W.(1986). The Mokken scale: A
critical discussion.Applied Psychological Measurement, 10, 26577.
Scott, R.L. and Pampa, W.M.(2000). The MMPI-2 in Peru: A normative study. Journal of
Personality Assessment, 74, 95105.
Shea, J.A., Norcini, J.J., and Webster, G.D.(1988). An application of item response theory
to certifying examinations in internal medicine.Evaluation and the Health Professions, 11,
283305.
COMPUTER PROGRAMS 303
Sheridan, B., Andrich, D., and Luo, G.(1996).Welcome to RUMM: a Windows-based item
analysis program employing Rasch unidimensional measurement models. Users
guide.RUMM
Laboratory, Perth.
Sijtsma, K. and Molenaar, W.(2002).Introduction to nonparametric item response
theory.Sage,
Thousand Oaks, CA.
Sijtsma, K. and Verweij, A.C.(1992). Mokken scale analysis: Theoretical considerations and
an
application to transitivity tasks.Applied Measurement in Education, 5, 35573.
Streiner, D.L., Corna, L., Veldhuizen, S., and Cairney, J.(2005).Anglophone and Francophone
rates of depression: Cultural or language differences? Paper presented at the Canadian
Academy of Psychiatric Epidemiology, Vancouver.
Streiner, D.L. and Miller, H.R.(1986). Can a good short form of the MMPI ever be
developed?
Journal of Clinical Psychology,42, 10913.
Thissen, D.(1991).MULTILOG users guide: Multiple category item analysis and test scoring
using item response theory. Scientific Software Int., Chicago, IL.
Van Schuur, W.H.(2003). Mokken scale analysis: Between the Guttman scale and parametric
item response theory.Political Analysis, 11, 13963.
Wilkinson, G.S.(1993).Wide Range Achievement Test 3 manual. Jastak Associates,
Wilmington,
DE.
Woodcock, R.W.(1987). Woodcock Reading Mastery TestsRevised. American Guidance
Service, Circle Pines, MN.
Wright, B.D.(1977). Solving measurement problems with the Rasch model. Journal of
Educational Measurement, 14, 97116.
Wright, B.D. and Tennant, A.(1996). Sample size again.Rasch Measurement Transactions, 9,
468. Available at: <http://www.rasch.org/rmt/rmt94m.htm>
CHAPTER 13
Metode administrasi
Pengantar metode administrasi

Setelah mengembangkan kuesioner, masalah berikutnya adalah bagaimana untuk mengelola
itu. ini adalah masalah yang tidak hanya mempengaruhi biaya dan tingkat respons tetapi,
seperti akan kita lihat, dapat mempengaruhi pertanyaan-pertanyaan bisa ditanyakan dan
dalam format apa. Empat metode yang umum digunakan untuk mengelola kuesioner adalah:
tatap muka wawancara, melalui telepon, melalui surat, dan semakin, oleh komputer. Sampai
saat ini, pemberian skala oleh komputer terbatas pada responden duduk di kantor peneliti,
menggunakan mesin nya. Sekarang, meskipun, orang tersebut bisa duduk di rumah,
menggunakan internet dan World Wide Web untuk menanggapi survei dan mengisi kuesioner.
Seperti yang akan kita lihat, ini membuka peluang baru serta isu-isu baru yang harus
dihadapi.
Face-to-face interview
Seperti namanya, metode ini melibatkan pewawancara terlatih administrasi skala atau
kuesioner secara satu-ke-satu, baik di kantor atau, lebih biasanya, di rumah subjek. Yang
terakhir Pengaturan berfungsi untuk menempatkan responden nyaman, karena mereka berada
dalam lingkungan yang akrab, dan juga dapat meningkatkan kepatuhan, karena subjek tidak
harus melakukan perjalanan. Namun, rumah wawancara melibatkan biaya yang lebih besar
kepada penyidik dan kemungkinan gangguan, misalnya, dengan telepon atau anggota
keluarga.
keuntungan
Keuntungan dari tatap muka wawancara dimulai bahkan sebelum pertanyaan pertama adalah
tanya-pewawancara pasti yang merespon. Hal ini tidak terjadi dengan telepon atau
administrasi mail, karena siapa pun di rumah tangga dapat menjawab atau memberikan
pendapat kedua untuk responden. Selain itu, harus merespon secara verbal kepada orang lain
mengurangi jumlah item dihilangkan oleh responden: lebih sulit untuk menolak untuk
menjawab dari sekedar untuk menghilangkan item pada formulir (Quine 1985). Face-to-face
wawancara juga memungkinkan komunikasi non-verbal antara kedua belah pihak, yang dapat
memotivasi responden untuk menjawab (Holbrook et al. 2003). Pewawancara juga dapat
menentukan apakah subjek mengalami kesulitan memahami item, apakah karena pemahaman
miskin bahasa, kecerdasan yang terbatas, masalah konsentrasi, atau kebosanan. Selanjutnya,
karena banyak imigran dan orang-orang dengan pendidikan yang terbatas memahami bahasa
lisan lebih baik daripada mereka bisa membacanya, dan membacanya lebih baik daripada
mereka dapat menulis, lebih sedikit orang akan dihilangkan karena masalah ini. Metode ini
administrasi juga memungkinkan pewawancara untuk ulang kata-kata pertanyaan dalam hal
orang tersebut mungkin lebih memahami, atau untuk menyelidiki untuk respon yang lebih
lengkap.
Keuntungan lain adalah fleksibilitas yang diberikan dalam menyajikan item, karena
pertanyaan dalam sebuah wawancara dapat berkisar dari 'tertutup' untuk 'terbuka'. Pertanyaan
tertutup, yang membutuhkan hanya sejumlah sebagai respon, seperti usia seseorang, jumlah
anak, atau tahun tinggal, dapat dibaca dengan subjek. Jika diperlukan untuk responden untuk
memilih antara tiga atau lebih alternatif, atau memberikan respon Likert-jenis, kartu dengan
kemungkinan jawaban bisa (dan kemungkinan besar harus) diberikan kepada orang sehingga
memori tidak akan menjadi faktor. Pertanyaan terbuka dapat digunakan untuk mengumpulkan
informasi tambahan, karena responden biasanya akan memberikan jawaban yang lebih
panjang untuk membuka-berakhir pertanyaan lisan bukan secara tertulis. Hal ini terkadang
bisa menjadi kerugian dengan verbose responden.
Kuesioner rumit mungkin berisi barang-barang yang tidak sesuai untuk semua responden:
pria jangan ditanya berapa banyak kehamilan mereka memiliki; asli lahir orang-orang ketika
mereka berimigrasi; atau orang-orang yang tidak pernah dirawat di rumah sakit ketika mereka
terakhir habis. Pertanyaan-pertanyaan ini dihindari dengan apa yang disebut 'melewatkan
pola': instruksi atau panah menunjukkan kepada orang bahwa ia harus menghilangkan bagian
yang dengan melompati ke bagian selanjutnya dari kuesioner. kecuali mereka sangat hati-hati
dibangun dan worded, melewatkan pola dapat membingungkan untuk beberapa responden-
dan karena itu cenderung untuk mendorong kesalahan-jika mereka harus mengikuti diri ini.
Sebaliknya, pewawancara, karena pelatihan dan pengalaman mereka dalam memberikan
kuesioner berkali-kali, bisa Wend jalan melalui pola melewatkan ini banyak lebih mudah, dan
cenderung melakukan kesalahan. Selain itu, dengan munculnya komputer laptop, urutan
pertanyaan dan pola melompat dapat diprogram untuk menjadi disajikan kepada
pewawancara, sehingga potensi untuk mengajukan pertanyaan yang salah atau
menghilangkan item diminimalkan
kekurangan
Tentu, ada biaya yang terkait dengan semua keunggulan ini, baik dari segi waktu dan uang.
Face-to-face wawancara secara signifikan lebih mahal untuk mengelola daripada metode lain.
Pewawancara harus dilatih, sehingga mereka mengajukan pertanyaan yang sama dengan cara
yang sama, dan menangani kondisi yang tidak biasa sama. Seperti yang tercantum dalam
bagian sebelumnya, salah satu keuntungan dari wawancara tatap muka adalah bahwa
pewawancara dapat kembali frase pertanyaan, jika dia merasa bahwa responden tidak
memahami apa yang diminta. Kebalikan dari ini, meskipun, adalah bahwa tanpa pelatihan
yang memadai, pewawancara mungkin mendistorsi makna pertanyaan. Dalam banyak
penelitian, wawancara acak adalah rekaman-rekaman, untuk memastikan bahwa gaya
pewawancara 'tidak berubah dari waktu ke waktu, bahwa mereka tidak menjadi malas atau
tak terurus, atau tidak terdengar bosan. Ini memerlukan lanjut biaya, untuk tape recorder itu
sendiri, dan untuk saat ini atasan untuk meninjau sesi dan pergi dengan pewawancara. Jika
wawancara relatif singkat, pewawancara bisa tiba tanpa pemberitahuan. ini, meskipun,
mengambil kesempatan bahwa responden adalah di rumah dan bersedia diganggu. Semakin
lama sesi, semakin besar bahaya yang akan terlihat sebagai pemaksaan. Selanjutnya, ada
kecenderungan meningkat bagi orang untuk hidup dalam pengaturan yang membatasi yang
tidak diinginkan atau pengunjung tanpa diundang, seperti masyarakat gated, bangunan
apartemen terkunci, dan rumah pensiun (Tourangeau 2004).
Untuk alasan ini, terutama ketika satu jam atau lebih dari waktu seseorang diperlukan,
yang terbaik adalah untuk mengumumkan kunjungan sebelumnya, memeriksa kesediaan
responden untuk
berpartisipasi dan mengatur waktu yang tepat untuk datang. Persyaratan ini memaksakan
Biaya tambahan menelepon, sering berulang kali, sampai jawaban diperoleh. selanjutnya,
karena banyak orang bekerja pada siang hari, dan hanya wawancara malam yang nyaman,
jumlah kemungkinan wawancara yang bisa dilakukan dalam satu hari mungkin terbatas.
Seberang kesulitan mendapatkan akses ke rumah atau apartemen yang memiliki
prosedur keamanan di tempat ini harus memenuhi responden tidak aman atau tidak sehat
pengaturan, atau sendirian dengan orang-orang yang mungkin berbahaya. Sebagai contoh,
Pada
Rumah proyek / Chez Soi (Goering et al. 2011) melibatkan wawancara tunawisma, orang
sakit mental, beberapa di antaranya telah diberi apartemen. Dalam beberapa kasus,
asisten penelitian terancam, dan dalam kasus lain, ada kemungkinan
kontak dengan tempat tidur bug, kecoa, dan makhluk menyenangkan lainnya. Solusi
termasuk memiliki dua pewawancara hadir jika ada rasa takut bahaya fisik
(yang meningkatkan biaya) atau pertemuan di tempat umum yang masih diberikan beberapa
derajat
privasi. Dalam masalah kasus, keamanan dan kenyamanan untuk akhir pewawancara
up trumping potensi keuntungan memiliki responden merasa nyaman tentang
berpartisipasi dalam wawancara.
Biaya lain yang potensial muncul jika, misalnya, bahasa Inggris bukan bahasa asli untuk
proporsi yang cukup besar dari responden. Tidak hanya harus timbangan dan pertanyaan akan
diterjemahkan ke dalam satu atau lebih bahasa asing (seperti yang akan terjadi, terlepas dari
Format), tetapi bilingual (atau dalam beberapa kasus multibahasa) pewawancara harus
ditemukan. ini
mungkin tidak terlalu sulit jika hanya ada beberapa budaya linguistik utama (misalnya bahasa
Inggris
dan Perancis di Quebec, Spanyol di barat daya Amerika Serikat, Flemish dan Perancis
di Belgia), tapi bisa lebih dari masalah di kota-kota yang menarik banyak imigran dari
negara yang berbeda. Di Toronto, Kanada, misalnya, ada lebih dari 140 bahasa dan
dialek, dan 30 persen dari orang-orang berbicara bahasa lain selain bahasa Inggris atau
Perancis di rumah. Ada lebih banyak bahasa untuk memperhitungkan dan, jika imigrasi
telah baru-baru ini, mungkin ada beberapa orang yang cukup multi atau bilingual yang dapat
dilatih sebagai pewawancara.
Akhirnya, atribut pewawancara dapat mempengaruhi tanggapan yang diberikan. Hal ini dapat
disebabkan oleh dua faktor: bias pewawancara, dan karakteristik sosial atau etnis nya (Weiss
1975). Telah diketahui sejak lama bahwa pewawancara bisa halus
mengkomunikasikan apa jawaban yang mereka ingin dengar, sering tanpa menyadari bahwa
mereka
yang melakukannya (misalnya Beras 1929). Ini adalah lebih mudah dari dua faktor untuk
menangani, karena
hal itu bisa diatasi dengan pelatihan yang memadai (Hyman et al. 1954). Semakin sulit
Masalahnya adalah bahwa perbedaan antara pewawancara dan responden, terutama ras,
juga memiliki efek (Pettigrew 1964; asin 1970). Selama kampanye gubernur di
Amerika Serikat, misalnya, pewawancara telepon putih menemukan bahwa 43,8 persen
dari mereka yang disurvei lebih memilih kandidat Demokrat hitam, sementara pewawancara
hitam menemukan bahwa tingkat nya dukungan adalah 52,2 persen, perbedaan dari 8,4
persen
(Finkel et al. 1991). Interaksi antara ras dirasakan pewawancara
dan karakteristik latar belakang yang diwawancarai bahkan lebih mencolok: antara
Partai Republik, hanya ada 0,5 persen perbedaan, sedangkan tingkat dilaporkan Demokrat '
dukungan meningkat 24,2 persen dengan pewawancara hitam. Di antara mereka yang
dilaporkan diri mereka sebagai 'apolitis', dukungan meningkat dari 16,7 persen menjadi 63,6
persen,
meskipun ukuran sampel untuk kelompok ini adalah kecil. Alasan biasanya diberikan untuk
Fenomena ini termasuk keinginan sosial, menunda untuk preferensi dirasakan
pewawancara karena 'penghormatan antarpribadi', atau 'sopan santun untuk orang asing
sopan'
(Finkel et al. 1991). Seperti yang jelas dari hasil ini dan penelitian lain (misalnya Meislin
1987), ras pewawancara dapat dideteksi relatif akurat melalui telepon, meskipun tidak
diketahui apakah subjek merespon pewawancara '
aksen, pola bicara, infleksi, atau isyarat verbal lainnya.
Pengaruh perbedaan jenis kelamin kurang jelas. Pewawancara wanita biasanya memiliki
lebih sedikit
yang menolak dan tingkat kelulusan lebih tinggi dibandingkan laki-laki (Backstrom dan
Hursh-Cesar 1981;
Hornik 1982), yang sebagian dapat menjelaskan mengapa sebagian besar pewawancara
adalah perempuan
(Colombotos et al. 1968). Tanggapan wanita menimbulkan mungkin berbeda dari orang-
orang
diberikan kepada pewawancara pria, terutama ketika materi seksual sedang dibahas (Hyman
et al. 1954), tetapi juga ketika topik wawancara adalah politik (Hutchinson dan Wegge
1991). Pollner (1998) menemukan bahwa baik pria maupun wanita melaporkan gejala yang
lebih
depresi, penyalahgunaan zat, dan gangguan perilaku untuk pewawancara wanita daripada
laki-laki, dan menyarankan bahwa 'pewawancara wanita dapat menciptakan kondisi yang
lebih kondusif
pengungkapan dan dianggap sebagai lebih simpatik dari pewawancara laki-laki '(hal. 369).
Selain itu, perbedaan dalam tingkat respon tampaknya terjadi lebih dengan diwawancarai
laki-laki dibandingkan dengan perempuan. Meskipun kedua pria dan wanita lebih memilih
pewawancara wanita,
cukup dibayangkan bahwa ada beberapa topik survei yang lebih baik untuk digunakan
pewawancara sesama jenis, seperti studi ketidakmampuan seksual atau sikap terhadap
lawan jenis.
Perbedaan usia antara pewawancara dan yang diwawancarai belum secara ekstensif
dipelajari. Kesimpulan umum, meskipun, adalah bahwa untuk tingkat bahwa adalah mungkin,
dua
harus semirip mungkin, karena kesamaan dirasakan umumnya mengarah ke peningkatan
komunikasi (Hutchinson dan Wegge 1991; Rogers dan Bhowmik 1970).
kuesioner telepon
Sebuah alternatif untuk bertemu dengan mata pelajaran secara pribadi adalah untuk
mewawancarai mereka melalui telepon. Keuntungan utama adalah penghematan yang terjadi
dalam hal waktu dan transportasi,
dan karena uang; dalam satu penelitian di Kanada, wawancara rumah biaya dua kali lipat
sebagai
wawancara telepon (Siemiatycki 1979). Di sisi lain, wawancara telepon yang
sekitar 50% lebih mahal daripada mengirim kuesioner melalui pos, tetapi data datang
lebih cepat melalui telepon (Lannin et al. 2013). Telepon mewawancarai adalah tidak layak
sampai
awal 1970-an, karena hingga akhir tahun 1963, 20 persen rumah di Amerika Serikat
melakukan
tidak memiliki telepon (Thornberry dan Massey 1988). Selain itu, proporsi ini adalah
tidak merata, tapi lebih tinggi di kelas sosial ekonomi rendah. Dengan demikian, setiap
Survei menggunakan buku telepon sebagai kerangka sampling sistematis terwakili orang
miskin. Memang, prediksi yang terkenal pada tahun 1936 oleh theLiterary Digestthat
Alf Landon akan mengalahkan Roosevelt tegas didasarkan sebagian pada sampel yang
diambil dari
direktori telepon (itu juga digunakan daftar registrasi mobil, yang pada waktu itu adalah
bahkan kurang mewakili populasi umum; Pengawal 1988). Sayangnya untuk
lembaga survei, lebih Roosevelt pemilih dari Landon pemilih tidak memiliki telepon (atau
mobil), mengarah ke sampel bias
Situasi telah berubah sejak saat itu, tetapi tidak selalu dalam arah
yang membuatnya lebih mudah bagi peneliti. Di sisi positif, sebagian besar rumah tangga di
Amerika Utara dan Eropa Barat sekarang memiliki telepon. Di Amerika Serikat,
Proporsi telah berkembang dari 80,3 persen pada tahun 1963 menjadi lebih dari 95 persen
pada tahun 2000 (Keeter
1995; Tourangeau 2004); dengan angka yang sebanding untuk Inggris (Nicolaas
dan Lynn 2002). Namun, meskipun, tidak memiliki telepon lebih umum di kalangan orang-
orang
dengan pendapatan rendah (Beerten dan Martin 1999). Smith (1990) menjelaskan mereka
yang tidak
telepon sebagai 'orang luar'; mereka adalah 'luar arus utama ekonomi, dari daerah
dan subkultur rasial, dengan lampiran lemah untuk masyarakat dan proses dan lembaga-
lembaga yang '(hal. 285). Namun, sebaliknya adalah bahwa sejumlah besar orang telah tidak
terdaftar
nomor; hampir 20 persen di Amerika Serikat pada tahun 1975 (Glasser dan Metzger
1975) dan mungkin setinggi 30 persen hari ini (Tourangeau 2004), dengan sebanding
angka di Inggris (Beerten dan Martin 1999). Paradoksnya, meskipun
biaya tambahan yang terlibat dalam memiliki nomor telepon yang tidak terdaftar, mereka
yang
nomor tidak terdaftar cenderung memiliki pendapatan yang lebih rendah daripada populasi
umum (Beerten
dan Martin 1999).
Namun, gambar penggunaan telepon telah berubah secara dramatis dalam dua puluh satu
abad dengan adopsi universal yang dekat ponsel. Sebuah survei yang dilakukan oleh Statistik
Kanada (2006) menemukan bahwa antara pertengahan 2003 dan Desember 2005, jumlah
rumah hanya memiliki ponsel melonjak 1,9-4,8 persen. Di Amerika
Negara, jumlahnya bahkan lebih dramatis. Sebuah survei terbaru 2012 melaporkan bahwa
lebih dari sepertiga dari rumah Amerika hanya telepon nirkabel (Blumberg dan Lukas
2012). Selain itu, distribusi tidak merata di seluruh negara atau demografis
karakteristik. Di antara rumah tangga berpendapatan rendah, 52% persen hanya mobile
telepon, jauh lebih tinggi daripada tingkat kelompok berpenghasilan lebih tinggi (31%).
Mereka yang menyewa apartemen lebih dari dua kali lebih mungkin untuk memiliki hanya
layanan nirkabel (58%) dibandingkan
mereka yang memiliki rumah mereka sendiri (23%). Seperti yang diharapkan, usia juga
faktor; 60% dari orang dewasa berusia 25-29 tidak memiliki sambungan telepon rumah,
dibandingkan dengan hanya 11% bagi mereka
65 dan lebih tua.
Penurunan ini digunakan darat memiliki implikasi untuk survei. Pertama, fakta bahwa banyak
perusahaan ponsel biaya penerima panggilan untuk waktu yang digunakan tidak dapat auger
baik untuk tingkat respons, terutama untuk survei panjang. Kedua, angka random sampel
panggilan (dijelaskan dalam bagian berikutnya) hingga rumah tangga baru dikecualikan
bahwa hanya
tantangan ponsel, dan bahkan sekarang, metodologis, operasional, dan hukum yang ada
yang membuat mereka sulit termasuk. Di Amerika Serikat, misalnya, otomatis
Sistem panggilan telepon secara khusus dilarang menelepon ponsel tanpa
menyatakan persetujuan pengguna. Sementara jumlah mutlak orang terjawab dalam survei
kecil (meskipun mungkin tumbuh), hasil dari Statistik Kanada (2006) dan
Tucker et al. (2007) survei nasional menunjukkan bahwa itu adalah sampel bias, dengan
mereka yang tidak
disebut menjadi lebih muda, lebih mungkin tunggal, kurang berpendidikan, dan tinggal di
apartemen sewaan. Implikasi lain untuk random sampling yang lebih halus. telepon
nomor secara geografis berbasis, yang memungkinkan peneliti untuk membuat perwakilan
sampel mereka dari populasi. Nomor telepon seluler, meskipun, tidak, yang berarti bahwa
pilihan acak nomor ponsel mencerminkan distribusi geografis
pengguna ponsel, yang tidak seragam pada populasi umum. Selain itu, darat paling sering
mewakili sebuah rumah tangga (kecuali, mungkin, jika remaja memiliki mereka
nomor sendiri), sedangkan ponsel mewakili individu. Akhirnya, ada
masalah yang belum terselesaikan kewajiban: jika sopir menjawab telepon genggamnya
untuk menanggapi
Survei dan terlibat dalam kecelakaan mobil, siapa yang salah?
Selama dekade terakhir, teknologi 'muka' baru telah datang antara pewawancara telepon dan
potensi responden: pesan suara. Padahal sebelumnya ini
terbatas pada perangkat yang orang harus membeli dan menginstal, sekarang layanan yang
ditawarkan
oleh banyak perusahaan telepon untuk biaya bulanan, sehingga lebih menarik bagi calon
pengguna. Seperti halnya dengan nomor tidak terdaftar, distribusi mesin penjawab adalah
merata, dengan mereka yang menggunakan mesin penjawab ke layar panggilan yang
terutama muda,
hunian perkotaan, dan memiliki pendapatan yang lebih tinggi daripada populasi umum
(Oldendick
dan Link 1994). Pada tahun 1995, lebih dari setengah dari rumah di Amerika Serikat telah
menjawab
mesin, dan sekitar 40 persen orang mengatakan mereka menggunakan mereka untuk
menyaring panggilan mereka
(Tuckel dan O'Neill 1995).
Namun inovasi baru lainnya adalah 'panggilan display', di mana nomor telepon dan
sering nama pemanggil akan ditampilkan di layar. Karena perusahaan-perusahaan survei
sering menggunakan
nomor bebas pulsa, seperti halnya perusahaan yang menjual minyak ular, jendela baru, dan
'liburan impian' selama waktu makan, mungkin ada kecenderungan orang untuk mengabaikan
ini
panggilan. Sampai saat ini, kami belum menemukan artikel yang telah mempelajari fenomena
ini, tetapi
kita tidak bisa membayangkan bahwa dampaknya terhadap tingkat respon akan apa-apa tapi
negatif.
Salah satu efek dari semua ini teknologi telepon terkait baru, sebagai Dillman (2002)
memiliki
menunjukkan, adalah untuk mengubah hubungan kita dengan telepon. Sebelum pesan suara
dan panggilan
display, itu akan pernah terpikirkan untuk mengabaikan telepon berdering. Ini akan menjadi
ditafsirkan sebagai kasar, dan ada kekhawatiran bahwa penelepon tidak akan mampu
melakukan kontak. Sekarang, bukannya perilaku kita dikendalikan oleh telepon, kami
mengendalikan dan menggunakan pada kenyamanan kami. Salah satu manifestasi dari ini
adalah bahwa tingkat respons
yang mendekati 80 persen pada 1970-an telah dipotong setengah, dengan tidak ada jawaban-
yang
penyebab utama.
Panggilan acak digit
Sebuah teknik telah dikembangkan untuk mengatasi masalah ini dari nomor tidak terdaftar,
calledrandom panggilan digit. Perangkat berbasis komputer memanggil nomor telepon di
random, baik menggunakan semua tujuh digit nomor, atau empat terakhir setelah pertukaran
threedigit telah dipilih oleh peneliti. Perbaikan terakhir ini telah ditambahkan
karena beberapa bursa terutama terdiri dari bisnis, sedangkan yang lain berada
di lingkungan terutama perumahan; di beberapa daerah, 80 persen dari angka tersebut tidak
ditugaskan untuk rumah tangga (Glasser dan Metzger 1972). Pre-memilih pertukaran
memiliki
mengakibatkan peningkatan proporsi rumah tangga yang dicapai dengan teknik ini,
meskipun mungkin masih tidak melebihi 50 persen (Waksberg 1978). Sebuah perbaikan
tambahan didasarkan pada kenyataan bahwa nomor telepon ditugaskan di blok. Setelah
Jumlah aktif telah ditemukan (misalnya 422 / 523-7423), maka '100 bank dari nomor-
mereka yang empat digit terakhir mengandung 74xx-memiliki hampir 65 persen kesempatan
untuk menjadi
bekerja nomor perumahan (Tourangeau 2004).
Salah satu kelemahan dari sampling dengan nomor telepon dan bukan berdasarkan alamat
atau nama
adalah bahwa rumah dengan lebih dari satu telepon memiliki beberapa peluang untuk terpilih
bias mendukung rumah tangga yang lebih makmur. Kerugian lain adalah bahwa, karena
nomor yang dipilih cenderung dekat secara fisik satu sama lain, rumah tangga cenderung
lebih
homogen dibandingkan dengan sampel acak murni. Untuk mengatasi hal ini 'desain efek'
karena
cluster pengacakan, ukuran sampel yang lebih besar (dalam hal ini, yang dihasilkan lebih
acak
nomor telepon) yang diperlukan (Waksberg 1978).
keuntungan
Banyak keuntungan dari tatap muka wawancara juga berkaitan dengan survei telepon.
Ini termasuk:
1. Penurunan jumlah item dihilangkan.
2. Pola Lewati diikuti oleh pewawancara terlatih bukan responden.
3. Pertanyaan terbuka-berakhir dapat ditanyakan.
4. Sebuah sampel yang luas, perwakilan dapat diperoleh.
5. Pewawancara dapat diminta oleh komputer (teknik sering disebut sebagai
CATI, atau telepon dengan bantuan komputer wawancara).
6. Pewawancara dapat menentukan apakah orang tersebut mengalami masalah memahami
bahasa secara umum atau pertanyaan spesifik pada khususnya.
Keuntungan lain dari wawancara telepon adalah bahwa, bahkan ketika orang itu tidak
bersedia untuk berpartisipasi, ia mungkin memberikan beberapa informasi demografis dasar,
seperti
umur, status perkawinan, atau pendidikan. Hal ini memungkinkan peneliti untuk menentukan
apakah ada
bias sistematis di antara mereka yang menolak untuk berpartisipasi dalam penelitian ini.
Selain itu, setidaknya ada tiga bidang di mana telepon bisa lebih baik dibanding
tatap muka wawancara. Pertama, bias yang mungkin disebabkan oleh penampilan
pewawancara, karena faktor-faktor seperti warna kulit atau cacat fisik, dihilangkan.
Namun, salah satu karakteristik pewawancara yang tidak bisa disembunyikan oleh telepon
gender. Ada beberapa bukti bahwa pewawancara laki-laki memperoleh respon yang lebih
feminis dari
perempuan dan jawaban lebih konservatif dari orang daripada pewawancara wanita; dan
laporan lebih optimis dari kedua jenis kelamin mengenai prospek ekonomi (Groves dan
Fultz 1985). Para penulis ini juga melaporkan tingkat penolakan yang lebih tinggi untuk
pewawancara laki-laki, yang
konsisten dengan penelitian lain.
Keuntungan kedua adalah bahwa survei nasional dapat dilakukan dari satu kantor,
yang menurunkan biaya administrasi dan memfasilitasi pengawasan pewawancara untuk
memastikan keseragaman gaya. Terakhir, ada beberapa bukti bahwa orang dapat melaporkan
lebih
peristiwa yang berhubungan dengan kesehatan dalam sebuah wawancara telepon dari dalam
satu tatap muka (Thornberry
1987), meskipun tidak jelas bahwa angka yang lebih tinggi tentu lebih akurat.
kekurangan
Masalah potensial dengan wawancara telepon adalah bahwa orang lain dalam rumah tangga
mungkin mendorong responden. Namun, risiko ini cukup kecil, karena
orang di telepon akan harus mengulangi setiap pertanyaan dengan suara keras. Masalah yang
lebih sulit
adalah bahwa tidak ada jaminan siapa orang itu di ujung lain dari garis itu. Jika skema
pengambilan sampel panggilan untuk wawancara suami, misalnya, suara maskulin
dapat bahwa anak responden yang dipilih atau ayah. Ini mungkin menjadi masalah jika
orang yang ditunjuk adalah seorang imigran yakin nya pemahaman bahasa dan meminta
anggota lebih lancar rumah tangga untuk menggantikan.
Kesulitan lain dengan wawancara telepon, seperti yang tatap muka, adalah bahwa kecuali
responden tertentu dipilih sebelumnya, sampel mungkin bias bywhenthe
panggilan dilakukan. Siang hari, ada kemungkinan tinggi bahwa orang tua dengan anak muda
anak-anak, orang-orang yang bekerja di rumah, pergeseran kerja, sakit, atau kehendak
menganggur
dicapai. Panggilan malam mungkin sama bias sampel dengan tidak termasuk pergeseran
kerja.
Traugott (1987) menemukan bahwa orang mencapai siang hari tidak berbeda secara
signifikan
dari orang-orang yang bisa dihubungi hanya di malam hari sehubungan dengan usia, ras, atau
jenis kelamin;
tetapi bahwa kelompok yang terakhir lebih mungkin untuk menjadi lulusan perguruan tinggi,
karena mereka cenderung
menjadi dipekerjakan dan tidak bekerja shift.
Sebuah masalah besar dengan wawancara telepon, sebagai lawan tatap muka wawancara,
adalah kesulitan dengan pertanyaan-pertanyaan yang membutuhkan orang untuk memilih di
antara berbagai
Pilihan. Dengan pewawancara ini, ia dapat menyerahkan responden daftar kartu
alternatif-respon pilihan tidak tersedia melalui telepon. Beberapa saran telah ditawarkan
untuk mengatasi masalah ini. Yang paling mudah untuk menerapkan adalah memiliki
responden menulis alternatif pada selembar kertas, dan kemudian merujuk kepada mereka
saat menjawab. Ini layak ketika satu set respon digunakan dengan jumlah item,
seperti skala Likert, yang akan disebut dalam menanggapi serangkaian pertanyaan.
Namun, jika masing-masing item membutuhkan daftar yang berbeda, metode ini dapat
menjadi sangat membosankan
dan menuntut, dan responden baik dapat menggantung atau tidak menulis alternatif
bawah, mengandalkan atau (keliru) ingatannya. Dalam situasi yang terakhir, 'efek keutamaan'
mungkin terjadi, dengan subyek cenderung mendukung kategori yang membaca arah
mulai daripada menjelang akhir daftar (Locander dan Burton 1976; Monsees
dan Massey 1979).
Metode kedua adalah dengan membagi pertanyaan menjadi beberapa bagian, dengan setiap
bagian probing untuk
jawaban yang lebih halus. Misalnya, orang bisa bertanya apakah ia setuju atau
tidak setuju dengan pernyataan tersebut. Maka pertanyaan berikutnya akan memanfaatkan
kekuatan
dukungan: ringan atau kuat. Hal ini juga membantu jika format respon diberikan kepada
orang
sebagai pengantar pertanyaan; misalnya, 'Dalam pertanyaan berikut, akan ada
empat kemungkinan jawaban: sangat setuju, setuju ringan, agak tidak setuju, dan sangat
tidak setuju. Pertanyaannya adalah. . . '.
Metode ketiga melibatkan mailing pra-wawancara dengan subjek. Hal ini dapat terdiri
dari seluruh kuesioner itu sendiri, atau kartu dengan alternatif respon. dengan
mantan, pewawancara kemudian membaca setiap pertanyaan, dengan responden berikut
atau versinya. Panggilan telepon memungkinkan untuk menyelidik dan merekam jawaban
atas
pertanyaan terbuka-berakhir. Jika kartu dengan alternatif yang dikirimkan, sering
dikombinasikan
dengan fitur seperti nomor telepon darurat atau barang lain yang mendorong
orang untuk tetap dekat telepon, tersedia ketika panggilan datang (Aneshensel
et al. 1982).
Berbagai teknik membuatnya lebih layak untuk mengajukan pertanyaan yang rumit di atas
telepon. Namun, pertimbangan utama dengan bentuk wawancara
tetap untuk mengurangi kompleksitas sebanyak mungkin. Penjelasan rinci jika diperlukan,
yang mungkin terjadi jika sikap seseorang terhadap isu-isu kebijakan publik sedang
dievaluasi, tatap muka atau dikirimkan kuesioner mungkin lebih baik...
Apapun teknik yang digunakan, sangat mungkin bahwa panggilan berulang mungkin
diperlukan untuk
mencapai rumah tangga yang diinginkan: orang mungkin bekerja, keluar untuk malam, di
rumah sakit, atau
berlibur. Telah direkomendasikan bahwa 3-6 upaya mungkin diperlukan; setelah
ini, hukum semakin berkurang mulai memainkan peran yang semakin besar. penelitian
Etika Dewan juga dapat menempatkan batasan pada jumlah callback, berdasarkan
kekhawatiran bahwa perekrutan terlalu bersemangat dapat dengan mudah menjadi pelecehan.
Selain itu, panggilan
tidak boleh dilakukan pada saat seperti bahwa responden merasa itu akan menjadi gangguan:
pada hari libur, hari Minggu, atau selama acara olahraga besar.
kuesioner dikirimkan
keuntungan
Mailing kuesioner kepada responden adalah jauh metode termurah dari tiga;
dalam penelitian Siemiatycki (1979), biaya rata-rata adalah $ 6,08, dibandingkan dengan $
7,10 untuk
wawancara telepon dan $ 16,10 untuk rumah wawancara. Sementara hari ini angka-angka ini
bisa dengan mudah menjadi dua kali lipat atau tiga kali lipat karena inflasi, masih benar
bahwa biaya
rumah wawancara mudah lebih dari dua kali lipat biaya telepon atau survei dikirimkan.
Memang, ini akan menjadi perkiraan konservatif perbedaan biaya relatif. Di masa lalu,
kelemahan utama telah menjadi tingkat respon yang relatif rendah, membahayakan
generalisasi hasil. Selama bertahun-tahun, berbagai teknik telah dikembangkan, yang
telah mengakibatkan tingkat pengembalian yang lebih tinggi. Dillman (1978, 2007), salah
satu yang paling bersemangat
juru bicara untuk metode wawancara ini, telah menggabungkan banyak dari mereka menjadi
apa yang dia
panggilan Metode Desain Jumlah. Ia percaya bahwa tingkat respons dari lebih dari 75 persen
adalah
mungkin dengan mailing umum untuk populasi yang heterogen, dan 90 persen untuk
kelompok sasaran, seperti praktisi keluarga.
Seperti wawancara telepon, kuesioner dikirimkan dapat dikoordinasikan dari satu
kantor pusat, bahkan untuk studi nasional maupun internasional. Sebaliknya, wawancara
pribadi biasanya membutuhkan sebuah kantor di setiap kota besar, sangat meningkatkan
biaya.
Selanjutnya, karena tidak ada pewawancara hadir, baik secara langsung atau di ujung lain
dari saluran telepon, bias sosial keinginan cenderung diminimalkan.
kekurangan
Namun, ada beberapa kelemahan dengan metode ini administrasi. pertama,
jika subjek tidak mengembalikan kuesioner, hampir tidak mungkin untuk mendapatkan
informasi demografis, menghindarkan kemungkinan membandingkan responden dengan
non-penanggap. Kedua, mata pelajaran dapat menghilangkan beberapa item; sangat umum
untuk menemukan pernyataan dalam artikel yang menyatakan bahwa 5-10 persen dari
kuesioner yang dikembalikan tidak dapat digunakan karena dihilangkan, tidak terbaca, atau
tanggapan yang tidak valid (misalnya Nelson et al.
1986). Ketiga, sementara hati-hati mungkin telah diambil oleh penyidik berkaitan dengan
urutan item, tidak ada jaminan bahwa subjek membacanya dalam rangka.
Beberapa orang mungkin melompat ke akhir pertama, atau menunda menjawab beberapa
pertanyaan karena mereka
mengalami kesulitan menafsirkan mereka.
Kesulitan keempat adalah bahwa, untuk memastikan tingkat respons yang tinggi (lebih dari
80 persen), adalah
sering diperlukan untuk mengirimkan dua atau tiga surat untuk beberapa mata pelajaran. Jika
identitas
Mengirimkan kuesioner 313
responden diketahui, maka ini membutuhkan beberapa bentuk sistem pembukuan,
untuk merekam yang telah kembali kuesioner dan siapa yang harus dikirim pengingat.
Jika anonimitas yang diinginkan, maka pengingat dan salinan tambahan harus dikirim ke
semua mata pelajaran, meningkatkan biaya penelitian. Kelima, mungkin ada penundaan
hingga 3 bulan
sampai semua kuesioner yang akan dikembalikan telah diterima. Terakhir, ada
Selalu ada kemungkinan bahwa beberapa atau semua kuesioner mungkin tertunda oleh
pemogokan pos.
Meningkatkan tingkat pengembalian
Banyak teknik telah diusulkan untuk meningkatkan tingkat pengembalian yang Dikirim
kuesioner, meskipun tidak semua telah terbukti efektif. Hal ini termasuk:
1. surat pengantar. Mungkin bagian yang paling penting dari sebuah kuesioner dikirimkan
adalah
menyertainya surat. Ini akan menentukan apakah form akan melihat atau dibuang
pergi, dan sikap dengan responden yang akan menyelesaikannya. Sebuah rinci
deskripsi surat dan isinya diberikan oleh Dillman (2007), yang menekankan
pentingnya mereka. Surat itu harus dimulai dengan pernyataan yang menekankan dua
menunjukkan: mengapa penelitian ini penting; dan mengapa tanggapan orang yang
diperlukan
untuk membuat hasil diinterpretasi, dalam urutan itu. Kesalahan umum yang menunjukkan
di paragraf pembuka yang kuesioner (kata katanya harus dihindari) adalah
tertutup; bahwa itu adalah bagian dari survei (yang lain 'terlarang' kata); mengidentifikasi
siapa
peneliti adalah sebelum menyatakan mengapa penelitian sedang dilakukan; atau di bawah
naungan yang (sekali lagi, sebaiknya diserahkan untuk kemudian di surat itu). Poin lain yang
harus disertakan
dalam surat itu adalah janji kerahasiaan, deskripsi tentang bagaimana hasil akan
menjadi digunakan, dan menyebutkan insentif. Surat harus ditandatangani oleh tangan,
dengan
nama blok di bawah tanda tangan yang menunjukkan judul dan afiliasi seseorang.
Karena subyek lebih mungkin untuk merespon jika penelitian sedang dilakukan oleh
universitas atau organisasi yang dihormati lain, kop surat yang harus digunakan
setiap kali dibutuhkan. Ingatlah, meskipun, bahwa surat itu sendiri mungkin
mempengaruhi jawaban, karena mempengaruhi kesimpulan responden mengenai apa yang
pengembang kuesioner tertarik. Norenzayan dan Schwarz (1999), misalnya,
menanyakan kepada responden tentang motivasi pembunuh massal. Ketika surat tersebut
kata 'Lembaga Penelitian Kepribadian', jawaban yang berfokus pada faktor-faktor
kepribadian;
ketika mengatakan 'Institut Penelitian Sosial', mereka menekankan orang sosial-kontekstual.
itu
Surat itu sendiri harus masuk dalam satu halaman; kertas berwarna mungkin terlihat lebih
mengesankan, tapi
tidak muncul untuk mempengaruhi tingkat respon.
Berdasarkan meta-analisis dari 292 percobaan acak, Edwards et al. (2002) menyatakan
yang menyebutkan afiliasi universitas memiliki rasio odds (OR) untuk meningkatkan
tingkat respon sebesar 1,31; dan meta-analisis oleh Fox et al. (1988) menemukan hal itu
menjadi
faktor yang paling kuat tingkat mempengaruhi respon. Menggunakan tinta berwarna memiliki
OR 1,39
(Edwards et al. 2002). Namun, tidak ada efek menekankan manfaat bagi
responden, untuk sponsor, atau masyarakat. Faktor-faktor lain yang tidak mempengaruhi
tingkat respon yang memberikan tenggat waktu (Edwards et al 2002;. Fox et al 1988;. Henley
1976) dan memiliki petunjuk. Memberikan responden pilihan untuk memilih keluar dari
Penelitian secara signifikan menurunkan tingkat respon (OR = 0,76).
314 METODE ADMINISTRASI
2. Muka memperingatkan bahwa kuesioner akan datang. Sebuah surat dipandang kurang
dari intrusi dari bentuk yang harus diselesaikan, terutama yang tiba
tanpa pemberitahuan. Pengantar surat dengan demikian mempersiapkan responden untuk
kuesioner, dan membantu membedakannya dari junk mail. Edwards et al. (2002) melaporkan
OR 1,54 untuk meningkatkan tingkat pengembalian dengan precontact, dan bahwa hal itu
tidak masalah jika kontak tersebut melalui surat atau telepon, dan Fox et al. (1988) ditemukan
untuk menjadi salah satu
faktor terkuat dalam meningkatkan tingkat respons. Bahkan, Trussell dan Lavrakas
(2004) menemukan memiliki orang setuju untuk berpartisipasi dalam survei selama kontak
telepon awal itu lebih efektif daripada insentif moneter untuk meningkatkan
tingkat penyelesaian.
Sayangnya bagi peneliti, banyak 'memberikan' menawarkan sekarang menggunakan teknik
yang sama: surat resmi yang tampak mengumumkan akan segera tiba sebungkus
kesempatan untuk memenangkan jutaan dolar. Hal ini membuat kata-kata dari surat pengantar
bahkan lebih penting, untuk mengatasi skeptisisme yang sering menyapa seperti
pendatang yang tidak diinginkan.
3. Memberikan apresiasi. Penggunaan insentif didasarkan pada 'sosial
pertukaran teori ', yang menyatakan bahwa bahkan insentif kecil efektif karena mereka
menanamkan rasa kewajiban sosial pada responden. Paling sering, ini adalah penjumlahan
uang, yang secara signifikan meningkatkan tingkat pengembalian (Edwards et al, 2002;. Fox
et al. 1988; Yammarino et al. 1991). Namun, hubungan antara jumlah
insentif dan tingkat pengembalian mendatar cukup cepat; jumlah rendah
dari $ 0,50 atau $ 1,00 ganda, tapi $ 15,00 kenaikan tingkat pengembalian hanya 2,5 kali
(Edwards et al. 2002).
Dalam meta-analisis dari 69 penelitian yang melibatkan hampir 29.000 subyek, Edwards et
al.
(2006) menemukan peningkatan tajam dalam peluang pengembalian sampai dengan $ 1,00,
maka kecil
meningkat sampai $ 5,00, dan tidak ada lebih meningkatkan setelah itu. Dengan demikian,
kesimpulan tampaknya
adalah bahwa hal itu tidak masuk akal untuk insentif keuangan untuk melebihi $ 5,00, dan
bahkan
$ 1,00 cukup dalam banyak kasus. Penjelasan untuk ini agak paradoks
Hasil adalah bahwa ketika nilai insentif mulai mendekati nilai aktual
tugas, maka 'pertukaran sosial' menjadi lebih seperti 'pertukaran ekonomi', dan
orang merasa kurang dari kewajiban sosial untuk membalas (Dillman 2007; Trussell
dan Lavrakas 2004).
Sebuah metode biaya-efektif adalah dengan mengirimkan cek bukan uang tunai, seperti
James dan
Bolstein (1992) menemukan bahwa hanya 69 persen dari cek sebesar $ 5 benar-benar
dicairkan.
Janji insentif ketika kuesioner dikembalikan, seperti yang diharapkan, memiliki
banyak efek yang lebih kecil, dan beberapa mengatakan bahwa itu tidak meningkatkan
tingkat respons
sama sekali (Gereja 1993). Misalnya, James dan Bolstein (1992) menemukan bahwa janji $
50 tidak menghasilkan apapun peningkatan tingkat respons. Insentif lain yang memiliki
telah digunakan dengan berbagai tingkat keberhasilan telah termasuk tiket lotere, kesempatan
untuk memenangkan ikatan tabungan atau hadiah, pena atau pensil (menjadi favorit di antara
sensus biro), klip dasi, perangko yang tidak terpakai, buku harian, sumbangan untuk amal,
gantungan kunci, bola golf,
dan pembuka surat, tetapi ini tampaknya jauh lebih kuat daripada dingin, uang tunai
(Blomberg dan Sandell 1996; Edwards et al 2002;. Warriner et al 1996;. Yammarino
et al. 1991).
4. Anonimitas. Literatur tentang efek anonimitas pada tingkat respon bertentangan. Jika orang
itu diidentifikasi pada kuesioner yang meminta rahasia
Mengirimkan kuesioner 315
informasi, seperti pendapatan, praktik seksual, atau tindakan ilegal, maka respon
Tingkat pasti terancam. Dalam meta-analisis oleh Singer et al. (1995) dari 113 penelitian,
jaminan kerahasiaan meningkatkan tingkat respon terhadap informasi sensitif.
Namun, janji kerahasiaan untuk bahan non-sensitif tidak meningkatkan
kepatuhan. Bahkan, ketika data tidak sensitif, jaminan tersebut dapat membuat
orang lebih curiga dan hasilnya di tingkat penolakan meningkat (Singer et al. 1992),
meskipun mereka mungkin diperlukan oleh dewan etika penelitian. Jika perlu
mengidentifikasi responden, untuk menghubungkan tanggapan terhadap informasi atau
menentukan siapa yang harus menerima tindak lanjut pengingat, maka tujuan identifikasi
harus dinyatakan, bersama dengan jaminan bahwa nama orang akan
dibuang ketika tidak lagi diperlukan, dan disimpan di bawah kunci dan kunci dalam
Sementara; dan bahwa dalam laporan akhir, tidak ada subjek akan diidentifikasi.
5. Personalisasi. Amplop yang ditujukan kepada 'Penghuni' sering dianggap sebagai sampah
mail, dan baik dibuang belum dibuka, atau membaca dengan cara sepintas; sama
mungkin benar dari salam pada surat itu sendiri. Namun, beberapa orang melihat
ucapan pribadi menggunakan nama mereka sebagai pelanggaran privasi dan ancaman
terhadap
anonimitas. Masalah ini dapat ditangani dengan berbagai cara. Pertama, surat itu bisa
beaddressedtoagroup, suchas'DearColleague ',' Residentof ... Sekitar ',
atau 'Anggota. . . '; personalisasi diberikan dengan tanda tangan.
Maheux et al. (1989) menemukan bahwa menambahkan tulisan tangan 'terima kasih' catatan
di bagian bawah surat pengantar meningkatkan tingkat respon sebesar 41 persen. (Sekali lagi,
dengan
penggunaan luas oleh para politisi dan pengiklan mesin yang menghasilkan tanda tangan,
yang menyerupai tulisan tangan, ini mungkin menjadi kurang efektif dengan waktu.) Lain
Metode untuk menyeimbangkan anonimitas dan personalisasi adalah memiliki surat
pengantar
pribadi, dan untuk menekankan fakta bahwa kuesioner itu sendiri tidak memiliki identitas
informasi tentang itu. Perlu diketahui, meskipun, personalisasi yang mungkin memiliki
beberapa efek yang merugikan pada kuesioner dan survei yang dikirim melalui e-mail atau
melalui Internet;
ini akan dibahas kemudian dalam bab ini di bagian 'Menggunakan e-mail dan Web'.
Aspek lain dari personalisasi termasuk alamat daripada label diketik,
perangko bukan amplop meteran, dan amplop biasa daripada yang balasan bisnis. Mantan
alternatif biasanya berhubungan dengan junk mail, dan
yang terakhir dengan huruf yang penting. Berdasarkan meta-analisis mereka dari 34
diterbitkan dan
Studi yang tidak dipublikasikan, Armstrong dan Lusk (1987) menemukan bahwa dicap, kelas
email memiliki tingkat pengembalian rata-rata 9,2 persen lebih tinggi daripada ketika balasan
bisnis
digunakan. Menariknya, menggunakan sejumlah prangko kecil-denominasi di
amplop menghasilkan hasil yang sedikit lebih baik (sebesar 3,5 persen) daripada
menggunakan satu cap
dengan ongkos kirim yang benar. Secara keseluruhan, meskipun, perbedaan antara
menggunakan prangko
sebagai lawan ongkos kirim meteran kecil dan mungkin tidak sebanding dengan usaha (Fox
et al. 1988).
6. Melampirkan yang dicap, amplop diri ditujukan. Meminta responden untuk menyelesaikan
kuesioner adalah pengenaan pada waktu mereka; meminta mereka untuk juga menemukan
dan
alamat amplop kembali dan membayar ongkos kirim adalah pengenaan lanjut, dijamin
menyebabkan tingginya tingkat ketidakpatuhan. Dalam apa yang tampaknya menjadi satu-
satunya
studi empiris ini, Ferriss (1951) memperoleh tingkat respon dari 90,1 persen
dengan tertutup dicap kembali amplop; ini turun menjadi 25,8 persen bila
amplop itu dihilangkan. Anehnya, 'bahan aktif' tampaknya menjadi amplop
itu sendiri, bukan cap. Armstrong dan Lusk (1987), setelah meninjau enam artikel yang
membandingkan dicap dibandingkan berprangko kembali amplop, ditemukan perbedaan
hanya 3 persen yang mendukung menggunakan perangko; dan meta-analisis oleh Edwards
et al. (2002) dan Yammarino et al. Meningkat (1991) juga menemukan tidak signifikan
dalam tingkat pengembalian dengan meletakkan cap pada amplop kembali.
7. Panjang kuesioner. Tampaknya logis bahwa kuesioner pendek harus
menghasilkan tingkat pengembalian yang lebih tinggi daripada yang lama. Namun, penelitian
ini dicampur dan bertentangan dalam hal ini. Yu dan Cooper (1983) menunjukkan bahwa
panjang adalah Faktor yang relatif lemah mempengaruhi tingkat pengembalian dibandingkan
dengan orang lain, tapi Edwards et al. (2002) menemukan OR 1,86-yaitu, kemungkinan
respon terhadap satu halaman kuesioner hampir dua kali lipat untuk 3 halaman kuesioner-dan
Yammarino et al. meta-analisis (1991) menyimpulkan bahwa tingkat respons secara
signifikan lebih rendah dengan kuesioner lebih dari 4 halaman dibandingkan dengan mereka
yang lebih sedikit halaman. Ketika kuesioner panjang (lebih dari sekitar 100 item atau 10
halaman), setiap halaman tambahan mengurangi tingkat respons sekitar 0,4 persen. Sampai
saat itu, isi Kuesioner merupakan faktor yang jauh lebih kuat mempengaruhi apakah orang
tersebut akan atau tidak melengkapinya (Goyder 1982; Heberlein dan Baumgartner 1978).
Bahkan, ada beberapa bukti bahwa memperpanjang kuesioner dengan menambahkan
pertanyaan menarik mungkin benar-benar meningkatkan kepatuhan dan menyebabkan
jawaban yang lebih valid (Burchell dan Marsh 1992; Dillman 1978). Dengan demikian,
tampaknya bahwa setelah seseorang telah dibujuk untuk mengisi formulir, panjangnya adalah
kepentingan sekunder.
8. Pre-coding pertanyaan. Meskipun hal ini tampaknya tidak lumayan meningkat kepatuhan,
pra-coding tidak melayani beberapa tujuan yang berguna. Pertama, terbuka pertanyaan harus
di beberapa titik dikodekan untuk analisis; dengan kata lain, coding harus berlangsung pada
satu waktu atau yang lain. Kedua, subyek lebih mungkin untuk memeriksa kotak daripada
menulis penjelasan panjang. Terakhir, tanggapan tulisan tangan mungkin menjadi tidak
terbaca atau ambigu. Di sisi lain, mata pelajaran mungkin merasa bahwa mereka ingin
menjelaskan jawaban mereka, atau menunjukkan mengapa tidak ada alternatif berlaku (tanda
dari buruk dirancang pertanyaan). Kuesioner dapat membuat ketentuan untuk ini, memiliki
bagian opsional setelah setiap bagian atau di akhir untuk responden untuk menambahkan
komentar.
9. Tindak up. Sama pentingnya dengan huruf memperkenalkan penelitian adalah tindak lanjut
memaksimalkan keuntungan. Dillman (1978) menguraikan proses empat langkah:
7-10 hari setelah surat pertama, kartu pos harus dikirim, berterima kasih kepada orang-
orang yang telah kembali kuesioner, dan mengingatkan orang lain penelitian ini
pentingnya. Kartu ini juga harus menunjukkan kepada mereka yang telah tdk dpt
ditemukan dalam asli di mana mereka bisa mendapatkan salinan lain dari kuesioner.
2-3 minggu kemudian, surat kedua dikirim, lagi menekankan mengapa seseorang
tanggapan yang diperlukan untuk studi penting ini. Juga termasuk lain kuesioner dan
mengembalikan amplop. Hal ini dapat menyebabkan masalah, meskipun, jika dikirim ke
semua mata pelajaran, terlepas dari apakah atau tidak mereka dikirim dalam bentuk
pertama; sangat subyek compliant atau pelupa dapat menyelesaikan dua dari mereka.
Langkah ketiga, yang tidak mungkin di semua negara, adalah untuk mengirim lagisurat,
kuesioner, dan amplop melalui terdaftar atau khusus pengiriman email. Itu mantan
alternatif lebih murah, tetapi beberapa orang mungkin benci harus membuat perjalanan
khusus ke kantor pos untuk sesuatu yang tidak penting langsung kepada mereka
Langkah terakhir, sering diabaikan karena biaya, adalah untuk memanggil orang-orang
yang tidak menanggapi tiga sebelumnya pengingat. Ini mungkin tidak praktis untuk studi
yang menjangkau seluruh negeri, tetapi mungkin layak untuk yang lebih lokal.
Beberapa peneliti telah menyatakan bahwa sementara efek individu dari masing-masing
Prosedur mungkin sedikit (dengan pengecualian dari huruf awal, kembali amplop, dan tindak
lanjut, di mana efek besar terlihat), efek kumulatif mereka sangat kuat.
Perlunya ketekunan
Kita semua ingin tingkat respons survei, tidak peduli bagaimana hal itu diberikan,
untuk setinggi mungkin. Masalahnya adalah bahwa tidak ada yang tahu seberapa tinggi
cukup tinggi. Johnson dan Wislar (2012) menyatakan bahwa batas minimum biasanya
dianggap sebagai 60%, tetapi menambahkan bahwa ini hanya aturan praktis, dan itu tidak ada
terbukti secara ilmiah minimal tingkat respon yang dapat diterima '. Dimana ada konsensus
adalah bahwa tingkat respons telah jatuh pada tingkat yang agak terjal selama beberapa
dekade terakhir di sebagian besar negara (menyisihkan et al. 2005). Bahkan ketika semua
teknik yang digunakan untuk memaksimalkan tingkat pengembalian kuesioner dikirimkan
atau untuk berbicara dengan responden yang ditunjuk di telepon, tingkat respons awal
biasanya terlalu rendah untuk memungkinkan kesimpulan yang akurat yang bisa ditarik.
Akibatnya, sebagian besar survei meminta surat tindak lanjut atau panggilan untuk
menghubungi sebagian besar mata pelajaran. Pengalaman satu survei telepon khas disajikan
pada Gambar. 13.1, berdasarkan data dari Traugott (1987). Setelah tiga panggilan tindak
lanjut,
sekitar dua-pertiga dari responden dihubungi; satu orang yang sangat sulit dipahami
diperlukan total 30 panggilan sebelum ia tercapai.
Perlunya ketekunan dalam tindak lanjut telah dibuktikan dalam sejumlah
penelitian yang menunjukkan bahwa orang-orang yang lebih mudah untuk menghubungi
berbeda dalam
beberapa hal penting dari orang-orang yang lebih sulit untuk menemukan atau yang
membutuhkan lebih
pengingat sebelum mereka kembali kuesioner. Traugott (1987) menemukan bahwa selama
1984 kampanye presiden, Demokrat lebih mudah diakses daripada Partai Republik.
Sebagai Gambar. 13.2 menunjukkan, orang-orang yang ditemukan setelah satu panggilan
telepon disukai Reagan
oleh 3 persen; memimpin meningkat menjadi sembilan poin ketika sampel termasuk orang-
orang yang
yang dicapai setelah tiga panggilan; dan total sampel memberi Reagan keunggulan 13-poin.
Dia menyimpulkan bahwa melalui ketekunan, sampel menjadi lebih muda dan lebih
laki-laki '(hal. 53). Hasil yang sama ditemukan dalam bidang kesehatan Fowler et al. (2002).
Sebuah survei yang dikirimkan awal untuk orang-orang yang terdaftar dalam rencana
kesehatan menghasilkan 46 persen
Tingkat kembali. Menelepon non-penanggap mengangkat ini ke 66 persen. Dari 24
perbandingan antara mereka yang merespon melalui surat dan mereka yang kemudian
dihubungi oleh
telepon, 21 secara signifikan berbeda. Mantan kelompok lebih tua, memiliki lebih
proporsi perempuan, secara konsisten melaporkan masalah kesehatan yang lebih, lebih
mungkin
telah dirawat di rumah sakit dan telah melihat dokter dua kali atau lebih, mengambil
obat resep lebih, dan menggunakan layanan yang lebih medis daripada mereka yang tidak
Gambar. Tingkat kontak 13.1Cumulative sebagai fungsi dari jumlah panggilan telepon.
Sumber: Data dari Traugott, MW, Pentingnya ketekunan dalam pemilihan responden untuk
survei pemilu pra, Public Opinion Quarterly, Volume 51, Issue 1 pp. 48-57, Copyright
1987 oleh
Asosiasi Amerika untuk Penelitian Opini Publik.
Gambar. Memimpin 13.2Reagan atas Mondale pada tahun 1984, sebagai fungsi dari jumlah
panggilan
diperlukan untuk mencapai responden.
Sumber: Data dari Traugott, MW, Pentingnya ketekunan dalam pemilihan responden untuk
survei pemilu pra, Public Opinion Quarterly, Volume 51, Issue 1, pp. 48-57, Copyright
1987 oleh Asosiasi Amerika untuk Penelitian Opini Publik.
tidak kembali survei. Dalam nada yang sama, Stallard (1995) menemukan bahwa non-
responden
psikoterapi survei tindak lanjut lebih mungkin untuk putus dari terapi, dan lebih puas dengan
proses dari responden survei. Rao (1983)
dan Converse dan Traugott (1986) meringkas sejumlah karakteristik yang
berbeda antara responden awal dan akhir.
Heerwegh et al. (2007) yang dapat membandingkan jawaban atas pertanyaan-pertanyaan
survei ke
'Standar emas'. Ada hampir dua kali lebih banyak orang yang menolak untuk bekerja sama
(16,7 persen) sebagai yang tidak mampu dihubungi (8,8 persen). Namun, kesalahan
dalam nilai estimasi karena ketidakmampuan untuk menghubungi orang tersebut adalah 2,6
kali lebih tinggi
dari itu karena penolakan, menunjukkan bahwa kemungkinan mewakili dua populasi yang
berbeda: yang menolak lebih mirip dengan orang-orang yang survei lengkap daripada orang-
orang yang, untuk
berbagai alasan, tidak bisa dihubungi.
Namun, Keeter et al. (2000) menemukan bahwa sementara karakteristik demografi
sampel berubah dengan lebih 'ketat' mencoba untuk menghubungi orang, hasil
Survei yang berfokus pada keterlibatan dalam politik, sosial dan sikap politik, dan sosial
kepercayaan dan keterhubungan yang kira-kira sama bagi mereka lebih mudah dan lebih sulit
untuk menemukan.
Demikian pula, Siemiatycki dan Campbell (1984) ditemukan relatif sedikit perbedaan antara
orang-orang yang menanggapi paraf mail dan telepon survei dan mereka yang membutuhkan
ditindak lanjuti sebelum mereka menjawab, dan sedikit bukti bias non-respon. di sana
penelitian lain yang juga gagal menemukan perbedaan prevalensi
berbagai gangguan antara mereka yang membutuhkan sedikit dibandingkan banyak pengingat
(Hardie et al.
2003; Wang et al. 2002), atau perbedaan jawaban atas pertanyaan-pertanyaan survei antara
completers, yang menolak, dan non-penanggap (Heerwegh et al 2007;. McFarlane et al
2007)..
Akibatnya, sulit untuk datang ke kesimpulan definitif mengenai kebutuhan
untuk agresif tindak lanjut. Mungkin saja yang paling bijaksana akan menyeimbangkan
keinginan tingkat respons yang tinggi dengan meningkatnya biaya untuk setiap gelombang
tambahan
pengingat. Hasil Heerwegh et al. (2007) juga menyarankan bahwa upaya lebih
harus ditempatkan dalam mencoba untuk melacak orang-orang yang tidak bisa dihubungi
daripada berulang kali
menghubungi orang-orang yang hanya tidak merespon.
administrasi komputerisasi
Selama tiga dekade terakhir, ukuran menyusut komputer dan pengenalan
tablet, dikombinasikan dengan mana-mana mereka, telah mengubah tatap muka dan telepon
wawancara. Menurut Tourangeau (2004), hal ini terjadi dalam tiga tahap.
Pada tahap pertama, ketika komputer masih mainframe terutama besar, telepon
pewawancara mampu membaca pertanyaan dan mencatat jawaban di terminal; ini
disebut 'telepon dengan bantuan komputer wawancara', atau CATI. CATI sangat difasilitasi
bercabang, di mana bagian dari kuesioner bisa dilewati tergantung
pada jawaban sebelumnya, dan dihilangkan satu langkah rawan kesalahan dalam entri data.
Namun,
diragukan apakah responden menyadari fakta bahwa komputer sedang
digunakan sama sekali, dan perbaikan dalam hal biaya, ketepatan waktu, dan kualitas data
yang
sederhana (misalnya Catlin dan Ingram 1988). Dengan diperkenalkannya komputer laptop
dan
tablet, dan perbaikan dalam hidup baterai, 'wawancara pribadi dengan bantuan komputer
(CAPI) menjadi mungkin, di mana komputer menggantikan bentuk kertas dan pensil, dan
adalah mungkin bagi responden untuk membaca item dan masukkan jawaban sendiri.
Perubahan terbaru telah melibatkan menggunakan Web baik untuk menemukan potensi
responden dan sebagai media untuk menyajikan kuesioner dan merekam
tanggapan.
keuntungan
Setidaknya ada lima keunggulan utama administrasi komputerisasi. Pertama, ia dapat
membebaskan pewawancara untuk melakukan hal-hal lain, atau untuk mengelola skala untuk
sejumlah orang
secara bersamaan. Kedua, setiap data time ditransfer dari satu medium ke lainnya,
ada potensi kesalahan transkripsi dan masuk. Ketika subjek diwawancarai secara pribadi, ada
banyak langkah di mana kesalahan ini dapat menyelinap masuk: subjek
berarti untuk mengatakan satu jawaban tetapi memberikan lain; pewawancara mishears
respon;
berarti untuk menulis satu hal, tetapi meletakkan sesuatu yang lain; keliru dalam menyalin
cek
mark dalam satu kotak untuk nomor; atau akhirnya tombol nomor yang salah ke dalam
komputer.
Setelah orang itu masuk atau tanggapan secara langsung ke dalam mesin menghilangkan
semua
sumber kesalahan tapi satu-sadar menekan tombol yang salah. Dengan begitu banyak langkah
dihilangkan, ada juga penghematan sepadan waktu dan uang untuk peneliti.
Keuntungan ketiga adalah bahwa baik subjek maupun pewawancara bisa secara tidak sengaja
menghilangkan item atau pertanyaan. Seperti telah kita bahas, keuntungan yang terkait adalah
bahwa
melewatkan pola dapat otomatis, menghilangkan sumber lain kesalahan.
Keempat, orang mungkin lebih jujur dalam melaporkan perilaku yang tidak dapat diterima
atau tidak diinginkan ke mesin impersonal daripada manusia. Sejumlah penelitian telah
menunjukkan
bahwa orang-orang mengakui lebih minum saat duduk di depan komputer daripada konsol
pewawancara (misalnya Lucas et al 1977;. Skinner dan Allen 1983).
Akhirnya, versi pendek dari skala dapat diberikan, bahkan tanpa memilih
item yang disajikan berdasarkan tingkat kemampuan seseorang, seperti yang dilakukan
dengan IRT.
Dua 'countdown' metode yang telah dikembangkan: theclassificationmethod dan thefull
skor pada skala tinggi metode (FSES) (Forbey dan Ben-Porath 2007). Metode klasifikasi
didasarkan pada asumsi bahwa apa yang menarik bukanlah total
skor, tapi apakah orang tersebut telah mencapai beberapa minimum, skor kriteria. untuk
Sebagai contoh, banyak diagnosa di theDiagnostic dan Statistik Manual of Mental Disorders
(American Psychiatric Association 2000) didasarkan pada pasien yang memiliki setidaknya
mengingat jumlah gejala; apa pun di luar jumlah yang tidak mempengaruhi baik
diagnosis atau skor keparahan. Dengan menggunakan metode klasifikasi, item yang diberikan
sampai (a) orang tersebut mencapai kriteria, atau (b) tidak mungkin bagi orang untuk
mencapai
Kriteria bahkan jika semua item yang tersisa didukung.
Dalam metode FSES, pengujian lagi dihentikan jika tidak mungkin untuk mencapai beberapa
skor kriteria, seperti dengan opsi (b) dari metode klasifikasi. Namun, jika orang tersebut
tidak mencapai kriteria, maka semua item yang tersisa disajikan, sehingga menghasilkan
terus menerus, skor skala penuh (Ben-Porath et al. 1989). Menggunakan panjang,
inventoriessuchasthe multiskala MMPI, adalah mungkin untuk menghemat sekitar 30 persen
dalam waktu administrasi
(Roper et al. 1995)
kekurangan
Salah satu kelemahan potensi komputerisasi skala berasal dari transfer langsung
yang ada instrumen untuk format terkomputerisasi. Dalam kebanyakan kasus, belum
didirikan apakah terjemahan juga berdampak buruk kehandalan dan
validitas. Kuesioner kertas dan pensil memungkinkan subyek untuk melihat berapa banyak
item ada
adalah dan kecepatan sendiri sesuai; untuk melewati sekitar, daripada menjawab
pertanyaan secara berurutan; dan kembali dengan mudah ke pertanyaan awal, dalam rangka
untuk mengubah
mereka atau untuk memeriksa konsistensi mereka sendiri. Sementara pengembang skala
mungkin menyesalkan ini
penyimpangan dari cara instrumen tersebut dimaksudkan untuk diambil, hasil
reliabilitas dan validitas studi yang asli dilakukan dengan faktor-faktor ini mungkin
memainkan peran. Memodifikasi faktor-faktor ini dapat mempengaruhi sifat psikometrik
skala.
Namun, bukti sampai saat ini menunjukkan bahwa jika ada perbedaan antara
kertas dan pensil dan versi komputerisasi, mereka sangat kecil (misalnya Merten dan
Kaya 1996; Pinsoneault 1996; Watson et al. 1990).
Kedua, lagi potensi, kelemahan adalah keyakinan, terutama di kalangan kesehatan
pekerja, bahwa beberapa mata pelajaran atau pasien mungkin khawatir tentang komputer. ini
mesin masih mempertahankan mistik 'otak raksasa', yang bisa, bagaimanapun, dibawa
lutut mereka dengan menekan tombol yang salah. Namun, kekhawatiran mereka tentang
subyek '
reaksi terhadap mesin ini mungkin tidak beralasan. Kebanyakan penelitian telah menemukan
bahwa
jauh lebih banyak orang merasa nyaman di depan terminal atau komputer daripada tidak
nyaman. Memang, dalam banyak penelitian, mayoritas responden lebih suka mesin ke
manusia (untuk review ini melihat Stein 1987). Selain itu, hal ini dapat menjadi perhatian
bagi kelompok usia tertentu, terutama mereka yang lahir sebelum Perang Dunia Kedua, tapi
mungkin kurang
dari kepedulian terhadap kelompok usia yang lebih muda. Masalah terkait adalah bahwa
sikap terhadap wawancara komputerisasi dapat berhubungan seks: pria cenderung lebih
nyaman 'berbicara'
untuk mesin tentang materi sensitif dibandingkan dengan pewawancara manusia, sedangkan
sebaliknya adalah
berlaku untuk wanita (misalnya Skinner dan Allen 1983). Saat ini, ada informasi yang cukup
untuk menunjukkan apakah hal ini disebabkan penggunaan yang lebih besar dari komputer
dengan laki-laki, atau apakah
Sikap ini melampaui keakraban dengan mesin. Dalam kedua kasus, meskipun, seks
Perbedaan cenderung kecil dan menghilang, komputer telah menjadi hanya lain
gadget elektronik di mana-mana.
pelaksanaan
Dalam melaksanakan skala komputerisasi atau kuesioner, beberapa pertimbangan harus
diingat. Pertama, harus ada kemampuan untuk subjek untuk mengganggu pengujian, dan
kembali lagi nanti ke tempat di mana ia berhenti, tanpa baik kehilangan
Data asli atau harus melalui pertanyaan yang sudah dijawab. Hal ini terutama berlaku untuk
skala panjang, ketika salah satu dari banyak sisik, atau ketika orang mungkin
menjadi lelah atau terganggu dengan mudah. Kedua, harus ada ketentuan untuk mata
pelajaran untuk
memodifikasi jawaban mereka, baik ke item mereka menyelesaikan pada waktu itu, dan yang
sebelumnya. Responden harus dapat meninjau jawaban mereka sebelumnya, memodifikasi
mereka jika
diinginkan, dan kembali ke tempat yang sama dalam instrumen. Terakhir, harus ada cara
untuk
subjek untuk menunjukkan bahwa ia tidak dapat atau tidak mau menjawab pertanyaan.
Pilihan ini sering hilang pada kuesioner kertas dan pensil, karena orang tersebut bisa. hanya
meninggalkan item menyinggung keluar. Jika subjek tidak bisa melanjutkan ke pertanyaan
berikutnya
tanpa memasukkan beberapa respon ke dalam mesin, pilihan harus jelas. kapan
ia berada di kota pelajar Madison, Wisconsin, salah satu pelopor dalam wawancara
komputerisasi, Warner Slack (dikutip dalam Fishman 1981), menggunakan 'Tidak ada
ungkapan
bisnis sialan Anda 'sebagai pilihan orang bisa menggunakan untuk menghindari pertanyaan.
ini adalah
berubah menjadi 'Loncat bahwa' ketika Slack pindah ke Boston, menekankan pentingnya
faktor budaya.
Menggunakan e-mail dan Web
Meskipun semua keuntungan, komputer dibantu wawancara (CAI) memiliki sejumlah
kekurangan. Jika komputer yang digunakan untuk meminta pewawancara, yang kemudian
masuk
tanggapan ke dalam mesin, maka hanya satu orang dapat dinilai pada suatu waktu. Jika
responden duduk di depan komputer, membaca item dan menggunakan keyboard untuk
memasukkan
nya jawaban, maka orang tersebut harus melakukan perjalanan ke tempat komputer berada,
dan
lagi hanya sejumlah orang dapat ditampung pada satu waktu. Itu Ledakan pertumbuhan
Internet dan World Wide Web telah menghilangkan kedua masalah ini. Menurut Bank Dunia
(nd), sekitar 81 persen dari penduduk AS dan 87 persen dari Kanada memiliki cakupan
Internet pada tahun 2012, dan angka bahkan lebih tinggi di Eropa. Kuesioner sekarang dapat
dikirim ke ribuan orang secara bersamaan. Keuntungan selanjutnya adalah bahwa kuesioner
dan survei online dikembalikan jauh lebih cepat daripada bentuk-bentuk lain administrasi
(Lazar dan Preece 1999; Raziano et al. 2001). Sebagai contoh, petani (dikutip dalam Granello
dan Wheaton 2004) menemukan waktu turnaround rata-rata untuk survei berbasis Web dari 2-
3 hari, dibandingkan dengan 2-3 minggu untuk wawancara telepon dan 4-6 minggu dengan
survei dikirimkan. Selain itu, biaya lebih rendah dari survei bahkan mengirimkan, meskipun
keuntungan ini dapat dihapus jika 'help desk' yang diperlukan untuk responden yang mungkin
mengalami kesulitan.
Banyak keuntungan, kerugian, dan isu-isu implementasi dibahas di bawah
CAI berlaku untuk skala berbasis Web. Namun, masalah lain juga harus diperhatikan. itu
satu primer adalah untuk menemukan sampel. Di sisi positif, ada ribuan
Daftar server dan 'chat room' yang terdiri dari orang-orang dengan minat yang sama,
kekhawatiran,
atau gangguan; dan bahkan ada situs yang indeks mereka (<http://www.tile.net/
tile / listserv / index.html>). Cina dan Clase (1999), misalnya, menggunakan Web untuk
mengelola Penyakit campur Rating Scale (DeVins et al. 1983-1984) menjadi 68 pasien
dengan
gangguan relatif jarang, hiperhidrosis. Sebelum munculnya Web, itu akan
hampir mustahil untuk menemukan sekelompok seperti orang yang tersebar di seluruh
dunia. (Berbagai cara untuk menemukan sampel di Internet, dan untuk mengelola skala dan
survei, dibahas oleh Bradley 1999.)
Sisi berlawanan dari koin, meskipun, adalah bahwa seringkali sulit untuk menentukan
bagaimana
banyak orang menerima kuesioner, artinya sama sulit untuk membangun
tingkat respon. Tidak ada daftar alamat e-mail, setara dengan sebuah direktori telepon,
sehingga versi berbasis komputer panggilan acak digit tidak mungkin. ini berarti
bahwa tidak mungkin untuk menghitung kesalahan sampling karena kemungkinan seseorang
yang dipilih tidak diketahui. Hal ini kemudian membuat tidak mungkin untuk
menggeneralisasi hasil untuk
seluruh population.By cara yang sama, perawatan harus dilakukan untuk memastikan bahwa
orang-orang tidak menanggapi beberapa kali, terutama jika kuesioner keran areal seluas
yang responden merasa sangat kuat. Sebuah survei berbasis web tentang kejadian di
Timur Tengah, misalnya, harus dibatalkan ketika ditemukan bahwa beberapa kelompok
yang membanjiri situs dengan ribuan salinan jawaban mereka. Kedua
masalah dapat dihindarkan jika peneliti memiliki nama semua responden yang memenuhi
syarat.
Sebagai contoh, Dhalla et al. (2002) dan Kwong et al. (2002) dapat memperoleh e-mail
alamat untuk lebih dari 95 persen dari Kanada mahasiswa kedokteran, dan ditugaskan
masing-masing
nomor kode yang unik, yang dibutuhkan untuk membuka kuesioner. ini berarti
bahwa setiap orang bisa merespon hanya sekali.
Ada dua cara untuk mengelola kuesioner dengan menggunakan Internet: baik pengiriman
langsung melalui e-mail, atau posting di sebuah situs web. Ada sejumlah keuntungan untuk
menggunakan Web. Kuesioner dapat dirancang untuk memiliki 'drop-down jendela' untuk
setiap pertanyaan, memberikan tampilan lebih rapi, dan mengurangi kemungkinan tanggapan
yang keliru. Tanggapan sendiri dimasukkan ke dalam database secara otomatis,
menghilangkan sumber lain dari kesalahan. Namun, ini memerlukan bahwa ada seseorang
dengan
pengetahuan komputer yang dapat merancang kuesioner dan database. ada
masalah lain dengan pendekatan ini. Pertama, berbagai Web browser memiliki kemampuan
yang berbeda; skala yang terlihat baik-diformat pada satu mungkin memiliki item melilit ke
sebuah
baris kedua, atau unsur-unsur yang tidak lagi selaras dengan browser yang berbeda (Weinman
1996). Terkait hal ini, layar komputer itu sendiri bervariasi dalam ukuran dan resolusi,
sehingga
bahwa bahkan dengan browser yang sama, kuesioner yang terlihat baik pada satu komputer
mungkin tidak pada yang lain. Kedua, lebih 'mewah' kuesioner dapat menggunakan fitur-fitur
canggih
bahasa pemrograman tingkat tinggi. Sayangnya, ini memakan waktu lebih lama untuk
memuat dan
membutuhkan memori komputer yang lebih, membanjiri kemampuan beberapa rumah tua
mesin, dan benar-benar dapat menurunkan tingkat respon. Kemudian, orang harus tahu
bahwa kuesioner ada. Ini bisa melibatkan mengirim e-mail ke orang, dengan link
ke halaman Web dengan kuesioner; link posting di situs yang ada yang mungkin
untuk dibaca oleh audiens yang dituju; atau hanya berharap bahwa orang akan tersandung
pada
situs. Keempat, karena situs ini tersedia bagi siapa saja untuk melihat, kontrol yang lebih
harus
dilakukan jika akan selesai hanya dengan orang-orang tertentu. Kelima, aturan praktis adalah
bahwa jika lebih dari tiga klik mouse dibutuhkan untuk sampai ke kuesioner, orang akan
menjadi frustrasi dan meninggalkan. Akhirnya, meskipun data pada titik ini masih langka,
mungkin
bahwa insentif keuangan, yang bekerja dengan baik dengan kuesioner dikirim, mungkin tidak
efektif dengan survei berbasis Web. Bosnjak dan Tuten (2003) menemukan bahwa baik
prabayar maupun dijanjikan insentif moneter mempengaruhi kesediaan untuk berpartisipasi,
meskipun
setelah nama seseorang dimasukkan ke dalam kolam untuk kesempatan untuk memenangkan
hadiah itu.
Kuesioner dikirim langsung melalui e-mail adalah metode 'teknologi rendah' yang
menghindari beberapa
masalah ini, tetapi mungkin memperkenalkan orang lain. Web browser tidak diperlukan,
menghilangkan
masalah ketidakcocokan. Namun, tanpa desain yang cermat, memasuki tanggapan
dalam kuesioner dapat dengan sendirinya mengubah format halaman dan menghasilkan garis
terbelah. Karena menu drop-down tidak dapat digunakan, kuesioner mungkin muncul
lebih berantakan, dan ada lebih banyak kesempatan untuk memasukkan jawaban yang salah.
Akhirnya,
answershavetobeenteredmanuallyintothedatabase.
Sebuah kompromi antara e-mail kuesioner dan posting mereka di situs web adalah
untuk mengembangkan kuesioner baru atau 'menerjemahkan' yang sudah ada dengan
menggunakan surve berbasis Web alat konstruksi. Ini sering memungkinkan bercabang
logika: format yang memaksa responden untuk memilih salah satu pilihan, memungkinkan
untuk beberapa tanggapan, atau tanggapan urutan peringkat; ruang
jawaban terbuka; dan lain sebagainya. Peneliti kemudian dapat mengirim pesan e-mail
untuk memilih orang-orang, dengan link ke kuesioner berbasis Web.
Pertimbangan lain untuk kedua cara menggunakan internet adalah bahwa banyak orang
membayar
untuk sementara waktu mereka terhubung. Ini membebankan belum beban lain pada mereka,
yang harus
diatasi dalam rangka untuk memastikan kepatuhan. Juga, dengan peningkatan eksponensial
dalam
jumlah 'sampah' dan pesan 'spam', ada yang tumbuh kebencian atas e-mail yang tidak diminta
dan tanpa pemberitahuan. Satu studi, yang dikutip oleh Kaye dan Johnson (1999), menarik
begitu banyak pesan bermusuhan dari surat mereka yang harus dibatalkan. Sisi lain
koin adalah bahwa lembaga semakin memasang detektor spam dan firewall
untuk mencegah e-mail yang tidak diminta dan mereka dengan lampiran dari mendapatkan
melalui. itu
Hasil dari sebuah studi internasional (Hartford et al. 2007) yang terancam karena semua
e-mail ke National Health Service di Inggris ditolak oleh filter
yang diblokir surat massal. Bahkan jika pesan tersebut tidak lolos, takut komputer
virus, worm, dan bentuk lain dari malware dapat menghambat orang dari mengklik link
dari sumber yang tidak diketahui. Beberapa saran untuk meningkatkan kualitas Internetbased
kuesioner yang diberikan oleh Kaye dan Johnson (1999) dan Dillman (2007).
Sedangkan personalisasi memiliki efek positif dalam mempengaruhi tingkat pengembalian
yang Dikirim
kuesioner, dampaknya pada kuesioner berbasis Web yang lebih beragam. Di satu
tangan, itu tidak meningkatkan tingkat respons (misalnya Heerwegh 2005; Heerwegh dan
Loosveldt
2006; Heerwegh et al. 2005). Namun, dalam kuesioner dikirimkan dengan amplop pribadi,
responden dapat mengembalikan formulir tanpa informasi identitas; itu
Temukan jawaban sendiri tetap anonim. Hal ini tidak terjadi dengan kuesioner yang dikirim
melalui internet, di mana nama responden dapat (atau, yang lebih penting, isperceivedto
akan) terkait dengan jawaban, sehingga membahayakan anonimitas. Ada beberapa indikasi
bahwa ini menghasilkan kecenderungan yang lebih besar bagi orang-orang untuk merespon
dengan, "Saya lebih suka tidak
Jawaban '(Joinson et al 2007.), dan memberikan jawaban yang diinginkan secara sosial untuk
pertanyaan pribadi (Heerwegh dan Loosveldt 2006; Heerwegh et al 2005.). Dengan demikian,
personalisasi
Survei berbasis internet harus dipertimbangkan dengan hati-hati; ketika informasi sensitif
adalah terlibat, peningkatan tingkat respons dapat diimbangi oleh penurunan jawaban yang
dapat digunakan.
Sampai saat ini, ada sedikit data dan bertentangan membandingkan kuesioner
melalui e-mail atau di Web untuk metode yang lebih tradisional administrasi. Di satu
sisi, Pettit (2002) tidak menemukan bahwa menyelesaikan skala elektronik memperkenalkan
setiap
bias tambahan. Namun, Heerwegh dan Loosveldt (2008) menemukan kecenderungan yang
lebih besar terhadap satisficing dengan kuesioner berbasis Web, mungkin karena responden
yang 'multitasking' (Holbrook et al. 2003). Selanjutnya, tingkat respons tampak lebih rendah
e-mail daripada surat pos (Eley 1999; Jones dan Pitt 1999;. Raziano et al, 2001).
Namun, membandingkan web berbasis kuesioner dikirimkan antara 5.600 kesehatan
profesional, Lusk et al. (2007) menemukan bahwa menjadi lebih muda dan laki-laki dikaitkan
dengan probabilitas yang lebih besar menanggapi melalui internet. Ini, meskipun, bisa
berubah
dari waktu ke waktu, seperti yang dibesarkan dalam masyarakat berbasis internet memasuki
angkatan kerja. itu
Masalah lain adalah apakah cara pemberian mempengaruhi respon masyarakat. Sekali lagi,
data masih terbatas, tapi jawabannya tampaknya 'Ya'. Dillman (2007) laporan
jawaban yang lebih positif yang diberikan pada survei telepon yang bertentangan dengan
berbasis web dan menyimpulkan bahwa 'mendapatkan hasil yang sama pada pertanyaan
skalar di mode survei
tetap merupakan tantangan yang belum terselesaikan '(hal. 457).
Menerapkan e-mail dan web survei
Dillman (2007) memiliki sejumlah saran untuk meningkatkan tingkat respon untuk
e-mail dan survei berbasis web, mirip dengan orang-orang yang diusulkan untuk dikirimkan
survei
(Dillman, 1978). Untuk yang mengirim e-mail, ini meliputi:
1. Gunakan beberapa kontak. Bahkan lebih daripada dengan dikirimkan survei, membiarkan
orang tahu
bahwa kuesioner akan datang adalah langkah pertama yang penting. Terutama dengan
kebanyakan spam, itu terlalu mudah untuk menekan tombol Delete, sehingga pemberitahuan
bahwa bahwa
Pesan yang sah (setidaknya ke pengirim) akan datang sangat penting. Harus ada
tidak lebih dari 2 atau 3 hari antara mailing awal dan survei itu sendiri.
2. Personalisasi alamat. Jangan daftar semua orang yang menerima pesan
atau menunjukkan bahwa itu berasal dari daftar server yang. Jika hal ini tidak mungkin,
kemudian gunakan bcc (blind
tembusan) dan menggunakan ucapan generik.
3. Jauhkan pesan di e-mail sistem brief.Many e-mail pratinjau kontak awal
isi pesan di bawah daftar pesan, dan sering atas dasar
dari yang ini responden memutuskan apakah atau tidak untuk menekan tombol Delete.
Informasi yang dibutuhkan untuk menarik orang untuk membuka pesan tersebut dan
membaca lebih lanjut harus
muncul dalam beberapa baris pertama.
4. Biarkan cara alternatif menanggapi. Sebagian orang memilih untuk mencetak kuesioner
dan mengirimkannya kembali. Hal ini terutama berlaku jika panjang, atau jika responden
adalah
prihatin tentang kerahasiaan. Ini berarti bahwa alamat surat harus menjadi bagian
pesan. Juga, peneliti harus memastikan bahwa file download adalah dalam
format yang kompatibel dengan beberapa sistem (Mac, PC), dan bahwa hal itu tidak akan
disaring
oleh spam yang deteksi perangkat lunak, jika mungkin.
5. Kirim kuesioner pengganti dengan pengingat. Ini sejajar prosedur
digunakan dengan kuesioner yg berlapis baja; pesan pengingat bagi mereka yang belum
menanggapi harus mencakup survei itu sendiri, dengan asumsi bahwa penerima telah dihapus
kotak surat nya (atau tidak dapat menemukan pesan asli karena
itu hilang di tengah-tengah semua pesan lainnya).
6. Batasi panjang pertanyaan. Seperti yang telah disebutkan, jumlah karakter yang
dapat ditampilkan dalam satu baris berbeda tergantung pada orang sistem e-mail, ukuran
layar, dan faktor lainnya. Jika kalimat harus membungkus ke baris berikutnya,
itu tidak dapat diprediksi bagaimana ini akan terlihat dari satu komputer ke komputer
berikutnya. membatasi
panjang setiap pertanyaan kepada sekitar 70 karakter (termasuk spasi) akan meminimalkan
ini
masalah. Dan, seperti yang kita bahas sebelumnya, pertanyaan yang lebih pendek cenderung
lebih handal
dari yang lama.
7. Mulailah dengan pertanyaan yang menarik yang mudah untuk menjawab. Dengan kertas
dan pensil
kuesioner, mudah untuk ibu jari melalui halaman untuk melihat apakah itu menarik, relevan,
dan mudah untuk menjawab. Ini jauh lebih sulit untuk dilakukan dengan orang-orang e-mail.
Sebuah pertanyaan awal yang dipandang sebagai tidak relevan atau sulit untuk menjawab
akan membuat orang
tekan tombol Delete ditakuti, sehingga menarik mereka dengan lembut.

Translate Measurement Hal 301-340

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Translate Measurement Hal 301-340

Diunggah oleh

Hak Cipta:

Format Tersedia

Hal 301-340

Differential Item berfungsi

Unidimensionality dan kemandirian daerah

Logits dan skor mentah

Informasi tes dan kesalahan baku pengukuran

di mana istilah kesalahan, , adalah kesalahan kuadrat rata-rata perkiraan orang,

Pengantar metode administrasi

Anda mungkin juga menyukai