Anda di halaman 1dari 19

Bahasa melayu

Pemodelan Rasch muncul dari analisis yang dilakukan oleh Dr Georg Rasch pada hasil ujian
yang dia lakukan sendiri . Dr Rasch melakukan dua buah test pada pelajar SD kelas 4 , 5 dan 6 .
Dia mendapati bahawa pelajar kelas 6 lebih sedikit membuat kesalahan berbanding dengan
kelas 4 dan 5 atas soal yang sama . Kemudian dia menggambarkan grafik untuk menunjukkan
hasil dari kedua test tersebut , dan mendapati bahawa ralat ( error ) dari satu ujian berkaitan
dengan 1.2 ralat pada ujian yang lain , perbandingkan yang sama pada ketiga kelas yang diuji .
Artinya darjah kesulitan antara kedua ujian sudah didapatkan . Supaya pemalar nisbah ini
berlaku , peluang untuk menjawab soal dengan betul haruslah sama ketika ketika kemampuan
pelajar sama dengan tahap kesukaran soal . Dengan kata lain pelajar mempunyai peluang
peluang 50 % menjawab dengan betul ketika kemampuan pelajar sama dengan tahap kesukaran
soal .
Idea sederhana dan tepat dari pengamatan hasil ujian dan grafik yang dibuatnya membuat Dr
Rasch membuat satu kenyataan popular , bahawa ' kesempatan untuk menyelesaikan satu soal
bergantung dari nisbah antara kemampuan orang dan tingkat kesulitan soal ' . Selepas itu
pemodelan Rasch terus dikembangkan menjadi pelbagai cabang sampai saat ini . Namun prinsip
dasarnya adalah sama , iaitu model kebarangkalian yang ditakrifkan sebagai :
" A person having a greater ability than another person should have the greater probability of
solving any item of the type in question , and similarly , one item being more difficult than another
means that for any person the probability of solving the second item is the greater one " ( Rasch ,
1960 dalam Bond and Fox , 2007 : hal . 10 ) .
Untuk memudahkan ilustrasi mengenai definisi di atas dan aplikasinya , kita paparkan lagi
scalogram yang sudah dibahas sebelumnya .
Butir soal ( aitem ) Skor mentah
soal mudah soal sukar
c a b e f i d h j g
Paling mampu C 1 1 1 1 0 1 1 1 1 1 9
Responden I 1 1 0 1 1 1 0 1 1 0 7
H 1 1 1 1 0 0 1 1 0 6
E 1 1 0 1 0 1 1 0 1 0 6
A 1 1 1 0 1 0 0 1 0 0 5
J 1 0 1 1 0 1 1 0 0 0 5
B 1 1 0 0 1 1 0 0 0 0 4
F 1 1 0 1 0 0 0 0 0 3
G 1 0 0 1 1 0 1 0 0 0 4
kurang mampu D 1 0 1 0 0 0 0 0 0 0 2
Berdasar definisi permodelan Rasch yang dikemukakan , maka dari matriks Guttman di atas
akan didapatkan berbagai kesimpulan yang mungkin tidak pernah kita duga sebelumnya . Yang
pertama adalah jawapan salah ( atau dalam konteks soal selidik adalah tidak setuju ) yang
diberikan oleh responden C untuk soal ( atau pernyataan ) b ; serta jawapan yang sama oleh
responden I untuk soal nombor b [ baris ke - 1 dan ke - 2 di atas yang huruf berwarna merah ] .
Bila melihat kemampuan C dan I yang merupakan responden paling mampu berbanding yang
lain , maka sesungguhnya jawapan salah yang diberikan menunjukkan bahawa pola kerja
keduanya tidak teliti ( careless ) , asalnya mereka berdua mampu menyelesaikan soal ini dengan
mudah dan betul ( atau dalam konteks soal selidik menyetujui pernyataan yang ada ) . Hal ini
kerana soal ( atau pernyataan ) yang lebih sukar pun boleh diselesaikan dengan benar ,
sehingga tahap kesukaran yang lebih rendah tidak akan menjadi masalah bagi mereka berdua
untuk menyelesaikannya .
Kedua , pada baris ketiga untuk responden H ( warna biru ) , dia tidak mengisi jawapan untuk
soalan f ( kosong atau data hilang ) , berdasar definisi Rasch dapat disimpulkan bahawa H
sesungguhnya mampu untuk mengerjakan dan jawapannya betul ( atau dalam konteks soal
selidik menyetujui pernyataan yang diajukan ) . Hal ini berhubung , soal dengan tahap kesukaran
lebih tinggi pun dapat diselesaikan dengan benar sehingga , H diramalkan oleh model Rasch ,
bahawa kemampuan yang dimilikinya dapat mengerjakan soal yang tidak diisi tersebut . Hal ini
juga dibuktikan dengan perbandingan - nya terhadap baris ke - 4 , untuk responden E , yang
sama - sama memiliki skor mentah sama ( 6 ) , namun kedudukan H lebih tinggi berhubung dia
lebih mampu menyelesaikan soal yang lebih sukar berbanding responden E. Dengan kata lain ,
skor mentah sesungguhnya untuk H bukanlah 6 , namun 7 . Hal yang sama juga berlaku pada
responden F ( huruf berwarna biru pada baris ke - 8 ) , soal c yang ternyata merupakan soal
yang paling mudah ternyata tidak dapat dijawab ( kosong atau data hilang ) , namun model
Rasch meramalkan bahawa kemampuan yang dimiliki oleh F akan mampu menyelesaikan
perkara ini , sehingga dianggarkan skor mentah bukanlah 3 , namun 4 , yang ditunjukkan
kemampuan F diapit sama dengan responden B dan G ( yang skor mentah sama - sama 4 ) .
Ketiga , pada baris ke - 5 dan ke - 6 masing - masing untuk responden A dan J , mempunyai nilai
skor mentah yang sama , iaitu 5 ( huruf berwarna kuning ) . Secara tradisional kita tidak boleh
membezakan kemampuan responden dengan jumlah skor mentah yang sama ; namun dalam
pemodelan Rasch hal ini mudah diatasi . Dengan melihat konsisten responden untuk menjawa
soal yang sukar ( atau pernyataan yang susah diluluskan ) , maka akan terlihat bahawa A
kemampuannya lebih tinggi berbanding J , walaupun skor mentah sama . Hal ini kerana A lebih
berjaya mengerjakan soal yang tingkat kesulitannya lebih tinggi berbanding J.
Keempat , pada baris ke - 9 , responden G mendapat skor mentah 4 , satu hal yang unik adalah
responden ini dapat menyelesaikan soal yang tarafnya lebih sukar , soal d ( dilambangkan
dengan angka '1 ' yang berwarna merah ) . Berdasarkan definisi Rasch , responden dengan
kemampuan lebih rendah tidak akan punya peluang untuk menyelesaikan taraf soal yang lebih
sukar ( atau meluluskan satu kenyataan ) , oleh itu boleh disimpulkan bahawa jawapan yang
diberikan oleh G tersebut tidak lain adalah tekaan yang kebetulan benar ( lucky guess ) ,
sehingga boleh disimpulkan skor mentah bukanlah 4 , namun boleh jadi adalah 3 ( ditempatkan
dibawah G yang skor mentahnya juga 3 ) .
Bagaimana contoh keempat penjelasan di atas dapat diperoleh ? balik lagi kepada definisi yang
disebut oleh Rasch , bahawa kebarangkalian untuk berjaya bergantung kepada perbezaan
antara kemampuan sesorang dan tahap kesukaran butir soal / aitem . Untuk data yang
berbentuk dikotomi , pemodelan Rasch menggabungkan suatu algoritma yang menyatakan hasil
jangkaan probabilistik dari aitem ' i ' dan responden ' n ' , yang secara matematis dinyatakan
sebagai :
Pni ( xni = 1 I n , i ) = ( e ^ ( n - i ) ) / ( 1 + e ^ ( n - i ) )
dimana : Pni ( xni = 1 I n , i ) adalah probilitas dari responden n dalam aitem i untuk
menghasilkan jawapan betul ( x = 1 ) ; dengan kemampuan responden , n , dan tingkat
kesulitan aitem i .
Persamaan di atas dapat lebih dipermudahkan dengan memasukkan fungsi logaritma dan
menjadikannya :
log ( Pni ( xni = 1 I n , i ) ) = n - i
Sehingga kebarangkalian akan satu kejayaan boleh dituliskan sebagai :
kebarangkalian untuk berjaya = kemampuan responden - tingkat kesulitan aitem
Bila balik lagi melihat contoh keempat penjelasan di atas menunjukkan betapa mudah dan
praktisnya aplikasi pemodelan Rasch untuk melakukan analisis , penjelasan dan kesimpulan dari
data satu ujian atau soal selidik survey yang ada . Intinya adalah kembali kepada defisini yang
diberikan oleh Georg Rasch . Pola respon yang diberikan menunjukkan kesahihan dari tiap
responden ( person ) kepada setiap butir soal ( item ) . Sehingga hal ini menyebabkan model
Rasch mampu menjadikan kita menetapkan kesahihan konsep dari setiap butir soal . Suatu butir
soal atau aitem , dikatakan sah apabila dia mampu untuk membezakan antara responden yang
mampu dengan yang tidak mampu . Terdapat dua perkara yang perlu dibincangkan lebih lanjut
akan hal ini .
Kemungkinan pertama adalah ketidaksesuaian responden yang terlibat dalam ujian yang
diberikan ( atau peserta dalam survey soal selidik ) , hal ini kerana keputusan yang diberikannya
memang tidak sesuai dengan yang diharapkan . Pemodelan Rasch dapat mengesan adanya
responden yang memang tidak sesuai dilibatkan dalam pengumpulan data dan boleh
mengemukakan hujah kenapa dia perlu dikeluarkan kerana tidak sesuai dengan model yang ada
. Penemuan ini jelas akan menyumbang secara penting dalam penyelidikan yang dijalankan .
Tidak seperti halnya dalam amalan pemprosesan data statistik tradisional yang dilakukan tidak
dapat diketahui secara pasti , namun dalam pemodelan Rasch akan muncul dengan sendirinya .
Kemungkinan kedua adalah berkenaan dengan butir soal atau aitem yang digunakan . Bila
ternyata respon yang didapati bahawa terdapat aitem tidak dapat membezakan responden
kemampuan responden ; antara yang mampu dan yang tidak mampu , maka butir soal tersebut
perlu untuk disemak semula atau malah aitem yang bersangkutan dibuang saja . Dalam suatu
keadaan ekstrem tertentu di mana hasil yang diperolehi sangat tidak sesuai , maka kita perlu
memperbaiki semua butir soal yang ada atau memperbaiki semua kenyataan kerana memang
tidak mengukur apa yang sepatutnya diukur ( kesahihan disangsikan ) . Hal ini jelas
menunjukkan bahawa model Rasch tidak sekadar mengukur kebolehpercayaan item saja ,
namun juga menguji kesahihan konsep interumen yang digunakan .
Keunggulan model Rasch berbanding kaedah lain , khususnya teori ujian klasik , keupayaan
melakukan ramalan terhadap data yang hilang ( missing data ) , yang didasarkan kepala pola
respon yang sistematik . Hal ini jelas menjadikan hasil analisis statistik yang lebih tepat dalam
kajian yang dilakukan . Dalam model statistik lain melayan data yang hilang dengan nilai sifar ( '0
' ) ; keupayaan ramalan model Rasch akan menghasilkan kemungkinan nilai terbaik dari data
yang hilang tersebut . Dengan cara tersebut membuat data yang ada diolah sebagai data yang
lengkap , di mana saat yang sama kaedah statistik lain menjadi tidak sensitif kerana
ketidaklengkapan data yang diolah sehingga menghasilkan nilai - nilai yang tidak tepat untuk rata
- rata , standard deviasi , apalagi untuk chi - kuasa dua dan uji - z . Yang lebih penting lagi ,
model Rasch mampu menghasilkan nilai ukuran standard error untuk instrumen yang digunakan
yang boleh meningkatkan Ketepatan pengiraan .
Walhasil , ujian responden ( person ) dan butir soal ( item ) secara bersamaan menunjukkan
bahawa penyelidikan kuantitatif seperti yang biasa dilakukan oleh disiplim ilmu sains , juga boleh
dilakukan perkara yang sama dengan disiplin ilmu pengetahuan sosial yang biasanya
diidentitikan dengan penyelidikan kualitatif . Akibat seterusnya adalah andaian penilaian yang
dibuat semasa soal selidik dikonsepkan ataupun butir soal yang disusun , melalui pemodelan
Rasch ini boleh disahkan apakah memang hal ini menghasilkan pola yang diharapkan atau tidak
. Bentuk kalibrasi ini sangat unik dan hanya didapati pada model Rasch saja , dimana hal ini
modelnya sama seperti keperluan penentukuran yang harus dipenuhi dalam ukuran oleh
instrumen dalam disiplin ilmu sains dalam melakukan kalibrasi pada skala pengukurannya .
Dengan kata lain , kalibrasi dilakukan dalam pemodelan Rasch secara sekaligus dalam tiga hal ,
iaitu skala ukuran , responden ( person ) , dan butir soal ( item ) . Suatu instrumen yang tidak
ditentukur maka mempunyai kemungkinan menghasilkan data yang tidak sah dan boleh
menyebabkan aktiviti penyelidikan yang dilakukan mengalami kegagalan .





Scalogram ( matriks Guttman )
search
Untuk boleh memahami model Rasch ( Rasch model ) melalui pendekatan yang lebih mudah ,
maka mengenalkan scalogram atau biasa disebut matriks Guttman merupakan perkara yang
logik dilakukan . Guttman yang memberikan idea tentang salah satu teknik pengukuran dalam
penyelidikan kuantitatif , memperkenalkan pemeringkatan skala sikap dari yang terendah ke
yang tertinggi ; hal ini oleh beliau dikembangkan menjadi suatu matriks tertentu . Scalogram
tidak lain adalah mengisi respon yang diberikan oleh masing - masing peserta dalam suatu ujian
atau survey , respon tersebut disusun secara sistematik dari peringkat yang rendah ke peringkat
yang tinggi sehingga memudahkan untuk menganalisis dan memberikan penjelasan serta
memberikan ramalan akan kemampuan individu responden sekaligus tingkat kesulitan soal atau
butir aitem .
Sebagai contoh , suatu ujian ( atau survey ) yang telah dilakukan terhadap sepuluh orang
responden dengan jumlah soal ( atau pernyataan yang diujikan ) sebanyak sepuluh buah , sudah
disusun dalam jadual seperti di bawah ini :
Butir soal ( aitem ) Skor mentah
a b c d e f g h i j
Responden A 1 1 1 0 0 1 0 1 0 0 5
B 1 0 1 0 0 1 0 0 1 0 4
C 1 1 1 1 1 0 1 1 1 1 9
D 0 1 1 0 0 0 0 0 0 0 2
E 1 0 1 1 1 0 0 0 1 1 6
F 1 1 0 0 1 0 0 0 0 3
G 0 0 1 1 1 1 0 0 0 0 4
H 1 1 1 0 1 0 1 0 1 6
I 1 0 1 0 1 1 0 1 1 1 7
J 0 1 1 1 1 0 0 0 1 0 5
Jadual di atas menunjukkan sepuluh orang responden ( A sampai J ) , menyelesaikan 10 butir
soal ujian ( a ke j ) . Terdapat satu orang responden yang mendapat skor mentah tertinggi ( C ) ,
dan satu orang dengan skor yang paling rendah ( D ) . Dua orang responden , tidak mengisi
jawapan ( data hilang ) untuk dua soal berbeza , iaitu responden F untuk soalan c , dan
responden H untuk soalan f . Angka '1 ' dalam jadual melambangkan soal yang dijawab dengan
betul ( atau dalam soal selidik menunjukkan persetujuan atas pernyataan ) , sedangkan angka '0
' menunjukkan soal yang dijawab dengan salah oleh responden ( dalam soal selidik
melambangkan ketidaksetujuan ) .
Penjelasan yang boleh dilakukan untuk jadual di atas sangat terhad seperti yang ditulis di
perenggan di atas . Walaupun data yang dipaparkan sangat lengkap , namun kita tidak boleh
meramalkan sesuatu tentang kemampuan responden berbanding lain secara sistematik ;
ataupun tentang butir soal yang diberikan mengenai tahap kesulitannya dibanding soal lain .
Skor mentah yang dipaparkan di bahagian kiri jadual juga tidak boleh membuat kita membuat
kita boleh menyimpulkan sesuatu yang berharga , khususnya bila ingin mengetahui interaksi
antara responden dengan butir soal . Paling maksimum yang boleh diperhatikan adalah urutan
dari skor mentah tertinggi ke skor yang terendah . Dalam konteks soal selidik , maka skor
mentah tersebut adalah data ordinal yang mempunyai keterbatasan untuk boleh diinterpretasi
secara memuaskan .
Jika suatu ujian atau survey bermaksud untuk mengetahui kemampuan seseorang , kita tidak
boleh melakukannya hanya dengan bergantung kepada pengamatan pada skor mentah yang
didapati saja . Jika kita menanggap responden yang mendapat skor mentah tertinggi
menunjukkan orang yang lebih mampu ( atau dalam survey lebih banyak meluluskan ) , hal ini
akan menjadi hal yang menyulitkan untuk menjelaskan dan membezakan bila didapati dua
responden ternyata mempunyai skor mentah yang sama . Pendek kata kita tidak mempunyai
asas dan alasan yang jelas untuk menjelaskan perkara tersebut . Dengan kata lain kita perlu
membuat suatu cara anggaran yang boleh meramalkan bagaimanakah tahap kejayaan
responden terhadap satu butir soal tertentu , yang akan mudah berbanding dengan responden
lain . Untuk melihat kemampuan responden mengerjakan soal ( atau dalam soal selidik :
meluluskan suatu kenyataan ) , kita perlu mengetahui dengan pasti tahap kesukaran butir soal (
dalam kusienoer : tahap persetujuan ) pada responden untuk memutuskan perinkat butir soal
tersebut .
Untuk melakukan hal itu , maka jadual di atas perlu diubah menjadi matriks Guttman ( biasa
disebut scalogram ) . Dengan matriks Guttman data disusun berdasar dari tahap mudah ke
tahap yang paling sukar ; demikian juga secara bersamaan responden yang disusun dari yang
peringkat terendah menuju ke yang paling mampu , sepeti jadual di bawah ini :
Butir soal ( aitem ) Skor mentah
soal mudah soal sukar
c a b e f i d h j g
Paling mampu C 1 1 1 1 0 1 1 1 1 1 9
Responden I 1 1 0 1 1 1 0 1 1 0 7
H 1 1 1 1 0 0 1 1 0 6
E 1 1 0 1 0 1 1 0 1 0 6
A 1 1 1 0 1 0 0 1 0 0 5
J 1 0 1 1 0 1 1 0 0 0 5
B 1 1 0 0 1 1 0 0 0 0 4
F 1 1 0 1 0 0 0 0 0 3
G 1 0 0 1 1 0 1 0 0 0 4
kurang mampu D 1 0 1 0 0 0 0 0 0 0 2
Jadual di atas ( scalogram ) memberikan maklumat yang lebih berharga dibandingkan dengan
jadual sebelumnya . Pada bahagian ruang , butir soal yang disusun dari soal yang paling mudah
( c ) , terus berlanjut menuju soal yang paling sukar ( g ) ( dalam konteks survey soal selidik dari
yang mudah diluluskan menuju kepada yang paling sukar untuk diluluskan ) . Sedangkan dari
baris responden , disusun berdasar kemampuan secara sistematik dari yang paling rendah , D
dengan skor mentah - nya 2 , terus ke G ( skor 4 ) , dan berlanjut ke yang paling mampu , iaitu C
( skor tertinggi 9 ) .
Dari jadual juga boleh diperhatikan dengan mudah bahawa responden C , mampu mengerjakan
semua soal yang mudah dengan baik ( atau menyetujui pernyataan ) dan terus berlanjut sampai
soal yang paling sukar ( yang paling sukar diluluskan ) . Sedangkan responden yang kurang
mampu ( D , G dan F misalnya ) kelihatan hanya dapat mengerjakan soal yang mudah saja (
atau menyetujui pernyataan yang juga akur buat yang lain ) , sedangkan soal yang susah tidak
boleh dia kerjakan ( atau kenyataan h , j dan g yang tidak boleh mereka setujui ) .
Penjelasan mengenai matriks Guttman menunjukkan bahawa prinsip pengurutan berdasar
kemampuan dan tahap kesulitan soal sangatlah berguna untuk menjelaskan kemampuan ,
bahkan melakukan ramalan mengenai kemampuan seseorang . Matriks Guttman tidak lain
merupakan dasar dari pemodelan Rasch .

























Saiz Sampel untuk kalibrasi aitem
search
Dalam suatu kajian kuantitatif jenis survey yang menggunakan soal selidik , penentuan jumlah
sampel yang diperlukan untuk mewakili penduduk menjadi hal krusial yang harus diambil kira
oleh penyelidik . BIla sampel terlalu sedikit maka dianggap tidak mewakili kepelbagaian
penduduk , sedangkan sampel yang terlalu besar tentu menyebabkan beban kerja ( masa dan
dana ) yang juga banyak . Pemodelan Rasch menawarkan pendekatan berbeza berbanding
model statistik lain dalam hal penentuan sampel dari penduduk .
Kaedah penentuan sampel yang paling popular adalah yang dicadangkan oleh Krejcie dan
Morgan , Persamaan yang dibuat oleh Krejcie dan Morgan dalam penentuan sampel bergantung
dari jumlah penduduk , kadar ketepatan dalam bentuk nisbah ( misal 5 % atau 0.05 ) , dan
nisbah penduduk ( biasanya 0 , 5 ) . Contoh jadual saiz sampel dari penduduk Morgan terdapat
pada Lampiran X. Seperti terlihat pada jadual di tersebut untuk jumlah populasi sebanyak 500
orang , maka sampel minimum yang harus didapatkan adalah 217 orang ; bila tidak maka hasil
yang didapatkan tidak boleh dikatakan mewakili populasi . Andaian yang digunakan oleh
persamaan Krejcie dan Morgan adalah sampel yang harus didapat dari penduduk secara rawak .
Kaedah lain yang juga digunakan untuk penentuan sampel adalah Statistical Power Analysis dari
Cohen . Terdapat empat faktor yang menentukan menurut Cohen dalam penentuan sampel dari
satu populasi , iaitu : a . tahap kepentingan yang ingin didapatkan ; b . kesan dari ukuran ; c .
ketajaman analisis yang dikehendaki ; dan d . anggaran kepelbagaian . Untuk saiz populasi 500
orang , menurut persamaan Cohen , maka cukup 85 sampel saja perlu didapatkan bila hanya
ingin melakukan kajian dengan korelasi ; namun bila melakukan kajian yang menggunakan
regresi berganda , sampel yang diperlukan adalah 116 .
Pemodelan Rasch menawarkan cara yang berbeza , yang utama dalam hal ini adalah aspek
penentukuran instrumen . Setiap kali kita melakukan kalibrasi aitem , kita menduga hasil yang
sedikit berbeza . Pada prinsipnya saat saiz sampel bertambah , maka perbezaan hasil menjadi
makin kecil . Tentu jika saiz sampel sangat kecil , misal kurang dari sepuluh , hasil penentukuran
sangat tidak stabil dan tidak sensitif . Namun bila sampel terlalu besar , juga tidak berkesan dan
mahal , walau hasilnya lebih bagus . Sehingga berapakah jumlah sampel sehingga kalibrasi
aitem menghasilkan kestabilan taraf ukuran dari instrumen yang digunakan ?
Pemodelan Rasch menjawabnya dari skala linear yang digunakan iaitu logit ( logarithma odds
unit ) . Saat kita mengukur ketinggian seseorang , katakanlah tinggi badannya adalah 170 cm ,
maka kestabilan hasil ukuran kurang lebih 1 cm ( ada dalam lingkungan 169 cm sampai 171 cm )
, tidak ada yang mengukur ketepatannya sampai taraf 0,1 cm ataupun 0.01 cm . Demikian juga
dalam pemodelan Rasch , tidak ada taraf kesukaran item sampai kepada 0.1 logit ataupun 0.01
logit . Kenyataanya kestabilan + / - 0.3 logit adalah ukuran yang paling bagus yang boleh
diperolehi . Pelbagai penyelidikan menunjukkan bahawa perubahan dalam skala satu logit
berkaitan dengan peningkatan satu tahap . Sehingga ketika penentukuran instrumen stabil
nilainya dalam skala logit tertentu , maka itu menunjukkan Ketepatan tahap yang diukur .
Secara teorinya , kestabilan kalibrasi aitem seusai dengan model dari ralat standard ( atau
standard error atau SE ) . Untuk sampel sebanyak N yang mengerjakan instrumen dengan
jumlah aitem yang sesuai , nilai rata - rata peluang ada di antara 0.5 hingga 0,87 ; sehingga
model ralat standard - nya ada dalam julat : 2 / ( N ) < SE < 3 / N atau 4/SE ^ 2 < N < 9/SE ^
2
Dengan tahap kepercayaan 99 % maka itu berada dalam julat 2.6 SE . Maka untuk julat 1
logit , nilai SE berada dalam julat 1/2.6 logit , sehingga penentuan jumlah sampelnya adalah : 4
/ ( ( 2.6 ) ^ 2 ) < N < 9 / ( ( 2.6 ) ^ 2 ) , iaitu : 27 < N < 61 ( julat lengkap lihat jadual dibawah yang
dibuat oleh Linacre ) . Sehingga bila mensasarkan jumlah sampel sebanyak 50 orang sudah
cukup untuk mendapatkan hasil anggaran yang stabil dalam skala 1 logit . Jumlah sampel
sebanyak 30 orang layak untuk ujian rintis ( pilot study ) , yang merupakan julat pada 1 logit
dengan tahap kepercayaan 95 % . Jika sampel yang lebih besar boleh didapatkan ujian
instrumen boleh dilakukan dengan mengelompokkan mereka kepada kumpulan homogen yang
lebih kecil misal berdasar jantina atau usia misalnya , untuk mengetahui kestabilan kalibrasi item
dalam situasi ukuran yang berbeza .
Kalibrasi aitem stabil dalam Tingkat Kepercayaan julat sampel saiz sampel yg layak
1 logit 95 % 16 -36 30
1 logit 99 % 27-61 50
0.5 logit 95 % 64-144 100
0.5 logit 99 % 108-243 150
Indonesia:
Pemodelan Rasch muncul dari analisis yang dilakukan oleh Dr Georg Rasch pada hasil ujian
yang dia lakukan sendiri. Dr Rasch melakukan dua buah test pada siswa SD kelas 4, 5 dan 6.
Dia mendapati bahwa siswa kelas 6 lebih sedikit membuat kesalahan dibandingkan dengan
kelas 4 dan 5 atas soal yang sama. Kemudian dia menggambarkan grafik untuk menampilkan
hasil dari kedua test tersebut, dan mendapati bahwa galat (error) dari satu tes berhubungan
dengan 1,2 galat pada tes yang lain, perbandingkan yang sama pada ketiga kelas yang diuji.
Artinya derajat kesulitan antara kedua tes sudah didapatkan. Supaya konstanta rasio ini terjadi,
peluang untuk menjawab soal dengan betul haruslah sama ketika ketika kemampuan siswa
sama dengan tingkat kesulitan soal. Dengan kata lain siswa mempunyai peluang kesempatan
50% menjawab dengan betul ketika kemampuan siswa sama dengan tingkat kesulitan soal.
Ide sederhana dan jitu dari pengamatan hasil ujian dan grafik yang dibuatnya membuat Dr
Rasch membuat satu pernyataan populer, bahwa kesempatan untuk menyelesaikan satu soal
tergantung dari rasio antara kemampuan orang dan tingkat kesulitan soal. Setelah itu
pemodelan Rasch terus dikembangkan menjadi berbagai cabang sampai saat ini. Namun prinsip
dasarnya adalah sama, yaitu model probabilistik yang didefinisikan sebagai:
a person having a greater ability than another person should have the greater probability of
solving any item of the type in question, and similarly, one item being more difficult than another
means that for any person the probability of solving the second item is the greater one (Rasch,
1960 dalam Bond and Fox, 2007: hal. 10).
Untuk memudahkan ilustrasi mengenai definisi di atas dan aplikasinya, kita tampilkan lagi
scalogram yang sudah dibahas sebelumnya.

Butir soal (aitem)
Skor mentah

soal mudah

soal sulit

c a b e f i d h j g
Paling mampu C 1 1 1 1 0 1 1 1 1 1 9
Responden
I 1 1 0 1 1 1 0 1 1 0 7
H 1 1 1 1

0 0 1 1 0 6
E 1 1 0 1 0 1 1 0 1 0 6
A 1 1 1 0 1 0 0 1 0 0 5
J 1 0 1 1 0 1 1 0 0 0 5
B 1 1 0 0 1 1 0 0 0 0 4
F 1 1 0 1 0 0 0 0 0 3
G 1 0 0 1 1 0 1 0 0 0 4
kurang mampu D 1 0 1 0 0 0 0 0 0 0 2
Berdasar definisi permodelan Rasch yang dikemukakan, maka dari matriks Guttman di atas akan
didapatkan berbagai kesimpulan yang mungkin tidak pernah kita duga sebelumnya. Yang
pertama adalah jawaban salah (atau dalam konteks kuesioner adalah tidak setuju) yang
diberikan oleh responden C untuk soal (atau pernyataan) b; serta jawaban yang sama oleh
responden I untuk soal nomor b [baris ke-1 dan ke-2 di atas yang huruf berwarna merah]. Bila
melihat kemampuan C dan I yang merupakan responden paling mampu dibanding yang lain,
maka sesunguhnya jawaban salah yang diberikan menunjukkan bahwa pola kerja keduanya
tidak teliti (careless), aslinya mereka berdua mampu menyelesaikan soal ini dengan mudah dan
betul (atau dalam konteks kuesioner menyetujui pernyataan yang ada). Hal ini karena soal (atau
pernyataan) yang lebih sulit pun bisa diselesaikan dengan benar, sehingga tingkat kesulitan
yang lebih rendah tidak akan menjadi masalah bagi mereka berdua untuk menyelesaikannya.
Kedua, pada baris ketiga untuk responden H (warna biru), dia tidak mengisi jawaban untuk
pertanyaan f (kosong atau data hilang), berdasar definisi Rasch dapat disimpulkan bahwa H
sesungguhnya mampu untuk mengerjakan dan jawabannya betul (atau dalam konteks kuesioner
menyetujui pernyataan yang diajukan). Hal ini berhubung, soal dengan tingkat kesulitan lebih
tinggi pun dapat diselesaikan dengan benar sehingga, H diprediksi oleh pemodelan Rasch,
bahwa kemampuan yang dimilikinya dapat mengerjakan soal yang tidak diisi tersebut. Hal ini
juga dibuktikan dengan perbandingan-nya terhadap baris ke-4, untuk responden E, yang sama-
sama memiliki skor mentah sama (6), namun peringkat H lebih tinggi berhubung dia lebih
mampu menyelesaikan soal yang lebih sulit dibandingkan responden E. Dengan kata lain, skor
mentah sesungguhnya untuk H bukanlah 6, namun 7. Hal yang sama juga terjadi pada
responden F (huruf berwarna biru pada baris ke-8), soal c yang ternyata merupakan soal yang
paling mudah ternyata tidak dapat dijawab (kosong atau data hilang), namun pemodelan Rasch
memprediksi bahwa kemampuan yang dimiliki oleh F akan mampu menyelesaikan hal ini,
sehingga diperkirakan skor mentahnya bukanlah 3, namun 4, yang ditunjukkan kemampuan F
diapit sama dengan responden B dan G (yang skor mentahnya sama-sama 4).
Ketiga, pada baris ke-5 dan ke-6 masing-masing untuk responden A dan J, mempunyai nilai skor
mentah yang sama, yaitu 5 (huruf berwarna kuning). Secara tradisional kita tidak bisa
membedakan kemampuan responden dengan jumlah skor mentah yang sama; namun dalam
pemodelan Rasch hal ini mudah diatasi. Dengan melihat konsistensi responden untuk menjawa
soal yang sulit (atau pernyataan yang susah disetujui), maka akan terlihat bahwa A
kemampuannya lebih tinggi dibanding J, walaupun skor mentahnya sama. Hal ini karena A lebih
sukses mengerjakan soal yang tingkat kesulitannya lebih tinggi dibanding J.
Keempat, pada baris ke-9, responden G mendapat skor mentah 4, satu hal yang unik adalah
responden ini dapat menyelesaikan soal yang tarafnya lebih sulit, soal d (dilambangkan dengan
angka 1 yang berwarna merah). Berdasarkan definisi Rasch, responden dengan kemampuan
lebih rendah tidak akan punya peluang untuk menyelesaikan taraf soal yang lebih sulit (atau
menyetujui satu pernyataan), oleh karenanya bisa disimpulkan bahwa jawaban yang diberikan
oleh G tersebut tidak lain adalah tebakan yang kebetulan benar (lucky guess), sehingga bisa
disimpulkan skor mentahnya bukanlah 4, namun bisa jadi adalah 3 (ditempatkan dibawah G
yang skor mentahnya juga 3).
Bagaimana contoh keempat penjelasan di atas dapat diperoleh? balik lagi kepada definisi yang
disebut oleh Rasch, bahwa probabilitas untuk berhasil tergantung kepada perbedaan antara
kemampuan sesorang dan tingkat kesulitan butir soal/aitem. Untuk data yang berbentuk
dikotomi, pemodelan Rasch menggabungkan suatu algoritma yang menyatakan hasil ekspektasi
probabilistik dari aitem i dan responden n, yang secara matematis dinyatakan sebagai:
Pni (Xni = 1 I n, i) = (e^(n i)) / (1 + e^(n i))
dimana: Pni (Xni = 1 I n, i) adalah probilitas dari responden n dalam aitem i untuk
menghasilkan jawaban betul (x = 1); dengan kemampuan responden, n, dan tingkat kesulitan
aitem i.
Persamaan di atas dapat lebih disederhanakan dengan memasukkan fungsi logaritma dan
menjadikannya:
log (Pni (Xni = 1 I n, i)) = n i
Sehingga probabilitas akan satu keberhasilan dapat dituliskan sebagai:
probabilitas untuk berhasil = kemampuan responden tingkat kesulitan aitem
Bila balik lagi melihat contoh keempat penjelasan di atas menunjukkan betapa mudah dan
praktisnya aplikasi pemodelan Rasch untuk melakukan analisis, penjelasan dan kesimpulan dari
data satu ujian atau kuesioner survey yang ada. Intinya adalah kembali kepada defisini yang
diberikan oleh Georg Rasch. Pola respon yang diberikan menunjukkan validitas dari tiap
responden (person) kepada setiap butir soal (item). Sehingga hal ini menyebabkan pemodelan
Rasch mampu menjadikan kita menetapkan validitas konsep dari setiap butir soal. Suatu butir
soal atau aitem, dikatakan valid ketika dia mampu untuk membedakan antara responden yang
mampu dengan yang tidak mampu. Terdapat dua hal yang perlu dibahas lebih lanjut akan hal ini.
Kemungkinan pertama adalah ketidaksesuaian responden yang terlibat dalam ujian yang
diberikan (atau partisipan dalam survey kuesioner), hal ini karena hasil yang diberikannya
memang tidak sesuai dengan yang diharapkan. Pemodelan Rasch dapat mendeteksi adanya
responden yang memang tidak sesuai dilibatkan dalam pengumpulan data dan dapat
mengemukakan argumen kenapa dia perlu dikeluarkan karena tidak sesuai dengan model yang
ada. Temuan ini jelas akan berkontribusi secara penting dalam riset yang dijalankan. Tidak
seperti halnya dalam praktek pengolahan data statistik tradisional yang dilakukan tidak dapat
diketahui secara pasti, namun dalam pemodelan Rasch akan muncul dengan sendirinya.
Kemungkinan kedua adalah sehubungan dengan butir soal atau aitem yang digunakan. Bila
ternyata respon yang didapati bahwa terdapat aitem tidak dapat membedakan responden
kemampuan responden; antara yang mampu dan yang tidak mampu, maka butir soal tersebut
perlu untuk direvisi ulang atau malah aitem yang bersangkutan dibuang saja. Dalam suatu
kondisi ekstrem tertentu dimana hasil yang didapat sangat tidak sesuai, maka kita perlu
memperbaiki semua butir soal yang ada atau memperbaiki semua pernyataan karena memang
tidak mengukur apa yang seharusnya diukur (validitas disangsikan). Hal ini jelas menunjukkan
bahwa pemodelan Rasch tidak sekedar mengukur reliabilitas item saja, namun juga menguji
validitas konsep interumen yang digunakan.
Keunggulan pemodelan Rasch dibanding metoda lainnya, khususnya teori tes klasik,
kemampuan melakukan prediksi terhadap data yang hilang (missing data), yang didasarkan
kepala pola respon yang sistematis. Hal ini jelas menjadikan hasil analisis statistik yang lebih
akurat dalam penelitian yang dilakukan. Dalam model statistik lain memperlakukan data yang
hilang dengan nilai nol (0); kemampuan prediksi pemodelan Rasch akan menghasilkan
kemungkinan nilai terbaik dari data yang hilang tersebut. Dengan cara tersebut membuat data
yang ada diolah sebagai data yang lengkap, dimana saat yang sama metoda statistik lain
menjadi tidak sensitif karena ketidaklengkapan data yang diolah sehingga menghasilkan nilai-
nilai yang tidak akurat untuk rata-rata, standar deviasi, apalagi untuk chi-kuadrat dan uji-z. Yang
lebih penting lagi, pemodelan Rasch mampu menghasilkan nilai pengukuran standar error untuk
instrumen yang digunakan yang dapat meningkatkan ketepatan perhitungan.
Walhasil, pengujian responden (person) dan butir soal (item) secara bersamaan menunjukkan
bahwa riset kuantitatif seperti yang biasa dilakukan oleh disiplim ilmu sains, juga dapat dilakukan
hal yang sama dengan disiplin ilmu pengetahuan sosial yang biasanya diidentikan dengan riset
kualitatif. Konsekwensi berikutnya adalah asumsi peringkat yang dibuat saat kuesioner
dikonsepkan ataupun butir soal yang disusun, melalui pemodelan Rasch ini dapat diverifikasi
apakah memang hal ini menghasilkan pola yang diharapkan atau tidak. Bentuk kalibrasi ini
sangat unik dan hanya didapati pada pemodelan Rasch saja, dimana hal ini modelnya sama
seperti persyaratan kalibrasi yang harus dipenuhi dalam pengukuran oleh instrumen dalam
disiplin ilmu sains dalam melakukan kalibrasi pada skala pengukurannya. Dengan kata lain,
kalibrasi dilakukan dalam pemodelan Rasch secara sekaligus dalam tiga hal, yaitu skala
pengukuran, responden (person), dan butir soal (item). Suatu instrumen yang tidak dikalibrasi
maka mempunyai kemungkinan menghasilkan data yang tidak valid dan bisa menyebabkan
kegiatan riset yang dilakukan mengalami kegagalan.





Scalogram (matriks Guttman)
search
Untuk bisa memahami pemodelan Rasch (Rasch model) melalui pendekatan yang lebih mudah,
maka mengenalkan scalogram atau biasa disebut matriks Guttman merupakan hal yang logis
dilakukan. Guttman yang memberikan ide tentang salah satu teknik pengukuran dalam riset
kuantitatif, memperkenalkan pemeringkatan skala sikap dari yang terendah ke yang tertinggi; hal
ini oleh beliau dikembangkan menjadi suatu matriks tertentu. Scalogram tidak lain adalah
mengisi respon yang diberikan oleh masing-masing partisipan dalam suatu ujian atau survey,
respon tersebut diurutkan secara sistematis dari peringkat yang rendah ke peringkat yang tinggi
sehingga memudahkan untuk menganalisis dan memberikan penjelasan serta memberikan
prediksi akan kemampuan individu responden sekaligus tingkat kesulitan soal atau butir aitem.

Sebagai contoh, suatu ujian (atau survey) yang telah dilakukan terhadap sepuluh orang
responden dengan jumlah soal (atau pernyataan yang diujikan) sebanyak sepuluh buah, sudah
disusun dalam tabel seperti di bawah ini:

Butir soal (aitem)
Skor mentah

a b c d e f g h i j
Responden
A 1 1 1 0 0 1 0 1 0 0 5
B 1 0 1 0 0 1 0 0 1 0 4
C 1 1 1 1 1 0 1 1 1 1 9
D 0 1 1 0 0 0 0 0 0 0 2
E 1 0 1 1 1 0 0 0 1 1 6
F 1 1

0 0 1 0 0 0 0 3
G 0 0 1 1 1 1 0 0 0 0 4
H 1 1 1 0 1

0 1 0 1 6
I 1 0 1 0 1 1 0 1 1 1 7
J 0 1 1 1 1 0 0 0 1 0 5
Tabel di atas menunjukkan sepuluh orang responden (A sampai J), menyelesaikan 10 butir soal
ujian (a ke j). Terdapat satu orang responden yang mendapat skor mentah tertinggi (C), dan satu
orang dengan skor yang terendah (D). Dua orang responden, tidak mengisi jawaban (data
hilang) untuk dua soal berbeda, yaitu responden F untuk pertanyaan c, dan responden H untuk
pertanyaan f. Angka 1 dalam tabel melambangkan soal yang dijawab dengan betul (atau dalam
kuesioner menunjukkan persetujuan atas pernyataan), sedangkan angka 0 menunjukkan soal
yang dijawab dengan salah oleh responden (dalam kuesioner melambangkan ketidaksetujuan).
Penjelasan yang bisa dilakukan untuk tabel di atas sangat terbatas seperti yang ditulis di
paragraf di atas. Walaupun data yang ditampilkan sangat lengkap, namun kita tidak bisa
meramalkan sesuatu tentang kemampuan responden dibanding lainnya secara sistematis;
ataupun tentang butir soal yang diberikan mengenai tingkat kesulitannya dibanding soal lain.
Skor mentah yang ditampilkan dibagian kiri tabel juga tidak bisa membuat kita membuat kita bisa
menyimpulkan sesuatu yang berharga, khususnya bila ingin mengetahui interaksi antara
responden dengan butir soal. Paling maksimal yang bisa diamati adalah urutan dari skor mentah
tertinggi ke skor yang terendah. Dalam konteks kuesioner, maka skor mentah tersebut adalah
data ordinal yang mempunyai keterbatasan untuk bisa diinterpretasi secara memuaskan.
Jika suatu ujian atau survey bermaksud untuk mengetahui kemampuan seseorang, kita tidak
dapat melakukannya hanya dengan mengandalkan pengamatan pada skor mentah yang didapat
saja. Jika kita menanggap responden yang mendapat skor mentah tertinggi menunjukkan orang
yang lebih mampu (atau dalam survey lebih banyak menyetujui), hal ini akan menjadi hal yang
menyulitkan untuk menjelaskan dan membedakan bila didapati dua responden ternyata
mempunyai skor mentah yang sama. Singkatnya kita tidak mempunyai dasar dan alasan yang
jelas untuk menjelaskan hal tersebut. Dengan kata lain kita harus membuat suatu cara perkiraan
yang dapat meramalkan bagaimanakah tingkat kesuksesan responden terhadap satu butir soal
tertentu, yang akan mudah dibandingkan dengan responden lain. Untuk melihat kemampuan
responden mengerjakan soal (atau dalam kuesioner: menyetujui suatu pernyataan), kita perlu
mengetahui dengan pasti tingkat kesulitan butir soal (dalam kusienoer: tingkat persetujuan) pada
responden untuk memutuskan perinkat butir soal tersebut.
Untuk melakukan hal itu, maka tabel di atas harus diubah menjadi matriks Guttman (biasa
disebut scalogram). Dengan matriks Guttman data disusun berdasar dari tingkat mudah ke
tingkat yang tersulit; demikian juga secara bersamaan responden diurutkan dari yang peringkat
terendah menuju ke yang paling mampu, sepeti tabel di bawah ini:

Butir soal (aitem) Skor mentah

soal mudah

soal sulit

c a b e f i d h j g
Paling mampu C 1 1 1 1 0 1 1 1 1 1 9
Responden
I 1 1 0 1 1 1 0 1 1 0 7
H 1 1 1 1

0 0 1 1 0 6
E 1 1 0 1 0 1 1 0 1 0 6
A 1 1 1 0 1 0 0 1 0 0 5
J 1 0 1 1 0 1 1 0 0 0 5
B 1 1 0 0 1 1 0 0 0 0 4
F

1 1 0 1 0 0 0 0 0 3
G 1 0 0 1 1 0 1 0 0 0 4
kurang mampu D 1 0 1 0 0 0 0 0 0 0 2
Tabel di atas (scalogram) memberikan informasi yang lebih berharga dibandingkan dengan tabel
sebelumnya. Pada bagian kolom, butir soal diurutkan dari soal termudah (c), terus berlanjut
menuju soal yang tersulit (g) (dalam konteks survey kuesioner dari yang mudah disetujui menuju
kepada yang paling sukar untuk disetujui). Sedangkan dari baris responden, diurutkan berdasar
kemampuan secara sistematis dari yang terendah, D dengan skor mentah-nya 2, terus ke G
(skor 4), dan berlanjut ke yang paling mampu, yaitu C (skor tertinggi 9).
Dari tabel juga bisa diamati dengan mudah bahwa responden C, mampu mengerjakan semua
soal yang mudah dengan baik (atau menyetujui pernyataan) dan terus berlanjut sampai soal
yang tersulit (yang paling sukar disetujui). Sedangkan responden yang kurang mampu (D, G dan
F misalnya) terlihat hanya dapat mengerjakan soal yang mudah saja (atau menyetujui
pernyataan yang juga akur buat yang lain), sedangkan soal yang susah tidak bisa dia kerjakan
(atau pernyataan h, j dan g yang tidak bisa mereka setujui).
Penjelasan mengenai matriks Guttman menunjukkan bahwa prinsip pengurutan berdasar
kemampuan dan tingkat kesulitan soal sangatlah berguna untuk menjelaskan kemampuan,
bahkan melakukan prediksi mengenai kemampuan seseorang. Matriks Guttman tidak lain
merupakan dasar dari pemodelan Rasch.

























Ukuran Sampel untuk
kalibrasi aitem
search
Dalam suatu penelitian kuantitatif jenis survey yang menggunakan kuesioner, penentuan jumlah
sampel yang diperlukan untuk merepresentasikan populasi menjadi hal krusial yang harus
diperhitungkan oleh peneliti. BIla sampel terlalu sedikit maka dianggap tidak mewakili keragaman
populasi, sedangkan sampel yang terlalu besar tentu menyebabkan beban kerja (waktu dan
dana) yang juga banyak. Pemodelan Rasch menawarkan pendekatan berbeda dibanding model
statistik lainnya dalam hal penentuan sampel dari populasi.
Metoda penentuan sampel yang paling populer adalah yang diusulkan oleh Krejcie dan Morgan,
Persamaan yang dibuat oleh Krejcie dan Morgan dalam penentuan sampel tergantung dari
jumlah populasi, tingkat akurasi dalam bentuk proporsi (misal 5% atau 0,05), dan proporsi
populasi (biasanya 0,5). Contoh tabel ukuran sampel dari populasinya Morgan terdapat pada
Lampiran X. Seperti terlihat pada tabel di tersebut untuk jumlah populasi sebanyak 500 orang,
maka sampel minimal yang harus didapatkan adalah 217 orang; bila tidak maka hasil yang
didapatkan tidak dapat dikatakan merepresentasikan populasi. Asumsi yang digunakan oleh
persamaan Krejcie dan Morgan adalah sampel yang harus didapat dari populasi secara acak.
Metoda lain yang juga digunakan untuk penentuan sampel adalah Statistical Power Analysis dari
Cohen. Terdapat empat faktor yang menentukan menurut Cohen dalam penentuan sampel dari
satu populasi, yaitu: a. tingkat signifikansi yang ingin didapatkan; b. efek dari ukuran; c.
ketajaman analisis yang diinginkan; dan d. estimasi keragaman. Untuk ukuran populasi 500
orang, menurut persamaan Cohen, maka cukup 85 sampel saja perlu didapatkan bila hanya
ingin melakukan studi dengan korelasi; namun bila melakukan studi yang menggunakan regresi
berganda, sampel yang diperlukan adalah 116.
Pemodelan Rasch menawarkan cara yang berbeda, yang utama dalam hal ini adalah aspek
kalibrasi instrumen. Setiap kali kita melakukan kalibrasi aitem, kita menduga hasil yang sedikit
berbeda. Pada prinsipnya saat ukuran sampel bertambah, maka perbedaan hasil menjadi makin
kecil. Tentu jika ukuran sampel sangat kecil, misal kurang dari sepuluh, hasil kalibrasi sangat
tidak stabil dan tidak sensitif. Namun bila sampel terlalu besar, juga tidak efisien dan mahal,
walau hasilnya lebih bagus. Sehingga berapakah jumlah sampel sehingga kalibrasi aitem
menghasilkan stabilitas taraf pengukuran dari instrumen yang digunakan?
Pemodelan Rasch menjawabnya dari skala linier yang digunakan yaitu logit (logarithma odds
unit). Saat kita mengukur ketinggian seseorang, katakanlah tinggi badannya adalah 170 cm,
maka stabilitas hasil pengukuran kurang lebih 1 cm (ada dalam kisaran 169 cm sampai 171 cm),
tidak ada yang mengukur ketepatannya sampai taraf 0,1 cm ataupun 0,01 cm. Demikian juga
dalam pemodelan Rasch, tidak ada taraf kesukaran item sampai kepada 0,1 logit ataupun 0,01
logit. Kenyataanya stabilitas +/- 0,3 logit adalah ukuran yang paling bagus yang bisa diperoleh.
Berbagai riset menunjukkan bahwa perubahan dalam skala satu logit berhubungan dengan
peningkatan satu tingkat. Sehingga ketika kalibrasi instrumen stabil nilainya dalam skala logit
tertentu, maka itu menunjukkan ketepatan tingkat yang diukur.
Secara teoritis, kestabilan kalibrasi aitem seusai dengan model dari galat standar (atau standard
error atau SE). Untuk sampel sebanyak N yang mengerjakan instrumen dengan jumlah aitem
yang sesuai, nilai rata-rata peluang ada di antara 0,5 sampai 0,87; sehingga model galat
standar-nya ada dalam kisaran: 2/(N) < SE < 3/N atau 4/SE^2 < N < 9/SE^2
Dengan tingkat kepercayaan 99% maka itu berada dalam kisaran 2,6 SE. Maka untuk
kisaran 1 logit, nilai SE berada dalam kisaran 1/2.6 logit, sehingga penentuan jumlah
sampelnya adalah: 4/((2.6)^2) < N < 9/((2.6)^2), yaitu: 27 < N < 61 (kisaran lengkap lihat
tabel dibawah yang dibuat oleh Linacre). Sehingga bila menargetkan jumlah sampel sebanyak
50 orang sudah cukup untuk mendapatkan hasil estimasi yang stabil dalam skala 1 logit.
Jumlah sampel sebanyak 30 orang layak untuk ujian rintis (pilot study), yang merupakan kisaran
pada 1 logit dengan tingkat kepercayaan 95%. Jika sampel yang lebih besar bisa didapatkan
pengujian instrumen bisa dilakukan dengan mengelompokkan mereka kepada kelompok
homogen yang lebih kecil misal berdasar jender atau usia misalnya, untuk mengetahui
kestabilan kalibrasi item dalam situasi pengukuran yang berbeda.
Kalibrasi aitem stabil dalam Tingkat Kepercayaan kisaran sampel ukuran sampel yg layak
1 logit 95% 16 -36 30
1 logit 99% 27-61 50
0,5 logit 95% 64-144 100
0,5 logit 99% 108-243 150

Anda mungkin juga menyukai