PEMBEHASAN
Misalnya akan dihitung validitas item nomor 6, maka skor item tersebut
disebut variabel X dan skor total disebut Y. Setelah dilakukan perhitungan
maka diperoleh data sebagai berikut :
Kemudian dimasukkan ke dalam rumus korelasi product moment
angka kasar :
2. Uji Reliabilitas
Reliabilitas merupakan penerjemahan dari kata reliability yang mempunyai
asal kata rely dan ability. Pengukuran yang memiliki reliabilitas tinggi disebut
sebagai pengukuran yang reliabel. Reliabilitas mempunyai berbagai makna lain
seperti keterpercayaan, keterandalan, keajegan, kestabilan, konsistensi dan
sebagainya, namun ide pokok yang terkandung dalam konsep reliabilitas adalah
sejauh mana hasil suatu pengukuran dapat dipercaya. Sedangkan suatu instrumen
dikatakan reliabel (andal) jika jawaban seseorang terhadap pertanyaan adalah
konsisten atau stabil dari waktu ke waktu.
Uji reliabilitas digunakan untuk mengetahui konsistensi alat ukur, apakah alat
pengukur yang digunakan dapat diandalkan dan tetap konsisten jika pengukuran
tersebut diulang.
a) Cara Menghitung Reliabilitas Instrumen
Rumus yang digunakan untuk mencari reliabilitas dan banyak digunakan
orang ada dua rumus yang dikemukakan oleh Kuder dan Richardson (dalam
Suharsimi, 2007) yaitu K-R. 20 dan K-R. 21.
3. Taraf Kesukaran
Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar.
Bilangan yang menunjukkan sukar dan mudahnya suatu soal disebut indeks
kesukaran (difficulty index). Besarnya indeks kesukaran antara 0,00 sampai 1,0.
Indeks kesukaran ini menunjukkan taraf kesukaran soal. Soal dengan indeks
kesukaran 0,0 menunjukkan bahwa soal itu terlalu sukar, sebaliknya indeks 1,0
menunjukkan bahwa soalnya terlalu mudah.
Di dalam istilah evaluasi, indeks kesukaran ini diberi simbol P singkatan dari
“Proporsi”. Rumus mencari P adalah :
4. Daya Pembeda
Daya pembeda soal adalah kemampuan soal untuk membedakan antara siswa
yang pandai (kemampuan tinggi) dengan siswa yang bodoh (kemampuan rendah).
Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi,
disingkat D. Indeks diskriminasi berkisar antara 0,00 sampai 1,00. Bedanya dengan
indeks kesukaran adalah kalai indeks kesukaran tidak mengenal tanda negatif (-),
tapi pada indeks diskriminasi ada tanda negatif. Tanda negatif digunakan jika
sesuatu soal “terbalik” menunjukkan kualitas teste. Yaitu anak pandai disebut bodoh
dan anak bodoh disebut pandai. Dengan demikian ada tiga titik pada daya pembeda,
yaitu :
Untuk suatu soal yang dapat dijawab benar oleh siswa pandai maupun siswa
bodoh, maka soal itu tidak baik karena tidak mempunyai daya pembeda. Demikian
pula jika semua siswa baik yang pandai maupun yang bodoh tidak dapat menjawab
dengan benar, maka soal tersebut tidak baik juga, karena tidak mempunyai daya
pembeda. Soal yang baik adalah soal yang dapat dijawab benar oleh siswa-siswa
yang pandai saja.
Seluruh pengikut tes dikelompokkan menjadi 2 kelompok, yaitu kelompok
pandai atau kelompok atas (upper group) dan kelompok bodoh atau kelompok
bawah (lower group).
Jika seluruh kelompok atas dapat menjawab soal tersebut dengan benar,
sedang seluruh kelompok bawah menjawab salah, maka soal tersebut mempunyai
D paling besar, yaitu 1,00 Sebaliknya jika semua kelompok atas menjawab salah,
tetapi semua kelompok bawah menjawab benar, maka nilai D = -1,00. Tetapi jika
siswa kelompok atas dan siswa kelompok bawah sama-sama menjawab benar atau
sama-sama menjawab salah, maka soal tersebut mempunyai nilai D = 0,00, karena
tidak mempunyai pembeda sama sekali.
Keterangan :
IP = Indeks pengecoh/distraktor
P = Jumlah peserta yang memilih pengecoh
N = Jumlah peserta yang ikut tes
B = Jumlah peserta yang menjawab benar pada butir soal
n = Jumlah alternatif jawaban/option
Catatan :
Bila semua subyek menjawab benar pada butir soal tertentu (semua sesuai
kunci), maka IP = 0 yang berarti soal tersebut jelek, dengan demikian pengecoh
tidak berfungsi.
Klasifikasi pengecoh berdasarkan Indeks Pengecoh sebagai berikut:
Sangat baik IP = 76% - 125%
Baik IP = 51%- 75% atau 126% - 150%
Kurang baik IP = 26% - 50% atau 151% - 175%
Buruk IP = 0%-25% atau 176% - 200%
Sangat buruk IP = lebih dari 200%
Distraktor sudah berfungsi dengan baik jika sudah dipilih oleh lebih dari 5%
pengikut tes (p > 5%) dan jika kurang atau sama dengan 5% (p ≤ 5%) berarti
distraktor tidak berfungsi dengan baik.
Dengan demikian efektifitas distraktor adalah seberapa baik pilihan yang
salah tersebut dapat mengecoh peserta tes yang memang tidak mengetahui kunci
jawaban yang tersedia. Semakin banyak peserta tes yang memilih distraktor
tersebut, maka distaktor itu dapat menjalankan fungsinya dengan baik.