P B
N
• Makin besar nilai P, butir soal semakin mudah
• Makin kecil nilai P, butir soal semakin sukar
• Rentangan nilai P adalah:
0.0 P 1.0
Sebuah butir mempunyai tingkat kesukaran
baik, dalam arti dapat memberikan
distribusi yang menyebar, jika tidak terlalu
sukar dan tidak terlalu mudah
Untuk memperoleh skor yang menyebar,
nilai P harus makin mendekati 0,5
kriterianya adalah sebagai berikut:
0.3 P 0.7
P B
N
• Butir 1: P = 1.0
• Butir 2: P = 0.0
• Butir 3: P = 0.5
• Butir 4: P = 0.5
• Butir 5: P = 0.5
• Butir 6: P =
0.625
Suatu butir soal mempunyai daya pembeda
baik jika kelompok siswa pandai menjawab
benar butir soal lebih banyak daripada
kelompok siswa tidak pandai
Daya beda suatu butir soal dapat dipakai
untuk membedakan siswa yang pandai dan
tidak pandai
Sebagai tolok ukur pandai atau tidak pandai
adalah skor total dari sekumpulan butir
yang dianalisis
Tidak ada uji signifikansi untuk daya pembeda
Rentangan daya beda adalah
-1.0 ≤ D ≤ 1.0
Butir soal mempunyai daya pembeda baik
jika D ≥ 0.30.
Tafsiran harga D :
0,00 – 0,19 : buruk
0,20 – 0,29 : sedang
0,30 – 0,39 : cukup
0,40 – 0,70 : baik
0,70 – 1,00 : baik sekali
Cara Pertama: D Ba Bb
Na Nb
Cara Kedua:
D rpbis
Y1 Y p x
Cara Ketiga: 1 p
Y x
Y2 Y 2
Y
denga
n n n
B B
D a b
Na Nb
Butir 1: D = 0.0
Butir 2: D = 0.0
Butir 3: D = 1.0
Butir 4: D = -1.0
Butir 5: D = 0.5
Dalam hal ini: Aa, Bb, Cc, dan Dd Butir 6: D = 0.75
merupakan kelompok atas dan Butir 7: D = 0.0
Ee, Ff, Gg, dan Hh merupakan
kelompok bawah
1.798 100.5.5 11..625
D 7 5.375
798
0.903
D rbis 1 x
Y Y p
Y f (z)
1.798 0.3989
D 7 5.375 0.5 1.13
px = 0.5; z = 0; f(z) =
0.3989
Pengecoh disebut berfungsi jika:
(1) dipilih oleh sebagian siswa,
(2) siswa kelompok pandai memilih lebih
sedikit daripada siswa kelompok tidak
pandai
Suatu butir soal mempunyai pengecoh yang
baik jika banyaknya siswa yang memilih
pengecoh tersebut sekurang-kurangnya
2,5% (atau 5%) dan siswa kelompok pandai
memilih lebih sedikit daripada siswa
kelompok tidak pandai
Ada yang mengatakan bahwa pada suatu
butir soal, pengecoh harus dipilih secara
merata oleh peserta tes
Indeks Pengecoh (IP) dirumuskan sebagai
berikut:
IP P x100%
(NB) /(n1)
dengan:
P = banyaknya peserta tes yang memilih pengecoh
tertentu
N = banyaknya seluruh peserta tes
B = banyaknya peserta tes yang menjawab benar butir
soal yang bersangkutan
n = banyaknya alternatif jawaban
Instrumen disebut valid apabila
mengukur apa yang seharusnya
diukur
Ada tiga jenis validitas: validitas isi,
validitas berdasar kriteria, dan
validitas konstruks
Untuk melihat validitas isi suatu
instrumen, diperlukan seorang atau lebih
validator
Tugas pokok validator adalah melakukan
penilaian konten (content analysis)
terhadap instrumen, antara lain:
(1) mencocokkan kisi-kisi dengan definisi
konseptual/operasional variabel dan
(2) melakukan penelaahan terhadap
butir-butir instrumen
Apakah variabel telah didefinisikan dengan
benar?
Apakah kisi-kisi telah sesuai dengan definisi
variabel?
Apakah diperlukan revisi pada kisi-kisi?
Jika diperlukan revisi, pada bagian mana?
Segi Materi (Substansi)
(1) Materi sudah dipelajari oleh siswa
(2) Butir soal sesuai dengan indikator
(3) Antar butir tidak saling tergantung
Segi Konstruksi
(1) Pokok soal dirumuskan dengan singkat dan jelas
(2) Pokok soal bebas dari pernyataan yang dapat menimbulkan
penafsiran ganda
(3) Butir soal tidak tergantung kepada jawaban butir soal yang lain
(4) Pengecohnya sudah disusun dengan baik
Segi Bahasa
(1) Soal menggunakan bahasa Indonesia yang baik dan benar
(2) Soal menggunakan bahasa yang komunikatif
(3) Soal tidak menggunakan bahasa yang berlaku setempat
Berilah tanda check pada kolom yang sesuai, jika butir soal
telah memenuhi kriteria penelaahan
Validitas
a. validitas isi
b. validitas berdasar kriteria
c. validitas konstruks
Reliabilitas
a. KR-20 (tes pilihan ganda)
b. Cronbach Alpa (angket, tes uraian, tes
pilihan ganda)
Secara teoretik, konsep reliabilitas dikembangkan dari teori-
teori pada teori tes klasik.
Asumsi pada teori tes klasik:
Instrumen disebut reliabel jika menghasilkan skor
yang konsisten
Instrumen disebut reliabel jika menghasilkan skor
dengan kesalahan yang kecil
Ada berbagai macam cara untuk mengestimasi
koefisien reliabilitas, misalnya rumus Cronbach
alpha atau rumus Kuder-Richardson (KR)
Jika koefisien reliabilitas disebut r11 maka tidak
dilakukan uji signifikansi untuk r11, tetapi
ditentukan nilai ambang batas tertentu untuk r11
Biasanya digunakan nilai 0.70 sebagai ambang
batas. Jadi, suatu instrumen dikatakan reliabel jika
r11 ≥ 0.70
Dengan rumus KR-20 (untuk tes pilihan
ganda)
q=1-p
Dengan rumus Cronbach Alpha
(untuk angket, atau tes pilihan
ganda, atau tes uraian)
Ini berarti, angket tersebut reliabel
No Interval Kriteria