The Application Authentic Assesment

Tujuan
 Menganalisis tingkat kesukaran butir soal.

 Menganalisis daya pembeda butir soal.
 Menganalisis keberfungsian distraktor dari
suatu option pilihan berganda
 Menyeleksi butir-butir soal yang berkualitas
berdasarkan hasil analisis tingkat kesukaran,
daya pembeda dan analisis distraktor
Tingkat kesukaran butir soal adalah proporsi
banyaknya peserta yang menjawab benar butir
soal tersebut terhadap seluruh peserta tes
P B
N
• Makin besar nilai P, butir soal semakin mudah
• Makin kecil nilai P, butir soal semakin sukar
• Rentangan nilai P adalah:
0.0  P  1.0
 Sebuah butir mempunyai tingkat kesukaran
baik, dalam arti dapat memberikan
distribusi yang menyebar, jika tidak terlalu
sukar dan tidak terlalu mudah
 Untuk memperoleh skor yang menyebar,
nilai P harus makin mendekati 0,5
kriterianya adalah sebagai berikut:
0.3  P  0.7
P B
N
• Butir 1: P = 1.0
• Butir 2: P = 0.0
• Butir 3: P = 0.5
• Butir 4: P = 0.5
• Butir 5: P = 0.5
• Butir 6: P =
0.625
 Suatu butir soal mempunyai daya pembeda
baik jika kelompok siswa pandai menjawab
benar butir soal lebih banyak daripada
kelompok siswa tidak pandai
 Daya beda suatu butir soal dapat dipakai
untuk membedakan siswa yang pandai dan
tidak pandai
 Sebagai tolok ukur pandai atau tidak pandai
adalah skor total dari sekumpulan butir
yang dianalisis
 Tidak ada uji signifikansi untuk daya pembeda
 Rentangan daya beda adalah
-1.0 ≤ D ≤ 1.0
 Butir soal mempunyai daya pembeda baik
jika D ≥ 0.30.
 Tafsiran harga D :
0,00 – 0,19 : buruk
0,20 – 0,29 : sedang
0,30 – 0,39 : cukup
0,40 – 0,70 : baik
0,70 – 1,00 : baik sekali
Cara Pertama: D  Ba  Bb
Na Nb
Cara Kedua:

D  rpbis  
Y1  Y  p x
Cara Ketiga:   1 p
 Y  x
Y2   Y  2
Y   
denga 
n n  n 
B B
D a  b
Na Nb
 Butir 1: D = 0.0
 Butir 2: D = 0.0
 Butir 3: D = 1.0
 Butir 4: D = -1.0
 Butir 5: D = 0.5
Dalam hal ini: Aa, Bb, Cc, dan Dd  Butir 6: D = 0.75
merupakan kelompok atas dan  Butir 7: D = 0.0
Ee, Ff, Gg, dan Hh merupakan
kelompok bawah
 1.798  100.5.5  11..625
D  7 5.375
798
 0.903
D  rbis   1  x 
Y Y p
 Y  f (z) 
 1.798 0.3989
D  7 5.375 0.5   1.13
px = 0.5; z = 0; f(z) =
0.3989
 Pengecoh disebut berfungsi jika:
(1) dipilih oleh sebagian siswa,
(2) siswa kelompok pandai memilih lebih
sedikit daripada siswa kelompok tidak
pandai
 Suatu butir soal mempunyai pengecoh yang
baik jika banyaknya siswa yang memilih
pengecoh tersebut sekurang-kurangnya
2,5% (atau 5%) dan siswa kelompok pandai
memilih lebih sedikit daripada siswa
kelompok tidak pandai
 Ada yang mengatakan bahwa pada suatu
butir soal, pengecoh harus dipilih secara
merata oleh peserta tes
 Indeks Pengecoh (IP) dirumuskan sebagai
berikut:
IP  P x100%
(NB) /(n1)
dengan:
P = banyaknya peserta tes yang memilih pengecoh
tertentu
N = banyaknya seluruh peserta tes
B = banyaknya peserta tes yang menjawab benar butir
soal yang bersangkutan
n = banyaknya alternatif jawaban
 Instrumen disebut valid apabila
mengukur apa yang seharusnya
diukur
 Ada tiga jenis validitas: validitas isi,
validitas berdasar kriteria, dan
validitas konstruks
 Untuk melihat validitas isi suatu
instrumen, diperlukan seorang atau lebih
validator
 Tugas pokok validator adalah melakukan
penilaian konten (content analysis)
terhadap instrumen, antara lain:
(1) mencocokkan kisi-kisi dengan definisi
konseptual/operasional variabel dan
(2) melakukan penelaahan terhadap
butir-butir instrumen
 Apakah variabel telah didefinisikan dengan
benar?
 Apakah kisi-kisi telah sesuai dengan definisi
variabel?
 Apakah diperlukan revisi pada kisi-kisi?
 Jika diperlukan revisi, pada bagian mana?
 Segi Materi (Substansi)
(1) Materi sudah dipelajari oleh siswa
(2) Butir soal sesuai dengan indikator
(3) Antar butir tidak saling tergantung
 Segi Konstruksi
(1) Pokok soal dirumuskan dengan singkat dan jelas
(2) Pokok soal bebas dari pernyataan yang dapat menimbulkan
penafsiran ganda
(3) Butir soal tidak tergantung kepada jawaban butir soal yang lain
(4) Pengecohnya sudah disusun dengan baik
 Segi Bahasa
(1) Soal menggunakan bahasa Indonesia yang baik dan benar
(2) Soal menggunakan bahasa yang komunikatif
(3) Soal tidak menggunakan bahasa yang berlaku setempat
Berilah tanda check pada kolom yang sesuai, jika butir soal
telah memenuhi kriteria penelaahan
 Validitas
a. validitas isi
b. validitas berdasar kriteria
c. validitas konstruks
 Reliabilitas
a. KR-20 (tes pilihan ganda)
b. Cronbach Alpa (angket, tes uraian, tes
pilihan ganda)
 Secara teoretik, konsep reliabilitas dikembangkan dari teori-
teori pada teori tes klasik.
 Asumsi pada teori tes klasik:
 Instrumen disebut reliabel jika menghasilkan skor
yang konsisten
 Instrumen disebut reliabel jika menghasilkan skor
dengan kesalahan yang kecil
 Ada berbagai macam cara untuk mengestimasi
koefisien reliabilitas, misalnya rumus Cronbach
alpha atau rumus Kuder-Richardson (KR)
 Jika koefisien reliabilitas disebut r11 maka tidak
dilakukan uji signifikansi untuk r11, tetapi
ditentukan nilai ambang batas tertentu untuk r11
 Biasanya digunakan nilai 0.70 sebagai ambang
batas. Jadi, suatu instrumen dikatakan reliabel jika
r11 ≥ 0.70
Dengan rumus KR-20 (untuk tes pilihan
ganda)
q=1-p
Dengan rumus Cronbach Alpha
(untuk angket, atau tes pilihan
ganda, atau tes uraian)
Ini berarti, angket tersebut reliabel
No Interval Kriteria
1. < 0,200 Sangat rendah
2. 0,200 – 0,399 Rendah
3. 0,400 – 0,599 Cukup
4. 0,600 – 0,799 Tinggi
5. 0,800 – 1,000 Sangat Tinggi

The Application Authentic Assesment

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

The Application Authentic Assesment

Diunggah oleh

Hak Cipta:

Format Tersedia

Tujuan

 Menganalisis tingkat kesukaran butir soal.

1. < 0,200 Sangat rendah

2. 0,200 – 0,399 Rendah

3. 0,400 – 0,599 Cukup

4. 0,600 – 0,799 Tinggi

5. 0,800 – 1,000 Sangat Tinggi

Anda mungkin juga menyukai