Anda di halaman 1dari 14

NAMA : RISQI MELDY TIARA PUTRI

1705122125

ANALISIS BUTIR SOAL

A. Validitas

Karakter pertama dan memiliki peranan sangat penting dalam instrument evaluasi adalah valid. Suatu
instrument dikatakan valid, seperti yang duterangkan oleh Gay (1983) dan Johnson & Johnson (2002),
apabila instrument yang digunakan dapat mengukur apa yang seharusnya diukur (Sukardi, 2008).

Pernyataan serupa juga disampaikan oleh Scarvia B. Anderson (dalam Arikunto, 1997) bahwa “A test is valid
if it measures what is purpose to measure”. Atau jika diartikan krang lebih, sebuah tes dikatakan valid
apabila tes tersebut mengukur apa yang hendak diukur. Dalam bahasa Indonesia “Valid” disebut dengan
istilah “Sahih”.

Menurut Sukardi (2008: 31) validitas instrument suatu evaluasi, tidak lain adalah derajat yang menunjukkan
dimana suatu tes mengukur apa yang hendak diukur. Validitas suatu instrument evaluasi mempunyai
beberapa makna penting diantaranya seperti berikut:

1) Validitas berhubungan dengan ketepatan interpretasi hasil tes atau instrument evaluasi untuk group
individual dan bukan instrument itu sendiri.

2) Validitas diartikan sebagai derajat yang menunjukkan kategori yang bisa mencakup kategori rendah,
menengah dan tinggi.

3) Prinsip suatu tes valid, tidak universal. Validitas suatu tes yang perlu diperhatikan oleh para peneliti
adalah bahwa Ia hanya valid untuk suatu tujuan tertentu saja.
1.1.2 Macam-macam Validitas

Menurut Sukardi (2008) secara metodologis validitas suatu tes dapat dibedakan menjadi empat macam, yaitu
validitas isi, validitas konstruk, validitas konkruen dan validitas prediksi. Macam-macam validitas
tersebut akan diuraikan sebagai berikut:

1) Validitas isi

Yang dimaksud validitas isi ialah derajat dimana sebuah tes evaluasi mengukur cakupan substansi yang ingin
diukur. Untuk mendapatkan validitas isi memerlukan dua spek penting, yaitu valid isi dan valid
teknik sampling.Valid isi mencakup khususnya, hal-hal yang berkaitan dengan apakah item-item evaluasi
menggambarkan pengukuran dalam cakupan yang ingin diukur. Sedangkan validitas teknik sampling
pada umunya berkaitan dengan bagaimanakah baiknya suatu sampel tes mempresentasikan total cakupan
isi (Sukardi, 2008).

Sedangkan Arikunto (1997: 64) sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus
tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan. Oleh karena materi yang diberikan
tertera dalam kurikulum maka validitas isi juga disebut validitas kurikuler.

2) Validitas Konstruk

Validitas konstruk merupakan derajat yang menunjukkan suatu tes mengukur sebuah konstruk sementara
atau Hyptotetical construct. Secara definitife, konstruk merupakan suatu sifat yang tidak dapat
diobservasi, tetapi kita dapat merasakan pengaruhnya melalui salah satu atau dua indera kita (Sukardi,
2008).

Sedangkan Arikunto(1997: 64) sebuah tes dikatakan memiliki validitas konstruksi apabila butir-butir soal yang
membangun tes tersebut mengukur setiap aspek berfikir seperti disebutkan dalam tujuan instruksional
khusus. Dengan kata lain jika butir-butir soal mengukur aspek berfikir tersebut sudah sesuai dengan aspek
berfikir yang menjadi tujuan instruksional.

3) Validitas Konkruen

Validitas konkruen adalah derajat dimana skor dalam suatu tes dihubungkan dengan skor lain yang telah
dibuat. Tes dengan validitas konkruen biasanya diadministrasi dalam waktu yang sama atau dengan
criteria valid yang sudah ada. Sering kali juga terjadi bahwa tes dibuat atau dikembangkan untuk
pekerjaan yang sama seperti beberapa tes lainnya, tetapi dengan cara yang lebih mudah dan lebih cepat.
Validitas konkruen ditentukan dengan membangun analisis hubungan dan perbedaan (Sukardi, 2008).

4) Validitas Prediksi

Validitas prediksi adalah derajat yang menunjukkan suatu tes dapat memprediksi tentang bagaimana baik
seseorang akan melakukan suatu prospek atau tugas atau pekerjaan yang direncanakan. Validitas prediksi
suatu tes pada umumnya ditentukan dengan membangun hubungan antara skor tes dan beberapa ukuran
keberhasilan dalam situasi tertentu yang digunakan untuk memprediksi keberhasilan, yang selanjutnya
disebut sebagai predictor. Sedangkan tingkah laku yang diprediksi disebut criterion (Sukardi, 2008).

Sedangkan menurut Arikunto(1997: 66) memprediksi artinya meramal, dan meramal selalun mengenai hal
yang akan datang jika sekarang belum terjadi. Sebuah tes memiliki validitas prediksi atau validitas
ramalan apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi pada masa yang akan
datang.

1.1.3 Faktor-faktor yang Mempengaruhi Validitas

Banyak faktor yang dapat mempengaruhi hasil tes evaluasi tidak valid. Beberapa faktor tersebut secara garis
besar dapat dibedakan menurut sumbernya, yaitu faktor internal dari tes, faktor eksternal tes, dan faktor
yang berasal dari siswa yang bersangkutan.

1) Faktor yang berasal dari dalam tes

1. Arahan tes yang disusun dengan makna tidak jelas sehingga dapat mengurangi validitas tes
2. Kata-kata yang digunakan dalam struktur instrument evaluasi, tidak terlalu sulit
3. Item tes dikonstruksi dengan jelas.
4. Tingkat kesulitan item tes tidak tepat dengan materi pembelajaran yang diterima siswa.
5. Waktu yang dialokasikan tidak tepat, hal ini termasuk kemungkinan terlalu kurang atau terlalu longgar.
6. Jumlah item terlalu sedikit sehingga tidak mewakili sampel
7. Jawaban masing-masing item evaluasi bisa diprediksi siswa

2) Faktor yang berasal dari administrasi dan skor tes.


1. Waktu pengerjaan tidak cukup sehingga siswa dalam memberikan jawaban dalam situasi tergesa-gesa.
2. Adanya kecrangan dalam tes sehingga tidak membedakan antara siswa yang belajar dengan melakukan
kecurangan.
3. Pemberian petunjuk dari dari pengawas yang tidak dapat dilakukan pada semua siswa.
4. Teknik pemberian skor yang tidak konsisten.
5. Siswa tidak dapat memngikuti arahan yang diberikan dalam tes baku.
6. Adanya joki (orang lain bukan siswa) yang masuk dalam menjawab item tes yang diberikan.

3) Faktor yang berasal dari jawaban siswa

Seringkali terjadi bahwa interpretasi terhadap item-item tes evaluasi tidak valid, karena dipengaruhi oleh
jawaban siswa dari pada interpretasi item-item pada tes evaluasi (Sukardi, 2008).

1.1.4 Cara Mengetahui Validitas Alat Ukur

Sebuah tes dikatakan memiliki validitas jika hasilnya sesuai dengan kriterium, dalam arti memilki kesejajaran
antara hasil tes tersebut dengan kriterium. Teknik yang digunakan untuk mengetahui kesejajaran adalah
dengan teknik korelasi product moment yang dikemukakan oleh pearson (Arikunto, 1997)

a. Uji Validitas Butir Soal pilihan ganda

Validitas butir soal tes berbentuk pilihan ganda (multiple choice) disini kita gunakan rumus point

biserial, karena Adapun rumus point biserial sebagai berikut:

= koefisien korelasi biserial

Mp = rerata skor dari subyek yang menjawab betul bagi item yang dicari validitasnya.

Mi = rerata skor total

St = standar deviasi dari skor total proporsi

P = proporsi siswa yang menjawab benar


q = proporsi siswa yang menjawab salah (q=1-p)

b. Uji Validitas Butir Soal essay

Sementara validitas soal tes berbentuk essay disini gunakan rumus product moment, Adapun

rumus product moment sebagai berikut:

rxy

rxy = Angka indeks Korelasi “r” product moment

N = Banyaknya Sampel
Xy
= Jumlah hasil perkalian antara skor X dan skor Y

X = Jumlah seluruh skor X (butir soal yang bersangkutan)

Y = Jumlah seluruh skor Y (jumlah keseluruhan butir soal)

B. Reliabilitas

Menurut Sukardi (2008: 43) relaibelitas adalah karakter lain dari evaluasi. Reliabelitas juga dapat diartikan
sama dengan konsistensi atau keajegan. Suatu instrument evaluasi dikatakan mempunyai nilai reliabelitas
tinggi, apabila tes yang dibuat mempunyai hasil konsisten dalam mengukur yang hendak diukur.

Sehubungan dengan reliabelitas ini Scarvia B. Anderson dan kawan-kawan (dalam Arikunto, 1997)
menyatakan bahwa persyaratan bagi tes, yaitu validitas dan reliabelitas ini penting. Dalam hal ini validitas
lebih penting, dan reliabelitas ini perlu, karena menyokong terbentuknya validitas. Sebuah tes mungkin
reliable tapi tidak valid. Sebaliknya tes yang valid biasanya reliable.

1.2.2 Tipe-tipe Reliabelitas


Menurut Sukardi (2008) Ada beberapa tipe reliabelitas yang digunakan dalam kegiatan evaluasi dan masing-
masing reliebelitas mempunyai konsistensi yang berbeda-beda. Beberap tipe reliebelitas di antaranya: tes-
retes, ekivalen, dan belah dua yang ditentukan melalui korelasi.

Berbagai tipe tersebut akan diuraikan sebagai berikut:

1) Relibalelitas Dengan Tes-Retes

Reliabelitas tes-retes tidak lain adalah derajat yang menunjukkan konsistensi hasil sebuah tes dari waktu ke
waktu. Tes-Retes menunjukkan variasi skor yang diperoleh dari penyelenggaraan satu tes evaluasi yang
dilaksanakan dua kali atau lebih, sebagai akibat kesalahan pengukuran. Dengan kata lain, kita tertarik
dalam mencari kejelasan bahwa skor siswa mencapai suatu tes pada waktu tertentu adalah sama hasilnya,
ketika siswa itu dites lagi dengan tes yang sama. Dengan melakukan tes-retes tersebut. Seorang guru akan
mengetahui seberapa jauh konsistensi suatu tes mengukur apa yang ingin diukur (Sukardi, 2008).

Sedangkan Arikunto (1997: 88) Metode tes ulang (tes-retes) dilakukan untuk menghindari dua penyusunan
dua seri tes. Dalam menggunakan teknik atau metode ini pengetes hanya memiliki satu seri tes tapi
dicobakan dua kali. Oleh karena tesnya satu dan dicobakan dua kali, maka metode ini dapat disebut juga
dengan single-test-double-trial-method.

Reliebelitas tes retes dapat dilakukan dengan cara seperti berikut:

1. Selenggarakan tes pada suatu kelompok yang tepat sesuai dengan rencana.
2. Setelah selang waktu tertentu, misalnya satu minggu atau dua minggu, lakukan kembali tes yang sama
dengan kelompok yang sama tersebut.
3. Korelasikan kedua hasil tes tersebut.

Jika hasil koefisien menunjukkan tinggi, berarti reliabilias tes adalah bagus. Sebaliknya, jika korelasi rendah,
berarti tes tersebut mempunyai konsistensi rendah (Sukardi, 2008).

2) Reliabelitas Dengan Bentuk Ekivalensi

Sesuai dengan namanya yaitu ekivalen, maka tes evaluasi yang hendak diukur reliabelitasnya dibuat identik
dengan tes acuan. Setiap tampilannya, kecuali substansi item yang ada, dapat berbeda. Kedua tes tersebut
sebaliknya mempunyai karate yang sama. Karakteristik yang dimaksud misalnya mengukur variabel yang
sama, mempunyai jumlah item sama, struktur sama, mempunyai tingkat kesulitan dan mempunyai
petunjuk, cara penskoran, dan interpretasi yang sama (Sukardi 2008).

Pernyataan serupa juga disampaikan oleh Arikunto (1997: 87) tes paralel atau equivalent adalah dua buah tes
yang mempunyai kesamaan tujuan, tingkat kesukaran dan susunan, tetapi butir-butirnya berbeda. Dalam
istilah bahasa Inggris disebut Alternate-forms method (parallel forms).

Tes reliabelitas secara ekivalen dapat dilaksanakan dengan mengikuti langkah-langkah sebagai berikut:

1. Tentukan sasaran yang hendak dites


2. Lakukan tes yang dimaksud kepada subjek sasaran tersebut.
3. Administrasinya hasilnya secara baik.
4. Dalam waktu yang tidak terlalu lama, lakukan pengetesan yang kedua kalinya pada kelompok tersebut
5. Korelasikan kedua hasil skor tersebut (Sukardi, 2008).

Perlu diketahui juga bahwa tes ekivalensi mempunyai kelemahan yaitu bahwa membuat dua buah tes yang
secara esensial ekivalen adalah sulit. Akibatnya akan selalu terjadi kesalahan pengukuran (Sukardi, 2008).
Pernyataan lain juga disampaikan oleh Arikunto (1997: 88) kelemahan dari metode ini adalah pengetes
pekerjaannya berat karena harus menyusun dua seri tes. Lagi pula harus tersedia waktu yang lama untuk
mencobakan dua kali tes.

3) Reliebilitas Dengan Bentuk Belah Dua

Menurut Sukardi (2008: 47) Reliabilitas belah dua ini termasuk reliabilitas yang mengukur konsistensi
internal. Yang dimaksud konsistensi internal adalah salah satu tipe reliabilitas yang didasarkan pada
keajegan dalam setiap item tes evaluasi. Relibilitas belah dua ini pelaksanaanya hanya satu kali.

Cara melakukan reliabilitas belah dua pada dasarnya dapat dilakukan dengan urutan sebagai berikut:

1. Lakukan pengetesan item-item yang telah dibuat kepada subjek sasaran.


2. Bagi tes yang ada menjadi dua atas dasar dua item, yang paling umum dengan membagi item dengan
nomor ganjil dengan item dengan nomor genap pada kelompok tersebut.
3. Hitung skor subjek pada kedua belah kelompok penerima item genap dan item ganjil.
4. Korelasikan kedua skor tersebut, menggunakan formula korelasi yang relevan dengan teknik pengukuran
(Sukardi, 2008).

Untuk mengetahui seluruh tes harus digunakan rumus Spearman-Brown (Arikunto, 1997):

1.2.3 Faktor-Faktor Yang Mempengaruhi Reliabilitas Instrumen

Menurut Sukardi (2008:51-52) koefisien reliabilitas dapat dipengaruhi oleh waktu penyelenggaraan tes-retes.
Interval penyelenggaraan yang terlalu dekat atau terlalu jauh, akan mempengaruhi koefisien reliabilitas.
Faktor-faktor lain yang juga mempengaruhi reliabilitas instrument evaluasi di antaranya sebagai berikut::

1) Panjang tes, semakin panjang suatu tes evaluasi, semakin banyak jumlah item materi pembelajaran
diukur.

2) Penyebaran skor, koefisien reliabelitas secara langsung dipengaruhi oleh bentuk sebaran skor dalam
kelompok siswa yang di ukur. Semakin tinggi sebaran, semakin tinggi estimasi koefisien reliable.

3) Kesulitan tes, tes normative yang terlalu mudah atau terlalu sulit untuk siswa, cenderung menghasilkan
skor reliabilitas rendah.

4) Objektifitas, yang dimaksud dengan objektif yaitu derajat dimana siswa dengan kompetensi sama,
mencapai hasil yang sama

1.2.4 Langkah-langkah menghitung dan menganalisis

Dalam meng analisis reliabilitas, kita dapat menggunakan dua cara, Non Split-Half technique (teknik non
belah dua) untuk tipe soal uraian/essay dan Split-Half Technique (teknik belah dua) untuk tipe soal
objektif/pilihan ganda.

Rumus untuk analisis butir soal dengan tipe essay (uraian)

Bagi yang ingin menghitung reliability soal essay bertipe uraian, kalian bisa menggunakan rumus
Cronbatch’s Alpha (a) dibawah ini:
Pengertian:
R11 = Reliabilitas Instrument
N = Banyaknya jumlah butir soal pertanyaan
∑ = Jumlah varians item
S12 = Varians soal

Rumus untuk analisis butir soal dengan tipe essay (uraian)

Bagi yang ingin menghitung reliability soal pilihan ganda bertipe objektif, kalian bisa menggunakan
rumus Srearman-Brown dibawah ini:

Dengan:
N = Banyaknya responden
X1 = Kelompok data belahan pertama
X2 = Kelompok data belahan kedua

Sedangkan untuk menghitung reliabilitas satu pangkat bisa menggunakan rumus berikut:
Untuk kategori koefisien nya kalian bisa menggunakan interpretasi dari presentase indeks menggunakan
kriteria Guilford (Ruseffendi, 1994) (as cited in Sundayana, 2016) yaitu:

C. Tingkat Kesukaran

Tingkat kesukaran soal adalah peluang menjawab benar suatu soal pada tingkat kemampuan tertentu
yang biasanya dinyatakan dalam bentuk indeks. Tingkat kesukaran dinyatakan dalam indeks
kesukaran (dificulty index), yaitu angka yang menunjukkan proporsi siswa yang menjawab benar soal
tersebut. Semakin besar indeks tingkat kesukaran yang diperoleh dan hasil hitungan, berarti semakin
mudah soal itu.
Dalam hal ini, item yang baik adalah item yang tingkat kesukarannya dapat diketahui, tidak terlalu
sukar dan tidak terlalu mudah. Sebab, tingkat kesukaran item itu memiliki korelasi dengan daya pembeda.
Bilamana item memiliki tingkat kesukaran yang maksimal, maka daya pembedanya akan rendah,
demikian pula bila item itu terlalu mudah maka tidak akan memiliki daya pembeda.
Oleh karena itu, sebaiknya tingkat kesukaran soal itu dipertahankan dalam batas yang mampu
memberikan daya pembeda. Namun, jika terdapat tujuan khusus dalam penyusunan tes, maka tingkat
kesukaran itu bisa dipertimbangkan. Misalnya, tingkat kesukaran item untuk tes sumatif berbeda dengan
tingkat kesukaran pada tes diagnostik.
Untuk menghitung taraf kesukaran soal dari suatu tes dipergunakan rumus sebagai berikut:
TK = U + L
T
Keterangan:
U = jumlah siswa yang termasuk kelompok pandai (upper group) yang menjawab benar untuk tiap soal.
L = jumlah siswa yang termasuk kurang (lower group) yang menjawab benar untuk tiap soal.
T = jumlah siswa dari kelompok pandai dan kelompok kurang (jumlah upper group dan lower group)
Misalkan suatu tes yang terdiri atas N soal yang diberikan kepada 40 siswa. Dari hasil tes tersebut, tiap-
tiap soal dianalisis taraf kesukarannya. mula-mula hasil tes itu kita susun kedalam peringkat, kemudian
kita ambil 25% (10 lembar jawaban siswa kelompok pandai), dan 10 lembar jawaban siswa dari
kelompok yang kurang pandai. Kemudian kita tabulasikan. Misalkan dari tabulasi soal kita peroleh hasil
sebagai berikut: yang menjawab benar dari kelompok pandai ada 9 siswa, dan yang menjawab benar dari
kelompok kurang pandai ada 4 siswa.
Dengan menggunakan rumus diatas, maka taraf kesukaran atau TK dari soal adalah:
TK = U + L = 9 + 4 = 0,65 atau 65%
T 20
Jadi dapat disimpilkan bahwa nilai dari TK atau tingkat kesukarannya adalah 65%.
Sedangkan dalam bukunya Drs. H. Daryanto, rumus untuk mencari taraf kesukaran atau indeks kesukaran
adalah:
𝐁
P=
𝐉𝐒

Keterangan:
P = indeks kesukaran.
B = banyaknya siswa yang menjawab soal itu dengan benar.
JS = jumlah seluruh siswa peserta tes.
Contoh:
Jumlah siswa peserta tes dalam suatu kelas ada 40 siswa. Dari 40 siswa tersebut terdapat 12 siswa yang
mampu mengerjakan soal no. 1 dengan benar. Maka berapa indeks kesukarannya?
Jawab:
B
P = JS

12
= 40

= 0,30

Menurut ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan sebagai berikut:
a. Soal dengan P 0,00 sampai 0,30 adalah soal sukar.
b. Soal dengan P 0,30 sampai 0,70 adalah soal sedang.
c. Soal dengan P 0,70 sampai 1,00 adalah soal mudah.
D. Indeks Diskriminasi (daya pembeda)
Perhitungan daya pembeda adalah pengukuran sejauh mana suatu butir soal mampu membedakan
peserta didik yang sudah menguasai kompetensi dengan peserta didik yang belum atau kurang
menguasai kompetensi berdasarkan kriteria tertentu. Semakin tinggi koofisien daya pembeda
suatu butir soal, semakin mampu butir soal tersebut membedakan antara peerta didik yang
menguasai kompetensi dengan pesertan didik yang kurang menguasai kompetensi.

Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi. Daya
pembeda suatu soal tes dapat dihitung dengan menggunakan rumus sebagai berikut:

DP = U – L
½T

Keterangan:
DP = indeks DP atau daya pembeda yang dicari.
U = jumlah siswa yang termasuk dalam kelompok pandai yang mampu menjawab benar untuk
tiap soal.
L = jumlah siswa yang termasuk kurang yang menjawab benar untuk tiap soal.
T = jumlah siswa keseluruhan.

Contoh:
Dari hasil tes lomba olimpiade kimia, jumlah siswa yang dites adalah 40 siswa, sedangkan tes
tersebut terdiri dari 20 soal. Setelah hasil tes tersebut diperiksa, kemudian disusun kedalam
peringkat untuk menentukan 25% siswa yang termasuk kelompok pandai (upper group) dan 25%
siswa yang termasuk kelompok kurang (lower group).
Kemudian hasil tes tersebut ditabulasikan dengan menggunakan format tabulasi jawaban tes,
kemudian hasil tabulasi dari kedua kelompok tersebut dimasukkan kedalam format analisis soal
tes, sehingga kita dapat menghitung tingkat kesukaran dan daya pembeda tiap soal yang kita
analisis.
Misalkan dari tabulasi soal no. 1 kita peroleh hasil sebagai berikut: yang menjawab benar dari
kelompok pandai ada 10 siswa, dan yang menjawab benar dari kelompok kurang ada 9 siswa.
Maka daya pembedanya adalah:
DP = U – L
½T
= 10 – 9
½ x (20)
= 1
10
= 0,10
Jadi dapat disimpulkan bahwa indeks pembedanya adalah 0,10.

Dalam bukunya Prof. Dr. Suharsimi Arikunto, dijelaskan mengenai klasifikasi daya pembeda,
yaitu:
D = 0,00 – 0,20 = jelek (poor).
D = 0,20 – 0,40 = cukup (satisfactory).
D = 0,40 – 0,70 = baik (good).
D = 0,70 – 1,00 = baik sekali (excellent).

E. Keefektivan Pengecoh

Instrumen evaluasi yang berbentuk tes dan objektif, selain harus memenuhi syarat-syarat yang telah
disebutkan terdahulu, harus mempunyai distraktor yang efektif. Yang disebut dengan distraktor atau
pengecoh adalah opsi-opsi yang bukan merupakan kunci jawaban (jawaban benar).
Butir soal yang baik pengecohnya akan dipilih secara merata oleh peserta didik yang menjawab salah.
Sebaliknya, butir soal yang kurang baik, pengecohnya akan dipilih secara tidak merata. Pengecoh
dianggap baik bila jumlah peserta didik yang memilih pengecoh itu sama atau mendekati jumlah ideal.
Indeks pengecoh dihitung dengan rumus:

IP = P x 100%

(N - B) (n - 1)

Keterangan:

IP = indeks pengecoh

P = jumlah peserta didik yang memilih pengecoh

N = jumlah peserta didik yang ikut tes

B = jumlah peserta didik yang menjawab benar pada setiap soal

n = jumlah alternatif jawaban


1= bilangan tetap
Catatan:
Jika semua peserta didik menjawab benar pada butir soal tertentu (sesuai kunci jawaban), maka IP = 0
yang berarti soal tersebut jelek. Dengan demikian pengecoh tidak berfungsi.
Contoh:
50 orang peserta didik dites dengan 10 soal bentuk pilihan ganda. Tiap soal memiliki alternatif jawaban
(a, b, c, d, e). Kunci jawaban (jawaban yang benar) no. 8 adalah c. Setelah soal no.8 diperiksa untuk
semua peserta didik, ternyata dari 50 orang peserta didik, 20 peserta didik menjawab benar dan 30 peserta
didik menjawab salah. Idealnya, pengecoh dipilih secara merata.
Berikut ini adalah contoh soal no.8.

Alternatif jawaban A B C D E

Distribusi jawaban peserta 7 8 20 7 8


didik

IP 93% 107% ** 93% 107%

Kualitas pengecoh ++ ++ ++ ++ ++

Keterangan:
** = kunci jawaban
++ = sangat baik
+ = baik

 = kurang baik

_ = jelek
_ _ = sangat jelek
Pada contoh diatas, IP butir a, b, c, d, dan e adalah 93%, 107%, 93%, dan 107%. Semuanya dekat
dengan angka 100%, sehingga digolongkan sangat baik sebab semua pengecoh itu berfungsi. Jika pilihan
jawaban peserta didik menumpuk pada satu alternatif jawaban, misalnya seperti berikut:

Alternatif jawaban A B C D E

Distribusi jawaban peserta didik 20 2 20 8 0

IP 267% 27% ** 107% 0%

Kualitas pengecoh _ - ** ++ _

Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik, pengecoh (e) dan (b) tidak berfungsi,
pengecoh (a) menyesatkan, maka pengecoh (a) dan (e) perlu diganti karena termasuk jelek, danpengecoh
(b) perlu direvisikarena kurang baik. adapun kualitas pengecoh berdasar indeks pengecoh adalah:
Sangat baik IP = 76% - 125%
Baik IP = 51% - 75% atau 126% - 150%
Kurang baik IP = 26% - 50% atau 151% - 175%
Jelek IP = 0% - 25% atau 176% - 200%
Sangat jelek IP = lebih dari 200%

Anda mungkin juga menyukai