melalui data yang diperoleh secara empiris. Karakteristik internal secara kuantitatif
dimaksudkan untuk meliputi parameter soal tingkat kesukaran, daya pembeda, dan
reliabilitas. Khusus soal-soal pilihan ganda, dua tambahan parameter yaitu dilihat dari
peluang untuk menebak atau menjawab soal benar dan berfungsi tidak pilihan jawaban, yaitu
penyebaran semua alternatif jawaban dari subyek-subyek yang dites. Salah satu tujuan
dilakukannya analisis adalah untuk meningkatkan kualitas soal, yaitu apakah suatu soal
dapat diterima karena telah didukung oleh data statistik yang memadai, diperbaiki, karena
terbukti terdapat kelemahan, atau bahkan tidak digunakan sama sekali karena terbukti secara
Menurut Silverius (1991) dalam Putri (2015), secara kuantitatif aspek yang diperlukan
Tingkat kesukaran diperoleh dari menghitung persentase siswa yang dapat menjawab
benar soal tersebut. Tingkat kesukaran (difficulty index) dinyatakan dalam indeks kesukaran
yaitu angka yang menunjukkan proporsi siswa yang menjawab benar soal tersebut. Besarnya
indeks kesukaran antara 0,00 sampai dengan 1,0. Indeks kesukaran ini menunjukkan taraf
kesukaran soal. Soal dengan indeks kesukaran 0,00 menunjukkan kalau soal itu terlalu sukar,
sebaliknya indeks 1,0 menunjukkan bahwa soalnya terlalu mudah. Indeks kesukaran butir
yang baik berkisar antara 0,3-0,7 sedangkan yang paling baik pada 0,5. Indeks kesukaran
biasanya disingkat D. Tingkat kesukaran butir dapat diketahui dengan cara menghitung rata-
rata skor siswa dibagi dengan skor maksimun bagi setiap butir soal.
Arikunto (2016) menyatakan bahwa soal yang baik adalah soal yang tidak terlalu mudah
dan soal yang tidak terlalu sukar. Soal yang terlalu mudah tidak akan merangsang siswa
untuk berfikir atau mempertinggi usahanya untuk memecahkan masalah di dalam setiap butir
soal. Sebaliknya soal yang terlalu sukar akan menyebabkan siswa menjadi putus asa dan tidak
Menurut Sudijono (2013), Tindak lanjut yang dapat dilakukan setelah analisis tingkat
a. Butir soal yang memiliki tingkat kesukaran dalam kategori baik (tingkat kesukarannya
sedang), sebaiknya butir soal tersebut disimpan dalam bank soal agar dapat dikeluarkan
b. Butir soal yang tergolong dalam soal yang sukar, ada 3 kemungkinan tindak lanjut yaitu:
1) Butir soal tersebut dibuang dan tidak akan dikeluarkan lagi dalam tes hasil belajar
2) Diteliti ulang faktor yang menyebabkan butir item yang bersangkutan sulit dijawab
3) Butir soal yang dipertahankan untuk digunakan lagi pada tes-tes yang sifatnya
sangat ketat, dalam arti sebagian besar dari testee tidak akan diluluskan dalam tes
seleksi tersebut.
c. Butir soal yang termasuk kategori mudah, ada 3 kemungkinan tindak lanjut yaitu:
1) Butir soal tersebut dibuang dan tidak akan dikeluarkan lagi di tes hasil belajar yang
akan datang.
2) Diteliti ulang faktor yang menyebabkan butir soal tersebut dapat dijawab benar oleh
hampir seluruh testee. Perbaikan dapat dilakukan dengan memperbaiki opsi dan
membuat kalimat soal menjadi lebih kompleks. Selanjutnya, soal dapat dikeluarkan
3) Butir soal dipertahankan untuk digunakan pada tes yang sifatnya longgar. Dalam
Daya pembeda soal yaitu kemampuan suatu soal untuk membedakan antara siswa yang
berkemampuan tinggi dengan siswa yang berkemampuan rendah. Angka yang menunjukkan
besarnya daya pembeda disebut indeks diskriminasi (DP), dan nilainya berkisar antara 0,00
sampai 1,00. Pada daya pembeda ini berlaku tanda negatif yang digunakan jika sesuatu soal
“terbalik” menunjukkan kualitas testee yaitu anak pandai disebut bodoh dan anak bodoh
disebut pandai.
Dengan demikian ada tiga titik pada daya pembeda yaitu bagi suatu soal yang dapat
dijawab benar oleh siswa kemampuan tinggi dan siswa kemampuan rendah, maka soal itu
tidak baik karena tidak punya daya pembeda. Demikian juga jika semua kelompok bawah
menjawab salah dan siswa berkemampuan tinggi juga sama-sama menjawab salah, maka soal
itu tidak mempunyai daya beda sama sekali. Cara menentukan daya pembeda (nilai DP) yaitu
membagi peserta didik menjadi dua kelompok yaitu kelompok bawah dan kelompok atas
dengan terlebih dahulu mengurutkan skor peserta didik dari yang tertinggi sampai dengan
yang terendah. Setelah itu, rata-rata skor siswa pada kelompok atas dan rata-rata skor siswa
pada kelompok bawah dikurangkan. Kemudian dibagi dengan skor maksimun soal.
Arifin (2017) menyatakan bahwa “perhitungan daya pembeda adalah pengukuran sejauh
mana suatu butir soal mampu membedakan peserta didik yang sudah menguasai materi
dengan peserta didik yang belum atau kurang menguasai materi berdasarkan kriteria
tertentu”. Didukung dengan Sudijono (2013) yang menyatakan bahwa dengan daya pembeda
pada setiap butir soal sangat penting untuk diketahui karena salah satu pedoman dalam
menyusun butir soal, penyusun soal harus menyadari bahwa kemampuan peserta didik
berbeda-beda.
c. Validitas item
Menurut Sudijono (2013), validitas item dari suatu tes adalah ketepatan mengukur yang
dimiliki oleh sebutir item (yang merupakan bagian tak terpisahkan dari tes sebagai suatu
totalitas), dalam mengukur apa yang seharusnya diukur lewat butir item tersebut. Hubungan
antara butir item dengan tes hasil belajar sebagai suatu totalitas adalah bahwa semakin
banyak butir-butir item yang dapat dijawab oleh peserta didik, maka skor total hasil tes
tersebut akan semakin tinggi. Item-item yang ingin diketahui validitasnya, yaitu valid atau
tidak, dapat menggunakan teknik korelasi sebagai teknik analisisnya. Sebutir item dapat
dinyatakan valid apabila skor item yang bersangkutan terbukti memiliki korelasi positif yang
signifikan dengan skor total. Menurut Arifin (2017), bahwa ada tiga faktor yang
mempengaruhi validitas hasil tes yaitu faktor instrumen yang digunakan untuk tes, faktor
d. Reliabilitas
Menurut Arifin (2017), reliabilitas adalah tingkat atau derajat konsistensi dari suatu
instrument. Reliabilitas tes berkenaan dengan pertanyaan apakah suatu tes teliti dan dapat
dipercaya sesuai dengan kriteria yang telah ditetapkan. Suatu tes dikatakan reliable jika selalu
memberikan hasil yang sama bila diteskan pada kelompok yang sama pada waktu atau
Arikunto (2016) menyatakan bahwa untuk dapat memperoleh gambaran yang ajeg
memang sulit karena unsur kejiwaan manusia itu sendiri tidak ajeg misalnya dari segi
kemampuan, kecakapan, sikap, dan sebagainya bisa berubah-ubah dari waktu ke waktu. Ada
3 faktor yang mempengaruhi hasil tes yang secara tidak langsung juga akan mempengaruhi
a. Hal yang berhubungan dengan tes itu sendiri, yaitu panjang tes dan kualitas butir-butir
soalnya, tes yang terdiri dari banyak butir akan lebih valid dibandingkan dengan tes
yang hanya terdiri dari beberapa butir soal. Tinggi rendahnya validitas inilah yang
b. Hal yang berhubungan dengan tercoba (testee). Suatu tes yang diujicobakan kepada
kelompok yang terdiri dari banyak siswa akan mencerminkan keragaman hasil yang
c. Hal yang berhubungan dengan penyelenggaraan tes. Suatu tes yang diselenggarakan
dengan administrasi yang bagus maka akan menghasilkan kualitas tes yang bagus
pula sehingga reliabilitas tes juga akan terpengaruh oleh hasil tes ini.
Butir soal dikatakan baik secara kuantitatif jika butir soal memenuhi syarat tingkat
kesukaran, daya beda, validitas dan reliabilitas. Syarat dan kriteria butir soal secara
1. Tingkat kesukaran
Tingkat kesukaran lebih kecil dari 0,3 tergolong soal yang sukar, tingkat kesukaran 0,3
sampai 0,7 tergolong soal yang sedang, dan tingkat kesukaran lebih besar dari 0,7 tergolong
soal yang mudah. Menurut kriteria yang berlaku di pusat penilaian pendidikan soal yang baik
atau diterima bila memiliki indeks kesukaran 25 % butir soal sukar, 50% butir soal sedang,
2. Daya beda
Menurut kriteria yang berlaku di Pusat Penilaian Pendidikan soal yang baik atau diterima
bila memiliki daya beda soal diatas 0,25 karena soal tersebut dapat membedakan kelompok
3. Validitas
Menurut Arikunto (2016), tes dikatakan memiliki validitas jika tes tersebut dengan
secara tepat, secara benar, secara shahih, atau secara absah dapat mengukur apa yang
4. Reliabilitas
dikatakan reliable jika r11 sama dengan atau lebih besar dari 0,70.
b. Analisis Kuantitatif
Analisis soal secara kuantitatif menekankan pada analisis karakteristik internal tes
melalui data yang diperoleh secara empiris. Karakteristik internal secara kuantitatif
dimaksudkan untuk meliputi parameter soal tingkat kesukaran, daya pembeda, dan
reliabilitas. Khusus soal-soal pilihan ganda, dua tambahan parameter yaitu dilihat dari
peluang untuk menebak atau menjawab soal benar dan berfungsi tidak pilihan jawaban, yaitu
penyebaran semua alternatif jawaban dari subyek-subyek yang dites. Salah satu tujuan
dilakukannya analisis adalah untuk meningkatkan kualitas soal, yaitu apakah suatu soal
dapat diterima karena telah didukung oleh data statistik yang memadai, diperbaiki, karena
terbukti terdapat kelemahan, atau bahkan tidak digunakan sama sekali karena terbukti secara
Menurut Silverius (1991) dalam Putri (2015), secara kuantitatif aspek yang diperlukan
Tingkat kesukaran diperoleh dari menghitung persentase siswa yang dapat menjawab
benar soal tersebut. Tingkat kesukaran (difficulty index) dinyatakan dalam indeks kesukaran
yaitu angka yang menunjukkan proporsi siswa yang menjawab benar soal tersebut. Besarnya
indeks kesukaran antara 0,00 sampai dengan 1,0. Indeks kesukaran ini menunjukkan taraf
kesukaran soal. Soal dengan indeks kesukaran 0,00 menunjukkan kalau soal itu terlalu sukar,
sebaliknya indeks 1,0 menunjukkan bahwa soalnya terlalu mudah. Indeks kesukaran butir
yang baik berkisar antara 0,3-0,7 sedangkan yang paling baik pada 0,5. Indeks kesukaran
biasanya disingkat D. Tingkat kesukaran butir dapat diketahui dengan cara jumlah jawaban
Daya pembeda soal yaitu kemampuan suatu soal untuk membedakan antara siswa yang
berkemampuan tinggi dengan siswa yang berkemampuan rendah. Angka yang menunjukkan
besarnya daya pembeda disebut indeks diskriminasi (DP), dan nilainya berkisar antara 0,00
sampai 1,00. Pada daya pembeda ini berlaku tanda negatif yang digunakan jika sesuatu soal
“terbalik” menunjukkan kualitas testee yaitu anak pandai disebut bodoh dan anak bodoh
disebut pandai.
Dengan demikian ada tiga titik pada daya pembeda yaitu bagi suatu soal yang dapat
dijawab benar oleh siswa kemampuan tinggi dan siswa kemampuan rendah, maka soal itu
tidak baik karena tidak punya daya pembeda. Demikian juga jika semua kelompok bawah
menjawab salah dan siswa berkemampuan tinggi juga sama-sama menjawab salah, maka soal
itu tidak mempunyai daya beda sama sekali. Cara menentukan daya pembeda (nilai DP) yaitu
selisih jumlah yang menjawab betul soal tersebut dari kelompok atas dengan jumlah yang
menjawab betul soal tersebut dari kelompok bawah dibagi dengan selisih jumlah lembar
c. Validitas item
Menurut Sudijono (2013), validitas item dari suatu tes adalah ketepatan mengukur yang
dimiliki oleh sebutir item (yang merupakan bagian tak terpisahkan dari tes sebagai suatu
totalitas), dalam mengukur apa yang seharusnya diukur lewat butir item tersebut. Hubungan
antara butir item dengan tes hasil belajar sebagai suatu totalitas adalah bahwa semakin
banyak butir-butir item yang dapat dijawab oleh peserta didik, maka skor total hasil tes
tersebut akan semakin tinggi. Item-item yang ingin diketahui validitasnya, yaitu valid atau
tidak, dapat menggunakan teknik korelasi sebagai teknik analisisnya. Sebutir item dapat
dinyatakan valid apabila skor item yang bersangkutan terbukti memiliki korelasi positif yang
d. Reliabilitas
Menurut Arifin (2017), reliabilitas adalah tingkat atau derajat konsistensi dari suatu
instrument. Reliabilitas tes berkenaan dengan pertanyaan apakah suatu tes teliti dan dapat
dipercaya sesuai dengan kriteria yang telah ditetapkan. Suatu tes dikatakan reliable jika selalu
memberikan hasil yang sama bila diteskan pada kelompok yang sama pada waktu atau
Butir soal dikatakan baik secara kuantitatif jika butir soal memenuhi syarat tingkat
kesukaran, daya beda, validitas dan reliabilitas. Syarat dan kriteria butir soal secara
3. Tingkat kesukaran
Tingkat kesukaran lebih kecil dari 0,3 tergolong soal yang sukar, tingkat kesukaran 0,3
sampai 0,7 tergolong soal yang sedang, dan tingkat kesukaran lebih besar dari 0,7 tergolong
soal yang mudah. Menurut kriteria yang berlaku di pusat penilaian pendidikan soal yang baik
atau diterima bila memiliki indeks kesukaran 25 % butir soal sukar, 50% butir soal sedang,
4. Daya beda
Menurut kriteria yang berlaku di Pusat Penilaian Pendidikan soal yang baik atau diterima
bila memiliki daya beda soal diatas 0,25 karena soal tersebut dapat membedakan kelompok
3. Validitas
Menurut Arikunto (2016), tes dikatakan memiliki validitas jika tes tersebut dengan
secara tepat, secara benar, secara shahih, atau secara absah dapat mengukur apa yang
seharusnya diukur. Validitas diperoleh dengan menggunakan perhitungan. Soal dikatakan
4. Reliabilitas
dikatakan reliable jika r11 sama dengan atau lebih besar dari 0,70.