Teknik analisis kualitas butir soal secara kuantitatif dikenal juga dengan istilah analisis
empirik. Analisis ini dilaksanakan dengan mengukur beberapa kriteria kualitas soal,
diantaranya adalah validitas, reliabilitas, tingkat kesukaran, daya beda dan efektifitas
pengecoh/fungsi distraktor.
1) Validitas
Validitas atau kesahihan berasal dari kata validity yang berarti sejauh mana ketetapan dan
kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Dengan kata lain, validitas
adalah suatu konsep yang berkaitan dengan sejauhmana tes telah mengukur apa yang
seharusnya diukur.Validitas berhubungan dengan kemampuan untuk mengukur secara tepat
sesuatu yang diinginkan diukur. Sudaryono (2012: 138) menyatakan bahwa suatu tes atau
istrumen pengukuran dikatakan valid apabila alat tersebut menjalankan fungsi ukurnya atau
memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Hal
tersebut berarti hasil ukur dari pengukuran tersebut merupakan besaran yang mencerminkan
secara tepat fakta atau keadaan sesungguhnya dari apa yang diukur. Zainal Arifin
menyebutkan ada dua unsur penting dalam validitas yaitu validitas menunjukkan suatu
derajat dan validitas selalu dihubungkan dengan suatu putusan atau tujuan yang spesifik.
Validitas suatu tes selalu dibedakan menjadi dua macam yaitu validitas logis dan validitas
empiris. Validitas logis sama dengan analisis kualitatif terhadap sebuah soal, yaitu untuk
menentukan berfungsi tidaknya suatu soal berdasarkan kriteria yang telah ditentukan, yang
dalam hal ini adalah kriteria materi, konstruksi, dan bahasa.
Penganalisisan terhadap tes hasil belajar dapat dilakukan dengan dua cara. Pertama,
penganalisisan yang dilakukan dengan jalan berpikir secara rasional atau penganalisisan
dengan menggunakan logika (logical analysis). Ada dua macam validitas logis yang dapat
dicapai oleh sebuah instrument yaitu validitas isi dan validitas konstruk. Kedua,
penganalisisan yang dilakukan dengan mendasarkan diri pada kenyataan empiris, dimana
penganalisisan dilaksanakan dengan menggunakan empirical analysis. Ada dua macam
validitas empiris yaitu validitas prediksi dan validitas konkuren. Dari uraian adanya dua jenis
validitas, yaitu validitas logis yang mempunyai dua jenis validitas dan validitas empiris yang
juga mempunyai dua jenis validitas, maka secara keseluruhan dikenal dengan adanya empat
validitas, yaitu:
a) Validitas Isi (Content Validity), yaitu validitas yang ditilik dari segi isi tes itu sendiri
sebagai alat pengukur hasil belajar yaitu sejauh mana tes hasl belajar sebagai alat pengukur
hasil belajar peserta didik, isinya telah dapat mewakili secara representatif terhadap
keseluruhan materi atau bahan pelajaran yang seharusnya diujikan.
b) Validitas Konstruksi (Construct Validity), adalah validitas yang ditilik dari segi susunan,
kerangka atau rekaannya.
c) Validitas Ramalan (Predictive Validity), adalah suatu kondisi yang menunjukkan seberapa
jauhkah sebuah tes telah dapat dengan secara tepat menunjukkan kemampuannya untuk
meramalkan apa yang bakal terjadi pada masa mendatang.
d) Validitas Bandingan (Concurrent Validity), adalah kemampuan sebuah tes dalam kurun
waktu yang sama dengan secara tepat telah mampu menunjukkan adanya hubungan searah
antara tes pertama dengan tes berikutnya. Validitas bandingan juga dikenal dengan istilah
validitas sama saat, validitas pengalaman atau validitas ada sekarang.
Gronlund (1985: 79-81) mengemukan ada tiga faktor yang mempengaruhi validitas
hasil tes, yaitu “faktor instrumen evaluasi, faktor administrasi evaluasi dan penskoran, dan
faktor dari jawaban peserta didik”.
Mengembangkan instrumen evaluasi memang tidaklah mudah, apalagi jika seorang evaluator
tidak atau kurang memahami prosedur dan teknik evaluasi itu sendiri. Jika instrumen evaluasi
kurang baik, maka dapat berakibat hasil evaluasi menjadi kurang baik. Untuk itu, dalam
mengembangkan instrumen evaluasi, seorang evaluator harus memperhatikan hal-hal yang
mempengaruhi validitas instrumen dan berkaitan dengan prosedur penyusunan instrumen,
seperti silabus, kisi-kisi soal, petunjuk mengerjakan soal dan pengisian lembar jawaban,
kunci jawaban, penggunaan kalimat efektif, bentuk alternatif jawaban, tingkat kesukaran,
daya pembeda, dan sebagainya.
Dalam administrasi evaluasi dan penskoran, banyak sekali terjadi penyimpangan atau
kekeliruan, seperti: alokasi waktu untuk pengerjaan soal yang tidak proporsional,
memberikan bantuan kepada peserta didik dengan berbagai cara, peserta didik saling
menyontek ketika ujian, kesalahan penskoran, termasuk kondisi fisik dan psikis peserta didik
yang kurang menguntungkan.
Dalam praktiknya, faktor jawaban peserta didik justru lebih banyak berpengaruh daripada dua
faktor sebelumnya. Faktor ini meliputi kecenderungan peserta didik untuk menjawab secara
cepat tetapi tidak tepat, keinginan melakukan coba-coba, dan penggunaan gaya bahasa
tertentu dalam menjawab soal bentuk uraian.
2) Reliabilitas
Reliabilitas berasal dari kata reliability berarti sejauh mana hasil suatu pengukuran dapat
dipercaya. Suatu hasil pengukuran hanya dapat dipercaya apabila dalam beberapa kali
pelaksanaan pengukuran terhadap kelompok subjek yang sama, diperoleh hasil pengukuran
yang relatif sama, selama aspek yang diukur dalam diri subyekmemang belum berubah.
Menurut Suharsimi Arikunto (2013 : 100) pengertian reliabilitas tes, berhubungan dengan
masalah ketepatan hasil tes. Didukung dengan pendapat Zainal Arifin bahwa reliabilitas
merupakan tingkat atau derajat konsistensi dari suatu alat pengukur atau instrumen. Menurut
teori klasik, reliabilitas dihubungkan dengan pengertian adanya ketepatan suatu tes dalam
pengukurannya. Pendapat lain menyatakan bahwa reliabilitas adalah kestabilan skor yang
diperoleh orang yang sama ketika diuji ulang dengan tes yang sama pada situasi yang berbeda
atau dari satu pengukuran kepengukuran lainnya. Jadi reliabilitas dapat dinyatakan sebagai
tingkat keajegan atau kemantapan hasil dari dua pengukuran terhadap hal yang sama. Hasil
pengukuran itu diharapkan sama apabila pengukuran itu diulangi. Sebuah instrumen
dikatakan memiliki tingkat reliabilitas yang tinggi apabila dapat dengan ajeg memberikan
data yang sesuai dengan kenyataan. Reliabilitas dibedakan atas dua macam yaitu: reliabilitas
konsistensi tanggapan dan reliabilitas gangguan item. Menurut Nana Sudjana (2006: 17), ada
empat cara yang digunakan untuk melakukan uji reliabilitas tes, yaitu:
Tes ulang (retest) adalah penggunaan alat penilaian terhadap subjek yang sama dilakukan dua
kali dalam waktu berlainan.
Dalam prosedur ini tes diberikan kepada kelompok subjek cukup satu kali atau pada satu saat.
Butir-butir soal dibagi menjadi dua bagian yang sebanding, biasanya dengan membedakan
soal nomor genap dengan soal nomor ganjil. Setiap bagian soal diperiksa hasilnya, kemudian
skor dari kedua bagian tersebut dikorelasikan untuk dicari koefisien korelasinya. Mengingat
korelasi tersebut hanya berlaku sebagian, tidak untuk seluruh soal, maka koefisien korelasi
yang diperolehnya tidak untuk seluruh soal, tetapi hanya untuk separuhnya.
d) Kesamaan Rasional
Prosedur ini dilakukan dengan menghubungkan setiap butir dalam satu tes dengan butir-butir
yang lainnya dalam tes itu sendiri secara keseluruhan.
Gronlund (1985: 100) mengemukakan ada empat faktor yang dapat mempengaruhi
reliabilitas, yaitu “panjang tes, sebaran skor, tingkat kesukaran, dan objektifitas”.
Panjang tes berarti banyaknya soal tes. Ada kecenderungan, semakin panjang suatu tes akan
lebih tinggi tingkat reliabilitas suatu tes, karena semakin banyak soal, maka akan semakin
banyak sampel yang diukur dan proporsi jawaban yang benar semakin banyak, sehingga
faktor
Besarnya sebaran skor akan membuat tingkat reliabilitas menjadi lebih tinggi, karena
koefisien reliabilitas yang lebih besar diperoleh ketika peserta didik tetap pada posisi yang
relatif sama dalam satu kelompok pengujian ke pengujian berikutnya. Dengan kata lain,
peluang selisih dari perubahan posisi dalam kelompok dapat memperbesar koefisien
reliabilitas.
3. Tingkat kesukaran (difficulty indeks)
Dalam penilaian yang menggunakan pendekatan penilaian acuan norma, baik untuk soal yang
mudah maupun sukar, cenderung menghasilkan tingkat reliabilitas yang rendah. Hal ini
disebabkan antara hasil tes yang mudah dengan hasil tes yang sukar keduanya dalam satu
sebaran skor yang terbatas. Untuk tes yang mudah, skor akan berada dibagian atas dan akhir
dari skala penilaian. Bagi kedua tes (mudah dan sukar), perbedaan antar peserta didik kecil
sekali dan cenderung tidak dapat dipercaya. Tingkat kesukaran soal yang ideal untuk
meningkatkan koefisien reliabilitas adalah soal yang menghasilkan sebaran skor berbentuk
genta atau kurva normal.
4. Objektifitas (obyektivity)
Objektifitas disini menunjukkan skor tes kemampuan yang sama antara peserta didik yang
satu dengan peserta didik lainnya. Peserta didik memperoleh hasil yang sama dalam
mengerjakan suatu tes. Jika peserta didik memiliki tingkat kemampuan yang sama, maka
akan memperoleh hasil tes yang sama pada saat mengerjakan tes yang sama. Objektifitas
prosedur tes yang tinggi akan memperoleh reliabilitas hasil tes yang tidak dipengaruhi oleh
prosedur penskoran
3) Tingkat Kesukaran
Tingkat kesukaran menurut Crocker dan Algina dapat didefinisikasn sebagai proporsi siswa
peserta tes yang menjawab benar. Menurut Suprananto (2012: 175) tingkat kesukaran soal
adalah peluang menjawab benar suatu soal pada tingkat kemampuan tertentu yang biasanya
dinyatakan dalam bentuk indeks. Daryanto (2007: 180) menjelaskan besarnya indeks
kesukaran antara 0,00 sampai dengan 1,0. Indeks kesukaran menunjukkan taraf kesukaran
soal. Soal dengan indeks kesukaran 0,0 menunjukkan bahwa soal terlalu sukar, sebaliknya
indeks 1,0 menunjukkan soalnya terlalu mudah. Bermutu atau tidaknya butir-butir item tes
hasil belajar pertama-tama dapat diketahui dari derajat kesukaran atau taraf kesulitan yang
dimiliki oleh masing-masing butir item tersebut. Butir- butir item tes hasil belajar dapat
dinyatakan sebagai butir –butir item yang baik, apabila butir-butir item tersebut tidak terlalu
sukar dan tidak pula terlalu mudah dengan kata lain derajat kesukaran itu adalah sedang atau
cukup.
Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagi pendidik dan
kegunaan bagi pengujian dan pengajaran. Kegunaan bagi pendidikan adalah:
a) Sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi masukan kepada
peserta didik tentang hasil belajar mereka.
b) Memperoleh informasi tentang penekanan kurikulum atau mencurigai butir soal yang bias.
4) Daya Pembeda
Daya pembeda adalah kemampuan butir soal tes hasil belajar membedakan siswa
yang mempunyai kemampuan tinggi dan rendah. Menurut Daryanto (2007: 183) daya
pembeda soal adalah kemampuan sesuatu soal untuk membedakan antara siswa
berkemampuan tinggi dengan siswa yang berkemampuan rendah, sehingga dapat
memudahkan guru melakukan evaluasi pembelajaran. Menurut Suryabrata (2000) daya
pembeda soal diukur dari kesesuaian soal itu dengan keseluruhan tes dalam membedakan
antara mereka yang tinggi kemampuannya dan mereka yang rendah kemampuannya dalam
hal yang diukur oleh tes yang bersangkutan. Teknik yang banyak digunakan untuk mengukur
daya pembeda itu adalah korelasi antara skor pada soal tertentu dengan skor total. Daya beda
berhubungan dengan derajat kemampuan butir membedakan dengan baik perilaku pengambil
tes dalam tes yang dikembangkan. Daya pembeda harus diusahakan positif dan setinggi
mungkin.Semakin tinggi koefisien daya beda suatu butir soal, semakin mampu butir soal
tersebut membedakan antara peserta didik yang menguasai kompetensi dengan peserta didik
yang kurang menguasai kompetensi. Daya pembeda dapat diketahui dengan melihat besar
kecilnya angka indeks diskriminasi item. Angka indek diskriminasi item adalah sebuah angka
atau bilangan yang menunjukkan besar kecilnya daya (discriminatory power) yang dimiliki
oleh sebutir item. Discriminatory power pada dasarnya dihitung atas dasar pembagian testee
ke dalam dua kelompok, yaitu kelompok atas (the higher group) yang tergolong pandai dan
kelompok bawah (the lower group) yaitu kelompok testee yang tergolong bodoh. Perhitungan
daya pembeda dibedakan antara kelompok kecil dan kelompok besar. Kelompok kecil
merupakan kelompok yang terdiri kurang dari 100 (seratus) orang, sebaliknya kelompok
besaradalah kelompok yang terdiri lebih dari 100 (seratu) orang. Untuk kelompok kecil,
seluruh kelompok peserta tes (testee) dibagi dua sama besar, 50% kelompok atas (JA) dan
kelompok bawah (JB). Seluruh pengikut tes, dideretkan mulai dari skor teratas sampai
terbawah lalu dibagi dua. Untuk kelompok besar. mengingat biaya dan waktu untuk
menganalisis, maka untuk kelompok besar biasanya hanya diambil kedua kutubnya saja,
yaitu 27% skor teratas sebagai kelompok atas (JA) dan 27% skor terbawah sebagai kelompok
bawah (JB).
DAFTAR PUSTAKA
Supardi. 2016. Penilaian Autentik Pembelajaran Afektif, kognitif dan Psikomotor (Konsep
dan
Suharsimi Arikunto. 2013. Dasar-Dasar Evaluasi Pendidikan Edisi 2. Bumi Aksara, Jakarta.
Hal 100
Zuldafrial. 2012. Evaluasi Pendidikan & Penelitian Tindakan Kelas. Pontianak: STAIN
Pontianak Press.
Nana Sudjana. (2006). Penilaian Hasil Belajar Proses Belajar Mengajar: Bandung: PT.
Remaja Rosdakarya.