Analisis Kualitas Butir Soal

b.
Teknik Analisis Kualitas Butir Soal secara Kuantitatif
Teknik analisis kualitas butir soal secara kuantitatif dikenal juga dengan istilah analisis
empirik. Analisis ini dilaksanakan dengan mengukur beberapa kriteria kualitas soal,
diantaranya adalah validitas, reliabilitas, tingkat kesukaran, daya beda dan efektifitas
pengecoh/fungsi distraktor.
1) Validitas
Validitas atau kesahihan berasal dari kata validity yang berarti sejauh mana ketetapan dan
kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Dengan kata lain, validitas
adalah suatu konsep yang berkaitan dengan sejauhmana tes telah mengukur apa yang
seharusnya diukur.Validitas berhubungan dengan kemampuan untuk mengukur secara tepat
sesuatu yang diinginkan diukur. Sudaryono (2012: 138) menyatakan bahwa suatu tes atau
istrumen pengukuran dikatakan valid apabila alat tersebut menjalankan fungsi ukurnya atau
memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Hal
tersebut berarti hasil ukur dari pengukuran tersebut merupakan besaran yang mencerminkan
secara tepat fakta atau keadaan sesungguhnya dari apa yang diukur. Zainal Arifin
menyebutkan ada dua unsur penting dalam validitas yaitu validitas menunjukkan suatu
derajat dan validitas selalu dihubungkan dengan suatu putusan atau tujuan yang spesifik.
Validitas suatu tes selalu dibedakan menjadi dua macam yaitu validitas logis dan validitas
empiris. Validitas logis sama dengan analisis kualitatif terhadap sebuah soal, yaitu untuk
menentukan berfungsi tidaknya suatu soal berdasarkan kriteria yang telah ditentukan, yang
dalam hal ini adalah kriteria materi, konstruksi, dan bahasa.
Penganalisisan terhadap tes hasil belajar dapat dilakukan dengan dua cara. Pertama,
penganalisisan yang dilakukan dengan jalan berpikir secara rasional atau penganalisisan
dengan menggunakan logika (logical analysis). Ada dua macam validitas logis yang dapat
dicapai oleh sebuah instrument yaitu validitas isi dan validitas konstruk. Kedua,
penganalisisan yang dilakukan dengan mendasarkan diri pada kenyataan empiris, dimana
penganalisisan dilaksanakan dengan menggunakan empirical analysis. Ada dua macam
validitas empiris yaitu validitas prediksi dan validitas konkuren. Dari uraian adanya dua jenis
validitas, yaitu validitas logis yang mempunyai dua jenis validitas dan validitas empiris yang
juga mempunyai dua jenis validitas, maka secara keseluruhan dikenal dengan adanya empat
validitas, yaitu:
a) Validitas Isi (Content Validity), yaitu validitas yang ditilik dari segi isi tes itu sendiri
sebagai alat pengukur hasil belajar yaitu sejauh mana tes hasl belajar sebagai alat pengukur
hasil belajar peserta didik, isinya telah dapat mewakili secara representatif terhadap
keseluruhan materi atau bahan pelajaran yang seharusnya diujikan.
b) Validitas Konstruksi (Construct Validity), adalah validitas yang ditilik dari segi susunan,
kerangka atau rekaannya.
c) Validitas Ramalan (Predictive Validity), adalah suatu kondisi yang menunjukkan seberapa
jauhkah sebuah tes telah dapat dengan secara tepat menunjukkan kemampuannya untuk
meramalkan apa yang bakal terjadi pada masa mendatang.
d) Validitas Bandingan (Concurrent Validity), adalah kemampuan sebuah tes dalam kurun
waktu yang sama dengan secara tepat telah mampu menunjukkan adanya hubungan searah
antara tes pertama dengan tes berikutnya. Validitas bandingan juga dikenal dengan istilah
validitas sama saat, validitas pengalaman atau validitas ada sekarang.
Gronlund (1985: 79-81) mengemukan ada tiga faktor yang mempengaruhi validitas
hasil tes, yaitu “faktor instrumen evaluasi, faktor administrasi evaluasi dan penskoran, dan
faktor dari jawaban peserta didik”.
1. Faktor instrumen evaluasi
Mengembangkan instrumen evaluasi memang tidaklah mudah, apalagi jika seorang evaluator
tidak atau kurang memahami prosedur dan teknik evaluasi itu sendiri. Jika instrumen evaluasi
kurang baik, maka dapat berakibat hasil evaluasi menjadi kurang baik. Untuk itu, dalam
mengembangkan instrumen evaluasi, seorang evaluator harus memperhatikan hal-hal yang
mempengaruhi validitas instrumen dan berkaitan dengan prosedur penyusunan instrumen,
seperti silabus, kisi-kisi soal, petunjuk mengerjakan soal dan pengisian lembar jawaban,
kunci jawaban, penggunaan kalimat efektif, bentuk alternatif jawaban, tingkat kesukaran,
daya pembeda, dan sebagainya.
2. Faktor administrasi evaluasi dan penskoran
Dalam administrasi evaluasi dan penskoran, banyak sekali terjadi penyimpangan atau
kekeliruan, seperti: alokasi waktu untuk pengerjaan soal yang tidak proporsional,
memberikan bantuan kepada peserta didik dengan berbagai cara, peserta didik saling
menyontek ketika ujian, kesalahan penskoran, termasuk kondisi fisik dan psikis peserta didik
yang kurang menguntungkan.
3. Faktor jawaban dari peserta didik
Dalam praktiknya, faktor jawaban peserta didik justru lebih banyak berpengaruh daripada dua
faktor sebelumnya. Faktor ini meliputi kecenderungan peserta didik untuk menjawab secara
cepat tetapi tidak tepat, keinginan melakukan coba-coba, dan penggunaan gaya bahasa
tertentu dalam menjawab soal bentuk uraian.
2) Reliabilitas
Reliabilitas berasal dari kata reliability berarti sejauh mana hasil suatu pengukuran dapat
dipercaya. Suatu hasil pengukuran hanya dapat dipercaya apabila dalam beberapa kali
pelaksanaan pengukuran terhadap kelompok subjek yang sama, diperoleh hasil pengukuran
yang relatif sama, selama aspek yang diukur dalam diri subyekmemang belum berubah.
Menurut Suharsimi Arikunto (2013 : 100) pengertian reliabilitas tes, berhubungan dengan
masalah ketepatan hasil tes. Didukung dengan pendapat Zainal Arifin bahwa reliabilitas
merupakan tingkat atau derajat konsistensi dari suatu alat pengukur atau instrumen. Menurut
teori klasik, reliabilitas dihubungkan dengan pengertian adanya ketepatan suatu tes dalam
pengukurannya. Pendapat lain menyatakan bahwa reliabilitas adalah kestabilan skor yang
diperoleh orang yang sama ketika diuji ulang dengan tes yang sama pada situasi yang berbeda
atau dari satu pengukuran kepengukuran lainnya. Jadi reliabilitas dapat dinyatakan sebagai
tingkat keajegan atau kemantapan hasil dari dua pengukuran terhadap hal yang sama. Hasil
pengukuran itu diharapkan sama apabila pengukuran itu diulangi. Sebuah instrumen
dikatakan memiliki tingkat reliabilitas yang tinggi apabila dapat dengan ajeg memberikan
data yang sesuai dengan kenyataan. Reliabilitas dibedakan atas dua macam yaitu: reliabilitas
konsistensi tanggapan dan reliabilitas gangguan item. Menurut Nana Sudjana (2006: 17), ada
empat cara yang digunakan untuk melakukan uji reliabilitas tes, yaitu:
a) Reliabilitas Tes Ulang
Tes ulang (retest) adalah penggunaan alat penilaian terhadap subjek yang sama dilakukan dua
kali dalam waktu berlainan.
b) Reliabilitas Pecahan Setara

Mengukur reliabilitas bentuk pecahan setara tidak dilakukan dengan pengulangan pada
subjek yang sama, tetapi menggunakan hasil dari bentuk tes sebanding atau setara dengan
yang diberikan kepada subjek yang sama pada waktu yang berbeda. Dengan demikian,
diperlukan dua perangkat tes yang disusun agar memiliki derajat kesamaan atau kesetaraan,
baik dari segi isi, tingkat kesukaran, abilitas yang diukur, jumlah pertanyaan, bentuk
pertanyaan, maupun segi-segi teknis lainnya.
c) Reliabilitas Belah Dua
Dalam prosedur ini tes diberikan kepada kelompok subjek cukup satu kali atau pada satu saat.
Butir-butir soal dibagi menjadi dua bagian yang sebanding, biasanya dengan membedakan
soal nomor genap dengan soal nomor ganjil. Setiap bagian soal diperiksa hasilnya, kemudian
skor dari kedua bagian tersebut dikorelasikan untuk dicari koefisien korelasinya. Mengingat
korelasi tersebut hanya berlaku sebagian, tidak untuk seluruh soal, maka koefisien korelasi
yang diperolehnya tidak untuk seluruh soal, tetapi hanya untuk separuhnya.
d) Kesamaan Rasional
Prosedur ini dilakukan dengan menghubungkan setiap butir dalam satu tes dengan butir-butir
yang lainnya dalam tes itu sendiri secara keseluruhan.
Gronlund (1985: 100) mengemukakan ada empat faktor yang dapat mempengaruhi
reliabilitas, yaitu “panjang tes, sebaran skor, tingkat kesukaran, dan objektifitas”.
1. Panjang tes (length of test)
Panjang tes berarti banyaknya soal tes. Ada kecenderungan, semakin panjang suatu tes akan
lebih tinggi tingkat reliabilitas suatu tes, karena semakin banyak soal, maka akan semakin
banyak sampel yang diukur dan proporsi jawaban yang benar semakin banyak, sehingga
faktor
ebakan (guessing) akan semakin rendah.
2. Sebaran skor (spread of scores)
Besarnya sebaran skor akan membuat tingkat reliabilitas menjadi lebih tinggi, karena
koefisien reliabilitas yang lebih besar diperoleh ketika peserta didik tetap pada posisi yang
relatif sama dalam satu kelompok pengujian ke pengujian berikutnya. Dengan kata lain,
peluang selisih dari perubahan posisi dalam kelompok dapat memperbesar koefisien
reliabilitas.
3. Tingkat kesukaran (difficulty indeks)
Dalam penilaian yang menggunakan pendekatan penilaian acuan norma, baik untuk soal yang
mudah maupun sukar, cenderung menghasilkan tingkat reliabilitas yang rendah. Hal ini
disebabkan antara hasil tes yang mudah dengan hasil tes yang sukar keduanya dalam satu
sebaran skor yang terbatas. Untuk tes yang mudah, skor akan berada dibagian atas dan akhir
dari skala penilaian. Bagi kedua tes (mudah dan sukar), perbedaan antar peserta didik kecil
sekali dan cenderung tidak dapat dipercaya. Tingkat kesukaran soal yang ideal untuk
meningkatkan koefisien reliabilitas adalah soal yang menghasilkan sebaran skor berbentuk
genta atau kurva normal.
4. Objektifitas (obyektivity)
Objektifitas disini menunjukkan skor tes kemampuan yang sama antara peserta didik yang
satu dengan peserta didik lainnya. Peserta didik memperoleh hasil yang sama dalam
mengerjakan suatu tes. Jika peserta didik memiliki tingkat kemampuan yang sama, maka
akan memperoleh hasil tes yang sama pada saat mengerjakan tes yang sama. Objektifitas
prosedur tes yang tinggi akan memperoleh reliabilitas hasil tes yang tidak dipengaruhi oleh
prosedur penskoran
3) Tingkat Kesukaran
Tingkat kesukaran menurut Crocker dan Algina dapat didefinisikasn sebagai proporsi siswa
peserta tes yang menjawab benar. Menurut Suprananto (2012: 175) tingkat kesukaran soal
adalah peluang menjawab benar suatu soal pada tingkat kemampuan tertentu yang biasanya
dinyatakan dalam bentuk indeks. Daryanto (2007: 180) menjelaskan besarnya indeks
kesukaran antara 0,00 sampai dengan 1,0. Indeks kesukaran menunjukkan taraf kesukaran
soal. Soal dengan indeks kesukaran 0,0 menunjukkan bahwa soal terlalu sukar, sebaliknya
indeks 1,0 menunjukkan soalnya terlalu mudah. Bermutu atau tidaknya butir-butir item tes
hasil belajar pertama-tama dapat diketahui dari derajat kesukaran atau taraf kesulitan yang
dimiliki oleh masing-masing butir item tersebut. Butir- butir item tes hasil belajar dapat
dinyatakan sebagai butir –butir item yang baik, apabila butir-butir item tersebut tidak terlalu
sukar dan tidak pula terlalu mudah dengan kata lain derajat kesukaran itu adalah sedang atau
cukup.
1. Menghitung tingkat kesukaran soal bentuk objektif

Sehubungan dengan tingkat kesukaran ini, ada beberapa hal yang harus diperhatikan
dalam menyusun soal di bank soal, yaitu:
a) Soal yang termasuk ekstrim sukar atau ekstrim mudah tidak memberikan informasi
yang berguna bagi sebagian besar peserta didik. Oleh sebab itu, soal seperti ini
kemungkinan distribusi jawaban pada alternatif jawaban ada yang tidak memenuhi
syarat.
b) Jika ada soal ekstrim sukar atau ekstrim mudah, tetapi setiap pengecoh (distribusi
jawaban) pada soal tersebut menunjukkan jawaban yang merata, logis, dan daya
bedanya negatif (kecuali kunci), maka soal-soal tersebut masih memenuhi syarat
untuk
diterima.
c) Jika ada soal ekstrim sukar dan ekstrim mudah, tetapi memiliki daya pembeda dan
statistik pengecoh memenuhi kriteria, maka soal tersebut dapat dipilih dan diterima
sebagai salah satu alternatif untuk disimpan dalam bank soal.
d) Jika ada soal ekstrim sukar dan ekstrim mudah, daya pembeda dan statistik
pengecohnya belum memenuhi kriteria, maka soal tersebut perlu direvisi dan
diujicoba lagi.
2. Menghitung tingkat kesukaran untuk soal bentuk uraian
Cara menghitung tingkat kesukaran untuk soal bentuk uraian adalah menghitung
berapa persen peserta didik yang gagal menjawab benar atau ada di bawah batas lulus
(passing grade) untuk tiap-tiap soal. Untuk menafsirkan tingkat kesukaran soalnya
dapat digunakan kriteria
sebagai berikut:
a) Jika jumlah peserta didik yang gagal mencapai 27 %, termasuk mudah.
b) Jika jumlah peserta didik yang gagal antara 28 % sampai dengan 72 %, termasuk
sedang.
c) Jika jumlah peserta didik yang gagal 72 % ke atas, termasuk sukar.
Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagi pendidik dan
kegunaan bagi pengujian dan pengajaran. Kegunaan bagi pendidikan adalah:
a) Sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi masukan kepada
peserta didik tentang hasil belajar mereka.
b) Memperoleh informasi tentang penekanan kurikulum atau mencurigai butir soal yang bias.
Adapun kegunaannya bagi pengujian dan pengajaran adalah:
a) Pengenalan konsep yang diperlukan untuk diajarkan ulang
b) Tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah
c) Memberi masukan kepada peserta didik
d) Tanda-tanda kemungkinan adanya butir soal yang bias,
e) Merakit tes yang memiliki ketepatan daya soal.
4) Daya Pembeda
Daya pembeda adalah kemampuan butir soal tes hasil belajar membedakan siswa
yang mempunyai kemampuan tinggi dan rendah. Menurut Daryanto (2007: 183) daya
pembeda soal adalah kemampuan sesuatu soal untuk membedakan antara siswa
berkemampuan tinggi dengan siswa yang berkemampuan rendah, sehingga dapat
memudahkan guru melakukan evaluasi pembelajaran. Menurut Suryabrata (2000) daya
pembeda soal diukur dari kesesuaian soal itu dengan keseluruhan tes dalam membedakan
antara mereka yang tinggi kemampuannya dan mereka yang rendah kemampuannya dalam
hal yang diukur oleh tes yang bersangkutan. Teknik yang banyak digunakan untuk mengukur
daya pembeda itu adalah korelasi antara skor pada soal tertentu dengan skor total. Daya beda
berhubungan dengan derajat kemampuan butir membedakan dengan baik perilaku pengambil
tes dalam tes yang dikembangkan. Daya pembeda harus diusahakan positif dan setinggi
mungkin.Semakin tinggi koefisien daya beda suatu butir soal, semakin mampu butir soal
tersebut membedakan antara peserta didik yang menguasai kompetensi dengan peserta didik
yang kurang menguasai kompetensi. Daya pembeda dapat diketahui dengan melihat besar
kecilnya angka indeks diskriminasi item. Angka indek diskriminasi item adalah sebuah angka
atau bilangan yang menunjukkan besar kecilnya daya (discriminatory power) yang dimiliki
oleh sebutir item. Discriminatory power pada dasarnya dihitung atas dasar pembagian testee
ke dalam dua kelompok, yaitu kelompok atas (the higher group) yang tergolong pandai dan
kelompok bawah (the lower group) yaitu kelompok testee yang tergolong bodoh. Perhitungan
daya pembeda dibedakan antara kelompok kecil dan kelompok besar. Kelompok kecil
merupakan kelompok yang terdiri kurang dari 100 (seratus) orang, sebaliknya kelompok
besaradalah kelompok yang terdiri lebih dari 100 (seratu) orang. Untuk kelompok kecil,
seluruh kelompok peserta tes (testee) dibagi dua sama besar, 50% kelompok atas (JA) dan
kelompok bawah (JB). Seluruh pengikut tes, dideretkan mulai dari skor teratas sampai
terbawah lalu dibagi dua. Untuk kelompok besar. mengingat biaya dan waktu untuk
menganalisis, maka untuk kelompok besar biasanya hanya diambil kedua kutubnya saja,
yaitu 27% skor teratas sebagai kelompok atas (JA) dan 27% skor terbawah sebagai kelompok
bawah (JB).
5) Fungsi Distraktor (Efektifitas Pengecoh)
Menurut Zuldafrial (2012: 114) analisis efektivitas pengecoh digunakan untuk

menentukan apakah pengecoh sudah berfungi sebagai pengecoh dengan baik atau tidak.
Menurut Daryanto (2007: 192) pengecoh dikatakan berfungsi dengan baik apabila pengecoh
tersebut mempunyai daya tarik yang besar bagi peserta tes yang kurang memahami konsep
atau menguasai bahan. Menurut Zuldafrial (2012: 114) pengecoh dapat dikatakan berfungsi
dengan baik jika paling sedikit dipilih oleh 5% pengikut tes. Oleh karenanya, pengecoh dapat
dikatakan berfungsi dengan baik jika memiliki daya tarik yang dapat mengalihkan pilihan
jawaban siswa paling sedikit dipilih oleh 5% dari jumlah siswa yang mengikuti tes. Analisis
Butir juga dilakukan dengan memperhatikan pengecoh. Pengecoh (distractor) yang juga
dikenal dengan istilah penyesat atau penggoda adalah pilihan jawaban yang bukan
merupakan kunci jawaban. Tujuan utama dari pemasangan distractor pada setiap butir soal itu
adalah, agar dari sekian banyak testee yang mengikuti tes hasil belajar ada yang tertarik atau
terangsang untuk memilihnya, sebab mereka menyangka bahwa distractor yang mereka pilih
itu merupakan jawaban betul. Jadi mereka terkecoh, menganggap bahwa distractor yang
terpasang pada item itu sebagai kunci jawaban item, padahal bukan. Distraktor baru dapat
dikatakan telah dapat menjalankan fungsinya dengan baik, apabila distraktor tersebut
memiliki daya rangsang atau daya Tarik demikian rupa, sehingga testee merasa bimbang dan
ragu-ragu sehingga akhirnya mereka terkecoh untuk memilih distractor sebagai jawaban
betul, sebab mereka mengira jawaban tersebut sebagai kunci jawaban yang betul, padahal
bukan. Butir yang baik pengecohnya akan dipilih secara merata oleh peserta didik yang
menjawab salah. Sebaliknya, butir soal yang kurang baik, pengecohnya akan dipilih secara
tidak merata. Jika semua peserta didik menjawab benar pada butir soal tertentu (sesuai kunci
jawaban) maka indeks pengecoh (IP) = 0 yang berarti soal tersebut jelek, dengan demikian,
pengecoh tidak berfungsi. Menganalisis fungsi distractor sering dikenal dengan istilah lain,
yaitu: menganalisis pola penyebaran jawaban item.adapun yang dimaksud dengan pola
jawaban item adalah suatu pola yang dapat menggambarkan bagaimana testee menentukan
pilihan jawaban terhadap kemungkinan-kemungkinan jawab yang telah dipasangkan pada
setiap butir item.
DAFTAR PUSTAKA
Supardi. 2016. Penilaian Autentik Pembelajaran Afektif, kognitif dan Psikomotor (Konsep
dan
Aplikasi). Rajawali Pers, Jakarta. Hal 82
Suharsimi Arikunto. 2013. Dasar-Dasar Evaluasi Pendidikan Edisi 2. Bumi Aksara, Jakarta.
Hal 100
Daryanto. 2007. Evaluasi Pendidikan. Jakarta: Rineka Cifta
Suprananto. 2012. Pengukuran dan Penilaian Pendidikan.Yogyakarta: Graha Ilmu.
Sudaryono. 2012. Dasar-Dasar Evaluasi Pembelajaran. Yogyakarta: Graha Ilmu.
Zuldafrial. 2012. Evaluasi Pendidikan & Penelitian Tindakan Kelas. Pontianak: STAIN
Pontianak Press.
Nana Sudjana. (2006). Penilaian Hasil Belajar Proses Belajar Mengajar: Bandung: PT.
Remaja Rosdakarya.

Analisis Kualitas Butir Soal

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Kualitas Butir Soal

Diunggah oleh

Hak Cipta:

Format Tersedia

b.

Teknik Analisis Kualitas Butir Soal secara Kuantitatif

1. Faktor instrumen evaluasi

2. Faktor administrasi evaluasi dan penskoran

3. Faktor jawaban dari peserta didik

a) Reliabilitas Tes Ulang

b) Reliabilitas Pecahan Setara

c) Reliabilitas Belah Dua

1. Panjang tes (length of test)

ebakan (guessing) akan semakin rendah.

2. Sebaran skor (spread of scores)

1. Menghitung tingkat kesukaran soal bentuk objektif

Adapun kegunaannya bagi pengujian dan pengajaran adalah:

a) Pengenalan konsep yang diperlukan untuk diajarkan ulang

b) Tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah

c) Memberi masukan kepada peserta didik

d) Tanda-tanda kemungkinan adanya butir soal yang bias,

e) Merakit tes yang memiliki ketepatan daya soal.

5) Fungsi Distraktor (Efektifitas Pengecoh)

Menurut Zuldafrial (2012: 114) analisis efektivitas pengecoh digunakan untuk

Aplikasi). Rajawali Pers, Jakarta. Hal 82

Daryanto. 2007. Evaluasi Pendidikan. Jakarta: Rineka Cifta

Suprananto. 2012. Pengukuran dan Penilaian Pendidikan.Yogyakarta: Graha Ilmu.

Sudaryono. 2012. Dasar-Dasar Evaluasi Pembelajaran. Yogyakarta: Graha Ilmu.

Anda mungkin juga menyukai