Anda di halaman 1dari 6

LEARNING LOG

Nama : Masyiqah Amaliyah


NIM : 20100119036
Kelas : PAI B ‘19

Analisis Kualitas Tes Butir Soal dalam Pembelajaran PAI


Analisis tes dan butir soal merupakan suatu tahap yang harus ditempuh untuk
mengetahui derajat kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang
menjadi bagian dari tes tersebut.
A. Validitas Realibilitas, Kepraktisan, Obyektifitas
Suatu instrumen dapat dikatakan valid apabila benar-benar mampu mengukur apa
yang hendak diukur dengan tepat. Reliabilitas merupakan derajat konsistensi suatu
instrumen. Suatu tes dapat dikatakan reliabel apabila selalu memberikan hasil yang sama bila
diteskan pada kelompok yang sama pada kesempatan yang berbeda. Hal lain yang perlu
diperhatikan dalam menganalisis tes adalah kepraktisan tes tersebut, di mana kepraktisan
berarti kemudahan baik dalam hal persiapan, penggunaan, pengolahan, penafsiran, maupun
pengadministrasian.
1. Validitas
Sebelum menggunakan suatu tes, hendaknya mengukur terlebih dahulu derajat
validitasnya berdasarkan kriteria tertentu, dengan kata lain untuk melihat apakah tes tersebut
valid (sahih), Anda harus membandingkan skor peserta didik yang didapat dalam tes dengan
skor yang dianggap sebagai nilai baku. Misalnya, nilai ujian akhir semester peserta didik
dalam salah satu mata pelajaran dibandingkan dengan nilai ujian akhir semester pada mata
pelajaran yang lain. Semakin mendekati kedua skor tersebut, maka semakin soal ujian akhir
tadi dapat dikatakan valid.
Ada dua hal penting dalam validitas yaitu pertama, validitas yang menunjukkan suatu
derajat, ada yang sempurna, ada yang sedang, dan ada yang rendah. Kedua, validitas selalu
dihubungkan dengan suatu putusan dengan suatu putusan atau tujuan yang spesifik. Bilamana
alat ukur tidak memiliki validitas yang dapat dipertanggungjawabkan, maka data yang masuk
juga salah dan kesimpulan yang ditarik juga menjadi salah.
Adapun faktor-faktor yang memengaruhi validitas yaitu
a. faktor instrumen evaluasi yang berkaitan dengan prosedur penyusunan instrumen seperti
silabus, kisi-kisi soal, petunjuk mengerjakan soal dan pengisian lembar jawaban, kunci
jawaban, penggunaan kalimat efektif, bentuk alternatif jawaban, tingkat kesukaran, daya
pembeda, dan sebagainya.
b. faktor administrasi evaluasi dan penskoran, antara lain alokasi waktu pengerjaan tes atau
soal, kedisiplinan guru pengawas, kedisiplinan peserta tes, kesalahan penskoran, serta
kondisi fisik dan psikis peserta tes.
c. faktor jawaban dari peserta didik meliputi kecenderungan peserta didik untuk menjawab
dengan cepat namun kurang tepat, keinginan untuk coba-coba dan menggunakan gaya
bahasa tertentu dalam menjawab soal bentuk uraian.
Selanjutnya, Kerlinger mengemukakan, “validitas instrumen tidak cukup ditentukan
oleh derajat ketepatan instrumen untuk mengukur apa yang seharusnya diukur, tetapi perlu
juga dilihat dari tiga kriteria yang lain, yaitu appropriateness, meaningfulness, dan
usefulness." Appropriateness menunjukkan kelayakan dari tes sebagai suatu instrumen, yaitu
seberapa jauh instrumen dapat menjangkau keragaman aspek perilaku peserta didik.
Meaningfulness menunjukkan kemampuan instrumen dalam memberikan keseimbangan soal-
soal pengukurannya berdasar tingkat kepentingan dari setiap fenomena. Usefulness to
inferences menunjukkan sensitif tidaknya instrumen dalam menangkap fenomena perilaku
dan tingkat ketelitian yang ditunjukkan dalam membuat kesimpulan.
Dalam literatur modern tentang evaluasi, banyak dikemukakan tentang jenis-jenis
validitas, yaitu:
1) Validitas Permukaan, menggunakan kriteria yang sangat sederhana, karena hanya
melihat dari sisi muka atau tampang dari instrumen itu sendiri. Artinya, jika suatu tes
secara sepintas telah dianggap baik untuk mengungkap fenomena yang akan diukur,
maka tes tersebut sudah dapat dikatakan memenuhi syarat validitas permukaan, sehingga
tidak perlu lagi adanya judgement yang mendalam.
2) Validitas Isi (Content Validity), sering digunakan dalam penilaian hasil belajar .Tujuan
utamanya adalah untuk mengetahui sejauhmana peserta didik menguasai materi pelajaran
yang telah disampaikan, dan perubahanperubahan psikologis apa yang timbul pada diri
peserta didik tersebut setelah mengalami proses pembelajaran tertentu. Untuk menguji
tes dapat dilakukan dengan membandingkan antara isi instrumen dengan materi pelajaran
yang telah diajarkan. Dapat dikatakan valid, apabila materi tes tersebut betul-betul
merupakan bahan-bahan yang representatif terhadap bahan-bahan pelajaran yang
diberikan. Misalnya apabila kita ingin memberikan tes bahasa Inggris kepada anak-anak
kelas 2, maka item-itemnya harus diambil dari bahan-bahan pelajaran kelas 2. Kalau di
dalamnya kita diselipkan item-item yang diambil dari bahan-bahan pelajaran kelas 3
maka tes tersebut tidak valid lagi. Pengembangan tesnya menggunakan spesifikasi
domain isi tes. Spesifikasi isi menjelaskan secara rinci, dengan spesifikasi cakupan isi
dan tipe butir soal.
3) Validitas Susunan (Construct Validity), artinya kejituan apakah suatu tes memenuhi
syarat-syarat susunan atau tidak maka kita harus membandingkan susunan tersebut
dengan syarat-syarat penyusunan tes maka berarti tes tersebut memenuhi syarat validitas
susunan. Begitu pula sebaliknya, apabila tidak memenuhi syarat-syarat penyusunan tes
berarti tidak memenuhi validitas susunan. Misalnya kalau kita ingin memberikan tes
kecakapan ilmu pasti, kita harus membuat soal yang ringkas dan jelas yang benar-benar
akan mengukur kecakapan ilmu pasti, bukan mengukur kemampuan bahasa karena soal
itu ditulis secara berkepanjangan dengan bahasa yang sukar dimengerti.
Validitas ramalan dan validitas bandingan disebut pula validitas empiris (empirical
validity), sebab pengujian daripada validitas tersebut didasarkan atas perhitungan-
perhitungan secara empiris. Sebaliknya, validitas isi dan validitas susunan disebut pula
validitas rasional (logical validity) sebab pengujian terhadap validitas tersebut didasarkan
atas analisa rasional.
4) Validitas Empiris (Empirical Validity), Validitas ini biasanya menggunakan teknik
statistik, yaitu analisis korelasi. Hal ini disebabkan validitas empiris mencari hubungan
antara skor tes dengan suatu kriteria tertentu yang merupakan suatu tolok ukur di luar tes
yang bersangkutan. Namun, kriteria itu harus relevan dengan apa yang akan diukur.
5) Validitas Faktor (Factorial Validity), diperoleh berdasarkan dimensi atau indikator dari
variabel yang diukur sesuai apa yang terungkap dalam konstruksi teoretisnya. Meskipun
variabel terdiri atas beberapa faktor, tetapi prinsip homogenitas untuk keseluruhan faktor
harus tetap dipertahankan, sehingga tidak menjadi tumpang tindih antara suatu faktor
dengan faktor yang lain. Dengan demikian, kretirium yang digunakan dalam validitas
faktor ini dapat diketahui dengan menghitung homogenitas skor setiap faktor dengan
total skor, dan antara skor dari faktor yang satu dengan skor dari faktor yang lain.
Validitas ini disebut juga validitas statistik (statistical validity) yang diperoleh melalui
perhitungan korelasi dengan kriterium yaitu Total skor sebagai kriterium dengan
bermaksud untuk mengetahui sampai di mana suatu faktor yang diungkapkan oleh suatu
item mempunyai keserasian (memberikan sumbangan) terhadap keseluruhan faktor yang
hendak diungkapkan oleh suatu alat pengumpul data, dan Kriterium eksternal dengan
membandingkan nilai yang diperoleh sekelompok individu dalam mengerjakan suatu alat
pengumpul data yang hendak diukur validitasnya, dengan nilai yang diperoleh kelompok
individu yang sama dalam mengerjakan alat pengumpul data lain yang telah diketahui
validitasnya tinggi.
2. Reliabilitas (dapat dipercaya)
Sebuah tes dikatakan reliabel apabila hasil-hasil tes tersebut menunjukkan ketetapan,
keajegan, atau konsisten. Artinya, siswa diberikan tes yang sama pada waktu yang berlainan,
maka setiap siswa akan tetap berada dalam urutan (rangking) yang sama dalam kelompoknya.
Suatu tes memiliki keterandalan bilamana tes tersebut dipakai mengukur berulang-ulang
hasilnya sama. Reliabilitas diartikan juga dengan keajegan atau stabilitas, bilamana tes
tersebut diujikan berkali-kali hasilnya relatif sama, artinya setelah hasil tes pertama dengan
tes berikutnya dikorelasikan terdapat hasil korelasi yang signifikan. Di samping itu, dapat
diketahui dengan jalan menggunakan dobel tes, artinya disusun dua buah tes yang paralel ,
kemudian keduanya diujikan dan hasilnya dikorelasikan. Bila kedua hasil tersebut
menunjukkan korelasi positif dan signifikan, maka tes tersebut memiliki keajegan.
Reliabilitas diartikan dengan stabilitas bilamana tes itu diujikan dan hasilnya diadakan
analisis reliabilitas dengan menggunakan kriteria internal dalam tes tersebut. Cara untuk
mengetahui koefisien stabilitas ini adalah dengan beberapa rumus yang seluruhnya cukup
menggunakan satu tes dengan sekali diujikan kepada siswa.
Ada beberapa cara yang dapat dipergunakan untuk mencari taraf reliabilitas daripada
suatu tes.
a. Teknik Ulangan (Koefisien Stabilitas) merupakan jenis reliabilitas yang menggunakan
teknik test and retest yaitu memberikan tes kepada sekelompok individu kemudian
mengulang tes yang sama pada kelompok yang sama di waktu yang berbeda. Misalnya,
suatu tes diberikan kepada group A selang tiga hari atau seminggu kemudian tes tersebut
diberikan lagi kepada kelompok A dengan syarat-syarat tertentuSkor yang diperoleh
anak-anak dalam periode pertama dikorelasikan dengan skor yang mereka peroleh dalam
periode kedua. Besar kecilnya koefisien korelasi yang diperoleh menunjukkan reliabilitas
dari tes tersebut.
b. Teknik Bentuk Paralel (Koefisien Ekuivalen) dipergunakan dua buah tes yang sejenis
(tetapi tidak identik), mengerti isinya; proses mental yang diukur, tingkat kesukaran
jumlah item dan aspek-aspek yang lain. Kedua tes ini diberikan kepada kelompok subjek
tanpa adanya tenggang waktu. Skor yang diperoleh dari kedua tes tersebut dikorelasikan.
Besar kecilnya koefisien korelasi yang diperoleh menunjukkan reliabilitas daripada tes
tersebut. Teknik bentuk paralel ini lebih menguntungkan dibandingkan dengan teknik
ulangan karena:
1) Item-item yang dipergunakan tidak sama maka pengaruh daripada hasil latihan dapat
dihindarkan.
2) Tidak adanya tenggang waktu maka perbedaan faktor-faktor yang memengaruhi
pelaksanaan tes boleh dikatakan tidak ada. Misalnya, faktor situasi tes, administrasi,
pengawasan, dan sebagainya.
c. Teknik Belah Dua (Koefisien Konsistensi Internal) merupakan reliabilitas yang didapat
dari mengorelasikan dua buah tes dari kelompok yang sama kemudian tiaptiap bagian
diberikan skor secara terpisah. Ada dua prosedur yang dapat dipergunakan untuk
membelah dua suatu tes, yaitu:
1) Prosedur ganjil genap, artinya seluruh item yang bernomor ganjil dikumpulkan
menjadi satu kelompok dan seluruh item yang bernomor genap menjadi kelompok
yang lain.
2) Prosedur secara random, misalnya dengan jalan lotre atau dengan jalan
mempergunakan tabel bilangan random.
3. Kepraktisan
Kepraktisan berarti kemudahan baik dalam hal persiapan, penggunaan, pengolahan,
penafsiran, maupun pengadminitrasian. Kepraktisan merupakan syarat suatu tes standar.
Kebanyakan seseorang membuat tes hanya untuk kepentingan dirinya sendiri, tidak berpikir
untuk orang lain. Akibatnya, ketika tes tersebut digunakan orang lain, maka orang tersebut
akan merasakan kesulitan. Berikut ini merupakan faktor-faktor yang memengaruhi
kepraktisan, yaitu Kemudahan mengadministrasi, Waktu yang disediakan untuk melancarkan
evaluasi, Kemudahan menskor serta Kemudahan interpretasi dan aplikasi Tersedianya bentuk
instrumen evaluasi yang ekuivalen.
4. Objektivitas
Objektivitas di sini menunjukkan skor tes kemampuan yang sama antara peserta didik
yang satu dengan peserta didik lainnya. Yaitu apabila dalam melaksanakan tes itu tidak ada
faktor subjektif yang memengaruhi. Hal ini, terutama pada sistem skoringnya, apabila
dikaitkan dengan reliabilitas maka objektivitas menekankan ketetapan pada sistem skoring,
sedangkan reliabilitas menekankan ketetapan dalam hasil tes. Faktor yang memengaruhi
subjektivitas dari sebuah tes adalah:
a. Bentuk Tes, karena adanya kemungkinan penilai memberikan penilaian menurut caranya
sendiri. Oleh karena itu, apabila guru ingin menggunakan tes bentuk uraian, hendaklah
guru tersebut membuat pedoman skoring terlebih dahulu. Dengan demikian, subjektivitas
penilaian dapat dihindari
b. Penilaian, karena adanya pengaruh faktor kesan penilai terhadap siswa, tulisan, bahasa,
waktu mengadakan penilaian, kelelahan penilaian, dan lain-lain. Untuk itulah, guru harus
tetap berpegang pada kriteria penilaian yang telah disusun. Munculnya faktor
subjektivitas inilah yang kemudian menimbulkan kecenderungan penggunaan tes bentuk
objektif, dan menghindari tes bentuk uraian
B. Analisis Kualitas Butir Soal
Item soal yang baik adalah item yang tingkat kesukarannya dapat diketahui tidak
terlalu sukar dan tidak terlalu mudah. Sebab tingkat kesukaran item itu memiliki korelasi
dengan daya pembeda. Bilamana item memiliki tingkat kesukaran maksimal, maka daya
pembedanya akan rendah, demikian pula bila item itu terlalu mudah juga tidak akan memiliki
daya pembeda.
Oleh karena itu, sebaiknya tingkat kesukaran soal itu dipertahankan dalam batas yang
mampu memberikan daya pembeda. Namun demikian, bilamana terdapat tujuan khusus
penyusunan tes dapat pula pertimbangan tersebut dikesampingkan, seperti tingkat kesukaran
item untuk tes sumatif berbeda dengan tingkat kesukaran pada tes diagnostik.
1. Tingkat kesukaran Soal Bentuk Objektit
Menggunakan rumus tingkat kesukaran.
TK = (WL + WH) X 100%
(nL + nH)
*ket. WL: jumlah p.d yg mnjwb salah di klp bawah;
WH: jumlah p.d yg mnjwb salah di klp atas;
nL: jumlah klp bawah
Nh: jumlah klp atas
Menyusun lembar jawaban dari skor tertinggi sampai terendah Menyisihkan 27% dari
kelompok atas dan bawah Membuat tabel untuk mengetahui jawaban benar (+) salah (-)
Kriteria penafsiran tingkat kesukaran soal: < 27% = mudah; 27% - 72% = sedang; > 72% =
sukar.
2. Soal Bentuk Uraian
Menghitung tingkat kesukaran soal bentuk uraian adalah dengan menghitung
persentase peserta didik yang gagal menjawab benar atau di bawah batas lulus (passing
grade) untuk tiap-tiap soal." Untuk menafsirkan tingkat kesukaran soalnya dapat digunakan
kriteria sebagai berikut.
1) Jika jumlah peserta didik yang gagal mencapai 27%, termasuk mudah
2) Jika jumlah peserta didik yang gagal antara 28% sampai dengan 72%, termasuk sedang
3) Jika jumlah peserta didik yang gagal 72% ke atas, termasuk sukar.
3. Daya Pembeda
Item yang baik adalah item yang mampu membedakan antara kemampuan siswa yang
pandai dan siswa yang rendah. Perhitungan daya pembeda adalah pengukuran sejauhmana
suatu butir soal mampu membedakan peserta didik yang sudah belum menguasai kompetensi
dengan peserta didik yang belum atau kurang menguasai kompetensi berdasarkan kriteria
tertentu. Semakin tinggi koefisien daya pembeda suatu butir soal, semakin mampu butir soal
tersebut membedakan antara peserta didik yang menguasai kompetensi dengan peserta didik
yang kurang menguasai kompetensi.
Adapun rumus untuk mengetahui daya pembeda adalah
DP = (WL - WH)
n
Keterangan:
DP = adalah besarnya daya pembeda yang ingin dicari
n = besarnya sampel dari salah satu kelompok46
C. Analisis Pengeco
Pada soal bentuk pilihan ganda ada alternatif jawaban (opsi) yang merupakan
pengecoh. Butiran soal yang mengecoh akan dipilih secara merata dipilih oleh peserta didik
yang menjawab salah. Sebaiknya, butir soal yang kurang baik pengecohan akan dipilih secara
tidak merata.
Pengecoh dianggap baik bila jumlah peserta didik yang memilih pengecoh itu yang
atau sama mendekati jumlah ideal.
Indeks pengecoh dihitung dengan rumus:
IP = P X 100%
N-B
n
Keterangan:
IP = Indeks pengecoh
P = jumlah peserta didik yang memilih pengecoh
N = jumlah peserta didik yang ikut tes
B = jumlah peserta didik yang menjawab benar
n = jumlah opsi
1 = bilangan tetap
Adapun kualitas pengecoh berdasarkan indeksnya adalah:
• 76% 125% = sangat baik;
• 51%,-75% atau 126% 150% = baik
• 26% 50% atau 151%-175% = kurang baik
• 0%-25% atau 176% 200% = sangat jelek
• Lebih dari 200% = jelek
Catatan: Jika semua peserta didik menjawah benar pada butir soal tertentu (sesuai kunci
jawaban), maka IP = 0 yang berarti soal tersebut jelek. Dengan demikian, pengecoh tidak
berfungsi
D. Analisis Homogenitas Soal
Homogen tidaknya butir soal diketahui dengan menghitung koefisien korelasi antara
skor tiap butir dengan skor total. Perhitungan dilakukan sebanyak butir soal dalam tes yang
bersangkutan. Jika jumlah soal ada 100, maka perhitungan koefisien korelasi sebanyak 100
kali. Skor setiap butir soal adalah 1 atau 0, sedangkan skor total tiap peserta didik bervariasi.
Salah satu teknik korelasi yang dapat digunakan adalah korelasi product-moment atau
korelasi point biserial. Butir soal dikatakan homogen, apabila koefisien korelasinya sama
atau di atas batas signifikan (harga kritik korelasi). Sebaliknya, butir soal dikatakan tidak
homogen, jika koefisien korelasinya negatif atau lebih kecil dari batas signifikan Butir soal
yang tidak homogen kemungkinan besar mengukur aspek lain di luar materi/bahan yang
diajarkan, karena tidak sesuai dengan kompetensi yang telah ditetapkan. Butir soal yang
demikian sebaiknya direvisi atau dibuang. Salah satu teknik korelasi yang dapat digunakan
adalah korelasi product moment atau korelasi point biserial.
E. Efektivitas Fungsi Opsi
Analisis butir soal dilakukan dengan melakukan perhitungan kesukaran dan daya
pembeda. Analisis lain yang dibutuhkan untuk memastikan kualitas tes dan butir soal adalah
analisis pengecoh, analisis homogenitas, dan analisis efektivitas fungsi opsi
Setelah tingkat kesukaran soal, daya pembeda, homogenitas dan analisis pengecoh dihitung,
selanjutnya perlu diketahui pula apakah suatu opsi (alternatif jawaban) dari setiap soal
berfungsi secara efektif atau tidak Untuk itu, dapat digunakan langkah-langkah sebagai
berikut.
1. Menentukan jumlah peserta didik (N)
2. Menentukan jumlah sampel (n), baik untuk kelompok atas maupun kelompok bawah,
yaitu 27% x N
3. Membuat tabel pengujian efektivitas opsi
4. Menghitung jumlah alternatif jawaban yang dipilih peserta didik, baik untuk
kelompok atas maupun kelompok bawah
5. Menentukan efektivitas fungsi opsi dengan kriteria:
a. Opsi Kunci
- Jumlah pemilih kelompok atas dan bawah antara 25-75%
- Jumlah pemilih kelompok atas harus lebih banyak dari jumlah pemilih
kelompok bawah.
b. Opsi Pengecoh
- Jumlah pemilih kelompok atas dan bawah tidak kurang dari 25%.
- Jumlah pemilih kelompok bawah harus lebih besar daripada kelompok atas.

Anda mungkin juga menyukai