LANDASAN TEORI
Evaluasi merupakan salah satu komponen penting dan tahap yang harus ditempuh oleh
guru untuk mengetahui keefektifan pembelajaran (Zainal Arifin, 2012: 2). Dari kegiatan evaluasi
khususnya evaluasi hasil belajar, guru dapat mengukur apakah peserta didik sudah menguasai
materi yang telah dipelajari atau belum. Dalam mengevaluasi hasil belajar peserta didik, guru
dapat melakukannya melalui teknik tes dan teknik non tes. Teknik tes merupakan teknik yang
sering digunakan oleh guru dalam bentuk ulangan harian, ujian tengah semester, dan ujian akhir
semester.
Menurut M. Ngalim Purwanto (2010: 33) tes hasil belajar adalah tes yang digunakan
untuk menilai hasil pelajaran yang telah diberikan oleh guru kepada peserta didiknya. Tes yang
diberikan oleh guru dapat dalam bentuk tes subjektif dan tes objektif. “Tes subjektif pada
umumnya berbentuk esai (uraian)” (Suharsimi Arikunto, 2013: 177). Tes objektif menurut
Suharsimi Arikunto (2013: 181-193) dapat berupa tes benar-salah (true-false), tes pilihan ganda
(multiple choice test), tes menjodohkan (matching test), dan tes isian (completion test). Tes yang
baik tentunya dapat memberikan gambaran yang tepat mengenai hasil belajar peserta didik.
Dengan kata lain tes yang baik haruslah tes yang berkualitas.
Menurut Suharsimi (2009: 57) sebuah tes dapat dikatakan baik sebagai alat pengukur
harus memenuhi persyaratan tes, yaitu memiliki validitas, reliabilitas, objektivitas, praktibilitas,
dan ekonomis. Sebuah tes dikatakan valid apabila tes dapat tepat mengukur sesuatu yang akan
diukur. Sebuah tes dikatakan reliabel apabila hasil-hasil tes menunjukkan ketetapan. Tes bersifat
objektif berarti dalam melaksanakan tes tidak ada faktor subjektif yang mempengaruhi. Tes
dikatakan memiliki praktibilitas tinggi apabila tes tersebut bersifat praktis yaitu: mudah
dilaksanakan, mudah pemeriksaannya serta dilengkapi dengan petunjuk-petunjuk yang jelas.
Ekonomis dalam melaksanakan tes berarti tidak membutuhkan biaya yang mahal, tenaga yang
banyak, dan waktu yang lama. Berdasarkan pernyataan Suharsimi Arikunto tersebut, perlu
diadakan proses analisis kualitas tes untuk mengetahui sejauh mana sebuah tes sudah dikatakan
baik.
Analisis kualitas tes merupakan tahap yang harus ditempuh untuk mengetahui derajat
kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang menjadi bagian tes.
Analisis butir soal atau analisis item merupakan pengkajian pertanyaan-pertanyaan tes agar
diperoleh perangkat pertanyaan yang memiliki kualitas yang memadai (Nana Sudjana, 2012:
135). Analisis soal antara lain bertujuan untuk mengadakan identifikasi soal-soal yang baik,
kurang baik, dan soal yang jelek. Dalam menganalisis butir soal, hal yang perlu dianalisis adalah
Validitas, Reliabilitas, Tingkat Kesukaran, Daya Pembeda, dan Pengecoh (Distraktor).
2.2 Validitas
Validitas atau kesahihan berasal dari kata validity yang didefinisikan sebagai ukuran
seberapa cermat suatu tes untuk melakukan fungsi ukurnya. Sebuah tes dikatakan memiliki
validitas jika hasilnya sesuai dengan kriterium, dalam arti memiliki kesejajaran antara hasil tes
tersebut dengan kriterium. Teknik yang digunakan untuk mengetahui kesejajaran adalah teknik
product moment yang dikemukakan oleh Pearson.
Dimana:
𝑟𝑥𝑦 = koefisien korelasi antara variable X dan variable Y, dua variable yang dikorelasikan (𝑥
= 𝑋 − 𝑋̅) dan (𝑦 = 𝑌 − 𝑌̅).
𝑥2 = kuadrat dari 𝑥
𝑦2 = kuadrat dari 𝑦
Untuk mengetahui validitas dapat mempergunakan daftar Interpretasi besarnya koefisien korelasi
sebagai berikut:
2.3. Reliabilitas
Menurut Baker (1998: 60) reliabilitas biasanya didefinisikan sebagai konsistensi dari tes.
Konsistensi hanyalah merupakan salah satu aspek dari reliabilitas. Ketelitian atau akurasi adalah
hal lain. Definisi reliabilitas yang lebih komprehensif adalah derajat ketepatan dan ketelitian atau
akurasi yang ditunjukkan oleh instrumen pengukuran. Menurut Naga (2008: 55) reliabilitas
berkaitan dengan komponen skor tulen. Makin besar komponen skor tulen dan makin kecil
komponen skor keliru maka semakin tinggi reliabilitas skor tersebut. Makin tinggi reliabilitas
makin dapat dipercaya skor itu.
Terdapat beberapa prosedur untuk menghitung reliabilitas suatu tes, diantaranya adalah rumus
Alpha, yaitu :
dan rumus
Kuder-Richadson (KR) 20 yang digunakan untuk mencari reliabilitas dengan skor butir soal yang
dikotomi , dengan rumus :
Tingkat kesulitan (difficulty level) suatu butir soal menunjukkan proporsi atau presentase
subjek yang menjawab butir tes tertentu dengan benar. Item yang tergolong baik dan ideal adalah
soal yang tingkat kesukarannya rata-rata, artinya tidak terlalu sukar dan tidak terlalusulit.Tingkat
kesukaran butir juga sering disebut derajat kesukaran soal,yang menunjukan seberapa jauh soal
itu dijawab oleh peserta didik denganbenar. Karena itu tingkat kesukaran soal ditunjukan dengan
berapa persendari seluruh peserta tes yang menjawab soal tersebut benar.
Bilangan yang menunjukkan sukar dan mudahnya suatu soal disebut indeks kesukaran
(difficulty index). Besarnya indeks kesukaranantara 0,0 sampai dengan 1,0. Soal dengan indeks
kesukaran 0,0 menunjukkan bahwa soal itu terlalu sukar, sebaliknya indeks 1,0 menunjukkan
bahwa soalnya terlau mudah.
Sukar Mudah
Di dalam istilah evaluasi, indeks kesukaran diberi simbol 𝑃,singkatan dari kata “proporsi”.
Dengan demikian maka soal dengan 𝑃 =0,0 1,0Sukar Mudah 0,70 lebih mudah jika
dibandingkan dengan 𝑃 = 0,20. Sebaliknya soal dengan 𝑃 = 0,30 lebih sukar daripada soal
dengan 𝑃 = 0,80.
Dimana:
P = indeks kesukaran
Menurut ketentuan yang serig diikuti, Indeks kesukaran sering diklasifikasikan sebagai berikut:
Daya pembeda item adalah kemampuan suatu butir soal untuk membedakan antara
peserta tes yang pandai (siswa dengan prestasi tinggi) dengan peserta tes yang kurang pandai
(siswa dengan prestasi prestasi rendah). Daya pembeda butir soal yang sering digunakan dalam
tes hasil belajar adalah dengan cara menggunakan indeks korelasi antara skor butir dengan skor
totalnya. Daya beda ada tanda negatif yang artinya soal tersebut tidak dapat membedakan peserta
didik yang pandai dan peserta didik yang kurang pandai. Atau dengan kata lain, anak yang
kurang pandai bisa mengerjakan tetapi anak yang pandai justru tidak bisa mengerjakan.Soal yang
baik adalah soal yang dapat dijawab dengan benar oleh peserta didik yang pandai saja.Seluruh
pengikut tes dikelompokkan menjadi dua kelompok yaitu kelompok pandai atau kelompok atas
(upper group) dan kelompok kurang pandai atau kelompok bawah (lower group).
Rumus mencari D
Dimana :
𝐵𝐴 = banyaknya peserta kelompok atas yang menjawab soal itu dengan benar
𝐵𝐵 = banyaknya peserta kelompok bawah yang menjawab soal itu dengan benar
Butir-butir soal yang baik adalah butir-butir soal yang mempunyai indeks diskriminasi 0,4
sampai dengan 0,7.
𝐷: 𝑛𝑒𝑔𝑎𝑡𝑖𝑓,
semuanya tidak baik. Jadi semua butir soal yang mempunyai nilai D negative sebaiknya dibuang
saja.
Berfungsi tidaknya pilihan pada tes objektif pilihan ganda perlu diketahui. Untuk
menentukan berfungsi tidaknya pengecoh, diadakan analisis butir soal. Pengecoh dikatakan
mempunyai keberfungsian yang baik apabila semakin rendah tingkat kemampuan peserta tes
semakin banyak memilih pengecoh, atau makin tinggi tingkat kemampuan peserta tes akan
semakin sedikit memilih pengecoh. Hal demikian akan ditunjukkan adanya korelasi yang tinggi,
rendah, atau negatif pada analisis butir.
Apabila proporsi peserta tes yang menjawab dengan salah atau memilih suatu pengecoh
kurang dari 0,05 maka butir soal tersebut perlu direvisi. Selain itu perlu juga diperhatikan daya
pembeda yang ditunjukkan oleh masing-masing alternatif jawaban. Setiap pengecoh diharapkan
memiliki daya beda yang negatif, atau paling tidak daya pembeda pengecoh itu tidak akan lebih
besar dari daya pembeda kunci jawaban. Bila daya pembeda kunci jawaban tidak lebih besar dari
daya beda setiap pengecoh, maka kunci jawaban butir soal tersebut dipertanyakan kebenarannya.
Butir soal tes yang demikian harus ditinjau ulang atau direvisi secara menyeluruh.
Hayat, B. (1997). Analisis Butir Soal dengan Bigsteps. Jakarta : Pusat Penelitian dan
Pengembangan Sistem Pengujian.