1705122125
A. Validitas
Karakter pertama dan memiliki peranan sangat penting dalam instrument evaluasi adalah valid. Suatu
instrument dikatakan valid, seperti yang duterangkan oleh Gay (1983) dan Johnson & Johnson (2002),
apabila instrument yang digunakan dapat mengukur apa yang seharusnya diukur (Sukardi, 2008).
Pernyataan serupa juga disampaikan oleh Scarvia B. Anderson (dalam Arikunto, 1997) bahwa “A test is valid
if it measures what is purpose to measure”. Atau jika diartikan krang lebih, sebuah tes dikatakan valid
apabila tes tersebut mengukur apa yang hendak diukur. Dalam bahasa Indonesia “Valid” disebut dengan
istilah “Sahih”.
Menurut Sukardi (2008: 31) validitas instrument suatu evaluasi, tidak lain adalah derajat yang menunjukkan
dimana suatu tes mengukur apa yang hendak diukur. Validitas suatu instrument evaluasi mempunyai
beberapa makna penting diantaranya seperti berikut:
1) Validitas berhubungan dengan ketepatan interpretasi hasil tes atau instrument evaluasi untuk group
individual dan bukan instrument itu sendiri.
2) Validitas diartikan sebagai derajat yang menunjukkan kategori yang bisa mencakup kategori rendah,
menengah dan tinggi.
3) Prinsip suatu tes valid, tidak universal. Validitas suatu tes yang perlu diperhatikan oleh para peneliti
adalah bahwa Ia hanya valid untuk suatu tujuan tertentu saja.
1.1.2 Macam-macam Validitas
Menurut Sukardi (2008) secara metodologis validitas suatu tes dapat dibedakan menjadi empat macam, yaitu
validitas isi, validitas konstruk, validitas konkruen dan validitas prediksi. Macam-macam validitas
tersebut akan diuraikan sebagai berikut:
1) Validitas isi
Yang dimaksud validitas isi ialah derajat dimana sebuah tes evaluasi mengukur cakupan substansi yang ingin
diukur. Untuk mendapatkan validitas isi memerlukan dua spek penting, yaitu valid isi dan valid
teknik sampling.Valid isi mencakup khususnya, hal-hal yang berkaitan dengan apakah item-item evaluasi
menggambarkan pengukuran dalam cakupan yang ingin diukur. Sedangkan validitas teknik sampling
pada umunya berkaitan dengan bagaimanakah baiknya suatu sampel tes mempresentasikan total cakupan
isi (Sukardi, 2008).
Sedangkan Arikunto (1997: 64) sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus
tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan. Oleh karena materi yang diberikan
tertera dalam kurikulum maka validitas isi juga disebut validitas kurikuler.
2) Validitas Konstruk
Validitas konstruk merupakan derajat yang menunjukkan suatu tes mengukur sebuah konstruk sementara
atau Hyptotetical construct. Secara definitife, konstruk merupakan suatu sifat yang tidak dapat
diobservasi, tetapi kita dapat merasakan pengaruhnya melalui salah satu atau dua indera kita (Sukardi,
2008).
Sedangkan Arikunto(1997: 64) sebuah tes dikatakan memiliki validitas konstruksi apabila butir-butir soal yang
membangun tes tersebut mengukur setiap aspek berfikir seperti disebutkan dalam tujuan instruksional
khusus. Dengan kata lain jika butir-butir soal mengukur aspek berfikir tersebut sudah sesuai dengan aspek
berfikir yang menjadi tujuan instruksional.
3) Validitas Konkruen
Validitas konkruen adalah derajat dimana skor dalam suatu tes dihubungkan dengan skor lain yang telah
dibuat. Tes dengan validitas konkruen biasanya diadministrasi dalam waktu yang sama atau dengan
criteria valid yang sudah ada. Sering kali juga terjadi bahwa tes dibuat atau dikembangkan untuk
pekerjaan yang sama seperti beberapa tes lainnya, tetapi dengan cara yang lebih mudah dan lebih cepat.
Validitas konkruen ditentukan dengan membangun analisis hubungan dan perbedaan (Sukardi, 2008).
4) Validitas Prediksi
Validitas prediksi adalah derajat yang menunjukkan suatu tes dapat memprediksi tentang bagaimana baik
seseorang akan melakukan suatu prospek atau tugas atau pekerjaan yang direncanakan. Validitas prediksi
suatu tes pada umumnya ditentukan dengan membangun hubungan antara skor tes dan beberapa ukuran
keberhasilan dalam situasi tertentu yang digunakan untuk memprediksi keberhasilan, yang selanjutnya
disebut sebagai predictor. Sedangkan tingkah laku yang diprediksi disebut criterion (Sukardi, 2008).
Sedangkan menurut Arikunto(1997: 66) memprediksi artinya meramal, dan meramal selalun mengenai hal
yang akan datang jika sekarang belum terjadi. Sebuah tes memiliki validitas prediksi atau validitas
ramalan apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi pada masa yang akan
datang.
Banyak faktor yang dapat mempengaruhi hasil tes evaluasi tidak valid. Beberapa faktor tersebut secara garis
besar dapat dibedakan menurut sumbernya, yaitu faktor internal dari tes, faktor eksternal tes, dan faktor
yang berasal dari siswa yang bersangkutan.
1. Arahan tes yang disusun dengan makna tidak jelas sehingga dapat mengurangi validitas tes
2. Kata-kata yang digunakan dalam struktur instrument evaluasi, tidak terlalu sulit
3. Item tes dikonstruksi dengan jelas.
4. Tingkat kesulitan item tes tidak tepat dengan materi pembelajaran yang diterima siswa.
5. Waktu yang dialokasikan tidak tepat, hal ini termasuk kemungkinan terlalu kurang atau terlalu longgar.
6. Jumlah item terlalu sedikit sehingga tidak mewakili sampel
7. Jawaban masing-masing item evaluasi bisa diprediksi siswa
Seringkali terjadi bahwa interpretasi terhadap item-item tes evaluasi tidak valid, karena dipengaruhi oleh
jawaban siswa dari pada interpretasi item-item pada tes evaluasi (Sukardi, 2008).
Sebuah tes dikatakan memiliki validitas jika hasilnya sesuai dengan kriterium, dalam arti memilki kesejajaran
antara hasil tes tersebut dengan kriterium. Teknik yang digunakan untuk mengetahui kesejajaran adalah
dengan teknik korelasi product moment yang dikemukakan oleh pearson (Arikunto, 1997)
Validitas butir soal tes berbentuk pilihan ganda (multiple choice) disini kita gunakan rumus point
Mp = rerata skor dari subyek yang menjawab betul bagi item yang dicari validitasnya.
Sementara validitas soal tes berbentuk essay disini gunakan rumus product moment, Adapun
rxy
N = Banyaknya Sampel
Xy
= Jumlah hasil perkalian antara skor X dan skor Y
B. Reliabilitas
Menurut Sukardi (2008: 43) relaibelitas adalah karakter lain dari evaluasi. Reliabelitas juga dapat diartikan
sama dengan konsistensi atau keajegan. Suatu instrument evaluasi dikatakan mempunyai nilai reliabelitas
tinggi, apabila tes yang dibuat mempunyai hasil konsisten dalam mengukur yang hendak diukur.
Sehubungan dengan reliabelitas ini Scarvia B. Anderson dan kawan-kawan (dalam Arikunto, 1997)
menyatakan bahwa persyaratan bagi tes, yaitu validitas dan reliabelitas ini penting. Dalam hal ini validitas
lebih penting, dan reliabelitas ini perlu, karena menyokong terbentuknya validitas. Sebuah tes mungkin
reliable tapi tidak valid. Sebaliknya tes yang valid biasanya reliable.
Reliabelitas tes-retes tidak lain adalah derajat yang menunjukkan konsistensi hasil sebuah tes dari waktu ke
waktu. Tes-Retes menunjukkan variasi skor yang diperoleh dari penyelenggaraan satu tes evaluasi yang
dilaksanakan dua kali atau lebih, sebagai akibat kesalahan pengukuran. Dengan kata lain, kita tertarik
dalam mencari kejelasan bahwa skor siswa mencapai suatu tes pada waktu tertentu adalah sama hasilnya,
ketika siswa itu dites lagi dengan tes yang sama. Dengan melakukan tes-retes tersebut. Seorang guru akan
mengetahui seberapa jauh konsistensi suatu tes mengukur apa yang ingin diukur (Sukardi, 2008).
Sedangkan Arikunto (1997: 88) Metode tes ulang (tes-retes) dilakukan untuk menghindari dua penyusunan
dua seri tes. Dalam menggunakan teknik atau metode ini pengetes hanya memiliki satu seri tes tapi
dicobakan dua kali. Oleh karena tesnya satu dan dicobakan dua kali, maka metode ini dapat disebut juga
dengan single-test-double-trial-method.
1. Selenggarakan tes pada suatu kelompok yang tepat sesuai dengan rencana.
2. Setelah selang waktu tertentu, misalnya satu minggu atau dua minggu, lakukan kembali tes yang sama
dengan kelompok yang sama tersebut.
3. Korelasikan kedua hasil tes tersebut.
Jika hasil koefisien menunjukkan tinggi, berarti reliabilias tes adalah bagus. Sebaliknya, jika korelasi rendah,
berarti tes tersebut mempunyai konsistensi rendah (Sukardi, 2008).
Sesuai dengan namanya yaitu ekivalen, maka tes evaluasi yang hendak diukur reliabelitasnya dibuat identik
dengan tes acuan. Setiap tampilannya, kecuali substansi item yang ada, dapat berbeda. Kedua tes tersebut
sebaliknya mempunyai karate yang sama. Karakteristik yang dimaksud misalnya mengukur variabel yang
sama, mempunyai jumlah item sama, struktur sama, mempunyai tingkat kesulitan dan mempunyai
petunjuk, cara penskoran, dan interpretasi yang sama (Sukardi 2008).
Pernyataan serupa juga disampaikan oleh Arikunto (1997: 87) tes paralel atau equivalent adalah dua buah tes
yang mempunyai kesamaan tujuan, tingkat kesukaran dan susunan, tetapi butir-butirnya berbeda. Dalam
istilah bahasa Inggris disebut Alternate-forms method (parallel forms).
Tes reliabelitas secara ekivalen dapat dilaksanakan dengan mengikuti langkah-langkah sebagai berikut:
Perlu diketahui juga bahwa tes ekivalensi mempunyai kelemahan yaitu bahwa membuat dua buah tes yang
secara esensial ekivalen adalah sulit. Akibatnya akan selalu terjadi kesalahan pengukuran (Sukardi, 2008).
Pernyataan lain juga disampaikan oleh Arikunto (1997: 88) kelemahan dari metode ini adalah pengetes
pekerjaannya berat karena harus menyusun dua seri tes. Lagi pula harus tersedia waktu yang lama untuk
mencobakan dua kali tes.
Menurut Sukardi (2008: 47) Reliabilitas belah dua ini termasuk reliabilitas yang mengukur konsistensi
internal. Yang dimaksud konsistensi internal adalah salah satu tipe reliabilitas yang didasarkan pada
keajegan dalam setiap item tes evaluasi. Relibilitas belah dua ini pelaksanaanya hanya satu kali.
Cara melakukan reliabilitas belah dua pada dasarnya dapat dilakukan dengan urutan sebagai berikut:
Untuk mengetahui seluruh tes harus digunakan rumus Spearman-Brown (Arikunto, 1997):
Menurut Sukardi (2008:51-52) koefisien reliabilitas dapat dipengaruhi oleh waktu penyelenggaraan tes-retes.
Interval penyelenggaraan yang terlalu dekat atau terlalu jauh, akan mempengaruhi koefisien reliabilitas.
Faktor-faktor lain yang juga mempengaruhi reliabilitas instrument evaluasi di antaranya sebagai berikut::
1) Panjang tes, semakin panjang suatu tes evaluasi, semakin banyak jumlah item materi pembelajaran
diukur.
2) Penyebaran skor, koefisien reliabelitas secara langsung dipengaruhi oleh bentuk sebaran skor dalam
kelompok siswa yang di ukur. Semakin tinggi sebaran, semakin tinggi estimasi koefisien reliable.
3) Kesulitan tes, tes normative yang terlalu mudah atau terlalu sulit untuk siswa, cenderung menghasilkan
skor reliabilitas rendah.
4) Objektifitas, yang dimaksud dengan objektif yaitu derajat dimana siswa dengan kompetensi sama,
mencapai hasil yang sama
Dalam meng analisis reliabilitas, kita dapat menggunakan dua cara, Non Split-Half technique (teknik non
belah dua) untuk tipe soal uraian/essay dan Split-Half Technique (teknik belah dua) untuk tipe soal
objektif/pilihan ganda.
Bagi yang ingin menghitung reliability soal essay bertipe uraian, kalian bisa menggunakan rumus
Cronbatch’s Alpha (a) dibawah ini:
Pengertian:
R11 = Reliabilitas Instrument
N = Banyaknya jumlah butir soal pertanyaan
∑ = Jumlah varians item
S12 = Varians soal
Bagi yang ingin menghitung reliability soal pilihan ganda bertipe objektif, kalian bisa menggunakan
rumus Srearman-Brown dibawah ini:
Dengan:
N = Banyaknya responden
X1 = Kelompok data belahan pertama
X2 = Kelompok data belahan kedua
Sedangkan untuk menghitung reliabilitas satu pangkat bisa menggunakan rumus berikut:
Untuk kategori koefisien nya kalian bisa menggunakan interpretasi dari presentase indeks menggunakan
kriteria Guilford (Ruseffendi, 1994) (as cited in Sundayana, 2016) yaitu:
C. Tingkat Kesukaran
Tingkat kesukaran soal adalah peluang menjawab benar suatu soal pada tingkat kemampuan tertentu
yang biasanya dinyatakan dalam bentuk indeks. Tingkat kesukaran dinyatakan dalam indeks
kesukaran (dificulty index), yaitu angka yang menunjukkan proporsi siswa yang menjawab benar soal
tersebut. Semakin besar indeks tingkat kesukaran yang diperoleh dan hasil hitungan, berarti semakin
mudah soal itu.
Dalam hal ini, item yang baik adalah item yang tingkat kesukarannya dapat diketahui, tidak terlalu
sukar dan tidak terlalu mudah. Sebab, tingkat kesukaran item itu memiliki korelasi dengan daya pembeda.
Bilamana item memiliki tingkat kesukaran yang maksimal, maka daya pembedanya akan rendah,
demikian pula bila item itu terlalu mudah maka tidak akan memiliki daya pembeda.
Oleh karena itu, sebaiknya tingkat kesukaran soal itu dipertahankan dalam batas yang mampu
memberikan daya pembeda. Namun, jika terdapat tujuan khusus dalam penyusunan tes, maka tingkat
kesukaran itu bisa dipertimbangkan. Misalnya, tingkat kesukaran item untuk tes sumatif berbeda dengan
tingkat kesukaran pada tes diagnostik.
Untuk menghitung taraf kesukaran soal dari suatu tes dipergunakan rumus sebagai berikut:
TK = U + L
T
Keterangan:
U = jumlah siswa yang termasuk kelompok pandai (upper group) yang menjawab benar untuk tiap soal.
L = jumlah siswa yang termasuk kurang (lower group) yang menjawab benar untuk tiap soal.
T = jumlah siswa dari kelompok pandai dan kelompok kurang (jumlah upper group dan lower group)
Misalkan suatu tes yang terdiri atas N soal yang diberikan kepada 40 siswa. Dari hasil tes tersebut, tiap-
tiap soal dianalisis taraf kesukarannya. mula-mula hasil tes itu kita susun kedalam peringkat, kemudian
kita ambil 25% (10 lembar jawaban siswa kelompok pandai), dan 10 lembar jawaban siswa dari
kelompok yang kurang pandai. Kemudian kita tabulasikan. Misalkan dari tabulasi soal kita peroleh hasil
sebagai berikut: yang menjawab benar dari kelompok pandai ada 9 siswa, dan yang menjawab benar dari
kelompok kurang pandai ada 4 siswa.
Dengan menggunakan rumus diatas, maka taraf kesukaran atau TK dari soal adalah:
TK = U + L = 9 + 4 = 0,65 atau 65%
T 20
Jadi dapat disimpilkan bahwa nilai dari TK atau tingkat kesukarannya adalah 65%.
Sedangkan dalam bukunya Drs. H. Daryanto, rumus untuk mencari taraf kesukaran atau indeks kesukaran
adalah:
𝐁
P=
𝐉𝐒
Keterangan:
P = indeks kesukaran.
B = banyaknya siswa yang menjawab soal itu dengan benar.
JS = jumlah seluruh siswa peserta tes.
Contoh:
Jumlah siswa peserta tes dalam suatu kelas ada 40 siswa. Dari 40 siswa tersebut terdapat 12 siswa yang
mampu mengerjakan soal no. 1 dengan benar. Maka berapa indeks kesukarannya?
Jawab:
B
P = JS
12
= 40
= 0,30
Menurut ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan sebagai berikut:
a. Soal dengan P 0,00 sampai 0,30 adalah soal sukar.
b. Soal dengan P 0,30 sampai 0,70 adalah soal sedang.
c. Soal dengan P 0,70 sampai 1,00 adalah soal mudah.
D. Indeks Diskriminasi (daya pembeda)
Perhitungan daya pembeda adalah pengukuran sejauh mana suatu butir soal mampu membedakan
peserta didik yang sudah menguasai kompetensi dengan peserta didik yang belum atau kurang
menguasai kompetensi berdasarkan kriteria tertentu. Semakin tinggi koofisien daya pembeda
suatu butir soal, semakin mampu butir soal tersebut membedakan antara peerta didik yang
menguasai kompetensi dengan pesertan didik yang kurang menguasai kompetensi.
Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi. Daya
pembeda suatu soal tes dapat dihitung dengan menggunakan rumus sebagai berikut:
DP = U – L
½T
Keterangan:
DP = indeks DP atau daya pembeda yang dicari.
U = jumlah siswa yang termasuk dalam kelompok pandai yang mampu menjawab benar untuk
tiap soal.
L = jumlah siswa yang termasuk kurang yang menjawab benar untuk tiap soal.
T = jumlah siswa keseluruhan.
Contoh:
Dari hasil tes lomba olimpiade kimia, jumlah siswa yang dites adalah 40 siswa, sedangkan tes
tersebut terdiri dari 20 soal. Setelah hasil tes tersebut diperiksa, kemudian disusun kedalam
peringkat untuk menentukan 25% siswa yang termasuk kelompok pandai (upper group) dan 25%
siswa yang termasuk kelompok kurang (lower group).
Kemudian hasil tes tersebut ditabulasikan dengan menggunakan format tabulasi jawaban tes,
kemudian hasil tabulasi dari kedua kelompok tersebut dimasukkan kedalam format analisis soal
tes, sehingga kita dapat menghitung tingkat kesukaran dan daya pembeda tiap soal yang kita
analisis.
Misalkan dari tabulasi soal no. 1 kita peroleh hasil sebagai berikut: yang menjawab benar dari
kelompok pandai ada 10 siswa, dan yang menjawab benar dari kelompok kurang ada 9 siswa.
Maka daya pembedanya adalah:
DP = U – L
½T
= 10 – 9
½ x (20)
= 1
10
= 0,10
Jadi dapat disimpulkan bahwa indeks pembedanya adalah 0,10.
Dalam bukunya Prof. Dr. Suharsimi Arikunto, dijelaskan mengenai klasifikasi daya pembeda,
yaitu:
D = 0,00 – 0,20 = jelek (poor).
D = 0,20 – 0,40 = cukup (satisfactory).
D = 0,40 – 0,70 = baik (good).
D = 0,70 – 1,00 = baik sekali (excellent).
E. Keefektivan Pengecoh
Instrumen evaluasi yang berbentuk tes dan objektif, selain harus memenuhi syarat-syarat yang telah
disebutkan terdahulu, harus mempunyai distraktor yang efektif. Yang disebut dengan distraktor atau
pengecoh adalah opsi-opsi yang bukan merupakan kunci jawaban (jawaban benar).
Butir soal yang baik pengecohnya akan dipilih secara merata oleh peserta didik yang menjawab salah.
Sebaliknya, butir soal yang kurang baik, pengecohnya akan dipilih secara tidak merata. Pengecoh
dianggap baik bila jumlah peserta didik yang memilih pengecoh itu sama atau mendekati jumlah ideal.
Indeks pengecoh dihitung dengan rumus:
IP = P x 100%
(N - B) (n - 1)
Keterangan:
IP = indeks pengecoh
Alternatif jawaban A B C D E
Kualitas pengecoh ++ ++ ++ ++ ++
Keterangan:
** = kunci jawaban
++ = sangat baik
+ = baik
= kurang baik
_ = jelek
_ _ = sangat jelek
Pada contoh diatas, IP butir a, b, c, d, dan e adalah 93%, 107%, 93%, dan 107%. Semuanya dekat
dengan angka 100%, sehingga digolongkan sangat baik sebab semua pengecoh itu berfungsi. Jika pilihan
jawaban peserta didik menumpuk pada satu alternatif jawaban, misalnya seperti berikut:
Alternatif jawaban A B C D E
Kualitas pengecoh _ - ** ++ _
Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik, pengecoh (e) dan (b) tidak berfungsi,
pengecoh (a) menyesatkan, maka pengecoh (a) dan (e) perlu diganti karena termasuk jelek, danpengecoh
(b) perlu direvisikarena kurang baik. adapun kualitas pengecoh berdasar indeks pengecoh adalah:
Sangat baik IP = 76% - 125%
Baik IP = 51% - 75% atau 126% - 150%
Kurang baik IP = 26% - 50% atau 151% - 175%
Jelek IP = 0% - 25% atau 176% - 200%
Sangat jelek IP = lebih dari 200%