MAKALAH
Dosen Pengampu:
Dr. Chairil Faif Pasani, M. Si.
Juhairiah, M. Pd.
Indah Budiarti, M.Pd.
ii
DAFTAR ISI
iii
BAB I
PENDAHULUAN
A. LATAR BELAKANG
Analisis kualitas instrumen evaluasi atau istilah lainnya kualitas alat
evaluasi merupakan hal penting dalam melakukan evaluasi karena kita merasa
bahwa instrumen atau alat ukur yang dibuat ada banyak kelemahannya dari
beberapa sisi. Kelemahan itu bisa terjadi karena alat untuk mengevaluasi
tidak tepat untuk mengevaluasi, berbobot, sedang, dan sukar pada siswa.
Kualitas alat evaluasi dimunculkan kepermukaan ketika seorang guru
melakukan tes selesai proses pembelajaran selama 4 bulan kemudian hasilnya
dicermati dan ternyata tidak sesuai dengan apa yang diharapkan yakni
ditunjukkan dibawah rata-rata yang ingin dicapai guru. (Hamzah, 2014).
Ada cara dengan mengumpulkan rencana pembelajaran selama 4
bulan dilihat dan dianalisis tujuan pembelajaran yang ditulis tidak terlalu
tinggi, sesuai dengan tingkat perkembangan siswa. Dilihat dari sisi lain yaitu
proses pelaksanaan pembelajaran yang dilakukan guru, berjalan dengan baik
sesuai dengan acuan rencana pembelajaran seperti memilih metode,
pendekatan, strategi dan media yang baik untuk mendukung proses
pembelajaran.
Ada hubungan timbal balik antara tujuan pembelajaran, proses
pembelajaran, dan penilaian hasil belajar. Bila kedua hal yakni tujuan dan
proses pembelajaran tidak bermasalah maka persoalan yang ada dengan hasil
belajar rendah tidak sesuai dengan apa yang diharapkan adalah alat penilaian.
Menguji instrumen dalam hal ini perlu sekali, di samping kesesuaian
instrumen yang dibuat dengan objek yang akan diuji dikatakan juga bahwa
perlu diuji kualitas instrumen untuk dapat dipakai pada lain kesempatan dan
objek lain dalam satuan pendidikan yang sama. Kadangkala kita menemui
instrumen seperti tes soal matematika yang tidak dapat dipakai untuk menguji
objek sekolah yang berbeda walaupun sama satuan pendidikannya. Kualitas
instrumen evaluasi yang rendah menjadikan produk lulusan yang tidak baik.
Keberhasilan mengungkapkan hasil dan proses belajar siswa
sebagaimana adanya (objektivitas hasil penilaian) sangat bergantung pada
1
2
3
4
Keterangan:
P = indeks kesukaran,
B = banyaknya siswa yang menjawab soal dengan benar,
dan
𝐽𝑥 = jumlah seluruh siswa peserta tes.
Indeks kesukaran diklasifikasikan seperti tabel berikut:
P−P Klasifikasi
0,00 − 0,29 Soal sukar
0,30 − 0,69 Soal sedang
0,70 − 1,00 Soal mudah
Rumus lain yang digunakan untuk menentukan tingkat
kesukaran soal uraian sama dengan soal pilihan ganda yaitu:
𝑆𝐴 + 𝑆𝐵
𝑇𝑘 = × 100%
𝐼𝐴 + 𝐼𝐵
Keterangan:
𝑇𝑘 = Indeks tingkat kesukaran butir soal
𝑆𝐴 = jumlah skor kelompok atas
𝑆𝐵 = jumlah skor kelompok bawah
𝐼𝐴 = jumlah skor ideal kelompok atas
𝐼𝐵 = jumlah skor ideal kelompok bawah
Setelah indeks tingkat kesukaran diperoleh, maka harga
indeks kesukaran tersebut diinterpretasikan pada kriteria
sesuai tabel berikut:
Indeks Tingkat
Kriteria
Kesukaran
0 – 15 % Sangat sukar, sebaiknya dibuang
16 % – 30 % Sukar
31 % – 70 % Sedang
71 % – 85 % Mudah
Sangat mudah, sebaiknya di
86 % – 100 %
buang
12
b) Daya Pembeda
Daya pembeda soal adalah kemampuan suatu soal
untuk membedakan antara siswa yang berkemampuan tinggi
dengan siswa yang berkemampuan rendah (Arikunto, 2001).
Cara menentukan daya pembeda butir tes, yaitu:
Daya pembeda butir soal dihitung dengan menggunakan
persamaan:
𝐵𝐴 𝐵𝐵
𝐷𝑃 = −
𝐽𝐴 𝐽𝐵
Keterangan :
𝐷𝑃 = Indeks daya pembeda,
𝐵𝐴 = banyaknya peserta tes kelompok atas yang menjawab
soal dengan benar,
𝐵𝐵 = banyaknya peserta tes kelompok bawah yang
menjawab soal dengan benar,
𝐽𝐴 = banyaknya peserta tes kelompok atas, dan
𝐽𝐵 = banyaknya peserta tes kelompok bawah
Kriteria indeks daya pembeda adalah sebagai berikut.
DP Kualifikasi
0,00 – 0,19 Jelek
0,20 – 0,39 Cukup
0,40 – 0,69 Baik
0,70 – 1,00 Baik sekali
Negatif Tidak baik, harus dibuang
c) Kualitas pengecoh
Instrumen evaluasi yang berbentuk tes dan objektif,
selain harus memenuhi syarat-syarat yang telah disebutkan
terdahulu, harus mempunyai distraktor yang efektif. Distraktor
atau pengecoh adalah opsi-opsi yang bukan merupakan kunci
jawaban (jawaban benar).
Butir soal yang baik pengecohnya akan dipilih secara
merata oleh peserta didik yang menjawab salah. Sebaliknya,
butir soal yang kurang baik, pengecohnya akan dipilih secara
tidak merata. Pengecoh dianggap baik bila jumlah peserta didik
yang memilih pengecoh itu sama atau mendekati jumlah ideal
(To, 1996). Indeks pengecoh dihitung dengan rumus:
𝑃
𝐼𝑃 = × 100%
(𝑁 − 𝐵)(𝑛 − 1)
Keterangan:
IP = indeks pengecoh
P = jumlah peserta didik yang memilih pengecoh
N = jumlah peserta didik yang ikut tes
B = jumlah peserta didik yang menjawab benar pada setiap soal
n = jumlah alternatif jawaban
1 = bilangan tetap
Catatan: Jika semua peserta didik menjawab benar pada butir
soal tertentu (sesuai kunci jawaban), maka IP = 0 yang berarti
soal tersebut jelek. Dengan demikian pengecoh tidak berfungsi.
Contoh: 50 orang peserta didik dites dengan 10 soal bentuk
pilihan ganda. Tiap soal memiliki alternatif jawaban (a, b, c, d,
e). Kunci jawaban (jawaban yang benar) no. 8 adalah c. Setelah
soal no.8 diperiksa untuk semua peserta didik, ternyata dari 50
orang peserta didik, 20 peserta didik menjawab benar dan 30
peserta didik menjawab salah. Idealnya, pengecoh dipilih secara
merata. Berikut ini adalah contoh soal no.8.
15
Alternatif jawaban A B C D E
Distribusi jawaban
7 8 20 7 8
peserta didik
Kualitas pengecoh ++ ++ ++ ++ ++
Keterangan:
** = kunci jawaban
++ = sangat baik
+ = baik
● = kurang baik
_ = jelek
_ _ = sangat jelek
Pada contoh diatas, IP butir a, b, c, d, dan e adalah 93%, 107%,
93%, dan 107%. Semuanya dekat dengan angka 100%, sehingga
digolongkan sangat baik sebab semua pengecoh itu berfungsi.
Jika pilihan jawaban peserta didik menumpuk pada satu
alternatif jawaban, misalnya seperti berikut:
Alternatif jawaban A B C D E
Distribusi jawaban peserta
20 2 20 8 0
didik
IP 267% 27% ** 107% 0%
Kualitas pengecoh _ _ ** ++ _
Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik,
pengecoh (e) dan (b) tidak berfungsi, pengecoh (a)
menyesatkan, maka pengecoh (a) dan (e) perlu diganti karena
termasuk jelek, dan pengecoh (b) perlu direvisi karena kurang
baik. adapun kualitas pengecoh berdasar indeks pengecoh
adalah:
Sangat baik IP = 76% - 125%
Baik IP = 51% - 75% atau 126% - 150%
Kurang baik IP = 26% - 50% atau 151% - 175%
16
1) Validitas Isi
Merupakan derajat di mana suatu tes mengukur
bidang-bidang isi pelajaran yang hendak diukur. Hal ini sangat
penting bagi tes hasil belajar. Validitas isi mempersyaratkan
adanya validitas butir soal dan sampel isi pelajaran. Esensi
validitas isi berkaitan dengan sampel dan menjadi penting
apabila ingin menggambarkan kinerja siswa terhadap suatu
ranah tugas tertentu.
Validitas isi ditentukan oleh penilaian (judgement)
para pakar. Tidak ada rumus untuk menghitungnya dan tidak
ada cara untuk mengungkapnya secara kuantitatif. Para pakar
mengkaji seluruh butir soal dan membuat penilaian tentang
beberapa baik butir soal itu mencerminkan bidang yang
diujikan.
2) Validitas Konstruk
Merupakan derajat di mana suatu tes mampu
mengukur konstruk hipotetik yang hendak diukur. Tahapan
validitas konstruk yaitu mengidentifikasi konstruk yang
diperkirakan untuk menghitung kinerja tes, menarik hipotesis
berkenaan dengan kinerja tes dari teori masing – masing
kontruk, menguji hipotesis berdasarkan logika dan data
empirik.
3) Validitas Konkuren
Merupakan derajat di mana skor suatu tes berkaitan
dengan skor tes lainnya, yakni tes yang telah sahih kemudian
diujian pada waktu yang bersamaan dengan tes yang baru
dibuat.
4) Validitas Peramalan
Merupakan derajat di mana suatu tes dapat
meramalkan seberapa baik siswa akan melaksanakan tugas di
dalam situasi mendatang. Validitas peramalan ditentukan
19
Keterangan:
rXY = koefisien korelasi antara variabel X dan variabel Y, dua
variabel yang dikorelasikan (x= X – 𝑥̅ ), x = perbedaan skor
X dengan skor reratanya; ( y= Y – 𝑦̅ ), y = perbedaan skor Y
dengan skor reratanya.
∑XY = jumlah perkalian X dan Y
∑X 2 = kuadrat dari X
∑Y 2 = kuadrat dari Y
b. Korelasi product moment dengan angka kasar
N∑XY−(∑X)(∑Y)
rXY =
√(N∑X2 −(∑X)2 ))(N∑Y2 −(∑Y)2 ))
Keterangan:
N = banyaknya peserta tes
X = skor butir soal
Y = skor total
rXY = koefisien korelasi antara variabel X dan variabel Y, dua
variabel yang dikorelasikan
Untuk mengetahui valid atau tidaknya soal, maka hasil
perhitungan rXY dikorelasikan dengan rtabel . Jika rXY >
rtabel , maka butir soal dikatakan valid, begitupun sebaliknya.
(Hamzah, 2014)
Contoh perhitungan validitas soal tes matematika
Kepada siswa kelas VII SMP Sukses dilakukan tes
matematika untuk diuji validitasnya. Sebelumnya ada hasil tes
ulangan harian matematika. hasil tes matematika yang akan diuji
validitasnya dengan simbol “X” dan nilai tes ulangan harian
dengan symbol “Y”. datanya sebagai berikut:
No Nama X Y
1 Nanda 6 5.9
2 Amel 6.5 6.3
3 Helen 6 7
4 Wafa 7 6.8
21
5 Ibai 7 6.5
6 Asyraf 7.5 7.2
7 Ganda 5.5 5.3
8 Cika 6 6
9 Isti 7 5.1
10 Cevi 6.5 7.7
Jumlah 65 63.8
∑𝑋
𝑋̅ = 𝑁
65
𝑋̅ = 10 = 6.5
∑𝑌
𝑌̅ = 𝑁
63.8
𝑌̅ = 10 = 6.38
Catatan:
𝑟𝑝𝑏𝑖𝑠 = koefisien korelasi biserial
𝑀𝑝 = rerata skor dari subjek yang menjawab benar bagi item yang
dicari validitasnya
𝑆𝑡 = standar deviasi dari skor total
𝑝𝑖 = proporsi siswa yang menjawab benar
𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑠𝑖𝑠𝑤𝑎 𝑦𝑎𝑛𝑔 𝑚𝑒𝑛𝑗𝑎𝑤𝑎𝑏 𝑏𝑒𝑛𝑎𝑟
𝑝= (𝑗𝑢𝑚𝑙𝑎ℎ 𝑠𝑒𝑙𝑢𝑟𝑢ℎ 𝑠𝑖𝑠𝑤𝑎)
𝑞 = 1 − 0,75 = 0,25
6,17−5,75 0,75
𝑟𝑝𝑏𝑖𝑠 = √0,25 = 0,4244
1,7139
3) Validitas Faktor
Selain validitas soal secara keseluruhan dan validitas butir
atau item, masih ada lagi yang perlu diketahui validitasnya, yaitu
faktor-faktor atau bagian keseluruhan materi. Setiap keseluruhan
materi pelajaran terdiri dari pokok-pokok bahasan atau mungkin
sekelompok pokok bahasan yang merupakan satu kesatuan.
Contoh:
Guru akan mengevaluasi penguasaan siswa untuk tiga
pokok bahasan, yaitu: aljabar, geometri, dan trigonometri. Untuk
keperluan ini guru tersebut membuat 30 butir soal, untuk aljabar 8
butir soal, untuk geometri 12 butir soal, dan untuk trigonometri 10
butir soal.
Apabila guru ingin mengetahui validitas faktor, maka ada
tiga faktor dalam soal ini. Seperti halnya pengertian validitas butir,
pengertian validitas faktor adalah butir-butir soal dalam faktor
dikatakan valid apabila mempunyai dukungan yang besar terhadap
soal-soal secara keseluruhan. Sebagai tanda bahwa butir-butir
faktor tersebut mempunyai dukungan yang besar terhadap seuruh
soal, yakni apabila jumlah skor untuk butir-butir faktor tersebut
menunjukkan adanya kesejajaran dengan skor total. (Pasani &
Danaryanti, 2016)
Sudah dijelaskan bahwa butir-butir soal faktor dikatakan
valid apabila menunjukkan kesejajaran skor dengan skor total. Cara
mengetahui kesejajaran tersebut digunakan juga rumus korelasi
product moment. Misalnya kita akan mengetahui validitas faktor 1,
yakni soal-soal untuk materi aljabar, kita membuat daftar untuk
menyejajarkan kedua skor tersebut sebagai berikut:
Skor
Nama Skor total
faktor 1 X2 Y2 XY
Subjek (Y)
(X)
Amir 6 19 36 361 114
26
B. RELIABILITAS
Arti reliabilitas bagi sebuah teks. Sudah diterangkan dalam
persyaratan tes, bahwa reliabilitas berhubungan dengan masalah kepercayaan.
Suatu tes dapat dikatakan mempunyai taraf kepercayaan yang tinggi jika tes
tersebut dapat memberikan hasil yang tetap. Maka pengertian reliabilitas tes,
berhubungan dengan masalah ketetapan hasil tes. Atau seandainya hasilnya
berubah-ubah, perubahan yang terjadi dapat dikatakan tidak berarti.
Reliabilitas berasal dari kata reability berarti sejauh mana hasil suatu
pengukuran dapat dipercaya. suatu hasil pengukuran hanya dapat dipercaya
apabila dalam beberapa kali telaksanaan pengukuran terhadap kelompok yang
sama diperoleh hasil pengukuran relatip sama selama aspek yang diukur
dalam diri subjek masih belum berubah. Konsep realibilitas dalam arti
reliabilitas alat ukur berkaitan erat dengan masalah error pengukuran yang
menunjukkan sejauh mana inskonsistensi hasil pengukuran terjadi apabila
dilakukan ulang terhadap kelompok subjek yang sama. Sedangkan konsep
reliabilitas dalam arti reliabilitas dalam arti hasil ukur berkaitan dengan error
dalam pengambilan sampel yang mengacu pada inkonsistensi hasil ukur
apabila pengukuran dilakukan ulang dalam kelompok yang berbeda (Pasani
& Danaryanti, 2016).
Konsep tentang reliabilitas ini tidak akan sulit dimengerti apabila
pembaca telah memahami konsep validitas. Turunan bahwa instrumen
evaluasi harus valid menyangkut harapan diperolehnya data yang valid,
sesuai dengan kenyataan. Dalam hal reliabilitas ini tuntunannya tidak jauh
berbeda. Jika validitas terkait dengan ketepatan objek yang tidak lain adalah
tidak menyimpangnya data dan kenyataan, artinya bahwa data tersebut benar,
maka konsep reliabilitas terkait dengan pemotretan berkali-kali. Instrumen
yang baik adalah instrumen yang dapat dengan tetap memberikan data yang
sesuai dengan kenyataan.
Sering ditangkap kurang tepat bagi pembaca adalah adanya pendapat
bahwa “ajeg” atau “tetap” diartikan sebagai “sama”. Dalam pembicaraan
evaluasi ini tidak demikian. Ajeg atau tetap tidak selalu harus sama, tetapi
mengikuti perubahan secara ajeg. Jika keadaan si A mula-mula berada lebih
28
𝑛𝑟
rnn = 1+(𝑛−1)𝑟
ket :
rnn = Besarnya koefisien reliabilitas sesudah tes tersebut ditambah
butir soal baru
n = Berapa kali butir-butir soal itu ditambah
r = Besarnya koefisien reliabilitas sebelum butir-butir soalnya
ditambah
Contoh:
Suatu tes terdiri atas 40 butir soal, mempunyai koefisien reliabilitas
0,70. Kemudian butir – butir soal itu ditambah menjadi 60 butir soal.
Maka koefisien reliabilitas baru adalah:
nr 1,5 x 0,70
rnn= 1+(n−1)r = 1+(1,5−1)0,70 = 0,79
ket:
r1/2 1/2 = korelasi antara skor – skor setiap belahan test
r11 = koefisien reliabiltas yang telah disesuaikan.
Contoh :
Korelasi antar belahan tes = 0,60
2 𝑥 0,60
Maka reliabilitas tes = 1+0,60
ganjil genap
No Nama XY 𝑿𝟐 𝒀𝟐
(X) (Y)
1 Alam 5 3 15 25 9
2 Badrul 3 2 6 9 4
3 Cecep 1 4 4 1 16
4 Dadang 3 2 6 9 4
5 Elan 3 3 9 9 9
6 Farida 3 0 0 9 0
7 Gayus 4 3 12 16 9
8 Hanafi 4 5 20 16 25
Jumlah 26 22 72 94 76
𝑟𝑥𝑦 = 0.5773. Harga tersebut baru menunjukkan reliabilitas
separuh tes. Istilahnya 𝑟1⁄ 1 = 0.5773.
2 ⁄2
2𝑟1⁄ 1 1.1546
2 ⁄2
𝑟11 = = = 0.7320
1 + 𝑟1⁄ 1 1.5773
2 ⁄2
36
DAFTAR PUSTAKA
37