Anda di halaman 1dari 20

KUALITAS TES INSTRUMEN PENILAIAN PEMBELAJARAN

MAKALAH
Disusun untuk memenuhi salah satu Tugas Mata Kuliah Penilaian Pembelajaran MI/SD
Dosen pengampu:
Dr. Moh. Arif, M.Pd.

Disusun Oleh:

1. Zulfa Fauziyah (126205212139)


2. Talia Fatimatu Zahro (126205211085)
3. Fadilah Khoirun Nisa (126205213245)

JURUSAN PENDIDIKAN GURU MADRASAH IBTIDAIYAH


FAKULTAS TARBIYAH DAN ILMU KEGURUAN
UIN SAYYID ALI RAHMATULLAH TULUNGAGUNG
MARET 2024

i
KATA PENGANTAR

Penulis mengucapkan puji syukur ke hadirat Allah Swt. atas selesainya makalah
berjudul “Kualitas Tes Instrumen Penilaian Pembelajaran” ini tepat waktu. Selawat dan salam
semoga tetap tercurahkan kepada Nabi Muhammad Saw. beserta keluarga, para sahabat, dan
umatnya hingga akhir zaman.
Beberapa pihak telah membantu dan mendukung dalam menyusun makalah ini. Oleh
karena itu, penulis menyampaikan terima kasih kepada pihak-pihak yang telah membantu
dalam menyelesaikan makalah ini. Rasa terima kasih disampaikan pada pihak-pihak berikut
ini.
1. Prof. Dr. H. Abd. Aziz, M.Pd.I., selaku Rektor Universitas Islam Negeri Sayyid Ali
Rahmatullah Tulungagung, yang telah menyelenggarakan pendidikan hingga mampu
menghasilkan lulusan yang profesional dan inovatif.
2. Dr. Sutopo, M.Pd., selaku Dekan Fakultas Tarbiyah dan Ilmu Keguruan Universitas
Islam Negeri Sayyid Ali Rahmatullah Tulungagung, yang telah memimpin dan
menyelenggarakan pendidikan.
3. Uswatun Hasanah, S.Pd.I., M.Pd., selaku Kepala Program Studi Pendidikan Guru
Madrasah Ibtidaiyah, yang telah berkontribusi dalam pelaksanaan kegiatan Program
Studi.
4. Dr. Moh. Arif, M.Pd., selaku Dosen Pengampu Mata Kuliah Penuilaian Pembelajaran
MI/SD.
Makalah ini disusun untuk mendeskripsikan “Kualitas Tes Instrumen Penilaian
Pembelajaran”. Penulis berharap agar makalah ini dapat membantu pembaca memahami
ruang lingkup evaluasi pembelajaran pada sistem pembelajaran, proses, dan hasil belajar. Oleh
karena itu, penulis mengharapkan adanya kritik dan saran dari sejawat atau para pembaca
mengenai isi makalah ini.

Tulungagung, 29 Maret 2024

Penulis

ii
DAFTAR ISI
COVER ......................................................................................................................................... i
KATA PENGANTAR ................................................................................................................ ii
DAFTAR ISI............................................................................................................................... iii
BAB I PENDAHULUAN ............................................................................................................ 1
A. Latar Belakang .................................................................................................................. 1
B. Rumusan Masalah ............................................................................................................. 2
C. Tujuan ............................................................................................................................... 2

BAB II PEMBAHASAN ............................................................................................................. 3


A. Pengertian Tes ................................................................................................................... 3
B. Validitas ............................................................................................................................ 5
C. Realibitas........................................................................................................................... 8
D. Tingkat Kesukaran .......................................................................................................... 10
E. Daya Pembeda ................................................................................................................ 11
F. Objektifitas ...................................................................................................................... 11
G. Kepraktisan ..................................................................................................................... 12
H. Validitas Suatu Tes ......................................................................................................... 13

BAB III PENUTUP ................................................................................................................... 15


A. Kesimpulan ..................................................................................................................... 15
B. Saran ............................................................................................................................... 16

DAFTAR PUSTAKA ................................................................................................................ 17

iii
BAB I
PENDAHULUAN
A. Latar Belakang

kegiatan penilaian dalam sebuah pendidikan merupakan satu rutinitas yang dilakukan
dalam rangka untuk mengetahui perkembangan peserta didik dalam memahami, mensikapi
dan melaksanakan nilai yang harus dijawab bahkan dalam kehidupan sehari-hari. Penilaian
akan memberikan informasi atas peserta didik dalam Menindaklanjuti materi yang telah
diberikan juga akan memberikan informasi ketercapaian tujuan pembelajaran. Dua hal ini
sangat penting dalam dunia pendidikan untuk bisa terdeteksi sebagai masukan dalam kegiatan
pembelajaran berikutnya agar lebih baik dan bermutu sehingga bisa menghasilkan lulusan
yang berkualitas.
Standar penilaian pendidikan adalah kriteria mengenai mekanisme, prosedur, dan
Instrumen penilaian hasil belajar peserta didik. Standar penilaian oleh pendidik menurut
BSNP mencakup standar umum, Standar perencanaan, standar pelaksanaan, standar
pengelolaan dan pelaporan hasil penilaian serta standar pemanfaatan hasil penilaian. Masing-
masing standar ini memiliki prinsip-prinsip dan kriteria yang ditetapkan oleh BSNP.
Sementara itu penilaian hasil belajar yang dilakukan oleh satuan pendidikan memiliki dua
standar pokok yang harus diperhatikan yaitu standar penentuan kenaikan kelas dan standar
penelitian penentuan kelulusan.
penilaian dalam penyelenggaraan pendidikan mempunyai peranan yang sangat penting
sehingga harus mendapatkan perhatian yang serius. Karenanya penilaian merupakan
serangkaian aktivitas untuk mengetahui keberhasilan proses pembelajaran, baik keberhasilan
siswa atau prestasi belajar dan keberhasilan guru mengajar maupun keberhasilan proses
pembelajaran. Instrumen merupakan alat yang akan digunakan dalam kegiatan penilaian agar
sampai pada hakikatnya penilaian dilakukan proses untuk mampu mengungkapkan semua itu
perlu disiapkan sebagai sebuah alat ukur yang memiliki daya ukur yang tepat. Instrumen yang
memiliki tingkat validitas yang tinggi dan realibilitas yang handal akan mengantarkan kita
mencapai kegiatan penilaian mencapai apa yang diinginkan.

1
B. Rumusan Masalah
Berdasarkan latar belakang di atas, maka masalah yang dibahas dalam makalah ini adalah
sebagai berikut.
1. Apa yang dimaksud dengan Tes?
2. Apa yang dimaksud Validitas?
3. Apa yang dimaksud realibitas?
4. Apa yang dimaksud Tingkat Kesukaran?
5. Apa yang dimaksud Daya Pembeda?
6. Apa yang dimaksud Objektivitas?
7. Apa yang dimaksud kepraktisan?
8. Apa yang dimaksud Validitas Suatu Tes?
C. Tujuan
Tujuan penulisan makalah ini adalah sebagai berikut.
1. Menjelaskan pengertian Tes.
2. Menjelaskan pengertian Validitas.
3. Menjelaskan pengertian realibitas.
4. Menjelaskan pengertian Tingkat Kesukaran.
5. Menjelaskan pengertian Daya Pembeda.
6. Menjelaskan pengertian Objektivitas.
7. Menjelaskan pengertian Kepraktisan.
8. Menjelaskan pengertian Validitas Suatu Tes.

2
BAB II
PEMBAHASAN

A. Pengertian TES
Tes pada umumnya dimaksudkan untuk mengukur aspek-aspek perilaku manusia, seperti
aspek pengetahuan (kognitif), sikap (afektif), maupun aspek keterampilan (psikomotorik).
Bidang kognitif diukur melalui uji tes, bidang afektif diukur melalui kuesioner, wawancara,
dan pengamatan, serta bidang psikomotor diukur melalui perbuatan dan pengamatan. (Naga,
1992).
Tes merupakan alat atau prosedur yang digunakan untuk mengetahui atau mengukur
sesuatu dalam suasana, dengan cara dan aturan-aturan yng sudah ditentukan (Arikunto, 2008).
Tidak jauh berbeda dengan Arikunto, Chaplin (2005) menyatakan bahwa tes adalah satu
perangkat pertanyaan yang sudah dibakukan, yang dikenakan pada seseorang dengan tujuan
untuk mengukur perolehan atau bakat pada suatu bidang tertentu.
Selanjutnya Depdiknas (2003) mendefinisikan bahwa tes adalah himpunan pertanyaan
yang harus dijawab atau pernyataan-pernyataan yang harus dipilih dan ditanggapi, atau tugas-
tugas yang harus dilakukan oleh orang yang dites dengan tujuan untuk mengukur suatu aspek
(perilaku) tertentu dari orang yang di tes. Tes tersebut memenuhi empat aspek yaitu kegunaan,
mungkin dikerjakan, legal atau sah, dan ketelitian. Tes itu merupakan hasil perakitan item-
item soal yang telah dibakukan melalui proses analisis item, serta diadministrasikan, diskor,
dan diinterpretasikan secara baku.
Beberapa pendapat para ahli lainnya tentang pengertian tes seperti yang disampaikan oleh
Azwar (2007) diantaranya, Anne Anastasi (2006) yang mengatakan bahwa tes pada dasarnya
merupakan suatu pengukuran yang objektif dan standar terhadap sampel prilaku. Frederick G.
Brown (1976) menyebutkan pengertian tes sebagai prosedur yang sistematik guna mengukur
sampel prilaku seseorang. Sedangkan Lee J. Cronbach dalam buku Essentials of psychological
Testing (1970) menyatakan pengertian tes yaitu, “a systematic procedure for observing a
person”s behavior and describing it with the aid of a numerical scale or a catagory system”.
Dari beberapa batasan mengenai tes tersebut di atas, Azwar (2007) menarik beberapa
kesimpulan mengenai pengertian tes.

3
1. Tes adalah prosedur yang sistematik. Maksudnya (a) aitem-aitem dalam tes disusun
menurut cara dan aturan tertentu, (b) prosedur administrasi tes dan pemberian angka
(scoring) terhadap hasilnya harus jelas dan dspesifikasikan secara terperinci, dan (c)
setiap orang yang mengambil tes harus mendapatkan aitem-aitem yang sama dalam
kondisi yang sebanding.
2. Tes berisi sampel prilaku. Artinya (a) betapapun panjangnya suatu tes, aitem yang ada
di dalamnya tidak akan dapat mencakup seluruh isi materi yang mungkin di tanyakan,
dan (b) kelayakan suatu tes tergantung dari sejauhmana aitemaitem dalam tes itu
mewakili secara representatif kawasan (domain) perilaku yang diukur.
3. Tes mengukur prilaku. Artinya aitem-aitem dalam tes menghendaki agar subjek
menunjukkan apa yang diketahui atau apa yang telah dipelajari subjek dengan cara
menjawab pertanyaan-pertanyaan atau mengerjakan tugas-tugas yang dikehendaki
oleh tes.

Suatu tes dikatakan baik manakala mampu memberikan hasil ukur yang cermat dan akurat.
Oleh karena itu Suryabrata, (2006), mengemukakan syarat-syarat tes yang baik adalah : (1)
tes harus valid, artinya tes tersebut hanya mengukur satu aspek saja atau satu domain saja
sehingga tepat mengukur apa yang hendak di ukur, (2) tes harus reliabel, yaitu ajek atau
konsisten, (3) tes harus standar, artinya setiap peserta tes (testee) harus mendapat perlakuan
yang sama baik mengenai materi tes, penyelenggaraan, pemberian skor, dan interpretasi hasil
tes sehingga seorang testee yang mendapat skor tertentu di suatu tempat akan mendapat skor
yang sama di tempat lain, (4) tes harus objektif, yaitu penilaian yang dilakukan oleh pemberi
tes (tester) yang satu dengan yang lain akan sama untuk satu testee, (5) tes harus bersifat
diskriminatif, artinya tes harus dapat mengungkapkan perbedaan suatu gejala yang terdapat
pada setiap individu.
Lebih lanjut Hayat & Setiadi (1998) menyatakan bahwa Tes yang baik dapat didefinisikan
sebagai sekumpulan itemitem yang berkualitas (valid) yang telah dikalibrasi dan dipilih untuk
membentuk satu instrumen pengukuran. Berdasarkan bentuknya, tes dapat diklasifikasikan ke
dalam 2 (dua) bentuk, yaitu:
1. Objektif yang meliputi, (a) pilihan ganda, (b) bentuk item dua pilihan jawaban (benar-
salah, ya-tidak), dan (c) tes menjodohkan.

4
2. Non-Objektif yang meliputi: (a) isian atau melengkapi, (b) jawaban singkat atau
pendek, dan (c) Item uraian, (Depdiknas, 2003).

Berbagai bentuk tes tersebut di atas mempunyai keunggulan dan kelemahannya masing-
masing. Misalnya bentuk tes uraian, bentuk tes ini memiliki keunggulan berupa dapat
mengukur kemampuan siswa (peserta didik) dalam hal menyajikan jawaban terurai secara
bebas, mengorganisasikan pikirannya, mengemukakan pendapatnya, dan mengekspresikan
gagasan-gagasan dengan menggunakan kata-kata atau kalimatnya sendiri. Disamping
keunggulannya tersebut, bentuk tes uraian juga memiliki beberapa kelemahan diantaranya,
jumlah materi atau pokok bahasan yang dapat ditanyakan relatif terbatas, waktu untuk
memeriksa jawaban siswa cukup lama, penskorannya relatif subjektif, dan tingkat
reliabilitasnya relatif lebih rendah dibanding dengan item bentuk pilihan ganda, karena
reliabilitas pada item bentuk uraian sangat bergantung pada penskoran tes.
Berbeda halnya dengan tes uraian, bentuk tes pilihan ganda memiliki beberapa keunggulan
lain, yaitu dapat mengukur berbagai jenjang kognitif (dari ingatan sampai dengan evaluasi),
mudah dalam penskorannya, cepat, objektif dan dapat mencakup ruang lingkup materi yang
luas dalam suatu tes untuk suatu jenjang pendidikan. Bentuk tes pilihan ganda ini juga sangat
tepat digunakan untuk ujian dengan jumlah pesertanya sangat banyak atau yang sifatnya
massal, sedangkan hasilnya harus segera diumumkan. Namun demikian tes pilihan ganda ini,
memiliki beberapa kelemahan diantaranya, memerlukan waktu yang relatif lama dalam
pembuatan soal, sulit membuat distraktor yang homogen dan berfungsi, dan terdapat peluang
untuk menebak kunci jawaban (guessing).
Terlepas dari berbagai kelemahannya, tes bentuk pilihan ganda ini telah banyak digunakan
di hampir seluruh pelosok Indonesia, bahkan untuk Ujian Akhir Nasional dan Ujian Seleksi
Penerimaan mahasiswa baru di semua Perguruan Tinggi yang pelaksanaannya dikelola oleh
Pemerintah.
B. Validitas
Validitas sebuah tes memberitahukan kepada kita tentang apa yang bisa disimpulkan dari
skor-skor tes. Dalam kaitan ini kita seharusnya waspada menerima tes sebagai indeks dari apa
yang diukur. (Anastasi & Urbina, 2006). Validitas menurut Cronbach adalah sebagai proses
dimana pembuat tes atau pengguna tes mengumpulkan bukti-bukti untuk mendukung jenis
kesimpulan yang akan diambil dari skor tes, (Crocker & Algina, 1986).

5
Suatu tes dikatakan memiliki validitas yang tinggi apabila tes tersebut dapat memberikan
hasil ukur yang tepat dan akurat sesuai dengan maksud dikenakannya tes tersebut. Sebaliknya
bila hasil ukur yang diperoleh dari tes tersebut tidak sesuai dengan tujuan dilaksanakannya,
maka tes tersebut dikatakan tidak mempunyai validitas yang tinggi.
Hasil estimasi validitas suatu pengukuran dinyatakan secara empirik oleh suatu koefisien
yang disebut dengan koefisien validitas. Koefisien validitas dapat dinyatakan oleh korelasi
antara distribusi skor tes yang bersangkutan dengan distribusi skor suatu kriteria. Kriteria ini
dapat berupa skor tes lain yang mempunyai fungsi ukur sama dan dapat pula berupa ukuran-
ukuran lain yang relevan, (Azwar, 2007).
Pada tahun 1954, The American Psychological Association (APA) melalui Technical
Recommendation for Psychological Test and Diagnostic Techniques merumuskan empat
macam validitas, yaitu validitas isi (content validity), validitas konstruk (construct validity),
validitas prediksi (predictive validity) dan validitas konkuren (concurrent validity).
Keempat macam validitas ini selanjutnya dijabarkan oleh Arikunto (2008) dengan
menyebutnya sebagai empat face validity, yaitu validitas isi, validitas konstruk, validitas “ada
sekarang”, dan validitas prediksi:
a. Validitas Isi (content validity)

Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus
tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan. Oleh karena
materi yang diajarkan tertera dalam kurikulum maka validitas isi ini sering juga disebut
dengan validitas kurikuler. Validitas isi dapat diusakan tercapai sejak saat penyusunan
dengan cara merinci materi kurikulum atau materi buku pelajaran.
b. Validitas Konstruksi (construct validity)

Sebuah tes dikatakan memiliki validitas konstruksi apabila item-item yang


membangun tes tersebut mengukur setiap aspek berpikir seperti yang disebutkan dalam
Tujuan Instruksional Khusus (sekarang disebut indikator). Dengan kata lain jika item-
item soal mengukur aspek berpikir tersebut sudah sesuai dengan aspek berpikir yang
menjadi tujuan instruksional (indikator).
Seperti halnya validitas isi, validitas konstruksi dapat diketahui dengan cara
merinci dan memasangkan setiap item soal dengan setiap aspek dalam Tujuan

6
Instruksional Khusus (indikator). Apabila hal tersebut di atas tidak dapat dilakukan,
maka cara yang paling sederhana adalah dengan melalukan analisis faktor konfirmatori.
Analisis ini dilakukan untuk mengetahui validitas kontruk sebuah tes, sehingga tes
yang dibagun benar-benar mengukur suatu aspek yang hendak diukur. Analisis faktor
konfirmatori dapat dilakukan dengan bantuan program LISREL.
Dalam analisis dengan program LISREL, kriteria yang digunakan untuk dapat
mengetahui nilai validitas konstruk adalah pada besar kecilnya loading factors yang
diperoleh oleh setiap item pada saat dilakukan pengukuran.
a) Validitas “ada sekarang” (concurrent validity)
Validitas ini lebih umum dikenal dengan validitas emperis. Sebuah tes
dikatakan memiliki validitas emperis jika hasilnya sesuai dengan pengalaman.
Jika ada kata “sesuai” tentu ada dua hal yang dipasangkan. Dalam hal ini hasil tes
dipasangkan dengan hasil pengalaman. Pengalaman selalu mengenai hal yang
telah lampau sehingga data pengalaman tersebut sekarang sudah ada, makanya
validitas ini disebut validitas “ada sekarang” atau concurrent). Dalam
membandingkan hasil sebuah tes maka diperlukan suatu kriterium atau alat
banding. Maka hasil tes merupakan sesuatu yang dibandingkan.
b) Validitas prediksi (predictive validity)
Memprediksi artinya meramal, dengan meramal selalu mengenai hal yang
akan datang, jadi sekarang belum terjadi. Sebuah tes dikatakan memiliki validitas
prediksi atau validitas ramalan apabila mempunyai kemampuan untuk
meramalkan apa yang akan terjadi pada masa yang akan datang.
Validitas prediksi sangat penting artinya bila tes yang dimaksudkan berfungsi
sebagai prediktor untuk memprediksi suatu keberhasilan di masa yang akan
datang. Sebagai contoh berdasarkan hasil tes seleksi penerimaan mahasiswa baru,
peserta tes yaitu calon mahasiswa yang memiliki nilai tinggi pada tes seleksi
diperkirakan akan berhasil dengan baik ketika mereka belajar di perguruan tinggi
tersebut. Jika perkiraan ini tepat, maka tes seleksi tersebut dapat dikatakan
memiliki validitas prediksi yang baik. Sebaliknya jika perkiraan tersebut tidak
tepat, maka tes seleksi yang dilaksanakan sebelumnya tidak memiliki validitas
prediksi yang baik.

7
Validitas prediksi dapat ditentukan dengan mengetahui hubungan antara skor
tes sebagai prediktor dengan hasil prestasi belajar atau ukuran keberhasilan
lainnya. Hasil prestasi belajar dan keberhasilan lain ini berfungsi sebagai skor
kriteria. Koefisien korelasi antara skor tes dan skor kriteria merupakan petunjuk
mengenai saling adanya hubungan antara skor keduanya dan dapat disebut dengan
koefisien validitas prediksi. Apabila koefisien yang diperoleh ini adalah dari suatu
penelitian dengan kelompok sampel yang representatif, maka tes yang telah teruji
validitasnya akan mempunyai fungsi prediksi yang sangat berguna dalam
memprediksi hasil prestasi belajar peserta tes pada masa akan datang.
Besarnya nilai koefisien validitas prediksi skor tes terhadap skor kriteria yang
dianggap baik dalam memprediksi hingga saat ini masih terjadi perdebatan
dikalangan pengembang tes. Sebagai contoh, Scholastic Aptitude Test (SAT)
yang dikembangkan oleh College Board atau badan perguruan tinggi di Amerika
Serikat memiliki koefisien validitas prediksi hanya sebesar 0.37, (Nairn dalam
Weitzman, 1982). Sehingga keberadaan SAT sebagai tes seleksi sering dikritik.
Demikian pula halnya dengan GRE (Graduate Record of Examination) dan tes-tes
seleksi sejenisnya yang sering dikritik karena nilai prediksinya yang rendah
terhadap indeks prestasi mahasiswa pada perguruan tinggi profesional (Nunnaly
& Bernstein, 1994).
Namun demikian, terlepas dari tinggi rendahnya koefisien validitas prediksi,
SAT atau Tes Bakat Skolastik (TBS) dan tes seleksi penerimaan lainnya tetap
digunakan di hampir seluruh perguruan tinggi di Indonesia. Dan besarnya nilai
koefisien validitas prediksi yang dianggap memuaskan adalah jika melebihi dari
angka 0,30 (Azwar, 2000).
C. Realibitas
Kata realibilitas dalam Bahasa Indonesia yang digunakan saat ini diambil dari kata
realibility yang artinya konsisten, kestabilan, keandalan. Apabila dikaitkan dengan fungsi tes
sebagai alat pengukur mengenai keberhasilan belajar peserta didik, maka sebuah tes dapat
dinyatakan reliabel apabila hasil pengukuran yang dilakukan dengan menggunakan tes tersebut
secara berulangkali terhadap subyek yang sama, menunjukkan hasil yang sama atau stabil.
Menurut Sugiono Reliabilitas adalah serangkaian pengukuran atau serangkaian alat ukur yang

8
memiliki konsistensi bila pengukuran yang dilakukan dengan alat ukur itu dilakukan secara
berulang.1 Sedangkan Sukadji mengatakan bahwa reliabilitas suatu tes adalah seberapa besar
derajat tes mengukur secara konsisten sasaran yang diukur.2
Dari beberapa pendapat diatas dapat disimpulkan bahwa reliabilitas dapat berupa
pertanyaan, jika hasilnya selalu sama maka dapat dikatakan bahwa alat pengukuran berupa tes
memilki reliabilitas yang tinggi.
A. Jenis Reliabilitas
1) Metode test-retest
Test-retest adalah derajat yang menunjukkan konsistensi hasil sebuah tes dari
waktu ke waktu.3 Pengetesan dua kali dengan menggunakan satu test (satu seri tes)
yang sama pada waktu yang berbeda. Test seperti ini juga dikenal dengan istilah
lain yaitu single-test-double-trial method (satu jenis tesdicobakan dua kali).
Kemudian hasil dari kedua kali tes tersebut dihitung korelasinya, maka nilai
tersebut adalah reabilitas dari tes. Reliabilitas tes-retes dapat dilakukan dengan
cara seperti berikut: a) Selenggarakan tes pada suatu kelompok yang tepat sesuai
dengan rencana, b) Setelah selang waktu tertentu, misalnya satu minggu atau dua
minggu, lakukan kembali tes yang sama dengan kelompok yang sama tersebut, c)
Korelasikan hasil kedua tes tersebut. Jika hasil koefisien korelasi menunjukkan
tinggi, berarti reliabilitas tes adalah bagus, jika korelasi rendah, berarti tes tersebut
mempunyai konsistensi rendah. Tes ini memiliki kekurangan yaitu faktor waktu
jeda atau tenggang antara tes pertama dengan tes kedua, mengenai interval waktu
yang baik.
2) Metode tes sejajar equivalen
Tes paralel atau tes equivalen adalah dua buah tes yang mempunyai kesamaan
tujuan, tingkat kesukaran, dan susunan, tetapi butir-butir soalnya berbeda. Dalam
menggunakan metode tes ini, pembuat tes harus menyiapkan dua buah tes dan
masing-masing dicobakan pada kelompok siswa yang sama. Skor dari kedua

1
Sugiyono, Metode Penelitian Pendidikan, Pendekatan Kuantitatif, Kualitatif dan R&D, (Bandung: Penerbit
Alfabeta,2006), hlm. 26
2
Sukadji, Menyusun dan Mengevaluasi Laporan Penelitian, (Jakarta: UI-Press, 2000), Hlm. 67
3
Sukardi, Evaluasi Pendidikan, Prinsip dan Operasionalnya. (Jakarta: Bumi Aksara, 2010), Hlm. 90

9
kelompok tes tersebut dikorelasikan untuk mendapatkan reliabilitas tes. Misalnya:
dua buah tes paralel, tes matematika seri A dan tes seri B, kemudian diteskan
kepada kelompok siswa yang sama, kemudian hasilnya dikorelasikan, jika
koefisiennya tinggi maka tes tersebut sudah reliabel. Kelemahan metode ini adalah
akan menyulitkan guru karena harus membuat dua seri tes.
3) Metode belah dua atau metode tes tunggal (Single Test – Single Trial)
Metode ini diciptakan oleh para ahli untuk menjawab kekurangan metode
sebelumnya yaitu tes ulang dan tes paralel, metode ini juga dinamakan tes tunggal
dilihat dari kepraktisannya lebih praktis dari pada dua metode sebelumnya yaitu:
(1) metode ini hanya menyajikan satu tes untuk sekali tes kepada sekelompok
subjek; (2) membagi tes tersebut menjadi dua bagian yang sama (sama banyak
soal); (3) mengkorelasikan skor kedua belahan ini untuk mengestimasi reliabilitas
tes. Koefisien reliabilitas dapat diperoleh dengan cara membelah instrument
menjadi dua, tiga, empat, atau bahkan sebanyak butir yang dimiliki oleh instrumen
tersebut. Teknik perhitungannya tergantung pada banyaknya belahan, bentuk, serta
sifat alat ukurnya. Terdapat berbagai macam cara membagi dua suatu tes, salah
satu contohnya yaitu: 40 soal bahasa Arab dibelah menjadi dua belahan, belahan
pertama terdiri atas soal nomor 1-20. Belahan kedua terdiri atas soal nomor 21-40.
Antara soal belahan pertama dan kedua mempunyai tingkat kesulitan yang
berbeda, nomor-nomor awal biasanya mudah dibanding nomor-nomor akhir,
sehingga peserta tes mengalami kelelahan ketika mengerjakan soal belahan kedua.4
D. Tingkat Kesukaran
Tingkat kesukaran butir soal dipandang dari kesanggupan atau kemampuan siswa dalam
menjawabnya, bukan dari asumsi guru yang menyusun soal, karena butir soal yang sulit atau
mudah bagi guru belum tentu sulit atau mudah bagi siswa. Suatu butir soal dapat membedakan
antara siswa yang mampu (menguasai materi yang ditanyakan) dan siswa yang kurang mampu
(belum menguasai materi yang ditanyakan).5 Menurut Sumintono, bambang, widhiarso

4
Syaifudin, Validitas dan Reliabilitas Instrumen Penilaian Pada Mata Pelajaran Bahasa Arab, Jurnal Kajian
Perbatasan Antarnegara, Diplomasi dan Hubungan Internasional, Vol. 3, No. 2, 2020, Hlm. 114
5
Aloislus Loka Son, Instrumen Kemampuan Pemecahan Masalah Matematis: Analisis Reliabilitas, Validitas,
Tingkat Kesukaran, dan Daya Beda Butir Soal, Gema Wiralodra, Vol. 10, No. 1, 2019, Hlm. 44

10
Tingkat Kesukaran (Difficulty level) disebut juga sebagai indeks kesukaran butir soal yang
dilambangkan dengan huruf p yaitu proportion.6 Tingkat kesukaran adalah peluang untuk
menjawab benar pada suatu soal pada tingkat kemampuan tertentu yang biasanya dinyatakan
dalam bentuk indeks. Tingkat kesukaran menunjukkan proporsi peserta didik yang dapat
mengerjakan soal secara benar dari suatu tes/ujian. Soal yang baik adalah soal yang tidak
terlalu mudah atau tidak terlalu sukar. Bilangan yang menunjukkan sukar dan mudahnya suatu
soal disebut indeks kesukaran (difficulty index). Besarnya indeks kesukaran antara 0,00
sampai 1,0. Indeks kesukaran ini menunjukkan taraf kesukaran soal.7
E. Daya Pembeda
Menurut Widiyanto daya pembeda soal adalah kemampuan soal untuk membedakan antara
siswa yang pandai (kemampuan tinggi) dengan siswa yang bodoh (kemampuan rendah).8
Pernyataan ini sesuai dengan pendapat Sundayana bahwa daya pembeda merupakan
kemampuan soal untuk dapat membedakan siswa yang berkemampuan tinggi dengan siswa
yang berkemampuan rendah. Menurut sundayana Soal dapat dikatakan mempunyai daya
pembeda jika soal tersebut dapat di jawab oleh siswa berkemampuan tinggi dan tidak dapat di
jawab oleh siswa berkemampuan rendah.9
F. Penilaian Pembelajaran Objektif
Penilaian pembelajaran objektif adalah penilaian yang dilakukan dengan menggunakan
instrumen penilaian yang sesuai dengan syarat instrumen penilaian dan mampu membuat
10
instrumen penilaian yang sesuai dengan prosedur. Berikut adalah beberapa instrumen
penilaian tujuan yang dapat digunakan dalam pembelajaran:
1) Tes objektif: Tes objektif adalah tes yang terdiri dari soal-soal pilihan ganda, benar-
salah, menjodohkan, dan melengkapi/jawaban singkat11.

6
Sumintono, Bambang dan Widhiarso,Wahyu, Aplikasi Pemodelan Rasch pada Assessment Pendidikan,
(Bandung: Trim Komunikata, 2015), Hlm. 176
7
Tri Hariyati, Karakteristik Instrumen Penilaian Pendidikan Agama Islam, Jurnal Edukasi, Vol. 33, No. 1,
2022, Hlm. 4
8
Widiyanto, evaluasi pembelajaran, (Madiun:UNIPMA PRES, 2018), Hlm. 88
9
Sundayana, Statistika Penelitian Pendidikan, (Bandung: Alfabeta, 2016), Hlm 56
10
Aryadi, KS, & Margunayasa, IG (2022). Instrumen Penilaian High Order Thinking Skills (HOTS) pada
Pembelajaran IPA. Jurnal Pendidikan Indonesia, 3 (1).
11
Putri, H., Susiani, D., Wandani, NS, & Putri, FA (2022). Instrumen Penilaian Hasil Pembelajaran
Kognitif pada Tes Uraian dan Tes Objektif. Jurnal Papeda: Jurnal Publikasi Pendidikan Dasar, 4 (2), 139-148.

11
2) Tes deskripsi: Tes deskripsi adalah tes yang terdiri dari soal-soal yang memerlukan
jawaban yang panjang dan terperinci.
3) Instrumen penilaian hasil belajar berbasis Higher Order Thinking Skills (HOTS):
Instrumen penilaian berbasis HOTS adalah instrumen penilaian yang dirancang
untuk mengukur kemampuan siswa dalam berpikir tingkat tinggi, seperti kemampuan
menganalisis, mengevaluasi, dan menciptakan.
4) Asesmen autentik: Asesmen autentik adalah penilaian instrumen yang dirancang
untuk mengukur kemampuan siswa dalam menerapkan pengetahuan dan
keterampilan dalam situasi dunia nyata.12
5) Instrumen penilaian psikomotor: Instrumen penilaian psikomotor adalah instrumen
penilaian yang dirancang untuk mengukur kemampuan siswa dalam melakukan
tindakan fisik, seperti kemampuan menggambar, menulis, atau melakukan
eksperimen.
6) Instrumen penilaian objektif yang baik harus memenuhi syarat instrumen penilaian
yang baik, yaitu valid, reliabel, dan praktis. Validitas penilaian instrumen mengacu
pada sejauh mana penilaian instrumen tersebut mengukur apa yang seharusnya
diukur, sedangkan reliabilitas penilaian instrumen mengacu pada sejauh mana
penilaian instrumen tersebut konsisten dalam mengukur. Instrumen penilaian yang
praktis harus mudah digunakan dan tidak memakan waktu yang lama untuk menilai
hasil belajar siswa.
G. Kepraktisan
Kepraktisan suatu evaluasi bermakna bahwa kemudahan-kemudahan yang ada pada
instrumen evaluasi baik dalam mempersiapkan, menggunakan, menginterpretasi, memperoleh
hasil, maupun kemudahan dalam menyimpan. Faktor-faktor yang mempengaruhi kepraktisan
instrumen evaluasi meliputi: a). kemudahanmengadministrasi; b) waktu yang disediakan
untuk melancarkan kegiatan evaluasi; c)kemudahan menskor; d)kemudahan interpretasi dan
aplikasi; e)tersedianya bentuk instrumen evaluasi yang ekuivalen atau sebanding.
Dilihat dari sisi kepraktisan tentunya ujian yang bergiliran berpotensi terjadi kebocoran
soal meski sebenarnya bisa diatasi dengan soal yang berbeda, namun justru dosen akan

12
Jayadiningrat, MG, Widiana, IW, Ariani, NWT, & Widiani, NK (2022). Pengaruh Model Pembelajaran
Sains Teknologi Masyarakat (STM) Dan Penilaian Autentik Terhadap Hasil Belajar Siswa. Jurnal Pedagogi dan
Pembelajaran , 5 (3).

12
kesulitan sebab harus membuat soal yang berbeda sejumlah mahasiswa. Banyak dosen yang
memberikan ujian non-tes mengampu tiga kelas bersama. Dilihat dari sudut kepraktisan tentu
ini tidak praktis jika ujian yang ada membutuhkan waktu per mahasiswa lima sampai lima
belas menit menjadi tidak praktis. Diungkapkan oleh mahasiswa waktu yang dibutuhkan
untuk ujian non tulis yang amat beragam, mulai dari 2 menit bahkan hingga 3 bulan. Namun
sekitar 11 mahasiswa mengikuti ujian non-tulis hanya 1 jam. Ini merupakan ujian non-tulis
yang mengikuti jadwal akademik. Jika dilihat dari segi kepraktisan untuk 2 menit per-
mahasiswa tentu akan sangat tidak praktis, terlebih jika jumlah mahasiswa banyak dengan
asumsi dosen mangajar 3 kelas.
Berdasarkan jumlah kelas, dilihat dari sudut kepraktisan tentu ujian non-tulis tidak praktis
jika pelaksanaan ujian yang ada membutuhkan waktu per-mahasiswa 5 menit. Beberapa
mahasiswa berharap bahwa ujian hendaknya menggunakan ujian tertulis saja tidak perlu ujian
non-tulis dan sebagian mahasiswa yang lain juga menghendaki ujian praktik dilaksanakan
pada tempat yang sesuai. Jika masih menggunakan ujian non tulis diharapkan ada waktu
khusus, ada waktu yang lebih dibandingkan ujian tertulis. Sebab ujian non tulis yang selama
ini berjalan waktunya mepet.Selain itu mahasiswa juga berharap agar soal yang dibuat tidak
terlalu sulit sehingga mahasiswa bisa mengerjakan soal dengan baik.
H. Menghitung Validitas Suatu Tes
Validitas adalah ketepatan (appropriateness), kebermaknaan (meaningfull) dan
kemanfaatan (usefulness) dari sebuah kesimpulan yang didapatkan dari interpretasi skor tes
(Kusaeri, 2012:75). Validitas mengarah kepada ketepatan interpretasi hasil penggunan suatu
prosedur evaluasi sesuai dengan tujuan pengukurannya.
Berikut ini beberapa pengertian validitas menurut beberapa ahli: Menurut Arikunto
(1999:65), validitas adalah suatu ukuran yang menunjukkan tingkat kesahihan suatu tes.
Suatu tes dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur. Tes
memiliki validitas yang tinggi jika hasilnya sesuai dengan kriteria, dalam arti memiliki
kesejajaran antara tes dan kriteria.
Menurut Sudjana (2004: 12), validitas adalah ketepatan alat penilaian terhadap konsep
yang dinilai sehingga betul-betul menilai apa yang seharusnya dinilai. Menurut Suryabrata
(2000:41), validitas adalah derajat fungsi pengukuran suatu tes, atau derajat kecermatan
ukurnya sesuatu tes. Validitas suatu tes mempermasalahkan apakah tes tersebut benar-benar

13
mengukur apa yang hendak diukur. Menurut Azwar (1987:173), validitas atau validity
berarti sejauh mana ketepatan dan kecermatan suatu instrumen pengukur (tes) dalam
melakukan fungsi ukurnya. Suatu tes dikatakan memiliki validitas yang tinggi apabila alat
tersebut menjalankan fungsi ukur secara tepat atau memberikan hasil ukur yang sesuai
dengan maksud dilakukannya pengukuran tersebut
1) Prinsip Validitas

Terdapat empat prinsip dalam melakukan uji validitas, yaitu sebagai berikut:
 Interpretasi (interpretation) yang kita berikan terhadap asesmen hanya valid terhadap
derajat yang kita arahkan ke suatu bukti yang mendukung kecocokan dan kebenarannya.
 Kegunaan (use) yang bisa kita buat dari hasil asesment hanya valid terhadap derajat yang
kita arahkan ke suatu bukti yang mendukung kecocokan dan kebenarannya.
 Interpretasi dan kegunaan dari hasil asesment hanya valid ketika nilai (values) yang
dihasilkan sesuai.
 Interpretasi dan kegunaan dari hasil asesment hanya valid ketika konsekuensi
(consequences) dari interpretasi dan kegunaan ini konsisten dengan nilai kecocokan.

14
BAB III
PENUTUP
A. Kesimpulan
Tes adalah himpunan pertanyaan yang harus dijawab atau pernyataan-pernyataan yang
harus dipilih dan ditanggapi, atau tugas-tugas yang harus dilakukan oleh orang yang dites
dengan tujuan untuk mengukur suatu aspek (perilaku) tertentu dari orang yang di tes. Tes
tersebut memenuhi empat aspek yaitu kegunaan, mungkin dikerjakan, legal atau sah, dan
ketelitian. Tes itu merupakan hasil perakitan item-item soal yang telah dibakukan melalui
proses analisis item, serta diadministrasikan, diskor, dan diinterpretasikan secara baku.
Validitas sebuah tes memberitahukan kepada kita tentang apa yang bisa disimpulkan dari
skor-skor tes. Dalam kaitan ini kita seharusnya waspada menerima tes sebagai indeks dari apa
yang diukur. Suatu tes dikatakan memiliki validitas yang tinggi apabila tes tersebut dapat
memberikan hasil ukur yang tepat dan akurat sesuai dengan maksud dikenakannya tes
tersebut. Sebaliknya bila hasil ukur yang diperoleh dari tes tersebut tidak sesuai dengan tujuan
dilaksanakannya, maka tes tersebut dikatakan tidak mempunyai validitas yang tinggi.
Kata realibilitas dalam Bahasa Indonesia yang digunakan saat ini diambil dari kata
realibility yang artinya konsisten, kestabilan, keandalan. Apabila dikaitkan dengan fungsi tes
sebagai alat pengukur mengenai keberhasilan belajar peserta didik, maka sebuah tes dapat
dinyatakan reliabel apabila hasil pengukuran yang dilakukan dengan menggunakan tes
tersebut secara berulangkali terhadap subyek yang sama, menunjukkan hasil yang sama atau
stabil.
Tingkat kesukaran adalah peluang untuk menjawab benar pada suatu soal pada tingkat
kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks. Tingkat kesukaran
menunjukkan proporsi peserta didik yang dapat mengerjakan soal secara benar dari suatu
tes/ujian. Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar.
Bilangan yang menunjukkan sukar dan mudahnya suatu soal disebut indeks kesukaran
(difficulty index). Besarnya indeks kesukaran antara 0,00 sampai 1,0. Indeks kesukaran ini
menunjukkan taraf kesukaran soal.
Daya pembeda merupakan kemampuan soal untuk dapat membedakan siswa yang
berkemampuan tinggi dengan siswa yang berkemampuan rendah. Menurut sundayana Soal

15
dapat dikatakan mempunyai daya pembeda jika soal tersebut dapat di jawab oleh siswa
berkemampuan tinggi dan tidak dapat di jawab oleh siswa berkemampuan rendah.
Penilaian pembelajaran objektif adalah penilaian yang dilakukan dengan menggunakan
instrumen penilaian yang sesuai dengan syarat instrumen penilaian dan mampu membuat
13
instrumen penilaian yang sesuai dengan prosedur. Berikut adalah beberapa instrumen
penilaian tujuan yang dapat digunakan dalam pembelajaran: Tes objektif, Tes deskripsi,
Instrumen penilaian hasil belajar berbasis Higher Order Thinking Skills (HOTS), Asesmen
autentik, Instrumen penilaian psikomotor, Instrumen penilaian objektif.
Kepraktisan suatu evaluasi bermakna bahwa kemudahan-kemudahan yang ada pada
instrumen evaluasi baik dalam mempersiapkan, menggunakan, menginterpretasi, memperoleh
hasil, maupun kemudahan dalam menyimpan. Faktor-faktor yang mempengaruhi kepraktisan
instrumen evaluasi meliputi: a). kemudahanmengadministrasi; b) waktu yang disediakan
untuk melancarkan kegiatan evaluasi; c) kemudahan menskor; d) kemudahan interpretasi dan
aplikasi; e) tersedianya bentuk instrumen evaluasi yang ekuivalen atau sebanding.
Validitas adalah ketepatan (appropriateness), kebermaknaan (meaningfull) dan
kemanfaatan (usefulness) dari sebuah kesimpulan yang didapatkan dari interpretasi skor tes.
Validitas mengarah kepada ketepatan interpretasi hasil penggunan suatu prosedur evaluasi
sesuai dengan tujuan pengukurannya.
B. Saran
Dengan adanya pembahasan mengenai posisi sistem penjaminan mutu dalam
manajemen mutu pendidikan ini, diharapkan kita semua menjadi lebih paham mengenai
sistem penjaminan mutu dalam pendidikan. Serta semoga makalah ini bisa bermanfaat bagi
kita semua.

13
Aryadi, KS, & Margunayasa, IG (2022). Instrumen Penilaian High Order Thinking Skills (HOTS) pada
Pembelajaran IPA. Jurnal Pendidikan Indonesia, 3 (1).

16
DAFTAR PUSTAKA
Aloislus Loka Son, Instrumen Kemampuan Pemecahan Masalah Matematis: Analisis
Reliabilitas, Validitas, Tingkat Kesukaran, dan Daya Beda Butir Soal, Gema Wiralodra,
Vol. 10, No. 1, 2019
Anastasi, A., & Urbina, S. (2006). Tes Psikologi. Edisi Ketujuh, (Imam, R. H. S. Penerjemah)
Jakarta: Indeks
Arikunto, S. (2008). Dasar-dasar Evaluasi Pendidikan, Edisi Revisi, Jakarta: Bumi Aksara.
Aryadi, KS, & Margunayasa, IG (2022). Instrumen Penilaian High Order Thinking Skills
(HOTS) pada Pembelajaran IPA. Jurnal Pendidikan Indonesia
Arvyaty. (2005). Komparasi Bentuk Tes ditinjau dari Tingkat Kesukaran Item, Daya Beda item,
dan Reliabilitas Tes, Tesis Pascasarjana, tidak diterbitkan, Universitas Negeri Jakarta.
Azwar, S. (2000). Reliabilitas dan Validitas, Yokyakarta: Pustaka Pelajar.
Jayadiningrat, MG, Widiana, IW, Ariani, NWT, & Widiani, NK (2022). Pengaruh Model
Pembelajaran Sains Teknologi Masyarakat (STM) Dan Penilaian Autentik Terhadap Hasil
Belajar Siswa. Jurnal Pedagogi dan Pembelajaran
Putri, H., Susiani, D., Wandani, NS, & Putri, FA (2022). Instrumen Penilaian Hasil Pembelajaran
Kognitif pada Tes Uraian dan Tes Objektif. Jurnal Papeda: Jurnal Publikasi Pendidikan
Dasar
Syaifudin, Validitas dan Reliabilitas Instrumen Penilaian Pada Mata Pelajaran Bahasa Arab,
Jurnal Kajian Perbatasan Antarnegara, Diplomasi dan Hubungan Internasional, Vol. 3,
No. 2, 2020
Suharman. (2018). Tes sebagai alat ukur prestasi akademik. At-Ta’dib: Jurnal Ilmiah Pendidikan
Agama Islam.
Sugiyono, Metode Penelitian Pendidikan, Pendekatan Kuantitatif, Kualitatif dan R&D,
(Bandung: Penerbit Alfabeta,2006.
Sukadji, Menyusun dan Mengevaluasi Laporan Penelitian, (Jakarta: UI-Press, 2000).
Sukardi, Evaluasi Pendidikan, Prinsip dan Operasionalnya. (Jakarta: Bumi Aksara, 2010)
Sumintono, Bambang dan Widhiarso,Wahyu, Aplikasi Pemodelan Rasch pada Assessment
Pendidikan, (Bandung: Trim Komunikata, 2015).
Sundayana, Statistika Penelitian Pendidikan, (Bandung: Alfabeta, 2016).
Tri Hariyati, Karakteristik Instrumen Penilaian Pendidikan Agama Islam, Jurnal Edukasi, Vol.
33, No. 1, 2022
Widiyanto, evaluasi pembelajaran, (Madiun:UNIPMA PRES, 2018).

17

Anda mungkin juga menyukai