Anda di halaman 1dari 19

MAKALAH

ANALISIS KUALITAS TES DAN BUTIR SOAL


Disusun guna memenuhi tugas
Mata Kuliah Evaluasi Pembelajaran Matematika
Dosen pengampu: Santika Lya Dyah Pramesti,M.Pd

Disusun oleh:

1. Zuhrotun Nisa' (2619027)


2. Shinta Amelia (2619029)
3. Zubaedah (2619030)

Kelas A

JURUSAN TADRIS MATEMATIKA


FAKULTAS TARBIYAH DAN ILMU KEGURUAN
INSTITUT AGAMA ISLAM NEGERI PEKALONGAN
2021/2022

i
KATA PENGANTAR

Puji dan Syukur kami panjatkan ke Hadirat Tuhan Yang Maha Esa, karena berkat
Rahmat dan Karunia-Nya kami dapat menyusun makalah ini dengan baik, serta tepat pada
waktunya. Dalam makalah ini kami membahas mengenai Analisis Kualitas Tes dan Butir
Soal. Kami mengucapkan terima kasih yang sebesar-besarnya kepada semua pihak yang
telah membantu menyelesaikan makalah ini terutama kepada Ibu Santika Lya Dyah
Pramesti,M.Pd selaku dosen mata kuliah Evaluasi Pembelajaran Matematika yang telah
memberikan tugas dan petunjuk kepada kami sehingga dapat menyelesaikan makalah ini.

Kami menyadari bahwa dalam penulisan makalah ini masih banyak kekurangan
yang mendasar, oleh karena itu kami mengharapkan pembaca untuk memberikan saran
serta kritik yang dapat membangun untuk penyempurnaan makalah selanjutnya. Semoga
dengan selesainya makalah ini dapat bermanfaat bagi kita semua.

Pekalongan, 11 April 2022

ii
DAFTAR ISI

COVER..............................................................................................................................i

KATA PENGANTAR......................................................................................................ii

DAFTAR ISI....................................................................................................................iii

BAB I PENDAHULUAN..................................................................................................4

A. Latar Belakaang........................................................................................................4

B. Rumusan Masalah.....................................................................................................4

C. Tujuan.......................................................................................................................4

BAB II PEMBAHASAN....................................................................................................5

A. Macam-Macam Bentuk Tes .....................................................................................5

B. Ciri-Ciri Tes yang Baik…………………................................................................7

C. Macam-Macam Validitas………………………....................................................11

D. Reabilitas……………………….............................................................................13

BAB III PENUTUP...........................................................................................................16

A. Kesimpulan..............................................................................................................16

B. Saran........................................................................................................................16

Daftar
Pustaka..................................................................................17

iii
BAB I

PENDAHULUAN

A. Latar Belakang Masalah

Analisis tes dan butir soal merupakan suatu tahap yang harus ditempuh untuk mengetahui
derajat kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang menjadi bagian
dari tes tersebut. Oleh sebab itu, tes yang digunakan guru harus memiliki kualitas yang baik.
Analisis tes berkaitan dengan pertanyaan apakah tes itu mampu dijadikan sebagai alat ukur
benar-banar mampu mengukur apa yang hendak diukur dan sejauh mana tes tersebut dapat
diandalkan dan berguna.1

Kedua pertanyaan ini sebenarnya menunjuk pada dua hal pokok, yaitu validitas dan
reliabilitas. Kedua hal ini sekaligus merupakan karakteristik alat ukur yang baik. Oleh karena itu,
pemakalah hendak membahas mengenai macam-macam tes yang baik dan benas serta
karakteristik dari kedua alat ukur tersebut dalam penulisan ini.

B. Rumusan Masalah

Berdasarkan latar belakang tersebut, rumusan masalah dapat disusun sebagai berikut :

1. Apa saja macam-macam bentuk tes?


2. Bagaimana ciri-ciri tes yang baik ?
3. Apa saja macam-macam dari validitas?

4. Bagaimana cara memahami dan menyelesaikan masalah yang berkaitan reliabilitas?

C. Tujuan

Adapun tujuan masalah sebagai berikut :

1. Menjelaskan macam-macam bentuk tes.


2. Menjelaskan ciri-ciri tes yang baik.
3. Menjelaskan macam-macam validitas.
4. Memahami konsep dan Menyelesaikan masalah yang berkaitan reliabilitas.

Zaini Arifin, Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur (Bandung: PT Remaja


1

Rosdakarya, 2013, Cet ke-5), 247


4
BAB II
PEMBAHASAN

A. Macam-Macam Bentuk Tes


1. Dilihat dari bentuk jawaban peserta didik maka tes dapat dibagi menjadi 3 jenis,
yaitu:
a. Tes Tertulis
Sering disebut pencil test atau paper test, a dalah tes yang menuntut jawaban
dari peserta didik dalam bentuk tertulis. Tes tertulis ada dua bentuk yaitu bentuk
uraian (essay) atau subjektif dan bentuk objektif (objektive)
b. Tes Lisan
Adalah tes yang menuntut jawaban dari peserta didik dalam bentuk lisan.
Peserta didik akan mengucapkan jawaban dengan kata-katanya sendiri sesuai
dengan pertanyaan atau perintah yanag diberikan.
c. Tes perbuatan (performance test)
Tes perbuatan atau tes praktik adalah tes yang menuntut jawaban peserta
didik dalam bentuk prilaku, tindakan atau perbuatan. Lebih jauh Stignis (1994)
mengemukakan, tes tindakan adalah suatu bentuk tes yang peserta didiknya
diminta untuk melakukan kegiatan khusus dibawah pengawasan penguji yang
akan mengobservasi penampilannya dan membuat keputusan tentang kualitas
hasil belajar yang didemonstrasikan.

Misalnya untuk melihat bagaimana cara menggunakan komputer dengan


baik dan benar, guru harus menyuruh peserta didik untuk mempraktikkan atau
mendemonstrasiakn penggunaan komputer yang sesungguhnya sesuai dengan
prosedur yang baik dan benar.

2. Ditinjau dari segi penyusunannya tes hasil belajar dapat dibedakan menjadi dua,
yaitu:

a. Tes buatan guru (teacher made-test)

Yaitu tes yang telah disusun sendiri oleh guru yang akan mempergunakan
tes tersebut. Tes ini biasanya digunakan untuk ulangan harian, formatif, dan
ulangan umum. Tes ini dimaksudkan untuk mengukur tingkast penguasaan
peserta didik terhadap materi yang sudah disampaikan guru. Untuk itu guru
harus membuat soal secara logis dan rasional mengenai pokok-pokok materi

b. Tes yang telah distandarkan (standardised test)


5
Yaitu tes yang telah mengalami proses standarisasi yakni proses validasi
dan keadaan (reliability) sehingga tes tersebut benar-benar valid dan andal
untuk suatu tujuan dan bagi suatu kelompok tertentu.

3. Ditinjau berdasarkan jumlah peserta didik tes hasil belajar ada dua macam, yaitu:
a. Tes perseorangan, yaitu tes yang dilakukan secara perorangan. Guru akan
berhadapan dengan seorang peserta didik.
b. Tes kelompok, yaitu tes yang diadakan secara kelompok. Guru akan
dihadapkan pada sekelompok peserta didik.
4. Ditinjau dari segi kegunaan untuk mengukur siswa terdapat tiga macam tes, yaitu:
a. Tes diagnostik
Adalah tes yang digunakan untuk mengetahui kelemahan-kelemahan siswa
sehingga berdasarkan kelemahan tersebut dapat dilakukan pemberian perlakuan
yang tepat. Secara umum tes ini disebut penjajakan masuk atau dalam istilah
inggris entering behaviour test. Ini dilakukan untuk mengukur tingkat
penguasaan pengetahuan dasar untuk dapat menerima pengetahuan lanjutannya.
Oleh karena itu tes ini juga disebut prasyarat tes atau pre request test. Tes ini
juga berfungsi sebagai tes penempatan (placement test).

b. Tes formatif

Dari arti kata form yang merupakan dasar istilah formatif maka evaluasi
formatif dimaksudkan untuk mengetahui sejauh mana siswa telah terbentuk
setelah mengikuti sesuatu program tertentu. Evaluasi formatif atau tes formatif
diberikan pada akhir setiap program. Tes ini merupakan post-test atau tes akhir
program.

c. Tes sumatif

Evaluasi sumatif atau tes sumatif dilaksanakan setelah berakhirnya


pemberian sekelompok program atau sekelompok program yang lebih besar.
Dalam pengalaman disekolah tes formatif dapat disamakan dengan ulangan
harian sedangkan tes sumatif dapat disamakan dengan ulangan umum yang
biasanya dilaksanakan pada akhir semester.

5. Ditinjau berdasarkan aspek pengetahuan dan keterampilan maka tes dapat


dibedakan menjadi 2 jenis, yaitu:
a. Tes kemampuan (power test)

6
Prinsip tes kemampuan adalah tidak adanya batasan waktu dalam pengerjaan
tes. Jika waktu tes tidak dibatasi maka hasil tes dapat mengungkapkan
kemampuan peserta didik yang sebenarnya.

b. Tes kecepatan (speed test)

Aspek yang diukur dalam tes kecepatan adalah kecepatan peserta didik
dalam mengerjakan sesuatu pada waktu atau periode tertentu. Pekerjaan
tersebut biasanya relatif mudah karena aspek yang diukur benar-benar
kecepatan bukan aspek lain.2

B. Ciri-Ciri Tes Yang Baik

Tes yang baik harus memenuhi ciri-ciri/karakteristik tes yang baik antara lain:

1. Validitas
Validitas mengacu pada tes harus benar-benar mengukur apa yang diukur.
Misalnya ketika tes ditujukan untuk mengukur kemampuan berbicara, maka tes
yang dilakukan berbentuk tes lisan bukan tes tulis. Validitas dibagi ke dalam dua
jenis yaitu validitas logis (logical validity) dan validitas empiris (empirical
validity). Validitas logis merupakan jenis validitas yang dianalisa secara
pemahaman logis apakah tes tersebut valid berdasarkan teori-teori dari para ahli.
Seangkan valiitas empiris merpakan data pengalaman yang berupa skor/nilai yang
nantinya akan dikorelasikan.

2. Reabilitas

Reliabilitas mengacu kepada konsistensi dari hasil tes. Meskipun tes


tersebut diberikan beberapa kali kepada siswa yang sama, hasilnya akan
tetap/konsisten. Konsisten tidak harus sama, namun secara keseluruhan apabila
hasil tes turun maka hasil semua peserta tes akan turun juga, begitu juga
sebaliknya. Kondisi konsisten ini diibaratkan orang yang berbicara konsisten,
maka pembicaraan tidak akan berubah- ubah, sehingga bisa dipercaya. Begitupula
dengan konsisten dalam hal tes ini. Tes yang reliable (tetap/konsisten), maka tes
tersebut dapat dipercaya sebagai alat ukur.

3. Objectivitas

2
Suharsimi Arikunto, Dasar-Dasar Evaluasi Pendidikan, (Jakarta: Bumi Aksara, 2000),
hal. 30-35.

7
Objectivitas mengacu kepada ketetapan/konsistensi pada sistem
penyekoran. Objectivitas menunjukkan tidak adanya unsur pribadi yang
mempengaruhi penyekoran/ hasil. Jadi, hasil tes benar-benar menunjukkan
kemampuan peserta tes dengan apa adanya.

4. Praktikabilitas
Praktikabilitas mengacu kepada kepraktisan dan kemudahan dalam
pengadministrasian. Praktikablitas menunjukkan bahwa tes mudah dilaksanakan,
mudah diperiksa dan dilengkapi dengan petunjuk yang jelas. Jadi, tes sifatnya
sederhana dan lengkap.3

5. Daya Pembeda
Daya pembeda soal adalah kemmpuan suatu soal untuk membedakan antara
siswa yang pandai (berkemampuan tinggi) dengan siswa yang kurang pandai
(memiliki kemampuan rendah). Angka yang menunjukkan besarnya daya pembeda
disebut dengan diskriminasi atau disimbolkan dengan D.

Rumusnya:

BA−BB
D= =PA−PB
JA−JB

BA
PA=
JA

BB
PB=
JB

D = Indek diskriminasi (daya beda)

JA = Banyaknya peserta kelompok atas

JB = Banyaknya peserta kelompok bawah

BA = Banyaknya peserta kelompok atas yang menjawab soal dengan benar

BB = Banyaknya peserta kelompok bawah yang menjawab soal dengan benar

PA = Proporsi peserta kelompok atas yang menjawab benar

PB = Proporsi peserta kelompok bawah yang menjawab benar

D = 0,00 ---------- 0,20 → Jelek (poor)

3
Aris Sugianto, “Ciri-Ciri (Karakteristik) Tes yang Baik”, IAIN Palangka Raya,
https://www.researchgate.net/profile/Aris-Sugianto/publication (akses 10 April 2022).

8
D = 0,21 ---------- 0,40 → Cukup (satisfactory)

D = 0,41 ---------- 0,70 → Baik (good)

D = 0,71 ---------- 1,00 → Baik Sekali (exellent)

D = Negatif, semuanya → tidak baik

Jadi semua butir soal yang mempunyai nilai D negatif sebaiknya dibuang saja.

6. Taraf atau Derajat Kesukaran

Baik buruknya suatu tes atau alat evaluasi apabila memiliki dukungan besar
terhadap skor total. Skor pada butir soal menyebabkan skor total menjadi tinggi
atau rendah. Dengan kata lain dapat dikatakan bahwa butir soal memiliki validitas
yang tinggi jika skor pada butir soal memiliki kesejajaran dengan skor total.

Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar.
Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi usaha
memecahkannya. Sebaliknya soal yang terlalu sukar akan menyebabkan siswa
menjadi putus asa dan tidak mempuyai semangat untuk mencoba lagi karena di luar
jangkauannya.

Adapun bilangan yang menunjukkan sukar dan mudahnya sesuatu soal disebut
indeks kesukaran (difficulty index). Besarnya indeks kesukaran antara 0,00 sampai
dengan 1,0. Indeks kesukaran ini menunjukkan taraf kesukaran soal. Soal dengan
indeks kesukaran 0,0 menunjukkan bahwa soal itu terlalu sukar, sebaliknya indeks
1,0 menunjukkan bahwa soalnya terlalu mudah.

Indeks kesukaran disimbolkan dengan 𝑃 singkatan dari proporsi. Indeks


kesukaran diklasifikasikan dengan:Soal dengan < 0,30 adalah soal terlalu sukar
a. Soal dengan P<0,30 adalah soal terlalu sukar
b. Soal dengan 0,30 ≤ P ≤ 0,70 adalah soal cukup (sedang)
c. Soal dengan P>0,70 adalah soal terlalu mudah
Rumus untuk mencari P adalah
B
P=
JS
P = Indeks kesukaan
B = Banyaknya siswa yang menjawab soal dengan benar
JS = Jumlah seluruh siswa peserta tes
Efektivitas Option

9
Pola jawaban soal adalah distribusi testee (responden yang sedang mengerjakan
tes) dalam hal menentukan pilihan jawaban pada soal bentuk pilihan ganda. Pola
jawaban soal diperoleh dengan menghitung banyaknya testee yang memilih pilihan
jawaban a, b, c, atau d atau yang tidak memilih pilihan manapun (blangko). Dalam
istilah evaluasi disebut Omit (tidak menjawab), disingkat . Menganalisis fungsi
pengecoh (distractor) dikenal dengan istilah menganalisis pola penyebaran jawaban
butir soal pada soal bentuk pilihan ganda. Dari pola penyebaran jawaban butir soal
dapat ditentukan apakah pengecoh berfungsi dengan baik atau tidak. Suatu
pengecoh dapat dikatakan berfungsi dengan baik jika paling sedikit dipilih oleh 5%
pengikut tes. Berikut beberapa pertimbangan terhadap analisis pengecoh:

a. Diterima, karena sudah baik


b. Ditolak, karena tidak baik
c. Ditulis kembali, karena kurang baik
d. Sebuah pengecoh dikatakan berfungsi baik jika paling sedikit dipilih
oleh 5% pengikut tes.

Option biasanya berjumlah tiga atau lima buah, dan dari kemungkinan-
kemungkinan jawaban yang terpasang pada setiap butir soal itu salah satunya adalah
jawaban betul (kunci jawaban) sedangkan sisanya merupakan jawaban salah. Jawaban
salah itulah yang biasa dikenal dengan istilah “distractor”. Tujuan pemasangan
distraktor pada setiap butir item adalah agar dari sekian banyak siswa mengikuti tes
ada yang tertarik memilihnya, sebab mereka menyangka bahwa distraktor yang
mereka pilih merupakan jawaban benar. Semakin banyak siswa terkecoh, maka
distraktor makin dapat menjalankan fungsinya. Sebaliknya, jika distraktor yang
dipasang tidak ada yang memilih, maka distraktor tidak dapat menjalankan fungsinya
dengan baik. Menurut Sudijono, distraktor dinyatakan telah berfungsi dengan baik
apabila distraktor tersebut sekurang-kurangnya sudah dipilih 5% dari seluruh peserta
tes.4

4
Mujianto Solichin, “Analisis Daya Beda Soal, Taraf Kesukaran, Validitas Butir Tes,
Interpretasi Hasil Tes dan Validitas Ramalan dalam Evaluasi Pendidikan”, Jurnal Manajemen &
Pendidikan Islam, Vol.2, No.2, 2017, hal. 192-213.

10
C. Validitas

Validitas adalah salah satu ciri yang menandai tes hasil belajar yang baik. Untuk
dapat menentukan apakah suatu tes hasil belajar memiliki suatu validitas atau daya
ketepatan mengukur, kita dapat melakukannya dari dua segi, yaitu: (1) dari segi itemnya
sebagai bagian tak terpisahkan dari tes tersebut, dan (2) dari segi tes itu sendiri sebagai
suatu totalitas.5

Detail istillah validitas bisa dijelaskan sebagaimana berikut.

1. Validitas item bukan validitas tes. Validitas item adalah derajat kesesuaian antara
suatu item dengan perangkat item-item yang lain dari alat ukur yang sama. Ukuran
validitas item adalah korelasi antara skor dari suatu item dengan skor pada perangkat
item (item total correlation). Isi validitas soal adalah daya pembeda soal (item
discriminating power) dan bukan validitas tes/alat ukur. Apabila masing-masing soal
atau item semuanya berkorelasi tinggi dengan perangkat soal atau perangkat item
berarti perangkat soal dalam suatu tes Bersama-sama mengukur sesuatu yang sama.6
2. Validitas tes atau alat ukur. Secara umum tes atau alat ukur dipandang valid apabila
guru mampu mengukur apa yang hendak diukurnya, atau sejauh mana tes itu
mengukur apa yang dimaksudkan untuk diukur. Secara konvensional orang
mengkaji validitas alat ukur berdasarkan tiga arah, yaitu (1) dari arah isi yang
diukur, (2) dari arah rekaan teoritis atribut yang diukur, (3) dari arah kriterium yang
diukur.

Oleh karena itu macam-macam validitas didasarkan pada tiga arah tersebut,
yaitu (1) content validity, (2) construkct validity, (3) criterion realated validity.7
1. Validitas isi (Content Validity) adalah validitas yang diestimasikan melalui
pengujian terhadap isi tes dangan analisis rasional. Valid-tidaknya suatu tes adalah
sampai sejauhmana item-itemnya dapat mencakup seluruh kawasan variabel yang
hendak diukur. Estimasi terhadap validitas isi ini tidak perlu menggunakan
perhitungan-perhitungan statistic apapun, tetapi hanya melalui analisis rasional.
Ada dua macam content validity, yaitu face validity dan logical validity. Pertama,
Face validity (validitas tampang) adalah suatu tes dipandang valid apabila item-
item tes telah tampak sesuai dengan variabel yang hendak diukur. Dipilihnya
validitas tampang ini biasanya karena alasan praktis seperti halnya membuat soal

5
Sudijono, Pengantar Evaluasi Pendidikan, (2003), 163-164.
6
Ibid, 191
7
Purwanto, Evaluasi Hasil Belajar, (2003), 120
11
ujian. Kedua, logical validitas (validitas logik)atau validitas sampling. Valid
tidaknya suatu tes atau alat ukur tergantung pada sejauhmana item-item tes
mencerminkan (mempersentasikan) aspek-aspek yang akan diukur. Dengan
demikian diharapkan item-item yang dibuat tidak menyimpang dari aspek-aspek
variable yang hendak diukur. Validitas logik mempunyai peranan penting dalam tes
prestasi, dengan memberikan kisi-kisi (blu-print) yang mencakup isi dan
kompetensi yang hendak diukur.8
2. Validitas Kontruksi (construct Validity) adalah jenis validitas yang menunjukkan
sampai sejauh mana suatu tes mampu mengukur suatu trait atau konstruk teoritis
(biasanya juga disebut sebagai latent variable) yang hendak diukur. Atau: validitas
konstruk adalah sejauh mana skor-skor hasil pengukuran dari suatu instrument
merefleksikan konstruksi teoritis yang mendasari penyusunan instrument tersebut.9
Ada dua metode untuk menguji validitas konstruk yaitu: (a) …………………
3. Criterion related validity. Suatu tes dipandang valid apabila skor tes tersebut
memiliki korelasi dengan skor dari suatu kriterium (tes lain yang mengungkap hal
yang sama) yang berada di luar tes. Untuk mengetahui apakah antara skor tes
dengan skor kriterium memiliki korelasi digunakan analisis statistik.10
Berdasar atas kapan skor kriterianya diperoleh, maka criterion related validity ini
ada dua macam, yaitu predictive validity dan concurrent validity.11
Pertama, predictive validity adalah jenis validitas yang menggunakan kriterium
berupa skor performansi subyek diwaktu mendatang. Oleh sebab itu validitas ini
sangat penting artinya apabila suatu tes dimaksudkan sebagai prediktor (untuk
memprediksi atau meramalkan) performansi subyek diwaktu mendatang. Misalnya
skor tes masuk yang diperoleh calon mahasiswa digunakan untuk memprediksi
Indeks Prestasi Kumulatif (IPK) mahasiswa tersebut setelah ia menempuh kuliah.
Jadi tes masuk suatu Perguruan Tinggi baru bisa diuji validitasnya setelah diperoleh
IPK mahasiswa. Cara pengujiannya atau proses validasinya adalah dengan
mengkorelasikan skor tes masuk dengan skor IPK yang diperoleh dengan
menggunakan teknik korelasi product moment.12
Kedua, concurrent validity adalah jenis validitas yang skor kriteriumnya diperoleh
dalam waktu yang sama dengan skor suatu tes/alat ukur lain. Dengan sendirinya
alat ukur yang dipakai sebagai kriterium haruslah mengungkap hal yang sama

8
Purwanto, Prinsip-prinsip dan Teknik Evaluasi, (2003), 178-180
9
Purwanto, Evaluasi Hasil Belajar, 121.
10
Nurkancana dan Sunartana, Evaluasi Pendidikan, 128.
11
Ibid.
12
Ibid.
12
dengan alat ukur yang akan diestimasi validitasnya. Suatu alat ukur secara
konkuren dipandang valid apabila antara skor alat ukur tersebut berkorelasi dengan
skor kriteriumnya.13

Dari 3 (tiga) jenis validitas di atas yang proses validasinya dengan menggunakan
teknik statistik korelasi adalah Criterion Related Validity. Caranya adalah dengan
mengkorelasikan antara skor tes dengan skor kriterium sekelompok subyek dengan
menggunakan teknik korelasi product moment. Koefisien korelasi antara dua perangkat
skor (tes) itu disebut koefisien validitas. Karena koefisien validitas diperoleh dengan
cara korelasi maka orang melakukan uji signifikansi untuk menafsirkan koefisien
validitas tersebut. Ini tidak benar. Koefisien validitas harus ditafsirkan dari koefisien
determinasi, yaitu angka yang menunjukkan proporsi (persentase) varians suatu
variabel yang dapat dijelaskan dari variabel lainnya. Makin tinggi angka ini berarti
kecermatan prediksinya makin tinggi pula. Cara meningkatkan koefisien determinasi
adalah dengan menambah prediktornya14
Sekalipun untuk content validity tidak menuntut perhitungan statistik bagi proses
validasinya, namun umumnya orang mencari daya beda item- item dalam suatu alat
ukur (yang juga menggunakan teknik korelasi), yang secara tidak langsung juga
mengindikasikan validitasnya. Teknik statistik yang digunakan tergantung pada jenis
data variabelnya; tapi umumnya adalah teknik korelasi product moment, diikuti koreksi
part-whole, atau teknik korelasi point-biserial.15

D. Reabilitas

Reabilitas adalah sejauh mana pengukuran dari suatu tes tetap konsisten, tidak
berubah-ubah yang dilakukan berulang-ulang terhadap subjek dan dalam kondisi yang
sama. Selain berfungsi sebagai alat ukur hasil belajar, tes hasil belajar dapat dibedakan
menjadi dua golongan, yaitu: tes hasil belajar berbentuk uraian yang biasa disebut essay
test atau subjektif test, dan tes hasil belajar berbentuk objektif yang biasa disebut dengan
istilah objektif test atau new type test.
Penentuan reabilitas tes dapat dilakukan dengan menggunakan tiga macam
pendekatan, yaitu
1. Pendekatan single test-singel trial dengan reabilitas tes hasil belajarnya berbentuk
obyektif. Pendekatan single-test-singel trial memungkinkan tinggi rendahnya
reabilitas test hasil belajar berbentuk obyektif dapat diketahui dengan melihat besar
13
Purwanto, Evaluasi Hasil Belajar, 121-125; Nurkancana dan Sunartana, Evaluasi Pendidikan, 129.
14
Purwanto, Evaluasi Hasil Belajar, 123-125.
15
Ibid.
13
kecilnya koefisien reabilitas tes, yang pada tes uraian dilambangkan dengan
r 11 ataur tt (koefisien reabilitas tes secara total).
2. Pendekatan single test-duubel trial method dengan menggunakan pengujian
reabilitas tes hasil belajar bentuk objektif.16 Pada pendekatan single test-double trial
atau pendekatan test-retest ini, sering juga dikenal dengan sebutan istilah
pendekatan bentuk ulangan, maka penentuan reliabilitas tes dilakukan dengan
menggunakan teknik ulangan, di mana tester hanya menggunakan satu seri tes,
tetapi percobaannya dilakukan sebanyak dua kali. Karenanya pendekatan ini sering
dikenal dengan istilah single test-double trial method.17
3. Pengujian reabilitas tes hasil belajar bentuk obyektif dengan menggunakan
pendekatan pendekatan alternate form (double test- double test method).18
Penentuan reliabilitas tes dengan menggunakan pendekatan alternate form sering
juga dikenal dengan istilah pendekatan bentuk paralel. Pendekatan jenis ketiga ini
dipandang lebih baik daripada dua jenis pendekatan yang tersebut di atas dengan
alasan bahwa: (a) karena butir- butir item dibuat sejenis tetapi tidak sama, maka tes
hasil belajar (yang akan diujikan reliabilitasnya) dapat terhindar dari kemungkinan
timbulnya pengaruh yang datang dari testee (latihan atau menghafal); (b) karena
kedua tes itu dilaksanakan secara berbareng (paralel), maka dapat dihindarkan
timbulnya perbedaan-perbedaan situasi dan kondisi yang diperkirakan akan dapat
mempengaruhi pelaksanaan tes, baik yang bersifat sosial maupun yang bersifat
alami.19
Reabilitas alat ukur tidak dapat ditentukan dengan pasti, melainkan hanya dapat
diestimasi, ada tiga pendekatan untuk mengestimasi reabilitas alat ukur yaitu:
1. Test-retest approach. Pendekatan test-retest mengenakan satu test dua kali pada
sekelompok subjek dengan jarak waktu. Dua kelompok skor yang diperoleh dari
dua kali pengetesan kemudian dikorelasikan (PM). Kelemahan test-retet adalah (a)
kemungkinan terjadinya carry over effect, (b) rejection dari subjek, (c) hanya cocok
untuk mengukur aspek fisik atau aspek psikologis yang relatif stabil.68
2. Paralel form (alternate form) approach. Pendekatan paralel form: dua tes yang
sama tujuan ukurnya dan setara kualitas dan kuantitas isi itemnya, diberikan kepada
kelompok subjek yang sama pada waktu yang bersamaan. Dua kelompok skor yang
diperoleh dari dua tes paralel tersebut kemudian dikorelasikan (PM) untuk
mengestimasi reliabilitasnya.
16
Sudjiono, Evaluasi Pendidikan, 269.
17
Ibid, 270.
18
Ibid, 271.
19
Ibid.
14
Kelemahan:
a. sukarnya menyusun dua tes yang paralel (spesifikasinya harus sama:
indikatornya, jumlah item, format item, taraf kesukaran item)
b. pengalaman subjek mengerjakan tes yang pertama dapat meningkatkan kinerja
subjek pada tes yang kedua karena adanya faktor belajar.
Untuk mengatasi ini dikembangkan pendekatan ganjil-genap (odd-even
splits) (ini termasuk kelompok konsistensi internal), artinya dua tes paralel tersebut
digabung menjadi satu tes saja dengan memberikan nomor urut item pada tes
pertama dengan nomor ganjil dan nomor genap untuk item-item dari tes yang
kedua. Setelah data diperoleh, maka data dipisah menjadi dua kelompok berdasar
nomor ganjil dan nomor genap tadi, selanjutnya kelompok skor item ganjil
dikorelasikan dengan kelompok skor item genap untuk mengestimasi
reliabilitasnya.
3. Internal consistency approach. Satu tes diberikan sekali pada sekelompok subjek.
Keuntungan pendekatan ini adalah praktis dan efisien karena hanya
dilaksanakan satu kali pengetesan. Item-item dari tes tersebut dibelah menjadi dua,
tiga, atau empat belahan, bahkan banyaknya belahan bisa sebanyak jumlah item
yang terdapat dalam tes tersebut (misal Anava Hoyt). Estimasi reliabilitasnya
adalah dengan melihat konsistensi antar item atau kelompok-kelompok item dalam
tes itu sendiri Cara pengelompokan item (disebut belahan tes) tergantung pada jenis
tes (speed atau power test), homogenitas, dan taraf kesukaran item.

15
16
BAB III
PENUTUP
A. Kesimpulan
Analisis tes dan butir soal merupakan suatu tahap yang harus ditempuh untuk
mengetahui derajat kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang
menjadi bagian dari tes tersebut. Oleh sebab itu, tes yang digunakan guru harus memiliki
kualitas yang baik. Analisis tes berkaitan dengan pertanyaan apakah tes itu mampu
dijadikan sebagai alat ukur benar-banar mampu mengukur apa yang hendak diukur dan
sejauh mana tes tersebut dapat diandalkan dan berguna. Ada beberapa macam-macam tes.
Jika ditinjau dari bentuk jawaban peserta didik maka tes dapat dibagi menjadi 3 jenis,
yaitu tes tulis, tes lisan, dan tes perbuatan. Ditinjau dari segi penyusunannya tes hasil
belajar dapat dibedakan menjadi dua, yaitu tes yang dibuat guru dan tes yang telah
distandarkan. Ditinjau berdasarkan jumlah peserta didik tes hasil belajar ada dua macam,
yaitu tes perseorangan dan tes kelompok. Ditinjau dari segi kegunaan untuk mengukur
siswa terdapat tiga macam tes, yaitu tes diagnostik, formatik, dan sumatif. Ditinjau
berdasarkan aspek pengetahuan dan keterampilan maka tes dapat dibedakan menjadi 2
jenis, yaitu tes kemampuan dan kecepatan. Tes yang baik harus memenuhi
ciri-ciri/karakteristik tes yang baik antara lain validitas, reabilitas, objektivitas,
Praktikabilitas, daya pembeda, dan Taraf atau Derajat Kesukaran.

B. Saran
Menyadari bahwa penulisan masih jauh dari kata sempurna, kedepannya penulis akan
lebih fokus dan detail dalam menguraikan dan membukukan setiap materi dengan
sumber-sumber yang lebih banyak dan tentunya dapat dipertangung jawakan. Oleh
karena itu penulis memohon kritik dan sarannya sebagai bahan evaluasi dan koreksi
untuk lebih kedepan.

17
DAFTAR PUSTAKA

Arifin, Zaini.Evaluasi Pembelajaran: Prinsip, Tekhnik Prosedur (Cetakan ke-5).


Bandung: PT Remaja Rosdakarya, 2013.

Arikunto, Suharsimi. 2000. Dasar-Dasar Evaluasi Pendidikan. Jakarta: Bumi


Aksara.

Nurkancana, Wayan dan P.P.N. Sunartana. Evaluasi Pendidikan (Cetakan ke-4).


Surabaya: Usaha Nasional, 1986.
Purwanto. Evaluasi Hasil Belajar. Yogyakarta: Pustaka Pelajar, 2011.
Purwanto, Ngalim. Prinsip-prinsip dan Teknik Evaluasi Pengajaran. Bandung:
Remaja Rosdakarya, 2003.
Solichin, Mujianto. 2017. Analisis Daya Beda Soal, Taraf Kesukaran, Validitas
Butir Tes, Interpretasi Hasil Tes dan Validitas Ramalan dalam Evaluasi
Pendidikan. Jurnal Manajemen & Pendidikan Islam. 2 (2): hal. 192-213.

Sudijono, Anas. Pengantar Evaluasi Pendidikan. Jakarta: RajaGrafindo, 2003.


Sugianto, A. 2016. Ciri-Ciri (Karakteristik) Tes yang Baik. IAIN Palangka Raya,
2016. https://www.researchgate.net/profile/Aris-Sugianto/publication
(akses 10 April 2022)

18
19

Anda mungkin juga menyukai