Oleh Kelompok 5:
Kelompok 5
2
DAFTAR ISI
C. Validitas .............................................................................. 16
D. Menentukan Validitas.......................................................... 21
E. Reliabilitas ......................................................................... 22
F. Menentukan Reliabilitas...................................................... 32
BAB III:PENUTUP
A. Kesimpulan ............................................................................... 41
3
BAB I
PENDAHULUAN
A. Latar Belakang
Guru dan calon guru sebagai seorang pendidik harus memahami tentang
materi evaluasi pembelajaran yang salah satu materinya tersebut membahas
mengenai masalah teknik analisis butir soal dan perangkat soal. Dalam teknik
analisis butir soal dan perangkat soal ini terbagi ke dalam dua tahap yaitu yang
pertama adalah tahap validitas dan yang kedua adalah tahap reliabilitas. Untuk
memahami lebih dalam mengenai keduanya, maka pemakalah mencoba untuk
membuat suatu makalah yang bertujuan untuk memudahkan pembacanya
memahami tentang konsep teknik analisis butir soal dan perangkat soal.
B. Rumusan Masalah
1. Apa itu teknik analisis butir soal?
4
2. Tujuan dari analisis kualitas butir soal.
5
BAB II
PEMBAHASAN
1
Elis Ratnawulan dan Rusdiana, Evaluasi Pembelajaran: Pengantar Prof. Dr. H. Sutaryat
Trisnamansyah, (Bandung: CV. Pustaka Setia, 2015), h. 153.
2
Ibid., h. 153-154
6
komentar/masukan dari peserta diskusi dicatat oleh notulis. Setiap butir soal
dapat dituntaskan secara bersama-sama, perbaikannya seperti apa. Namun,
kelemahan teknik ini adalah memerlukan waktu lama untuk rnendiskusikan
setiap satu butir soal.3
Teknik panel merupakan suatu teknik menelaah butir soal yang setiap
butir soalnya ditelaah berdasarkan kaidah penulisan butir soal, yaitu ditelaah
dari segi materi, konstruksi, bahasa/budaya, kebenaran kunci
jawaban/pedoman penskorannya yang dilakukan oleh beberapa penelaah.
Caranya adalah beberapa penelaah diberikan: butir-butir soal yang akan
ditelaah, format penelaahan, dan pedoman penilaian/ penelaahannya. Pada
tahap awal para penelaah diberikan pengarahan, kemudian tahap berikutnya
para penelaah berkerja sendiri-sendiri di tempat yang tidak sama. Para
penelaah dipersilakan memperbaiki langsung pada teks soal dan
memberikan komentarnya serta memberikan nilai pada setiap butir soalnya
yang kriterianya adalah: baik, diperbaiki, atau diganti.4
Secara ideal penelaah butir soal di samping memiliki latar belakang
materi yang diujikan, beberapa penelaah yang diminta untuk menelaah butir
soal memiliki keterampilan, seperti guru yang mengajarkan materi itu, ahli
materi, ahli pengembang kurikulum, ahli penilaian, psikolog, ahli bahasa,
ahli kebijakan pendidikan, atau lainnya.5
3
Ibid., h. 154
4
Ibid., h.154.
5
Ibid.
7
Agar penelaah dapat dengan mudah menggunakan format penelaahan
soal, maka para penelaah perlu memperhatikan petunjuk pengisian
formatnya. Petunjuknya adalah seperti berikut ini.
1) Analisislah setiap butir soal berdasarkan semua kriteria yang tertera
di dalam format!
2) Berilah tanda cek (V) pada kolom "Ya" bila soal yang ditelaah sudah
sesuai dengan kriteria!
3) Berilah tanda cek (X) pada kolom "Tidak" bila soal yang ditelaah
tidak sesuai dengan kriteria, kemudian tuliskan alasan pada ruang
catatan atau pada teks soal dan perbaikannya.6
4) Format Penelaahan Butir Soal Bentuk Uraian
Nomor Soal
No. Aspek yang ditelaah
1 2 3 4 5 6 7 8 9 …
A. Materi
1 Soal sesuai dengan indikator
(menuntut tes tertulis
untuk bentuk Uraian)
2 Batasan pertanyaan dan
jawaban yang diharapkan
sudah sesuai
3 Materi yang ditanyakan
sesuai dengan kompetensi
(urgensi, relevasi,
kontinyuitas, keterpakaian
sehari-hari tinggi)
4 Isi materi yang ditanyakan
sesuai dengan jenjang
jenis sekolah atau tingkat
kelas
B Konstruksi
5 Menggunakan kata tanya
atau perintah yang
menuntut jawaban uraian
6 Ada petunjuk yang jelas
tentang cara mengerjakan
soal
6
Ibid., h. 154-155
8
Nomor Soal
No. Aspek yang ditelaah
1 2 3 4 5 6 7 8 9 …
7 Ada pedoman
penskorannya
8 Tabel, gambar, grafik,
peta, atau yang sejenisnya
disajikan dengan jelas dan
terbaca
C. Bahasa/Budaya
9 Rumusan kalimat coal
komunikatif
10 Butir soal menggunakan
bahasa Indonesia yang
11 baku
Tidak menggunakan
kata/ungkapan yang
menimbulkan penafsiran
12 ganda atau salah
pengertian
13 Tidak menggunakan
bahasa yang berlaku
setempat/tabu
Rumusan soal tidak
mengandung
Keterangan: Berilah tanda (X) bila tidak sesuai dengan aspek yang ditelaah!
B. Konstruksi
5. Pokok soal dirumuskan dengan singkat, jelas, dan tegas
6. Rumusan pokok soal dan pilihan jawaban merupakan
pernyataan yang diperlukan saja
7. Pokok soal tidak memberi petunjuk kunci jawaban
8 Pokok soal bebas dan pernyataan yang bersifat
negatif ganda
9. Pilihan jawaban homogen dan logis ditinjau dari segi
9
Nomor Soal
No. Aspek yang ditelaah
1 2 3 4 5 …
materi
10. Gambar, grafik, tabel, diagram, atau sejenisnya
jelas dan berfungsi
11. Panjang pilihan jawaban relatif sama
12. Pilihan jawaban tidak menggunakan pernyataan
"semua jawaban di atas salah/benar" dan sejenisnya
13. Pilihan jawaban yang berbentuk angka/waktu disusun
berdasarkan urutan besar kecilnya angka atau
kronologisnya
14. Butir soal tidak bergantung pada jawaban soal
sebelumnya
C. Bahasa/Budaya
15. Menggunakan bahasa yang sesuai dengan kaidah
bahasa Indonesia
16. Menggunakan bahasa yang komunikatif
17. Tidak menggunakan bahasa yang berlaku setempat/tabu
18. Pilihan jawaban tidak mengulang kata/kelompok kata
yang sama, kecuali merupakan satu kesatuan pengertian
Keterangan: Berilah t a nd a ( X) bila tidak sesuai dengan aspek yang ditelaah!
B. Konstruksi
5. Menggunakan kata tanya atau perintah yang menuntut
jawaban perbuatan/praktik
6. Ada petunjuk yang jelas tentang cara mengejakan soal
7. Ada pedoman penskorannya
8. Tabel, peta, gambar, grafik, atau sejenisnya disajkian
dengan jelas dan terbaca
C. Bahasa/Budaya
9. Rumussan soal komunikatif
10. Butir soal menggunakan bahasa Indonesia yang baku
11. Tidak menggunakan kata /ungkapan yang menimbulkan
10
Nomor Soal
No. Aspek yang ditelaah
1 2 3 ...
penafsiran ganda atau salah pengertian
12. Tidak menggunakan bahasa yang berlaku setempat/tabu
13. Rumusan soal tidak mengandung kata/ungkapan yang
dapat menyinggung perasaan siswa
Keterangan: Berilah tanda (V) bila sesuai dengan aspek yang ditelaah!
7) Format Penelaahan untuk Instrumen Non-Tes
B. Konstruksi
3. Pernyataan dirumuskan dengan singkat (tidak melebihi
20 kata) dan jelas.
4. Kalimatnya bebas dari pernyaatn yang tidak relevan
objek yang dipersoalkan atau kalimatnya merupakan
pernyataan yang diperlukan saja.
5. Kalimatnya bebas dari pernyataan yang bersifat negatif
ganda.
6. Kalimatnya bebas dari pernyataan yang mengacu pada
masa lalu.
7. Kalimatnya bebas dari pernyataan faktual atau dapat
diinterpretasikan sebagai fakta.
8. Kalimatnya bebas dari pernyataan dapat
diinterpretasikan lebih d Kalimatnya bebas dari
pernyataan yang mungkin disetujui atau dikosongkan
oleh hampir semua responden.
9. Setiap pernyataan hanya berisi satu gagasan secara
lengkap.
10. Kalimatnya bebas dari pernyataan yang tidak pasti pasti
seperti semua, selalu, kadang-kadang, tidak satupun,
tidak pernah.
11. Jangan banyak menggunakan kata hanya, sekedar,
semata-mata.
12. Gunakan seperlunya.
C. Bahasa/Budaya
13. Bahasa soal harus komunikatif dan sesuai dengan
jenjang pendidikan siswa atau responden.
14. Soal harus menggunakan bahasa Indonesia baku.
11
Nomor Soal
No. Aspek yang ditelaah
1 2 3 ...
15. Soal tidak menggunakan bahasa yang berlaku
setempat/tabu.
Keterangan: Berilah tanda (V) bila sesuai dengan aspek yang ditelaah!
Dari sebenarnya jawaban tersebut, perhitungan skor uji coba dan analisis butir
dapat diringkaskan dalam table sebagai berikut
Siswa Butir Soal Jumlah
1 2 3 4 5 6 7 8 9 10
A 1 1 1 0 0 1 0 1 1 0 6
B 1 0 1 1 0 0 0 1 0 0 4
C 0 1 0 0 1 0 1 0 1 1 5
12
D 0 0 0 1 0 1 0 1 1 0 4
E 0 0 0 0 1 0 1 0 0 1 3
F 0 1 0 1 0 1 1 0 1 1 6
G 0 1 0 0 1 0 0 1 1 0 4
H 1 1 0 1 0 0 1 1 1 0 6
I 0 1 0 0 0 0 0 0 0 1 2
J 1 1 0 0 0 0 1 1 1 1 6
∑B 4 7 2 4 3 3 5 6 7 5
TK 0,40 0,70 0,20 0,40 0,30 0,30 0,50 0,60 0,70 0,50
DB 0,40 0,60 0 0 -0,20 0,20 0,60 0 0,60 0,20
EP E TE E E E E E E E E
Keterangan:
SB : Jumlah siswa yang menjawab benar pada butir ke-I
TK : Tingkat Kesukaran
EP : Efektif Pengecoh
E : Efektif
TE : Tidak Efektif
13
Misalnya TK butir 1 dihitung sebagai berikut:
4
TK (1) = = 0, 40
10
2. Daya beda
Perhitungan DB dilakukan dengan langkah sebagai berikut:
a. Menentukan siswa kelompok atas dan bawah
Kelompok atas Kelompok bawah
Siswa Skor Siswa Skor
A 6 B 4
C 5 D 4
F 6 E 3
H 6 G 4
J 6 I 2
b. Menghitung Perolehan Skor tiap-tiap butir pada siswa kelompok atas dan
bawah
Kelompok atas
Siswa Butir Soal
1 2 3 4 5 6 7 8 9 10
E 1 1 1 0 0 1 0 1 1 0
C 0 1 0 0 1 0 1 0 1 1
F 0 1 0 1 0 1 1 0 1 1
H 1 1 0 1 0 0 1 1 1 0
J 1 1 0 0 0 0 1 1 1 1
Jumlah 3 5 1 2 1 2 4 3 5 3
Kelompok bawah
Siswa Butir Soal
1 2 3 4 5 6 7 8 9 10
14
B 1 0 1 1 0 0 0 1 0 0
D 0 0 0 1 0 1 0 1 1 0
E 0 0 0 0 1 0 1 0 0 1
G 0 1 0 0 1 0 0 1 1 0
I 0 1 0 0 0 0 0 0 0 1
Jumlah 1 2 1 2 2 1 1 3 2 2
c. Menghitung DB butir
Sebagai sebuah alat ukur, THB harus memenuhi syarat alat ukur yang baik
yaitu validitas dan realibitas. Sebelum pengujian syarat alat ukur yang baik
dilakukan, maka terlebih dahulu butir-butir THB harus diuji coba menggunakan
15
teori tes klasik atau modern. Oleh karena pertimbangan kepraktisan, tes klasisk
lebih banyak digunakan dengan beberapa kekurangannya.
Dalam analisis butir menggunakan teori tes klasik, karakteristik butir yang
diuji adalah tingkat kesukaran, daya beda dan efektivitas pengecoh. Dalam
pengujian itu keputusan butir yang baik didasarkan oleh beberapa kriteria yaitu
tingkat kesukaran harus sedang, daya beda harus positif tinggi, dan pengecoh harus
dipilih paling tidak satu orang peserta tes.7
C. Validitas
Azwar (1987: 173) menyatakan bahwa validitas berasal dari kata validity
yang mempunyai arti sejauh mana ketepatan dan kecermatan suatu instrumen
pengukur (tes) dalam melakukan fungsi ukurnya. Suatu tes dikatakan memiliki
validitas yang tinggi apabila alat tersebut menjalankan fungsi ukur secara tepat atau
memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran
tersebut. Artinya hasil ukur dari pengukuran tersebut merupakan besaran yang
mencerminkan secara tepat fakta atau keadaan sesungguhnya dari apa yang diukur.8
Suryabrata (2000: 41) menyatakan bahwa validitas tes pada dasarnya
menunjuk kepada derajat fungsi pengukurnya suatu tes, atau derajat kecermatan
ukurnya sesuatu tes. Validitas suatu tes mempermasalahkan apakah tes tersebut
benar-benar mengukur apa yang hendak diukur. Maksudnya adalah seberapa jauh
suatu tes mampu mengungkapkan dengan tepat ciri atau keadaan yang
sesungguhnya dari obyek ukur, akan tergantung dari tingkat validitas tes yang
bersangkutan. 9
Sudjana (2004: 12) menyatakan bahwa validitas berkenaan dengan
ketepatan alat penilaian terhadap konsep yang dinilai sehingga betul-betul menilai
apa yang seharusnya dinilai. Suatu tes yang valid untuk tujuan tertentu atau
pengambilan keputusan tertentu, mungkin tidak valid untuk tujuan atau
pengambilan keputusan lain. Jadi validitas suatu tes, harus selalu dikaitkan dengan
7
Purwanto, “Evaluasi Hasil Belajar” (Yogyakarta: Pustaka Pelajar, 2009) hlm. 108-112
8
Zulkifli Matondang, Validitas Dan Reliabilitas Suatu Instrumen Penelitian, dalam Jurnal
TABULARASA PPS UNIMED Vol.6 No.1, Tahun. 2009, hlm 89
9
Loc.cit.
16
tujuan atau pengambilan keputusan tertentu. Tes masuk di SMA misalnya harus
selalu dikaitkan dengan seberapa jauh tes masuk tersebut dapat mencerminkan
prestasi atau hasil belajar para calon peserta didik baru setelah belajar nanti.10
Konsep validitas menunjuk kepada kesesuaian, kebermaknaan, dan
kebergunaan kesimpulan-kesimpulan yang dibuat berdasarkan skor instrumen.
Makin tinggi validitas suatu instrumen, berarti makin baik kesimpulan yang diambil
dan makin baik pula tingkat kebermaknaan maupun kegunaannya. Oleh karena itu,
suatu instrumen dikatakan valid kalau instrumen atau alat ukur tersebut benar-benar
mengukur sesuatu yang hendak diukur.
Umpama:
Apabila kita ingin mengukur kemampuan peserta didik dalam ilmu
pemerintahan, maka materi yang diujikan hendaklah terfokus pada materi ilmu
pemerintahan. Jangan terjadi salah arah dengan memberikan sebanyak mungkin
Istilah asing, sehingga berubah menjadi ujian bahasa asing, bukan ilmu
pemerintahan.11 Para ahli menggolongkan validitas ke dalam beberapa jenis. Jenis-
jenis validitas diuraikan berikut ini.
Countent validity atau validitas isi dipandang dari segi isi alat ukur itu
sendiri; berdasarkan materi yang disampaikan dalam pembelajaran dan diharapkan
dikuasai oleh peserta didik.12
Suatu evaluasi dikatakan memiliki countent validity apabila evaluasi
tersebut dapat mewakili seluruh materi kurikuler yang telah dilaksanakan. Validitas
ini menunjuk pada evaluasi yang bersampel respresentatif dengan materi pelajaran
yang telah diberikan.
Validitas isi dipandang dari segi isi alat ukur itu sendiri; berdasarkan materi
yang disampaikan dalam pembelajaran dan diharapkan dikuasai oleh peserta didik.
10
Loc.cit.
11
A. Muri Yusuf, Aransemen dan Evaluasi Pendidikan, (Jakarta: Prenadanedia Group,
2015), hlm. 61
12
Ibid., hlm. 62
17
Oleh karena itu telaah yang mendalam dan berulang kali tentang apa yang
diharapkan dan materi apa yang telah disampaikan merupakan hal yang sangat
penting. Hal ini untuk memungkinkan tersusunnya isi instrumen yang tepat dan
mewakili materi yang disampaikan serta diharapkan dikuasai oleh para peserta
didik. Untuk mendapatkan validitas isi yang tinggi perlu dilakukan suatu diskusi
yang mendalam, yang diikuti oleh orang-orang yang ahli dalam bidang studi yang
bersangkutan serta ahli dalam pengukuran dan penilaian.
Umpama:
Instrumen tentang ilmu pemerintahan dapat disusun dalam jumlah yang
banyak sekali; tetapi perlu diingat bahwa instrumen itu adalah sampel dari perilaku
peserta didik yang jumlahnya terbatas. Untuk mendapatkan alat ukur yang tepat dan
benar dari jumlah yang banyak itu, maka para ahli perlu melakukan penyaringan
secara mendalam dan tuntas, sesuai dengan waktu yang mungkin tersedia. Konten
yang diujikan hendaknya mewakili materi pelajaran yang diberikan dan juga
mewakili kemampuan yang ingin dicapai, seperti yang terdapat dalam kurikulum.13
Suatu alat ukur dapat dikatakan mempunyai validitas konstruk yang tinggi
dalam kreatifitas, kalau instrumen tersebut, umpamanya, dapat membedakan orang
yang mempunyai kreatifitas tinggi dan orang yang mempunyai kreatifitas rendah.
Dengan kata lain, instrumen itu dapat membedakan individu yang satu dengan
individu yang lainnya. Validitas konstruk mempersoalkan apakah yang ditanyakan
merupakan bagian yang penting di dalam suatu konsep atau merupakan bagian dari
suatu instrumen yang disusun.
Contoh:Motivasi Berprestasi
Penyusunan instrumen harus memahami dengan benar tentang teori
Motivasi Berprestasi yang sesungguhnya, dan selanjutnya membangun konstruk
(construct) tentang Motivasi Berprestasi yang akan dijadikan patokan dalam
13
Ibid., hlm. 62
18
menilai, kemudian memerinci menjadi aspek-aspek yang lebih kecil dan spesifik.
Butir-butir yang dibuat hendaklah mengukur setiap aspek yang telah ditetapkan.
Seandainya instrumen yang disusun berdasarkan ketentuan tersebut, dan
memenuhi pula ketentuan yang berlaku dalam menyusun butir instrumen yang
benar dan baik, maka instrumen tersebut akan mempunyai validitas konstruk yang
tinggi. kunci dasar untuk mendapatkan construct validity yang tinggi adalah
ketetapan, kesesuaian, dan kebenaran "construct" yang disusun sebelumnya. Untuk
itu penimbang (judger) sangat diperlukan dan menentukan. Penimbang hendaklah
seseorang yang ahli dalam bidang instrumen yang akan disusun serta memahami
pula bagaimana menyusun instrumen yang baik dan benar.14
14
Ibid., hlm. 62-63
15
Miftahuddin dan Fithriana, Korelasi Antara Validitas pada Evaluasi yang Digunakan
dalam Menilai Hasil Belajar Siswa dengan Hasil Kegiatan MGMP Matematika di Kabupaten Pidie,
dalam Jurnal Matematika, Statiska, dan Komputasi Vol. 2 No. 4 Tahun 2008, hlm 77
19
pada waktu ujian masuk mampu menyelesaikan studinya tepat waktu, atau bahkan
lebih pendek dari yang seharusnya dan dengan nilai baik, sebaliknya dalam kondisi
normal, peserta didik yang mendapatkan nilai ujian masuk rendah, namun karena
bermacam pertimbangan diterima juga di perguruan tinggi tertentu, tidak akan
berhasil di perguruan tinggi itu.16
16
Op.cit., hlm 63
17
Ibid., hlm. 78
18
Op.cit. hlm. 63
20
D. Menentukan validitas.
Di samping jenis-jenis validitas seperti yang telah diutarakan, ada pula
klasifikasi lain tentang validitas, yaitu validitas internal dan validitas eksternal.
Validitas internal mengacu pada tersedianya informasi sesuai dengan yang
diharapkan, sedangkan validitas eksternal mengacu pada konsep generalisasi.
Makin tinggi validitas eksternal makin baik pola generalisasi temuan di daerah lain.
Validitas instrumen dapat diketahui dengan jalan mencari korelasi
instrumen itu dengan kriterium, atau melakukan analisis butir (item). Untuk dapat
menggunakan formula yang tepat dalam menentukan validitas suatu instrumen
maka perlu ditentukan terlebih dahulu tipe data yang dikumpulkan melalui
instrumen itu.
Apabila data yang didapat adalah data interval maka dapat digunakan rumus
Product Moment Correlation, sebagai berikut:
Keterangan:
r xy = Koefisien korelasi antara instrumen X dan instrumen Y.
X = Variabel X (instrumen X)
Y = Variabel Y (instrumen Y)
N = Jumlah peserta19
19
Op.cit., hlm 65.
21
E. Reliabilitas
1. Pengertian
Reliabilitas yang berasal dari kata reliability memiliki arti sejauh mana
hasil suatu pengukuran itu dapat dipercaya dan suatu hasil pengukuran itu
dapat dipercaya apabila dalam beberapa kali pelaksanaannya dilakukan
terhadap kelompok yang sama dan memiliki hasil pengukuran yang relatif
sama.20 Reliabilitas adalah tingkat konsistensi dari suatu instrumen.21 Suatu
instrumen evaluasi, dapat dikatakan mempunyai nilai reliabilitas tinggi
apabila tes yang dibuat mempunyai hasil yang konsisten dalam mengukur
yang hendak diukur. Reliabilitas memberikan konsistensi yang membuat
terpenuhnya syarat utama, yaitu validnya suatu hasil skor instrumen.22
Adapun reliabilitas menurut para ahli yaitu:
a. Azwar, reliabilitas berhubungan dengan akurasi instrumen dalam
mengukur apa yang hendak diukur. Iya juga menyatakan bahwa
reliabilitas sebagai konsistensi pengamatan yang diperoleh dari
pencatatan berulang baik pada satu subjek maupun beberapa subjek.23
b. Anastasi mengemukakan “Reliability refers to the consistency of
scores obtained by same persons when reexamined the same test on
different occasion, or with different sets of equivalent items or under
other variable examining conditions”.
c. Gronlund mengemukakan hal yang sama yaitu “Reliability refers to
the result obtained with an evaluation instrument and not the
instrument it self”24
20
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan
modern. (Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 142
21
Zainal Arifin. Evaluasi Pembelajaran. (Bandung: PT Remaja Rosdakarya,
2009). Hlm. 258
22
Sukardi. Evaluasi Pendidikan: prinsip dan operasionalnya. (Jakarta: Bumi
Aksara, 2009). Hlm 43
23
Sandu Siyoto dan Ali Sodik. Dasar Metodologi Penelitian. (Yogyakarta:
Literasi Media Publishing, 2015). Hlm 91
24
Op. cit. Zainal Arifin. Hlm. 258
22
d. Kerlinger mengemukakan bahwa reliabilitas dapat diukur dari 3
kriteria yaitu stability (menunjukkan keajegan suatu tes dalam
mengukur gejala yang sama pada waktu yang berbeda), dependability
(menunjukkan kemantapan suatu teks atau Seberapa jauh tes dapat
diandalkan) dan predictability (Menunjukkan kemampuan tes untuk
meramalkan hasil pada pengukuran gejala selanjutnya).25
Konsep reliabilitas dalam arti reliabilitas alat ukur berkaitan erat
dengan adanya masalah kesalahan pengukuran, kesalahan pengukuran
ini menunjukkan sejauh mana inkonsistensi hasil pengukuran terjadi
apabila dilakukan pengukuran ulang terhadap kelompok yang sama.
Sedangkan konsep reliabilitas dalam arti reliabilitas hasil ukur berkaitan
erat dengan adanya error dalam pengambilan sampel yang mengacu pada
inkonsistensi hasil ukur apabila pengukuran dilakukan secara ulang pada
kelompok yang berbeda.26Kesalahan pengukuran dapat disebabkan oleh
beberapa faktor diantaranya: karakteristik teks evaluasi itu sendiri,
kondisi pelaksanaan tes yang tidak mengikuti aturan baku, test item yang
meragukan dan mahasiswa langsung mengikuti, status peserta yang
mengikuti tes, misalnya seseorang yang sedang lelah atau mempunyai
problem pribadi mahasiswa mempunyai motivasi rendah atau kombinasi
dari semua gejala tersebut.27
Salah satu syarat agar hasil ukur dalam suatu tes dapat dipercaya
ialah tes tersebut harus mempunyai reliabilitas yang memadai. Dalam
buku ini reliabilitas dibedakan menjadi dua macam yaitu reliabilitas
konsistensi tanggapan dan reliabilitas konsistensi gabungan item.28
Analisis reliabilitas umumnya difokuskan pada konsistensi internal
(internal consistency), inter-rater analysis. Selain validitas, reliabilitas
juga perlu dianalisis secara cermat. Reliabilitas menunjukkan hasil
25
Op. cit. Zainal Arifin. Hlm. 258
26
Op. cit. Sudaryono. Hlm. 142
27
Sukardi. Evaluasi Pendidikan: prinsip dan operasionalnya. (Jakarta: Bumi Aksara,
2009). Hlm 44
28
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
(Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 142
23
pengukuran dengan alat yang dapat dipercaya. Jadi kesimpulannya
adalah reliabilitas berhubungan dengan kemampuan alat ukur untuk
melakukan pengukuran secara cermat. Reliabilitas merupakan akurasi
dan presisi yang dihasilkan oleh alat ukur dalam melakukan
pengukuran.29
29
Sandu Siyoto dan Ali Sodik. Dasar Metodologi Penelitian. (Yogyakarta: Literasi Media
Publishing, 2015). Hlm 91
30
Op. cit. Sandu Siyoto dan Ali Sodik. Hlm. 94
24
mempunyai kesamaan yaitu bahwa perbedaan diantara individu
adalah kecil dan cenderung tidak relavan.
d. Objektifitas (objectivity), objektivitas di sini menunjukkan skor tes
kemampuan yang sama antara peserta didik yang satu dengan peserta
didik lainnya. peserta didik memperoleh hasil yang sama dalam
mengerjakan suatu tes. Jika peserta didik memiliki Tingkat
kemampuan yang sama, maka akan memperoleh hasil tes yang sama
pada saat mengerjakan tes yang sama. Objektifitas prosedur tes yang
tinggi akan memperoleh reliabilitas hasil tes yang tidak dipengaruhi
oleh prosedur penskoran.
31
Elis Ratnawulan dan Rusdiana. Evaluasi Pembelajaran. (Bandung: CV Pustaka Setia,
2015). Hlm. 182
32
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
(Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 147
33
Sukardi. Evaluasi Pendidikan: prinsip dan operasionalnya. (Jakarta: Bumi Aksara,
2009). Hlm 45
25
pengulangan tes pada kelompok yang sama dengan waktu yang
berbeda. Inilah teknik pengambilan data guna mengukur reliabilitas
berdasarkan metode tes ulang. Cara memperoleh koefisien stabilitas
adalah dengan korelasikan hasil tes pertama dengan hasil tes kedua
dari kelompok yang sama dengan tes yang sama pada waktu yang
berbeda. Jika antara waktu tes pertama dengan tes kedua cukup lama
kemudian diadakan latihan tambahan, maka bisa jadi nilai tes kedua
akan lebih besar daripada nilai tes pertama. Sebaliknya, jika antara
waktu tes pertama dengan tes kedua relatif pendek, maka nilai tes
kedua bisa jadi sama atau lebih besar daripada tes pertama, karena soal
dan jawaban masih dapat diingat oleh siswa.34
Kesalahan teknis ini dapat bersumber dari beberapa faktor
sehingga menyebabkan peserta didik mempunyai skor yang berbeda
pada saat dua kali mengerjakan tes yang sama. Adapun faktornya
yaitu:35
Karakteristik yang diukur telah berubah dari tes pertama ke tes
yang kedua. Sebagai contoh misalnya tes kemampuan
membaca menulis dan berhitung yang diadakan pada bulan
Agustus titik tes kedua, yaitu tes yang sama diberikan kepada
peserta didik Pada bulan Oktober. Kita mengharapkan terdapat
perubahan kemampuan membaca menulis dan berhitung pada
periode 2 bulan tersebut. Indeks reliabilitas yang rendah kita
harapkan sebagai akibat perubahan tersebut.
Pengalaman peserta didik dalam mengambil tes yang sama
akan cukup berpengaruh terhadap perolehan skor sebenarnya.
Hal ini dinamakan sebagai reactivity. Sebagai contoh misalnya
peserta didik yang mengikuti ujian akhir nasional , lalu ia
memperoleh skor 3,9. Menurut standar kelulusan tahun 2004,
34
Zainal Arifin. Evaluasi Pembelajaran. (Bandung: PT Remaja Rosdakarya, 2009). Hlm.
259-260
35
Op. cit. Sudaryono. Hlm. 148
26
ia tidak lulus dan harus ikut ujian ulang. Apabila soal yang
diberikan pada ujian ulangan Ujian pertama, maka dapat
dipastikan bahwa skor yang diperoleh peserta didik akan
meningkat titik peningkatan ini terjadi salah satu sebabnya
karena ia telah berpengalaman melihat soal sebelumnya untuk
mengatasi supaya hal ini tidak terjadi biasanya soal yang
digunakan pada ujian susulan berbeda dengan soal yang
digunakan pada Ujian pertama namun masih mengukur
kemampuan yang sama.
Kita harus memperhatikan Apa yang disebut practice effect
atau carry over effect, yaitu pengaruh pengalaman atau
ingatan siswa terhadap perolehan skor pada tes kedua. Peserta
didik bisa saja tidak dapat menjawab tes pertama, tetapi
mereka dapat menjawab pada atas kedua karena adanya faktor
ingatan yang telah mereka lihat pada tes pertama.
Keunggulan teknik ini adalah dapat memperkecil kemungkinan
masuknya sumber kesalahan yang lain. Namun patut juga
dipertimbangkan bahwa penggunaan kelompok yang sama dan tes
yang sama dalam dua kali akan mempengaruhi hasil tes yang kedua
karena responden sudah memiliki pengalaman mengerjakan tes yang
pertama. Hal ini sekaligus menunjukkan kelemahan teknik test-
retes.36
b. Tipe ekuivalen
Koefisien ekuivalen adalah jika mengorelasikan dua buah teks
yang paralel pada kelompok dan waktu yang sama. Metode yang
digunakan untuk memperoleh koefisien ekuivalen adalah metode
yang disebut paralel atau equivalence forms method atau disebut juga
36
Zainal Arifin. Evaluasi Pembelajaran. (Bandung: PT Remaja Rosdakarya, 2009). Hlm.
260
27
parallel or alternate-forms method.37 Metode ini berkaitan dengan
penggunaan 2 buah tes yang sama atau relatif sama kepada peserta
didik yang sama.38 Kesamaan yang dimaksud pada tes adalah
kesamaan-kesamaan tujuan, tingkat kesukaran, susunan bahasa,
jumlah item, isi, petunjuk waktu yang disediakan untuk mengerjakan
tes, dan contoh-contoh juga sama.
Metode ekuivalen atau paralel digunakan untuk mengatasi
kelemahan yang terjadi pada metode tes ulang. Ketika dua tes yang
digunakan ternyata berbeda, maka faktor carry over effect tidak
menjadi masalah lagi, walaupun bisa saja faktor mengingat pada
jawaban tes pertama sedikit berpengaruh pada tes kedua, khususnya
apabila ditemukan soal yang benar-benar mirip atau bahkan sama.
Sekalipun bentuk paralel ini dapat mengatasi hampir semua
kelemahan metode tes ulang, namun masih saja memiliki beberapa
kelemahan. Kelemahannya adalah sangat sukar membuat dua buah
teks yang benar-benar homogen. Hal yang paling utama adalah tidak
ada jaminan apakah kedua tes yang digunakan benar-benar mengukur
hal yang sama. Kesulitan dalam metode ini adalah mengembangkan
2 form yang bersifat paralel tersebut terutama pada tes yang mengukur
atribut kepribadian. Berkaitan dengan hal ini para ahli
merekomendasikan untuk menerapkan administrasi tes pada 2 form
tersebut dengan cara:39
Form 1 diadministrasikan pada sekelompok subjek
Form 2 diadministrasikan pada hari yang sama untuk setengah
kelompok subjek
Form 2 di administrasi kan dengan jeda waktu 2 minggu dari
administrasi form 1 untuk setengah kelompok subjek sisanya
37
Op. cit. Zainal Arifin. Hlm. 260
38
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
(Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 149
39
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
(Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 150
28
Mengumpulkan skor form 1 dan 2 di atas kemudian
menghitung korelasi nya
40
Zainal Arifin. Evaluasi Pembelajaran. (Bandung: PT Remaja Rosdakarya, 2009). Hlm.
261
29
sering pula dinamakan sebagai single-tes-single-trial method. Metode
ini sangat sederhana yaitu:41
1) Menyelenggarakan 1 kali tes
2) Membagi teks tersebut menjadi 2 bagian yang sama
3) Mengkorelasikan skor kedua belahan ini untuk mengestimasi
reliabilitas tes
Metode belah dua dapat mengatasi semua kelemahan yang
terdapat pada metode tes ulang dan tes paralel. Metode ini
memungkinkan estimasi reliabilitas tanpa harus menyelenggarakan
tes 2 kali. Dengan demikian ketidakajegan skor perolehan skor bukan
karena penyelenggaraan tes tetapi karena dalam merespon tes itu
sendiri.42
Cara melakukan reliabilitas belah dua pada dasarnya dapat
dilakukan dengan urutan sebagai berikut:43
1) Lakukan pengetesan item-item yang telah dibuat kepada
subjek sasaran.
2) Begitu yang ada menjadi dua atas dasar jumlah item yang
paling umum dengan membagi hitam dengan nomor ganjil dan
genap pada kelompok tersebut.
3) Hitung skor subjek pada kedua belah kelompok penerima item
genap dan item ganjil.
4) Mengkorelasikan kedua skor tersebut, menggunakan formula
korelasi yang relevan dengan teknik pengukuran.
Jika hasil koefisien korelasi tinggi, maka tes mempunyai tingkat
reliabilitas baik. Akan terjadi sebaliknya, jika hasil korelasi belah dua
item tes ternyata rendah. Perlu diingat bahwa dari analisis belah dua
di atas, hasil korelasi yang muncul baru separuh. Sebenarnya apa yang
41
Op. cit. Sudaryono. Hlm. 150
42
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
(Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 151
43
Sukardi. Evaluasi Pendidikan: prinsip dan operasionalnya. (Jakarta: Bumi Aksara,
2009). Hlm 48
30
kita kerjakan adalah menciptakan secara artifisial 2 macam kelompok
ekivalen dan menghitung bentuk reliabilitas ekivalensi yang
direncanakan terjadi dalam waktu yang sama. Oleh karna itu, analisis
diatas dapat dikatakan sebagai reliabilitas atau konsistensi internal.
Dikarnakan reliabilitas yang digambarkan baru sebagian dari tes
sebenarnya, maka formula koreksi perlu digunakan untuk
meningkatkan ketepatan perhitungan tingkat konsistensi.44
44
Op. cit. Sukardi. Hlm 48
31
F. Menentukan Reliabilitas
1. Metode Bentuk Paralel
Tes parallel atau tes ekuivalen adalah dua buah tes yang mempunyai
kesamaan tujuan, tingkat kesukaran, dan susunan, tetapi butur-butir soalnya
berbeda.
Dengan metode bentuk parallel ini, dua buah tes yang parallel, misalnya
tes Matematika seri A yang akan dicari reliabilitasnya dan tes seri B diteskan
kepada sekelompok siswa yang sama, kemudian hasilnya dikorelasikan.
Koefisien korelasi dari kedua hasil tes inilah yang menunjukkan koefisien
reliabilitas tes seri A. jika koefisiennya tinggi maka tes tersebut sudah
reliable dan dapat digunakan sebagai alat pengetes yang terandalkan.
Dalam menggunakan metode tes paralel ini pengetes harus menyiapkan
dua buah tes, dan masing-masing dicobakan pada kelompok siswa yang
sama. Oleh karena itu, ada orang yang menyebutkan sebagai double test-
trial method. Penggunaan metode ini baik karena siswa dihadapkan kepada
dua macam tes sehingga tidak ada faktor “masih ingat soalnya” yang dalam
evaluasi disebut adanya practice-effect dan carry-over effect, artinya ada
faktor yang dibawa oleh pengikut tes karena sudah mengerjakan soal
tersebut.
Kelemahan dari metode paralel ini adalah bahwa pengetes pekerjaannya
berat karena harus menyusun dua seri tes. Lagipula harus tersedia waktu
yang lama untuk mencobakan dua kali tes.45
45
Suharsimi arikunto, Dasar-Dasar Evaluasi Pendidikan edisi 2, (Jakarta: Bumi Aksara,
2018), h. 165.
32
Untuk tes yang mengungkap pengetahuan (ingatan) dan pemahaman, cara
ini kurang mengena karena tercoba akan masih ingat akan butuir-butir soalnya.
Oleh karena itu, tenggang waktu antara pemberian tes pertama dan kedua
menjadi permasalahan tersendiri. Jika tenggang waktu terlalu sempit, siswa
akan masih banyak ingat materi. Sebaliknya jika tenggang waktu terlalu lama,
maka faktor-faktor atau kondisi tes sudah akan berbeda, dan siswa sendiri
barangkali sudah mempelajari sesuatu.
Pada umumnya hasil tes yang kedua cenderung lebih baik daripada hasil tes
pertama. Hal ini tidak mengapa karena pengetes harus sadar akan adanya
practice effect dan carry over effect. Yang penting adalah adanya kesejajaran
hasil atau ketetapan hasil yang ditunjukkan oleh koefisien korelasi yang
tinggi.46
Contoh:
Tes Pertama Tes Kedua
Siswa
Skor Ranking Skor Ranking
A 15 3 20 3
B 20 1 25 1
C 9 5 15 5
D 18 2 23 2
E 12 4 18 4
46
Ibid, h.166.
33
dengan metode ketiga ini tidak dapat demikian. Pada waktu membelah dua
dan mengkorelasikan dua belahan, baru diketahui reliabilitas seluruh tes harus
digunakan rumus Sperman-Brown sebagai berikut:
r11 = 2 x r ½ ½
(1 + r ½ ½ )
Keteranngan :
r11 = koefisien reliabilitas yang sudah disesuaikan
r ½ ½ = korelasi antara skor-skor setiap belahan tes
Contoh:
Korelasi antara belahan tes = 0,60
Maka, reliabilitas tes = 2×0,60 = 1,20 = 0,75
1+ 0,60 1,60
34
2 Yoyok 0 0 1 0 1 0 0 1 1 1 5 3 2 2 3
3 Wendi 1 1 0 0 1 1 0 0 1 0 5 3 2 3 2
4 Diana 1 1 1 1 1 1 0 0 0 0 6 3 5 5 1
5 Paul 1 0 1 0 1 0 1 0 0 0 4 4 0 3 1
6 Helen 0 1 0 1 1 1 1 1 1 1 8 3 5 3 5
separo tes. Oleh karena itu, rxy untuk belahan disebut dengan istilah r1/21/2
35
atau rgg, untuk mencari reliabilitas seluruh tes digunakan rumus Spearman-
Brown.
r11 = 2 x r ½ ½
(1 + r ½ ½ )
= 2× -0,3786
1+ (-0,3786)
= -0,7572 = -0,5493
1,3786
36
Secara konseptual, rumus yang dikemukakan Flanagan tidak jauh berbeda
dari Rulon’s formula. Ia menjelaskan bahwa kesalahan variance merupakan
jumlah variance dari kedua belahan (genap dan ganjil). Dengan dasar itu ia
mengemukakan rumus sebagai berikut :
rn = 2 (1 - 𝑑12+ 𝑑22𝑑12 )
Keterangan :
𝑑1/2 = Variance belahan 1 (awal)
𝑑2/2 = Variance belahan 2 (akhir)
𝑑1/2 = Variance total
Penggunaan rumus :
Responden Total Awal Akhir
Hartati 5 3 2
Yoyok 7 4 3
Wendi 8 4 4
Diana 5 3 2
Paul 6 2 4
Helen 7 3 4
Susana 6 2 4
Oktaf 6 3 3
Aji 7 3 4
Oki 7 4 3
37
(Awal)
𝑑2 = 0,78
(akhir)
𝑑22 = 0,61
Selanjutnya dimasukkan ke dalam rumus :
rn = 2 (1 - 𝑑12+ 𝑑22𝑑12 )
= 2 (1 - 0,49+0,61)0,84 )
rn = 2 (1 – 1,5476)
rn = 2 (- 0,3095) = - 0,62 (dibulatkan)
38
Oki 7 4 3
Σd = -2
Σd2 = 14
𝑑𝑑2 = 𝑑2 −(Σ𝑑)2/𝑁N
𝑑𝑑2 = 14−2/1010 38
Atau dapat juga dicari dulu SD sebagai berikut :
SD = Ὰ√ (Σ𝑑2)− (Σ𝑑)2𝑁
= √ 1410− (−2)210
= √ 1,4− 0,4
= √ 1,0
= 1,0
𝑑𝑑2 = 1,36
Selanjutnya masukan ke dalam rumus :
rn = 1- 𝑑𝑑2𝑑12
= 1 – 1,36/ 0,84
= 1 – 1,62
rn = - 0,62
5) Rumus K-R. 20
Rumus yang dikemukakannya adalah :
𝑛 𝑆2 − Σpq
r11 = (𝑛 − 1
)(
𝑆2
)
Keterangan :
r11 = reliabilitas instrument secara keseluruhan
n = banyaknya item
p = proporsi subjek yang menjawab butir soal dengan benar
q = proporsi subjek yang menjawab butir soal dengan salah (q = 1-p)
S = standar deviasi dari tes
39
r11 = 𝑘𝑘−1 [1− 𝑀1 (𝑘−𝑀1)𝑡2 ]
Keterangan:
M= Mean atau skor total
40
BAB III
PENUTUP
A. Kesimpulan
- Kegiatan menganalisis butir soal merupakan suatu kegiatan yang harus
dilakukan guru untuk meningkatkan mutu soal yang telah ditulis. Kegiatan
ini merupakan proses pengumpulan, peringkasan, dan pengunaan informasi
dari jawaban siswa untuk membuat keputusan tentang setiap penilaian.
- Analisis butir soal digunakan untuk menentukan soal-soal yang cacat atau
tidak berfungsi penggunaannya; untuk meningkatkan butir soal melalui tiga
komponen analisis, yaitu tingkat kesukaran, daya pembeda, dan pengecoh
soal, serta meningkatkan pembelajaran ambiguitas soal dan keterampilan
tertentu yang menyebabkan peserta didik kesulitan mengerjakan
- Analisis Butir Soal Secara Kualitatif yaitu Pada prinsipnya, analisis butir
soal secara kualitatif dilaksanakan berdasarkan kaidah penulisan soal (tes
tertulis, perbuatan, dan sikap). Penelaah ini dilakukan sebelum soal
digunakan/diujikan.
- Analisis Butir Soal Secara Kuantitatif adalah penelaahan butir soal
didasarkan pada data empiris dari butir soal yang bersangkutan. Data
empiris ini diperoleh dari soal yang telah diujikan.
- Validitas dibagi menjadi dua yaitu :
a. Logis yang terbagi menjadi dua kembali yaitu isi dan konstruk
b. Empiris yang terbagi menjadi dua juga yaitu kesejajaran dan
prediksi
- Sebuah instrument pengukuran dikatakan memiliki validitas jika hasilnya
sesuai dengan kriterium tertentu, dalam arti memiliki kesejajaran antara
hasil pengukuran tersebut dengan kriteria tersebut.
- Reliabilitas merupakan suatu instrumen yang merujuk kepada kadar
stabilitas dan konsistensi instrument
- Faktor-faktor yang mempengaruhi reliabilitas yang sangat menonjol
adalah: Konstruksi item yang tidak tepat, sehingga tidak dapat mempunyai
41
daya pembeda yang kuat, Panjang/pendeknya instrument, Evaluasi yang
subjektif akan menurunkan reliabilitas, Ketidaktepatan waktu yang
diberikan, Kemampuan yang ada dalam kelompok, Luas/tidaknya sampel
yang diambil, Kondisi dan situasi pada pengadministrasian alat ukur, Jarak
waktu pengadministrasian instruemn periode pertama (mula-mula) dengan
pengadministrasian intumen pada periode kedua dan seterunya, Subjek yang
secara aktual berubah dari suatu saat periode instrumen ke periode
instrumen berikutnya.
- Untuk menentukan reliabilitas dapat ditempuh melalui tiga cara yaitu
metode belah dua, metode bentuk paralel dan metode ulangan.
42
DAFTAR PUSTAKA
Siyoto, Sandu dan Ali Sodik. Dasar Metodologi Penelitian. Yogyakarta: Literasi
Media Publishing. 2015.
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
Jakarta Pusat: Lentera Ilmu Cendikia, 2014.
43