Anda di halaman 1dari 43

TEKNIK ANALISIS BUTIR SOAL DAN TEKNIK

ANALISIS PERANGKAT SOAL”


Makalah ini disusun untuk memenuhi tugas laporan observasi mata
kuliah Evaluasi Pembelajaran yang diampu oleh:
Heny Narendrany Hidayati, S.Ag., M.Pd.

Oleh Kelompok 5:

Elsa Raisa Mudera P 11170110000017


Asma Karimatunnisa 11170110000054
M. Kodri Kostolani 11170110000059
Kamillia Insani 11170110000074

M. Akbar Ramadhan 11170110000119

JURUSAN PENDIDIKAN AGAMA ISLAM


FAKULTAS ILMU TARBIYAH DAN KEGURUAN
UNIVERSITAS ISLAM NEGERI SYARIF
HIDAYATULLAH
JAKARTA
2019
KATA PENGANTAR
Puji syukur ke hadirat Tuhan Yang Maha Esa atas rahmat, karunia, serta
taufik dan hidayah-Nya, sehingga pemakalah dapat menyelesaikan makalah untuk
memenuhi tugas kelompok ini tepat pada waktunya.
Makalah ini disusun sebagai pemenuhan salah satu tugas Evaluasi
Pembelajaran Jurusan Pendidikan Agama Islam Fakultas Ilmu Tarbiyah &
Keguruan UIN Syarif Hidayatullah.
Penyusun sangat berharap makalah ini dapat berguna dalam rangka
menambahkan wawasan serta pengetahuan mengenai “Teknik Analisis Butir Soal
Dan Teknik Analisis Perangkat Soal”. Penyusun juga menyadari sepenuhnya
bahwa di dalam makalah ini terdapat kekurangan dan jauh dari kata sempurna.

Jakarta, 29 Oktober 2019

Kelompok 5

2
DAFTAR ISI

KATA PENGANTAR ..................................................................... 2


DAFTAR ISI .................................................................................... 3
BAB I: PENDAHULUAN
A. Latar Belakang Masalah .............................................................. 4

B. Rumusan Masalah ....................................................................... 4

C. Tujuan Penulisan ......................................................................... 4

BAB II: PEMBAHASAN


A. Teknik Analisis Butir Soal .................................................. 6

B. Contoh Analisis Butir Soal ................................................. 12

C. Validitas .............................................................................. 16

D. Menentukan Validitas.......................................................... 21

E. Reliabilitas ......................................................................... 22

F. Menentukan Reliabilitas...................................................... 32

BAB III:PENUTUP
A. Kesimpulan ............................................................................... 41

DAFTAR PUSTAKA .................................................................. 42

3
BAB I
PENDAHULUAN

A. Latar Belakang
Guru dan calon guru sebagai seorang pendidik harus memahami tentang
materi evaluasi pembelajaran yang salah satu materinya tersebut membahas
mengenai masalah teknik analisis butir soal dan perangkat soal. Dalam teknik
analisis butir soal dan perangkat soal ini terbagi ke dalam dua tahap yaitu yang
pertama adalah tahap validitas dan yang kedua adalah tahap reliabilitas. Untuk
memahami lebih dalam mengenai keduanya, maka pemakalah mencoba untuk
membuat suatu makalah yang bertujuan untuk memudahkan pembacanya
memahami tentang konsep teknik analisis butir soal dan perangkat soal.

B. Rumusan Masalah
1. Apa itu teknik analisis butir soal?

2. Apa tujuan dari analisis kualitas butir soal?

4. Bagaimana proses dan prosedur analisis kualitas butir soal?

5. Apa saja macam-macam validitas itu?

6. Bagaimana cara menentukan validitas soal?

7. Apa itu reliabilitas?

8. Apa saja faktor yang mempengaruhi reliabilitas?

9. Bagaimana menentukan reliabilitas?

C. Tujuan Penulisan Makalah

Makalah ini ditulis dengan tujuan untuk mengetahui:


1. Pengertian teknik analisis butir soal.

4
2. Tujuan dari analisis kualitas butir soal.

4. Mengetahui proses dan prosedur analisis kualitas butir soal.

5. Mengetahui macam-macam validitas itu.

6. Mengetahui cara menentukan validitas soal.

7. Mengetahui pengertian dari reliabilitas.

8. Mengetahui faktor yang mempengaruhi reliabilitas.

9. Mengetahui bagaimana menentukan reliabilitas.

5
BAB II
PEMBAHASAN

A. Teknik Analisis Butir Soal


1. Analisis Butir Soal Secara Kualitatif
1) Pengertian
Pada prinsipnya analisis butir soal secara kualitatif dilaksanakan
berdasarkan kaidah penulisan soal (tes tertulis, perbuatan, dan sikap).
Penelaahan ini biasanya dilakukan sebelum soal digunakan/diujikan.
Aspek yang diperhatikan di dalam penelaahan secara kualitatif ini
adalah setiap soal ditelaah dari segi materi, konstruksi, bahasa/budaya, dan
kunci jawaban/pedoman penskorannya. Dalam melakukan penelaahan
setiap butir soal, penelaah perlu mempersiapkan bahan-bahan penunjang
seperti: (1) kisi-kisi tes, (2) kurikulum yang digunakan, (3) buku sumber,
dan (4) kamus bahasa Indonesia.1

2) Teknik Analisis Secara Kualitatif


Ada beberapa teknik yang dapat digunakan untuk menganalisis butir
soal secara kualitatif, diantaranya adalah teknik moderator dan teknik
panel.2
Teknik moderator merupakan teknik berdiskusi yang di dalamnya
terdapat satu orang sebagai penengah. Berdasarkan teknik ini, setiap butir
soal didiskusikan secara bersama-sama dengan beberapa ahli seperti guru
yang mengajarkan materi, ahli materi, penyusun/pengembang kurikulum,
ahli penilaian, ahli bahasa, berlatar belakang psikologi. Teknik ini sangat
baik karena setiap butir soal dilihat secara bersama-sama berdasarkan
kaidah penulisannya. Di samping itu, para penelaah dipersilakan
mengomentari/ memperbaiki berdasarkan ilmu yang dimilikinya. Setiap

1
Elis Ratnawulan dan Rusdiana, Evaluasi Pembelajaran: Pengantar Prof. Dr. H. Sutaryat
Trisnamansyah, (Bandung: CV. Pustaka Setia, 2015), h. 153.
2
Ibid., h. 153-154

6
komentar/masukan dari peserta diskusi dicatat oleh notulis. Setiap butir soal
dapat dituntaskan secara bersama-sama, perbaikannya seperti apa. Namun,
kelemahan teknik ini adalah memerlukan waktu lama untuk rnendiskusikan
setiap satu butir soal.3
Teknik panel merupakan suatu teknik menelaah butir soal yang setiap
butir soalnya ditelaah berdasarkan kaidah penulisan butir soal, yaitu ditelaah
dari segi materi, konstruksi, bahasa/budaya, kebenaran kunci
jawaban/pedoman penskorannya yang dilakukan oleh beberapa penelaah.
Caranya adalah beberapa penelaah diberikan: butir-butir soal yang akan
ditelaah, format penelaahan, dan pedoman penilaian/ penelaahannya. Pada
tahap awal para penelaah diberikan pengarahan, kemudian tahap berikutnya
para penelaah berkerja sendiri-sendiri di tempat yang tidak sama. Para
penelaah dipersilakan memperbaiki langsung pada teks soal dan
memberikan komentarnya serta memberikan nilai pada setiap butir soalnya
yang kriterianya adalah: baik, diperbaiki, atau diganti.4
Secara ideal penelaah butir soal di samping memiliki latar belakang
materi yang diujikan, beberapa penelaah yang diminta untuk menelaah butir
soal memiliki keterampilan, seperti guru yang mengajarkan materi itu, ahli
materi, ahli pengembang kurikulum, ahli penilaian, psikolog, ahli bahasa,
ahli kebijakan pendidikan, atau lainnya.5

3) Prosedur Analisis Secara Kualitatif


Dalam menganalisis butir soal secara kualitatif, penggunaan format
penelaahan soal akan sangat membantu dan mempermudah prosedur
pelaksanaannya. Format penelaahan soal digunakan sebagai dasar untuk
menganalisis setiap butir soal. Format penelaahan soal yang dimaksud
adalah format penelaahan butir soal: uraian, pilihan ganda, tes perbuatan
dan instrumen non-tes.

3
Ibid., h. 154
4
Ibid., h.154.
5
Ibid.

7
Agar penelaah dapat dengan mudah menggunakan format penelaahan
soal, maka para penelaah perlu memperhatikan petunjuk pengisian
formatnya. Petunjuknya adalah seperti berikut ini.
1) Analisislah setiap butir soal berdasarkan semua kriteria yang tertera
di dalam format!
2) Berilah tanda cek (V) pada kolom "Ya" bila soal yang ditelaah sudah
sesuai dengan kriteria!
3) Berilah tanda cek (X) pada kolom "Tidak" bila soal yang ditelaah
tidak sesuai dengan kriteria, kemudian tuliskan alasan pada ruang
catatan atau pada teks soal dan perbaikannya.6
4) Format Penelaahan Butir Soal Bentuk Uraian

FORMAT PENELAAHAN BUTIR SOAL BENTUK URAIAN

Mata Pelajaran : .................................


Kelas/semester : .................................
Penelaah : .................................

Nomor Soal
No. Aspek yang ditelaah
1 2 3 4 5 6 7 8 9 …
A. Materi
1 Soal sesuai dengan indikator
(menuntut tes tertulis
untuk bentuk Uraian)
2 Batasan pertanyaan dan
jawaban yang diharapkan
sudah sesuai
3 Materi yang ditanyakan
sesuai dengan kompetensi
(urgensi, relevasi,
kontinyuitas, keterpakaian
sehari-hari tinggi)
4 Isi materi yang ditanyakan
sesuai dengan jenjang
jenis sekolah atau tingkat
kelas

B Konstruksi
5 Menggunakan kata tanya
atau perintah yang
menuntut jawaban uraian
6 Ada petunjuk yang jelas
tentang cara mengerjakan
soal

6
Ibid., h. 154-155

8
Nomor Soal
No. Aspek yang ditelaah
1 2 3 4 5 6 7 8 9 …
7 Ada pedoman
penskorannya
8 Tabel, gambar, grafik,
peta, atau yang sejenisnya
disajikan dengan jelas dan
terbaca

C. Bahasa/Budaya
9 Rumusan kalimat coal
komunikatif
10 Butir soal menggunakan
bahasa Indonesia yang
11 baku
Tidak menggunakan
kata/ungkapan yang
menimbulkan penafsiran
12 ganda atau salah
pengertian
13 Tidak menggunakan
bahasa yang berlaku
setempat/tabu
Rumusan soal tidak
mengandung
Keterangan: Berilah tanda (X) bila tidak sesuai dengan aspek yang ditelaah!

5) Format Penelaahan Soal Bentuk Pilihan Ganda


FORMAT PENELAAHAN SOAL BENTUK PILIHAN GANDA

Mata Pelajaran : .................................


Kelas/semester : .................................
Penelaah : .................................
Nomor Soal
No. Aspek yang ditelaah
1 2 3 4 5 …
A. Materi
1 Soal sesuai dengan indikator (menuntut tes tertulis
untuk bentuk pilihan ganda
2. Materi yang ditanyakan sesuai dengan kompetensi
(urgensi, relevasi, kontinyuitas, keterpakaian sehari-
hari tinggi)
3. Pilihan jawaban homogen dan logis
4. Hanya ada satu kunci jawaban

B. Konstruksi
5. Pokok soal dirumuskan dengan singkat, jelas, dan tegas
6. Rumusan pokok soal dan pilihan jawaban merupakan
pernyataan yang diperlukan saja
7. Pokok soal tidak memberi petunjuk kunci jawaban
8 Pokok soal bebas dan pernyataan yang bersifat
negatif ganda
9. Pilihan jawaban homogen dan logis ditinjau dari segi

9
Nomor Soal
No. Aspek yang ditelaah
1 2 3 4 5 …
materi
10. Gambar, grafik, tabel, diagram, atau sejenisnya
jelas dan berfungsi
11. Panjang pilihan jawaban relatif sama
12. Pilihan jawaban tidak menggunakan pernyataan
"semua jawaban di atas salah/benar" dan sejenisnya
13. Pilihan jawaban yang berbentuk angka/waktu disusun
berdasarkan urutan besar kecilnya angka atau
kronologisnya
14. Butir soal tidak bergantung pada jawaban soal
sebelumnya

C. Bahasa/Budaya
15. Menggunakan bahasa yang sesuai dengan kaidah
bahasa Indonesia
16. Menggunakan bahasa yang komunikatif
17. Tidak menggunakan bahasa yang berlaku setempat/tabu
18. Pilihan jawaban tidak mengulang kata/kelompok kata
yang sama, kecuali merupakan satu kesatuan pengertian
Keterangan: Berilah t a nd a ( X) bila tidak sesuai dengan aspek yang ditelaah!

6) Format Penelaahan untuk Instrumen Perbuatan

FORMAT PENELAAHAN SOAL TES PERBUATAN

Mata Pelajaran : .................................


Kelas/semester : .................................
Penelaah : .................................
Nomor Soal
No. Aspek yang ditelaah
1 2 3 ...
A. Materi
1. Soal sudah sesuai dengan indikator (menuntut tes
perbuatan: kinerja, hasil karya, atau penugasan)
2. Pertanyaan dan jawaban yang diharapkan sudah sesuai
3. Materi sesuai dengan tuntutan kompetensi (urgensi,
relevansi, kontinyuitas, keterpakaian sehari-hari tinggi)
4. Isi materi yang ditanyakan sesuai dengan jenjang jenis
sekolah taua tingkat kelas

B. Konstruksi
5. Menggunakan kata tanya atau perintah yang menuntut
jawaban perbuatan/praktik
6. Ada petunjuk yang jelas tentang cara mengejakan soal
7. Ada pedoman penskorannya
8. Tabel, peta, gambar, grafik, atau sejenisnya disajkian
dengan jelas dan terbaca

C. Bahasa/Budaya
9. Rumussan soal komunikatif
10. Butir soal menggunakan bahasa Indonesia yang baku
11. Tidak menggunakan kata /ungkapan yang menimbulkan

10
Nomor Soal
No. Aspek yang ditelaah
1 2 3 ...
penafsiran ganda atau salah pengertian
12. Tidak menggunakan bahasa yang berlaku setempat/tabu
13. Rumusan soal tidak mengandung kata/ungkapan yang
dapat menyinggung perasaan siswa

Keterangan: Berilah tanda (V) bila sesuai dengan aspek yang ditelaah!
7) Format Penelaahan untuk Instrumen Non-Tes

FORMAT PENELAAHAN SOAL NON-TES


Nama Tes : .................................
Kelas/semester : .................................
Penelaah : .................................
Nomor Soal
No. Aspek yang ditelaah
1 2 3 ...
A. Materi
1. Pernyataan/soal sudah sesuai dengan rumusan indikator
dalam kisi-kisi.
2. Aspek yang diukur pada setiap pernyataan sudah sesuai
dengan tuntutan dalam kisi-kisi (misal untuk tes sikap:
aspek koginisi, afeksi, atau konasinya dan pernyataan
positif atau negatifnya).

B. Konstruksi
3. Pernyataan dirumuskan dengan singkat (tidak melebihi
20 kata) dan jelas.
4. Kalimatnya bebas dari pernyaatn yang tidak relevan
objek yang dipersoalkan atau kalimatnya merupakan
pernyataan yang diperlukan saja.
5. Kalimatnya bebas dari pernyataan yang bersifat negatif
ganda.
6. Kalimatnya bebas dari pernyataan yang mengacu pada
masa lalu.
7. Kalimatnya bebas dari pernyataan faktual atau dapat
diinterpretasikan sebagai fakta.
8. Kalimatnya bebas dari pernyataan dapat
diinterpretasikan lebih d Kalimatnya bebas dari
pernyataan yang mungkin disetujui atau dikosongkan
oleh hampir semua responden.
9. Setiap pernyataan hanya berisi satu gagasan secara
lengkap.
10. Kalimatnya bebas dari pernyataan yang tidak pasti pasti
seperti semua, selalu, kadang-kadang, tidak satupun,
tidak pernah.
11. Jangan banyak menggunakan kata hanya, sekedar,
semata-mata.
12. Gunakan seperlunya.

C. Bahasa/Budaya
13. Bahasa soal harus komunikatif dan sesuai dengan
jenjang pendidikan siswa atau responden.
14. Soal harus menggunakan bahasa Indonesia baku.

11
Nomor Soal
No. Aspek yang ditelaah
1 2 3 ...
15. Soal tidak menggunakan bahasa yang berlaku
setempat/tabu.

Keterangan: Berilah tanda (V) bila sesuai dengan aspek yang ditelaah!

B. Contoh analisis butir secara kuantiatatif


Berikut adalah contoh analisis butir secara klasik:
Tes hasil belajar diujicobakan dengan 10 butir soal objektif pilihan ganda
dengan empat pilihan. Jawaban 10 orang siswa dilaporkan hasilnya sebagai berikut;
Siswa Butir Soal
1 2 3 4 5 6 7 8 9 10
A B D C D B B C A C D
B B C C A B A C A B C
C C D A B A D D B C B
D D B A A C B A A C A
E A C B B A C D C D B
F A D B A D B D B C B
G C D D C A D A A C A
H B D B A B C D A C D
I D D D B C D A C D B
J B D A B C D D A C B
Kunci B D C A A B D A C B

Dari sebenarnya jawaban tersebut, perhitungan skor uji coba dan analisis butir
dapat diringkaskan dalam table sebagai berikut
Siswa Butir Soal Jumlah
1 2 3 4 5 6 7 8 9 10
A 1 1 1 0 0 1 0 1 1 0 6
B 1 0 1 1 0 0 0 1 0 0 4
C 0 1 0 0 1 0 1 0 1 1 5

12
D 0 0 0 1 0 1 0 1 1 0 4
E 0 0 0 0 1 0 1 0 0 1 3
F 0 1 0 1 0 1 1 0 1 1 6
G 0 1 0 0 1 0 0 1 1 0 4
H 1 1 0 1 0 0 1 1 1 0 6
I 0 1 0 0 0 0 0 0 0 1 2
J 1 1 0 0 0 0 1 1 1 1 6
∑B 4 7 2 4 3 3 5 6 7 5
TK 0,40 0,70 0,20 0,40 0,30 0,30 0,50 0,60 0,70 0,50
DB 0,40 0,60 0 0 -0,20 0,20 0,60 0 0,60 0,20
EP E TE E E E E E E E E

Keterangan:
SB : Jumlah siswa yang menjawab benar pada butir ke-I
TK : Tingkat Kesukaran
EP : Efektif Pengecoh
E : Efektif
TE : Tidak Efektif

Bila ditetapkan kriteria untuk diberikan penilaian butir adalah sebagai


berikut:
1. TK butir harus sedang yaitu antara 0,33 sampai 0,66
2. DB harus tinggi yaitu minimal +0,30
3. Pengecoh paling tidak seorang siswa ada yang memilih
Berdasarkan ringkasan analisis butir pada table di atas dan kriteria penilaian
butir yang baik maka dapat ditarik kesimpulan:
1. Butir 3,5 dan 6 terlalu sukar
2. Butir 3, 4, 5, 6, 8 dan 10 tidak mampu membedakan kemampuan siswa
kelompok atas dan bawah
3. Pada butir 2 pengecoh A tidak efektif
Perhitungan analisis butir itu seengkapnya dilakukan sebagai berikut:
1. Tingkat kesukaran

13
Misalnya TK butir 1 dihitung sebagai berikut:
4
TK (1) = = 0, 40
10

2. Daya beda
Perhitungan DB dilakukan dengan langkah sebagai berikut:
a. Menentukan siswa kelompok atas dan bawah
Kelompok atas Kelompok bawah
Siswa Skor Siswa Skor
A 6 B 4
C 5 D 4
F 6 E 3
H 6 G 4
J 6 I 2

b. Menghitung Perolehan Skor tiap-tiap butir pada siswa kelompok atas dan
bawah

Kelompok atas
Siswa Butir Soal
1 2 3 4 5 6 7 8 9 10
E 1 1 1 0 0 1 0 1 1 0
C 0 1 0 0 1 0 1 0 1 1
F 0 1 0 1 0 1 1 0 1 1
H 1 1 0 1 0 0 1 1 1 0
J 1 1 0 0 0 0 1 1 1 1
Jumlah 3 5 1 2 1 2 4 3 5 3

Kelompok bawah
Siswa Butir Soal
1 2 3 4 5 6 7 8 9 10

14
B 1 0 1 1 0 0 0 1 0 0
D 0 0 0 1 0 1 0 1 1 0
E 0 0 0 0 1 0 1 0 0 1
G 0 1 0 0 1 0 0 1 1 0
I 0 1 0 0 0 0 0 0 0 1
Jumlah 1 2 1 2 2 1 1 3 2 2

c. Menghitung DB butir

Misalnya DB untuk butir 1 dapat dihitung sebagai berikut


3 1 2
DB (1) = − = = 0, 40
5 5 5
3. Efektivitas Pengecoh
Efektivitas pengecoh dapat dianalisis sebagaimana ditabulasikan dan
sebagai contoh dianalisis tiga butir soal sebagai berikut
Butir Kunci Pemilih Pengecoh pemilih Efektivitas
Pengecoh
1 B 4 A 2 Efektif
C 2 Efektif
D 2 Efektif
2 D 7 A 0 Tidak Efektif
B 1 Efektif
C 2 Efektif
3 C 2 A 3 Efektif
B 3 Efektif
D 2 Efektif
Dan Seterusnya

Sebagai sebuah alat ukur, THB harus memenuhi syarat alat ukur yang baik
yaitu validitas dan realibitas. Sebelum pengujian syarat alat ukur yang baik
dilakukan, maka terlebih dahulu butir-butir THB harus diuji coba menggunakan

15
teori tes klasik atau modern. Oleh karena pertimbangan kepraktisan, tes klasisk
lebih banyak digunakan dengan beberapa kekurangannya.
Dalam analisis butir menggunakan teori tes klasik, karakteristik butir yang
diuji adalah tingkat kesukaran, daya beda dan efektivitas pengecoh. Dalam
pengujian itu keputusan butir yang baik didasarkan oleh beberapa kriteria yaitu
tingkat kesukaran harus sedang, daya beda harus positif tinggi, dan pengecoh harus
dipilih paling tidak satu orang peserta tes.7

C. Validitas
Azwar (1987: 173) menyatakan bahwa validitas berasal dari kata validity
yang mempunyai arti sejauh mana ketepatan dan kecermatan suatu instrumen
pengukur (tes) dalam melakukan fungsi ukurnya. Suatu tes dikatakan memiliki
validitas yang tinggi apabila alat tersebut menjalankan fungsi ukur secara tepat atau
memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran
tersebut. Artinya hasil ukur dari pengukuran tersebut merupakan besaran yang
mencerminkan secara tepat fakta atau keadaan sesungguhnya dari apa yang diukur.8
Suryabrata (2000: 41) menyatakan bahwa validitas tes pada dasarnya
menunjuk kepada derajat fungsi pengukurnya suatu tes, atau derajat kecermatan
ukurnya sesuatu tes. Validitas suatu tes mempermasalahkan apakah tes tersebut
benar-benar mengukur apa yang hendak diukur. Maksudnya adalah seberapa jauh
suatu tes mampu mengungkapkan dengan tepat ciri atau keadaan yang
sesungguhnya dari obyek ukur, akan tergantung dari tingkat validitas tes yang
bersangkutan. 9
Sudjana (2004: 12) menyatakan bahwa validitas berkenaan dengan
ketepatan alat penilaian terhadap konsep yang dinilai sehingga betul-betul menilai
apa yang seharusnya dinilai. Suatu tes yang valid untuk tujuan tertentu atau
pengambilan keputusan tertentu, mungkin tidak valid untuk tujuan atau
pengambilan keputusan lain. Jadi validitas suatu tes, harus selalu dikaitkan dengan

7
Purwanto, “Evaluasi Hasil Belajar” (Yogyakarta: Pustaka Pelajar, 2009) hlm. 108-112
8
Zulkifli Matondang, Validitas Dan Reliabilitas Suatu Instrumen Penelitian, dalam Jurnal
TABULARASA PPS UNIMED Vol.6 No.1, Tahun. 2009, hlm 89
9
Loc.cit.

16
tujuan atau pengambilan keputusan tertentu. Tes masuk di SMA misalnya harus
selalu dikaitkan dengan seberapa jauh tes masuk tersebut dapat mencerminkan
prestasi atau hasil belajar para calon peserta didik baru setelah belajar nanti.10
Konsep validitas menunjuk kepada kesesuaian, kebermaknaan, dan
kebergunaan kesimpulan-kesimpulan yang dibuat berdasarkan skor instrumen.
Makin tinggi validitas suatu instrumen, berarti makin baik kesimpulan yang diambil
dan makin baik pula tingkat kebermaknaan maupun kegunaannya. Oleh karena itu,
suatu instrumen dikatakan valid kalau instrumen atau alat ukur tersebut benar-benar
mengukur sesuatu yang hendak diukur.
Umpama:
Apabila kita ingin mengukur kemampuan peserta didik dalam ilmu
pemerintahan, maka materi yang diujikan hendaklah terfokus pada materi ilmu
pemerintahan. Jangan terjadi salah arah dengan memberikan sebanyak mungkin
Istilah asing, sehingga berubah menjadi ujian bahasa asing, bukan ilmu
pemerintahan.11 Para ahli menggolongkan validitas ke dalam beberapa jenis. Jenis-
jenis validitas diuraikan berikut ini.

1. Countent Validity (Validitas Isi)

Countent validity atau validitas isi dipandang dari segi isi alat ukur itu
sendiri; berdasarkan materi yang disampaikan dalam pembelajaran dan diharapkan
dikuasai oleh peserta didik.12
Suatu evaluasi dikatakan memiliki countent validity apabila evaluasi
tersebut dapat mewakili seluruh materi kurikuler yang telah dilaksanakan. Validitas
ini menunjuk pada evaluasi yang bersampel respresentatif dengan materi pelajaran
yang telah diberikan.
Validitas isi dipandang dari segi isi alat ukur itu sendiri; berdasarkan materi
yang disampaikan dalam pembelajaran dan diharapkan dikuasai oleh peserta didik.

10
Loc.cit.
11
A. Muri Yusuf, Aransemen dan Evaluasi Pendidikan, (Jakarta: Prenadanedia Group,
2015), hlm. 61
12
Ibid., hlm. 62

17
Oleh karena itu telaah yang mendalam dan berulang kali tentang apa yang
diharapkan dan materi apa yang telah disampaikan merupakan hal yang sangat
penting. Hal ini untuk memungkinkan tersusunnya isi instrumen yang tepat dan
mewakili materi yang disampaikan serta diharapkan dikuasai oleh para peserta
didik. Untuk mendapatkan validitas isi yang tinggi perlu dilakukan suatu diskusi
yang mendalam, yang diikuti oleh orang-orang yang ahli dalam bidang studi yang
bersangkutan serta ahli dalam pengukuran dan penilaian.
Umpama:
Instrumen tentang ilmu pemerintahan dapat disusun dalam jumlah yang
banyak sekali; tetapi perlu diingat bahwa instrumen itu adalah sampel dari perilaku
peserta didik yang jumlahnya terbatas. Untuk mendapatkan alat ukur yang tepat dan
benar dari jumlah yang banyak itu, maka para ahli perlu melakukan penyaringan
secara mendalam dan tuntas, sesuai dengan waktu yang mungkin tersedia. Konten
yang diujikan hendaknya mewakili materi pelajaran yang diberikan dan juga
mewakili kemampuan yang ingin dicapai, seperti yang terdapat dalam kurikulum.13

2. Construct Validity (Validitas Konstruk)

Suatu alat ukur dapat dikatakan mempunyai validitas konstruk yang tinggi
dalam kreatifitas, kalau instrumen tersebut, umpamanya, dapat membedakan orang
yang mempunyai kreatifitas tinggi dan orang yang mempunyai kreatifitas rendah.
Dengan kata lain, instrumen itu dapat membedakan individu yang satu dengan
individu yang lainnya. Validitas konstruk mempersoalkan apakah yang ditanyakan
merupakan bagian yang penting di dalam suatu konsep atau merupakan bagian dari
suatu instrumen yang disusun.
Contoh:Motivasi Berprestasi
Penyusunan instrumen harus memahami dengan benar tentang teori
Motivasi Berprestasi yang sesungguhnya, dan selanjutnya membangun konstruk
(construct) tentang Motivasi Berprestasi yang akan dijadikan patokan dalam

13
Ibid., hlm. 62

18
menilai, kemudian memerinci menjadi aspek-aspek yang lebih kecil dan spesifik.
Butir-butir yang dibuat hendaklah mengukur setiap aspek yang telah ditetapkan.
Seandainya instrumen yang disusun berdasarkan ketentuan tersebut, dan
memenuhi pula ketentuan yang berlaku dalam menyusun butir instrumen yang
benar dan baik, maka instrumen tersebut akan mempunyai validitas konstruk yang
tinggi. kunci dasar untuk mendapatkan construct validity yang tinggi adalah
ketetapan, kesesuaian, dan kebenaran "construct" yang disusun sebelumnya. Untuk
itu penimbang (judger) sangat diperlukan dan menentukan. Penimbang hendaklah
seseorang yang ahli dalam bidang instrumen yang akan disusun serta memahami
pula bagaimana menyusun instrumen yang baik dan benar.14

3. Prediktif Validity (Validitas Prediksi)

Validitas tes yang digunakan untuk meramalkan kemampuan siswa pada


masa yang akan datang disebut dengan validitas prediksi. Validitas prediksi
menunjukkan kesesuaian antara skor evaluasi dengan variabel yang akan diukur
untuk keadaan pada masa yang akan datang. Skor evaluasi dapat digunakan sebagai
indikator untuk memprediksikan keberhasilan belajar siswa di masa mendatang
dalam waktu yang relatif lama. Prediktif validity sangat penting untuk melihat dan
mengklasifikasi individu-individu kedalam jenjang-jenjang pendidikan yang sesuai
dengan bakat, minat dan kemampuan. Suatu evaluasi dikatakan “prediktif validity”
jika hasil korelasi dapat meramalkan dengan tepat keberhasilan seseorang di masa
yang akan datang dalam lapangan tertentu. Tepat tidaknya ramalan itu dapat dilihat
dari korelasi koefisien antara hasil evaluasi dengan alat pengukur lain kelak di masa
mendatang.15
Jenis validitas ini dikaitkan dengan prediksi/perkiraan yang akan terjadi di
masa datang. Suatu instrumen masuk perguruan tinggi dikatakan mempunyai
validitas prediktif yang tinggi, apabila mahasiswa yang mendapatkan skor tinggi

14
Ibid., hlm. 62-63
15
Miftahuddin dan Fithriana, Korelasi Antara Validitas pada Evaluasi yang Digunakan
dalam Menilai Hasil Belajar Siswa dengan Hasil Kegiatan MGMP Matematika di Kabupaten Pidie,
dalam Jurnal Matematika, Statiska, dan Komputasi Vol. 2 No. 4 Tahun 2008, hlm 77

19
pada waktu ujian masuk mampu menyelesaikan studinya tepat waktu, atau bahkan
lebih pendek dari yang seharusnya dan dengan nilai baik, sebaliknya dalam kondisi
normal, peserta didik yang mendapatkan nilai ujian masuk rendah, namun karena
bermacam pertimbangan diterima juga di perguruan tinggi tertentu, tidak akan
berhasil di perguruan tinggi itu.16

4. Concurent Validity (Validitas Pengukuran Serentak)

Suatu evaluasi mempunyai korelasi yang tinggi dengan hasil pengukuran


lain terhadap bidang yang sama dan dalam waktu yang sama pula, maka evaluasi
itu dikatakan memiliki concurent validity. Perlu diingat bahwa prediktif validity
dan concurent validity mempunyai kesamaan, dimana antara skor dengan alat
pengukur lain lebih menunjukan hubungan atau korelasi yang lebih tinggi, namun
pada prinsipnya prediktif validity mengarah pada hubungan yang terjadi pada masa
yang akan datang, sedangkan concurent validity mengarah pada hubungan yang
terjadi pada saat ini atau pada keadaan sekarang. Kedua validitas ini disebut juga
dengan dengan validitas kriteria.
Skor evaluasi yang digunakan disebut prediktor, sedangkan skor evaluasi
yang digunakan untuk memprediksi keberhasilan atau perubahan yang terjadi
disebut dengan kriterium. Jadi validitas kriteria diperoleh dengan cara
membandingkan antara prediktor dangan kriterium.17
Tuckman (1975: 95) menyatakan: Concurrent validity tells whether the degree to
which persons show evidence of a quality on a given instrument is reflected in or
paralleled by their scores on another instrument of presumbly the same
characteristic.
Ini berarti validitas serempak merujuk kepada kesesuaian tingkah laku atau
bukti-bukti diri yang dimiliki seseorang dengan instrumen yang diberikan
sebagaimana direfleksikan atau ditunjukkan oleh skornya dalam instrumen paralel
atau instrumen lain yang mempunyai karakter karakteristik yang sama.18

16
Op.cit., hlm 63
17
Ibid., hlm. 78
18
Op.cit. hlm. 63

20
D. Menentukan validitas.
Di samping jenis-jenis validitas seperti yang telah diutarakan, ada pula
klasifikasi lain tentang validitas, yaitu validitas internal dan validitas eksternal.
Validitas internal mengacu pada tersedianya informasi sesuai dengan yang
diharapkan, sedangkan validitas eksternal mengacu pada konsep generalisasi.
Makin tinggi validitas eksternal makin baik pola generalisasi temuan di daerah lain.
Validitas instrumen dapat diketahui dengan jalan mencari korelasi
instrumen itu dengan kriterium, atau melakukan analisis butir (item). Untuk dapat
menggunakan formula yang tepat dalam menentukan validitas suatu instrumen
maka perlu ditentukan terlebih dahulu tipe data yang dikumpulkan melalui
instrumen itu.
Apabila data yang didapat adalah data interval maka dapat digunakan rumus
Product Moment Correlation, sebagai berikut:

Keterangan:
r xy = Koefisien korelasi antara instrumen X dan instrumen Y.
X = Variabel X (instrumen X)
Y = Variabel Y (instrumen Y)
N = Jumlah peserta19

19
Op.cit., hlm 65.

21
E. Reliabilitas
1. Pengertian
Reliabilitas yang berasal dari kata reliability memiliki arti sejauh mana
hasil suatu pengukuran itu dapat dipercaya dan suatu hasil pengukuran itu
dapat dipercaya apabila dalam beberapa kali pelaksanaannya dilakukan
terhadap kelompok yang sama dan memiliki hasil pengukuran yang relatif
sama.20 Reliabilitas adalah tingkat konsistensi dari suatu instrumen.21 Suatu
instrumen evaluasi, dapat dikatakan mempunyai nilai reliabilitas tinggi
apabila tes yang dibuat mempunyai hasil yang konsisten dalam mengukur
yang hendak diukur. Reliabilitas memberikan konsistensi yang membuat
terpenuhnya syarat utama, yaitu validnya suatu hasil skor instrumen.22
Adapun reliabilitas menurut para ahli yaitu:
a. Azwar, reliabilitas berhubungan dengan akurasi instrumen dalam
mengukur apa yang hendak diukur. Iya juga menyatakan bahwa
reliabilitas sebagai konsistensi pengamatan yang diperoleh dari
pencatatan berulang baik pada satu subjek maupun beberapa subjek.23
b. Anastasi mengemukakan “Reliability refers to the consistency of
scores obtained by same persons when reexamined the same test on
different occasion, or with different sets of equivalent items or under
other variable examining conditions”.
c. Gronlund mengemukakan hal yang sama yaitu “Reliability refers to
the result obtained with an evaluation instrument and not the
instrument it self”24

20
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan
modern. (Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 142
21
Zainal Arifin. Evaluasi Pembelajaran. (Bandung: PT Remaja Rosdakarya,
2009). Hlm. 258
22
Sukardi. Evaluasi Pendidikan: prinsip dan operasionalnya. (Jakarta: Bumi
Aksara, 2009). Hlm 43
23
Sandu Siyoto dan Ali Sodik. Dasar Metodologi Penelitian. (Yogyakarta:
Literasi Media Publishing, 2015). Hlm 91
24
Op. cit. Zainal Arifin. Hlm. 258

22
d. Kerlinger mengemukakan bahwa reliabilitas dapat diukur dari 3
kriteria yaitu stability (menunjukkan keajegan suatu tes dalam
mengukur gejala yang sama pada waktu yang berbeda), dependability
(menunjukkan kemantapan suatu teks atau Seberapa jauh tes dapat
diandalkan) dan predictability (Menunjukkan kemampuan tes untuk
meramalkan hasil pada pengukuran gejala selanjutnya).25
Konsep reliabilitas dalam arti reliabilitas alat ukur berkaitan erat
dengan adanya masalah kesalahan pengukuran, kesalahan pengukuran
ini menunjukkan sejauh mana inkonsistensi hasil pengukuran terjadi
apabila dilakukan pengukuran ulang terhadap kelompok yang sama.
Sedangkan konsep reliabilitas dalam arti reliabilitas hasil ukur berkaitan
erat dengan adanya error dalam pengambilan sampel yang mengacu pada
inkonsistensi hasil ukur apabila pengukuran dilakukan secara ulang pada
kelompok yang berbeda.26Kesalahan pengukuran dapat disebabkan oleh
beberapa faktor diantaranya: karakteristik teks evaluasi itu sendiri,
kondisi pelaksanaan tes yang tidak mengikuti aturan baku, test item yang
meragukan dan mahasiswa langsung mengikuti, status peserta yang
mengikuti tes, misalnya seseorang yang sedang lelah atau mempunyai
problem pribadi mahasiswa mempunyai motivasi rendah atau kombinasi
dari semua gejala tersebut.27
Salah satu syarat agar hasil ukur dalam suatu tes dapat dipercaya
ialah tes tersebut harus mempunyai reliabilitas yang memadai. Dalam
buku ini reliabilitas dibedakan menjadi dua macam yaitu reliabilitas
konsistensi tanggapan dan reliabilitas konsistensi gabungan item.28
Analisis reliabilitas umumnya difokuskan pada konsistensi internal
(internal consistency), inter-rater analysis. Selain validitas, reliabilitas
juga perlu dianalisis secara cermat. Reliabilitas menunjukkan hasil

25
Op. cit. Zainal Arifin. Hlm. 258
26
Op. cit. Sudaryono. Hlm. 142
27
Sukardi. Evaluasi Pendidikan: prinsip dan operasionalnya. (Jakarta: Bumi Aksara,
2009). Hlm 44
28
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
(Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 142

23
pengukuran dengan alat yang dapat dipercaya. Jadi kesimpulannya
adalah reliabilitas berhubungan dengan kemampuan alat ukur untuk
melakukan pengukuran secara cermat. Reliabilitas merupakan akurasi
dan presisi yang dihasilkan oleh alat ukur dalam melakukan
pengukuran.29

2. Faktor-Faktor yang Mempengaruhi Reliabilitas


Koefisien reliabilitas dapat dipengaruhi diantaranya oleh waktu
penyelenggaraan tes-retes. Interval penyelenggaraan yang terlalu dekat
atau terlalu jauh, akan mempengaruhi koefisien reliabilitas. Adapun
faktor lain yang mempengaruhi reliabilitas instrumen evaluasi seperti
yang dikemukakan oleh Gronlund yaitu:30
a. Panjang tes (length of test), panjang tes berarti banyaknya soal.
Semakin banyak jumlah item materi pembelajaran yang diukur, maka
menunjukkan dua kemungkinan yaitu tes semakin mendekati
kebenaran dan dalam mengikuti tes semakin kecil siswa menebak.
b. Sebaran skor (spread of scores), besarnya sebaran skor akan membuat
tingkat reliabilitas menjadi lebih tinggi, karena koefisien reliabilitas
yang lebih besar diperoleh ketika peserta didik tetap pada posisi yang
relatif sama dalam satu kelompok pengujian pengujian berikutnya.
c. Tingkat kesukaran (difficulty indeks), tes normatif yang terlalu mudah
atau terlalu sulit untuk siswa, cenderung menghasilkan skor
reliabilitas rendah. Fenomena tersebut akan menghasilkan sebaran
skor yang cenderung terbatas pada salah satu sisi. untuk tes yang
terlalu mudah skor jawaban siswa akan mengumpulkan pada sisi atas.
unduh tes yang terlalu sulit, skor jawaban siswa akan cenderung
mengumpulkan pada ujung sebaliknya, atau rendah. 2 gejala tersebut

29
Sandu Siyoto dan Ali Sodik. Dasar Metodologi Penelitian. (Yogyakarta: Literasi Media
Publishing, 2015). Hlm 91
30
Op. cit. Sandu Siyoto dan Ali Sodik. Hlm. 94

24
mempunyai kesamaan yaitu bahwa perbedaan diantara individu
adalah kecil dan cenderung tidak relavan.
d. Objektifitas (objectivity), objektivitas di sini menunjukkan skor tes
kemampuan yang sama antara peserta didik yang satu dengan peserta
didik lainnya. peserta didik memperoleh hasil yang sama dalam
mengerjakan suatu tes. Jika peserta didik memiliki Tingkat
kemampuan yang sama, maka akan memperoleh hasil tes yang sama
pada saat mengerjakan tes yang sama. Objektifitas prosedur tes yang
tinggi akan memperoleh reliabilitas hasil tes yang tidak dipengaruhi
oleh prosedur penskoran.

3. Analisis Macam-Macam Reliabilitas


Menurut Decker, secara garis besar reliabilitas memiliki 3 kategori
dalam pengukuran yaitu:31 tipe stabilitas (test-retes), tipe homogenitas
atau internal konsistensi (belah dua, kuder-richardson, Alpha Cronbach),
tipe ekuivalen (butir-butir paralel pada bentuk alternatif dan reliabilitas
antar-penilai (inter-reter reliability). Untuk analisis reliabilitas instrumen
pengukuran aspek afektif umumnya lebih banyak digunakan rumus
Alpha Cronbach.

a. Tipe stabilitas (test-retes)


Reliabilitas test-retes merupakan pendekatan yang paling tua
yang digunakan untuk mengestimasi reliabilitas. pendekatan stabilitas
sering pula dinamakan single-test-double-trial method.32 Test-retes
tidak lain adalah derajat yang menunjukkan konsistensi hasil sebuah
tes dari waktu ke waktu.33 Penggunaan teknik test-retes ini yaitu
memberikan test kepada sekelompok individu, kemudian diadakan

31
Elis Ratnawulan dan Rusdiana. Evaluasi Pembelajaran. (Bandung: CV Pustaka Setia,
2015). Hlm. 182
32
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
(Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 147
33
Sukardi. Evaluasi Pendidikan: prinsip dan operasionalnya. (Jakarta: Bumi Aksara,
2009). Hlm 45

25
pengulangan tes pada kelompok yang sama dengan waktu yang
berbeda. Inilah teknik pengambilan data guna mengukur reliabilitas
berdasarkan metode tes ulang. Cara memperoleh koefisien stabilitas
adalah dengan korelasikan hasil tes pertama dengan hasil tes kedua
dari kelompok yang sama dengan tes yang sama pada waktu yang
berbeda. Jika antara waktu tes pertama dengan tes kedua cukup lama
kemudian diadakan latihan tambahan, maka bisa jadi nilai tes kedua
akan lebih besar daripada nilai tes pertama. Sebaliknya, jika antara
waktu tes pertama dengan tes kedua relatif pendek, maka nilai tes
kedua bisa jadi sama atau lebih besar daripada tes pertama, karena soal
dan jawaban masih dapat diingat oleh siswa.34
Kesalahan teknis ini dapat bersumber dari beberapa faktor
sehingga menyebabkan peserta didik mempunyai skor yang berbeda
pada saat dua kali mengerjakan tes yang sama. Adapun faktornya
yaitu:35
 Karakteristik yang diukur telah berubah dari tes pertama ke tes
yang kedua. Sebagai contoh misalnya tes kemampuan
membaca menulis dan berhitung yang diadakan pada bulan
Agustus titik tes kedua, yaitu tes yang sama diberikan kepada
peserta didik Pada bulan Oktober. Kita mengharapkan terdapat
perubahan kemampuan membaca menulis dan berhitung pada
periode 2 bulan tersebut. Indeks reliabilitas yang rendah kita
harapkan sebagai akibat perubahan tersebut.
 Pengalaman peserta didik dalam mengambil tes yang sama
akan cukup berpengaruh terhadap perolehan skor sebenarnya.
Hal ini dinamakan sebagai reactivity. Sebagai contoh misalnya
peserta didik yang mengikuti ujian akhir nasional , lalu ia
memperoleh skor 3,9. Menurut standar kelulusan tahun 2004,

34
Zainal Arifin. Evaluasi Pembelajaran. (Bandung: PT Remaja Rosdakarya, 2009). Hlm.
259-260
35
Op. cit. Sudaryono. Hlm. 148

26
ia tidak lulus dan harus ikut ujian ulang. Apabila soal yang
diberikan pada ujian ulangan Ujian pertama, maka dapat
dipastikan bahwa skor yang diperoleh peserta didik akan
meningkat titik peningkatan ini terjadi salah satu sebabnya
karena ia telah berpengalaman melihat soal sebelumnya untuk
mengatasi supaya hal ini tidak terjadi biasanya soal yang
digunakan pada ujian susulan berbeda dengan soal yang
digunakan pada Ujian pertama namun masih mengukur
kemampuan yang sama.
 Kita harus memperhatikan Apa yang disebut practice effect
atau carry over effect, yaitu pengaruh pengalaman atau
ingatan siswa terhadap perolehan skor pada tes kedua. Peserta
didik bisa saja tidak dapat menjawab tes pertama, tetapi
mereka dapat menjawab pada atas kedua karena adanya faktor
ingatan yang telah mereka lihat pada tes pertama.
Keunggulan teknik ini adalah dapat memperkecil kemungkinan
masuknya sumber kesalahan yang lain. Namun patut juga
dipertimbangkan bahwa penggunaan kelompok yang sama dan tes
yang sama dalam dua kali akan mempengaruhi hasil tes yang kedua
karena responden sudah memiliki pengalaman mengerjakan tes yang
pertama. Hal ini sekaligus menunjukkan kelemahan teknik test-
retes.36

b. Tipe ekuivalen
Koefisien ekuivalen adalah jika mengorelasikan dua buah teks
yang paralel pada kelompok dan waktu yang sama. Metode yang
digunakan untuk memperoleh koefisien ekuivalen adalah metode
yang disebut paralel atau equivalence forms method atau disebut juga

36
Zainal Arifin. Evaluasi Pembelajaran. (Bandung: PT Remaja Rosdakarya, 2009). Hlm.
260

27
parallel or alternate-forms method.37 Metode ini berkaitan dengan
penggunaan 2 buah tes yang sama atau relatif sama kepada peserta
didik yang sama.38 Kesamaan yang dimaksud pada tes adalah
kesamaan-kesamaan tujuan, tingkat kesukaran, susunan bahasa,
jumlah item, isi, petunjuk waktu yang disediakan untuk mengerjakan
tes, dan contoh-contoh juga sama.
Metode ekuivalen atau paralel digunakan untuk mengatasi
kelemahan yang terjadi pada metode tes ulang. Ketika dua tes yang
digunakan ternyata berbeda, maka faktor carry over effect tidak
menjadi masalah lagi, walaupun bisa saja faktor mengingat pada
jawaban tes pertama sedikit berpengaruh pada tes kedua, khususnya
apabila ditemukan soal yang benar-benar mirip atau bahkan sama.
Sekalipun bentuk paralel ini dapat mengatasi hampir semua
kelemahan metode tes ulang, namun masih saja memiliki beberapa
kelemahan. Kelemahannya adalah sangat sukar membuat dua buah
teks yang benar-benar homogen. Hal yang paling utama adalah tidak
ada jaminan apakah kedua tes yang digunakan benar-benar mengukur
hal yang sama. Kesulitan dalam metode ini adalah mengembangkan
2 form yang bersifat paralel tersebut terutama pada tes yang mengukur
atribut kepribadian. Berkaitan dengan hal ini para ahli
merekomendasikan untuk menerapkan administrasi tes pada 2 form
tersebut dengan cara:39
 Form 1 diadministrasikan pada sekelompok subjek
 Form 2 diadministrasikan pada hari yang sama untuk setengah
kelompok subjek
 Form 2 di administrasi kan dengan jeda waktu 2 minggu dari
administrasi form 1 untuk setengah kelompok subjek sisanya

37
Op. cit. Zainal Arifin. Hlm. 260
38
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
(Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 149
39
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
(Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 150

28
 Mengumpulkan skor form 1 dan 2 di atas kemudian
menghitung korelasi nya

c. Tipe konsistensi internal


Koefisien konsistensi internal adalah reliabilitas yang didapat
dengan jalan mengkorelasikan dua buah tes dari kelompok yang sama
tetapi diambil dari butir yang bernomor genap untuk tes yang pertama
dan butir soal bernomor ganjil untuk tes yang kedua. Teknik ini sering
juga disebut split-half method. Split berarti membelah dan half berarti
setengah. Jadi, split-half adalah tes yang dibagi menjadi dua bagian
yang sama, kemudian mengorelasikan butir soal yang bernomor ganjil
dalam belahan pertama (X) dan yang bernomor genap dalan belahan
kedua (Y). untuk membagi teks menjadi dua bagian dapat juga
dilakukan dengan jalan mengambil nomor soal secara acak, tetapi
jumlahnya tetap harus sama untuk masing-masing kelompok.
Pembagian tes juga dapat dilakukan dengan cara setengah bagian
pertama untuk kelompok pertama dan setengah lagi untuk kelompok
kedua.40
Dua metode yang sudah diperkenalkan yaitu tes ulang dan tes
paralel yang memiliki beberapa kelemahan. Contohnya pada bentuk
tes paralel yang di mana metode ini mengandung kelemahan, yaitu
misalnya guru harus mengembangkan lebih dari satu tes paralel
kemudian mencari reliabilitas dari tes paralel tersebut. Metode ini
paralel belum tentu benar-benar menguji hal yang sama. Contoh yang
kedua yaitu terdapat pada tes ulang, yang di mana kemungkinan
peserta tes telah mengingat soal-soal yang telah diteskan pada awal.
Untuk mengatasi kelemahan tersebut para ahli cenderung menentukan
reliabilitas dari satu tes dan 1 kali pelaksanaan tes saja. Metode ini

40
Zainal Arifin. Evaluasi Pembelajaran. (Bandung: PT Remaja Rosdakarya, 2009). Hlm.
261

29
sering pula dinamakan sebagai single-tes-single-trial method. Metode
ini sangat sederhana yaitu:41
1) Menyelenggarakan 1 kali tes
2) Membagi teks tersebut menjadi 2 bagian yang sama
3) Mengkorelasikan skor kedua belahan ini untuk mengestimasi
reliabilitas tes
Metode belah dua dapat mengatasi semua kelemahan yang
terdapat pada metode tes ulang dan tes paralel. Metode ini
memungkinkan estimasi reliabilitas tanpa harus menyelenggarakan
tes 2 kali. Dengan demikian ketidakajegan skor perolehan skor bukan
karena penyelenggaraan tes tetapi karena dalam merespon tes itu
sendiri.42
Cara melakukan reliabilitas belah dua pada dasarnya dapat
dilakukan dengan urutan sebagai berikut:43
1) Lakukan pengetesan item-item yang telah dibuat kepada
subjek sasaran.
2) Begitu yang ada menjadi dua atas dasar jumlah item yang
paling umum dengan membagi hitam dengan nomor ganjil dan
genap pada kelompok tersebut.
3) Hitung skor subjek pada kedua belah kelompok penerima item
genap dan item ganjil.
4) Mengkorelasikan kedua skor tersebut, menggunakan formula
korelasi yang relevan dengan teknik pengukuran.
Jika hasil koefisien korelasi tinggi, maka tes mempunyai tingkat
reliabilitas baik. Akan terjadi sebaliknya, jika hasil korelasi belah dua
item tes ternyata rendah. Perlu diingat bahwa dari analisis belah dua
di atas, hasil korelasi yang muncul baru separuh. Sebenarnya apa yang

41
Op. cit. Sudaryono. Hlm. 150
42
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
(Jakarta Pusat: Lentera Ilmu Cendikia, 2014). Hlm. 151
43
Sukardi. Evaluasi Pendidikan: prinsip dan operasionalnya. (Jakarta: Bumi Aksara,
2009). Hlm 48

30
kita kerjakan adalah menciptakan secara artifisial 2 macam kelompok
ekivalen dan menghitung bentuk reliabilitas ekivalensi yang
direncanakan terjadi dalam waktu yang sama. Oleh karna itu, analisis
diatas dapat dikatakan sebagai reliabilitas atau konsistensi internal.
Dikarnakan reliabilitas yang digambarkan baru sebagian dari tes
sebenarnya, maka formula koreksi perlu digunakan untuk
meningkatkan ketepatan perhitungan tingkat konsistensi.44

44
Op. cit. Sukardi. Hlm 48

31
F. Menentukan Reliabilitas
1. Metode Bentuk Paralel
Tes parallel atau tes ekuivalen adalah dua buah tes yang mempunyai
kesamaan tujuan, tingkat kesukaran, dan susunan, tetapi butur-butir soalnya
berbeda.
Dengan metode bentuk parallel ini, dua buah tes yang parallel, misalnya
tes Matematika seri A yang akan dicari reliabilitasnya dan tes seri B diteskan
kepada sekelompok siswa yang sama, kemudian hasilnya dikorelasikan.
Koefisien korelasi dari kedua hasil tes inilah yang menunjukkan koefisien
reliabilitas tes seri A. jika koefisiennya tinggi maka tes tersebut sudah
reliable dan dapat digunakan sebagai alat pengetes yang terandalkan.
Dalam menggunakan metode tes paralel ini pengetes harus menyiapkan
dua buah tes, dan masing-masing dicobakan pada kelompok siswa yang
sama. Oleh karena itu, ada orang yang menyebutkan sebagai double test-
trial method. Penggunaan metode ini baik karena siswa dihadapkan kepada
dua macam tes sehingga tidak ada faktor “masih ingat soalnya” yang dalam
evaluasi disebut adanya practice-effect dan carry-over effect, artinya ada
faktor yang dibawa oleh pengikut tes karena sudah mengerjakan soal
tersebut.
Kelemahan dari metode paralel ini adalah bahwa pengetes pekerjaannya
berat karena harus menyusun dua seri tes. Lagipula harus tersedia waktu
yang lama untuk mencobakan dua kali tes.45

2. Metode Tes Ulang


Metode tes ulang dilakukan orang untuk menghindari penyusunan dua seri
tes. Dalam menggunakan teknik atau metode ini pengetes hanya memiliki satu
seri tes, tetapi dicobakan dua kali. Oleh karena tesnya hanya satu dan dan
dicobakan dua kali, maka metode ini dapat disebut dengan single-test-double-
trial method. Kemudian hasil dari kedua kali tes tersebut dihitung korelasinya.

45
Suharsimi arikunto, Dasar-Dasar Evaluasi Pendidikan edisi 2, (Jakarta: Bumi Aksara,
2018), h. 165.

32
Untuk tes yang mengungkap pengetahuan (ingatan) dan pemahaman, cara
ini kurang mengena karena tercoba akan masih ingat akan butuir-butir soalnya.
Oleh karena itu, tenggang waktu antara pemberian tes pertama dan kedua
menjadi permasalahan tersendiri. Jika tenggang waktu terlalu sempit, siswa
akan masih banyak ingat materi. Sebaliknya jika tenggang waktu terlalu lama,
maka faktor-faktor atau kondisi tes sudah akan berbeda, dan siswa sendiri
barangkali sudah mempelajari sesuatu.
Pada umumnya hasil tes yang kedua cenderung lebih baik daripada hasil tes
pertama. Hal ini tidak mengapa karena pengetes harus sadar akan adanya
practice effect dan carry over effect. Yang penting adalah adanya kesejajaran
hasil atau ketetapan hasil yang ditunjukkan oleh koefisien korelasi yang
tinggi.46
Contoh:
Tes Pertama Tes Kedua
Siswa
Skor Ranking Skor Ranking
A 15 3 20 3
B 20 1 25 1
C 9 5 15 5
D 18 2 23 2
E 12 4 18 4

Walaupun tampak skornya naik, tetapi kenaikannya dialami oleh semua


siswa.

3. Metode Belah Dua


Dalam metode ini pengetes hanya menggunakan sebuah tes dan dicobakan
satu kali.
Berbeda dengan metode pertama dan kedua yang setelah ditemukannya
koefisien korelasi langsung ditafsirkan itulah koefisien reliabilitas, maka

46
Ibid, h.166.

33
dengan metode ketiga ini tidak dapat demikian. Pada waktu membelah dua
dan mengkorelasikan dua belahan, baru diketahui reliabilitas seluruh tes harus
digunakan rumus Sperman-Brown sebagai berikut:

r11 = 2 x r ½ ½
(1 + r ½ ½ )

Keteranngan :
r11 = koefisien reliabilitas yang sudah disesuaikan
r ½ ½ = korelasi antara skor-skor setiap belahan tes

Contoh:
Korelasi antara belahan tes = 0,60
Maka, reliabilitas tes = 2×0,60 = 1,20 = 0,75
1+ 0,60 1,60

Ada dua cara membelah butir soal ini, yaitu:


1) Membelah atas sistem-sistem genap dan item-item ganjil yang
selanjutnya disebut belahan ganjil-genap.
2) Membelah atas item-item awal dan item-item akhir yaitu separo jumlah
pada nomor-nomor akhir yang selanjutnya disebut belahan awal-akhir.

Contoh perhitungan reliabilitas dengan metode belah dua:


Yang pertama harus dilakukan adalah mengadakan analisis butir soal yang
lebih dikenal dengan nama analisis item. Item yang dapat dijawab dengan
benar mendapat skor dan yang salah mendapat skor 0.
TABEL ANALISIS ITEM TES MATEMATIKA
Skor 1,3,5, 2,4,6, 1,2,3, 6,7,8,
Nomor Item
No Nama Total 7,9 8,10 4,5 9,10
1 2 3 4 5 6 7 8 9 10 Ganjil Genap Awal Akhir
1 Hartati 1 0 1 0 1 1 1 1 1 1 8 5 3 3 5

34
2 Yoyok 0 0 1 0 1 0 0 1 1 1 5 3 2 2 3
3 Wendi 1 1 0 0 1 1 0 0 1 0 5 3 2 3 2
4 Diana 1 1 1 1 1 1 0 0 0 0 6 3 5 5 1
5 Paul 1 0 1 0 1 0 1 0 0 0 4 4 0 3 1
6 Helen 0 1 0 1 1 1 1 1 1 1 8 3 5 3 5

Penyajian contoh membelah diatas berarti bahwa perhitungan reliabilitas


dilakukan dengan membelah dengan dua cara. Pembelahannya memilih salah satu
saja, untuk selanjutnya dihitung dengan korelasi product moment.
1) Pembelahan ganjil-genap
Tabel persiapan perhitungan reliabilitas dengan belah dua ganjil-genap
sebagai berikut:
Item ganjil (1,3,5,7,9) Item genap (2,4,6,8,10)
No Nama
(X) (Y)
1 Hartati 5 3
2 Yoyok 3 2
3 Wendi 0 4
4 Oktaf 3 2
5 Diana 3 3
6 Paul 4 0
7 Helen 4 3
8 Susana 3 5
Kelanjutan dari table ini adalah menghitung dengan rumus korelasi Product
moment.
ΣX = 25 ΣX2 = 93
Σy = 22 Σy2 = 76
ΣXY = 63
Setelah dihitung dengan rumus korelasi Product moment dengan angka
kasar diketahui rxy = -0,3786. Harga tersebut baru menunjukkan reliabilitas

separo tes. Oleh karena itu, rxy untuk belahan disebut dengan istilah r1/21/2

35
atau rgg, untuk mencari reliabilitas seluruh tes digunakan rumus Spearman-
Brown.
r11 = 2 x r ½ ½
(1 + r ½ ½ )
= 2× -0,3786
1+ (-0,3786)
= -0,7572 = -0,5493
1,3786

2) Pembelahan awal akhir


Item ganjil (1,3,5,7,9) Item genap (2,4,6,8,10)
No Nama
(X) (Y)
1 Hartati 5 3
2 Yoyok 3 2
3 Wendi 0 4
4 Oktaf 3 2
5 Diana 3 3
6 Paul 4 0
7 Helen 4 3
8 Susana 3 5
Seperti halnya pada waktu menghitung dengan belahan ganjil genap maka
kelanjutannya adalah menghitung dengan rumus korelasi Product moment.
ΣX = 25 ΣX2 = 93
Σy = 22 Σy2 = 76
ΣXY = 63
Setelah dimasukkan ke dalam rumus korelasi product moment dengan angka

kasar diperoleh r1/21/2 = -0,3831. Dengan rumus Sperman Brown diperoleh


r11 = -0,5538.
3) Penggunaan rumus Flanagan

36
Secara konseptual, rumus yang dikemukakan Flanagan tidak jauh berbeda
dari Rulon’s formula. Ia menjelaskan bahwa kesalahan variance merupakan
jumlah variance dari kedua belahan (genap dan ganjil). Dengan dasar itu ia
mengemukakan rumus sebagai berikut :
rn = 2 (1 - 𝑑12+ 𝑑22𝑑12 )
Keterangan :
𝑑1/2 = Variance belahan 1 (awal)
𝑑2/2 = Variance belahan 2 (akhir)
𝑑1/2 = Variance total
Penggunaan rumus :
Responden Total Awal Akhir
Hartati 5 3 2
Yoyok 7 4 3
Wendi 8 4 4
Diana 5 3 2
Paul 6 2 4
Helen 7 3 4
Susana 6 2 4
Oktaf 6 3 3
Aji 7 3 4
Oki 7 4 3

Dengan menggunakan cara seperti pada rumus Rulon atau menggunakan


kalkulator Casio 3600, maka dapat diketahui :
𝑑12 = 0,84
𝑑12 = 0,49
𝑑1 = 0,7 40

37
(Awal)
𝑑2 = 0,78
(akhir)
𝑑22 = 0,61
Selanjutnya dimasukkan ke dalam rumus :
rn = 2 (1 - 𝑑12+ 𝑑22𝑑12 )
= 2 (1 - 0,49+0,61)0,84 )
rn = 2 (1 – 1,5476)
rn = 2 (- 0,3095) = - 0,62 (dibulatkan)

4) Penggunaan rumus Rulon


Rumus yang digunakan sebagai berikut :
rn = 1 - 𝑑𝑑2𝑑12
keterangan :
d = perbedaan antara skor belahan awal dan akhir untuk tiap yang diuji
dd = SD beda
d1 = SD total skor
𝑑2d = Varian beda
𝑑21 = Varian total

Responden Total Awal Akhir


Hartati 5 3 2
Yoyok 7 4 3
Wendi 8 4 4
Diana 5 3 2
Paul 6 2 4
Helen 7 3 4
Susana 6 2 4
Oktaf 6 3 3
Aji 7 3 4

38
Oki 7 4 3

Σd = -2
Σd2 = 14
𝑑𝑑2 = 𝑑2 −(Σ𝑑)2/𝑁N
𝑑𝑑2 = 14−2/1010 38
Atau dapat juga dicari dulu SD sebagai berikut :
SD = Ὰ√ (Σ𝑑2)− (Σ𝑑)2𝑁
= √ 1410− (−2)210
= √ 1,4− 0,4
= √ 1,0
= 1,0
𝑑𝑑2 = 1,36
Selanjutnya masukan ke dalam rumus :
rn = 1- 𝑑𝑑2𝑑12
= 1 – 1,36/ 0,84
= 1 – 1,62
rn = - 0,62

5) Rumus K-R. 20
Rumus yang dikemukakannya adalah :
𝑛 𝑆2 − Σpq
r11 = (𝑛 − 1
)(
𝑆2
)

Keterangan :
r11 = reliabilitas instrument secara keseluruhan
n = banyaknya item
p = proporsi subjek yang menjawab butir soal dengan benar
q = proporsi subjek yang menjawab butir soal dengan salah (q = 1-p)
S = standar deviasi dari tes

6) Penggunaan Rumus K-R. 21


Rumus:

39
r11 = 𝑘𝑘−1 [1− 𝑀1 (𝑘−𝑀1)𝑡2 ]
Keterangan:
M= Mean atau skor total

r11 = 7 × [ 1 – 3,5 (7-3,5)]


7-1 7×1,85
= 1,17 × [ 1 – 3,5 × 3,5]
12,95
= 1,17 × [ 1 – 12,25]
12,25
= 1,17 × (1-0,946)
= 1,17 × 0,0541
= 0,06329 dibulatkan 0,0633

40
BAB III
PENUTUP

A. Kesimpulan
- Kegiatan menganalisis butir soal merupakan suatu kegiatan yang harus
dilakukan guru untuk meningkatkan mutu soal yang telah ditulis. Kegiatan
ini merupakan proses pengumpulan, peringkasan, dan pengunaan informasi
dari jawaban siswa untuk membuat keputusan tentang setiap penilaian.
- Analisis butir soal digunakan untuk menentukan soal-soal yang cacat atau
tidak berfungsi penggunaannya; untuk meningkatkan butir soal melalui tiga
komponen analisis, yaitu tingkat kesukaran, daya pembeda, dan pengecoh
soal, serta meningkatkan pembelajaran ambiguitas soal dan keterampilan
tertentu yang menyebabkan peserta didik kesulitan mengerjakan
- Analisis Butir Soal Secara Kualitatif yaitu Pada prinsipnya, analisis butir
soal secara kualitatif dilaksanakan berdasarkan kaidah penulisan soal (tes
tertulis, perbuatan, dan sikap). Penelaah ini dilakukan sebelum soal
digunakan/diujikan.
- Analisis Butir Soal Secara Kuantitatif adalah penelaahan butir soal
didasarkan pada data empiris dari butir soal yang bersangkutan. Data
empiris ini diperoleh dari soal yang telah diujikan.
- Validitas dibagi menjadi dua yaitu :
a. Logis yang terbagi menjadi dua kembali yaitu isi dan konstruk
b. Empiris yang terbagi menjadi dua juga yaitu kesejajaran dan
prediksi
- Sebuah instrument pengukuran dikatakan memiliki validitas jika hasilnya
sesuai dengan kriterium tertentu, dalam arti memiliki kesejajaran antara
hasil pengukuran tersebut dengan kriteria tersebut.
- Reliabilitas merupakan suatu instrumen yang merujuk kepada kadar
stabilitas dan konsistensi instrument
- Faktor-faktor yang mempengaruhi reliabilitas yang sangat menonjol
adalah: Konstruksi item yang tidak tepat, sehingga tidak dapat mempunyai

41
daya pembeda yang kuat, Panjang/pendeknya instrument, Evaluasi yang
subjektif akan menurunkan reliabilitas, Ketidaktepatan waktu yang
diberikan, Kemampuan yang ada dalam kelompok, Luas/tidaknya sampel
yang diambil, Kondisi dan situasi pada pengadministrasian alat ukur, Jarak
waktu pengadministrasian instruemn periode pertama (mula-mula) dengan
pengadministrasian intumen pada periode kedua dan seterunya, Subjek yang
secara aktual berubah dari suatu saat periode instrumen ke periode
instrumen berikutnya.
- Untuk menentukan reliabilitas dapat ditempuh melalui tiga cara yaitu
metode belah dua, metode bentuk paralel dan metode ulangan.

42
DAFTAR PUSTAKA

Arifin, Zainal. Evaluasi Pembelajaran. Bandung: PT Remaja Rosdakarya, 2009.

Arikunto, Suharsimi. Dasar-Dasar Evaluasi Pendidikan edisi 2. Jakarta: Bumi


Aksara, 2018.

Matondang, Zulkifli. Validitas Dan Reliabilitas Suatu Instrumen Penelitian,


dalam Jurnal TABULARASA PPS UNIMED Vol.6 No.1, Tahun. 2009.

Miftahuddin dan Fithriana. Korelasi Antara Validitas pada Evaluasi yang


Digunakan dalam Menilai Hasil Belajar Siswa dengan Hasil Kegiatan
MGMP Matematika di Kabupaten Pidie, dalam Jurnal Matematika,
Statiska, dan Komputasi Vol. 2 No. 4 Tahun 2008.

Purwanto. “Evaluasi Hasil Belajar”. Yogyakarta: Pustaka Pelajar. 2009.

Ratnawulan, Elis dan Rusdiana. Evaluasi Pembelajaran: Pengantar Prof. Dr. H.


Sutaryat Trisnamansyah. Bandung: CV. Pustaka Setia. 2015.

Siyoto, Sandu dan Ali Sodik. Dasar Metodologi Penelitian. Yogyakarta: Literasi
Media Publishing. 2015.
Sudaryono. Pengantar Evaluasi Pendidikan: berdasarkan teori klasik dan modern.
Jakarta Pusat: Lentera Ilmu Cendikia, 2014.

Sukardi. Evaluasi Pendidikan: prinsip dan operasionalnya. Jakarta: Bumi Aksara,


2009.

Yusuf, Muri. Aransemen dan Evaluasi Pendidikan. Jakarta: Prenadanedia Group,


2015.

43