Anda di halaman 1dari 35

MAKALAH

SYARAT UMUM TES YANG BAIK

Disusun Guna Memenuhi Tugas Mata Kuliah Evaluasi Pembelajaran Sekolah Dasar
Dosen Pengampu: Dr.Iva Sarifah, M.Pd

Disusun oleh:
1. Ghalda Nabila (1107621042)
2. Najwa Kamila (1107621013)
3. Rifqi Dwi Prasetyo (1107621041)

PENDIDIKAN GURU SEKOLAH DASAR


FAKULTAS ILMU PENDIDIKAN
UNIVERSITAS NEGERI JAKARTA
2023

i
KATA PENGANTAR

Puji syukur kehadirat Allah SWT yang telah memberikan nikmat sehat serta hidayah-
Nya sehingga kami dapat menyelesaikan tugas makalah yang berjudul “Syarat Umum Tes yang
Baik” ini tepat pada waktunya. Adapun tujuan dari penulisan makalah ini adalah untuk
memenuhi tugas pada mata kuliah Evaluasi Pembelajaran Sekolah Dasar. Selain itu, makalah
ini juga bertujuan untuk menambah wawasan tentang cara syarat-syarat tes yang baik bagi para
pembaca dan juga bagi penulis.
Kami mengucapkan terimakasih kepada Ibu Dr. Iva Sarifah, M.Pd selaku dosen mata
kuliah Evaluasi Pembelajaran Sekolah Dasar yang telah memberikan tugas ini sehingga dapat
menambah pengetahuan dan wawasan sesuai dengan bidang studi yang ditekuni. Kami juga
mengucapkan terimakasih kepada semua pihak yang telah membantu diselesaikannya tugas
makalah ini.
Kami menyadari, makalah yang telah kami tulis ini masih jauh dari kata sempurna.
Oleh Karena itu, kritik dan saran yang membangun akan sangat dinantikan demi kesempurnaan
makalah ini.

Jakarta, 6 Oktober 2023


Penyusun,

Kelompok 9

i
DAFTAR ISI

KATA PENGANTAR............................................................................................................... i

DAFTAR ISI.............................................................................................................................ii

BAB I PENDAHULUAN.................................................................................................. 1

A. Latar Belakang ................................................................................................................ 1


B. Rumusan Masalah ........................................................................................................... 1
C. Tujuan ............................................................................................................................. 1
BAB II PEMBAHASAN .................................................................................................... 2

A. VALIDITAS (KETEPATAN) ........................................................................................ 2


1) Macam-macam Validitas............................................................................................. 3
2) Menghitung Validitas Suatu Tes ................................................................................. 6
B. RELIABILITAS ........................................................................................................... 16
1) Menentukan Reliabilitas Suatu Tes ........................................................................... 17
C. Tingkat Kesukaran ........................................................................................................ 22
1) Menentukan Tingkat Kesukaran Suatu Tes .............................................................. 22
D. Daya Pembeda .............................................................................................................. 24
1) Menentukan Daya Pembeda (Nilai D) Suatu Tes ..................................................... 25
E. Objektivitas ................................................................................................................... 29
F. Kepraktisan ................................................................................................................... 30
BAB III PENUTUP ............................................................................................................ 31

A. Kesimpulan ................................................................................................................... 31
B. Saran ............................................................................................................................. 31
DAFTAR PUSTAKA ............................................................................................................. 32

ii
BAB I
PENDAHULUAN

A. Latar Belakang
Tes merupakan alat pengukur untuk mengetahui kemampuan siswa. Apabila kita
melihat penggunaan tes-tes dalam praktik pendidikan sehari-hari, ada 2 maksud yang ingin
dicapai, yaitu mengetahui status prestasi para siswa, yang kemudian dibandingkan dengan
kriteria internal atau eksternal, dan mengetahui potensi daripada para siswa yang bisa
dipergunakan sebagai dasar untuk mengambil keputusan tentang penempatan dan
penyaluran siswa-siswa tersebut di masa yang akan datang. Tes adalah prosedur yang
sistematis, objektif dan standar yang berupa serentetan pertanyaan atau latihan yang harus
dijawab oleh testee untuk menghasilkan suatu nilai yang mencerminkan tingkah laku atau
prestasi testee.
Tes sendiri memiliki 2 fungsi yaitu, sebagai alat pengukur terhadap peserta didik, dan
sebagai alat pengukur keberhasilan program pengajaran. Dikarenakan pentingnya sebuah
tes jika dilihat dari sudut fungsinya, tentunya diperlukan sebuah tes yang baik agar
fungsinya dapat diwujudkan. Tes yang baik harus memenuhi persyaratan tes yang baik,
mulai dari validitas, reliabilitas, tingkat kesukaran, daya pembeda, objektivitas dan
kepraktisan.

B. Rumusan Masalah
1) Apa yang dimaksud dengan tes?
2) Apa saja fungsi atau kegunaan tes?
3) Apa saja persyaratan tes yang baik?
4) Bagaimana cara menguji sebuah tes apakah sesuai persyaratan tes yang baik atau
belum?

C. Tujuan
1) Mengetahui apa yang dimaksud dengan tes.
2) Mengetahui fungsi atau kegunaan tesMengetahuin syarat-syarat tes yang baik
3) Mengetahui syarat-syarat tes yang baik
4) Melakukan pengujian sebuah tes (apakah telah memenuhi persyaratan) dengan
perhitungan

1
BAB II
PEMBAHASAN

Dalam bidang pendidikan, tes merupakan bagian yang mendasar dalam proses belajar
dan mengajar. Salah satu bentuk evaluasi yang populer digunakan untuk mengetahui apakah
hasil belajar telah sesuai dengan tujuan pembelajaran adalah dengan memberikan tes. Dengan
kata lain, untuk mengukur keberhasilan dari suatu proses belajar dan mengajar adalah dengan
melalui sebuah tes. Tes mempunyai banyak fungsi misalnya sebagai alat diagnosis kelemahan
siswa dari materi yang telah diberikan (diagnostic test), sebagai alat untuk mengetahui
pengetahuan kemampuan awal (pre-test), sebagai alat untuk mengetahui pencapaian hasil
belajar (post-test/ achievement test), hingga sebagai alat untuk membuat keputusan misalnya
lulus atau tidaknya peserta didik.
Mengingat pentingnya sebuah tes tersebut, apalagi apabila digunakan sebagai alat
pengambil keputusan, tentunya diperlukan sebuah tes yang baik. Tes yang baik harus
memenuhi ciri-ciri (karakteristik) tes yang baik.
Sebuah tes yang dapat dikatakan baik sebagai alat pengukur, harus memenuhi
persyaratan tes, yaitu memiliki validitas (ketepatan), reliabilitas (keandalan), tingkat
kesukaran, daya pembeda, objektivitas, dan kepraktisan.

A. VALIDITAS (KETEPATAN)
Valid artinya sah atau tepat. Sebuah tes dapat dikatakan valid apabila tes tersebut
dapat mengukur objek yang hendak diukur. Mengukur berat badan tentu tidak valid
menggunakan meteran. Sebagai contoh menilai kemampuan peserta didik dalam
matematika. Mereka diberikan soal dengan kalimat yang panjang dan berbelit-belit
sehingga sukar ditangkap maknanya. Akhirnya, peserta didik tidak dapat menjawab karena
tidak memahami pertanyaannya. Mengukur keterampilan siswa, misalnya mengukur unjuk
kerja siswa, tentu tidak valid menggunakan tes pilihan ganda. Jadi, tes yang digunakan
perlu disesuaikan dengan karakteristik hasil belajar yang diukur.
Validitas tidak berlaku universal sebab bergantung pada situasi dan tujuan
penilaian. Berlakunya validitas tersebut hanya terbatas pada kelompok itu atau kelompok
lain yang kondisinya hampir sama dengan kelompok tersebut. Oleh karena itu, suatu alat
ukur yang valid untuk kelompok belum valid untuk kelompok lain (Muri, 2014:235).
Sehingga alat penilaian yang telah valid untuk suatu tujuan tertentu belum otomatis akan
valid untuk tujuan yang lain. Contoh prestasi belajar dan motivasi belajar dapat dinilai oleh

2
tes ataupun kuesioner. Caranya juga bisa berbeda, bisa dilaksanakan secara tertulis atau
bisa secara lisan.

1) Macam-macam Validitas
Terdapat dua macam validitas, yaitu validitas logis dan validitas empiris.
Berikut penjelasan dari kedua jenis validitas tersebut:

a) Validitas Logis
Validitas logis adalah validitas diperoleh atas dasar hasil pemikiran berpikir
logis melalui proses penganalisaan secara rasional dengan tepat mengukur apa yang
seharusnya diukur (Sudijono: 2008: 164). Validitas logis terdiri dari dua macam, yaitu
validitas isi (content validity) dan Validitas Konstruk (Construct Validity).
• Validitas Isi (Content Validity)
Validitas isi berkenaan dengan kesanggupan alat penilaian dalam mengukur
isi yang seharusnya. Artinya, tes tersebut mampu mengungkapkan isi yaitu konsep
atau variabel yang hendak diukur. Validitas isi dari suatu tes adalah validitas yang
diperoleh setelah dilakukan penganalisaan, penelusuran atau pengujian terhadap isi
yang terkandung dalam tes tersebut. Misalnya, tes hasil belajar bidang studi IPS
harus bisa mengungkapkan isi bidang studi tersebut. Tes hasil belajar tersebut tidak
mungkin dapat mengungkapkan semua materi IPS sekalipun hanya untuk satu
semester. Oleh karena itu, harus diambil sampel tes. Sampel harus dapat
mencerminkan materi yang terkandung dalam seluruh materi bidang studi. Cara
yang ditempuh dalam menetapkan sampel tes adalah memilih konsep-konsep
materi yang esensial. Misalnya, menetapkan sejumlah konsep dari setiap pokok
bahasan yang ada. Dari setiap konsep yang dikembangkan terdapat beberapa
pertanyaan tes. Disinilah pentingnya peranan kisi-kisi sebagai alat untuk memenuhi
validitas isi. Selain itu, dapat pula dimintakan bantuan ahli bidang studi untuk
menelaah apakah konsep materi yang diajukan telah memadai atau tidak sebagai
sampel tes. Dengan demikian, validitas isi tidak memerlukan uji coba dan analisis
statistic atau dinyatakan dalam bentuk angka.
• Validitas Bangun Pengertian (Construct Validity)
Validitas bangun Pengertian (Construct validity) berkenaan dengan
kesanggupan alat penilaian untuk mengatur berbagai pengertian yang terkandung
dalam materi yang diukurnya. Pengertian yang terkandung dalam konsep

3
kemampuan, minat, sikap dalam berbagai bidang kajian harus jelas apa yang hendak
diukurnya. Konsep-konsep tersebut masih abstrak dan memerlukan penjabaran
yang lebih spesifik sehingga mudah diukur. Dengan demikian, setiap konsep harus
dikembangkan indikator-indikatornya. Dengan adanya indikator dari setiap konsep,
bangun pengertian akan tampak sehingga mudah dalam menerapkan alat
penilaiannya. Untuk variabel tertentu, dimungkinkan penggunaan alat penilaian
yang beraneka ragam dengan cara mengukur yang berlainan.
Menetapkan indikator atau konsep dapat dilakukan dengan dua cara,
yakni (a) menggunakan pemahaman atau logika berpikir atas dasar teori
pengetahuan ilmiah dan (b) menggunakan pengalaman empiris, yakni apa yang
terjadi dalam kehidupan nyata.
Contoh Konsep mengenai “Hubungan Sosial”, dilihat dari pengalaman maka
indikator empirisnya adalah sebagai berikut:
a) Bisa bergaul dengan orang lain
b) Disenangi atau banyak temannya
c) Menerima pendapat orang lain
d) Tidak memaksakan pendapatnya
e) Bisa bekerja sama dengan siapapun.
Mengukur indikator-indikator tersebut adalah mengukur bangun pengertian
yang terdapat dalam konsep hubungan sosial.
Apabila hasil tes menunjukkan berbagai indikator yang tidak berhubungan
secara positif satu sama lain, berarti tes tersebut tidak memiliki validitas bangun
pengertian. Atas dasar itu indikatornya adalah ditinjau atau diperbaiki kembali.
Cara lain untuk menentukan validitas bangun pengertian suatu alat penilaian adalah
menghubungkan (korelasi) alat penilaian yang dibuat dengan alat penilaian yang
sudah baku (standardized) seandainya telah ada yang baku. Jika menunjukkan
koefisien korelasi yang tinggi maka alat penilaian tersebut memenuhi validitasnya.

b) Validitas Empiris
Menurut Arikunto (2009: 66) validitas empiris adalah validitas yang diperoleh
berdasarkan pengalaman dengan cara diujikan. Ada empat macam validitas empiris,
diantaranya: validitas butir, validitas keseluruhan, validitas kesamaan dan validitas
ramalan / prediktif.
• Validitas Ramalan (Predictive Validity)

4
Sebuah tes dikatakan memiliki validitas prediksi apabila mempunyai
kemampuan memprediksi atau meramalkan apa yang akan terjadi pada masa yang
akan datang (Arikunto, 2009: 69). Dalam validitas ini yang diutamakan bukan isi
tes, melainkan kriterianya. Apakah alat penilaian atau tes tersebut dapat digunakan
untuk meramalkan suatu ciri, perilaku tertentu, atau kriteria tertentu yang
diinginkan.
Misalnya, alat penilaian motivasi belajar dengan prestasi yang dicapai. Motivasi
dapat digunakan untuk meramal prestasi jika skor diperoleh dari ukuran motivasi
berkorelasi positif dengan skor prestasi. Validitas ini mengandung ciri adanya
relevansi dan keajegan atau ketetapan (reliability).
Validitas ramalan terdapat 2 macam, yaitu validitas jangka pendek dan validitas
jangka panjang. Validitas jangka pendek berarti daya ramal alat penilaian tersebut
hanya untuk masa yang tidak lama. Artinya, skor tersebut berkorelasi pada waktu
yang sama. Misalnya ketetapan (reliability) terjadi pada semester dua dan belum
tentu terjadi pada semester berikutnya. Sedangkan validitas jangka panjang
mengandung makna skor tersebut akan berkorelasi juga di kemudian hari. Validitas
isi dan validitas bangun pengertian mutlak diperlukan dan bisa diupayakan tanpa
melakukan pengujian statistik.
• Validitas Kesamaan (Concurrent Validity)
Sebuah tes memiliki validitas kesamaan jika hasilnya sesuai dengan
pengalaman. Sebuah tes memiliki validitas empiris jika hasil tes setelah
dipasangkan sesuai dengan pengalaman (data lampau dan yang ada sekarang –
concurrent) (Arikunto, 2009: 68). Dengan kata lain tes tersebut dalam kurun waktu
yang sama dengan secara tepat telah mampu menunjukkan adanya hubungan searah
antara tes yang pertama dan kedua (validitas sekarang/pengalaman). Validitas ini
hampir sama dengan validitas keseluruhan tetapi untuk mengukur instrumen yang
ada sekarang berdasarkan data lampau sebagai kriterium. Misal mengukur validitas
soal ulangan akhir semester menggunakan data ulangan harian sebagai kriterium.
Validitas kesamaan suatu tes adalah melalui indeks korelasi berdasarkan
perhitungan korelasi. Apabila menunjukkan indeks korelasi yang cukup tinggi,
yakni mendekati angka satu (korelasi sempurna), berarti tes yang disusun tersebut
memilih validitas kesamaan (indeks terdapat pada bagian uji validitas).
• Validitas Keseluruhan

5
Sebuah tes dikatakan memiliki validitas keseluruhan jika hasilnya sesuai
dengan kriterium, dalam arti tes tersebut memiliki kesejajaran antara hasil tes
tersebut dengan kriterium. Kriteria pembanding yang digunakan adalah sebuah skor
nilai yang dianggap valid untuk dijadikan acuan.
• Validitas Butir
Sebuah butir memiliki validitas tinggi jika skor butir memiliki kesejajaran
dengan skor total artinya memiliki korelasi yang baik (Arikunto, 2009: 76).
Validitas ini ditentukan dengan membandingkan antara skor butir dengan skor total.
Untuk menghitung validitas butir digunakan rumus product moment dan koefisien
korelasi biserial (γ_pbi).

2) Menghitung Validitas Suatu Tes

a) Dengan Rumus Product Moment


Pearson Product Moment adalah salah satu dari beberapa jenis uji korelasi yang
digunakan untuk mengetahui derajat keeratan hubungan 2 variabel yang berskala
interval atau rasio, dimana dengan uji ini akan mengembalikan nilai koefisien korelasi
yang nilainya berkisar antara -1, 0 dan 1.
Berikut Tabel klasifikasi nilai koefisien korelasi r pearson:

Interval Koefisien Tingkat Hubungan


0,80 – 1,000 Sangat Kuat
0,60 – 0,799 Kuat
0,40 – 0,599 Cukup Kuat
0,20 – 0, 399 Rendang
0,00 – 1,99 Sangat Rendah

Berdasarkan tabel di atas, dapat kami jelaskan tentang nilai koefisien korelasi uji
pearson product moment dan makna keeratannya dalam sebuah analisis statistik atau
analisis data. Berikut penjelasannya:
1. Nilai koefisien 0 = Tidak ada hubungan sama sekali (jarang terjadi),
2. Nilai koefisien 1 = Hubungan sempurna (jarang terjadi),
3. Nilai koefisien > 0 sd < 0,2 = Hubungan sangat rendah atau sangat lemah,
4. Nilai koefisien 0,2 sd < 0,4 = Hubungan rendah atau lemah,
5. Nilai koefisien 0,4 sd < 0,6 = Hubungan cukup besar atau cukup kuat,

6
6. Nilai koefisien 0,6 sd < 0,8 = Hubungan besar atau kuat,
7. Nilai koefisien 0,8 sd < 1 = Hubungan sangat besar atau sangat kuat.
8. Nilai negatif berarti menentukan arah hubungan, misal: koefisien korelasi antara
penghasilan dan berat badan bernilai -0,5. Artinya semakin tinggi nilai penghasilan
seseorang maka semakin rendah berat badannya dengan besarnya keeratan
hubungan sebesar 0,5 atau cukup kuat (lihat tabel di atas).
Tanda pada koefisien korelasi (positif atau negatif) menunjukkan arah hubungan.
Jika positif menunjukkan semakin tinggi variabel X maka makin tinggi variabel Y.
Sementara itu, jika negatif maka semakin tinggi variabel X, maka makin turun variabel
Y.
Rentang dari koefisien korelasi yang berkisar antara -1, 0 dan 1 tersebut dapat
disimpulkan bahwa apabila semakin mendekati nilai 1 atau -1 maka hubungan makin
erat, sedangkan jika semakin mendekati 0 maka hubungan semakin lemah.

• Rumus Product Moment dengan Simpangan

Keterangan:
𝑟𝑥𝑦 = Koefisien korelasi antara variabel x dan variabel y.
𝑥 = 𝑋 − 𝑋̅
𝑦 = 𝑌 − 𝑌̅
∑ 𝑥𝑦 = Jumlah perkalian x dan y
𝑥2 = kuadrat dari x
𝑦2 = kuadrat dari y
∑ 𝑥 2 = Jumlah kuadrat x
∑ 𝑦 2 = Jumlah kuadrat y

Contoh:
Sebuah tes ilmu bumi dicobakan kepada dua kelompok murid yang berjumlah 14
orang tiap kelompok. Skor hasil ter dari kedua kelompok tersebut sebagai berikut:
Kelompok a: 31 36 36 30 38 37 28 37 36 36 38 38 40 34
Kelompok b: 24 34 36 29 36 36 24 31 31 27 36 35 35 32

7
Untuk menghitung korelasi dengan rumus tersebut diatas kita susun kedua
kelompok skor itu ke dalam sebuah tabel.

495
𝑋̅ = 14 = 35
446
𝑌̅ = 14 = 32

No Urut Skor 𝑋 − 𝑋̅ 𝑌 − 𝑌̅ x2 y2 xy
X Y x y
1 31 24 -4 -8 16 64 32
2 36 34 1 2 1 4 2
3 36 36 1 4 1 16 4
4 30 29 -5 -3 25 9 15
5 38 36 3 4 9 16 12
6 37 36 2 4 4 16 8
7 28 24 -7 -8 49 64 56
8 37 31 2 -1 4 1 -2
9 36 31 1 -1 1 1 -1
10 36 27 1 -5 1 25 -5
11 38 36 3 4 9 16 12
12 38 35 3 3 9 9 9
13 40 35 5 3 25 9 15
14 34 32 -1 0 1 0 0
NX = XY = 14 495 446 5 -2 155 250 157

Dengan rumus Product Momen of correlation, hasil perhitungan dari tabel


adalah sebagai berikut:
∑ 𝑥𝑦 + 157 157
r= |r= = 197 = + 0,80
√(∑ 𝑥 2 )(∑ 𝑦 2 ) √155 𝑥 250

Dengan melihat hasil r = 0,80 berarti bahwa korelasi antara keda kelompok
skor ilmu bumi tersebut cukup tinggi sehingga kita dapat menarik kesimpulan
bahwa tingkat validitas tes tersebut cukup tinggi pula. dengan kata lain, tes tersebut
memiliki validitas yang tinggi.

Contoh lain:
Berikut ini merupakan data lama bermain game dengan nilai yang diperoleh siswa.
No. Nama Lama Bermain Game Nilai Siswa
1 a 7 64
2 b 7 66
3 c 7 63
4 d 4 78
5 e 4 67
6 f 2 53

8
7 g 3 86
8 h 4 96
9 i 3 76
10 j 4 92
11 k 6 86
12 l 5 69
13 m 6 69
14 n 2 81
15 o 3 83

Masukkan data ke dalam tabel:


67
𝑋̅ = 15 = 4
119
𝑌̅ = 15 = 81

No Urut Skor 𝑋 − 𝑋̅ 𝑌 − 𝑌̅ x2 y2 xy
X Y x y
1 7 64 3 -17 6 277 -42
2 7 66 3 -15 6 214 -37
3 7 63 3 -18 6 311 -45
4 4 78 0 -3 0 7 1
5 4 67 0 -14 0 186 6
6 2 53 -2 -28 6 764 68
7 3 86 -1 5 2 29 -8
8 4 96 0 15 0 236 -7
9 3 76 -1 -5 2 22 7
10 4 92 0 11 0 129 -5
11 6 86 2 5 2 29 8
12 5 69 1 -12 0 136 -6
13 6 69 2 -12 2 136 -18
14 2 81 -2 0 6 0 -1
15 3 83 -1 2 2 6 -3

Masukkan ke dalam rumus:


∑ 𝑥𝑦 − 82 − 82 − 82
r= |r= = = 329,36 = - 0,2492
√(∑ 𝑥 2 )(∑ 𝑦 2 ) √44 × 2480 √109141.3

Jadi, koefisien korelasi data tersebut adalah -0,2492


Artinya semakin tinggi lamanya bermain game, maka semakin rendah nilai yang
diperoleh dengan besarnya keeratan hubungan sebesar 0,24 (rendah).

• Rumus Product Moment Angka Kasar

9
Keterangan:
𝑟𝑥𝑦 = Koefisien korelasi
∑X = Jumlah skor butir
∑Y = Jumlah skor total
N = Jumlah sampel

Contoh 1:
Sebuah tes ilmu bumi dicobakan kepada dua kelompok murid yang berjumlah 14
orang tiap kelompok. skor hasil ter dari kedua kelompok tersebut sebagai berikut:
Kelompok A: 31 36 36 30 38 37 28 37 36 36 38 38 40 34
Kelompok B: 24 34 36 29 36 36 24 31 31 27 36 35 35 32
Untuk menghitung korelasi dengan rumus tersebut diatas kita susun kedua
kelompok skor itu ke dalam sebuah tabel.
No Urut Skor 𝑋 − 𝑋̅ 𝑌 − 𝑌̅ x2 y2 xy
X Y x y
1 31 24 -4 -8 16 64 32
2 36 34 1 2 1 4 2
3 36 36 1 4 1 16 4
4 30 29 -5 -3 25 9 15
5 38 36 3 4 9 16 12
6 37 36 2 4 4 16 8
7 28 24 -7 -8 49 64 56
8 37 31 2 -1 4 1 -2
9 36 31 1 -1 1 1 -1
10 36 27 1 -5 1 25 -5
11 38 36 3 4 9 16 12
12 38 35 3 3 9 9 9
13 40 35 5 3 25 9 15
14 34 32 -1 0 1 0 0
NX = XY = 14 495 446 5 -2 155 250 157

Masukkan ke dalam rumus

10
(14 ×15927)−(495 ×446)
𝑟𝑥𝑦 =
√((14 ×17655)−(495 ×495))((14 ×14458)−(446 ×446))

222978 −220770 2208 2208


𝑟𝑥𝑦 = = = 2738,415 = 0,80
√(247170 − 245025)(202412 −198916) √2145 ×3496

Contoh 2:
Berikut ini merupakan data lama bermain game dengan nilai yang diperoleh siswa.
No. Nama Lama Bermain Game Nilai Siswa
1 a 7 64
2 b 7 66
3 c 7 63
4 d 4 78
5 e 4 67
6 f 2 53
7 g 3 86
8 h 4 96
9 i 3 76
10 j 4 92
11 k 6 86
12 l 5 69
13 m 6 69
14 n 2 81
15 o 3 83

Masukkan data ke dalam tabel:


67
𝑋̅ = 15 = 4
119
𝑌̅ = 15 = 81

Skor
No. Urut X2 Y2 XY
X Y
1 7 64 49 4096 448
2 7 66 49 4356 462
3 7 63 49 3969 441
4 4 78 16 6084 312
5 4 67 16 4489 268
6 2 53 4 2809 106
7 3 86 9 7396 258
8 4 96 16 9216 384
9 3 76 9 5776 228
10 4 92 16 8464 368
11 6 86 36 7396 516
12 5 69 25 4761 345
13 6 69 36 4761 414
14 2 81 4 6561 162
15 3 83 9 6889 249

11
67 1129 343 87023 4961

Masukkan ke dalam rumus:

(14 × 4961) − (67 × 1129)


𝑟𝑥𝑦 =
√((15 ×343) − (67 × 67))((15 ×87023) − (1129 × 1129))

74415 − 75643 −1228 −1228


𝑟𝑥𝑦 = = = 4487,96 = -0,273
√(5145 − 4489)(1305345 −1274641) √656 × 30704

Jadi, koefisien korelasi data tersebut adalah -0,273


Artinya semakin tinggi lamanya bermain game, maka semakin rendah nilai yang
diperoleh dengan besarnya keeratan hubungan sebesar 0,27 (rendah).

b) Rumus Korelasi Point-Biserial


Korelasi point biserial digunakan untuk mencari korelasi antara dua buah
variabel jika salah satu variabelnya bersifat dikotomis diskrit. Maksud dari dikotomi
diskrit ialah variabel tersebut hanya mempunyai 2 nilai. misalnya laki-laki dan
perempuan. Seringkali diberi kode 0 atau 1, misalnya 0=laki-laki, 1=perempuan. Atau
jawaban benar dan salah, dengan kode 1 untuk jawaban benar dan 0 untuk jawaban
salah. Dengan demikian Maksud dari dikotomi diskret di sini adalah bahwa perbedaan
nilai 1 dan 0 adalah nyata dan tidak ada nilai kontinum di dalamnya. Misalnya adalah
salah dan benar. Keduanya adalah diskrit karena tidak ada setengah benar dan setengah
salah. Sebagian besar analisis item menggunakan metode korelasi point-biserial
sebagai acuan analisis item.
Teknik korelasi point biserial dapat juga digunakan untuk menguji validitas
item (soal-soal) yang digunakan dalam ujian atau tes. Validitas keseluruhan soal
berkualitas erat dengan validitas tiap butir soal. Apabila tiap butir soal mempunyai
validitas yang tinggi dalam hubungannya dengan skor total, maka instrument itu pada
akhirnya juga akan mempunyai validitas yang tinggi
Perhitungan validitas butir dilakukan dengan membandingkan skor butir
dengan skor total menggunakan rumus:

12
Keterangan:
𝛾𝑝𝑏𝑖 = Koefisien Korelasi biserial
𝑀𝑝 = rerata skor dari subyek yang menjajwab betul bagi ite, yang dicari validitasnya

𝑀𝑡 = rerata skor total

𝑆𝑡 = Standar deviasi dari skor total


𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑠𝑖𝑠𝑤𝑎 𝑦𝑎𝑛𝑔 𝑏𝑒𝑛𝑎𝑟
P = proporsi peserta didik yang menjawab benar (𝑃 = )
𝑗𝑢𝑚𝑙𝑎ℎ 𝑠𝑒𝑙𝑢𝑟𝑢ℎ 𝑠𝑖𝑠𝑤𝑎

q = proporsi peserta didik yang menjawab salah (𝑞 = 1 − 𝑃)

Contoh:

∑ 𝑋𝑡 130
𝑀𝑡 = = = 6,5
𝑁 20
2 2
∑ 𝑋𝑡2 ∑ 𝑋𝑡 934 130 2
𝑆𝐷𝑡 =√ −( ) = √ −( ) = √46,7 − 6,5 = √4,45 = 2,11
𝑁 𝑁 20 20

Perhitungan Mp dari tiap butir soal 1 sd 10:

13
Menghitung korelasi 𝛾𝑝𝑏𝑖∶

c) Dengan Rank Method of Correlation (Metode Spearman)


Di samping metode Pearson seperti yang telah dibahas, untuk menghitung validitas
suatu tes dapat juga kita pergunakan metode Spearman yang disebut rank metode of
correlation.
Rumusnya:

6 ∑ 𝐷2
𝜌 = 1 - 𝑁 (𝑁2−1)

Cara menghitung koefisien korelasi menurut metode Spearman ini bukan


berdasarkan nilai-nilai yang sebenarnya dari skor-skor yang terdapat dalam kedua
kelompok, melainkan didasarkan atas nilai relative ranking (nilai untuk tingkatan
secara relatif) dari tiap skor di dalam kedua kelompok tersebut.

14
Misalnya seorang penduduk akan mencari korelasi untuk melihat coefficient of
reliability dari suatu tes. Tes tersebut dicobakan dua kali kepada sekelompok murid
yang sama, tetapi dalam waktu yang berbeda. Dengan menggunakan rank method of
correlation menurut Spearman itu pendidik tersebut menyusun dan mengerjakan tabel
berikut.
Penjelasan tentang langkah-langkah penyusunan tabel yaitu sebagai berikut:

a. Skor kelompok I dalam kolom 2 disusun menurut urutan (peringkat) dari yang
tertinggi ke yang terendah. Kemudian nomor untuk tingkatan dari skor kelompok
I dimasukkan ke dalam kolom 3 yakni 1 s.d 20, dengan banyaknya skor atau murid
yang dites
b. Dalam menyusun peringkat tersebut, skor yang sama seperti 57, 53, dan 49
(masing-masing terdapat dua angka), besarnya peringkat menjadi berubah yang
seharusnya menjadi peringkat 2 dan. 3, karena kedua-duanya sama menjadi
2+3 5+6
peringkat = 2½. Pada peringkat skor 54 bukan 5 dan 6, melainkan = 5½.
2 2

Demikianlah selanjutnya pada skor-skor lain yang sama. Jika skor yangsama itu
ada 3 makan ketiga skor tersebut dijumlahkan kemudian dibagi 3, dan seterusnya.

Tabel Perrhitungan Korelasi dengan Metode Spearman:


Skor Peringkat
Nama Murid D D2
I II I II
A 57 38 1 1 0 0
B 56 34 2½ 5 2½ 6¼
G 56 35 2½ 4 1½ 2¼
D 54 33 4 6½ 2½ 6¼
E 53 31 5½ 9 3½ 12½
F 53 32 5½ 8 2½ 6¼
G 52 33 7 6½ ½ ¼
H 51 36 8 2½ 5½ 30¼
I 50 30 9 10½ 1½ 2¼
J 49 36 10½ 2½ 8 64
K 49 26 10½ 15 4½ 20¼
L 47 27 12 14 2 4
M 46 30 13 10½ 2½ 6¼
N 43 29 14 12 2 4
O 41 25 15 16½ 1½ 2¼
P 38 28 16 13 3 9
Q 26 25 17 16½ ½ ¼
R 32 24 18 18 0 0
S 25 15 19 20 1 1
T 20 5 20 19 1 1

15
∑D² = 178

c. Demikian pula kita lakukan terhadap skor-skor kelompok II. Hanya kebetulan
skor-skor kelompok II tidak berurutan karena bergantung pada pencapaian skor
tiap murid dalam pelaksanaan tes yang kedua. Dengan demikian, peringkatnya pun
tidak berurutan.
d. Kolom 4 (kolom D) diisi dengan selisih antara kedua peringkat dari kolom 3,
sedangkan kolom 5 (kolom D²) berisi kuadrat peringkat pada kolom 4 (kolom D)
e. Langkah selanjutnya adalah menjumlahkan isi kolom D² dibawah kolom 5
sehingga memperoleh ∑D² = 178

Dengan menggunakan rumus menurut metode Spearman:


6 ∑ 𝐷2
𝜌 = 1 - 𝑁 (𝑁2−1)

Maka koefisien korelasi dari data tersebut sesuai dengan perhitungan dalam tabel
adalah sebagai berikut:
6 ×178 1068
𝜌=1- =1- = 1 – 0,13 = 0,87
20 (202 −1) 7980

Dengan demikian, kriteria penafsiran korelasi seperti yang dikemukakan di muka,


dengan koefisien korelasi sebesar +0.87 berarti bahwa hasil tes tersebut memiliki
korelasi yang tinggi. Selain itu, dapat pula dikatakan bahwa Tes tersebut memiliki
tingkat keandalan yang cukup baik. Tes tersebut andal (reliable).
Perlu ditambahkan bahwa metode Spearman hanya baik digunakan untuk mencari
korelasi antara data-data yang berjumlah kecil, sedangkan untuk data-data yang
berjumlah besar, metode Spearman ini kurang teliti dan sukar digunakan.
Kekurangtelitiannya antara lain disebabkan oleh kemungkinan adanya range yang tidak
sama (terlalu besar dan terlalu kecil) antara suatu skor dengan skor berikutnya sehingga
tidak seimbang dengan peringkatnya. Oleh karena itu, untuk menghitung korelasi data-
data yang jumlahnya banyak, seringkali digunakan metode lain seperti metode Pearson
atau ''diagram pencar" (scatter diagram)

B. RELIABILITAS
Instrumen dikatakan memiliki reliabilitas yang tinggi jika instrumen tersebut dapat
menghasilkan hasil pengukuran yang tetap. Suatu tes atau alat evaluasi dikatakan andal
jika ia dapat dipercaya, koefisien, atau stabil dan produktif. Jadi, yang dipentingkan disini

16
ialah ketelitiannya pada sejauh mana tes atau alat tersebut dapat dipercaya dan konsisten
kebenarannya.
Terdapat beberapa faktor yang dapat mempengaruhi keandalan suatu tes, antara lain:
1) Luas tidaknya sampling yang diambil. Semakin luas suatu sampling, berarti tes semakin
andal.
2) Perbedaan bakat dan kemampuan murid yang dites. Semakin variabel kemampuan
peserta tes, berarti semakin tinggi keandalan koefisien tes. Tes yang diberikan kepada
beberapa tingkat kelas yang berbeda lebih tinggi keandalannya daripada hanya
diberikan kepada beberapa kelas yang sama, karena tingkat kelas yang berbeda akan
menghasilkan achievement yang lebih luas
3) Suasana dan kondisi testing. Suasana ketika berlangsung testing seperti tenang, gaduh,
banyak gangguan, pengetes yang marah-marah dapat mengganggu pengerjaan tes
sehingga dengan demikian mempengaruhi pula hasil dan keandalan tes
Tinggi rendahnya reliabilitas ini dapat dihitung dengan uji reliabilitas dan dinyatakan
dengan koefisien reliabilitas keandalan (reliability) atau ketelitian suatu alat evaluasi.

1) Menentukan Reliabilitas Suatu Tes


a) Metode Tes Ulang (Tes - Retest Method)
Sebuah tes diberikan dua kali kepada sekelompok murid yang sama, tetapi dalam
waktu yang berbeda. Kedua hasil tes itu kemudian dicari korelasinya. Korelasi hasil
kedua tes itu dapat dipandang sebagai reliabilitas test itu.
Penentuan reliabilitas suatu instrumen dengan metode ulangan adalah dengan
memberikan instrument yang sama kepada sejumlah subjek yang sama pada waktu yang
berbeda, tetapi dalam kondisi pengukuran yang relatif sama. Kesukaran yang sering
ditemui yaitu menciptakan suatu kondisi yang hampir sama dalam situasi yang
berlainan. Kondisi disini mencakup arti luas. Umpama waktu pagi dengan sore hari
akan memberikan kondisi yang berbeda, demikian juga dengan motivasi maupun
semangat subjek.
Banyak teknik yang dapat digunakan untuk menentukan korelasi antara hasil
tes/instrumen pertama dan hasil instrumen yang sama dengan kedua kalinya. Salah satu
cara yang dapat digunakan ialah dengan product moment correlation, apabila data yang
dihasilkan data interval. Adapun formula yang digunakan yaitu sebagai berikut:

17
Keterangan:
𝑟𝑥𝑦 = Koefisien korelasi antara variabel x dan variabel y.
𝑥 = 𝑋 − 𝑋̅
𝑦 = 𝑌 − 𝑌̅
∑ 𝑥𝑦 = Jumlah perkalian x dan y
𝑥2 = kuadrat dari x
𝑦2 = kuadrat dari y
∑ 𝑥 2 = Jumlah kuadrat x
∑ 𝑦 2 = Jumlah kuadrat y

b) Metode Belah Dua (Split – Half Method)


Test dibagi atas dua bagian yang berimbang, misalnya sebagian terdiri dari nomor-
nomor ganjil, sebagian lagi terdiri dari nomor-nomor genap. Korelasi dari hasil kedua
test bagian adalah reliabilitas tes itu.
Dalam pelaksanaannya, suatu instrumen diberikan kepada sekelompok responden
kemudian skor yang didapat oleh masing-masing individu dibagi dua, artinya semua
nomor genap dijumlahkan skornya, demikian juga untuk nomor ganjil, sehingga
seorang responden mendapatkan dua kelompok nilai. selanjutnya cari korelasi dari
kedua kelompok itu untuk masing-masing responden. salah satu diantaranya dengan
menggunakan “rank order correlation” yang dikemukakan oleh spearman. apabila
rumus ini yang dipakai berarti instrumen yang akan digunakan akan diubah menjadi
data ordinal. Formula untuk rumus ini yaitu:
6 ∑ 𝐷2
𝜌 = 1 - 𝑁 (𝑁2−1)

Keterangan:
Rho = 𝜌 = Korelasi
N = Jumlah subjek penelitian
D = Perbedaan R1 – R2
Apabila N besar gunakanlah formula lain seperti pearson product moment
correlation.

18
Untuk dapat mengetahui reliabilitas instrumen secara keseluruhan, maka pada
langkah berikutnya hendaklah dicari lagi korelasinya dengan menggunakan Spearman-
Brown formula sebagai berikut:
2𝑟𝑋1 𝑋2
𝑟𝑥𝑥 =
1 + 𝑟𝑋1 𝑋2
Keterangan:
𝑟𝑋1 𝑋2 = Korelasi skor genap dan ganjil
𝑟𝑥𝑥 = reliabilitas instrument secara keseluruhan

Contoh:
c Responden R1 R2 D (R1 - R2) D2
1 A 1 2 -1 1
2 B 3 1 2 4
3 C 4 3 1 1
4 D 6 5 1 1
5 E 7 8 1 1
6 F 8 6 2 4
7 G 9 7 2 4
8 H 2 9 -7 49
9 I 5 4 1 1
10 J 10 10 0 0
11 K 11 11 0 0
Jumlah 0 66

Korelasi menurut Spearman yaitu:


6 ∑ 𝐷2
𝜌 = 1 - 𝑁 (𝑁2−1)
6 ×66 396
𝜌 = 1 - 11 (121 − 1) = 1 - 1320 = 1 - 0,30 = 0,70

Reliabilitas instrument yaitu:


2𝑟𝑋1 𝑋2
𝑟𝑥𝑥 =
1 + 𝑟𝑋1 𝑋2
2 ×0,70 1,40
𝑟𝑥𝑥 = = 1,70 = 0,82
1+ 0,70

Dari koefisien reliabilitas diatas (0,82) dapat disimpulkan bahwa alat ukur
tersebut cukup reliabel.
Adapun pendapat Flangan kurang sependapat dengan Speraman Brown, yang
mengganggap bahwa varian untuk masing-masing kelompok sama, karena itu ia
menggunakan formula sebagai berikut:

19
1−𝜎2 1 + 𝜎2 2
𝑟𝑡𝑡 = ( )
𝜎2 𝑡

Keterangan:
𝑟𝑡𝑡 = korelasi keseluruhan
𝜎 2 1 = varian skor bagian pertama (add)
𝜎 2 2 = varian skor bagian kedua (ganjil)
𝜎 2 𝑡 = varian skor keseluruhan

Disamping menggunakan formula diatas, konsistensi internal dapat pula diberi


dengan Gutmann dan Kuder-Richardson, formula KR20 sebagai berikut:
𝑛 𝑆𝑡2 − ∑ 𝑝𝑞
Rn = (𝑛−1) 𝑆𝑡2

Keterangan:
Rn = koefisien reliabilitas keseluruhan instrument
n = jumlah butir dalam keseluruhan instrument
𝑆𝑡2 = standar deviasi dari keseluruhan instrument
p = proporsi jumlah responden (dalam persen) yang menjawab tiap butir benar
q = proporsi jumlah responden (dalam persen) yang gagal menjawab instrument
∑ 𝑝𝑞 = Jumlah perkalian p dan q untuk semua butir

Adapun KR21 adalah sebagai berikut


𝑛 𝑀 (𝑛−𝑀) 𝑛 𝜎2 𝑡−𝑛𝑝𝑞
KR21 = (𝑛−1) (1 − ) atau KR21 = (𝑛−1) ( )
𝑛𝑆𝑡2 𝜎2 𝑡

Contoh:
Mahasiswa sebanyak 10 orang diberikan ujian dari nomor 1 sampai 6. Bentuk ujiannya
pilihan ganda, hasilya sebagai berikut:
No
Kunci Jawaban Mahasiswa Proporsi
Soal
A B C D E F G H I J p q pq
1 c a b c c d c c c d c 0,6 0,4 0,24
2 b a c c b b b b b d c 0,5 0,5 0,25
3 a a a b b a a a a c a 0,7 0,3 0,21
4 d d a b d d d d d d d 0,8 0,2 0,16
5 c c c b c c c c c c d 0,8 0,2 0,16
6 d d d a a d d d d c d 0,6 0,4 0,24
Jumlah∑ 𝑝𝑞 1,26

A B C D E F G H I J q

20
Skor Genap (X) 2 1 0 2 3 3 3 2 1 2 Jumlah ∑ 𝑋 = 19
Skor Ganjil (Y) 2 2 1 2 2 3 3 3 1 2 Jumlah
∑ 𝑌 = 21
X+Y 4 3 1 4 5 6 6 5 2 4
N = 10

∑ 𝑋 + 𝑌 40
M= = =4
𝑁 10
∑ 𝑋 2 = 45 | ∑ 𝑌 2 = 49 | ∑(𝑋 + 𝑌)2 = 184
184 402
Varians (𝑆𝑡2 ) = − = 18,4 – 16 = 2,4
10 10

Jumlah item (n) = 6


𝑛 𝑆𝑡2 – ∑ 𝑝𝑞
KR20 = (𝑛−1) 𝑆𝑡2
6 2,4 – 1,26 1,14
KR20 = (6−1) = 1,2 × = 1,2 × 0,475 = 0,57
2,4 2,4

𝑛 𝑀 (𝑛−𝑀)
KR21 = (𝑛−1) (1 − )
𝑛𝑆𝑡2
6 4 (6−4) 8
KR21 = (5) (1 − ) = 1,2 × 14,4 = 1,2 × (1 − 0,56) = 1,2 × 0,44 = = 0,528
6 × 2,4

KR21 lebih baik digunakan apabila tingkat kesukaran tidak jauh berbeda antara butir
soal yang terdapat dalam tes. Tetapi angka koefisien yang ditujukan oleh KR21 selalu
lenih rendah. Kalua tingkat kesukaran butir soal yang terdapat dalam ujian atau tes itu
berbeda antara yang satu dan yang lain maka sebaiknya digunakan KR20 bukan KR21.

c) Metode Paralel
Dua tes yang paralel dan setara (ekuivalen) diberikan kepada sekelompok anak di
waktu yang bersamaan. Hasil kedua tes tersebut kemudian dicari korelasinya.
Reliabilitas tes adalah tingkat kesesuaian dari kedua teks itu.
Yaitu dua buah tes yang mempunyai kesamaan, tujuan, tingkat kesukaran dan
materi, tetapi berbeda butir soal nya. Misalnya tes matematika seri A di cari reliabelnya
dengan tes matematika seri B. kedua soal tersebut di berikan kepada siswa yang sama
dalam waktu yang sama. Pelaksanaan nya bisa di lakukan dengan waktu yang
berselang seling. Skor yang di dapat dengan tes seri A di korelasikan dengan skor yang
di dapat dengan tes seri B. indeks korelasi yang di dapat dengan cara ini adalah
koefisien ekuivalen.
Pencarian reliabilitas tes dengan metoda paralel dan tes ulang dapat di gunakan
kedua macam rumu produk moment. Sedangkan untuk metoda belah dua mencari
reliabelitas tes dengan produk moment hasilnya baru berarti setengah reliable dan

21
harus dilanjutkan dengan pencarian korelasi keseluruhan tes dengan menggunakan
rumus:
1 1
2𝑟 2×2
r11 = 1 1
1+ 𝑟2×2

Keterangan:
r11 = reliabilitas seluruh tes
11 1
𝑟 2 2 = reliabilitas 2 dari tes, yaitu reliable yang sudah dicari dengan rumus product moment

Kriteria tingkat reliabilitas tes sama dengan kriteria yang digunakan pada kriteria
validitas tes.

C. Tingkat Kesukaran
Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal yang
terlalu mudah tidak merangsang siswa untuk mempertinggi usaha memecahkannya.
Sebaliknya soal yang terlalu sukar akan menyebabkan siswa menjadi putus asa dan tidak
mempunyai semangat untuk mencoba lagi, karena diluar jangkauannya. Misalnya saja
guru A memberikan ulangan soalnya, mudah-mudah, sebaliknya guru B kalau
memberikan ulangan soal-soalnya sukar-sukar. Dengan pengetahuannya dengan kebiasaan
ini maka siswa akan belajar giat jika menghadapi ulangan dari guru B dan sebaliknya jika
akan mendapat ulangan dari guru A tidak mau belajar giat atau bahkan mungkin tidak mau
belajar sama sekali.

1) Menentukan Tingkat Kesukaran Suatu Tes


Bilangan yang menunjukkan sukar dan mudahnya suatu soal disebut indeks
kesukaran (Difficulty index). Besarnya indeks kesukaran antara 0,00 sampai dengan
1,0. Indeks kesukaran ini menunjukkan taraf kesukaran soal. Soal dengan indeks
kesukaran 0,0 menunjukkan bahwa soal itu terlalu sukar, sebaliknya indeks 1,0
menunjukkan bahwa soalnya terlalu mudah.

22
Di dalam istilah evaluasi, indeks kesukaran ini diberi simbol P (P besar), singkatan
dari kata “Proporsi”. Dengan demikian maka soal dengan P = 0,20. Sebaliknya soal
dengan P = 0,30 lebih sukar daripada soal dengan P = 0,80.

Adapun rumus mencari P adalah:

Dimana:
P = indeks kesukaran.
B = banyaknya siswa yang menjawab soal itu dengan betul
JS = jumlah seluruh siswa peserta tes

Misalnya:
Ada 20 orang dengan nama kode A-T yang mengajarkan tes yang terdiri dari 20 soal.
Jawaban tesnya dianalisa dan jawabannya tertera seperti dibawah ini.
(1= Jawaban betul, 0 = Jawaban salah).

23
Dari tabel yang disajikan di atas dapat ditafsirkan bahwa:
10
• Soal nomor 1 mempunyai taraf kesukaran 20 = 0,5

• Soal nomor 13 adalah soal yang paling mudah karena seluruh siswa peserta tes
dapat menjawab:
20
Indeks kesukarannya 20 = 1

Menurut ketentuan yang sering diikuti, indeks kesukaraan sering diklasifikasikan


sebagai berikut:

Walaupun demikian itu yang berpendapat bahwa: soal-soal yang dianggap baik,
yaitu soal-soal sedang, adalah soal-soal yang mempunyai indeks kesukaraan 0,30
sampai dengan 0,70

D. Daya Pembeda
Daya pembeda soal adalah kemampuan suatu soal untuk membedakan antara siswa
yang pandai (berkemampuan tinggi) dengan siswa yang bodoh (berkemampuan rendah).
Angka yang menunjukkan besarnya beda pembeda disebut indeks Diskriminasi, disingkat
D. Seperti halnya indeks kesukaran, indeks diskriminasi (daya pembeda) ini berkisar
antara 0,00 sampai 1,00 hanya bedanya indeks kesukaraan tidak mengenal tanda negative.
Tanda negatif pada indeks diskriminasi digunakan jika sesuatu soal “terbalik”
menunjukkan kualitas tester yaitu anak pandai disebut bodoh dan anak bodoh disebut
pandai.
Dengan demikian ada tiga titik pada daya pembeda yaitu :

Bagi suatu soal dapat dijawab benar oleh siswa pandai maupun siswa bodoh, maka soal
itu tidak baik karena tidak mempunyai daya pembeda. Demikian pula jika semua baik yang

24
pandai maupun yang bodoh tidak dapat menjawab dengan benar, soal tersebut tidak baik,
juga karena tidak mempunyai daya pembeda. Soal yang baik adalah soal yang dijawab
benar oleh siswa-siswa yang pandai saja. Seluruh pengikut tes dikelompokkan menjadi 2
kelompok yaitu kelompok pandai atau kelompok atas (upper group) dan kelompok bodoh
atau kelompok bawah (lower group).

1) Menentukan Daya Pembeda (Nilai D)


Untuk ini perlu dibedakan antara kelompok kecil (kurang dari 100) dan
kelompok besar (100 orang ke atas).
• Untuk Kelompok Kecil
Seluruh kelompok tester dibagi dua sama besar, 50% kelompok atas dan 50%
kelompok bawah.
Contoh:

Seluruh pengikut tes, dideretkan mulai dari skor teratas sampai terbawah, lalu dibagi
dua.

• Untuk Kelompok Besar


Mengingat biaya dan waktu untuk menganalisa, maka untuk kelompok besar
biasanya hanya diambil kedua kutubnya saja, yaitu 27% skor teratas sebagai kelompok
atas (JA) dan 27% skor terbawah sebagai kelompok bawah (JB).
JA = Jumlah kelompok atas
JB = Jumlah kelompok bawah

25
Rumus Mencari D
Rumus untuk menentukan indeks diskriminasi adalah :

Dimana
J : Jumlah peserta tes
JA : Banyaknya peserta kelompok atas
JB : Banyaknya peserta kelompok bawah
BA : Banyaknya peserta kelompok atas yang menjawab soal itu dengan benar.
BB : Banyaknya peserta kelompok bawah yang menjawab soal itu dengan benar

Contoh Perhitungan:
Dari hasil analisa tes yang terdiri dari 10 butir soal yang dikerjakan oleh 20 orang
siswa, terdapat dalam tabel sebagai berikut:
Tabel analisa 10 butir soal, 20 orang siswa.

26
Berdasarkan nama-nama siswa tersebut dapat kita peroleh skor-skor sebagai berikut:

Dari angka-angka yang belum teratur kemudian dibuat array (uraian penyebaran), dari
skor yang paling tinggi ke skor yang paling rendah.

27
Array ini sekaligus menunjukkan adanya kelompok atas (JA) dan kelompok
bawah (JB) dengan pemilikan nya sebagai berikut:

Mari kita perhatikan lagi tabel analisa, khusus untuk butir soal nomor 1
• Dari kelompok atas yang menjawab betul 8 orang
• Dari kelompok bawah yang menjawab betul 3 orang

Kita terapkan dalam rumus indeks diskriminasi :

Butir soal ini jelek karena lebih banyak dijawab benar oleh kelompok bawah
dibandingkan dengan jawaban kelompok atas. Ini berarti bahwa untuk menjawab soal
dengan benar dapat dilakukan dengan menebak:
Butir- butir soal yang baik adalah butir-butir soal yang mempunyai indeks
diskriminasi 0,4 sampai 0,7

28
E. Objektivitas
Objektif dalam konteks kehidupan sehari-hari berarti tidak adanya unsur pribadi yang
mempengaruhi. Sebuah tes bisa dikatakan objektif apabila tes tersebut tidak ada pengaruh-
pengaruh subjektivitas dari evaluator dalam menetapkan hasilnya. Dalam meminimalisir
pengaruh subjektivitas yang tidak bisa dihindari, hendaknya evaluasi dilakukan dengan
mengacu pada pedoman pertama menyangkut masalah kontinuitas dan komprehensif.
Dengan evaluasi yang berkali-kali dilakukan maka evaluator akan memperoleh gambaran
yang lebih jelas tentang keadaan audiens yang dinilai. Evaluasi yang diadakan hanya satu
atau dua kali, tidak dapat memberikan hasil yang objektif tentang keadaan audiens yang
dievaluasi.
Objektivitas suatu tes ditentukan oleh kesamaan skor-skor yang diperoleh dari tes
tersebut meskipun hasil tes ini dinilai oleh beberapa orang sehingga diperlukan kunci
jawaban tes (scoring key). Kualitas objektivitas suatu tes dapat dibedakan menjadi tiga
tingkatan berikut:
1. Objektivitas tinggi adalah jika hasil-hasil tes itu menunjukkan tingkat keasaman yang
tinggi. Contohnya tes yang sudah distandarisasi hasil penilaiannya objektif.
2. Objektivitas sedang ialah seperti tes yang sudah distandarisasi, tetapi pandangan
subjektif skor masih mungkin muncul dalam penilaian dan interpretasinya.
3. Ojektivitas fleksibel ialah seperti beberapa jenis tes yang digunakan oleh LBP
(Lembaga Bimbingan dan Penyuluhan) untuk keperluan konseling, misalnya tes yang
bersifat open-end item (open-end-questions).
Tes hasil belajar dapat dikatakan sebagai tes hasil belajar yang objektif apabila tes tersebut
disusun dan dilaksanakan menurut "apa adanya". Ditinjau dari segi sisi atau materi tesnya,
istilah "apa adanya" itu mengandung pengertian bahwa materi tersebut diambil dan atau
bersumber dari materi atau bahan pelajaran yang telah diberikan, sesuai atau sejalan
dengan tujuan instruksional khusus yang telah ditentukan. Bahan pelajaran yang telah
diberikan atau diperintahkan untuk dipelajari oleh peserta didik itulah yang dijadikan
acuan dalam pembuatan atau penyusunan tes hasil belajar tersebut.
Tes yang baik adalah tes yang objektif. Maka, buatlah teks subjektif mungkin agar
kemampuan peserta didik mampu diukur dan dinilai dengan baik. Tes objektif akan
memberikan gambaran yang sejujurnya pada siswa, sehingga kalau ada siswa yang
mendapat nilai kurang baik, maka mereka akan terpacu untuk belajar lebih giat.
Sebaliknya, jika tes itu tidak objektif, Maka hal itu akan berimplikasi pada kegiatan proses
belajar, terutama peserta didik yang mestinya mendapat nilai jelek, tetapi karena

29
mempunyai kedekatan emosional dengan guru, maka nilainya kemudian dapat diubah
menjadi baik

F. Kepraktisan
Kepraktisan suatu tes penting juga untuk diperhatikan. Suatu tes dikatakan mempunyai
kepraktisan yang baik jika kemungkinan untuk menggunakan tes itu besar. Kriteria untuk
mengukur praktis atau tidaknya suatu tes dapat dilihat sebagai berikut:
a. biaya yang diperlukan untuk menyelenggarakan tes
b. waktu yang diperlukan untuk menyusun tes
c. sukar-mudahnya dalam menyusun tes
d. sukar-mudahnya menilai (skoring) hasil tes
e. sulit atau tidaknya dalam menginterpretasikan (mengolah) hasil tes
f. lamanya waktu yang diperlukan untuk melaksanakan tes.

30
BAB III
PENUTUP

A. Kesimpulan
Tes merupakan bagian yang mendasar dalam proses belajar dan mengajar. Salah satu
bentuk evaluasi yang populer digunakan untuk mengetahui apakah hasil belajar telah sesuai
dengan tujuan pembelajaran adalah dengan memberikan tes. Dengan kata lain, untuk
mengukur keberhasilan dari suatu proses belajar dan mengajar adalah dengan melalui
sebuah tes.
Tes yang dapat dikatakan baik sebagai alat pengukur, harus memenuhi persyaratan tes,
yaitu memiliki validitas, reliabilitas (keandalan), daya pembeda, objektivitas, dan
kepraktisan. Validitas artinya sah atau tepat. Sebuah tes dapat dikatakan validitas apabila
tes tersebut dapat mengukur objek yang hendak diukur. Reliabilitas yaitu jika tes atau alat
tersebut dapat dipercaya dan konsisten kebenarannya. Tingkat kesukaran adalah jika soal
yang tidak terlalu mudah atau tidak terlalu sukar. Daya pembeda soal adalah kemampuan
suatu soal untuk membedakan antara siswa yang pandai (berkemampuan tinggi) dengan
siswa yang bodoh (berkemampuan rendah), serta sebuah tes harus objektif, yang mana
tidak ada pengaruh-pengaruh subjektivitas dari evaluator dalam menetapkan hasilnya dan
mempunyai kepraktisan yang baik jika kemungkinan untuk menggunakan tes itu besar.

B. Saran
Dengan adanya pembahasan mengenai syarat umum tes yang baik, diharapkan para
pembaca dapat memahami lebih lanjut tentang tes dan syarat membuat tes agar nantinya
dapat membuat tes yang baik sesuai dengan persyaratan. Penulis menyadari bahwa
makalah ini jauh dari kata sempurna. Oleh karena itu, penulis menerima kritik saran yang
membangun untuk perbaikan penulisan makalah selanjutnya Dengan demikian, penulis
menyarankan agar pembaca juga mempelajari materi ini dari sumber lain untuk
memperkaya wawasan pembaca.

31
DAFTAR PUSTAKA

Febriana, Dina. 2019. Evaluasi Pembelajaran. Jakarta: Bumi Aksara.


Arikunto, Suharsimi. 2018. Dasar-Dasar Evaluasi Pendidikan, Edisi 3. Jakarta: Bumi Aksara.
Atmaja, Nanda Pramana. 2016. Buku Super Lengkap Evaluasi Belajar-Mengajar.Yogyakarta:
DIVA Press.
Asrul, Rusydi Ananda, dan Rosnita. 2014. Valuasi Pembelajaran. BandungCiptapustaka
Media.

32

Anda mungkin juga menyukai