PENDAHULUAN
Secara harfiah kata evaluasi berasal dari bahasa inggris evaluation yang dalam
bahasa Indonesia berarti penilaian. Akar katanya adalah value yang berarti
nilai.Dengan demikian secara harfiah, evaluasi pendidikan dapat di artikan sebagai
penilaian dalam (bidang) pendidikan atau penilaian mengenai hal-hal yang
berkaitan dengan kegiatan pendidikan.
Adapun dari segi istilah, evaluasi itu menunjuk kepada atau mengandung
pengertian suatu tindakan atau suatu proses untuk menentukan nilai dari
sesuatu.Maka evaluasi pendidikan itu dapat di artikan sebagai suatu tindakan atau
kegiatan atau suatu proses menentukan nilai dari segala sesuatu dalam dunia
pendidikan (yaitu segala sesuatu yang berhubungan dengan yang terjadi di lapangan
pendidikan). Atau singkatnya evaluasi pendidikan adalah kegiatan atau proses
penentuan nilai pendidikan, sehingga dapat di ketahui mutu atau hasil-hasilnya.
Sebelum melanjutkan pembicaraan tentang evaluasi pendidikan secara lebih
luas dan mendalam, terlebih dahulu perlu di pahami bahwa dalam praktek sering
kali terjadi kerancuan atau tumpang tindih dalam penggunaan istilah evaluasi,
penilaian dan pengukuran.Kenyataan seperti itu memang dapat di pahami, mengigat
bahwa di antara ketiga istilah tersebut saling terkait sehingga sulit untuk di bedakan.
Dalam evaluasi terdapat beberapa teknik pengujian reliabilitas tes hasil belajar,
tingkat kesukaran soal dan daya pembeda yang akan kami bahas dalam makalah ini.
1
7 Bagaimana Manganalisis daya pembeda soal?
1.3 Tujuan
1. Agar mahasiswa mengetahui pengertian reliabilitas.
2. Apa saja jenis reliabilitas.
3. Apa saja faktor yang mempengaruhi reliabilitas
4. Agar Mahasiswa mengetahui pengertian Tingkat Kesukaran
5. Agar mahasiswa memahami cara menganalisis tingkat kesukaran soal
6. Agar mahasiswa mengetahui pengertian Daya Pembeda
7. Agar mahsiswa memahami cara menganalisis daya pembeda soal
2
BAB II
PEMBAHASAN
2.1 Pengertian Reliabilitas
Kata reliabillitas dalam bahasa Indonesia di ambil dari reliability dalam
bahasa inggris, berasal dari kata, reliable yang artinya dapat di percaya. “reliabilitas”
merupakan kata benda, sedangkan “reliable” merupakan kata sifat atau keadaan.
Reliabilitas merupakan penerjemahan dari kata reliability yang mempunyai
asal kata rely dan ability. Pengukuran yang memiliki reliabilitas tinggi disebut
sebagai pengukuran yang reliabel (reliable).Walaupun reliabilitas mempunyai
berbagai arti seperti kepercayaan, keterandalan, keajegan, kestabilan dan
konsistensi, namun ide pokok yang terkandung dalam konsep reliabilitas adalah
sejauh mana hasil pengukuran dapat dipercaya.
Dari beberapa pengertian di atas jadi reliabilitas tes merupakan suatu alat ukur
yang digunakan untuk mengetahui konsistensi pengukuran tes yang hasilnya
menunjukan keajegan.Seorang dikatakan dapat di percaya apabila orang tersebut
berbicara ajeg, tidak berubah-ubah pembicaraannya dari waktu ke waktu.Dalam
sebuah tes pentingnya diamati keajegan dan kepastian tes tersebut dilihat dari hasil
tes yang didapat.
Reliabilitas berhubungan dengan masalah kepercayaan. Suatu tes dikatakan
mempunyai taraf kepercayaan yang tinggi jika tes tersebut dapat memberikan hasil
yang tetap. Pengertian reliabilitas tes, berhubungan dengan masalah ketetapan hasil
tes. Jadi, reliabilitas adalah ketetapan suatu tes apabila diteskan kepada subjek yang
sama. Jika keadaan si A mula-mula berada lebih rendah dibandingkan dengan si B,
maka jika diadakan pengukuran ulang, si A juga berada lebih rendah dari B. Itulah
yang dikatakan tetap, yaitu sama dalam kedudukan siswa di antara anggota
kelompok yang lain. Tentu saja tidak dituntut semuanya tetap. Besarnya ketetapan
itulah menunjukkan tingginya reliabilitas instrumen.
Sehubungan dengan reliabilitas ini, Scarvia B Anderson dan kawan-kawan
menyatakan bahwa persyaratan bagi tes, yaitu validitas dan reliabilitas ini
penting.Dalam hal ini validitas lebih penting, dan reliabilitas ini perlu, karena
3
menyokong terbentuknya validitas. Sebuah tes mungkin reliabel tetapi tidak valid.
Sebaliknya, sebuah tes yang valid biasanya reliabel.
Tes paralel atau tes equivalent adalah dua buah tes yang mempunyai kesamaan
tujuan, tingkat kesukaran, dan susunan, tetapi butir-butir soalnya berbeda.
Dua buah tes paralel misalnya tes matematika seri A yang akan dicari
reliabilitasnya dan tes seri B diteskan kepada sekelompok siswa yang sama, kemudian
hasilnya dikorelasikan. Koefisien korelasi dari kedua tes inilah yang menunjukkan
koefisien reliabilitas tes seri A. Jika koefisiennya tinggi maka tes tersebut sudah
reliabel dan dapat digunakan sebagai alat pengetes yang terandalkan.
Dalam menggunakan metode tes paralel ini pengetes harus menyiapkan dua
buah tes, dan masing-masing dicobakan pada kelompok siswa yang sama.
Penggunaan metode ini baik karena siswa dihadapkan kepada dua macam tes
sehingga tidak ada faktor “masih ingat soalnya” yang dalam evaluasi disebut adanya
practice-effect dan carry-over effect, artinya ada faktor yang dibawa oleh pengikut tes
karena sudah mengerjakan soal
tersebut.
Kelemahan dari metode ini adalah bahwa pengetes pekerjaannya berat karena
harus menyusun dua seri tes dan harus tersedia waktu yang lama untuk mencobakan
dua kali tes.
Metode tes ulang adalah sebuah tes yang dicobakan dua kali. Untuk tes yang
banyak mengungkap pengetahuan (ingatan) dan pemahaman, cara ini kurang
mengena karena tercoba akan masih ingat akan butir-butir soalnya. Jika tenggang
waktu terlalu sempit, siswa masih banyak ingat materi. Sebaliknya kalau tenggang
waktu terlalu lama, maka faktor-faktor atau kondisi tes sudah akan berbeda, dan siswa
sendiri barangkali sudah mempelajari sesuatu. Tentu saja faktor-faktor ini akan
berpengaruh pula terhadap reliabilitas.
4
Pada umumnya hasil tes yang kedua cenderung lebih baik daripada hasil tes
pertama. Hal ini tidak mengapa karena pengetes harus sadar akan adanya practice effect
dan carry over effect.Yang penting adalah adanya kesejajaran hasil atau ketetapan hasil
yang ditunjukkan oleh koefisien korelasi yang tinggi.
𝑁𝑟12
rn =
1+(𝑁−1)𝑟12
Keterangan :
Rn = Koefisien Korelasi seluruh tes
N = Perbandingan antara panjang tes seluruhnyadengan panjang tes yang
dikorelasikan
R12 = Koefisien korelasi antara sebagian tes denganbagian tes lainnya.
Menilai soal bentuk uraian tidak dapat dilakukan dengan menilai hanya “benar” atau
“salah” seperti tes bentuk objektif. Sesuatu butir soal uraian menghendaki gradualisasi
5
penilaian. Misalnya butir soal nomor 1 penialaian terendah 0 tertinggi 8, tetapi butir
soal nomor 2 nilai tertinggi hanya 5, dan butir soal nomor 3 sampai 10 dan sebagainya.
Untuk keperluan mencari reliabilitas soal keseluruhan perlu juga dilakukan analisis
butir soal seperti halnya soal bentuk objektif. Skor untuk masing-masing butir soal
dicantumkan pada kolom item menurut apa adanya. Rumus yang digunakan adalah
rumus alpha sebagai berikut:
𝑛 ∑𝜎12
𝑟11 = ( ) (1 − 2 )
𝑛−1 𝜎1
Dimana :
∑𝜎12 = Jumlah varians skor tiap -tiap item
R11 = Reliabilitas yang dicari
𝜎12 = Varians total
6
pada ujung bawah. Dua kejadian tersebut mempunyai kesamaan yaitu bahwa
perbedaan di antara individu adalah kecil dan cenderung tidak relevan
4. Objektivitas; yang di maksud objekif yaitu derajat dimana siswa dengan
kompetensi sama mencapai hasil sama. Ketika prosedur test evaluasi memiliki
objektivitas tinggi, maka reliabilitas test tidak dipengaruhi oleh prosedur teknik
penskoran. Item test objektif yang dihasilkan tidak dipengaruhi pertimbangan
atau opini seorang evaluator.
7
kesukaran sedang, untuk keperluan seleksi digunakan butir soal yang memiliki
tingkat kesukaran tinggi/sukar, dan untuk keperluan diagnostik biasanya digunakan
butir soal yang memiliki tingkat kesukaran rendah/mudah.
2.5.1 Cara Menentukan Tingkat Kesukaran
a. Untuk menghitung tingkat kesukaran tiap butir soal digunakan
persamaan:
𝐵
P=
𝐽𝑥
8
3. Buatlah tabel seperti di bawah ini :
No. Soal WL WH WL + WH WL-WH
1
2
3
Dst.
Keterangan :
WL = Jumlah individu kelompok bawah (27% dari bawah) yang tidak
menjawab atau menjawab salah pada item tertentu
WH = Jumlah individu kelompok atas (27% dari atas) yang tidak menjawab
atau menjawab salah pada item tertentu
4. Isilah kolom-kolom tabel tersebut dengan data yang diperoleh.
5. Derajat Kesukaran (DK) atau Degrees of Difficulty (DD) dapat dicari
dengan rumus :
𝑤𝐿 +𝑤𝐻
DK = × 100%
𝑛𝐿 +𝑛𝐻
Keterangan :
DK = Derajat Kesukaran
nL = Jumlah kelompok Bawah
nH = Jumlah Kelompok Atas
Derajat kesukaran yang baik adalah derajat kesukaran yang bergerak antara
25% sampai 75%. Item yang mempunyai derajat kesukaran dibawah 25%
berarti bahwa item tersebut terlalu mudah. Sebaliknya item yang
mempunyai dearjat kesukaran di atas 75% bearti bahwa item tersebut terlalu
sukar.
9
dengan perbedaan yang ada dalam kelompok itu. Indeks yang digunakan dalam
membedakan antara peserta tes yang berkemampuan tinggi dengan peserta tes yang
berkemampuan rendah. Indeks ini menunjukkan kesesuaian antara fungsi soal
dengan fungsi tes secara keseluruhan. Jadi Daya pembeda soal adalah kemampuan
suatu butir soal dapat membedakan antara warga belajar/siswa yang telah
menguasai materi yang ditanyakan dan warga belajar/siswa yang
tidak/kurang/belum menguasai materi yang ditanyakan.
Daya pembeda item itu dapat diketahui melalui atau dengan melihat besar
kecilnya angka indeks diskriminasi item. Angka indeks diskriminasi item adalah
sebuah angka yang menunjukkan besar kecilnya daya pembeda yang dimiliki oleh
sebutir item. Daya pembeda pada dasarnya dihitung atas dasar pembagian siswa ke
dalam dua kelompok, yaitu kelompok atas yakni kelompok yang tergolong pandai,
dan kelompok bawah, yaitu kelompok siswa yang tergolong bodoh. Dalam
hubungan ini, jika sebutir item memiliki angka indeks diskriminasi item dengan
tanda positif, hal ini merupakanm petunjuk bahwa butir item tersebut telah memiliki
daya pembeda, dalam arti bahwa siswa yang termasuk kategori pandai lebih banyak
yang dapat menjawab dengan betul terhadap butir item yang bersangkutan,
sedangkan siswa yang termasuk kategori bodoh lebih banyak yang menjawab salah.
Jika sebutir item angka indeks diskriminasinya = 0,00 (nihil), maka hal ini
menunjukkan bahwa butir item yang bersangkutan tidak memiliki daya pembeda
sama sekali, dalam arti bahwa jumlah siswa kelompok atas yang jawabannya betul
(atau salah) sama dengan jumlah siswa kelompok bawah yang jawabannya betul.
Jadi diantara kedua kelompok siswa tersebut tidak ada perbedaannya sama sekali,
atau perbedaannya sama dengan nol. Adapun apabila angka indeks diskriminasi
item dari sebutir item bertanda negatif, maka pengertian yang terkandung
didalamnya adalah, bahwa butir item yang bersangkutan lebih banyak dijawab betul
oleh siswa kelompok bawah ketimbang siswa kelompok atas. Dengan demikian ada
tiga titik pada daya pembeda yaitu:
Daya beda (DB) atau Discrimanting Power (DP) dapat dicari dengan rumus :
10
𝑤𝐿 − 𝑤𝐻
DB =
𝑛
Keterangan :
DB = Daya Beda
n = Jumlah kelompok atas atau kelompok bawah
Daya beda ideal adalah daya beda 0,40 ke atas. Namun untuk ulangan-
ulangan harian, Msih dapat ditolerir daya beda sebesar 0,20.
11
BAB III
PENUTUP
3.1 Simpulan
3.2 Saran
12
DAFTAR RUJUKAN
Nurkancana, Wayan dan Sunarta, PPN. 1992. Evaluasi Hasil Belajar. Surabaya:
Usana Offset Printing
Arikunto, Suharsimi. 2001. Dasar-Dasar Pendidikan. Jakarta: PT. Ikrar
Mandiriabadi
Arikunto,Suharsimi. 2003. Dasar-Dasar Evaluasi Pendidikan,Jakarta: Bumi
Aksara.
13