Makalah Evaluasi

BAB I
PENDAHULUAN
A. Latar Belakang
Analisis kualitas tes merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat
kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang menjadi bagian dari tes
tersebut. Dalam peneliaian hasil belajar, tes diharapkan dapat menggambarkan sampel
perilaku dan menghasilkan nilai yang obyektif serta akurat. Jika tes yang digunakan guru
kurang baik, maka hasil yang diperoleh pun tentunya kurang baik. Hal ini dapat merugikan
peserta didik itu sendiri. Artinya, hasil yang diperoleh peserta didik menjadi tidak obyektif
dan tidak adil. oleh karena itu, tes yang digunakan guru harus memiliki kualitas yang lebih
baik dilihat dari berbagai segi. Tes hendaknya disusun sesuai dengan prinsip dan prosedur
penyusunan tes. Setelah digunakan perlu diketahui apakah suatu tes tersebut berkualitas baik
atau kurang baik. Untuk mengetahui apakah suatu tes yang digunakan termasuk baik atau
kurang baik, maka perlu dilakukan analisis kualitas.
Dalam hal pengukuran, Weitzenhoffer dalam Mohamad Nur menyatakan bahwa pengukuran

sebagai suatu operasi yang dilakukan terhadap alam fisik oleh pengamat. Misalnya, ingin
mengukur hasil belajar,intelegensi, sikap, motivasi berprestasi, dan sebagainya. Sekarang
muncul suatu pertanyaan, yaitu apakah suatu alat ukur benar-benar mengukur apa yang
hendak dan seharusnya diukur serta sejauh mana alat ukur tersebut dapat diandalkan dan
berguna, sebenarnya menunjuk pada dua hal yang pokok, yaitu validitas dan reliabilitas.
[1] Namun dalam makalah ini hanya akan dibahas tentang reliabilitas sebuah tes.
Nurkancana dalam bukunya menyatakan bahwa suatu alat pengukur dapat dikatakan alat
pengukur yang valid apabila alat pengukur tersebut dapat mengukur apa yang hendak diukur
secara tepat. Dalam hal validitas dan reliabilitas, tentunya dipengaruhi oleh(1) instrumen, (2)
subjek yang diukur, dan (3) petugas yangmelakukan pengukuran. Dalam hal pengukuran,
khususnya dalampendidikan tentunya yang terpenting adalah informasi hasil ukur yangbenar.
Sebab dengan hasil ukur yang tidak atau kurang tepat makaakan memberikan informasi yang
tidak benar, sehingga kesimpulanyang diambil juga tidak benar.[2]
Oleh karena keberhasilan mengungkap hasil dan proses dari suatu objek penelitian sangat
bergantung pada kualitas alat penilainya, di samping itu juga yang tidak kalah pentingnya
tergantung pada cara pelaksanaannya. Suatu alat penilaian dikatakan mempunyai kualitas
yang baik apabila alat tersebut memiliki atau memenuhi dua hal, yaitu validitas (ketepatan)
dan reliabilitas (ketetapan atau keajegan) alat tes terjamin kualitasnya.
Validitas dan Reliabilitas suatu data merupakan ciri yang menandai bahwa penelitian

memiliki alat ukur yang baik. Untuk dapat menentukan apakah suatu alat ukur telah memiliki
validitas atau daya ketepatan mengukur, dapat dilakukan dari dua segi; yaitu dari segi alat
ukur data itu sendiri sebagai suatu totalitas dan dari segi itemnya sebagai bagian yang tidak
terpisahkan dari tes tersebut. Sedangkan Reliabilitas adalah ketetapan suatu alat ukur apabila
diberikankan kepada subjek yang sama.
Berdasar latar belakang itu, maka dalam makalah ini akan dibahas tentang bagaimana
“Menentukan Reliabilitas serta Karakteristik Lain yang Diharapkan” dalam membuat sebuah
tes ataupun evaluasi.
B. Rumusan Masalah
1. Bagaimanakah cara menentukan reliabilitas instrumen dengan baik dan benar?
2. Karakteristik lain apakah yang diharapkan dalam evaluasi?
C. Tujuan penulisan
1. Mengetahui cara menentukan reliabilitas instrumen dengan baik dan benar.
2. Mengetahui karakteristik lain yang diharapkan dalam evaluasi

BAB II
PEMBAHASAN
A. Reliabilitas
1. Pengertian Reliabelitas
Reliabilitas adalah karakter lain dari hasil evaluasi. Realibilitas adalah tingkat atau derajat
konsistensi dari suatu instrument. Reliabilitas juga dapat diartikan sama dengan konsistensi
atau keajegan. Suatu instrumen evaluasi, dikatakan mempunyai nilai reliabilitas yang tinggi
apabila tes yang dibuat mempunyai hasil yang konsisten dalam mengukur yang hendak
diukur. Ini berarti semakin reliabel suatu tes, semakin yakin kita dapat menyatakan bahwa
dalam hasil suatu tes mempunyai hasil yang sama dan bisa dipakai di suatu tempat sekolah,
ketika dilakukan tes tersebut.
Reliabilitas soal merupakan ukuran yang menyatakan tingkat keajegan atau kekonsistenan
suatu tes soal. Untuk mengukur tingkat keajegan soal ini digunakan perhitungan Alpha
Cronbach. Rumus yang digunakan dinyatakan dengan:
Keterangan
: reliabilitas instrument
n : banyaknya butir soal
Si2 : jumlah varians tiap skor
St2 : varians skor total
Rumus untuk mencari varians adalah:
Interpretasi nilai r11 mengacu pada pendapat Guilford (Ruseffendi, 1991b: 191):
rii < 0,20 reliabilitas sangat rendah
0,20 < rii 0,40 reliabilitas rendah
0,420 < rii 0,70 reliabilitas sedang
0,70 < rii 0,90 reliabilitas tinggi
0,90 < rii 1,00 reliabilitas sangat tinggi.[3]

2. Teknik Analisis Reliabilitas
Analisis rabilitas suatu tes dan atau alat ukur lainnya, termasuk nontes, pada hakikatnya
menguji keajegan pertanyaan tes apabila diberikaan berulang kali pada objek yang sama.
Suatu tes dikatakan reliabel apabila beberapa kali pengujian menunjukkan hasil yang relatif
sama. Pengujian suatu tes bisa dilakukan terhadap objek yang sama pada waktu yang
berlainan dengan selang waktu yang tidak terlalu lama dan juga terlalu singkat, bisa juga
dilakukan dengan membandingkan hasil pengujian dari tes yang setara.[4]
a) Single test-single trial
Pendekatan single test-single trial adalah merupakan pendekatan serba single atau pendekatan
serba satu, yaitu satu kelompok subjek, satu jenis alat ukur, dan satu kali pengukuran, atau
satu kelompok testee, satu jenis tes, dan satu kali testing. Single test-single trial bisa
dilakukan dengan menggunakan formula:
1) Pendekatan Single Test-Single Trial dengan Menggunakan FormulaSpearman Brown
Dimana:
: koefisien reabilitas tes secara total (tt=total tes)
: koefisien korelasi product moment antara separoh (bagian

pertama) tes, dengan separoh (bagian tes kedua) dari tes
tersebut (hh= half-half)
1&2 : bilangan konstan
2) Pendekatan Single Test-Single Trial dengan Menggunakan Formula Flanagan
Di mana:
r11 : koefiisien reliabilitas tes secara totalitas
2 dan 1 : bilangan konstan
S12 : jumlah kuadrat deviasi (=varian) dari skor-skor hasil tes yang
termasuk pada belahan I
S22 : jumlah kuadrat deviasi (=varian) dari skor-skor hasil tes yang
termasuk pada belahan II
St2 : jumlah kuadrat deviasi (=varian total) dari skor-skor hasil tes
yang termasuk pada belahan I dan II
3) Pendekatan Single Test-Single Trial dengan Menggunakan Formula Rulon
Rumus yang dikemukakan oleh Rulon untuk mencari Koefisien Reliabilitas Tes (r11) adalah
sebagai berikut:
Di mana:
r11 : koefisien reliabilitas tes
1 : bilangan konstan
: varian perbedaan antarskor yang dicapai oleh testee pada

belahan I dengan skor yang dicapai oleh testee pada belahan
II
: varian total
4) Pendekatan Single Test-Single Trial dengan Menggunakan Formula Kuder Richadson
Adapun formula yang diajukan oleh Kuder Richadson ada dua buah yang masing-masing
diberi kode: KR20 dan KR21, yaitu:
Ø Rumus KR20:
Dimana
n : banyaknya butir item
: varian total
pi : proporsi testee yang menjawab betul butir item yang

bersangkutan
qi : proporsi testee yang jawabannya salah
: jumlah dari hasil perkalian pi dan qi

Ø Rumus KR21:
Dimana
n : banyaknya butir item
Mt = : mean total (rata-rata hitung dari skor total)
: varian total
5) Pendekatan Single Tes-Single Trial dengan Menggunakan Formula C. Hoyt
Dengan menggunakan teknik analisis varian, maka koefisien reliabilitas tes dapat diperoleh
dengan menggunakan rumus:
Dimana
MKe : mean kuadrat interaksi antara testee dan item
MKs : mean kuadrat antar subjek. [5]
b) Test-retest
Reliabilitas tes-retes tidak lain adalah derajat yang menunjukkan konsistensi hasil sebuah tes
dari waktu ke waktu. Tes retes menunjukkan variasi skor yang diperoleh dari
penyelenggaraan satu tes evaluasi yang dilakukan dua kali atau lebih, sebagai akibat
kesalahan pengukuran. Dengan melakukan tes retes tersebut seorang guru akan mengetahui
seberapa jauh konsistensi suatu tes apa yang ingin diukur.
Reliabilitas tes retes ini penting, khususnya ketika digunakan untuk menentukan prediktor
misalnya tes kemampuan. Tes kemampuan tidak akan bermanfaat, jika ternyata menunjukkan
hasil yang selalu berubah ubah secara signifikan saat diberikan kepada responden.
Reliabilitas tes retes dapat dilakukan dengan cara seperti berikut:
1) Selenggarakan tes pada suatu kelompok yang tepat sesuai dengan rencana
2) Setelah selang waktu tertentu, misalnya 1 minggu atau 2 minggu, lakukan kembali tes
yang sama dengan kelompok yang sama tersebut.
3) Korelasikan kedua tes tersebut.[6]
Untuk mencari korelasi antara skor-skor hasil tes pertama dengan skor-skor hasil tes kedua,
dapaat dipergunakan teknik korelasi rank-order (teknik korelasi tata-jenjang) dari Spearman,
dengan menggunakan rumus:
Di mana:
(dibaca rho) : koefisien korelasi antara variabel 1 (skor-sjor hasil tes

pertama) dengan variabel II (skor-skpr hasil tes kedua)
D : Difference (beda antara rank variabel I dengan variabel

II), atau D= R1-R2
6 dan 1 : bilangan konstan
N : banyaknya subjek (testee)
c) Alternate Form
Dalam pelaksanaan pengujian reabilitas tes dengan menggunakan pendekatan alternate form
atau bentuk paralel ini, skor-skor yang diperoleh dari kedua seri tes tadi dicari korelasinya.
Apabila terdapat korelasi positif yang signifikan maka dapat dikatakan bahwa tes hasil belajar
tersebut dapat dikatakan reliabel. Teknik korelasi yang dipergunakan bisa dipilih antara
teknik korelasi product moment dari Pearson atau teknik korelasi rank order dari Spearman
(khusus untuk N kurang dari 30).
Rumus prodect moment Pearson:[7]
Keterangan
: angka indeks korelasi “r” product moment
N : banyaknya pasangan skor X dan skor Y (banyaknya subjek)
: penjumlahan hasil perkalian antara skor X dan skor Y
: jumlah seliruh skor X
: jumlah seluruh skor Y
Contoh: 10 orang peserta didik dites dalam mata pelajaran PKn dan PAI. Jumlah masing-
masing lima buah. Dua buah nomor genap diambil dari hasi tes PKn dan tiga buah nomor
ganjil diambil dari hasil tes PAI. Data diambil sebagai berikut:
Nama Skor PKn Skor PAI
No. Genap (2 dan 4) No. Ganjil (1,3 dan 5)
A 8 6 8 7 10
B 7 7 6 7 5
C 5 6 6 6 6
D 8 6 7 6 9
E 5 6 5 5 5
F 4 7 4 6 6
G 5 9 7 5 5
H 7 5 8 5 4
I 7 8 4 9 7
J 9 5 9 9 4
Perhitungan Koefisien Konsistensi Internal
X Y x y X2 Y2 xy
14 25 +1 +6 1 36 6
14 8 +1 -1 1 1 -1
11 18 -2 -1 4 1 2
14 22 +1 +3 1 9 3
11 5 -2 -4 4 16 8
11 1 -2 -3 4 9 6
14 17 +1 -2 1 4 -2
12 7 -1 -2 1 4 2
15 20 +2 +1 4 1 2
14 22 +1 +3 1 9 3
130 190 22 90 29
X=13 X=19
= = = = = = 0,65
3. Faktor yang Mempengaruhi Reliabilitas
Koefisien reliabilitas dapat dipengaruhi diantaranya oleh waktu penyelenggaraan tes-retes.

Interval penyelenggaraan yang terlalu jauh ataupun yang terlalu dekat akan mempengaruhi
koefisien reliabilitas. Faktor lain yang juga mempengaruhi reliabilitas instrumen evaluasi
diantaranya sebagai berikur:
Gronlund (1985) mengemukakan ada empat factor yang dapat memengaruhi reliabilitas, yaitu
:
a) Panjang tes (length of test). Panjang tes berarti banyaknya soal tes. Ada kecendrungan,
semakin panjang suatu tes akan lebih tinggi tingkat reliabelitas suatu tes, karena semakin
banyak soal, maka akan semakin banyak sampel yang diukur dan proporsi jawaban yang
benar semakin banyak, sehingga factor tebakan (guessing) akan semakin rendah.
b) Sebaran skor (spread of score). Besarnya sebaran skor akan membuat tingkat

reliabelitas menjadi tinggi, karena koefisien reliabelitas yang lebih besar diperoleh ketika
peserta didik tetap pada posisi yang relatif sama dalam satu kelompok pengujian ke pengujian
berikutnya.dengan kata lain, peluang selisih dari perubahan posisi dalam kelompok dapat
memperbesar koefisien reliabilitas.
c) Tingkat kesukaran ( difficulty indeks). Dalam penilaian yang menggunakan pendekatan

penilaian acuan norma, baik untuk soal yang mudah maupun sukar, cenderung menghasilkan
tingkat reliabilitas yang rendah. Untuk tes yang mudah, skor akan berada dibagian atas dan
akhir penilaian. Bagi kedua tes (mudah dan sukar), perbedaan antar peserta didik kecil sekali
dan cenderung tidak dapat dipercaya. Terjadinya tingkat reliabilitas yang rendah dalam tes
disebabkan antara tes dengan sebaran skor yang terbatas. Tingkat kesukaran soal yang ideal
untuk meningkatkan koefisien reliabelitas adalah soal yang menghasilkan sebaran skor
berbentuk kurva normal.
d) Objektifitas (obyektivity). Obyektivitas di sini menunjukkan skor tes kemampuan yang

sama antara peserta didik yang satu dengan peserta didik lainnya.peserta didik memperoleh
hasil yang sama dalam mengerjakan suatu tes. Jika peserta didik memiliki tingkat
kemampuan yang sama, maka akan memperoleh hasil tes yang sama pada saat mengerjakan
tes yang sama. Objektivitas prosedur tes yang tinggi akan memperoleh reliabilitas hasil tes
yang tinggi akan memperoleh reliabilitas hasil tes yang tidak dipengaruhi oleh prosedur
penskoran.[8]
Konsep reliabilitas mendasari kesalahan pengukuran yang mungkin terjadi pada suatu proses
pengukuran atau pada nilai tunggal tertentu, sehingga menimbulkan perubahan pada susunan
kelompoknya (error of measurement). Misalnya, guru mengetes peserta didik dengan
intrumen tertentu dan mendapat nilai 70. Kemudian pada kesempatan yang berbeda dengan
instrument yang sama, guru melakukan tes kembali, ternyata peserta didik tersebut mendapat
nilai 75. Artinya, tes tersebut tidak reliabel, karena terjadi kesalahan pengukuran. Tes yang
reliabel adalah apabila koefisien reliabelitasnya tinggi dan kesalahan baku pengukurannya
rendah.
4. Karakteristik dalam Evaluasi
Tujuan akhir suatu ilmu adalah mengembangkan dan menguji teori. Suatu teori dapat
menjelaskan dan meramalkan fenomena-fenomena alamiah. Dari perilaku atau kegiatan-
kegiatan terlepas yang dilakukan oleh siswa atau guru umpamanya, peneliti dapat
memberikan penjelasan umum tentang hubungan diantara perilaku atau kegiatan
pembelajaran. Tiap disiplin ilmu mempunyai cara pencarian sendiri yang sesuai dengan
karakteristik disiplin ilmunya. Sains(pengetahuan alam) umpamanya, banyak menggunakan
metode eksperimen, sedang antropologi menggunakan metode kualitatif. Pendidikan
kebanyakan menggunakan metode deskriptif, tetapi untuk hal-hal tertentu dapat
menggunakan metode eksperimen, penelitian tindakan, penelitian dan pengembangan, dan
juga kualitatif.
Penelitian terhadap ilmu pendidikan mengkaji dasar-dasar, teori-teori dan konsep-konsep,

termasuk sejarah perkembanganya. penelitian dapat dilakukan dengan menggunakan
pendekatan-metode kualitatif maupun kuantitatif. Pendekatan kuantitatif diarahkan pada
analisis dasar filosofis, psikologis, sosiologis-antropologis, serta konsep dan analisis historis.
Dari penelitian demikian dapat dihasilkan penguatan terhadap proposisi dan asumsi yang ada,
dan atau menghasilkan asumsi, proposisi dan hipotesis yang baru. Penelitian-penelitian yang
diarahkan pada perkembangan teori dan konsep digolongkan sebagai penelitian dasar (basic
reseach). Penelitian dapat dilakukan dengan baik terhadap ilmu maupun terhadap praktik
pendidikan. Ada tujuh karakteristik penelitian pendidikan menurut McMillan dan
Schumacher (2001:11-13), yaitu:[9]
(1) Objectivity (objektivitas);
(2) Precision (ketepatan);
(3) Verification (verifikasi);
(4) Parsimonious explanation (Penjelasan ringkas);
(5) Empiricism (empiris);
(6) Logical reasoning (pendapatlogis); dan
(7) Conditional conclutions (kesimpulan kondisional).
Karakteristik evaluasi pendidikan tersebut, secara singkat akan dijelaskan sebagai berikut:
a) Objektivitas.
Penelitian harus memiliki objektivitas(objectivity) baik dalamkarakteristik maupun

prosedurnya. Objektivitas dicapai melalui keterbukaan, terhindar dari bias dan subjektivitas.
Dalam prosedurnya, penelitian menggunakan teknik pengumpulan dan analisis data yang
memungkinkan dibuat interpretasi yang dapat dipertanggungjawabkan. Objektivitas juga
menunjukkan kualitas data yang dihasilkan dari prosedur yang digunakan, yang dikontrol dari
bias dan subjektivitas.
b) Ketepatan.
Penelitian juga harus memiliki tingkat ketepatan(precision), dalam arti bahwa secara teknis,
instrumen pengumpulan datanya harus memiliki validitas dan realibilitas yang memadai,
serta desain penelitian, pengambilan sampel dan teknik analisisnya tepat.
Dalam evaluasi kualitatif, hasilnya dapat diulang dan diperluas, dalam penelitian kualitatif
memiliki sifat reflektif dan tingkat komparasi yang konstan.
c) Verifikasi.
Penelitian dapat diverifikasi, dalam arti dikonfirmasikan, direvisi dan diulang dengan cara
yang sama atau berbeda. Verifikasi dalam penelitian kualitatif berbeda dengan
kuantitatif. penelitiankualitatif memberikan interpretasi deskriptif, verifikasi berupa
perluasan, pengembangan tetapi bukan pengulangan. Verifikasi juga bermakna memberikan
sumbangan kepada ilmu atau studi lain.
d) Penjelasan Ringkas.
Penelitian mencoba memberikan penjelasan tentang hubungan antar fenomena dan

menyederhanakannya menjadi penjelasan yang ringkas. Tujuan akhir dari
suatu penelitianadalah mereduksi realita yang kompleks ke dalam penjelasan yang singkat.
Dalam penelitiankuantitatif penjelasan singkat tersebut berbentuk generalisasi, tetapi
dalam penelitiankualitatif berbentuk deskripsi tentang hal-hal yang essensial atau pokok.
e) Empiris.
Penelitian ditandai oleh sikap dan pendekatan empiris yang kuat.Secara umum empiris berarti
berdasarkan pengalaman praktis. Dalampenelitianempiris kesimpulan didasarkan atas
kenyataan-kenyataan yangdiperoleh dengan menggunakan metode penelitianyang sistematik,
bukanberdasarkan pendapat atau kekuasaan. Sikap empiris umumnya menuntutpenghilangan
pengalaman dan sikap pribadi. Kritis dalam penelitianberartimembuat interpretasi
berdasarkan pada kenyataan dan nalar yang didasarkanatas kenyataan-kenyataan (evidensi).
Evidensi adalah data yang diperolehdari evaluasi, berdasarkan hasil analisis data tersebut
interpretasi dibuat.Angka, print out, catatan lapangan, rekaman wawancara artifak
dandokumen sejarah adalah sejumlah contoh data dalam penelitian.
f) Penalaran Logis.
Semua kegiatan penelitian menuntut penalaran logis. Penalaran merupakan proses berpikir,

menggunakan prinsip-prinsip logika deduktif dan induktif. Penalaran deduktif adalah
penarikan kesimpulan dari umum ke khusus. Dalam penalaran deduktif, bila premisnya
benar, maka kesimpulan otomatis benar. Logika deduktif dapat mengidentifikasi hubungan-
hubungan baru dalam pengetahuan (prinsip, kaidah) yang ada. Sementara itu, dalam
penalaran induktif, peneliti menarik kesimpulan berdasarkan hasil sejumlah pengamatan
kasus-kasus (individual, situasi, peristiwa), kemudian evaluator membuat kesimpulan yang
bersifat umum. Kesimpulan dibatasi oleh jumlah dan karakteristik dari kasus yang diamati.
g) Conditional conclutions (kesimpulan kondisional).
penelitianmencoba memberikan kesimpulan kondisional tentang hubungan antar fenomena

dan menyederhanakannya menjadi penjelasan yang sesuai kondisi.
Dalam penjelasan yang lain tentang karakteristik, secara sederhana Zainal Arifin
mengemukakan karakteristik instrumen evaluasi yang baik adalah valid, reliabel, relevan,
representatif, praktis, deskriminatif, spesifik dan proporsional.[10]
1) Kevalidan
Valid artinya suatu alat ukur dapat dikatakan valid jika betul-betul mengukur apa yang
hendak diukur secara tepat. Misalnya, alat ukur matapelajaran Ilmu Fiqih, maka alat ukur
tersebut harus betul-betul dan hanya mengukur kemampuan peserta didik dalam mempelajari
Ilmu Fiqih, tidak boleh dicampuradukkan dengan materi pelajaran yang lain. Validitas suatu
alat ukur dapat ditinjau dari berbagai segi, antara lain validitas ramalan (predictive validity),
validitas bandingan (concurent validity), dan validitas isi (content validity), validitas konstruk
(construct validity), dan lain-lain.
2) Realible
Reliabel artinya suatu alat ukur dapat dikatakan reliabel atau handal jika ia mempunyai hasil
yang taat asas (consistent). Misalnya, suatu alat ukur diberikan kepada sekelompok peserta
didik saat ini, kemudian diberikan lagi kepada sekelompok peserta didik yang sama pada saat
yang akan datang, dan ternyata hasilnya sama atau mendekati sama, maka dapat dikatakan
alat ukur tersebut mempunyai tingkat reliabilitas yang tinggi.
3) Relevan
Relevan artinya alat ukur yang digunakan harus sesuai dengan standar kompetensi,
kompetensi dasar, dan indikator yang telah ditetapkan. Alat ukur juga harus sesuai dengan
domain hasil belajar, seperti domain kognitif, afektif, dan psikomotor. Jangan sampai ingin
mengukur domain kognitif menggunakan alat ukur non-tes. Hal ini tentu tidak relevan.
4) Representatif
Representatif artinya materi alat ukur harus betul-betul mewakili dari seluruh materi yang
disampaikan. Hal ini dapat dilakukan bila guru menggunakan silabus sebagai acuan
pemilihan materi tes. Guru juga harus memperhatikan proses seleksi materi, mana materi
yang bersifat aplikatif dan mana yang tidak, mana yang penting dan mana yang tidak.
5) Praktis
Praktis artinya mudah digunakan. Jika alat ukur itu sudah memenuhi syarat tetapi sukar
digunakan, berarti tidak praktis. Kepraktisan ini bukan hanya dilihat dari pembuat alat ukur
(guru), tetapi juga bagi orang lain yang ingin menggunakan alat ukur tersebut.
6) Deskriminatif
Deskriminatif artinya adalah alat ukur itu harus disusun sedemikian rupa, sehingga dapat
menunjukkan perbedaan-perbedaan yang sekecil apapun. Semakin baik suatu alat ukur, maka
semakin mampu alat ukur tersebut menunjukkan perbedaan secara teliti. Untuk mengetahui
apakah suatu alat ukur cukup deskriminatif atau tidak, biasanya didasarkan atas uji daya
pembeda alat ukur tersebut.
1. Spesifik
Spesifik artinya suatu alat ukur disusun dan digunakan khusus untuk objek yang diukur. Jika
alat ukur tersebut menggunakan tes, maka jawaban tes jangan menimbulkan ambivalensi atau
spekulasi.
2. Proporsional
Proporsional artinya suatu alat ukur harus memiliki tingkat kesulitan yang proporsional
antara sulit, sedang dan mudah. Begitu juga ketika menentukan jenis alat ukur, baik tes
maupun non-tes.
BAB III
PENUTUP
A. Kesimpulan
Reliabilitas mempermasalahkan sejauh mana hasil suatu pengukuran dapat dipercaya. Suatu
hasil pengukuran hanya dapat dipercaya apabila dalam beberapa kali pelaksanaan pengukuran
terhadap kelompok subyek yang sama, diperoleh hasil pengukuran yang relatif sama.
Penentukan koefisien reliabilitas instrumen untuk skor butir dikotomi dapat menggunakan
cara Single test-single trial, test-retest, alternate form. Interpretasi terhadap koefisien
reliabilitas merupakan intrepretasi relatif, artinya tidak ada batasan mutlak yang
menunjukkan berapa angka koefisien minimal yang harus dicapai agar suatu pengukuran
dapat disebut reliabel. Namun, memberikan informasi tentang hubungan varians skor teramati
dengan varians skor sejati kelompok individu.
Ada tujuh karakteristik evaluasi pendidikan menurut McMillan dan

Schumacher yaitu: 1) Objectivity (objektivitas); 2) Precision (ketepatan); 3) Verification (veri
fikasi); 4) Parsimonious explanation (Penjelasan ringkas); 5) Empiricism (empiris);6) Logical
reasoning (pendapatlogis); dan 7) Conditional conclutions (kesimpulan
kondisional). Sedangkan Zainal Arifin secara sederhana, mengemukakan karakteristik
evaluasi yang baik adalah valid, reliabel, relevan, representatif, praktis, deskriminatif,
spesifik dan proporsional.
DAFTAR PUSTAKA
Arifin, Zainal. 2011. Evaluasi Pembelajaran. Bandung: Remaja Rosdakarya
Bungin, M. Burhan. 2005.Metodologi Penelitian Kuantitatif : Komunikasi, ekonomi, dan

kebijakan publik serta ilmu-ilmu sosial lainnya. Jakarta: Prenada Media
Djaali., dkk. 2000. Pengukuran Dalam Pendidikan. Jakarta: Program Pascasarjana
Hadjar, Ibnu. 1996.Dasar-dasar Metodologi Penelitian Kwantitatif dalam Pendidikan.

Jakarta: RajaGrafindo Persada
Jihad, Asep dan Haris, Abdul. 2008. Evaluasi Pembelajaran. Yogyakarta: Multi Pressindo
McMillan, J.H dan Schumacher, S. (2001). Research in Education: A ConceptualIntro-

duction(5th ed.), US, Longman.Inc
Nur, Mohamad. 1987. Teori Tes. Surabaya: IKIP Surabaya
Nurkancana, Wayan., PPN. Sunartana. 1992. Evaluasi Hasil Belajar. Surabaya: Usaha

Nasional
Purwanto, Ngalim. 1997. Prinsip-Prinsip dan Teknik Evaluasi Pengajaran. Bandung: Remaja

Rosdakarya
Sudijono, Anas. 2009. Pengantar Evaluasi Pendidikan. Jakarta: Raja Grafindo Persada
Suharsimi Arikunto. 2000. Manajemen Penelitian. Jakarta: Rineka Cipta
Sukardi. 2009. Evaluasi pendidikan Prinsip dan Operasionalnya. Jakarta: Bumi Aksara
Sumadi Suryabrata. 2008.Metodologi Penelitian. Jakarta: RajaGrafindo Persada
Uno, Hamzah B.2011. Perencanaan Pembelajaran. Jakarta: Bumi Aksara
Wiraatmadja, Rochiat. 2008. Metode Penelitian Tindakan Kelas. Bandung: Remaja

Rosdakarya
[1] Nur, Mohamad. Teori Tes.(Surabaya: IKIP Surabaya, 1987). Hlm: 1
[2] Nurkancana, Wayan., PPN. Sunartana. Evaluasi Hasil Belajar, (Surabaya: Usaha

Nasional, 1992). Hlm: 141.
[3]Asep Jihad dan Abdul Haris, Evaluasi Pembelajaran(Yogyakarta: Multi Pressindo,

2008), hlm: 180-181.
[4]Nana Sudjana, Penilaian Hasil Belajar Mengajar (Bandung: Remaja Rosdakarya,
2009), hlm: 148-149.
[5]Anas Sudijono, hlm: 260.
[6]Sukardi, hlm. 45.
[7]Ibid., hlm. 275.
[8]Zaenal Arifin, Evaluasi Pembelajaran, (Bandung: PT Remaja Rosdakarya, 2013), hlm. 258
[9] McMillan, J.H dan Schumacher, S. (2001). Research in Education: A ConceptualIntro-

duction(5th ed.), US, Longman.Inc, hlm: 11-13
[10]Zainal Arifin, Evaluasi Pembelajaran, (Bandung: Remaja Rosdakarya, 2011). Hlm: 69

Makalah Evaluasi

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Makalah Evaluasi

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB I

Dalam hal pengukuran, Weitzenhoffer dalam Mohamad Nur menyatakan bahwa pengukuran

Validitas dan Reliabilitas suatu data merupakan ciri yang menandai bahwa penelitian

1. Bagaimanakah cara menentukan reliabilitas instrumen dengan baik dan benar?

2. Karakteristik lain apakah yang diharapkan dalam evaluasi?

1. Mengetahui cara menentukan reliabilitas instrumen dengan baik dan benar.

2. Mengetahui karakteristik lain yang diharapkan dalam evaluasi

: reliabilitas instrument

n : banyaknya butir soal

Si2 : jumlah varians tiap skor

St2 : varians skor total

Rumus untuk mencari varians adalah:

Interpretasi nilai r11 mengacu pada pendapat Guilford (Ruseffendi, 1991b: 191):

rii < 0,20 reliabilitas sangat rendah

0,20 < rii 0,40 reliabilitas rendah

0,420 < rii 0,70 reliabilitas sedang

0,70 < rii 0,90 reliabilitas tinggi

0,90 < rii 1,00 reliabilitas sangat tinggi.[3]

a) Single test-single trial

1) Pendekatan Single Test-Single Trial dengan Menggunakan FormulaSpearman Brown

: koefisien reabilitas tes secara total (tt=total tes)

: koefisien korelasi product moment antara separoh (bagian

1&2 : bilangan konstan

2) Pendekatan Single Test-Single Trial dengan Menggunakan Formula Flanagan

r11 : koefiisien reliabilitas tes secara totalitas

2 dan 1 : bilangan konstan

r11 : koefisien reliabilitas tes

: varian perbedaan antarskor yang dicapai oleh testee pada

4) Pendekatan Single Test-Single Trial dengan Menggunakan Formula Kuder Richadson

r11 : koefisien reliabilitas tes

n : banyaknya butir item

pi : proporsi testee yang menjawab betul butir item yang

qi : proporsi testee yang jawabannya salah

: jumlah dari hasil perkalian pi dan qi

r11 : koefisien reliabilitas tes

n : banyaknya butir item

Mt = : mean total (rata-rata hitung dari skor total)

5) Pendekatan Single Tes-Single Trial dengan Menggunakan Formula C. Hoyt

r11 : koefisien reliabilitas tes

MKe : mean kuadrat interaksi antara testee dan item

MKs : mean kuadrat antar subjek. [5]

Reliabilitas tes retes dapat dilakukan dengan cara seperti berikut:

(dibaca rho) : koefisien korelasi antara variabel 1 (skor-sjor hasil tes

D : Difference (beda antara rank variabel I dengan variabel

6 dan 1 : bilangan konstan

N : banyaknya subjek (testee)

Rumus prodect moment Pearson:[7]

: angka indeks korelasi “r” product moment

N : banyaknya pasangan skor X dan skor Y (banyaknya subjek)

: penjumlahan hasil perkalian antara skor X dan skor Y

: jumlah seliruh skor X

: jumlah seluruh skor Y

No. Genap (2 dan 4) No. Ganjil (1,3 dan 5)

Perhitungan Koefisien Konsistensi Internal

3. Faktor yang Mempengaruhi Reliabilitas

Koefisien reliabilitas dapat dipengaruhi diantaranya oleh waktu penyelenggaraan tes-retes.

b) Sebaran skor (spread of score). Besarnya sebaran skor akan membuat tingkat

c) Tingkat kesukaran ( difficulty indeks). Dalam penilaian yang menggunakan pendekatan

d) Objektifitas (obyektivity). Obyektivitas di sini menunjukkan skor tes kemampuan yang

Penelitian terhadap ilmu pendidikan mengkaji dasar-dasar, teori-teori dan konsep-konsep,

(4) Parsimonious explanation (Penjelasan ringkas);

(6) Logical reasoning (pendapatlogis); dan

(7) Conditional conclutions (kesimpulan kondisional).