PENDAHULUAN
1. Pengantar
Dalam percakapan sehari-hari di kalangan guru/ dosen, sering kali
terdengar komentar, bahwa mengevaluasi suatu hasil sebuah Proses Belajar
Mengajar (PBM) adalah pekerjaan yang paling gampang. Atau pernahkah
kalian mendengar komentar bahwa menjadi seorang pendidik yang penting
adalah menguasai materi, soal mengevaluasi itu sangat mudah. Atau adakah di
antara kalian yang mempunyai anggapan yang senada dengan pendapat-
pendapat tersebut ?. Jika anda menjawab ya, maka pemahaman seperti itu
termasuk pendapat yang sangat keliru, karena sesungguhnya pekerjaan yang
paling sulit bagi seorang pendidik (guru/dosen) adalah melakukan evaluasi,
Pendapat tersebut dapat muncul dari seseorang (guru / dosen) karena mereka
tidak pernah mempelajari secara serius tata aturan membuat sebuah perangkat
instrumen evaluasi. Jika ada yang berpendapat bahwa membuat sebuah
perangkat instrumen evaluasi belajar adalah mudah, karena mereka yang
bersangkutan itu sudah memahami secara utuh bagaimana tata aturan dan
kriteria sebuah instrumen evaluasi yang dikatakan berkualitas.
Yang lebih menyedihkan adalah seorang pendidik (guru atau dosen,
termasuk calon guru) bahkan tidak bisa membedakan makna sesungguhnya
apa itu pengukuran, penilaian dan evaluasi hasil dari sebuah proses
pembelajaran. Belum lagi jika mereka tidak dapat membedakan apa yang
dimaksud dengan hasil belajar, dan prestasi belajar.
Sesungguhnya apabila seorang guru/dosen semakin banyak mereka
mempelajari teori-teori yang berkaitan dengan evaluasi pembelajaran, maka
akan disadari bahwa melakukan evaluasi suatu hasil proses pembelajaran
membutuhkan pemahaman dan pengetahuan yang sangat luas dan kompleks.
Seorang pendidik ketika melakukan evaluasi terhadap hasil sebuah proses
pembelajaran, sebelum melaksanakan kegiatan pembelajaran, sudah harus
memahami dan mengerti betul tujuan dari evaluasi yang akan dilakukan..
2. Makna Evaluasi
Wandt dan Brown, 1977 (dalam Sudjiono, 2006) memberikan makna
dari evaluasi sebagai berikut: evaluation refer to the act or process to
determining the value of something. Evaluasi dapat diartikan sebagai suatu
proses kegiatan yang terencana untuk mengetahui keadaan suatu
objek dengan menggunakan instrumen dan hasilnya dibandingkan dengan
suatu tolak ukur untuk memperoleh suatu kesimpulan.
4. Prasyarat
1. Pengertian Evaluasi
Mengacu pada PP.19/2005 tentang Standar Nasional Pendidikan di
dalam Bab I pasal 1 ayat 17 dikemukakan bahwa ―penilaian adalah proses
pengumpulan dan pengolahan informasi untuk mengukur pencapaian hasil
belajar peserta didik‖.Ditjen Dikdasmen Depdiknas (2003: 1) secara
eksplisit mengemukakan bahwa antara penilaian dan evaluasi mempunyai
persamaan dan perbedaan. Dalam UU No.20/2003 tentang Sistem Pendidikan
Nasional Bab I Pasal 1 ayat 21 dijelaskan bahwa evaluasi pendidikan adalah
kegiatan pengendalian, penjaminan, dan penetapan mutu pendidikan terhadap
berbagai komponen pendidikan pada setiap jalur, jenjang, dan jenis pendidikan
sebagai bentuk pertanggungjawaban penyelenggaraan pendidikan.
Ada pengertian yang bermakna sama dan berbeda antara penilaian
dan evaluasi. Persamaannya adalah keduanya mempunyai pengertian menilai
atau menentukan nilai sesuatu.Adapun perbedaannya terletak pada konteks
penggunaannya. Penilaian (assessment) digunakan dalam konteks yang lebih
sempit dan biasanya dilaksanakan secara internal oleh mereka yang menjadi
bagian atau terlibat dalam sistem yang bersangkutan, seperti guru/ dosen
menilai hasil belajar murid, atau supervisor menilai guru. Adapun evaluasi
digunakan dalam konteks yang lebih luas dan biasanya dilaksanakan secara
eksternal, seperti konsultan yang disewa untuk mengevaluasi suatu program,
baik pada level terbatas maupun pada level yang luas.
Istilah pengukuran (measurement) mengandung arti “theact or process
of ascertaining the extent or quantity of something”(Wand and Brown, 1997
dalam Zainal Arifin, 1991).Pengukuran sebagai suatu proses yang
menghasilkan gambaran berupa angka-angka berdasarkan hasil pengamatan
mengenai beberapa ciri(atribute)tentang suatu objek, orang atau peristiwa.
Dengan demikian, evaluasi dan penilaian berkenaan dengan kualitas daripada
b. Berdasarkan Sasaran :
1. Evaluasi konteks
Evaluasi yang diarahkan untuk melihat hasil belajar peserta didik lebih
lanjut, yakni evaluasi lulusan setelah terjun ke masyarakat.
1. Evaluasi input
1. Pengantar
Berikut caranya :
Misalkan ada 50 soal pilihan ganda, kita koreksi dulu hasil ulangan
peserta didik hingga mendapatkan skor mentah. Skor yang di dapat adalah
jumlah soal yang dijawab benar oleh peserta didik dari 50 soal yang diberikan.
Lalu kita mendapatkan skor tertinggi dan skor terendah, misalnya:
Skor tertinggi = 30
Skor terendah = 10
Lalu kita menentukan berapa nilai tertinggi
dan terendah yang inginkan,misalnya
Skor tertinggi = 30 dapat nilai 8
Skor terendah = 10 dapat nilai 6
Rumus yang kita pakai adalah Y = ax + b
Terlebih dahulu kita menentukan nilai
a, dengan cara : Niali Tertinggi 8 = 30a + b (30
adalah skor tertinggi) Nilai Terendah 6 = 10a + b –
(10 adalah skor terendah) 2 = 20a
a = 2/20
I Made Sudana Evaluasi Pembelajaran Page 30
a = 1/10
atau 0,1
Sekarang kita menentukan b, dengan cara :
Pengantar
Banyak pengajarmelaksanakan suatukegiatan tanpa perencanaan yang
jelas, sehingga hasilnyapun kurang maksimal.Oleh sebab itu, Anda harus dapat
membuat perencanaan dengan baik, tidakterkecuali dalam kegiatan evaluasi,
dalam hal ini difokuskan pada perencanaan danpelaksanaan evaluasi
pembelajaran.Untuk itu diperlukan pemahaman yang lebih mendalam tentang
mekanisme di dalam mengembangan sebuah instrument tes.
1. Perencanaan Evaluasi
Membuat perencanaanadalah pertama yang harus dilakukan dalam
kegiatan evaluasi.Hal ini penting karena akan mempengaruhilangkah-langkah
selanjutnya, dan keefektifan prosedurevaluasi secara menyeluruh. W. James
Popham (1974 : 159) mengemukakanmaksud perencanaan evaluasi adalah ‖to
facilitate gathering data, therebymaking possible valid statements about the
effect or out comes of the program,practice, or policy under study”.
Robert H.Davis, dkk. (1974 : 81-82) mengemukakantiga manfaat dari
perencanaan evaluasi, yaitu :
a. Evaluation plan helps you to determine whether or not you have stated your
objective in behavioral terms. If the conditions, behavior or standards or
objective have been stated ambiguosly, you will have difficulty designing a test
to measure student achievement.
b. Evaluation plan early in the design process is that you will be prepared to
collect the information you need when it is available.
c. Evaluation plan is that it provides sufficient time for test design. To design a
good test requires careful preparation, and the quality of a test usually improves
if it can be designed in a leisurely fashion.
Apabila bentuk soal yang akan digunakan lebih dari satu, sebaiknya
dimasukkan ke dalam komponen matriks.
3. Menulis Soal
Ada tiga syarat utama yang harus dipenuhi oleh sebuah instrumen tes yaitu
validitas, reabilitas dan karakteristik tes
A. Validitas
2. Validitas isi
3. Validitas empiris
Validitas prediktif ialah jika kriteria standar yang digunakan adalah untuk
meramalkan prestasi belajar murid di masa yang akan datang. Dengan
kata lain, validitas prediktif bermaksud melihat sampai dimana suatu tes
dapat memprakirakan perilaku peserta didik pada masa yang akan
datang. Sedangkan validitas konkuren ialah jika kriteria standarnya
berlainan.Misalnya, skor tes dalam matapelajaran Matematika
dikorelasikan dengan skor tes Fisika.Sebaliknya, jika kriteria standarnya
sejenis, maka validitas tersebut disebut validitas sejenis.Dalam mengukur
validitas suatu tes hendaknya yang menjadi kriteria sudah betul-betul
valid, sehingga dapat diandalkan keampuhannya dan dapat dianggap
sebagai tes standar. Sebaliknya, bila kriterianya tidak valid, maka tes-tes
lain yang akan divalidasi menjadi kurang atau tidak meyakinkan. Suatu tes
akan mempunyai koefisien validitas yang tinggi jika tes itu betul-betul
dapat mengukur apa yang hendak diukur dari peserta didik tertentu.
a. Diferensiasi umur
b. Kemajuan akademis
Dalam validitas tes kepribadian dan validitas tes bakat khusus banyak
digunakan kriteria yang didasarkan atas kinerja dalam pelaksanaan
kerja (on the job performance).Mengingat masing-masing pekerjaan
memiliki kekhasan sendiri dan berbeda-beda tingkat, bentuk, maupun
coraknya, maka untuk masing-masing pekerjaan diciptakan tes yang
terkenal dengan istilah tailor-made test.
e. Penilaian
h. Konsistensi internal
=
√
Contoh :
Mikroprosesor
Langkah-langkah penyelesaian :
1) Buat tabel persiapan seperti berikut :
No. X Y x Y x2 y2 xy
1
2
3
4
5
dst
4) Cari nilai pada kolom x dengan jalan nilai tiap-tiap peserta didik dalam
kolom X dikurangi dengan rata-rata X.
5) Cari nilai pada kolom y dengan jalan nilai tiap-tiap peserta didik dalam
kolom Y dikurangi dengan rata-rata Y.
8) Cari nilai pada kolom xy dengan jalan mengalikan tiap-tiap nilai dalam
kolom x dengan nilai-nilai dalam kolom y.
rxy = =
B. Reliabilitas
Reliabilitas berasal dari kata reliable yang berarti dapat dipercaya.
Reliabilitas suatu tes menunjukkan atau merupakan sederajat ketetapan,
keterandalan atau kemantapan (the level of consistency) tes yang
bersangkutan dalam mendapatkan data (skor) yang dicapai seseorang,
apabila tes tersebut diberikan kepadanya pada kesempatan (waktu) yang
berbeda., atau dengan tes yang pararel (eukivalen) pada waktu yang sama.
Atau dengan kata lain sebuah tes dikatakan reliable apabila hasil-hasil tes
tersebut menunjukan ketetapan, keajegan, atau konsisten. Artinya, jika
kepada para siswa diberikan tes yang sama pada waktu yang berlainan,
maka setiap siswa akan tetap berada dalam urutan (ranking) yang sama
dalam kelompoknya. Contoh
Waktu Tes
No Nama siswa Pengetesan Pengetesan
Ranking
Pertama Kedua
Andi 6 7 3.a
Cici 8 9 1
Didi 5 6 5
Evi 6 7 3.b
Fifi 7 8 2
Ada beberapa cara untuk mencari reliabilitas suatu tes, antara lain :
2).TeknikBentuk Paralel
Teknik ini dipergunakan dua buah tes yang sejenis (tetapi tidak identik),
mengenai isinya; proses mental yang diukur, tingkat kesukaran jumlah item
dan aspek-aspek lain.
Ada dua prosedur yang dapat digunakan dalam tes belah dua ini yaitu :
C. Karakteristik Tes
1). Objektivitas
b). Mudah memeriksanya artinya bahwa tes itu dilengkapi dengan kunci
jawaban maupun pedoman skoringnya. Untuk soal yang obyektif,
pemeriksaan akan lebih mudah dilakukan jika dikerjakan oleh siswa
dalam lembar jawaban.
3). Ekonomis
1). Shahih (valid), yaitu mengukur yang harus diukur, sesuai dengan
tujuan 2).Relevan, dalam arti yang diuji sesuai dengan tujuan yang
diinginka 3).Spesifik, soal yang hanya dapat dijawab oleh peserta
I Made Sudana Evaluasi Pembelajaran Page 52
didik yang betul- betul belajar dengan rajin
4).Tidak mengandung ketaksaan (tafsiran
ganda).harus ada patokan; tugas ditulis konkret. Apa yang harus
diminta; harus dijawab berapa lengkap 5). Representatif, soal mewakili
materi ajar secara keseluruhan 6).Seimbang, dalam arti pokok-pokok
yang penting diwakili, dan yang tidak penting tidak selalu
perlu.
Penjelasan :
a. Misalnya, jumlah soal keseluruhan adalah 100, terdiri atas 50 soal bentuk
benar-salah,30 soal bentuk pilihan-ganda, dan 20 soal bentuk menjodohkan
Selanjutnya, tentukan pula persentase soal untuk masing-masing materi,
misalnya 40 %, 40 %, dan 20 %.
Untuk soal bentuk B – S = 50, maka jumlah soal untuk setiap materi
adalah
Materi A = 40 % x 50 = 20 soal
I Made Sudana Evaluasi Pembelajaran Page 53
Materi B = 40 % x 50 = 20 soal
Materi C = 20 % x 50 = 10 soal
Untuk bentuk P – G = 30, maka jumlah soal untuk setiap materi adalah :
Materi A = 40 % x 30 = 12 soal
Materi B = 40 % x 30 = 12 soal
Materi C = 20 % x 30 = 6 soal
Untuk bentuk Menjodohkan = 20, maka jumlah soal untuk setiap materi
adalah:
Materi A = 40 % x 20 = 8 soal
Materi B = 40 % x 20 = 8 soal
Materi C = 20 % x 20 = 4 soal
b. Selanjutnya, menghitung jumlah soal untuk setiap jenjang kemampuan,
yaitu persentase pada setiap jenjang kemampuan dikalikan dengan jumlah
soal untuk setiap bentuk soal.
Misalnya :
Pengetahuan : 30 % x 20 = 6 soal
Pengetahuan : 30 % x 20 = 6 soal
Pengetahuan : 40 % x 20 = 8 soal, demikian seterusnya.
Untuk menghitung tingkat kesukaran soal, maka pada setiap
jenjang kemampuan/aspek yang diukur (pengetahuan, pemahaman, dan
aplikasi) harus dibagi menjadi tiga kolom, yakni untuk kolom mudah,
sedang, dan sukar dengan perbandingan (misalnya) 30 %, 40 %, dan 30
%. Dengan demikian, jumlah soal untuk masing-masing tingkat kesukaran
pada setiap jenjang kemampuan dapat dihitung seperti berikut :
(WL + WH)
TK = ———————— x 100 %
(nL + nH) 10
Keterangan :
WL = jumlah peserta didik yang menjawab salah dari kelompok bawah
WH = jumlah peserta didik yang menjawab salah dari kelompok atas
nL = jumlah kelompok bawah
nH = jumlah kelompok atas
Sebelum menggunakan rumus di atas, maka Anda harus menempuh
terlebih dahulu langkah-langkah sebagai berikut :
Contoh:
KELOMPOK ATAS/KELOMPOK BAWAH
Siswa
1 2 3 4 5 6 dst
No. Soal
1
2
3
4
5
Dst
No soal WL WH WL + WH WL - WH
Contoh :
36 orang peserta siswa SMK ujian akhir semester dalam mata pelajaran
Matematika.Berdasarkan hasil ujian tersebut kemudian disusun lembar
jawaban peserta didik dari yang mendapat skor tertinggi sampai dengan
skor terendah. Selanjutnya, diambil 27% dari skor tertinggi, yaitu 27% x
36 orang = 9,72 = 10 orang (dibulatkan) dan 27% dari skor terendah,
5. Analisis Pengecoh
Pengecoh dianggap baik bila jumlah peserta didik yang memilih pengecoh itu
sama atau mendekati jumlah ideal. Indeks pengecoh dihitung dengan
rumus:
IP =
Keterangan :
IP = indeks pengecoh
1 = bilangan tetap
Catatan :
I Made Sudana Evaluasi Pembelajaran Page 57
Jika semua peserta didik menjawab benar pada butir soal tertentu (sesuai
kunci jawaban), maka IP = 0 yang berarti soal tersebut jelek. Dengan
demikian, pengecoh tidak berfungsi.
Contoh :
Alternatif jawaban a b c d e
Kualitas pengecoh ++ ++ ** ++ ++
Keterangan :
** : kunci jawaban
++ : sangat baik
+ : baik
- : kurang baik
_ : jelek
_ _ : sangat jelek
Pada contoh di atas, IP butir a, b, d, dan e adalah 93%, 107%, 93% dan
107%.Semuanya dekat dengan angka 100%, sehingga digolongkan sangat
baik, sebab semua pengecoh itu berfungsi. Jika pilihan jawaban peserta
didik menumpuk pada satu alternatif jawaban, misalnya seperti berikut :
Alternatif jawaban a b c d e
I Made Sudana Evaluasi Pembelajaran Page 58
Distribusi jawaban peserta didik 20 2 20 8 0
Kualitas pengecoh _ - ** ++
Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik, pengecoh (e)
dan (b) tidak berfungsi, pengecoh (a) menyesatkan, maka pengecoh (a) dan
(e) perlu diganti karena termasuk jelek, dan pengecoh (b) perlu direvisi
karena kurang baik. Adapun kualitas pengecoh berdasar indeks pengecoh
adalah :
Untuk analisis pengecoh perlu dibuat tabel khusus agar setiap butir soal
diketahui berapa banyak peserta didik yang menjawab a, b, c dan
seterusnya.Hal ini tentu saja sangat memakan waktu dan tenaga.Jika diolah
dengan komputer dan data sudah dimasukkan dalam disket, pengolahan ini
hanya memerlukan waktu beberapa detik saja.
Opsi
a B c d E
Kelompok
Atas
Bawah
25 % - 75 %.
Rumusnya adalah
Keterangan :
ΣPKA = jumlah pemilih kelompok atas
ΣPKB = jumlah pemilih kelompok bawah
n1= jumlah sampel kelompok atas (27 %)
n2 = jumlah sampel kelompok bawah (27 %)
b) Jumlah pemilih kelompok atas harus lebih besar daripada jumlah
pemilih kelompok bawah.
2) Untuk opsi pengecoh :
a) Jumlah pemilih kelompok atas dan kelompok bawah tidak kurang
dari :
25 % x x (Ka + Kb)
Keterangan :
d = jumlah opsi pengecoh
Ka = kelompok atas
Kb = kelompok bawah
b) Jumlah pemilih kelompok bawah harus lebih besar daripada jumlah
pemilih kelompok atas.
Contoh :
Diketahui :
Jumlah peserta didik (N) = 40 orang
n (27%x40) = 10,80 = 11 (dibulatkan)
Jumlah soal = 10.
Bentuk soal = pilihan-ganda.
Jumlah opsi = 5 (a, b, c, d, e)
I Made Sudana Evaluasi Pembelajaran Page 61
Kunci jawaban (opsi kunci) soal nomor 1 (misalnya) adalah (c) dan opsi
pengecohnya adalah (a), (b), (d), dan (e).
opsi (a) = 0; opsi (b) = 1; opsi (c) = 7; opsi (d) = 3; opsi (e) = 0.
√ Untuk opsi (c) sebagai opsi kunci berfungsi efektif, karena jumlah
pemilih kelompok atas dan kelompok bawah adalah 2 2 7 + x 100 %
= 40,91 %. Angka ini berada diantara 25 % - 75 %. Di samping itu,
jumlah pemilih kelompok atas (7 orang) lebih besar daripada jumlah
pemilih kelompok bawah (2 orang).
√ Untuk opsi (a) sebagai opsi pengecoh berfungsi efektif, karena jumlah
pemilih kelompok atas dan kelompok bawah 2 orang. Jumlah ini di
atas minimal dari :
√ Untuk opsi (d) sebagai opsi pengecoh tidak berfungsi secara efektif,
karena jumlah pemilih kelompok atas (3 orang) lebih besar daripada
jumlah pemilih kelompok bawah (1 orang).
√ Untuk opsi (e) sebagai opsi pengecoh tidak berfungsi secara efektif,
karena jumlah pemilih kelompok atas dan kelompok bawah kurang dari
0,69.
EVALUASI PEMBELAJARAN
Oleh
Dr. I MADE SUDANA, M. Pd
JUDUL …………………………………………………..........
DAFTAR ISI ………………………...……………………………... i
PRA KATA ………………………...……………………………... ii
BAGIAN 1 PENDAHULUAN ...…………...……………………………... 1
1. Pengantar………………..……………...……………………………... 1
2. Makna Evaluasi ……………………………………………………….
3. Langkah-Langkah di Dalam Evaluasi …………………………... 2
4. Prasyarat ………………………………………………………………. 4
BAGIAN 2 TUJUAN DAN JENIS EVALUASI PEMBELAJARAN ………. 5
1. Pengertian Evaluasi ……………………………………………………. 5
2. Tujuan Evaluasi Pembelajaran ………………………………………..
5. Fungsi Evaluasi Pembelajaran ……………………………………..
5. Ruang Lingkup Evaluasi Pembelajaran………………………………
BAGIAN 3