Anda di halaman 1dari 28

MAKALAH EVALUASI PEMBELAJARAN

“INSTRUMEN TES”

DISUSUN OLEH

JUNIATI (E1M 016 033)

MIFTAH FIRJATILLAH (E1M 016 039)

PROGRAM STUDI PENDIDIKAN KIMIA

FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN

UNIVERSITAS MATARAM

2018
A. PENGERTIAN INSTRUMEN TES

Secara umum tes diartikan sebagai alat yang dipergunakan untuk mengukur
pengetahuan atau penguasaan obyek ukur terhadap seperangkat konten dan materi
tertentu. Menurut Sudijono tes adalah alat atau prosedur yang dipergunakan dalam rangka
pengukuran dan penilaian. Anastasi dan Urbina mengemukakan bahwa tes dapat juga
diartikan sebagai alat ukur yang mempunyai standar objektif sehingga dapat
dipergunakan secara meluas, serta betul-betul dapat digunakan untuk mengukur dan
membandingkan keadaan psikhis atau tingkah laku individ. Cronbach berpendapat bahwa
tes merupakan suatu prosedur yang sistematis untuk mengamati atau mendeskrip sikan
satu atau lebih karakteristik seseorang dengan menggunakan standar numerik atau sistem
kategorik. Bruce berpendapat tes dapat digunakan untuk mengukur banyaknya
pengetahuan yang diperoleh individu dari suatu bahan yang terbatas pada tingkat tertentu.
Norman mengemukakan bahwa tes merupakan salah satu prosedur evaluasi yang
komprehensif, sistematik dan obyektif yang hasilnya dapat dijadikan sebagai dasar dalam
pengambilan keputusan dalam proses pengajaran yang dilakukan oleh guru.

Berdasarkan definisi tersebut, dapat dijelaskan bahwa tes merupakan alat ukur
yang berbentuk pertanyaan atau latihan, dipergunakan untuk mengukur kemampuan yang
ada pada seseorang atau sekelompok orang. Sebagai alat ukur dalam bentuk pertanyaan,
maka tes harus dapat memberikan informasi mengenai pengetahuan dan kemampuan
obyek yang diukur. Sedangkan sebagai alat ukur berupa latihan, maka tes harus dapat
mengungkap keterampilan dan bakat seseorang atau sekelompok orang. Tes merupakan
alat ukur yang standar dan obyektif sehingga dapat digunakan secara meluas untuk
mengukur dan membandingkan keadaan psikis atau tingkah laku individu. Dengan
demikian berarti sudah dapat dipastikan akan mampu memberikan informasi yang tepat
dan obyektif tentang obyek yang hendak diukur baik berupa psikis maupun tingkah
lakunya, sekaligus dapat membandingkan antara seseorang dengan orang lain.

Jadi dapat disimpulkan bahwa tes adalah suatu cara atau alat untuk mengadakan
penilaian yang berbentuk suatu tugas atau serangkaian tugas yang harus dikerjakan oleh
siswa atau sekelompok siswa sehingga menghasilkan nilai tentang tingkah laku atau
prestasi siswa tersebut. Prestasi atau tingkah laku tersebut dapat menunjukkan tingkat
pencapaian tujuan intruksional pembelajaran atau tingkat penguasaan terhadap
seperangkat materi yang telah diberikan dalam proses pembelajaran, dan dapat pula
menunjukkan kedudukan siswa yang bersangkutan dalam kelompoknya. Dalam kaitan
dengan rumusan tersebut, sebagai alat evaluasi hasil belajar, tes minimal mempunyai dua
fungsi, yaitu:

a. Untuk mengukur tingkat penguasaan terhadap seperangkat materi atau tingkat


pencapaian terhadap seperangkat tujuan tertentu.
b. Untuk menentukan kedudukan atau perangkat siswa dalam kelompok, tentang
penguasaan materi atau pencapaian tujuan pembelajaran tertentu.
Fungsi (a) lebih dititik beratkan untuk mengukur keberhasilan program pembelajaran,
sedang fungsi (b) lebih dititik beratkan untuk mengukur keberhasilan belajar masing -
masing individu peserta tes.

B. BENTUK –BENTUK TES


Dari aspek sistem skoring, bentuk-bentuk tes dalam institusi pendidikan dapat
dikategorikan menjadi dua kategori, yaitu tes objektif dan tes subjektif.
1. Tes Objektif

Tes objektif disebut objektif karena cara pemeriksaannya yang seragam terhadap semua
murid yang mengikuti sebuah tes. Tes objektif juga dikenal dengan istilah tes jawaban
pendek (short answer test), dan salah satu tes hasil belajar yang terdiri dari butir-butir
soal (items) yang dapat dijawab oleh tester dengan jalan memilih salah satu (atau lebih),
di antara beberapa kemungkinan jawaban yang telah dipasangkan pada masing masing
items atau dengan jalan menuliskan jawabannya berupa kata-kata atau simbol-simbol
tertentu pada tempat-tempat yang disediakan untuk masing-masing butir yang
bersangkutan. Terdapat beberapa jenis tes bentuk objektif, misalnya: bentuk melengkapi
(completion test), pilihan ganda(multifle chois),menjodohkan (matching), bentuk pilihan
benar-salah(true false).

 Keunggulan test objektif


1) Lebih representatif merepresentasikan isi dan materi pembelajaran luas
2) Lebih mudah dan lebih cepat memeriksa sebab dapat menggunakan kunci jawaban,
bahkan dapat menggunakan peralatan tehnologi, misalnya, mesin scanner
3) Pemeriksaan dapat dilakukan orang lain
4) Dalam pemeriksaan atau skoring, terdapat unsur objek yang mempengaruhi baik
dari sisi guru maupun sisi siswa
 Kelemahan test objektif
1) Penyiapan lebih sulit dibanding esay test sebab terdapat banyak item test yang
harus diperiksa dalam rangka menghindari kelemahan lainnya
2) Item test cenderung hanya mengungkap memori dan ingatan, dan sulit mengukur
kemampuan cara berpikir tingkat tinggi seperti sintesis dan kreatifitas
3) Banyak kesempatan siswa berspekulasi atau menebak dalam menjawab pertanyaan
4) Kerjasama diantara siswa dapat terjadi pada saat menyelesaikan test lebih terbuka

Bentuk-Bentuk Tes Objektif :

a. Melengkapi (Completion test)


Completion test adalah dikenal dengan istilah melengkapi atau menyempurnakan.
Salah satu jenis objektif yang hampir mirip sekali dengan tes objektif fill in. Letak
perbedaannya ialah pada tes objektif bentuk fill in bahan yang dites itu merupakan
satu kesatuan. Sedangkan pada tes objektif bentuk completion tidak harus demikian.
Contoh: Ikatan yang terjadi karena penggunaan bersama pasangan electron
disebut………..
1) Test completion memiliki kelebihan yakni :
a) Test ini amat mudah dalam penyusunannya.
b) Test ini juga dapat digunakan untuk mengukur berbagai taraf kompetensi dan
tidak sekedar mengungkapkan taraf pengenalan atau hapalan saja.
2) Kekurangan tes completion yakni :
a) Pada umumnya tester cenderung menggunakan tes model ini untuk
mengungkapkan daya ingat atau aspek hapalan saja.
b) Dapat terjadi bahwa butir-butir item dari tes model ini kurang relevan untuk
disajikan.
c) Karena pembuatannya mudah, maka tester sering kurang hatihati dalam
membuat soal-soal.
b. Test Objektif Bentuk Multiples Choice Test (Pilihan Ganda)

Multiple choice test terdiri atas suatu keterangan atau pemberitahuan tentang suatu
pengertian yang belum lengkap. Dan untuk melengkapinya harus memilih satu dari
beberapa kemungkinan jawaban yang telah disediakan . Atau multiple choice test terdiri
atas bagian keterangan (stem) dan bagian kemungkinan jawaban atau alternative
(options). Kemungkinan jawaban (option) terdiri atas satu jawaban yang benar yaitu
kunci jawaban dari beberapa pengecoh (distractor).
Tes bentuk pilihan ganda (PG) ini merupakan bentuk tes objektif yang paling banyak digunakan
karena banyak sekali materi yang dapat dicakup. Bentuk soal yang digunakan biasa dalam
bentuk beberapa variasi, diantaranya yaitu:
1. Pilihan ganda biasa
2. Hubungan antar hal (pernyataan-sebab-pernyataan)
3. Kasus (dapat muncul dalam berbagai bentuk)
4. Diagram, gambar, tabel, dan sebagainya
5. Asosiasi
Contoh Soal
Sistem periodic Mendeleev disusun berdasarkan . . .
a. Kofigurasi electron d. massa atom relative dan kesamaan sifat
b. Massa atom relative e. nomor atom dan kesamaan sifat
c. Nomor atom

1) Petunjuk Penyusunan
Pada dasarnya, soal bentuk pilihan ganda ini adalah bentuk soal bentuk benar-salah
juga, tetapi dalam bentuk jamak. Tercoba (testee) diminta membenarkan atau
menyalahkan setiap stem dengan tiap pilihan jawaban. Kebanyakan jawaban itu
biasanya sebanyak tiga atau empat buah, tapi adakalanya dapat juga lebih banyak
(untuk tes yan diolah dengan komputer banyaknya option diusahakan 4 buah).
2) Hal-hal yang harus diperhatikan
 Instruksi pengerjaan harus jelas, dan bila dipandang perlu baik disertai contoh
mengerjakannya.
 Dalam multiple choice test hanya ada satu jawaban yang benar. Jadi tidak
mengenal tingkatan-tingkatan benar, misalnya benar nomor satu, benar nomor dua
dan sebagainya.
 Kalimat pokoknya hendaknya mencakup dan sesuai dengan rangakain mana pun
yang dapat dipilih.
 Kalimat pada butir soal hendaknya sesingkat mungkin.
 Usahakan menghindarkan penggunaan bentuk negatif dalam kalimat pokoknya.
 Kalimat pokok dalam setiap butir soal, hendaknya tidak tergantung pada butir-
butir lain.
 Gunakan kata-kata: ”manakah jawaban paling baik”, ”pilihlah satu yang pasti
lebih baik dari yang lain”, bilamana terdapat lebih dari satu jawaban yang benar.
 Jangan membuang bagian pertama dari suatu kalimat.
 Dilihat dari segi bahasanya, butir-butir soal jangan terlalu sukar.
 Tiap butir soal hendaknya hanya mengandung satu ide, meskipun ide tersebut
kompleks.
 Bila dapat disusun urutan logis antar pilihan-pilihan, urutkanlah (misalnya: urutan
tahun, urutan alfabet, dan sebagainya).
 Susunlah agar jawaban manapun mempunyai kesesuaian tata bahasa dengan
kalimat pokoknya.
 Alternatif yang disajikan hendaknya agak seragam dalam panjangnya, sifat
uraiannya maupun taraf teknis.
 Alternatif-alternatif yang disajikan hendaknya agak bersifat homogen mengenai
isi dan bentuknya.
 Buatlah jumlah alternatif pilihan ganda sebanyak empat. Bilamana terdapat
kesukaran, buatlah pilihan-pilihan tambahanuntuk mencapai jumlah empat
tersebut pilihan-pilihan tambahan hendaknyajangan terlalu gampang diterka
karena bentuk atau isi.
 Hindarkan pengulangan kata pada kalimat pokok di alternatif-alternatifnya,
karena anak cenderung akan memilih alternatif yang mengandung pengulangan
tersebut. Hal ini disebabkan karena dapat diduga itulah jawaban yang benar.
 Hindarkan menggunakan susunan kalimat dalam buku pelajaran. Karena yang
terungkap mungkin bukan pengertiannya melainkan hafalannya.
 Alternatif-alternatif hendaknya jangan tumpang-tindih, jangan inklusif, dan
jangan sinonim.
 Jangan gunakan kata-kata indikator seperti selalu, kadang-kadang, dan pada
umumnya.
3) Kelebihan Tes Pilihan Ganda
 Item pertanyaan dalam pilihan ganda dapat digunakan untuk mengukur semua
tingkatan tujuan pembelajaran, dari yang paling sederhana hingga yang paling
kompleks; kecuali untuk tujuan seperti keterampilan mendemonstrasikan,
menyatakan sesuatu secara ekspressif. Sebagai contoh, tujuan yang ingin diukur
adalah menunjukkan kecantikan tulisan, kemampuan menggambar, atau
kemampuan mendemonstrasikan keseimbangan tubuh. Hal-hal yang tidak dapat
diukur dengan menggunakan item pertanyaan objektif, termasuk test pilihan
ganda.
 Oleh karena karakteristik item pertanyaan dalam pilihan ganda hanya
membutuhkan waktu untuk menyelesaikan sangat sedikit, maka tiap instrumen
test yang menggunakan item pertanyaan test pilihan ganda sebagai alat
pengukuran dapat menggunakan jumlah item pertanyaan yang relatif banyak.
Oleh karena itu, pengambilan sampel topik yang akan diuji dapat menjadi lebih
luas, sehingga tiap instrumen test dapat mencakup hampir semua cakupan subjek.
 Skoring hasil test dapat dilakukan secara objektif. Karena itu, tidak ada unsur
subjektifitas dari pemeriksa dapat mempengaruhi skore hasil ujian. Bahkan, sebab
atributnya, pen-skoran dapat dilakukan dengan mesin. Oleh karena itu, skorirng
dapat diselesaikan dalam waktu singkat
 Item jenis pertanyaan dapat disusun sedemikian rupa sehingga item tersebut
menuntut kemampuan tester membedakan beberapa tingkatan kebenaran secara
simultan. Sebagai contoh, item pertanyaan dapat disusun dapat disusun dengan
semua pilihan adalah benar, tetapi pada tingkatan kebenaran yang berbeda. Tester
diminta menyatakan pilihan yang paling benar diantara semua jawaban benar.
 Jumlah pilihan yang tersedia lebih dari dua, sehingga dapat mereduksi keinginan
tester menebak. Biasanya, keinginan akan menjadi lebih besar jika kemungkinan
untuk benar lebih besar juga. Maka, jika ada lebih dari dua pilihan, kemungkinan
menebak benar akan berkurang lebih dari 50%.
 Test jenis pilihan ganda memberikan kesempatan melakukan analisis item
pertanyaan yang baik. Item-item tersebut dapat disusun dengan uji coba
sebelumnya. Jika pada uji coba item-item tersebut menunjukkan kelemahan, maka
dapat dilakukan perbaikan.
 Tingkat kesulitan item dapat diatur dengan cara mengubah homogenitas jawaban
alternatif. Semakin homogen jawaban alternatif, semakin tinggi tingkat kesulitan,
dan sebaliknya.
 Informasi yang diberikan menjadi lebih kaya. Item ini dapat memberikan
informasi lebih banyak kepada guru tentang tester, utamanya jika item memiliki
homogenitas yang tinggi. Tiap pilihan tester untuk jawaban alternatif adalah
merupakan informasi tentang pemahaman kognitif tester dalam bidang yang diuji.
4) Kelemahan Test Pilihan Ganda
o Relatif sulit menyusun pertanyaan inti, terutama menemukan homogenitas
jawaban alternatif. Sering kali guru menyusun item dengan hanya menyiapkan
satu jawaban alternatif, yaitu kunci jawaban. Alternatif lainnya ditelusuri dan
ditemukan dengan cepat, sehingga jawaban alternatif tidak homogen. Item seperti
ini tidak cukup kuat mengukur kemampuan tester.
o Terdapat kecenderungan bahwa guru menyusun item jenis test ini dengan cara
hanya menguji atau mengukur aspek memori, atau aspek yang paling rendah di
dalam area kognitif. Tetapi, jika kebanyakan item hanya menguji aspek kognitif,
sehingga instrumen test tidak terlalu bermakna sebagai alat pengukuran
kesuksesan secara keseluruhan.
o Pengaruh kebijakan test dari tester pada test bentuk pilihan ganda terhadap hasil
test. Maka akan lebih sering seorang tester kepada bentuk test ini,
kemungkinannya lebih tinggi bagi tester memperoleh skore yang lebih tinggi.
Peningkatan skore disebabkan oleh kebijakan test ini sesungguhnya sangat
bermakna, hal itu akan mengganggu interpretasi hasil secara individual, selama
seorang guru tetap menyadari bahwa terdapat pengaruh kebijakan test.

c. Test Objektif Bentuk Matching (Menjodohkan)

Terdapat beberapa terminologi yang digunakan untuk menunjukkan test mencocokkan,


misalnya mix and match. Item pertanyaan jenis ini ditulis dalam dua kolom atau
kelompok. Kelompok pertama di sebelah kiri adalah pertanyaan/pernyataan atau stem
atau biasa juga disebut dengan premis. Kelompok kedua di sebelah kanan adalah
jawaban. Tugas tester adalah menemukan dan mencocokkan jawaban, sehingga tepat
dengan pertanyaan/pernyataan.Jika test harus dilakukan secara terpisah dari lembar
jawaban, maka di depan pertanyaan/pernyataan dan jawaban harus diberikan urutan kode,
menggunakan angka atau alphabeth.
Contoh 1 :
“Cocokkanlah pernyataan di sebelah kiri dengan pernyataan di sebelah kanan dengan
menempatkan alphabeth di depan pernyataan di sebelah kanan pada titik-titik yang
tersedia di sebelah kiri”.
1. Tabel periodik modern............. a. Allotroph
2. Siklus Habern-Born................. b. Mendeleev
3. Graphite dan berlian................ c. Energi ikatan ionik
d. Energi ikatan kovalen
e. Resonansi

Cara menjawab item pertanyaan di atas adalah dengan menuliskan pernyataan di sebelah
kanan yang tersedia secara lengkap, sebagai contoh:
1. Tabel periodik modern diusulkan oleh Mendeleev
2. Siklus Habern-Born dapat digunakan untuk mengukur jumlah energi ikatan ionik
3. Graphite dan berlian adalah bentuk allotroph dari karbon.
Tetapi, hal itu dapat dijawab dengan hanya menuliskan “alphabeth” di depan kata
terpilih, misalnya,
1. Tabel periodik modern: (b)
2. Siklus Habern-Born: (c)
3. Graphite dan berlian: (a)
Cara kedua dianggap lebih efisien, baik dari sudut pandang guru maupun siswa, sebab
menulis dan memeriksa adalah lebih mudah dan lebih cepat.
Contoh 2:
Cocokanlah senyawa-senyawa di bawah ini dengan bentuk geometrinya !
1. H2O a. piramida
2. NH3 b. bengkok
3. BeCl2 c. segitiga planar
4. BF3 d. linear

1) Keunggulan dan kekurangan jenis mencocokkan


 Baik untuk menguji hasil belajar yang berhubungan dengan pengetahuan tentang
terminologi, definisi, kejadian, atau dating
 Dapat menguji kemampuan menghubungkan dua hal, baik secara langsung
maupun tidak langsung
 Mudah disusun, sehingga guru dapat menyusun sejumlah item pertanyaan untuk
menguji topik tertentu dari subjek dalam waktu singkat.
 Dapat digunakan untuk keseluruhan perkuliahan yang sedang diuji. Kemudian,
instrumen pertanyaan yang menggunakan jenis ini lebih terdistribusi; topik dan
sub-topik secara keseluruhan menjadi cukup representatif
 Mudah diskoring. Semua yang di luar item pertanyaan dari test objektif, item
pertanyaan dari jenis ini dapat diskoring dengan pengaruh subjektifitas guru.
2) Kelemahan dari test jenis ini adalah
o Matching test cenderung lebih banyak mengungkap aspek hapalan atau daya
ingat.
o Karena mudah disusun, maka tes jenis ini kurang baik acap kali dijadikan
“pelarian” bagi pengajaran, yaitu kalau pengajar tidak sempat lagi untuk
membuat tes bentuk lain.
o Karena jawaban yang pendek, maka tes ini kurang baik untuk mengevaluasi
pengertian dan kemampuan membuat tafsiran.
3) Penyusunan test jenis mencocokkan
a) Kelompok pernyataan di sebelah kiri dan kelompok jawaban di sebelah kanan
harus berisi kelompok homogen.
Contoh dari kelompok non-homogen
Kelompok sebelah kiri (pernyataan) Kelompok sebelah kanan (jawaban)
1. Proses eksoterm a. phenomena seperti keracunan
nitrogen
2. Proses redoks b. reaksi yang membutuhkan energi
3. Nitrogen narkosis c. keinert-an nitrogen
4. Xenon d. pembentukan karat
e. salah satu dari gas mulia
f. proses reaksi yang melepaskan
energi
Contoh dari kelompok homogen
Di sebelah kiri terdapat nama dari beberapa senyawa dan di sebelah kanan
terdapat nama lainnya. Sekarang, cobalah mencocokkan kelompok sebalah kiri
dengan alphabeth di depan nama senyawa
1. Nitrida a. katenasi
2. Halida b. diboran
3. Hidrida c. garam dapur
4. Borida d. CFC
e. azida
f. karbida
b) Jumlah kelompok jawaban (sebelah kanan) harus lebih banyak dari jumlah
kelompok pernyataan (sebelah kiri). Mudah menyiapkan lembar jawaban
homogen, disarankan jumlah pernyataan kira-kira 3 atau 4 item dan jawaban kira-
kira 5. Oleh karena itu, lembar jawaban akan tepat dengan item pertanyaan.
d. Test Objektif Bentuk Fill In (Isian)
Test objektif bentuk fill in ini biasanya berbentuk cerita atau karangan.
1) Kelebihannya ialah :
 Dengan menggunakan tes objektif bentuk fill in maka masalah yang diwujudkan
tertuang secara keseluruhan dalam konteksnya.
 Cara penyusunannya mudah.
2) Kekurangannya adalah:
 Test objektif fill ini cenderung lebih banyak mengungkapkan aspek pengetahuan
atau pengenalan saja.
 Test ini juga sifatnya konfrensif, sebab hanya dapat mengungkapkan sebahagian
saja dari bahan yang seharusnya diteskan.
3) Cara penyusunan tes objektif bentuk fill in:
 Agar tes ini dapat digunakan secara efisien sebaiknya jawaban yang harus
diisikan ditulis pada lembar jawaban atau pada tempat yang terpisah.
 Ungkapan cerita yang dijadikan bahan tes hendaknya disusun seringkas
mungkin demi menghemat tempat atau kertas serta waktu penyesuaiannya.
 Apabila jenis mata pelajaran yang akan disajikan itu memungkinkan pengajaran
atau pengujian soal juga dapat dituangkan dalam bentuk gambar.
e. Test Objektif Bentuk True False (Benar Salah)

Test ini juga sering dikenal dengan tes objektif bentuk “Ya-Tidak” tes objektif bentuk
true false adalah salah satu bentuk tes, dimana ada yang benar dan ada yang salah. Test
benar – salah adalah suatu test dimana item pertanyaannya terdiri dari pernyataan yang
diikuti oleh jawaban alternatif, yaitu jawaban atau pernyataan benar – salah. Tester
diminta menandai setiap jawaban atau pernyataan dengan cara melingkari atau memberi
tanda silang pada “B” untuk jawaban atau pernyataan benar dan “S” untuk jawaban atau
pernyataan salah. Contoh,
Natrium adalah salah satu unsur logam. B–S
Hidrogen Klorida tergolong senyawa ion B–S
1) Keunggulan test benar – salah
 Dapat merepresentasikan topik materi pembelajaran lebih luas. Keunggulan ini
adalah merupakan suatu keunggulan utama dari benar – salah. Hal ini bisa
dicapai sebab tiap item pertanyaan membutuhkan waktu yang singkat untuk
menjawab. Oleh karena itu, test ini dapat mencakup banyak item pertanyaan
dalam suatu waktu yang relatif pendek. Item-item pertanyaan dapat disusun dari
keseluruhan topik subjek tercakup. Jenis ini tidak membutuhkan banyak halaman
pertanyaan sebab pertanyaan-pertanyaan biasanya terdapat dalam bentuk
pernyataan singkat.
 Mudah menyusun pertanyaan. Menyusun pertanyaan dari jenis test ini hanya
membutuhkan satu pernyataan. Pernyataan tersebut harus berhubungan dengan
topik subjek yang diujikan dengan item pertanyaan. Oleh karena mudah, guru
sering memilih jenis test ini. Tetapi alasan tersebut tidak dapat diterima sebab
akan menghasilkan apart un-responsible item pertanyaan. Oleh karena mudah
disusun, maka pemilihan jenis test ini harus didasarkan pada pertimbangan
positif, sehingga hal itu membuat guru lebih mudah memperoleh informasi
tentang tingkatan pencapaian kompentensi siswa.
 Mudah diskoring. Sebab hanya ada dua alternatif jawaban, maka tiap item dari
pertanyaan hanya memiliki dua alternatif skore, yaitu satu (1) untuk jawaban
benar dan nol (0) untuk jawaban salah. Oleh karena itu, skoring sangat mudah
dan dapat dilakukan oleh siapa saja, bahkan oleh computer.
 Merupakan suatu instrumen yang baik untuk mengukur fakta-fakta dan hasil
belajar secara langsung, terutama hal-hal yang terhubung dengan memori. Item
pertanyaan benar – salah mengukur kemampuan dasar hasil belajar, yaitu
membedakan antara realitas dari yang tidak nyata dari sesuatu yang seharusnya
benar atau tidak benar. Keunggulan ini sangat tidak tepat jika sesuatu yang akan
diukur adalah kemampuan untuk membedakan dengan cermat.
2) Kelemahan test jenis benar – salah
o Hanya dapat mengungkap power of memory dan re-introducing saja. Bentuk
item pertanyaan dari jenis ini hanya menguji hasil langsung dalam bentuk
memory dan re-introducing. Banyak masalah yang tidak dapat dinyatakan hanya
dalam dua alternatif jawaban benar dan salah.
o Test jenis ini dapat mendorong tester untuk menebak jawaban. Sebab
kemungkinan jawaban benar adalah 50% , maka test ini kelihatan mendorong
tester menebak jawaban walaupun tidak mengetahui jawaban yang benar.
Kemungkinan untuk benar sama dengan kemungkinan untuk salah menyebabkan
kemungkinan menebak menjadi lebih tinggi. Kelemahan ini dapat ditangani
dengan jalan mengimplementasikan strategi tertentu yang mendorong tester tidak
berspekulasi jika mereka tidak mengetahui jawaban yang tepat. Sebagai contoh,
skoring menggunakan rumus total skore, yaitu jumlah jawaban benar dikurangi
jumlah jawaban salah.
3) Cara menganalisis skore test pada jenis ini
1) Sistem punishment
Rumusnya adalah Sc = C – I; dimana Sc adalah skore yang diperoleh tester, C
adalah jumlah jawaban benar, dan I adalah jumlah jawaban salah.
Contoh, jumlah item pertanyaan = 100
Akhmad dapat menjawab dengan benar sebanyak 70 item pertanyaan, jawaban
salah sebanyak 25 item pertanyaan, dan 5 item pertanyaan tidak dijawab,
sehingga skore untuk Akhmad adalah 70 – 25 = 45. Keunggulan sistem ini akan
mereduksi kemungkinan tester berspekulasi menjawab pertanyaan, tetapi
kelemahannya adalah kemungkinan tester memperoleh skore negatif.
2) Sistem tanpa punishment
Rumusnya adalah Sc = C, dimana Sc adalah skore yang diperoleh tester, C adalah
jumlah jawaban benar. Hal ini berarti hanya jawaban benar yang dihitung dan
jawaban salah tidak mempengaruhi skore akhir. Kelemahan sistem ini adalah
dapat mendorong tester berspekulasi menjawab pertanyaan, tetapi keunggulannya
adalah tak seorangpun dari tester memperoleh skore negatif.
4) Cara penyusunan test true false
 Membuat petunjuk yang jelas, bagaimana mengerjakan soal tes, agar peserta didik
tidak bingung.
 Jangan membuat pernyataan yang masih dapat dipersoalkan antara benar dan
salahnya, pernyataan sudah benar atau salah.
 Setiap soal supaya mengandung satu perngertian saja, jangan membuat soal yang
banyak mengandung pengertian.
 Dalam membuat soal jangan ada kata-kata yang meragukan misalnya dengan kata
“Kadang” “Barang kali”. Sekarang ini bentuk true false tidak diperlukan lagi
untuk tes hasil belajar karena bentuk ini dianggap kurang tepat untuk mengukur
tingkat kemajuan belajar anak.
2. Tes Subjektif

Tes subjektif adalah suatu tes yang penskoringannya dipengaruhi oleh encoder
score. Jawaban yang sama dapat memiliki skore yang berbeda karena encoder yang
berbeda. Tes subjektif adalah suatu tes yang dipengaruhi oleh subjektifitas dari encoder
dan juga dipengaruhi oleh jawaban atau respon tester. Diantara subjektifitas yang dapat
mempengaruhi hasil skoring tes, yaitu:

 Tingkat Ketidakhandalan (Ketidak konsistenan Asesor)


Kondisi asesor baik fisik maupun psikis dapat mempengaruhi skore jawaban
siswa. Jawaban untuk tes yang di-ases oleh guru dengan kondisi lemah dan
ngantuk akan memberikan skore yang berbeda dari kesehatan dan kondisi
segar. Sama seperti kondisi psikis yang sedang bad mood yang disebabkan
oleh banyak masalah sehingga skoring harus diakhiri dan hal itu akan
mempengaruhi guru dalam pemberian skore. Oleh karena itu, ketidakstabilan
kondisi asesor akan menurunkan tingkat kehandalan skore hasil belajar.
 Kesan Pertama Guru
Kesan guru terhadap siswa sebelumnya akan mempengaruhi skore hasil tes
siswa. Umumnya, guru cenderung memberikan skore yang lebih baik kepada
siswa yang memiliki hasil belajar yang baik dan sebaliknya. Karakteristik
siswa kadang-kadang dapat juga mempengaruhi skore hasil belajar. Secara
umum, guru cenderung memberikan skore yang lebih rendah terhadap hasil tes
siswa dengan sikap buruk dan sebaliknya.
 Efek Orde
Orde pemeriksaan kertas jawaban kadang-kadang dapat mempengaruhi skore
tes. Guru cenderung memberikan skore yang lebih tinggi untuk lembar
jawaban yang diperiksa setelah lembar jawaban sebelumnya memperoleh skore
tinggi dan sebaliknya. Dalam hal ini, terdapat perbedaan standar skore untuk
orde pemeriksaan yang berbeda.
 Efek Mekanik dan Bahasa
Bentuk mekanik yang sulit dibaca dan penggunaan bahasa yang sulit
dimengerti oleh guru akan mempengaruhi pemberian skore. Mekanik dan
bahasa yang tidak jelas akan mengurangi skore jawaban tes yang diberikan
guru.
a. Tes Uraian
Tes bentuk uraian adalah tes yang berbentuk pertanyaan tulisan, jawabannya
merupakan karangan (essay) atau kalimat yang panjang. Panjang pendeknya
kalimat atau jawaban tes relatif, sesuai dengan kecakapan dan pengetahuan si
penjawab. Jenis tes uraian dapat dikelompokkan menjadi dua yaitu tes uraian
bentuk jawaban terbuka
dan tes uraian bentuk jawaban tertutup. Pada tes uraian bentuk jawaban terbuka,
jawaban yang dikehendaki dari testee sepenuhnya diberikan kepada testee untuk
menjawab seluas dan sedalam mungkin, sedangkan tes uraian bentuk jawaban
tertutup adalah jawaban yang dikehendaki merupakan jawaban yang sifatnya sudah
lebih terarah dan sudah dibatasi. Tes bentuk uraian memiliki karakteristik yaitu
 Memberikan kebebasan kepada testee
 Hilangnya unsur menebak,
 Cocok untuk group kecil,
 Mudah dalam membuat dan sulit dalam
 Menentukan skoring.
 Kebaikan Tes Bentuk Uraian
1) Kelebihan Tes Uraian
 Pembuatan tes bentuk uraian dapat dilakukan dengan mudah dan cepat.
 Memberi kebebasan kepada testee dalam menjawab dan mengeluarkan buah
pikirannya.
 Penyusunan tes akan dapat mengetahui seberapa jauh tingkat kedalaman dan
tingkat penguasaan
 testee dalam memahami materi yang ditanyakan.
 Melatih testee untuk berani mengemukakan pendapat dengan menggunakan
kalimat dan gaya
 bahasa yang merupakan hasil pemikiran sendiri.

2) Kelemahan Tes bentuk Uraian


o Kurang dapat menampung atau mencakup luasnya materi atau bahan
pelajaran yang seharusnya diuji sehingga kurang dapat menilai isi
pengetahuan testee yang sebenarnya.
o Jawaban yang sifatnya heterogen akan menyulitkan dalam mengoreksi
jawaban.
o Kecenderungan memberikan skor hasil tes yang bersifat subyektif.
o Koreksi lembar jawaban sulit untuk diserahkan kepada orang lain.
o Daya ketepatan mengukur kurang dapat diandalkan sebagai alat pengukur
hasil belajar yang baik.
3) Penyusunan Tes Bentuk Uraian
 Soal tes mencakup ide-ide pokok dari materi pelajaran-pelajaran yang
sifatnya komprehensif.
 Susunan kalimat soal tidak disalin langsung dari buku pelajaran atau bahan-
bahan lain.
 Penyusunan soal dilengkapi dengan kunci jawaban serta pedoman penilaian.
 Penyusunan soal diusahakan agar pertanyaannya bervariasi.
 Soal disusun secara ringkas, padat dan jelas sehingga dapat dipahami oleh
testee.
 Hendaknya dikemukakan pedoman tentang cara menjawab butir soal.

C. PENGEMBANGAN TES
Terdapat sembilan langkah yang dibutuhkan untuk mengembangkan test hasil belajar
(Djemari Mardapi. 2008: 88 – 97). Kesembilan langkah tersebut adalah:
1. Menyusun Spesifikasi Test
Langkah awal mengembangkan test adalah menentukan spesifikasi test, yaitu materi
yang mengandung esay yang menunjukkan keseluruhan karakter yang harus dimiliki
suatu test.Suatu spesifikasi yang jelas akan mempermudah menulis pertanyaan.
Siapapun penulis pertanyaan akan menghasilkan tingkat kesulitan yang relatif sama.
Penyusunan spesifikasi test meliputi aktifitas berikut.

a. Menentukan Tujuan Test

Dari sudut pandang tujuan test terdapat empat jenis test yang sering digunakan di
dalam institusi pendidikan, antara lain: test penempatan, test diagnostik, test
formatif, dan test sumatif.

 Untuk test penempatan, test dilaksanakan pada awal pembelajaran. Hasil test
ini sangat berguna untuk mengetahui level kemampuan yang dimiliki siswa.
Mempelajari bidang studi membutuhkan dukungan pengetahuan.
Pengetahuan ini diketahui dengan mengurai hasil test penempatan.
Seseorang, apakah membutuhkan pembelajaran ekstra atau tidak, diketahui
dari hasil test ini.
 Test diagnostik sangat berguna untuk mengetahui kesulitan pembelajaran
yang dihadapi siswa, termasuk miskonsepsi. Test ini dilaksanakan jika ada
informasi bahwa kebanyakan siswa gagal dalam pembelajaran. Hasil test ini
memberikan informasi tentang konsep-konsep yang belum dipahami atau
yang sudah dipahami. Oleh karena itu, test ini mengandung materi yang
dirasa sulit oleh siswa, tetapi tingkat kesulitan test ini rendah.
 Test formatif bertujuan untuk memperoleh input tentang level kesuksesan
dengan jalan melaksanakan proses pembelajaran. Input ini sangat berguna
untuk memperbaiki strategi pengajaran. Test ini dilaksanakan secara
periodik untuk satu semester secara keseluruhan. Materi test dipilih
berdasarkan tujuan pembelajaran dari tiap-tiap topik atau sub-topik. Oleh
karena itu, test ini sesungguhnya tidak untuk mengukur kesuksesan
pembelajaran semata, tetapi juga untuk mengetahui kesuksesan proses
pembelajaran. Di pengalaman sekolah, test formatif disamakan dengan test
harian atau test tengah semester.
 Test sumatif diberikan pada akhir pembelajaran atau pada akhir semester.
Hasilnya untuk menentukan kesuksesan siswa pada satu subjek tertentu.
Tingka kesuksesan dinyatakan dengan skore atau nilai, pemberian sertifikat,
dan lain-lain. Tingkat kesulitan test dalam test sumatif sangat bervariasi,
sementara materinya harus merepresentasikan materi yang sedang diajarkan.
Hasil test dapat diinterpretasikan sebagai kesuksesan pembelajaran,
pengajaran, atau keduanya. Di pengalaman sekolah, test sumatif ini dapat
disamakan sebagai test biasa yang biasanya dilaksanakan pada akhir
semester.
b. Menyusun Draft Test

Draft atau biasanya dikatakan sebagai tabel test spesifik seperti tabel matriks
yang berisi pertanyaan spesifik yang akan dibuat. Draft tersebut merupakan
acuan untuk penulis pertanyaan , sehingga siapapun yang menulis pertanyaan
akan menghasilkan pertanyaan dengan isi dan tingkat kesulitan yang relatif
sama. Matriks dari draft pertanyaan terdiri dari dua arah, yaitu kolom dan row.
Kolom menyatakan kompetensi dasar dan indikator, topik dan sub-topik, dan
uraian materi. Row menyatakan tujuan yang diukur dalam test.Ada empat
langkah pengembangan draft test, yaitu:

1) Menulis standar kompetensi dan kompetensi dasar

2) Menentukan indikator

3) Membuat daftar topik dan sub-topik dari subjek yang akan diuji

4) Menentukan jumlah item test untuk tiap topik dan sub-topik dari subjek

Draft test dapat disusun secara terpisah antara test objektif dan test esay, tetapi
satu draft dari test dapat mengandung dua bentuk test, seperti test objektif dan
test esay.Sumber utama standar kompetensi , kompetensi dasar, indikator,
topik, dan sub-topik adalah silabus. Pemilihan topik dan sub-topik yang akan
diuji didasarkan pada tingkat kepentingan, yaitu konsep dasar, konsep
berkesinambungan, dan konsep yang mengandung nilai tinggi untuk aplikasi.
Tujuan yang akan dicapai disertai dengan informasi tentang topik dan sub-
topik yang diuraikan dalam bentuk indikator. Untuk menentukan indikator
yang akan diukur digunakan buku teks sebagai referensi. Hal ini dimaksud
untuk mereduksi deviasi dalam pemilihan materi sehingga mengikuti kondisi
untuk validitas isi.

Jumlah pertanyaan yang digunakan tergantung pada waktu yang tersedia untuk
test dan materi yang akan diuji. Pemilihan materi test umumnya dilakukan
dengan jalan pemilihan sampel yang secara akademik bertanggung jawab
merepresentasikan bidang studi, topik dan sub-topik yang akan diuji. Proses
pemilihan sampel tidak mungkin dilakukan secara random. Hanya seorang ahli
pada bidang studi tersebut mengetahui dengan pasti apakah suatu sampel
representatif atau tidak. Pemilihan didasarkan pada pertimbangan bagaimana
pentingnya konsep, generalisasi, postulat, atau teori teruji dalam konteks
dengan peranannya dalam bidang studi tersebutsecara keseluruhan. Oleh
karena itu, tidak mungkin pemilihan dilakukan oleh orang awam dalam bidang
studi tersebut. Tak ada pembatasan jumlah item pertanyaan dari satu topik atau
satu sub-topik.

c. Memilih Bentuk Test

Pemilihan bentuk test yang tepat/cocok ditentukan oleh tujuan test, jumlah
tester, dan waktu yang digunakan untuk memeriksa lembar jawaban, cakupan
materi, dan karakteristik subjek yang akan diuji. Bentuk objektif test pilihan
ganda dan bentuk test benar – salah sangat tepat digunakan jika jumlah tester
banyak. Keunggulan bentuk objektif test pilihan ganda yang mana lembar
jawaban dapat diperiksa oleh komputer sehingga objektifitas skoring terjamin.
Tetapi membuat suatu test objektif yang baik tidaklah mudah.Bentuk test
objektif esay (jawaban singkat dan melengkapi) sering digunakan untuk subjek
dengan batasan yang jelas, sebagai contoh, matematik, fisika, kimia, biologi,
teknik, dan lain-lain. Pertanyaan dalam test ini hanya memiliki satu jawaban,
dimulai dari pemilihan rumus yang tepat, memasukkan angka ke dalam rumus,
menghitung dan menginterpretasikan hasil. Skoring pada test ini dapat
dilakukan dengan jelas dan terklarifikasi.
Suatu bentuk test dapat dikatakan subjektif jika asesmen cenderung terpengaruh
oleh subjektifitas asesor. Bentuk test ini menuntut kemampuan siswa memberi
pesan, memilih, menyusun, dan menggabungkan berbagai macam ide-ide
mereka dengan menggunakan bahasa mereka sendiri. Keunggulan test ini
adalah bahwa test ini dapat mengukur tingkat berpikir mulai dari level rendah
hingga level tinggi, yaitu mulai dari memori hingga evaluasi dan kreatifitas.
Menjadikan test ini relatif mudah,

d. Menentukan Panjang Test

Menentukan panjang test didasarkan pada cakupan materi test dan tiring tester.
Umumnya, test tulis membutuhkan waktu 90 – 120 menit (untuk test praktek
bisa jadi lebih lama). Menentukan panjang test didasarkan pada pengalaman
pada waktu melakukan test. Khusus untuk test standar, penentuan waktu
didasarkan pada hasil uji coba. Tetapi untuk test harian di kelas, penentuan
waktu didasarkan pada pengalaman guru.

Secara umum, waktu yang dibutuhkan untuk menyelesaikan bentuk test pilihan
ganda adalah 2 – 3 menit untuk tiap item. Hal ini juga dipengaruhi oleh tingkat
kesulitan soal. Untuk bentuk test esay, waktu untuk menyelesaikan test
ditentukan oleh kekompleks-an jawaban. Untuk mengatasinya maka jawaban
tidak terlalu panjang, lebih baik jawaban dibatasi dengan beberapa kata atau
halaman.

2. Menulis Item Test

Penulisan item test dilakukan setelah langkah pertama, yaitu menyusun spesifikasi
test. Penulisan item test adalah merupakan langkah penguraian indikator menjadi
pertanyaan yang mana karakter pertanyaan tersebut sesuai dengan klarifikasi draft
yang telah dibuat. Langkah ini harus dilaksanakan dengan hati-hati dalam rangka
memperoleh kulaitas test yang baik secara keseluruhan. Kualitas ini sangat
dipengaruhi oleh tingkatan dari kebaikan tiap item test. Pertanyaan harus
dikembangkan dan dibuat dalam suatu cara yang sederhana dan jelas. Pertanyaan
yang tidak jelas dan bertele-tele akan menyebabkan interpretasi bias dan
membingungkan. Oleh karena itu, tiap pertanyaan harus disusun sedemikian rupa
sehingga materi pertanyaan yang akan ditanyakan menjadi jelas maka jelas untuk
dijawab.

3. Mencerna Item Test

Setelah item test dibuat, dibutuhkan mencernanya. Hal ini penting dilakukan dalam
pembuatan item test, ada kemungkinan menemukan kelemahan dan kesalahan selama
proses pembuatan. Cernaan ini lebih baik dilakukan oleh orang lain, bukan oleh
pembuat item test. Seringkali kelemahan dan kesalahan tidak terlihat oleh
pembuatnya. Lebih baik lagi jika cernaan dilakukan oleh sejumlah ahli yang bekerja
bersama untuk mencerna dan memberikan koreksi untuk item test. Dengan cernaan
item test ini diharapkan dapat memperoleh kualitas item test yang lebih baik.

4. Melakukan Uji Coba

Sebelum item test digunakan dalam test yang sebenarnya, uji coba perlu dilakukan
dalam rangka merevisi kualitas item test. Uji coba ini dapat digunakan sebagai
fasilitas/alat untuk memperoleh data empiris tentang tingkat kebaikan item test yang
telah disusun. Melalui uji coba, dapat diperoleh data tentang reliabilitas, validitas,
tingkat kesulitan, pola jawaban, efektifitas distraktor, dan lain-lain. Jika item test
tidak mengikuti kualitas seperti yang diharapkan, maka harus dilakukan
perbaikan/revisi berdasarkan hasil uji coba.

5. Analisi Item Test

Seperti yang telah dijelaskan di atas, kalau uji coba telah dilakukan maka dapat
diperoleh beberapa informasi penting tentang kualitasitem test yang telah disusun,
termasuk kualitas tiap item test. Berdasarkan hasil uji coba, diperlukan melakukan
analisi item test. Melalui analisis ini dapat diketahui tingkat kesulitan item test, indeks
diskriminasi, dan efektifitas distraktor.

6. Revisi Item Test


Setelah uji coba dan analisis dilakukan, maka langkah berikutnya adalah melakukan
perbaikan/revisi untuk bagian item test yang tidak sesuai dengan harapan. Pada
langkah ini, biasanya dilakukan test untuk item test, yaitu memperbaiki/merevisi tiap
item test yang belum baik. Ada kemungkinan beberapaitem baik sehingga tidak perlu
direvisi, beberapa yang lain membutuhkan revisidan beberapa mungkin dibuang
sebab tidak memenuhi standar yang diharapkan.

7. Membangun Test

Setelah semua item test dianalisis dan direvisi, langkah berikutnya adalah
membangun item-item test tersebut menjadi satu kesatuan. Keseluruhan item harus
disusun kembali dengan hati-hati menjadi suatu kesatuan item test yang terintegrasi.
Dalam pembangunan test, hal-hal yang dapat mempengaruhi validitas test seperti
nomor urutan item, pengelompokan bentuk test, lay out, dan lain-lain harus diberi
perhatian. Hal ini sangat penting sebab walaupun item-item test yang disusun sudah
baik, tetapi jika susunannya tidak baik, maka hal itu dapat menyebabkan item-item
tersebut menjadi tidak baik.

8. Melaksanakan Test

Setelah langkah menyusun dan merevisi test selesai, langkah berikutnya adalah
melaksanakan test. Test yang sudah disusun diberikan kepada tester untuk
diselesaikan. Pelaksanaan test dilaksanakan sesuai dengan alokasi waktu yang
ditentukan. Dalam melaksanakan test ini, dibutuhkan monitoring sehingga test
dilakukan tester secara jujur dan mengacu pada kondisi. Tetapi, monitoring jangan
sampai menggangu pelaksanaan test. Tester yang sedang bekerja tidak diijinkan
diganggu dengan kehadiran monitoring. Hal ini bisa menyebabkan hasil test akan
tidak akurat. Oleh karena itu, pelaksanaan test harus dilaksanakan dengan hati-hati
sehingga tujuan test dapat tercapai.

9. Menginterpretasikan Hasil Test

Hasil test menghasilkan data kuantitatif dalam bentuk skore. Skore ini kemudian
diinterpretasikan menjadi nilai, seperti rendah, medium, dan tinggi. Nilai yang tinggi
dan yang rendah selalu dihubungkan dengan nilai acuan. Ada dua acuan dalam
menilai yang sering digunakan di dalam bidang psikologi dan bidang pendidikan,
yaitu acuan norma dan acuan kriteria. Maka nilai yang tinggi dan nilai yang rendah
dibandingkan dengan kelompok atau kriteria yang harus dicapai.

Nilai adalah merupakan suatu alat yang sangat berguna untuk memotivasi siswa
belajar lebih baik dan juga memotivasi guru mengajar lebih baik. Dengan mengetahui
nilai capaian pembelajaran suatu subjek, siswa dapat menyusun rencana untuk
perbaikan. Nilai juga bisa dalam bentuk penghargaan terhadap usaha yang telah
dilakukan siswa. Penghargaan ini akan memotivasi atau mendorong siswa belajar
lebih baik.

Nilai juga bisa berlaku seperti suatu informasi tentang kesuksesan guru dalam
melaksanakan pembelajaran. Tingkat kesuksesan seorang pendidik mengatur proses
pembelajaran ditentukan oleh beberapa faktor dan faktor utamaadalah pemahaman
akan materi pembelajaran, keterampilan memilih dan menggunakan media
pembelajaran, cara melakukan asesmen termasuk penggunaan test. Oleh karena itu,
pencapaian hasil belajar atau prestise belajar siswa adalah merupakan suatu indikator
kesuksesan belajar siswa dan kesuksesan pengajaran guru.

D. KARAKTERISTIK TES YANG BAIK

Sebuah test dapat dikatakan baik sebagai alat pengukur harus memenuhi kriteria, yaitu
memiliki validitas, reliabilitas, (validitas dan reliabiitas akan dibahas sendiri pada bab
selanjutnya) objektivitas, praktikabilitas dan ekonomis.

1. Validitas
Sebuah alat pengukur dapat dikatakan valid apabila alat pengukur tersebut dapat
mengukur apa yang hendak diukur secara tepat. Demikian pula dalam alat-alat
evaluasi. Suatu tes dapat dikatakan memiliki validitas yang tinggiapabila tes itu
tersebut betul- betul dapat mengukur hasil belajar. Jadi bukan sekedar mengukur
daya ingatan atau kemampuan bahasa saja misalnya. Untuk lebih mendukung
memahami pengertian tersebut selanjutnya akan diuraikan beberapa macam kriteria
validitas, yaitu:
a. Content validity (validitas isi) Pengujian jenis validitas ini dilakukan secara
logis dan rasional karena itu disebut juga rational validity atau logical validity.
Batasan content validity ini menggambarkan sejauh mana tes mampu mengukur
materi pelajaran yang telah diberikan secara representatif dan sejauh mana pula
tes dapat mengukur sampel yang representatif dari perubahan-perubahan
perilaku yang diharapkan terjadi pada diri siswa. Dengan demikian suatu tes
hasil belajar disebut memiliki validitas tinggi secara content, bila tes tersebut
sudah dapat mengukur sampel yang representatif dari materi pelajaran (subject
matter) yang diberikan, dan perubahan-perubahan perilaku (behavioral changes)
yang diharapkan terjadi pada diri siswa. Misalnya apabila kita ingin
memberikan tes bahasa inggris untuk kelas II, maka item-itemnya harus diambil
dari bahan pelaj aran kelas II. Kalau diambilnya dari kelas III maka tes itu tidak
valid lagi.
b. Predictive validity (validitas ramalan) Validitas ramalan artinya ketepatan
(kejituan) suatu alat pengukur ditunjau dari kemampuan tes tersebut untuk
meramalkan prestasi yang dicapainya kemudian. Suatu tes hasilbelajar dapat
dikatakan mempunyai validitas ramlan yang tinggi, apabila hasil yang dicapai
siswa dalam tes tersebut betul-betul meramalakan sukses tidaknya siswa
tersebut dalam pelajaran-pelajaran yang akan datang. Cara yang digunakan
untuk mengukur tinggi rendahnya validitas ramalan ialah dengan mencari
korelasi antara nilai-nilsi yang dicapai oleh anakanak dalam tes tersebut dengan
nilai-nilai yang dicapai kemudian.
c. Concurent validity (Validitas bandingan) Kejituan suatu tes dilihat dari
korelasinya terhadap kecakapan yang telah dimiliki saat kini secara riil. Cara
yang digunakan untuk menilai validitas bandingan ialah dengan jalan
mengkorelasikan hasil-hasil yang dicapai dalam tes tersebut dengan hasil-hasil
yang dicapai dalam tes yang sejenis yang telah diketahui mempunyai validitas
yang tinggi (misalnya tes standar).
d. Construct Validity (validitas konstruk/susunan teori) Yaitu ketepatan suatu tes
ditinjau dari susunan tes tersebut. Misalnya kalau kita ingin memberikan tes
kecakapan ilmu pasti, kita harus membuat soal yang ringkas dan jelas yang
benar-benar akan mengukur kecakapan ilmu pasti, bukan mengukur
kemampuan bahasa karena soal itu ditulis secara berkepanjangan dengan bahasa
yang sulit dimengerti.
2. Reliabilitas
Reliabilitas berasal dari kata reliable yang berarti dapat dipercaya. Reliabilitas suatu
tes menunjukan atau merupakan sederajat ketetapan, keterandalan atau kemantapan
(the level of consistency) tes yang bersangkutan dalam mendapatkan data (skor)
yang dicapai seseorang, apabila tes tersebut diberikan kepadanya pada kesempat an
(waktu) yang berbeda., atau dengan tes yang pararel (eukivalen) pada waktu yang
sama. Atau dengan kata lain sebuah tes dikatakan reliable apabila hasil-hasil tes
tersebut menunjukan ketetapan, keajegan, atau konsisten. Artinya, jika kepada para
siswa diberikan tes yang sama pada waktu yang berlainan, maka setiap siswa akan
tetap berada dalam urutan (ranking) yang sama dalam kelompoknya. Ada beberapa
cara untuk mencari reliabilitas suatu tes, antara lain :
a. Teknik Berulang Tehnik ini adalah dengan memberikan tes tersebut kepada
sekelompok anak-anak dalam dua kesempatan yang berlainan. misalnya suatu
tes diberikan pada kepada group A. selang 3 hari atau seminggu tes tes tersebut
diberikan lagi kepada group A dengan syarat-syarat tertentu.
b. Teknik Bentuk Paralel Teknik ini dipergunakan dua buah tes yang sejenis
(tetapi tidak identik), mengenai isinya; proses mental yang diukur, tingkat
kesukaran jumlah item dan aspek-aspek lain.
c. Teknik belah dua Ada dua prosedur yang dapat digunakan dalam tes belah dua
ini yaitu
 Prosedur ganjil-genap, artinya seluruh item yang bernomor ganjil
dikumpulkan menjadi satu kelompok dan yang bernomor genap menjadi
kelompok yang lain.
 Prosedur secara random, misalnya dengan jalan lotre, atau dengan jalan
menggunakan tabel bilangan random.
3. Objektivitas
Sebuah tes dikatakan memiliki objektivitas apabila dalam melaksanakan tes itu tidak
ada faktor subyektif yang mempengaruhi. Hal ini terutama pada sistem skoringnya,
apabila dikaitkan dengan reliabilitas maka obyektivitas menekankan ketetapan pada
sistem skoring, sedangkan reliabilitas menekankan ketetapan dalam hasil tes. Ada
dua faktor yang mempengaruhi subjektivitas dari sesuatu tes yaitu bentuk tes dan
penilaian.
4. Praktikabilitas
Sebuah tes dikatakan memiliki praktikabilitas yang tinggi apabila tes itu bersifat
praktis, mudah untuk pengadministrasiannya. Tes yang praktis adalah tes yang:
a. Mudah dilaksanakannya; misalnya tidak menuntut peralatan yang banyak dan
memberi kebebasan kepada siswa untuk mengerjakan terlebih dahulu bagian
yang dianggap mudah oleh siswa.
b. Mudah memeriksanya artinya bahwa tes itu dilengkapi dengan kunci jawaban
maupun pedoman skoringnya. Untuk soal yang obyektif, pemeriksaan akan
lebih mudah dilakukan jika dikerjakan oleh siswa dalam lembar jawaban.
c. Dilengkapi dengan petunjuk-petunjuk yang jelas sehingga dapat diberikan/
diawali oleh orang lain
5. Ekonomis
Yang dimaksud dengan ekonomis ialah bahwa pelaksanaan tes tersebut tidak
membutuhkan ongkos/biaya yang mahal, tenaga yang banyak danwaktu yang lama,
baik untuk memproduksinya maupun untuk melaksanakan dan mengolah hasilnya.
Dengan mempertimbangkan kriteria-kriteria tes ter sebut, sewajarnya dapat
dihasilkan alat tes (soal-soal) yang berkualitas yang memenuhi syarat-syarat dibawah
ini :
a. Shahih (valid), yaitu mengukur yang harus diukur, sesuai dengan tujuan
b. Relevan, dalam arti yang diuji sesuai dengan tujuan yang diinginkan
c. Spesifik, soal yang hanya dapat dijawab oleh peserta didik yang betul-betul
belajar dengan rajin
d. Tidak mengandung ketaksaan (tafsiran ganda). harus ada patokan; tugas ditulis
konkret. Apa yang harus diminta; harus dijawab berapa lengkap
e. Representatif, soal mewakili materi ajar secara keseluruhan
f. Seimbang, dalam arti pokok-pokok yang penting diwakili, dan yang tidak
penting tidak selalu perlu.
DAFTAR PUSTAKA

Ahmad, Nahjiah. 2015. Buku Ajar Evaluasi Pembelajaran. Yogyakarta : Interpena.


Asrul, Rusydi Ananda, dan Rosnita. 2014. Evaluasi Pembelajaran. Bandung : Cita Pustaka
Media.
Siahaan, Jackson. 2017. Bahan Ajar Evaluasi Pembelajaran. Mataram : P.MIPA FKIP.
Wening, Sri. 2010. Bahan Perkuliahan Evaluasi Belajar. Yogyakarta : FT UNY.

Anda mungkin juga menyukai