Konstruksi Tes
Konstruksi Tes
C. Acuan Penilaian
Dilihat dari perencanaan tes dan interpretasi hasil tes, pengukuran
dalam bidang pendidikan bisa berdasarkan pada acuan norma, dan acuan
kriteria. Acuan norma berarti bahwa interpretasi skor seseorang dibandingkan
dengan kelompoknya, sedang acuan kriteria berarti bahwa skor seseorang
dibandingkan dengan suatu kriteria yang telah ditetapkan sebelumnya.
Pengukuran dengan acuan norma, skor yang diperoleh seseorang
adalah relatif, karena dibandingkan dengan kelompoknya. Bila kebetulan
4
kelompoknya termasuk mahasiswa atau siswa yang berkemampuan tinggi,
maka skor 70 (skala 0-100) bisa termasuk kategori rendah. Tetapi apabila
kelompoknya adalah mereka yang berkemampuan rendah, skor 70 bisa
termasuk kategori menengah atau bahkan tinggi. Dari contoh ini sebahagian
orang menyatakan bahwa skor tes berdasarkan acuan norma tidak bisa
digunakan untuk mengetahui apa yang bisa dikerjakan oleh seseorang yang
dites.
Glaser (1963) termasuk salah satu tokoh yang mula-mula
menggunakan istilah pengukuran dengan acuan kriteria. Ia menjelaskan bahwa
pengukuran acuan kriteria dapat menunjukkan kemampuan seseorang, serta
hubungan antara apa yang bisa dilakukan individu dan skala pencapaian
belajar. Selanjutnya Glaser dan Nitko (1971) menyatakan bahwa tes dengan
acuan kriteria, skor yang diperoleh bisa diinterpretasikan dalam bentuk standar
penampilan. Ahli lain yang banyak membahas masalah tes acuan kriteria,
Popham (1969), menyatakan bahwa kriteria berarti penampilan standar.
Pendapat kedua tokoh ini pada prinsipnya adalah sama.
Tes acuan kriteria digunakan pada kurikulum berbasis kompetensi.
Acuan yang digunakan adalah kemampuan dasar, yaitu dengan menjabarkan
kemampuan dasar menjadi sejumlah indikator. Indikator menggunakan kata
kerja yang operasional seperti pada kemampuan dasar namun cakupannya
lebih sempit. Mialsnya indikator mahasiswa bisa menafsirkan sejumlah data
adalah mahasiswa mampu menafsirkan sejumlah data perubahan penduduk
selama lima tahun.
Asumsi yang digunakan pada tes ini adalah bahwa hampir semua
orang bisa mempelajari hampir semua bidang, hanya waktu yang bervariasi.
Jadi ubahan yang bervariasi di sini adalah waktu sedang yang tetap adalah
kriteria, yaitu mampu melakukan sesuatu, dengan tes ini, skor yang diperoleh
bisa diinterpretasikan tentang apa yang bisa dilakukan seseorang.
Tes penampilan atau unjuk kerja, salah satu tipe dari tes acuan kriteria,
digunakan untuk mengetahui apakah seseorang bisa melakukan suatu
pekerjaan atau tidak, sehingga dibutuhkan skor pembatas antara yang bisa dan
5
yang tidak. Pembatas ini yang sering menjadi masalah, karena cenderung
dipilih secara subjektif.
D. Konstruksi Tes
Ada beberapa hal yang harus diperhatikan dalam merencanakan suatu
tes, yaitu seperti berikut ini (Mehren & Lehman, 1984, p. 64):
1. Tujuan tes
2. Pengetahuan, keterampilan, sikap, atau lainnya yang ingin diukur
3. Tabel spesifikasi
4. Kesesuaian butir tes dengan tujuan
5. Format butir tes
6. Lama waktu untuk tes
7. Tingkat kesukaran tes
8. Tingkat pembedaan tes
9. Susunan format tes (bila lebih dari satu)
10. Susunan butir tes untuk tiap format
11. Persiapan mahasiswa
12. Tempat menulis jawaban tes
13. Cara penskoran
14. Penskoran tes esei dan pilihan ganda
15. Tabulasi skor tes
16. Laporan hasil tes
Tes yang banyak digunakan di sekolah adalah tes hasil belajar yang
dilaksanakan di klas. Tes ini mempunyai beberapa tujuan: 1) menentukan
tingkat kemampuan mahasiswa, 2) mengukur pertumbuhan dan perkembangan
mahasiswa, 3) merangking mahasiswa berdasarkan kemampuannya, 4)
mendiagnosis kesulitan mahasiswa, 5) mengevaluasi hasil pengajaran, 6)
mengetahui efektivitas kurikulum (pencapaian kurikulum), 7) memotivasi
mahasiswa. Sebuah tes sering kali bisa digunakan untuk beberapa tujuan,
tetapi tidak akan memiliki efektivitas yang sama untuk semua tujuan.
6
Pengujian berbasis kompetensi menggunakan format yang terdiri dari:
1. Standar kompetensi
2. Kemampuan dasar
3. Materi pembelajaran
4. Indikator pencapaian
5. Bentuk soal
6. Soal ujian
7
d. Menentukan panjang tes
Ditinjau dari tujuan, pada prinsipnya ada empat macam tes yang
banyak digunakan di lembaga pendidikan, yaitu: 1) tes penempatan, 2) tes
diagnostik, 3) tes formatif, 4) tes sumatif.
1) Menentukan tujuan tes
Untuk tujuan penempatan suatu tes dilaksanakan pada awal
pelajaran. Hasil tes ini berguna untuk mengetahui pengetahuan yang
telah dimiliki siswa. Untuk mempelajari suatu pelajaran diperlukan
pengetahuan pendukung. Apabila pengetahuan pendukung ini belum
dimiliki maka harus dilakukan suatu perlakuan agar dapat mengikuti
pelajaran. Untuk melaksanakan perlakuan khusus diperlukan suatu
rencana yang meliputi materi yang harus dibahas serta metode yang
digunakan.
Tes diagnostik berguna untuk mengungkapkan kesulitan belajar
siswa dalam mata pelajaran tertentu. Pada umumnya tes diagnostik
diberikan setelah tes formatif, yaitu apabila standar yang sudah
ditetapkan tidak tercapai. Isi tes ini berdasarkan analisis hasil tes
formatif. Pertanyaan pada tes diagnostik cenderung memiliki tingkat
kesukaran yang rendah, dan mencakup materi yang dirasa sukar oleh
mahasiswa.
Tes formatif dilaksanakan secara periodik selama proses belajar
mengajar berlangsung. Tes ini berguna untuk memantau kemajuan
belajar siswa dan hasilnya merupakan umpan balik bagi guru dan
siswa. Materi tes ini dipilih berdasarkan tujuan setiap unit pelajaran.
Hasil tes ini merupakan informasi tentang tujuan pelajaran yang sudah
dicapai dan yang belum dicapai. Berdasarkan hasil tes formatif, guru
harus menyusun strategi dalam melaksanakan proses belajar mengajar.
Tes sumatif diberikan pada akhir suatu pelajaran. Hasilnya
digunakan untuk menentukan prestasi belajar siswa, yaitu berupa nilai,
lulus atau tidak, pemberian sertifikat, dan sejenisnya. Tingkat
kesukaran soal untuk tes formatif cenderung bervariasi, sedang
8
materinya harus mewakili materi yang telah diajarkan. Hasil tes ini
merupakan masukan bagi guru dan siswa. Bagi guru merupakan
informasi keberhasilan mengajar, sedang bagi siswa merupakan
informasi keberhasilan belajarnya.
2) Menyusun kisi-kisi
Kisi-kisi, disebut juga dengan blue print, merupakan tabel
matrik yang berisi spesifikasi soal-soal yang akan ditulis. Kisi-kisi ini
merupakan pedoman bagi para penulis tes, walau penulisnya berbeda-
beda namun soalnya akan memiliki bobot yang sama. Sedang bagi
pentelaah tes, tes yang ditulis bisa ditelaah apakah sesuai dengan
tujuan instruksional umum, pokok/sub pokok bahasan dan uraian yang
terdapat dalam kurikulum.
Ada tiga langkah dalam mengembangkan kisi-kisi tes, yaitu:
1) Membuat daftar pokok bahasan yang akan diujikan
2) Menjabarkan pokok/sub pokok bahasan yang akan diujikan
3) Menentukan jumlah soal untuk masing-masing pokok/sub pokok
bahasan dan untuk keseluruhan tes.
Materi tes pada kurikulum berbasis komptensi mengacu pada
indikator pencapaian. Semua kemampuan dasar diujikan, dan bila
belum tercapai oleh sebagian besar mahasiswa, pembelajaran
dilakukan lagi untuk kemampuan dasar yang belum tercapai, yaitu
melaksanakan
Untuk kurikulum yang lama yang berbasis pada isi, setelah
pokok/sub pokok bahasan dipilih kemudian dirumuskan lebih rinci lagi
indikator-indikatornya. Selanjutnya dipilih indikator-indikator yang
dapat diukur. Pada saat memilih indikator-indikator yang dapat diukur
digunakan pula buku pelajaran yang berlaku di sekolah sebagai bahan
acuan penulisan soal. Hal ini dimaksudkan untuk mengurangi
penyimpangan-penyimpangan dalam memilih bahan yang dapat
mewakili dan memenuhi persyaratan kesahihan isi tes. Di samping itu
perlu dipertimbangkan pula bentuk interpretasi yang akan digunakan.
9
Jumlah soal tes yang digunakan tergantung waktu yang tersedia
dan materi yang akan diujikan. Materi tes yang diujikan pada
prinsipnya harus mewakili materi yang diajarkan. Karena tidak
mungkin mengujikan keseluruhan materi maka digunakan sampel,
yaitu pemilihan materi tes. Pemilihan materi tes ini harus benar-benar
dilakukan dengan cara yang benar, sehingga soal-soal yang akan
muncul mewakili pokok bahasan.
3) Menentukan bentuk tes
Secara garis besar ada dua bentuk tes yang banyak digunakan
di sekolah-sekolah, yaitu: 1) bentuk tes uraian, dan 2) bentuk tes
objektif. Tes uraian ini biasanya merupakan pertanyaan yang umum
memungkinkan siswa menulis bebas dalam menjawab pertanyaan. Tes
uraian ini dapat dibagi menjadi dua golongan menurut cara
penilaiannya, yaitu: 1) tes uraian non objektif, dan 2) tes uraian
objektif.
Pokok Bahasan/Sub Pokok Bahasan (PB/SPB) merupakan salah
satu komponen yang perlu diujikan. Pemilihan ini dilakukan karena di
dalam suatu tes, kita tidak mungkin menanyakan semua PB/SPB yang
telah dianjurkan. Oleh sebab itu kita perlu memilih PB/SPB yang penting-
penting saja. Pemilihan PB/SPB yang penting ini dilakukan dengan
memperhatikan kriteria sebagai berikut:
1) Merupakan PB/SPB lanjutan yang merupakan pendalaman dari satu
atau lebih PB/SPB yang sudah dipelajari sebelumnya.
2) Merupakan PB/SPB penting yang seharusnya dikuasai oleh siswa
3) Merupakan pokok bahasan yang sering diperlukan untuk mempelajari
atau memahami bidang studi lain
4) Merupakan topik yang berkesinambungan yang terdapat pada semua
jenjang kelas
5) Merupakan PB/SPB yang memiliki nilai terapan dalam kehidupan
sehari-hari.
10
E. Bentuk Soal
Ada beberapa bentuk soal yang dipakai dalam suatu sistem pengujian.
Bentuk tes yang dapat digunakan adalah sebagai berikut:
1. Pilihan ganda : Bentuk ini bisa mencakup banyak materi pelajaran,
penskorannya objektif, dan bisa dikoreksi dengan komputer. Namun
membuat butir soal pilihan ganda yang berkualitas baik cukup sulit, dan
kelemahan lain adalah peluang kerja sama peserta antar tes sangat besar.
Oleh karena itu, bentuk ini dipakai untuk ujian yang melibatkan banyak
siswa dan waktu untuk koreksi relatif singkat. Penggunaan bentuk ini
menuntut agar pengawas ujian teliti dalam melakukan pengawasan saat
ujian berlangsung. Tingkat berpikir yang diukur bisa tinggi tergantung
pada kemampuan pembuat soal (Ebel, 1979).
2. Uraian objektif : Bentuk ini cocok untuk mata pelajaran yang batasnya
jelas seperti Matematika dan IPA (Fisika, Kimia, dan Biologi). Agar hasil
penskorannya objektif diperlukan pedoman penskoran Objektif di sini
berarti hasil penilaian terhadap suatu lembar jawaban akan sama walau
diperiksa oleh orang yang berbeda asal memiliki latar belakang pendidikan
sesuai dengan mata ujian. Tingkat berpikir yang diukur bisa sampai pada
tingkat yang tinggi. Penskoran dilakukan secara analitik, yaitu setiap
langkah pengerjaan diberi skor. Misalnya, jika siswa menuliskan
rumusnya diberi skor, menghitung hasilnya diberi skor, dan menafsirkan
atau menyimpulkan hasilnya, juga diberi skor. Penskoran bersifat
hierarkhis, sesuai dengan langkah pengerjaan soal. Bobot skor untuk tiap
butir soal ditentukan oleh tingkat kesulitan butir soal, yang sulit bobotnya
lebih besar dibandingkan dengan yang mudah.
3. Uraian non-objektif/uraian bebas : Bentuk ini cocok untuk bidang studi
ilmu-ilmu sosial. Walau hasil penskoran cenderung subjektif, namun bila
disediakan pedoman penskoran yang jelas, hasilnya diharapkan dapat
lebih objektif. Tingkat berpikir yang diukur bisa tinggi.
4. Jawaban singkat atau isian singkat : Bentuk ini cocok digunakan untuk
mengetahui tingkat pengetahuan dan pemahaman siswa. Jumlah materi
11
yang diuji bisa banyak, namun tingkat berpikir yang diukur cenderung
rendah.
5. Menjodohkan : Bentuk ini cocok untuk mengetahui fakta dan konsep.
Cakupan materi bisa banyak, namun tingkat berpikir yang terlibat
cenderung rendah.
6. Performans : Bentuk ini cocok untuk mengukur kemampuan seseorang
dalam melakukan tugas tertentu, seperti praktek di laboratorium. Peserta
tes diminta untuk mendemonstrasikan kemampuan dan keterampilan
dalam bidang tertentu. Penilaian performans menurut Nathan & Cascio
(1986) berdasarkan pada analisis pekerjaan.
7. Portfolio : Bentuk ini cocok untuk mengetahui perkembangan unjuk kerja
siswa, dengan menilai kumpulan karya-karya, atau tugas yang dikerjakan
siswa. Portfolio berarti kumpulan karya atau tugas-tugas yang dikerjakan
siswa (Popham, 1985). Karya-karya ini dipilih kemudian dinilai, sehingga
dapat dilihat perkembangan kemampuan siswa. Cara ini bisa dilakukan
dengan baik bila jumlah siswa yang dinilai tidak banyak.
F. Analisis Butir
Ada dua analisis yang harus dilakukan terhadap butir tes yaitu: analisis
konstruksi, dan analisis statistik. Analisis konstruksi dilakukan sebelum tes
digunakan atau diuji coba, sedang analisis statistik dilakukan setelah diperoleh
data hasil tes. Analisis konstruksi dilakukan berdasarkan pada pedoman
penulisan soal yang baik dan sebaiknya dilakukan oleh teman sejawat atau
suatu tim. Setelah dilakukan analisis konstruksi kemudian tes diberikan pada
mahasiswa dan akan diperoleh data hasil tes. Data ini dianalisis untuk
mengetahui distribusi respon, bentuk distribusi skor, besarnya rerata (mean),
1. Analisis Konstruksi
Analisis konstruksi disebut juga dengan kegiatan telaah butir soal
sebelum digunakan. Analisis ini meliputi: Kemampuan dasar atau tujuan
pembelajaran umum (TPU), rumusan soal, kunci jawaban, pengecoh, dan
12
bahasa yang digunakan. Analisis terhadap dilihat dari Blue Print atau
kisi-kisi tes, yang pada dasarnya harus mewakili semua materi yang
diajarkan dan proporsional dan sering disebut dengan validitas isi tes.
Rumusan soal harus singkat dan jelas, termasuk bila ada gambar atau
grafik. Jawaban yang paling benar hanya satu bila bentuk tes pilihan
ganda, sedang untuk tes bentuk uraian harus ada kunci jawaban yang jelas.
Untuk soal-soal penyelesaian masalah harus diperhitungkan penggunaan
berbagai rumus dan berbagai cara namun memperoleh hasil yang sama.
Untuk tes bentuk pilihan ganda, semua pengecoh harus logis yaitu
bila peserta menggunakan pendekatan atau cara yang salah akan diperoleh
hasil yang salah dan tercantum pada pilihan jawaban. Selanjutnya bahasa
yang digunakan harus baku dan menggunakan tata bahasa yang baik dan
benar, sehingga tidak menimbulkan salah penafsiran. Variasi jawaban
yang diinginkan adalah disebabkan variasi kemampuan bukan variasi salah
tafsir, karena yang ingin diukur adalah kemampuan peserta.
2. Analisis Statistik
Setelah konstruksi tes ditelaah, kemudian tes diberikan pada
mahasiswa dalam rangka uji coba atau untuk pengukuran. Dari data hasil
uji coba kemudian dilihat distribusi respons, tingkat kesukaran, dan daya
pembeda. Butir tes yang baik, semua alternatif jawaban pada tes pilihan
ganda harus dipilih mahasiswa, sehingga semua pengecoh berfungsi dengan
baik.
Tingkat kesukaran butir adalah proporsi mahasiswa yang menjawab
benar. Butir tes yang baik memiliki tingkat kesukaran berkisar 0,30 sampai
0,70. Daya pembeda butir adalah indek yang menyatakan seberapa jauh
butir tes dapat membedakan mereka yang memiliki kemampuan tinggi
dengan kemampuan rendah. Besarnya indek ini dicari dengan formula
korelasi point biserial atau biserial, formula ini berdasarkan pada korelasi
Pearson atau disebut juga dengan korelasi product moment .
Contoh distribusi respons:
13
Butir 1 Butir 2
A. 8 A. 20
B. 10 B. 3
C. 9 C. 7
D. 23 * D. 20 *
Keterangan:
0 menyatakan salah
1 menyatakan benar.
Semua skor butir dibagi sepuluh
Tingkat kesukaran dan daya beda tes di atas adalah:
Butir 1
Tingkat kesukaran:0.70
Daya pembeda:
6.00 3.3
rbis v (0.7)(0.3) 0.695
1.78
14
Besar daya beda yang dditerima minimum 0,30.
Tugas:
Cari tingkat kesukaran dan daya pembeda butir tes serta indek
kehandalan tes di atas, dan buat kesimpulannya!
15
Rasio antara VT dengan Vx disebut indek konsistensi internal. Formula yang
umum untuk menghitung besarnya indek konsistensi internal adalah
Cronbach-alpha, yaitu:
rxx’ = (n / n - 1) (1 – ∑ Ve / Vx)
n adalahjumlah butir
Ve adalah varian kesalahan
Vx adalah varisn skor tampak
Kesahihan alat ukur harus dilihat pada tiga hal yaitu konstruksi, isi,
dan kriteria. Semua jenis kesahihan harus diperhatikan untuk semua jenis tes,
hanya penekanannya yang berbeda. Tes psikologi menekankan pada
konstruksi tes, tes pencapaian belajar menekankan pada kesahihan isi, sedang
tes seleksi menekankan pada kesahihan kriteria, terutama kesahihan prediktif.
Kesahihan isi suatu tes dilihat dari kisi-kisi atau disebut juga dengan
tabel spesifikasi. Pada prinsipnya materi suatu tes merupakan sampel dari
materi pelajaran yang diajarkan. Sampel yang dipilih harus mewakili semua
materi yang diajarkan. Salah satu bentuk kisi-kisi yang sering digunakan
adalah dengan menggunakan taksonomi Bloom, seperti di bawah ini:
16
dalam sel yang baik adalah yang cenderung mengukur kemampuan aplikasi ke
atas. Oleh karena itu butir tes yang digunakan harus lebih banyak pada
kategori aplikasi ke atas.
Kesahihan konstruk suatu tes dilihat dari definisinya. Kalau kita ingin
mengukur kemampuan berpikir logis, maka definisi berfikir logis harus dibuat
terlebih dahulu. Selanjutnya semua butir tes harus dapat dikembalikan pada
definisi tersebut. Pada prinsipnya pengukuran yang ingin dilakukan adalah
memiliki dimensi satu. Kalau kita ingin mengukur kemampuan matematika
maka di dalamnya tidak ada kemampuan lain yang diukur, seperti kemampuan
menggambar dan kemampuan bahasa dan lainnya. Pada alat ukur yang meng-
ukur satu dimensi, kita bisa menjumlahkan skor-skor butirnya. Bila yang
diukur lebih dari satu dimensi maka penjumlahan skornya sebenarnya menya-
lahi konsep pengukuran.
Jenis kesahihan yang ketiga adalah kesahihan kriteria. Kesahihan ini
dibagi dua yaitu yang disebut dengan konkuren dan prediktif, semuanya
menunjukkan daya prediksi atau daya ramal. Daya prediksi yang dinyatakan
dengan angka yang besarnya mulai dari 0 sampai 1.00 merupakan korelasi
antara skor tes dengan kriteria keberhasilan. Misalnya korelasi skor tes masuk
perguruan tinggi dengan indek prestasi. Semakin besar korelasi skor tes masuk
dengan prestasi belajar maka dapat dikatakan bahwa daya prediksi tes masuk
tinggi atau kesahihan tes masuk tinggi.
Dalam proses belajar mengajar sering kali ingin diukur kemampuan
berfikir mahasiswa. Ada lima komponen yang dapat digunakan untuk meng-
ukur kemampuan berfikir mahasiswa, yaitu: ingatan, analisis, komparasi, infe-
rensi, dan evaluasi. Kemampuan berfikir ini sangat berguna untuk menyele-
saikan permasalahan-permasalahan yang ada di lapangan. Dosen tidak akan
mengajarkan bagaimana menyelesaikan permasalahan di lapangan secara
detail, tetapi hanya konsep, teori-teori yang mendasar saja. Mahasiswa yang
harus mengolahnya untuk dapat digunakan dalam memecahkan masalah-
masalah yang baru. Namun dosen harus bisa membuat soal yang sifatnya
aplikasi.
17
Berikut ini suatu contoh urutan kemampuan penalaran yang dapat
digunakan dalam merencanakan suatu tes.
Daftar Pustaka
18