Konstruksi Tes

Bahan lokakarya Metodologi Interaksi Pembelajaran
Universita Muhammdaiyah Surakarta

Tanggal 15 Februari 2003
_________________________________________
KONSTRUKSI TES DAN ANALISIS BUTIR
Oleh: Djemari Mardapi *)
*) Dosen Pascasarjana UNY

A. Pendahuluan
Keberhasilan proses belajar mengajar dapat dilihat dari prestasi yang
dicapai mahasiswa. Keberhasilan ini selalu dikaitkan dengan tujuan pelajaran
atau kompetensi yang ingin dicapai. Pada dasarnya hasil belajar mahasiswa
dapat dinyatakan dalam tiga aspek, yang sering disebut dengan ranah, yaitu:
kognitif, afektif, dan psikomotorik. Ketiga ranah tersebut saling terkait, dan
pasti terlibat dalam setiap kegiatan belajar mengajar. Hanya porsi dari masing-
masing ranah tersebut bervariasi sesuai dengan karakteristik mata kuliah.
Mata kuliah fisika lebih banyak melibatkan ranah kognitif, sedang
pelajaran praktek di bengkel lebih banyak menekankan pada segi
psikomotorik. Ranah lain yang sangat penting adalah ranah afektif, walaupun
sering tidak tampak pada tujuan pelajaran atau kompetensi yang ingin dicapai,
namun hal ini sangat penting bagi baik bagi dosen maupun mahasiswa.
Misalnya, bagaimana perubahan sikap sosial mahasiswa, minat, ddisiplin,
komitmen, dan sebagainya setelah mengikuti mata kuliah-mata kuliah tertentu.
Ranah ini sering dihubungkan dengan pelajaran agama atau budi pekerti,
walau hal ini tidak sepnuhnya benar. .
Ketiga ranah tersebut meerupakan aspek penting yang harus dapat
dilihat sebagai hasil proses belajar mengajar. Masing-masing ranah memiliki
karakteristik yang khusus. Ranah kognitif dikembangkan oleh Bloom, yang
dikenal dengan taksonomi Bloom (1987). Ranah yang kedua, afektif,
dikembangkan oleh Krathwohl (1984), sedang ranah yang ketiga,
psikomotorik, dikembangkan oleh Simpson (1966), Kliber et al (1970), dan
Harrow (1972).
Ada beberapa istilah yang sering digunakan untuk mengukur hasil
belajar mengajar, yaitu tes, pengukuran, penilaian, dan evaluasi. Tes terdiri
dari sejumlah pertanyaan yang memiliki jawaban benar atau salah.
Pengukuran adalah prosedur yang sistematik menentukan angka pada suatu
objek atau gejala. Penafsiran hasil pengukuran disebut dengan istilah
penilaian. Selain itu istilah penilaian dan evaluasi sering sering ditukar balik
penggunaannya, tetapi ada juga yang membedakannya. Evaluasi didefinisikan
2
sebagai proses untuk memperoleh informasi guna memilih alternatif yang
terbaik (Stufflebeam et al, 1971, p. xxv). Evaluasi juga didefinisikan sebagai
kegiatan untuk mengetahui tingkat keberhasilan suatu program. Pengukuran,
penilaian, dan evaluasi bersifat hirarki. Evaluasi membutuhkan hasil penilaian,
dan penilaian memerlukan hasil pengukuran.
Penilaian merupakan umpan balik baik bagi tenaga pengajar,
mahasiswa, maupun para pembuat keputusan lainnya. Hasil penilaian dapat
digunakan untuk memberi motivasi pada mahasiswa, untuk memberi
bimbingan pada mahasiswa, mendorong pengajar untuk mengajar lebih baik,
dan sebagainya. Penilaian adalah bagian dari kegiatan proses belajar mengajar,
yaitu untuk mengetahui seberapa jauh tujuan proses belajar mengajar telah
tercapai. Tujuan ini bila menggunakan kurikulum berbasis kompetensi
digunakan istilah standar kompetensi atau kemampuan dasar. Standar
kompetensi adalah kemampuan yang harus dimiliki oleh mahasiswa untuk
mata pelajarana tertentu. Standar kompetensi pada umumnya diuraikan
menjadi sejumlah kemampuan dasar.
B. Kurikulum Berbasis Kompetensi

Ranah kognitif mencakup semua tujuan yang berkaitan dengan
pengenalan pengetahuan dan pengembangan kemampuan intelektual dan
keterampilan (Bloom, 1987: 7 ). Taksonomi Bloom membagi tingkat
pengetahuan yang diperoleh seseorang menjadi 6 ranah (domain), yaitu,
pengetahuan, pemahaman, aplikasi, analisis, sitensis, dan evaluasi. Ranah
pengetahuan menekankan pada fakta, sumber-sumber pengetahuan yang
dapat dipercaya. Proses berpikir yang banyak terlibat pada ranah ini adalah
menghapal fakta-fakta. Ranah yang kedua, pemahaman, mencakup masalah
terjemahan atau ekstrapolasi, serta interprestasi, yang menekankan pada
pemahaman arti suatu tulisan.
Ranah yang ketiga, aplikasi, adalah kemampuan untuk menerapkan
prinsip-prinsip pada situasi yang baru. Ranah yang keempat, analisis
merupakan kemampuan mengenal bentuk dan pola suatu masalah, sebagai alat
3
untuk memahami masalah tersebut. Ranah yang kelima, sintesis, adalah
kemampuan untuk mengorganisasi ide-ide dan pengalaman dengan maksud
untuk mengkomunikasikan ke masyarakat. Pada ranah ini semua elemen
dikumpulkan dan diorganisasikan sehingga membentuk suatu kesatuan. Ranah
yang terakhir, evaluasi, adalah kemampuan mengenal dan menggunakan nilai-
nilai yang dibutuhkan dalam memilih suatu tindakan.
Kurikulum berbasis kompetensi dikembangkan berdasarkan
kemampuan lulusan. Kemampuan ini dibajarkan menjadi standar kompetensi
tiap mata kuliah, dan kemampuan ini diuraikan lagi menjadi kemampuan
dasar, yaitu kemampuan yang lebih operasional. Kemampuan dasar ini
bersifat operasional, sehingga menggunakan kata kerja yang dapat. Tingkat
kemampuan ini bisa menggunakan taksonomi Blooom atau taksonomi yang
lain. Tingkat kemampuan atau tingkat berpikir yang digunakan pada
kemampuan dasar adalah yang menengah sampai tinggi, misalnya:
mengidentifikasi, membedakan, menghitung, merangkum, menafsirkan,
menerapkan, menganalisis, mensinteis, dan mengevaluasi.
Silabus kurikulum berbasis kompetensi meliputi: standar kompetensi,
kemampuan dasar, materi pembelajaran, pengalaman belajar, sumber bahan.
Materi pembelajaran dipilih untuk mencapai kemampuan dasar, sedang
pengalaman pembelajaran adalah semua kegiatan yang harus dilakukan
peserta didik untuk mencapai kemampuan dasar. Sumber bahan adalah semua
sumber belajar yang digunakan.
C. Acuan Penilaian
Dilihat dari perencanaan tes dan interpretasi hasil tes, pengukuran
dalam bidang pendidikan bisa berdasarkan pada acuan norma, dan acuan
kriteria. Acuan norma berarti bahwa interpretasi skor seseorang dibandingkan
dengan kelompoknya, sedang acuan kriteria berarti bahwa skor seseorang
dibandingkan dengan suatu kriteria yang telah ditetapkan sebelumnya.
Pengukuran dengan acuan norma, skor yang diperoleh seseorang
adalah relatif, karena dibandingkan dengan kelompoknya. Bila kebetulan
4
kelompoknya termasuk mahasiswa atau siswa yang berkemampuan tinggi,
maka skor 70 (skala 0-100) bisa termasuk kategori rendah. Tetapi apabila
kelompoknya adalah mereka yang berkemampuan rendah, skor 70 bisa
termasuk kategori menengah atau bahkan tinggi. Dari contoh ini sebahagian
orang menyatakan bahwa skor tes berdasarkan acuan norma tidak bisa
digunakan untuk mengetahui apa yang bisa dikerjakan oleh seseorang yang
dites.
Glaser (1963) termasuk salah satu tokoh yang mula-mula
menggunakan istilah pengukuran dengan acuan kriteria. Ia menjelaskan bahwa
pengukuran acuan kriteria dapat menunjukkan kemampuan seseorang, serta
hubungan antara apa yang bisa dilakukan individu dan skala pencapaian
belajar. Selanjutnya Glaser dan Nitko (1971) menyatakan bahwa tes dengan
acuan kriteria, skor yang diperoleh bisa diinterpretasikan dalam bentuk standar
penampilan. Ahli lain yang banyak membahas masalah tes acuan kriteria,
Popham (1969), menyatakan bahwa kriteria berarti penampilan standar.
Pendapat kedua tokoh ini pada prinsipnya adalah sama.
Tes acuan kriteria digunakan pada kurikulum berbasis kompetensi.
Acuan yang digunakan adalah kemampuan dasar, yaitu dengan menjabarkan
kemampuan dasar menjadi sejumlah indikator. Indikator menggunakan kata
kerja yang operasional seperti pada kemampuan dasar namun cakupannya
lebih sempit. Mialsnya indikator mahasiswa bisa menafsirkan sejumlah data
adalah mahasiswa mampu menafsirkan sejumlah data perubahan penduduk
selama lima tahun.
Asumsi yang digunakan pada tes ini adalah bahwa hampir semua
orang bisa mempelajari hampir semua bidang, hanya waktu yang bervariasi.
Jadi ubahan yang bervariasi di sini adalah waktu sedang yang tetap adalah
kriteria, yaitu mampu melakukan sesuatu, dengan tes ini, skor yang diperoleh
bisa diinterpretasikan tentang apa yang bisa dilakukan seseorang.
Tes penampilan atau unjuk kerja, salah satu tipe dari tes acuan kriteria,
digunakan untuk mengetahui apakah seseorang bisa melakukan suatu
pekerjaan atau tidak, sehingga dibutuhkan skor pembatas antara yang bisa dan
5
yang tidak. Pembatas ini yang sering menjadi masalah, karena cenderung
dipilih secara subjektif.
D. Konstruksi Tes
Ada beberapa hal yang harus diperhatikan dalam merencanakan suatu
tes, yaitu seperti berikut ini (Mehren & Lehman, 1984, p. 64):
1. Tujuan tes
2. Pengetahuan, keterampilan, sikap, atau lainnya yang ingin diukur
3. Tabel spesifikasi
4. Kesesuaian butir tes dengan tujuan
5. Format butir tes
6. Lama waktu untuk tes
7. Tingkat kesukaran tes
8. Tingkat pembedaan tes
9. Susunan format tes (bila lebih dari satu)
10. Susunan butir tes untuk tiap format
11. Persiapan mahasiswa
12. Tempat menulis jawaban tes
13. Cara penskoran
14. Penskoran tes esei dan pilihan ganda
15. Tabulasi skor tes
16. Laporan hasil tes
Tes yang banyak digunakan di sekolah adalah tes hasil belajar yang
dilaksanakan di klas. Tes ini mempunyai beberapa tujuan: 1) menentukan
tingkat kemampuan mahasiswa, 2) mengukur pertumbuhan dan perkembangan
mahasiswa, 3) merangking mahasiswa berdasarkan kemampuannya, 4)
mendiagnosis kesulitan mahasiswa, 5) mengevaluasi hasil pengajaran, 6)
mengetahui efektivitas kurikulum (pencapaian kurikulum), 7) memotivasi
mahasiswa. Sebuah tes sering kali bisa digunakan untuk beberapa tujuan,
tetapi tidak akan memiliki efektivitas yang sama untuk semua tujuan.
6
Pengujian berbasis kompetensi menggunakan format yang terdiri dari:
1. Standar kompetensi
2. Kemampuan dasar
3. Materi pembelajaran
4. Indikator pencapaian
5. Bentuk soal
6. Soal ujian
E. Penyusunan Kisi-Kisi Tes

Dalam pengembangan tes prestasi belajar ada delapan langkah yang
harus ditempuh, yaitu:
1. Menyusun spesifikasi tes
2. Menulis soal tes
3. Menentukan soal tes
4. Melakukan uji coba tes
5. Menganalisis butir soal
6. Merakit tes
7. Administrasi tes
8. Interpretasi hasil tes
Pada kesempatan ini hanya akan dibahas tentang penyusunan
spesifikasi tes.
1. Menyusun Spesifikasi Tes
Langkah awal dalam mengembangkan tes adalah menetapkan
spesifikasi tes, yaitu yang berisi tentang uraian yang menunjukkan
keseluruhan karakteristik yang harus dimiliki suatu tes. Spesifikasi yang
jelas akan mempermudah dalam menulis soal. Dalam menyusun spesifiksi
tes harus memperhatikan tiga hal berikut ini, yaitu:
a. Menentukan tujuan tes
b. Menyusun kisi-kisi
c. Memilih bentuk tes yang sesuai
7
d. Menentukan panjang tes
Ditinjau dari tujuan, pada prinsipnya ada empat macam tes yang
banyak digunakan di lembaga pendidikan, yaitu: 1) tes penempatan, 2) tes
diagnostik, 3) tes formatif, 4) tes sumatif.
1) Menentukan tujuan tes
Untuk tujuan penempatan suatu tes dilaksanakan pada awal
pelajaran. Hasil tes ini berguna untuk mengetahui pengetahuan yang
telah dimiliki siswa. Untuk mempelajari suatu pelajaran diperlukan
pengetahuan pendukung. Apabila pengetahuan pendukung ini belum
dimiliki maka harus dilakukan suatu perlakuan agar dapat mengikuti
pelajaran. Untuk melaksanakan perlakuan khusus diperlukan suatu
rencana yang meliputi materi yang harus dibahas serta metode yang
digunakan.
Tes diagnostik berguna untuk mengungkapkan kesulitan belajar
siswa dalam mata pelajaran tertentu. Pada umumnya tes diagnostik
diberikan setelah tes formatif, yaitu apabila standar yang sudah
ditetapkan tidak tercapai. Isi tes ini berdasarkan analisis hasil tes
formatif. Pertanyaan pada tes diagnostik cenderung memiliki tingkat
kesukaran yang rendah, dan mencakup materi yang dirasa sukar oleh
mahasiswa.
Tes formatif dilaksanakan secara periodik selama proses belajar
mengajar berlangsung. Tes ini berguna untuk memantau kemajuan
belajar siswa dan hasilnya merupakan umpan balik bagi guru dan
siswa. Materi tes ini dipilih berdasarkan tujuan setiap unit pelajaran.
Hasil tes ini merupakan informasi tentang tujuan pelajaran yang sudah
dicapai dan yang belum dicapai. Berdasarkan hasil tes formatif, guru
harus menyusun strategi dalam melaksanakan proses belajar mengajar.
Tes sumatif diberikan pada akhir suatu pelajaran. Hasilnya
digunakan untuk menentukan prestasi belajar siswa, yaitu berupa nilai,
lulus atau tidak, pemberian sertifikat, dan sejenisnya. Tingkat
kesukaran soal untuk tes formatif cenderung bervariasi, sedang
8
materinya harus mewakili materi yang telah diajarkan. Hasil tes ini
merupakan masukan bagi guru dan siswa. Bagi guru merupakan
informasi keberhasilan mengajar, sedang bagi siswa merupakan
informasi keberhasilan belajarnya.
2) Menyusun kisi-kisi
Kisi-kisi, disebut juga dengan blue print, merupakan tabel
matrik yang berisi spesifikasi soal-soal yang akan ditulis. Kisi-kisi ini
merupakan pedoman bagi para penulis tes, walau penulisnya berbeda-
beda namun soalnya akan memiliki bobot yang sama. Sedang bagi
pentelaah tes, tes yang ditulis bisa ditelaah apakah sesuai dengan
tujuan instruksional umum, pokok/sub pokok bahasan dan uraian yang
terdapat dalam kurikulum.
Ada tiga langkah dalam mengembangkan kisi-kisi tes, yaitu:
1) Membuat daftar pokok bahasan yang akan diujikan
2) Menjabarkan pokok/sub pokok bahasan yang akan diujikan
3) Menentukan jumlah soal untuk masing-masing pokok/sub pokok
bahasan dan untuk keseluruhan tes.
Materi tes pada kurikulum berbasis komptensi mengacu pada
indikator pencapaian. Semua kemampuan dasar diujikan, dan bila
belum tercapai oleh sebagian besar mahasiswa, pembelajaran
dilakukan lagi untuk kemampuan dasar yang belum tercapai, yaitu
melaksanakan
Untuk kurikulum yang lama yang berbasis pada isi, setelah
pokok/sub pokok bahasan dipilih kemudian dirumuskan lebih rinci lagi
indikator-indikatornya. Selanjutnya dipilih indikator-indikator yang
dapat diukur. Pada saat memilih indikator-indikator yang dapat diukur
digunakan pula buku pelajaran yang berlaku di sekolah sebagai bahan
acuan penulisan soal. Hal ini dimaksudkan untuk mengurangi
penyimpangan-penyimpangan dalam memilih bahan yang dapat
mewakili dan memenuhi persyaratan kesahihan isi tes. Di samping itu
perlu dipertimbangkan pula bentuk interpretasi yang akan digunakan.
9
Jumlah soal tes yang digunakan tergantung waktu yang tersedia
dan materi yang akan diujikan. Materi tes yang diujikan pada
prinsipnya harus mewakili materi yang diajarkan. Karena tidak
mungkin mengujikan keseluruhan materi maka digunakan sampel,
yaitu pemilihan materi tes. Pemilihan materi tes ini harus benar-benar
dilakukan dengan cara yang benar, sehingga soal-soal yang akan
muncul mewakili pokok bahasan.
3) Menentukan bentuk tes
Secara garis besar ada dua bentuk tes yang banyak digunakan
di sekolah-sekolah, yaitu: 1) bentuk tes uraian, dan 2) bentuk tes
objektif. Tes uraian ini biasanya merupakan pertanyaan yang umum
memungkinkan siswa menulis bebas dalam menjawab pertanyaan. Tes
uraian ini dapat dibagi menjadi dua golongan menurut cara
penilaiannya, yaitu: 1) tes uraian non objektif, dan 2) tes uraian
objektif.
Pokok Bahasan/Sub Pokok Bahasan (PB/SPB) merupakan salah
satu komponen yang perlu diujikan. Pemilihan ini dilakukan karena di
dalam suatu tes, kita tidak mungkin menanyakan semua PB/SPB yang
telah dianjurkan. Oleh sebab itu kita perlu memilih PB/SPB yang penting-
penting saja. Pemilihan PB/SPB yang penting ini dilakukan dengan
memperhatikan kriteria sebagai berikut:
1) Merupakan PB/SPB lanjutan yang merupakan pendalaman dari satu
atau lebih PB/SPB yang sudah dipelajari sebelumnya.
2) Merupakan PB/SPB penting yang seharusnya dikuasai oleh siswa
3) Merupakan pokok bahasan yang sering diperlukan untuk mempelajari
atau memahami bidang studi lain
4) Merupakan topik yang berkesinambungan yang terdapat pada semua
jenjang kelas
5) Merupakan PB/SPB yang memiliki nilai terapan dalam kehidupan
sehari-hari.
10
E. Bentuk Soal
Ada beberapa bentuk soal yang dipakai dalam suatu sistem pengujian.
Bentuk tes yang dapat digunakan adalah sebagai berikut:
1. Pilihan ganda : Bentuk ini bisa mencakup banyak materi pelajaran,
penskorannya objektif, dan bisa dikoreksi dengan komputer. Namun
membuat butir soal pilihan ganda yang berkualitas baik cukup sulit, dan
kelemahan lain adalah peluang kerja sama peserta antar tes sangat besar.
Oleh karena itu, bentuk ini dipakai untuk ujian yang melibatkan banyak
siswa dan waktu untuk koreksi relatif singkat. Penggunaan bentuk ini
menuntut agar pengawas ujian teliti dalam melakukan pengawasan saat
ujian berlangsung. Tingkat berpikir yang diukur bisa tinggi tergantung
pada kemampuan pembuat soal (Ebel, 1979).
2. Uraian objektif : Bentuk ini cocok untuk mata pelajaran yang batasnya
jelas seperti Matematika dan IPA (Fisika, Kimia, dan Biologi). Agar hasil
penskorannya objektif diperlukan pedoman penskoran Objektif di sini
berarti hasil penilaian terhadap suatu lembar jawaban akan sama walau
diperiksa oleh orang yang berbeda asal memiliki latar belakang pendidikan
sesuai dengan mata ujian. Tingkat berpikir yang diukur bisa sampai pada
tingkat yang tinggi. Penskoran dilakukan secara analitik, yaitu setiap
langkah pengerjaan diberi skor. Misalnya, jika siswa menuliskan
rumusnya diberi skor, menghitung hasilnya diberi skor, dan menafsirkan
atau menyimpulkan hasilnya, juga diberi skor. Penskoran bersifat
hierarkhis, sesuai dengan langkah pengerjaan soal. Bobot skor untuk tiap
butir soal ditentukan oleh tingkat kesulitan butir soal, yang sulit bobotnya
lebih besar dibandingkan dengan yang mudah.
3. Uraian non-objektif/uraian bebas : Bentuk ini cocok untuk bidang studi
ilmu-ilmu sosial. Walau hasil penskoran cenderung subjektif, namun bila
disediakan pedoman penskoran yang jelas, hasilnya diharapkan dapat
lebih objektif. Tingkat berpikir yang diukur bisa tinggi.
4. Jawaban singkat atau isian singkat : Bentuk ini cocok digunakan untuk
mengetahui tingkat pengetahuan dan pemahaman siswa. Jumlah materi
11
yang diuji bisa banyak, namun tingkat berpikir yang diukur cenderung
rendah.
5. Menjodohkan : Bentuk ini cocok untuk mengetahui fakta dan konsep.
Cakupan materi bisa banyak, namun tingkat berpikir yang terlibat
cenderung rendah.
6. Performans : Bentuk ini cocok untuk mengukur kemampuan seseorang
dalam melakukan tugas tertentu, seperti praktek di laboratorium. Peserta
tes diminta untuk mendemonstrasikan kemampuan dan keterampilan
dalam bidang tertentu. Penilaian performans menurut Nathan & Cascio
(1986) berdasarkan pada analisis pekerjaan.
7. Portfolio : Bentuk ini cocok untuk mengetahui perkembangan unjuk kerja
siswa, dengan menilai kumpulan karya-karya, atau tugas yang dikerjakan
siswa. Portfolio berarti kumpulan karya atau tugas-tugas yang dikerjakan
siswa (Popham, 1985). Karya-karya ini dipilih kemudian dinilai, sehingga
dapat dilihat perkembangan kemampuan siswa. Cara ini bisa dilakukan
dengan baik bila jumlah siswa yang dinilai tidak banyak.
F. Analisis Butir
Ada dua analisis yang harus dilakukan terhadap butir tes yaitu: analisis
konstruksi, dan analisis statistik. Analisis konstruksi dilakukan sebelum tes
digunakan atau diuji coba, sedang analisis statistik dilakukan setelah diperoleh
data hasil tes. Analisis konstruksi dilakukan berdasarkan pada pedoman
penulisan soal yang baik dan sebaiknya dilakukan oleh teman sejawat atau
suatu tim. Setelah dilakukan analisis konstruksi kemudian tes diberikan pada
mahasiswa dan akan diperoleh data hasil tes. Data ini dianalisis untuk
mengetahui distribusi respon, bentuk distribusi skor, besarnya rerata (mean),
1. Analisis Konstruksi
Analisis konstruksi disebut juga dengan kegiatan telaah butir soal
sebelum digunakan. Analisis ini meliputi: Kemampuan dasar atau tujuan
pembelajaran umum (TPU), rumusan soal, kunci jawaban, pengecoh, dan
12
bahasa yang digunakan. Analisis terhadap dilihat dari Blue Print atau
kisi-kisi tes, yang pada dasarnya harus mewakili semua materi yang
diajarkan dan proporsional dan sering disebut dengan validitas isi tes.
Rumusan soal harus singkat dan jelas, termasuk bila ada gambar atau
grafik. Jawaban yang paling benar hanya satu bila bentuk tes pilihan
ganda, sedang untuk tes bentuk uraian harus ada kunci jawaban yang jelas.
Untuk soal-soal penyelesaian masalah harus diperhitungkan penggunaan
berbagai rumus dan berbagai cara namun memperoleh hasil yang sama.
Untuk tes bentuk pilihan ganda, semua pengecoh harus logis yaitu
bila peserta menggunakan pendekatan atau cara yang salah akan diperoleh
hasil yang salah dan tercantum pada pilihan jawaban. Selanjutnya bahasa
yang digunakan harus baku dan menggunakan tata bahasa yang baik dan
benar, sehingga tidak menimbulkan salah penafsiran. Variasi jawaban
yang diinginkan adalah disebabkan variasi kemampuan bukan variasi salah
tafsir, karena yang ingin diukur adalah kemampuan peserta.
2. Analisis Statistik
Setelah konstruksi tes ditelaah, kemudian tes diberikan pada
mahasiswa dalam rangka uji coba atau untuk pengukuran. Dari data hasil
uji coba kemudian dilihat distribusi respons, tingkat kesukaran, dan daya
pembeda. Butir tes yang baik, semua alternatif jawaban pada tes pilihan
ganda harus dipilih mahasiswa, sehingga semua pengecoh berfungsi dengan
baik.
Tingkat kesukaran butir adalah proporsi mahasiswa yang menjawab
benar. Butir tes yang baik memiliki tingkat kesukaran berkisar 0,30 sampai
0,70. Daya pembeda butir adalah indek yang menyatakan seberapa jauh
butir tes dapat membedakan mereka yang memiliki kemampuan tinggi
dengan kemampuan rendah. Besarnya indek ini dicari dengan formula
korelasi point biserial atau biserial, formula ini berdasarkan pada korelasi
Pearson atau disebut juga dengan korelasi product moment .
Contoh distribusi respons:
13
Butir 1 Butir 2
A. 8 A. 20
B. 10 B. 3
C. 9 C. 7
D. 23 * D. 20 *
Contoh data hasil tes pilihan ganda:

Butir Skor
Mahasiswa
1 2 3 4 5 6 7 8 9 10 Mhs.
A 0 1 0 1 1 0 0 0 0 0 3
B 1 1 1 1 1 1 0 0 1 0 7
C 1 1 1 0 0 1 1 1 0 0 6
D 1 1 1 1 1 0 0 0 0 1 6
E 1 1 1 1 1 0 1 1 1 0 8
F 1 0 0 0 1 1 0 0 0 1 4
G 0 1 1 1 0 1 1 0 0 0 5
H 1 1 1 1 1 0 0 0 0 0 5
I 1 1 1 1 1 1 0 1 0 0 7
J 0 1 0 1 0 0 0 0 0 0 2
Skor Butir 7 9 7 8 7 5 3 3 2 2
Keterangan:
0 menyatakan salah
1 menyatakan benar.
Semua skor butir dibagi sepuluh
Tingkat kesukaran dan daya beda tes di atas adalah:
Butir 1
Tingkat kesukaran:0.70
Daya pembeda:
6.00  3.3
rbis  v (0.7)(0.3)  0.695
1.78
14
Besar daya beda yang dditerima minimum 0,30.
Tugas:
Cari tingkat kesukaran dan daya pembeda butir tes serta indek
kehandalan tes di atas, dan buat kesimpulannya!
G. Kehandalan dan Kesahihan

Kehandalan suatu tes dinyatakan dengan suatu indek yang disebut
dengan indek kehandalan. Pada prinsipnya kehandalan suatu tes dinyatakan
dengan dua cara, yaitu:
1. stabilitas
2. konsistensi internal
Stabilitas menyatakan seberapa jauh suatu tes memberi hasil yang
stabil tentang kemampuan siswa. Indek stabilitas diperoleh dengan cara
memberi tes yang sama atau yang ekivalen terhadap kelompok yang sama.
Skor kedua kelompok tersebut dikorelasikan sehingga diperoleh indek
stabilitas. Sedang konsistensi internal merupakan perbandingan antara varian
sebenarnya dengan varian total. Suatu model pengukuran klasik dapat ditulis
sebagai berikut:
X=T+e
Persamaan di atas menyatakan bahwa skor yang tampak terdiri dari
skor sebenarnya dan skor kesalahan. Sumber kesalahan dalam pengukuran
bisa berasal dari alat ukur, pengawas ujian, lingkungan tes, dan bisa berasal
dari kondisi mahasiswa. Masalah pada pengukuran bidang pendidikan adalah
cara mengestimasi besarnya skor yang sebenarnya.
Dengan asumsi bahwa tidak ada hubungan antara skor sebenarnya T
dengan skor kesalahan e, maka varian skor total x, dapat ditulis sebagai
berikut:
Vx = VT + Ve
15
Rasio antara VT dengan Vx disebut indek konsistensi internal. Formula yang
umum untuk menghitung besarnya indek konsistensi internal adalah
Cronbach-alpha, yaitu:
rxx’ = (n / n - 1) (1 – ∑ Ve / Vx)
n adalahjumlah butir
Ve adalah varian kesalahan
Vx adalah varisn skor tampak
Kesahihan alat ukur harus dilihat pada tiga hal yaitu konstruksi, isi,
dan kriteria. Semua jenis kesahihan harus diperhatikan untuk semua jenis tes,
hanya penekanannya yang berbeda. Tes psikologi menekankan pada
konstruksi tes, tes pencapaian belajar menekankan pada kesahihan isi, sedang
tes seleksi menekankan pada kesahihan kriteria, terutama kesahihan prediktif.
Kesahihan isi suatu tes dilihat dari kisi-kisi atau disebut juga dengan
tabel spesifikasi. Pada prinsipnya materi suatu tes merupakan sampel dari
materi pelajaran yang diajarkan. Sampel yang dipilih harus mewakili semua
materi yang diajarkan. Salah satu bentuk kisi-kisi yang sering digunakan
adalah dengan menggunakan taksonomi Bloom, seperti di bawah ini:
Topik Hap. Pem. Apli. Anal. Sint. Eval. Jml.

1 3 4 2 9
2 2 3 2 1 8
3 1 3 3 2 9
4 1 3 4 2 10
5 - 2 4 2 8
6 - 1 2 3 6
Jml 7 16 17 10 50
Evaluasi terhadap validitas isi dilakukan oleh para pakar dalam

bidangnya. Pokok bahasan yang komplek sehingga memerlukan waktu yang
lama untuk mengajarkannya harus memiliki butir tes yang lebih banyak
dibanding pada pokok bahasan yang sederhana. Distribusi letak butir-butir
16
dalam sel yang baik adalah yang cenderung mengukur kemampuan aplikasi ke
atas. Oleh karena itu butir tes yang digunakan harus lebih banyak pada
kategori aplikasi ke atas.
Kesahihan konstruk suatu tes dilihat dari definisinya. Kalau kita ingin
mengukur kemampuan berpikir logis, maka definisi berfikir logis harus dibuat
terlebih dahulu. Selanjutnya semua butir tes harus dapat dikembalikan pada
definisi tersebut. Pada prinsipnya pengukuran yang ingin dilakukan adalah
memiliki dimensi satu. Kalau kita ingin mengukur kemampuan matematika
maka di dalamnya tidak ada kemampuan lain yang diukur, seperti kemampuan
menggambar dan kemampuan bahasa dan lainnya. Pada alat ukur yang meng-
ukur satu dimensi, kita bisa menjumlahkan skor-skor butirnya. Bila yang
diukur lebih dari satu dimensi maka penjumlahan skornya sebenarnya menya-
lahi konsep pengukuran.
Jenis kesahihan yang ketiga adalah kesahihan kriteria. Kesahihan ini
dibagi dua yaitu yang disebut dengan konkuren dan prediktif, semuanya
menunjukkan daya prediksi atau daya ramal. Daya prediksi yang dinyatakan
dengan angka yang besarnya mulai dari 0 sampai 1.00 merupakan korelasi
antara skor tes dengan kriteria keberhasilan. Misalnya korelasi skor tes masuk
perguruan tinggi dengan indek prestasi. Semakin besar korelasi skor tes masuk
dengan prestasi belajar maka dapat dikatakan bahwa daya prediksi tes masuk
tinggi atau kesahihan tes masuk tinggi.
Dalam proses belajar mengajar sering kali ingin diukur kemampuan
berfikir mahasiswa. Ada lima komponen yang dapat digunakan untuk meng-
ukur kemampuan berfikir mahasiswa, yaitu: ingatan, analisis, komparasi, infe-
rensi, dan evaluasi. Kemampuan berfikir ini sangat berguna untuk menyele-
saikan permasalahan-permasalahan yang ada di lapangan. Dosen tidak akan
mengajarkan bagaimana menyelesaikan permasalahan di lapangan secara
detail, tetapi hanya konsep, teori-teori yang mendasar saja. Mahasiswa yang
harus mengolahnya untuk dapat digunakan dalam memecahkan masalah-
masalah yang baru. Namun dosen harus bisa membuat soal yang sifatnya
aplikasi.
17
Berikut ini suatu contoh urutan kemampuan penalaran yang dapat
digunakan dalam merencanakan suatu tes.
Analisis Mengenal program-program suatu proses, menganalisis

prinsip kerja suatu sistem
Komparasi Membandingkan watak suatu objek, komponen suatu proses
Inferensi Membuat konklusi, prediksi, pengujian hipotesis dan pen-
jelasannya
Evaluasi Evalusi suatu prosedur, kredibilitas suatu konklusi, penemu-
an-penemuan yang signifikan.
Kategori di atas merupakan alternatif lain dari pembagian menurut

Bloom. Hal lain yang penting pada tes acuan kriteria adalah penentuan standar
atau cutting score. Ada yang menggunakan skor 80 dan ada yang mengguna-
kan skor 90 sebagai batas kelulusan untuk skala pengukuran 0 sampai 100.
Daftar Pustaka
Ebel. R.L. (1979). Essential of Educational Measurement. New Jersey:

Prentice Hall.
Mardapi, D. (1989). Evaluasi Hasil Belajar. Bahan penataran dosen-dosen
FPTK IKIP Jakarta, Surabaya, dan Ujung Pandang.
Mehren, W.A. & Lehmann, I.J. (1984). Measurement and Evaluation in
Education and Psychology. New York: Holt, Rinehart.
Bahan Penataran Penulisan Soal Ujian (1990). Pusat Penelitian dan Pengem-
bangan Sistem Pengujian. Balitbang Depdikbud Jakarta.
18

Konstruksi Tes

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Konstruksi Tes

Diunggah oleh

Hak Cipta:

Format Tersedia

Bahan lokakarya Metodologi Interaksi Pembelajaran

Universita Muhammdaiyah Surakarta

KONSTRUKSI TES DAN ANALISIS BUTIR

Oleh: Djemari Mardapi *)

*) Dosen Pascasarjana UNY

B. Kurikulum Berbasis Kompetensi

E. Penyusunan Kisi-Kisi Tes

Contoh data hasil tes pilihan ganda:

G. Kehandalan dan Kesahihan

Topik Hap. Pem. Apli. Anal. Sint. Eval. Jml.

Evaluasi terhadap validitas isi dilakukan oleh para pakar dalam

Analisis Mengenal program-program suatu proses, menganalisis

Kategori di atas merupakan alternatif lain dari pembagian menurut

Ebel. R.L. (1979). Essential of Educational Measurement. New Jersey:

Anda mungkin juga menyukai