Anda di halaman 1dari 23

MAKALAH EVALUASI BELAJAR DAN PEMBELAJARAN

(PENGEMBANGAKAN TES)

Dosen Pengampu:
Dr. Atan Pramana, M.Pd.

DISUSUN OLEH :
KELOMPOK 4

1. Maulid Nurvidia (23010024059)


2. Queendy Cahya Ramadhanti (23010024063)
3. Sabrina Auril Rivaniar (23010024065)

UNIVERSITAS NEGERI SURABAYA


FAKULTAS ILMU PENDIDIKAN
PRODI TEKNOLOGI PENDIDIKAN
2024/2025
KATA PENGANTAR
Puji Syukur kehadirat Tuhan Yang Maha Esa karena atas berkat dan
Rahmat-Nya kami dapat menyelesaikan makalah yang berjudul “Pengembangkan
Tes” dalam mata kuliah Evaluasi Belajar dan Pembelajaran, sehingga makalah ini
dapat tersusun dengan baik.

Kami penulis menyadari bahwa penyusunan makalah ini masih jauh dari
kata sempurna, bahkan masih ada kesalahan dan kekurangan dari segi Bahasa
maupun isinya. Untuk itu, kami berharap agar pembaca berkenan memberikan
kritik dan saran yang membangun demi kesempurnaannya.

Surabaya, 2 Maret 2024

Penyusun
Kelompok 4 TP 2023C
DAFTAR ISI
BAB I
PENDAHULUAN

A. Latar Belakang
Pendidikan adalah untuk secara sadar dan sistematis menciptakan suasana belajar dan
proses pembelajaran, agar peserta didik dapat secara aktif mengembangkan potensi
dirinya, memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian,
kebijaksanaan, moralitas yang luhur, dan keterampilan yang diperlukan dirinya,
masyarakat, negara, dan negara. masyarakat. status. Menurut Pasal 1 Undang-Undang
Nomor 20 Tahun 2003 Republik Indonesia tentang Isi Sistem Pendidikan Nasional.

Salah satu upaya dalam meningkatkan kualitas proses dan hasil belajar sebagai bagian
dari peningkatan kualitas pendidikan dapat dilakukan melalui sistem penilaian. Dalam
penilaian proses dan hasil belajar siswa di sekolah, aspekaspek yang berkenaan dengan
pemilihan alat penilian, penyusunan soal, pengolahan dan interpretasi data hasil
penilaian, analisis butir soal untuk memperoleh kualitas soal yang memadai, serta
pemanfaatan data hasil penilaian sangat berpengaruh terhadap kualitas lulusan. Oleh
sebab itu, kemampuan para guru dan calon guru dalam aspek-aspek tersebut mutlak
diperlukan.

Evaluasi menjadi hal yang penting dan harus diperhitungkan oleh pendidik dalam menilai
kemampuan peserta didik terhadap materi yang diajarkan. Penilaian adalah kegiatan yang
tidak mungkin dipisahkan dari kegiatan pendidikan dan pengajaran secara umum. Semua
kegiatan pendidikan yang dilakukan harus selalu diikuti atau disertai dengan kegiatan
penilaian. Pada hakikatnya penilaian yang dilakukan tidak semata-mata untuk menilai
hasil belajar siswa saja, melainkan juga berbagai faktor lain, antara lain kegiatan
pengajaran yang dilakukan itu sendiri.

Menurut Purwanto (2013), tes adalah suatu alat atau instrumen yang digunakan
untuk mengumpulkan informasi dari hasil jawaban siswa terhadap pertanyaan, di mana
tugas-tugas harus dijawab atau diselesaikan oleh siswa. Tidak hanya itu, ujian guru juga
perlu memperhatikan tingkat kesulitan soal sesuai dengan sifat atau
karakteristik siswa. Tes yang dilakukan juga perlu diuji dalam kelompok besar. Dari hasil
tes instrumen dilakukan uji validitas dan reliabilitas, sehingga dapat digunakan sebagai
alat ukur yang berkualitas dan efektif yang benar-benar memenuhi kemampuan siswa.
Efektivitas berkaitan dengan kemampuan untuk mengukur ketepatan hal-hal yang ingin
diukur. Tes yang efektif adalah tes yang secara akurat mengukur situasi yang ingin Anda
ukur. Sebalikanya, tes dikatakan tidak valid bila digunakan untuk mengukur suatu
keadaan yang tidak tepat diukur dengan tes tersebut.
Tes sebagai alat pengukur hasil belajar siswa, diharapkan mampu memberikan informasi
yang dapat ditanggungjawabkan kebenarannya. Artinya, alat tes dapat memberikan
informasi tentang siswa sesuai keadaan yang mendekati sesungguhnya. Hal itu penting
karena informasi tersebut akan dipergunakan untuk mempertimbangkan dan kemudian
memutuskan sebagai kebijakan baik yang berkenaan dengan siswa maupun kegiatan pengajaran
secara umum.

Untuk mengukur ketercapaian suatu kompetensi diperlukan lebih dari satu alat ukur. Jika
kompetensi yang akan dicapai lebih dominan dalam ranah kognitif maka tes merupakan
alat ukur yang tepat. Tetapi jika kompetensi yang akan dicapai berada dalam ranah afektif
dan psikomotor maka tes bukan alat ukur yang valid. Alat ukur yang valid untuk
mencapai kompetensi tersebut adalah non-tes, misalnya skala sikap, asesmen kinerja dan
portofolio.

Untuk dapat mengembangkan tes yang baik ada beberapa langkah yang harus diikuti
yaitu harus memahami bagaimana cara menulis tes baik sesuai dengan tata cara atau
kaidah yang telah ditentukan, membuat perencanaan tes dan menulis butir soal
berdasarkan perencanaan yang telah dibuat.

B. Rumusan Masalah
1. Apa saja kompenen pengembangan tes?
2. Apa saja validitas dan reliatibitas pengembangan tes?
3. Bagaimana teknik dalam pengembangan tes?
4. Apa keunggulan dan kelemahan tes?
5. Bagaimana langkah-langkah dalam memilih dan menguji soal?

C. Tujuan
1. Untuk mengetahui komponen pengembangan tes.
2. Untuk mengetahui validitas dan reliatibitas pengembangan tes.
3. Untuk mengetahui teknik dalam mengembangkan tes.
4. Untuk mengetahui keunggulan dan kelemahan tes.
5. Untuk mengetahui Langkah-langkah dalam memilih dan menguji soal.
BAB II
PEMBAHASAN

A. Komponen Pengembangan Tes


B. Validitas dan Reliatibitas Pengembangan Tes

Validitas sering diartikan kesahihan (Thoha, 2001: 109). Validitas adalah kualitas yang
menunjukan hubungan antara suatu pengukuran (diagnosis) dengan arti atau tujuan
kriteria belajar atau tingkah laku (Purwanto, 2002: 137). Sedangkan menurut Sukardi
(2011: 3), validitas adalah derajat yang menunjukkan dimana suatu tes mengukur apa
yang hendak diukur. Suatu alat ukur disebut memiliki validitas bilamana alat ukur
tersebut isinya layak mengukur objek yang seharusnya diukur dan sesuai dengan kriteria
tertentu. Artinya adanya kesesuaian antara alat ukur dengan fungsi pengukuran dan
sasaran pengukuran. Validitas suatu instrumen evaluasi, tidak lain adalah derajat yang
menunjukan di mana suatu tes mengukur apa yang hendak diukur (Singarimbun &
Effendi, 2011: 122).

Validitas suatu instrumen evaluasi mempunyai beberapa makna penting diantaranya


seperti berikut :

 Validitas berhubungan dengan ketepatan interpretasi hasil tes atau instrumen


evaluasi untuk grup individual dan bukan instrumen itu sendiri.
 Validitas diartikan sebagai derajat yang menunjukan kategori yang bisa mencakup
kategori rendah, menengah dan tinggi.
 Prinsip suatu tes valid, tidak universal. Validitas suatu tes yang perlu diperhatikan
oleh para peneliti adalah bahwa ia hanya valid untuk suatu tujuan tertentu saja.
Tes valid untuk bidang studi matematika belum tentu valid untuk bidang yang lain
misalnya bidang mekanika teknik (Sukardi, 2011: 31).

Validitas memiliki beberapa karakteristik, antara lain:

 Menunjuk kepada hasil dari penggunaan instrumen tersebut bukan pada


instrumennya.
 Menunjukkan suatu derajat atau tingkatan, validitasnya tinggi, sedang atau
rendah, bukan valid atau tidak valid.
 Tidak berlaku umum. Suatu tes matematika menunjukkan validitas tinggi untuk
mengukur keterampilan menghitung, tetapi hanya sedang dalam mengukur
kemampuan berpikir matematis, bahkan rendah dalam memprediksi keberhasilan
dalam matematika untuk masa yang akan datang (Sukmadinata, 2010: 228-229).

Faktor-Faktor Yang Mempengaruhi Validitas

Ada dua unsur penting dalam validitas. Pertama, validitas menunjukan suatu derajat, ada
yang sempurna, ada yang sedang dan ada yang rendah. Kedua, validitas selalu
dihubungkan dengan suatu putusan atau tujuan yang spesifik. Sebagaimana pendapat
R.L. Thorndike dan H.P. Hagen bahwa “validity is always in relation to a specific
decision or use”.Sementara itu, Gronlund mengemukakan ada tiga faktor yang
mempengaruhi validitas hasil tes, yaitu:

1. Faktor instrumen evaluasi.


2. Faktor administrasi evalusai dan penskoran.
3. Faktor dari jawaban peserta didik (Arifin, 2011: 247-248).

Banyak faktor yang dapat mempengaruhi hasil tes evaluasi tidak valid. Beberapa faktor
tersebut secara garis besar dapat dibedakan menurut sumbernya, yaitu faktor internal dari
tes, faktor eksternal tes dan faktor yang berasal dari peserta didik yang bersangkutan
( Sukardi, 2011: 38-39).

Faktor yang berasal dari dalam tes

Beberapa sumber yang pada umumnya berasal dari faktor internal tes evaluasi di
antaranya sebagai berikut.

 Arahan tes yang disusun dengan makna tidak jelas sehingga dapat mengurangi
validitas tes.
 Kata-kata yang digunakan dalam struktur instrumen evaluasi, terlalu sulit.
 Item-item tes dikonstruksi dengan jelek.
 Tingkat kesulitan item tes tidak tepat dengan materi pembelajaran yang diterima
peserta didik.
 Waktu yang dialokasikan tidak tepat, hal ini termasuk kemungkinan terlalu kurang
atau terlalu longgar.
 Jumlah item tes terlalu sedikit sehingga tidak mewakili sampel materi
pembelajaran.
 Jawaban masing-masing item evaluasi bisa diprediksi peserta didik.
 Faktor yang berasal dari administrasi dan skor.
 Faktor ini dapat mengurangi validitasi interpretasi tes evaluasi, khususnya tes
evaluasi yang dibuat oleh guru. Berikut beberapa contoh faktor yang sumbernya
berasal dari proses administrasi dan skor.
 Waktu pengerjaan tidak cukup sehingga peserta didik dalam memberikan jawaban
dalam situasi yang tergesa-gesa.
 Adanya kecurangan dalam tes sehingga tidak bisa membedakan antara peserta
didik yang belajar dengan yang melakukan kecurangan.
 Pemberian petunjuk dari pengawas yang tidak dapat dilakukan pada semua
peserta didik.
 Teknik pemberian skor yang tidak konsisten, misalnya pada tes esai, juga dapat
mengurangi validitas tes evaluasi.
 Peserta didik tidak dapat mengikuti arahan yang diberikan dalam tes baku.
 Adanya joki (orang lain bukan peserta didik) yang masuk dan menjawab item tes
yang diberikan.
 Faktor-faktor yang berasal dari jawaban peserta didik.

Seringkali terjadi bahwa interpretasi terhadap item-item tes evaluasi tidak valid, karena
dipengaruhi oleh jawaban peserta didik daripada interpretasi item-item pada tes evaluasi.
Sebagai contoh, sebelum tes para peserta didik menjadi tegang karena guru pengampu
mata pelajaran dikenal killer, galak dan sebagainya sehingga peserta didik yang ikut tes
banyak yang gagal. Contoh lain, ketika peserta didik melakukan tes penampilan
keterampilan, ruangan terlalu ramai atau gaduh sehingga para peserta didik tidak dapat
konsentrasi dengan baik. Ini semua dapat mengurangi nilai validitas instrumen evaluasi.

Macam-macam Validitas

Validitas menurut pendapat beberapa ahli dapat digolongkan dalam beberapa jenis, yakni:
validitas konstruksi (construct validity), validitas isi (content validity), validitas prediktif
(predictive validity), validitas rupa (face validity)dan validitas konkuren (concurrent
validity).

 Validitas Isi
Validitas isi (content validity)adalah pengujian validitas dilakukan atas isinya
untuk memastikan apakah butir tes hasil belajar mengukur secara tepat keadaan yang
ingin diukur (Purwanto, 2011: 120). Validitas isi adalah validitas yang ditilik dari segi isi
tes itu sendiri sebagai alat pengukur hasil belajar yaitu: sejauh mana tes hasil belajar
sebagai alat pengukur hasil belajar peserta didik, isinya telah dapat mewakili secara
representatif terhadap keseluruhan materi atau bahan pelajaran yang seharusnya diteskan
(diujikan) (Sudijono, 2013: 164).

Menurut Guion (1977), validitas isi dapat ditentukan berdasarkan justifikasi para ahli.
Prosedur yang ditempuh agar instrumen tes tersebut valid, adalah: mendefinisikan kisi-
kisi yang hendak diukur, menentukan kisi-kisi yang akan diukur oleh masing-masing
soal, dan membandingkan masing-masing soal dengan kisi-kisi yang sudah ditetapkan.

Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang
sejajar dengan materi atau isi pelajaran yang diberikan (Arikunto, 2010: 67). Oleh karena
materi yang diajarkan tertera dalam kurikulum maka validitas isi ini sering juga disebut
validitas kurikuler. Validitas isi dapat diusahakan tercapainya sejak saat penyusunan soal
dengan cara merinci materi kurikulum atau materi buku pelajaran.

 Validitas Kontruksi
Secara etimologis, kata konstruksi mengandung arti susunan, kerangka atau
rekaan. Dengan demikian, validitas konstruksi dapat diartikan sebagai validitas yang
ditilik dari segi susunan, kerangka atau rekaan (Sudijono, 2013: 166). Borg dan Gall
(dalam Reksoatmdjo, 2009: 194) mendefinisikan: “Construct validity is the extent to
which a particular test can be shown to measure hypothetical construct.”Secara
terminologis, suatu tes hasil belajar dapat dinyatakan sebagai tes yang telah memiliki
validitas konstruksi, apabila tes hasil belajar tersebut ditinjau dari segi susunan, kerangka
atau rekaannya telah dapat dengan secara tepat mencerminkan suatu konstruksi dalam
teori psikologis (Sudijono, 2013: 166). Tentang istilah konstruksi dalam teori psikologis
ini perlu dijelaskan, bahwa para ahli di bidang psikologis mengemukakan teori yang
menyatakan bahwa jiwa dari seseorang peserta didik itu dapat dirinci ke dalam beberapa
aspek atau ranah tertentu. Benjamin S. Bloom misalnya merincinya dalam tiga aspek
kejiwaan yaitu aspek kognitif, aspek afektif dan aspek psikomotorik.

Validitas konstruksi bukanlah dimaksudkan bahwa tes yang bersangkutan


dipandang sudah baik susunan kalimat soalnya, atau urut-urutan butir nomor soalnya
sudah runtut, melainkan bahwa tes hasil belajar baru dapat dikatakan telah memiliki
validitas konstruksi apabila butir-butir soal atau item yang membangun tes tersebut
benar-benar telah dapat dengan secara tepat mengukur aspek-aspek berpikir sebagaimana
telah ditentukan dalam tujuan instruksional khusus.

Validitas konstruksi mengacu pada sejauh mana suatu instrumen mengukur


konsep dari suatu teori, yaitu yang menjadi dasar penyusunan instrumen. Definisi atau
konsep yang diukur berasal dari teori yang digunakan. Oleh karena itu, harus ada
pembahasan mengenai teori yang menjadi dasar penentuan konstruksi suatu instrumen.

 Validitas Bandingan
Validitas bandingan artinya kejituan daripada suatu tes dapat dilihat dari
korelasinya terhadap kecakapan yang telah dimiliki saat kini secara riil. Cara yang
digunakan untuk menilai validitas bandingan adalah dengan cara mengkorelasikan hasil-
hasil yang dicapai dalam tes tersebut dengan hasil-hasil yang dicapai dalam tes yang
sejenis yang diketahui mempunyai validitas tinggi (misalnya tes standar). Tinggi
rendahnya koefisien korelasi yang diperoleh menunjukkan tinggi rendahnya validitas tes
yang akan kita nilai kualitasnya (Sudijono, 2013: 177).

 Validitas Prediktif
Validitas prediktif adalah ketepatan (kejituan) dari suatu alat ukur ditinjau dari
kemampuan tes untuk meramalkan prestasi yang dicapainya kemudian. Cara yang
dipergunakan untuk menilai tinggi rendahnya validitas prediktif ini ialah dengan jalan
mencari korelasi antara nilai-nilai yang dicapai oleh anak-anak dalam tes tersebut dengan
nilai-nilai yang dicapainya kemudian (Nurkancana, 2000: 128).

Cara Mengetahui Validitas Instrumen Tes

Menurut Widoyoko (2014: 176), suatu butir instrumen dikatakan valid apabila memiliki
sumbangan yang besar terhadap skor total. Dengan kata lain, butir instrumen dikatakan
mempunyai validitas yang tinggi jika skor pada butir mempunyai kesejajaran dengan skor
total. Kesejajaran ini dapat diartikan dengan korelasi, sehingga untuk mengetahui
validitas butir digunakan rumus korelasi product moment.
Dimana:

rxy = koefisien korelasi antara variabel X dan Y, atau koefisien validitas

X = skor butir soal

Y = skor total

N = jumlah responden

Penafsiran harga koefisien korelasi dapat dilakukan dengan dua cara, yaitu:

Dengan melihat r hitung dan diinterpretasikan dengan kriteria sebagai berikut:


Nilai r hitung
Kriteria
0,800 – 1,00
Sangat valid
0,600 – 0,79
Tinggi
0,400 – 0,59
Cukup
0,200 – 0,39
Rendah
0,000 – 0,19
Sangat rendah

Dengan berkonsultasi pada r tabel. Jika r hitung lebih kecil r tabel, maka butir soal
dinyatakan tidak valid. Sebaliknya jika r hitung lebih besar atau sama dengan r tabel,
maka butir soal dinyatakan valid (Arikunto, 2012: 89).

Pengertian Reliabilitas
Keandalan (reliability)berasal dari kata relyyang artinya percaya dan reliabel yang artinya
dapat dipercaya. Keterpercayaan berhubungan dengan ketepatan dan konsistensi
(Purwanto, 2011: 153-154). Reliabilitas berarti konsistensi di mana suatu instrumen
menghasilkan hasil skor yang sama (Ghoni & Almanshur, 2009: 234). Reliabilitas alat
ukur (instrumen) adalah ketetapan atau keajekan instrumen tersebut dalam mengukur apa
yang diukurnya (Lubis, 2009: 25).
Reliabilitas mempunyai berbagai nama lain seperti keterpercayaan, keterandalan,
keajegan, kestabilan, konsistensi dan sebagainya, namun ide pokok yang terkandung
dalam konsep reliabilitas adalah sejauh mana suatu pengukuran dapat dipercaya (Azwar,
2011: 4).

Berikut adalah pendapat para ahli mengenai reliabilitas:


 Menurut Thorndike dan Hagen, reliabilitas berhubungan dengan akurasi
instrumen dalam mengukur apa yang diukur, kecermatan hasil ukur dan seberapa
akurat seandainya dilakukan pengukuran ulang.
 Hopkins dan Antes menyatakan reliabilitas sebagai konsistensi pengamatan yang
diperoleh dari pencatatan berulang baik pada satu subjek maupun sejumlah subjek
(Purwanto, 2011: 154).
 Conny Semiawan mengungkapkan bahwa pengertian reliabilitas menunjuk pada
ketetapan (konsistensi) dari nilai yang diperoleh sekelompok individu dalam
kesempatan yang berbeda dengan tes yang sama ataupun yang itemnya ekuivalen
(Sukardi & Kusmawati, 2009: 259).
Dari beberapa definisi reliabilitas tersebut dapat disimpulkan bahwa reliabilitas
berhubungan dengan kemampuan alat ukur untuk melakukan pengukuran secara cermat.
Reliabilitas merupakan akurasi dan presisi yang dihasilkan oleh alat ukur dalam
melakukan pengukuran. Alat ukur yang reliabel akan menghasilkan ukuran yang
sebenarnya. Alat ukur yang reliabel akan memberikan hasil pengukuran yang relatif stabil
dan konsisten karena pengukurannya menghasilkan galat yang minimal.
Setiap alat pengukur seharusnya memiliki kemampuan untuk memberikan hasil
pengukuran yang konsisten. Makin kecil kesalahan yang terjadi dalam pengukuran, maka
semakin reliabel alat pengukur tersebut. Sebaliknya semakin besar kesalahan pengukuran
maka semakin tidak reliabel alat pengukur tersebut.

Reliabilitas suatu tes pada umumnya dituliskan secara numerik dalam bentuk koefisien.
Apabila koefisiennya tinggi maka menunjukan reliabilitas yang tinggi. Sebaliknya jika
koefisiennya rendah maka reliabilitas tesnya rendah juga. Tidak reliabelnya suatu tes
hasil belajar pada prinsipnya dapat dikatakan bahwa tes hasil belajar tersebut sia-sia, hal
ini dikarenakan jika dilakukan pengetesan kembali maka hasilnya akan berbeda.

Faktor-faktor yang Mempengaruhi Reliabilitas


Ada beberapa faktor yang dapat mempengaruhi reliabilitas (keandalan), diantaranya
adalah:
 Luas tidaknya sampling yang diambil. Dengan semakin luasnya suatu sampling,
maka tes hasil belajar akan semakin reliabel.
 Perbedaan bakat dan kemampuan peserta didik yang dites Tes yang diberikan
terhadap peserta didik dengan bakat dan kemampuan yang berbeda maka akan
menghasilkan reliabilitas yang berbeda pula.
 Suasana dan kondisi saat berlangsungnya tes. Suasana dan keadaan saat
berlangsungnya tes, seperti gaduh, tenang, banyak gangguan dapat mempengaruhi
hasil dan reliabilitas dari tes tersebut (Purwanto, 2009: 141).
 Searah dengan pendapat diatas, menurut menurut Gronlind (dalam Sukardi, 2011:
51) faktor-faktor yang mempengaruhi reliabilitas adalah:
 Panjang tes; semakin panjang suatu tes semakin banyak jumlah item materi
pembelajaran diukur. Ini menunjukkan dua kemungkinan, yaitu: 1) tes semakin
mendekati kebenaran, 2) dalam mengikuti tes, semakin kecil siswa menebak.
Berarti akan semakin tinggi reliabilitasnya.
 Penyebaran skor; koefisien reliabilitas secara langsung dipengaruhi oleh bentuk
sebaran skor dalam kelompok siswa yang diukur. Semakin tinggi sebaran,
semakin tinggi estimasi koefisien reliabilitas.
 Kesulitan tes; tes normatif yang terlalu mudah atau terlalu sulit untuk siswa,
cenderung menghasilkan reliabilitas rendah. Fenomena tersebut akan
menghasilkan sebaran skor yang cenderung terbatas pada salah satu sisi. Untuk
tes yang terlalu mudah, skor jawaban siswa akan mengunpul pada sisi atas,
misalnya 9 atau 10. Untuk tes yang terlalu sulit, skor jawaban siswa akan
mengumpul pada sisi sebaliknya, atau rendah. Dua gejala tersebut mempunyai
kesamaan yaitu bahwa perbedaan di antara individu adalah kecil atau cenderung
tidak relevan.
 Objektivitas; yang dimaksud dengan objektif yaitu derajad dimana siswa dengan
kompetensi sama, mencapai hasil sama. Ketika prosedur tes evaluasi memiliki
objektivitas tinggi, maka reliabilitas hasil tes tidak dipengaruhi oleh prosedur
teknik penskoran. Item tes skor objektif yang dihasilkan tidak dipengaruhi
pertimbangan atau opini dari seorang evaluator.

Cara Mengetahui Reliabilitas


Ada beberapa cara untuk mengetahui reliabilitas suatu tes, diantaranya adalah:

 Metode bentuk paralel (equivalent)


Pendekatan reliabilitas bentuk paralel dilakukan dengan memberikan sekaligus dua
bentuk tes yang paralel satu sama lain, kepada sekelompok subjek (Azwar, 2011: 59).
Sesuai dengan namanya, yaitu ekuivalen maka tes yang hendak diukur reliabilitasnya
dibuat identik. Setiap tampilannya, kecuali substansi item yang ada dapat berbeda. Kedua
tes tersebut sebaiknya mempunyai karakteristik sama. Karakteristik yang dimaksud
termasuk, misalnya: mengukur variabel yang sama, mempunyai jumlah item sama,
struktur sama, mempunyai tingkat kesulitan sama dan mempunyai petunjuk, cara skoring
dan interpretasi yang sama (Sukardi, 2013: 129).

Berikut ini adalah langkah-langkah melaksanakan tes reliabilitas secara ekuivalen:


 Tentukan subjek sasaran yang hendak dites.
 Lakukan tes yang dimaksud kepada subjek sasaran tersebut.
 Administrasikan hasilnya secara baik.
 Dalam waktu yang tidak terlalu lama, lakukan pengetesan untuk yang kedua
kalinya pada grup tersebut.
 Korelasikan kedua hasil tes skor (Sukardi, 2013: 130).

Menentukan korelasi antara tes pertama dan kedua menggunakan rumus korelasi product
moment sebagai berikut:
Dimana:
rxy = koefisien korelasi antara variabel X dan Y, atau koefisien reliabilitas
X = skor total soal seri A
Y = skor total soal seri B
N = jumlah responden
Penafsiran harga koefisien korelasi dapat dilakukan dengan menggunakan cara sebagai
berikut, yaitu:
Dengan melihat r hitung dan diinterpretasikan dengan kriteria sebagai berikut:
Nilai r hitung
Kriteria
0,800 – 1,00
Sangat reliabel
0,600 – 0,79
Tinggi
0,400 – 0,59
Cukup
0,200 – 0,39
Rendah
0,000 – 0,19
Sangat rendah
Dengan berkonsultasi pada r tabel. Jika r hitung lebih kecil r tabel, maka butir soal
dinyatakan tidak valid. Sebaliknya jika r hitung lebih besar atau sama dengan r tabel,
maka butir soal dinyatakan valid (Arikunto, 2012: 89).
Jika menggunakan penghitungan dengan menggunakan SPSS, penafsiran dapat
didasarkan pada nilai probabilitas (sig), dengan ketentuan: jika nilai probabilitas (sig)
lebih kecil atau sama dengan 0,05 maka instrumen dinyatakan reliabel. Sebaliknya, jika
nilai probabilitas (sig) lebih besar dari 0,05 maka instrumen dinyatakan tidak reliabel.

 Metode tes ulang (test-retest method)


Metode yang jelas untuk mengetahui reliabilitas suatu tes adalah dengan cara
memberikan tes itu dua kali kepada sekelompok individu yang sama (Furchan, 2007:
318). Metode pengujian reliabilitas yang dilakukan dengan mengujikan sebuah perangkat
tes hasil belajar kepada kelompok peserta uji coba yang sama sebanyak dua kali disebut
dengan metode tes ulang. Hasil pengukuran kedua pengujian selanjutnya dikorelasikan.

Instrumen penelitian yang reliabilitasnya diuji dengan metode tes ulang dilakukan dengan
cara mencobakan instrumen dua kali atau lebih kepada responden. Dalam hal ini,
instrumennya sama, respondennya sama tetapi waktunya yang berbeda (Sugiyono, 2008:
354). Sebuah tes hasil belajar dikatakan reliabel apabila dua kali atau lebih pengujian
menunjukan hasil yang stabil. Stabilitas ditunjukan oleh korelasi antara skor yang
diperoleh dari kedua pengujian (Purwanto, 2013: 156). Pelaksanaan metode ini adalah
sebagai berikut:

Misalnya pada bulan November disajikan suatu bentuk tes misalnya tes PAI kepada
peserta didik kelas X SMA.
Setelah beberapa waktu setelah tes pertama, misalnya saja pada bulan Desember tes PAI
tersebut diteskan kembali kepada peserta didik kelas X SMA.
Skor perolehan dari kedua tes tersebut kemudian dikorelasikan untuk mengestimasi
reliabilitas tes (Surapranata, 2006: 93).
Jarak atau selang waktu antara tes pertama dengan tes kedua sebaiknya tidak terlalu dekat
dan juga tidak terlalu jauh. Jika terlalu dekat, hasilnya banyak dipengaruhi oleh ingatan
peserta didik tentang jawaban yang diberikan pada saat pengukuran pertama. Sebaliknya,
jika selang waktu terlalu lama bisa terjadi adanya suatu perubahan pengetahuan dan
pengalaman peserta tes sehingga hal ini dapat mempengaruhi reliabilitasnya.
Menentukan korelasi antara tes pertama dan kedua menggunakan rumus korelasi product
moment sebagai berikut:
Dimana:
rxy = koefisien korelasi antara variabel X dan Y, atau koefisien reliabilitas
X = skor total soal instrumen soal tes pertama
Y = skor total soal instrumen soal tes kedua
N = jumlah responden
Penafsiran harga koefisien korelasi dalam metode tes ulang ini sama dengan cara
penafsiran pada metode equivalent.

 Metode belah dua (split-half method)


Reliabilitas belah dua ini, termasuk reliabilitas yang mengukur konsistensi internal.
Yang dimaksud konsistensi internal adalah salah satu tipe reliabilitas yang didasarkan
pada keajegan dalam tes. Reliabilitas belah dua ini pelaksanaanya hanya memerlukan
waktu satu kali (Sukardi, 2013: 130).

Ada dua cara membelah butir soal, yaitu:


 Membelah atas item-item genap dan item-item ganjil yang selanjutnya disebut
belahan ganjil-genap.
 Membelah atas item-item awal dan item-item akhir yaitu separuh jumlah pada
nomor-nomor awal dan separuh pada nomor-nomor akhir yang selanjutnya
disebut belahan awal-akhir (Arikunto, 2012: 107-108).
Rumus yag digunaan tetap memakai korelasi product moment, sebagaimana berikut ini.
Dimana:
rxy = koefisien korelasi antara variabel X dan Y, atau koefisien reliabilitas
X = skor total butir soal ganjil
Y = skor total butir soal genap
N = jumlah responden
Berbeda dengan metode pertama dan kedua yang setelah ditemukannya koefisien korelasi
langsung ditafsirkan reliabilitasnya, maka dengan metode ketiga ini tidak dapat demikian.
Pada waktu membelah dua dan mengkorelasikan dua belahan, baru diketahui reliabilitas
separo tes. Untuk mengetahui seluruh reliabilitas seluruh tes harus digunakan rumus
Spearman-Brown sebagai berikut:
Dimana:
r = korelasi antara skor-skor setiap belahan
r11 = koefisien reliabilitas yang sudah disesuaikan (Arikunto, 2012: 107).
Hasil penghitungan dengan rumus Spearman-Brown inilah yang nantinya dinterpretasi
sebagaimana cara menginterpretasi pada cara pertama dan kedua diatas.

C. Teknik dalam Pengembangan Tes


D. Keunggulan dan Kelemahan Tes

Tes merupakan alat ukur yang tepat digunakan untuk mengukur hasil belajar dalam ranah
kognitif. Untuk menentukan salah satu jenis tes yang akan digunakan untuk mengukur
hasil belajar siswa, harus berpedoman pada tujuan pembelajaran yang akan diukur. Untuk
dapat memilih jenis tes yang tepat, kita harus memahami keunggulan dan kelemahan dari
tiap jenis tes, sehingga kita bisa memaksimalkan keunggulan tes yang kita gunakan dan
menekan kelemahannya seminimal mungkin.

1. Tes Objektif

 Keunggulan:
 Tepat digunakan untuk mengukur proses berfikir rendah sampai dengan
sedang (ingatan, pemahaman, penerapan).
 Semua/sebagian besar materi yang telah diajarkan dapat ditanyakan saat
ujian sehingga semua/sebagian besar tujuan pembelajaran yang ditetapkan
dalam RPP dapat diukur ketercapaiannya.
 Pemberian skor pada setiap siswa dapat dilakukan dengan cepat, tepat, dan
konsisten karena jawaban yang benar untuk setiap butir soal sudah jelas
dan pasti.
 Memungkinkan untuk dilakukan analisis butir soal.
 Tingkat kesukaran butir soal dapat dikendalikan.
 Informasi yang diperoleh lebih kaya.

 Kelemahan:
 Butir soal yang ditulis cenderung mengukur proses berpikir rendah.
 Membuat pertanyaan tes objektif yang lebih baik lebih sukar sehingga
membutuhkan waktu lebih lama.
 Kemampuan anak dapat terganggu oleh kemampuannya dalam membaca
dan menerka.
 Anak tidak dapat mengorganisasikan, menghubungkan, dan menyatakan
idenya sendiri karena semua alternatif jawaban untuk setiap pertanyaan
sudah diberikan oleh penulis soal.

 Upaya untuk meminimalkan kelemahan:


 Agar soal yang ditulis dapat mengukur tujuan pembelajaran yang
ditetapkan penulis harus berorientasi pada kisi-kisi soal.
 Menguasai materi dengan baik dan latihan terus menerus hingga betul-
betul mahir.
 Menuliskan butir soal dengan baik sesuai kaidah penulisan butir soal
objektif yang telah ditentukan dan memperbanyak jumlah alternatif
jawaban menjadi empat atau lima.
 Dengan tes objektif anak tidak dapat mengemukakan idenya sendiri dapat
diatasi dengan menggunakan tes uraian.

2. Tes Uraian
 Keunggulan:
 Tepat digunakan untuk mengukur proses berpikir tinggi.
 Tepat digunakan untuk mengukur hasil belajar yang kompleks yang tidak
dapat diukur dengan tes objektif.
 Waktu yang digunakan untuk menulis satu set tes uraian lebih cepat
daripada waktu yang digunakan untuk menulis satu set tes objektif.
 Menulis tes uraian yang baik relatif lebih mudah dari pada menulis tes
objektif.
 Kelemahan:
 Terbatasnya sampel materi yang ditanyakan.
 Sukar memeriksa jawaban siswa.
 Pemberian skor yang kurang objektif dan kurang konsisten dapat disebabkan
karena beberapa hal, di antaranya:
 Adanya hallo effect.
 Adanya efek bawaan (carry over effect).
 Efek urutan pemeriksaan ( order effect).
 Pengaruh penggunaan bahasa.
 Pengaruh tulisan tangan.
 Upaya untuk meminimalkan kelemahan :
 Upaya untuk meningkatkan jumlah sampel materi yang ditanyakan saat
ujian adalah membuat tes uraian yang dapat dijawab dengan cepat oleh
siswa (tes uraian terbatas)
 Upaya untuk mengurangi unsur subjektivitas pemeriksa adalah dengan
memeriksa hasil ujian tanpa nama.
 Upaya untuk mengatasi kesulitan dalam memeriksa hasil tes siswa adalah:
- Gunakan tes uraian terbatas.
- Gunakan 2 pemeriksa untuk memeriksa setiap hasil tes siswa.
- Sepakat tentang cara pemberian skor dengan pemeriksa kedua.
- Lakukan uji coba pemeriksaan.
 Upaya untuk mengurangi hallo effect adalah dengan
menghilangkan/menutup nama peserta tes.
 Upaya untuk menghindari carry over effect adalah dengan cara memeriksa
jawaban soal nomor 1 untuk keseluruhan siswa baru kemudian baru
memeriksa soal nomor 2 jugauntuk keseluruh siswa begitu seterusnya
sampai butir soal terakhir.
 Upaya menghindari order effect adalah dengan berhenti memeriksa jika
sudah merasa lelah dalam memeriksa.

E. Langkah - Langkah dalam Memilih dan Menguji Soal


BAB III
KESIMPULAN
DAFTAR PUSTAKA
Suryanto, Adi, dik. (2017). Evaluasi Pembelajaran di SD. Jakarta: Universitas Terbuka.
Arikunto, Suharsimi. (2003). Dasar-Dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara
Arifin, Zainal. 2011. Evaluasi Pembelajaran: Prinsip, Teknik dan Prosedur.Bandung: PT Remaja
Rosdakarya
Azwar, Saifuddin. 2011. Reliabilitas dan Validitas.Yogyakarta: Pustaka Pelajar
Daryanto, 2008. Evaluasi Pendidikan.Jakarta: Rineka Cipta
Furchan, Arief. 2007. Pengantar Penelitian Dalam Pendidikan.Yogyakarta: Pustaka Pelajar
Ghoni, M. Djunaidi, dkk., 2009. Petunjuk Praktis Penelitian Pendidikan.Malang: UIN-Malang
Press
Lubis, Mawardi. 2009. Evaluasi Pendidikan Nilai.Yogyakarta: Pustaka Pelajar
Munthe, Bermawy. 2010. Desain Pembelajaran.Yogyakarta: Pustaka Insan Madani
Purwanto, M. Ngalim. 2002. Prinsip-Prinsip Dan Teknik Evaluasi Pengajaran.Bandung: PT
Remaja Rosdakarya
Reksoatmodjo, Tedjo N. 2009. Statistika untuk Psikologi dan Pendidikan.Bandung: PT. Refika
Aditama
Singarimbun dan Effendi, Sofian. 2011. Metode Penelitian Survai.Jakarta: LP3ES
Sudijono, Anas. 2009. Pengantar Evaluasi Pendidikan.Jakarta: Rajawali PersSudjana, Nana.
2010. Penilaian Hasil Proses Belajar Mengajar.Bandung: PT Remaja Rosdakarya.
Sugiyono, 2008. Statistika Untuk Penelitian.Bandung: CV Alfabeta
Sukardi, 2011. Evaluasi Pendidikan Prinsip dan Operasionalnya.Jakarta: PT Bumi Aksara
Sukardi, Dewa Ketut, dan Kusmawati, Nila. 2009. Analisis Tes Psikologis Teori &
Praktik.Jakarta: Rineka Cipta
Sukmadinata, Nana Syaodih. 2010. Metode Penelitian PendidikaN.Bandung: PT Remaja
Rosdakarya
Surapranata, Sumarna. 2006. Analisis, Validitas, Reliabilitas dan Interpretasi Hasil Tes
Implementasi Kurikulum 2004.Bandung: PT Remaja Rosdakarya
Thoha, M. Chabib. 2001. Teknik Evaluasi Pendidikan.Jakarta: PT RajaGrafindo Persada
Widoyoko, S. Eko Putro. 2009. Evaluasi Program Pembelajaran.Yogyakarta: Pustaka Pelajar
Widoyoko, S. Eko Putro. 2014. Penilaian Hasil Pembelajaran di Sekolah.Yogyakarta: Pustaka
Pelajar

Anda mungkin juga menyukai