(PENGEMBANGAKAN TES)
Dosen Pengampu:
Dr. Atan Pramana, M.Pd.
DISUSUN OLEH :
KELOMPOK 4
Kami penulis menyadari bahwa penyusunan makalah ini masih jauh dari
kata sempurna, bahkan masih ada kesalahan dan kekurangan dari segi Bahasa
maupun isinya. Untuk itu, kami berharap agar pembaca berkenan memberikan
kritik dan saran yang membangun demi kesempurnaannya.
Penyusun
Kelompok 4 TP 2023C
DAFTAR ISI
BAB I
PENDAHULUAN
A. Latar Belakang
Pendidikan adalah untuk secara sadar dan sistematis menciptakan suasana belajar dan
proses pembelajaran, agar peserta didik dapat secara aktif mengembangkan potensi
dirinya, memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian,
kebijaksanaan, moralitas yang luhur, dan keterampilan yang diperlukan dirinya,
masyarakat, negara, dan negara. masyarakat. status. Menurut Pasal 1 Undang-Undang
Nomor 20 Tahun 2003 Republik Indonesia tentang Isi Sistem Pendidikan Nasional.
Salah satu upaya dalam meningkatkan kualitas proses dan hasil belajar sebagai bagian
dari peningkatan kualitas pendidikan dapat dilakukan melalui sistem penilaian. Dalam
penilaian proses dan hasil belajar siswa di sekolah, aspekaspek yang berkenaan dengan
pemilihan alat penilian, penyusunan soal, pengolahan dan interpretasi data hasil
penilaian, analisis butir soal untuk memperoleh kualitas soal yang memadai, serta
pemanfaatan data hasil penilaian sangat berpengaruh terhadap kualitas lulusan. Oleh
sebab itu, kemampuan para guru dan calon guru dalam aspek-aspek tersebut mutlak
diperlukan.
Evaluasi menjadi hal yang penting dan harus diperhitungkan oleh pendidik dalam menilai
kemampuan peserta didik terhadap materi yang diajarkan. Penilaian adalah kegiatan yang
tidak mungkin dipisahkan dari kegiatan pendidikan dan pengajaran secara umum. Semua
kegiatan pendidikan yang dilakukan harus selalu diikuti atau disertai dengan kegiatan
penilaian. Pada hakikatnya penilaian yang dilakukan tidak semata-mata untuk menilai
hasil belajar siswa saja, melainkan juga berbagai faktor lain, antara lain kegiatan
pengajaran yang dilakukan itu sendiri.
Menurut Purwanto (2013), tes adalah suatu alat atau instrumen yang digunakan
untuk mengumpulkan informasi dari hasil jawaban siswa terhadap pertanyaan, di mana
tugas-tugas harus dijawab atau diselesaikan oleh siswa. Tidak hanya itu, ujian guru juga
perlu memperhatikan tingkat kesulitan soal sesuai dengan sifat atau
karakteristik siswa. Tes yang dilakukan juga perlu diuji dalam kelompok besar. Dari hasil
tes instrumen dilakukan uji validitas dan reliabilitas, sehingga dapat digunakan sebagai
alat ukur yang berkualitas dan efektif yang benar-benar memenuhi kemampuan siswa.
Efektivitas berkaitan dengan kemampuan untuk mengukur ketepatan hal-hal yang ingin
diukur. Tes yang efektif adalah tes yang secara akurat mengukur situasi yang ingin Anda
ukur. Sebalikanya, tes dikatakan tidak valid bila digunakan untuk mengukur suatu
keadaan yang tidak tepat diukur dengan tes tersebut.
Tes sebagai alat pengukur hasil belajar siswa, diharapkan mampu memberikan informasi
yang dapat ditanggungjawabkan kebenarannya. Artinya, alat tes dapat memberikan
informasi tentang siswa sesuai keadaan yang mendekati sesungguhnya. Hal itu penting
karena informasi tersebut akan dipergunakan untuk mempertimbangkan dan kemudian
memutuskan sebagai kebijakan baik yang berkenaan dengan siswa maupun kegiatan pengajaran
secara umum.
Untuk mengukur ketercapaian suatu kompetensi diperlukan lebih dari satu alat ukur. Jika
kompetensi yang akan dicapai lebih dominan dalam ranah kognitif maka tes merupakan
alat ukur yang tepat. Tetapi jika kompetensi yang akan dicapai berada dalam ranah afektif
dan psikomotor maka tes bukan alat ukur yang valid. Alat ukur yang valid untuk
mencapai kompetensi tersebut adalah non-tes, misalnya skala sikap, asesmen kinerja dan
portofolio.
Untuk dapat mengembangkan tes yang baik ada beberapa langkah yang harus diikuti
yaitu harus memahami bagaimana cara menulis tes baik sesuai dengan tata cara atau
kaidah yang telah ditentukan, membuat perencanaan tes dan menulis butir soal
berdasarkan perencanaan yang telah dibuat.
B. Rumusan Masalah
1. Apa saja kompenen pengembangan tes?
2. Apa saja validitas dan reliatibitas pengembangan tes?
3. Bagaimana teknik dalam pengembangan tes?
4. Apa keunggulan dan kelemahan tes?
5. Bagaimana langkah-langkah dalam memilih dan menguji soal?
C. Tujuan
1. Untuk mengetahui komponen pengembangan tes.
2. Untuk mengetahui validitas dan reliatibitas pengembangan tes.
3. Untuk mengetahui teknik dalam mengembangkan tes.
4. Untuk mengetahui keunggulan dan kelemahan tes.
5. Untuk mengetahui Langkah-langkah dalam memilih dan menguji soal.
BAB II
PEMBAHASAN
Validitas sering diartikan kesahihan (Thoha, 2001: 109). Validitas adalah kualitas yang
menunjukan hubungan antara suatu pengukuran (diagnosis) dengan arti atau tujuan
kriteria belajar atau tingkah laku (Purwanto, 2002: 137). Sedangkan menurut Sukardi
(2011: 3), validitas adalah derajat yang menunjukkan dimana suatu tes mengukur apa
yang hendak diukur. Suatu alat ukur disebut memiliki validitas bilamana alat ukur
tersebut isinya layak mengukur objek yang seharusnya diukur dan sesuai dengan kriteria
tertentu. Artinya adanya kesesuaian antara alat ukur dengan fungsi pengukuran dan
sasaran pengukuran. Validitas suatu instrumen evaluasi, tidak lain adalah derajat yang
menunjukan di mana suatu tes mengukur apa yang hendak diukur (Singarimbun &
Effendi, 2011: 122).
Ada dua unsur penting dalam validitas. Pertama, validitas menunjukan suatu derajat, ada
yang sempurna, ada yang sedang dan ada yang rendah. Kedua, validitas selalu
dihubungkan dengan suatu putusan atau tujuan yang spesifik. Sebagaimana pendapat
R.L. Thorndike dan H.P. Hagen bahwa “validity is always in relation to a specific
decision or use”.Sementara itu, Gronlund mengemukakan ada tiga faktor yang
mempengaruhi validitas hasil tes, yaitu:
Banyak faktor yang dapat mempengaruhi hasil tes evaluasi tidak valid. Beberapa faktor
tersebut secara garis besar dapat dibedakan menurut sumbernya, yaitu faktor internal dari
tes, faktor eksternal tes dan faktor yang berasal dari peserta didik yang bersangkutan
( Sukardi, 2011: 38-39).
Beberapa sumber yang pada umumnya berasal dari faktor internal tes evaluasi di
antaranya sebagai berikut.
Arahan tes yang disusun dengan makna tidak jelas sehingga dapat mengurangi
validitas tes.
Kata-kata yang digunakan dalam struktur instrumen evaluasi, terlalu sulit.
Item-item tes dikonstruksi dengan jelek.
Tingkat kesulitan item tes tidak tepat dengan materi pembelajaran yang diterima
peserta didik.
Waktu yang dialokasikan tidak tepat, hal ini termasuk kemungkinan terlalu kurang
atau terlalu longgar.
Jumlah item tes terlalu sedikit sehingga tidak mewakili sampel materi
pembelajaran.
Jawaban masing-masing item evaluasi bisa diprediksi peserta didik.
Faktor yang berasal dari administrasi dan skor.
Faktor ini dapat mengurangi validitasi interpretasi tes evaluasi, khususnya tes
evaluasi yang dibuat oleh guru. Berikut beberapa contoh faktor yang sumbernya
berasal dari proses administrasi dan skor.
Waktu pengerjaan tidak cukup sehingga peserta didik dalam memberikan jawaban
dalam situasi yang tergesa-gesa.
Adanya kecurangan dalam tes sehingga tidak bisa membedakan antara peserta
didik yang belajar dengan yang melakukan kecurangan.
Pemberian petunjuk dari pengawas yang tidak dapat dilakukan pada semua
peserta didik.
Teknik pemberian skor yang tidak konsisten, misalnya pada tes esai, juga dapat
mengurangi validitas tes evaluasi.
Peserta didik tidak dapat mengikuti arahan yang diberikan dalam tes baku.
Adanya joki (orang lain bukan peserta didik) yang masuk dan menjawab item tes
yang diberikan.
Faktor-faktor yang berasal dari jawaban peserta didik.
Seringkali terjadi bahwa interpretasi terhadap item-item tes evaluasi tidak valid, karena
dipengaruhi oleh jawaban peserta didik daripada interpretasi item-item pada tes evaluasi.
Sebagai contoh, sebelum tes para peserta didik menjadi tegang karena guru pengampu
mata pelajaran dikenal killer, galak dan sebagainya sehingga peserta didik yang ikut tes
banyak yang gagal. Contoh lain, ketika peserta didik melakukan tes penampilan
keterampilan, ruangan terlalu ramai atau gaduh sehingga para peserta didik tidak dapat
konsentrasi dengan baik. Ini semua dapat mengurangi nilai validitas instrumen evaluasi.
Macam-macam Validitas
Validitas menurut pendapat beberapa ahli dapat digolongkan dalam beberapa jenis, yakni:
validitas konstruksi (construct validity), validitas isi (content validity), validitas prediktif
(predictive validity), validitas rupa (face validity)dan validitas konkuren (concurrent
validity).
Validitas Isi
Validitas isi (content validity)adalah pengujian validitas dilakukan atas isinya
untuk memastikan apakah butir tes hasil belajar mengukur secara tepat keadaan yang
ingin diukur (Purwanto, 2011: 120). Validitas isi adalah validitas yang ditilik dari segi isi
tes itu sendiri sebagai alat pengukur hasil belajar yaitu: sejauh mana tes hasil belajar
sebagai alat pengukur hasil belajar peserta didik, isinya telah dapat mewakili secara
representatif terhadap keseluruhan materi atau bahan pelajaran yang seharusnya diteskan
(diujikan) (Sudijono, 2013: 164).
Menurut Guion (1977), validitas isi dapat ditentukan berdasarkan justifikasi para ahli.
Prosedur yang ditempuh agar instrumen tes tersebut valid, adalah: mendefinisikan kisi-
kisi yang hendak diukur, menentukan kisi-kisi yang akan diukur oleh masing-masing
soal, dan membandingkan masing-masing soal dengan kisi-kisi yang sudah ditetapkan.
Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang
sejajar dengan materi atau isi pelajaran yang diberikan (Arikunto, 2010: 67). Oleh karena
materi yang diajarkan tertera dalam kurikulum maka validitas isi ini sering juga disebut
validitas kurikuler. Validitas isi dapat diusahakan tercapainya sejak saat penyusunan soal
dengan cara merinci materi kurikulum atau materi buku pelajaran.
Validitas Kontruksi
Secara etimologis, kata konstruksi mengandung arti susunan, kerangka atau
rekaan. Dengan demikian, validitas konstruksi dapat diartikan sebagai validitas yang
ditilik dari segi susunan, kerangka atau rekaan (Sudijono, 2013: 166). Borg dan Gall
(dalam Reksoatmdjo, 2009: 194) mendefinisikan: “Construct validity is the extent to
which a particular test can be shown to measure hypothetical construct.”Secara
terminologis, suatu tes hasil belajar dapat dinyatakan sebagai tes yang telah memiliki
validitas konstruksi, apabila tes hasil belajar tersebut ditinjau dari segi susunan, kerangka
atau rekaannya telah dapat dengan secara tepat mencerminkan suatu konstruksi dalam
teori psikologis (Sudijono, 2013: 166). Tentang istilah konstruksi dalam teori psikologis
ini perlu dijelaskan, bahwa para ahli di bidang psikologis mengemukakan teori yang
menyatakan bahwa jiwa dari seseorang peserta didik itu dapat dirinci ke dalam beberapa
aspek atau ranah tertentu. Benjamin S. Bloom misalnya merincinya dalam tiga aspek
kejiwaan yaitu aspek kognitif, aspek afektif dan aspek psikomotorik.
Validitas Bandingan
Validitas bandingan artinya kejituan daripada suatu tes dapat dilihat dari
korelasinya terhadap kecakapan yang telah dimiliki saat kini secara riil. Cara yang
digunakan untuk menilai validitas bandingan adalah dengan cara mengkorelasikan hasil-
hasil yang dicapai dalam tes tersebut dengan hasil-hasil yang dicapai dalam tes yang
sejenis yang diketahui mempunyai validitas tinggi (misalnya tes standar). Tinggi
rendahnya koefisien korelasi yang diperoleh menunjukkan tinggi rendahnya validitas tes
yang akan kita nilai kualitasnya (Sudijono, 2013: 177).
Validitas Prediktif
Validitas prediktif adalah ketepatan (kejituan) dari suatu alat ukur ditinjau dari
kemampuan tes untuk meramalkan prestasi yang dicapainya kemudian. Cara yang
dipergunakan untuk menilai tinggi rendahnya validitas prediktif ini ialah dengan jalan
mencari korelasi antara nilai-nilai yang dicapai oleh anak-anak dalam tes tersebut dengan
nilai-nilai yang dicapainya kemudian (Nurkancana, 2000: 128).
Menurut Widoyoko (2014: 176), suatu butir instrumen dikatakan valid apabila memiliki
sumbangan yang besar terhadap skor total. Dengan kata lain, butir instrumen dikatakan
mempunyai validitas yang tinggi jika skor pada butir mempunyai kesejajaran dengan skor
total. Kesejajaran ini dapat diartikan dengan korelasi, sehingga untuk mengetahui
validitas butir digunakan rumus korelasi product moment.
Dimana:
Y = skor total
N = jumlah responden
Penafsiran harga koefisien korelasi dapat dilakukan dengan dua cara, yaitu:
Dengan berkonsultasi pada r tabel. Jika r hitung lebih kecil r tabel, maka butir soal
dinyatakan tidak valid. Sebaliknya jika r hitung lebih besar atau sama dengan r tabel,
maka butir soal dinyatakan valid (Arikunto, 2012: 89).
Pengertian Reliabilitas
Keandalan (reliability)berasal dari kata relyyang artinya percaya dan reliabel yang artinya
dapat dipercaya. Keterpercayaan berhubungan dengan ketepatan dan konsistensi
(Purwanto, 2011: 153-154). Reliabilitas berarti konsistensi di mana suatu instrumen
menghasilkan hasil skor yang sama (Ghoni & Almanshur, 2009: 234). Reliabilitas alat
ukur (instrumen) adalah ketetapan atau keajekan instrumen tersebut dalam mengukur apa
yang diukurnya (Lubis, 2009: 25).
Reliabilitas mempunyai berbagai nama lain seperti keterpercayaan, keterandalan,
keajegan, kestabilan, konsistensi dan sebagainya, namun ide pokok yang terkandung
dalam konsep reliabilitas adalah sejauh mana suatu pengukuran dapat dipercaya (Azwar,
2011: 4).
Reliabilitas suatu tes pada umumnya dituliskan secara numerik dalam bentuk koefisien.
Apabila koefisiennya tinggi maka menunjukan reliabilitas yang tinggi. Sebaliknya jika
koefisiennya rendah maka reliabilitas tesnya rendah juga. Tidak reliabelnya suatu tes
hasil belajar pada prinsipnya dapat dikatakan bahwa tes hasil belajar tersebut sia-sia, hal
ini dikarenakan jika dilakukan pengetesan kembali maka hasilnya akan berbeda.
Menentukan korelasi antara tes pertama dan kedua menggunakan rumus korelasi product
moment sebagai berikut:
Dimana:
rxy = koefisien korelasi antara variabel X dan Y, atau koefisien reliabilitas
X = skor total soal seri A
Y = skor total soal seri B
N = jumlah responden
Penafsiran harga koefisien korelasi dapat dilakukan dengan menggunakan cara sebagai
berikut, yaitu:
Dengan melihat r hitung dan diinterpretasikan dengan kriteria sebagai berikut:
Nilai r hitung
Kriteria
0,800 – 1,00
Sangat reliabel
0,600 – 0,79
Tinggi
0,400 – 0,59
Cukup
0,200 – 0,39
Rendah
0,000 – 0,19
Sangat rendah
Dengan berkonsultasi pada r tabel. Jika r hitung lebih kecil r tabel, maka butir soal
dinyatakan tidak valid. Sebaliknya jika r hitung lebih besar atau sama dengan r tabel,
maka butir soal dinyatakan valid (Arikunto, 2012: 89).
Jika menggunakan penghitungan dengan menggunakan SPSS, penafsiran dapat
didasarkan pada nilai probabilitas (sig), dengan ketentuan: jika nilai probabilitas (sig)
lebih kecil atau sama dengan 0,05 maka instrumen dinyatakan reliabel. Sebaliknya, jika
nilai probabilitas (sig) lebih besar dari 0,05 maka instrumen dinyatakan tidak reliabel.
Instrumen penelitian yang reliabilitasnya diuji dengan metode tes ulang dilakukan dengan
cara mencobakan instrumen dua kali atau lebih kepada responden. Dalam hal ini,
instrumennya sama, respondennya sama tetapi waktunya yang berbeda (Sugiyono, 2008:
354). Sebuah tes hasil belajar dikatakan reliabel apabila dua kali atau lebih pengujian
menunjukan hasil yang stabil. Stabilitas ditunjukan oleh korelasi antara skor yang
diperoleh dari kedua pengujian (Purwanto, 2013: 156). Pelaksanaan metode ini adalah
sebagai berikut:
Misalnya pada bulan November disajikan suatu bentuk tes misalnya tes PAI kepada
peserta didik kelas X SMA.
Setelah beberapa waktu setelah tes pertama, misalnya saja pada bulan Desember tes PAI
tersebut diteskan kembali kepada peserta didik kelas X SMA.
Skor perolehan dari kedua tes tersebut kemudian dikorelasikan untuk mengestimasi
reliabilitas tes (Surapranata, 2006: 93).
Jarak atau selang waktu antara tes pertama dengan tes kedua sebaiknya tidak terlalu dekat
dan juga tidak terlalu jauh. Jika terlalu dekat, hasilnya banyak dipengaruhi oleh ingatan
peserta didik tentang jawaban yang diberikan pada saat pengukuran pertama. Sebaliknya,
jika selang waktu terlalu lama bisa terjadi adanya suatu perubahan pengetahuan dan
pengalaman peserta tes sehingga hal ini dapat mempengaruhi reliabilitasnya.
Menentukan korelasi antara tes pertama dan kedua menggunakan rumus korelasi product
moment sebagai berikut:
Dimana:
rxy = koefisien korelasi antara variabel X dan Y, atau koefisien reliabilitas
X = skor total soal instrumen soal tes pertama
Y = skor total soal instrumen soal tes kedua
N = jumlah responden
Penafsiran harga koefisien korelasi dalam metode tes ulang ini sama dengan cara
penafsiran pada metode equivalent.
Tes merupakan alat ukur yang tepat digunakan untuk mengukur hasil belajar dalam ranah
kognitif. Untuk menentukan salah satu jenis tes yang akan digunakan untuk mengukur
hasil belajar siswa, harus berpedoman pada tujuan pembelajaran yang akan diukur. Untuk
dapat memilih jenis tes yang tepat, kita harus memahami keunggulan dan kelemahan dari
tiap jenis tes, sehingga kita bisa memaksimalkan keunggulan tes yang kita gunakan dan
menekan kelemahannya seminimal mungkin.
1. Tes Objektif
Keunggulan:
Tepat digunakan untuk mengukur proses berfikir rendah sampai dengan
sedang (ingatan, pemahaman, penerapan).
Semua/sebagian besar materi yang telah diajarkan dapat ditanyakan saat
ujian sehingga semua/sebagian besar tujuan pembelajaran yang ditetapkan
dalam RPP dapat diukur ketercapaiannya.
Pemberian skor pada setiap siswa dapat dilakukan dengan cepat, tepat, dan
konsisten karena jawaban yang benar untuk setiap butir soal sudah jelas
dan pasti.
Memungkinkan untuk dilakukan analisis butir soal.
Tingkat kesukaran butir soal dapat dikendalikan.
Informasi yang diperoleh lebih kaya.
Kelemahan:
Butir soal yang ditulis cenderung mengukur proses berpikir rendah.
Membuat pertanyaan tes objektif yang lebih baik lebih sukar sehingga
membutuhkan waktu lebih lama.
Kemampuan anak dapat terganggu oleh kemampuannya dalam membaca
dan menerka.
Anak tidak dapat mengorganisasikan, menghubungkan, dan menyatakan
idenya sendiri karena semua alternatif jawaban untuk setiap pertanyaan
sudah diberikan oleh penulis soal.
2. Tes Uraian
Keunggulan:
Tepat digunakan untuk mengukur proses berpikir tinggi.
Tepat digunakan untuk mengukur hasil belajar yang kompleks yang tidak
dapat diukur dengan tes objektif.
Waktu yang digunakan untuk menulis satu set tes uraian lebih cepat
daripada waktu yang digunakan untuk menulis satu set tes objektif.
Menulis tes uraian yang baik relatif lebih mudah dari pada menulis tes
objektif.
Kelemahan:
Terbatasnya sampel materi yang ditanyakan.
Sukar memeriksa jawaban siswa.
Pemberian skor yang kurang objektif dan kurang konsisten dapat disebabkan
karena beberapa hal, di antaranya:
Adanya hallo effect.
Adanya efek bawaan (carry over effect).
Efek urutan pemeriksaan ( order effect).
Pengaruh penggunaan bahasa.
Pengaruh tulisan tangan.
Upaya untuk meminimalkan kelemahan :
Upaya untuk meningkatkan jumlah sampel materi yang ditanyakan saat
ujian adalah membuat tes uraian yang dapat dijawab dengan cepat oleh
siswa (tes uraian terbatas)
Upaya untuk mengurangi unsur subjektivitas pemeriksa adalah dengan
memeriksa hasil ujian tanpa nama.
Upaya untuk mengatasi kesulitan dalam memeriksa hasil tes siswa adalah:
- Gunakan tes uraian terbatas.
- Gunakan 2 pemeriksa untuk memeriksa setiap hasil tes siswa.
- Sepakat tentang cara pemberian skor dengan pemeriksa kedua.
- Lakukan uji coba pemeriksaan.
Upaya untuk mengurangi hallo effect adalah dengan
menghilangkan/menutup nama peserta tes.
Upaya untuk menghindari carry over effect adalah dengan cara memeriksa
jawaban soal nomor 1 untuk keseluruhan siswa baru kemudian baru
memeriksa soal nomor 2 jugauntuk keseluruh siswa begitu seterusnya
sampai butir soal terakhir.
Upaya menghindari order effect adalah dengan berhenti memeriksa jika
sudah merasa lelah dalam memeriksa.