Makalah Analisis Soal
Makalah Analisis Soal
PENDAHULUAN
Hasil dari proses penilaian perlu dilakukan analisis, untuk melihat validitas dan
efektivitas instrument, serta untuk mengetahui kelemahan dan kekuatan proses
pembelajaran. Ada tiga sasaran pokok ketika guru melakukan analisis terhadap hasil
belajar, yaitu terhadap guru, siswa dan prosedur pembelajaran. Fungsi analisis untuk
guru terutama untuk mendiagnosis keberhasilan pembelajaran dan sebagai bahan
untuk merevisi dan mengembangkan pembelajaran dan tes. Bagi siswa, analisis
diharapkan berfungsi mengetahui keberhasilan belajar, mendiagnosa mengoreksi
kesalahan belajar, serta Memotivasi siswa belajar lebih baik.
Pada makalah ini akan dibahas mengenai analisis soal berupa validitas, daya beda,
indeks kesukaran, fungsi distraktor, dan reliabilitas yang berguna sebagai pedoman
bagi pendidikan dalam melakukan analisis soal terutam untuk soal objektif.
BAB II
KAJIAN TEORI
1. VALIDASI
Validitas merupakan produk dari validasi. Validasi adalah suatu proses yang dilakukan
oleh penyusun atau pengguna instrumen untuk mengumpulkan data secara empiris
guna mendukung kesimpulan yang dihasilkan oleh skor instrumen. Sedangkan validitas
adalah kemampuan suatu alat ukur untuk mengukur sasaran ukurnya.
Suatu alat ukur disebut memiliki validitas apabila alat ukur tersebut isinya layak
mengukur objek yang seharusnya diukur dan sesuai dengan kreteria tertentu, artinya
adanya kesesuaian antara alat ukur dengan fungsi pengukuran dan sasaran
pengukuran. Ini sesuai dengan Encyclopedia of Educational Evaluation yang ditulis oleh
Scarvia B Anderson dan disadur oleh Prof. Dr. Suharsimi Arikunto (2007, 65) bahwa A
test is valid if it measures what it purpose to measure bila diartikan sebuah tes
dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur. Bilamana alat
ukur tidak memiliki validitas yang dapat dipertanggung jawabkan, maka data yang
masuk juga sis dan kesimpulan yang ditarik juga menjadi salah.
I. Validitas Tes Hasil Belajar
Menurut Suharsimi Arikunto 2007, validitas sebuah tes dapat diketahui dari hasil
pemikiran dan dari hasil pengalaman. Hal yang pertama akan diperoleh validitas logis
dan hal yang kedua akan diperoleh validitas empiris. Dua hal inilah yang menjadi dasar
pengelompokan validitas tes.
1. Validasi logis
Mengandung arti penalaran, sehingga validitas logis untuk suatu instrumen evaluasi
menunjuk pada kondisi bagi sebuah instrumen yang memenuhi persyaratan valid
berdasarkan hasil penalaran. Kondisi valid itu dipandang terpenuhi karena instrument
itu telah dirancang sebaik mungkin menurut ketentuan yang ada.
Dengan keadaan itu validitas logis dapat dicapai apabila instrument disusun mengikuti
ketentuan yang ada. Validitas logis yang dapat dicapai oleh sebuah instrumen terdiri
dari dua yaitu :
a. Validitas Isi
Validitas isi bagi sebuah instrumen menunjuk suatu kondisi sebuah instrument yang
disusun berdasarkan isi materi pelajaran yang dievaluasi. Sebuah tes dikatakan
memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan
materi atau isi pelajaran yang di berikan. Oleh karena materi yang diajarkan tertera
dalam kurikulum maka validitas ini sering disebut juga dengan validitas kurikuler.
Validitas isi dapat diusahakan tercapainya sejak saat penyusunan dengan cara merinci
materi kurikulum atau materi buku pelajaran.
b. Validitas Konstruk
Validitas konstruk sebuah instrumen menunjukkan suatu kondisi sebuah instrumen yang
disusun berdasarkan konstruk-konstruk aspek kejiwaan yang seharusnya dievaluasi.
Sebuah tes dikatakan memiliki validitas konstruk apabila butir-butir soal yang
membangun tes tersebut mengukur setiap aspek berfikir seperti yang disebutkan dalam
tujuan instruksional khusus. Dengan kata lain jika butir-butir soal mengukur aspek
berfikir tersebut sudah sesuai dengan aspek berfikir yang menjadi tujuan instruksional.
2. Validitas Empiris
a) Validitas Konkuren
Disebut juga dengan validitas “yang ada sekarang ‘tetapi lebih dikenal dengan validitas
empiris. Sebuah instrument dikatakan memiliki validitas empiris jika hasilnya sesuai
dengan pengalaman. Jika ada istilah :sesuai” tentu ada dua hal yang dipasangkan,
dimana dalam hal ini hasil tes dipasangkan dengan hasil pengalaman. Pengalaman
selalu mengenai hal yang telah lampau sehingga data pengalaman tersebut sekarang
sudah ada.
Dalam membandingkan hasil sebuah tes maka diperlukan suatu alat pembanding. Maka
hasil tes merupakan sesuatu yang dibandingkan. Contoh : seorang guru ingin
mengetahui apakah tes sumatif yang disusun sudah valid atau belum. Untuk ini perlu
sebuah kreteria masa lalu yang datanya sekarang dimiliki. Misalnya nilai ulangan harian
atau nilai semester yang lalu.
b) Validitas prediksi
Prediksi artinya meramal. Dengan meramal selalu mengenai hal yang akan datang jadi
sekarang belum terjadi. Sebuah tes dikatakan memiliki validitas prediksi apabila
mempunyai kemampuan untuk meramalkan apa yang terjadi pada masa yang akan
datang. Misalnya tes masuk perguruan tinggi adalah sebuah tes yang diperkirakan
dapat meramalkan keberhasilan peserta tes dalam mengikuti kuliah di masa yang akan
datang. Calon yang tersaring berdasarkan hasil tes diharapkan mencerminkan tinggi
rendahnya kemampuan mengikuti kuliah. Jika nilai tesnya tinggi tentu menjamin
keberhasilan kelak. Sebaliknya seorang calon dikatakan tidak lulus tes karena memiliki
nilai tes yang rendah jadi diperkirakan akan tidak mampu mengikuti perkuliahan yang
akan datang. a. Sebagai alat pembanding validitas prediksi adalah nilai-nilai yang
diperoleh setelah peserta tes mengikuti pelajaran diperguruan tinggi. Jika ternyata siapa
yang memiliki nilai tes lebih tinggi gagal dalam ujian semester I dibandingkan dengan
yang dahulu nilai tesnya lebih rendah maka tes masuk yang dimaksud tidak memiliki
validitas.
Suatu butir item dikatakan valid jika skor item yang bersangkutan berkorelasi positif
yang signifikan dengan skor total. Untuk menentukan valid tidaknya suatu butir item
dapat digunakan teknik korelasi product moment dan korelasi point biserial.
Penyebab Invaliditas
1) Ketakterwakilan konstruk
Menunjukkan bahwa tugas yang diukur dalam penilaian tidak mencakup dimensi
penting dari konstruk. Oleh karena itu, hasil tes tersebut tidak mungkin untuk
mengungkapkan kemampuan siswa sebenarnya dalam konstruk yang hendak diukur
oleh instrumen;
Jenis penyimpangan validitas seperti ini mencakup dua bentuk, yaitu penyimpangan
kemudahan konstruk (Construct irrelevant easiness) dan penyimpangan kesukaran
konstruk (Construct irrelevant difficulty).
Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal yang
terlalu mudah tidak merangsang siswa untuk mempertinggi usaha pemecahannya.
Sebaliknya soal yang terlalu sukar akan menyebabkan siswa menjadi putus asa dan
tidak mempunyai semangat untuk mencoba lagi karena diluar jangkauannya.
Seorang akan menjadi hafal akan kebiasaan gurunya dalam pembuatan soal. Dengan
kebiasaaan ini maka siswa akan belajar giat untuk menghadapi ulangan dengan guru
yang terbiasa memberikan soal sukar, sedangkan siswa akan malas belajar bila akan
ujian dengan guru yang terbiasa dengan soal ulangan yang mudah-mudah.
Bilangan yang menunjukkan sukar dan mudahnya sesuatu soal disebut dengan indeks
kesukaran. Besarnya indeks kesukaran antara 0,00 sampai dengan 1,0. Indeks
kesukaran ini menunjukkan taraf kesukaran soal. Soal dengan indeks kesukaran 0,00
menunjukkan kalau soal itu terlalu sukar, sebaliknya indeks 1,0 menunjukkan bahwa
soalnya terlalu mudah. Indeks kesukaran butir yang baik berkisar antara 0,3-0,7 paling
baik pada 0,5.
Dalam istilah evaluasi, indeks kesukaran ini diberi simbol P singkatan ari proporsi.
Dengan demikian maka soal dengan P = 0,70 lebih mudah jika dibandingkan dengan P
= 0,20. sebaliknya soal dengan P = 0,30 lebih sukar daripada soal dengan P = 0,80.
Dimana :
P = indeks kesukaran
Misalkan :
Jumlah siswa peserta tes dalam suatu kelas ada 40 orang.dari 40 orang siswa tersebut
12 orang dapat mengerjakan soal no 1 dengan betul. Maka indeks kesukarannya
adalah:
Walaupun demikian, ada yang berpendapat bahwa soal-soal yang dianggap baik yaitu
soal-soal dengan tingkat kesukaran sedang yaitu 0,30-0,70. tapi perlu diketahui bahwa
soal-soal yang terlalu mudah atau terlalu sukar, lalu tidak berarti tidak boleh digunakan.
Hal ini tergantung penggunaannya. Jika dari pengikut banyak, kita menghendaki yang
lulus hanya sedikit, kita ingin siswa yang top, maka lebih baik mengambil butir-butir tes
yang sukar.
Sebaliknya jika kekurangan pengikut ujian, kita pilihkan soal-sola ujian yang mudah.
Tambahan lagi, soal yang mudah akan membangkitkan semangat siswa yang lemah dan
soal yang sukar akan menambah gairah belajar bagi siswa yang pandai.
Bagi suatu soal yang dapat dijawab benar oleh siswa kemampuan tinggi dan siswa
kemampuan rendah, maka soal itu tidak baik karena tidak punya daya pembeda.
Demikian juga jika semua kelompok bawah menjawab salah dan siswa berkemampuan
tinggi juga sama-sama menjawab salah, maka soal itu tidak mempunyai daya beda
sama sekali. Cara menentukan daya pembeda ( nilai D )
Cara menentukan daya pembeda ( nilai D )yaitu perlu dibedakan antara kelompok kecil
( kurang dari 100 ) dan kelompok besar ( 100 orang ke atas ).
Mengingat biaya dan waktu menganalisis, maka untuk kelompok besar biasanya hanya
diambil dua kutub saja yaitu 27% skor teratas sebagai kelompok atas (JA) dan 27 % skor
terbawahsebagai kelompok bawah ( JB)
Seluruh kelompok tes di bagi dua sama besar, 50% kelompok atas dan 50% kelompok
bawah
Contoh :
Seluruh pengikut tes dideretkan mulai dari skor teratas sampai kepada skor terendah,
lalu di bagi dua.
Dimana :
D = Daya pembeda
BA = banyaknya peserta kelompok atas yang menjawab soal itu dengan benar
PA = proporsi peserta kelompok atas yang menjawab benar ( ingat P sebagai indeks
kesukaran )
Dari hasil analisis tes yang terdiri dari 10 butir soal yang dikerjakan oleh 20 orang siswa,
didapat skor sebagai berikut:
A=5 F=6 K=7 P=3
Dari angka yang belum teratur tersebut kemudian dibuat urutan penyebaran, dari skor
yang paling tinggi ke skor yang paling rendah.
Uraian ini menunjukkan adanya kelompok atas ( JA) dan kelompok bawah ( JB).
Pada uraian di atas dapat ditunjukkan kelompok A dan B. Dan hal ini mempermudah
menentukan BA dan BB.
Dimana
Seperti yang diketahui, soal yang baik adalah soal yang dapat membedakan antara
anak berkemampuan tinggi dengan anak berkemampuan rendah, dilihat dari dapat atau
tidaknya ia mengerjakan soal tes.
Bila diperhatikan tabel diatas, dilihat khusus untuk butir soal no satu, dari kelompok
atas yang menjawab benar adalah 8 orang, dari kelompok bawah yang menjawab betul
adalah 3 orang. Dan diterapkan rumus daya pembeda maka :
JA = 10
JB = 10
PA = 0,8
PB = 0,9
BA =8
BB =9
Maka D = PA – P B
= 0,8 – 0,9
D = 0,1
Dengan demikian maka daya pembeda untuk soal no 1 adalah 0,1 dan ini berarti butir
soal no satu ini jelek.
D = negatif, semuanya tidak baik, jadi semua butir soal yang mempunyai nilai D negatif
sebaiknya dibuang saja.
D. FUNGSI DISTRAKTOR
Disebut juga dengan pola jawaban atau fungsi pengecoh, yaitu distribusi siswa dalam
hal menentukan pilihan pada soal bentuk pilihan ganda. Fungsi distraktor ini diperoleh
dengan menghitung banyaknya siswa yang memilih pilihan jawaban a, b, c, d dan e
yang tidak memiliki pilihan manapun. Dalam istilah evaluasi disebut omit disingkat O.
Dari pola jawaban soal dapat ditentukan apakah pengecoh berfungsi sebagai pengecoh
dengan baik atau tidak. Pengecoh yang tidak dipilih sama sekali oleh siswa berarti
pengecoh itu jelek, dan terlalu menyolok menyesatkan. Sebaliknya sebuah distraktor
dapat dikatakan berfungsi dengan baik apabila distraktor tersebut mempunyai daya
tarik yang besar bagi pengikut-pengikut tes yang kurang memahami konsep atau
kurang menguasai bahan. Dengan melihat pola jawaban soal, dapat diketahui :
Menulis soal adalah suatu kesukaran yang sulit, sehingga apabila masih dapat distraktor
dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5 % pengikut tes.
Contoh perhitungan :
1. P = 21/60 = 0,35
3. distraktor : semua distraktornya sudah berfungsi dengan baik karena sudah dipilih
oleh lebih dari 5% pengikut tes.
4. dilihat dari segi omit 9 kolom pilihan paling kanan) adalah baik. Sebuah item
dikatakan baik jika omitnya tidak lebih dari 10% pengikut tes.
E. RELIABILITAS
Reliabilitas instrumen adalah keadaan instrumen yang menunjukkan hasil pengukuran
yang reliable (tidak berubah-ubah, konsisten). Instrumen yang reliable adalah instrumen
yang apabila digunakan untuk mengukur subyek atau objek yang sama pada waktu
yang berbeda dan pengukuran dilakukan oleh orang yang berbeda hasilnya tetap sama.
1. Kemampuan peserta tes atau subjek uji coba. Makin heterogen atau makin
berbeda kemampuan peserta tes makin tinggi reliabilitas tes.
2. Semakin besar jumlah peserta tes semakin besar reliabilitas, karena semakin
banyak peserta tes maka semakin beragam kemampuannya.
3. Panjang pendeknya tes. Jumlah item tes yang banyak dengan mengkaji
beberapa tujuan akan lebih reliable dibandingkan dengan jumlah item yang
sedikit, karena akan lebih representatif. Namun jumlah item tes yang terlalu
banyak akan melelahkan dan mengganggu konsentrasi sehingga hasil yang
diperoleh tidak tepat lagi.
4. Evaluasi yang subjektif juga akan menurunkan reliabilitas.
5. Hal yang berhubungan dengan penyelenggaraan tes.
Adanya hal-hal yang mempengaruhi hasil tes ini semua, secara tidak langsung akan
mempengaruhi reliabilitas soal tes.
Pada tes belajar bentuk objektif, ada tiga macam metode yang dapat digunakan untuk
menentukan taraf reliabilitas.
1. Metode atau teknik ulangan (test-retest method) atau single test-double trial
method.
Instrumen penelitian test-retest dilakukan dengan cara mencobakan instrumen dua kali
pada responden. Jadi dalam hal ini instrumennya sama, respondennya sama, dan
waktunya yang berbeda. Reliabilitas diukur dari koefisien korelasi antara percobaan
pertama dengan yang berikutnya. Bila koefisien korelasi positif dan signifikan maka
instrumen tersebut reliable. Pengujian cara ini sering juga disebutstability, yaitu
seberapa stabil skor yang diperoleh individu apabila dilakuakn pengujian dalam waktu
yang berbeda. Rumus yang dapat digunakan untuk menentukan reliabiltas test dengan
metode test-retest antara lain adalah Product Momen Correlation. Yaitu sebagai berikut:
Dimana:
X = skor test pertama
Cara lain yang dapat digunakan dengan teknik tes retes ini adalah tekinik korelasi rank-
order dari Spearmen menggunakn rumus:
Dimana:
ρ = koefisien korelasi
D = difference (beda antara rank skor hasil tes I dengan rank skor hasil tes II)
= RI – RII
N = banyaknya peserta tes.
1. Metode Belah Dua (split-half method) atau Single Test Single Trial Method
Dalam menggunakan metode ini pendidik atau evaluator hanya menggunnakan sebuah
tes dan dicobakan satu kali. Oleh sebab itu disebut juga singel-test-singel-trial
method. Pada metode ini tes yang diberikan dibagi/dibelah menjadi dua bagian. Jumlah
item yang diberikan harus genap sehingga dapat dibagi dua dan tiap kelompok memiliki
jumlah item/butir soal yang sama jumlahnya.
Dimana:
Kelemahan dari metode ini adalah kesukaran dalam penyusunan item yang parallel
dengan item pada tes pertama, selain itu juga membutuhkan biaya yang lebih mahal
dan memakan waktu yang lebih lama.
Rumus yang dapat digunakan untuk menentukan reliabilitas dengan metode parallel ini
adalah Product Moment Correlation dan Rank Order Correlation.
Pengujian reliabilitas tes bentuk uraian tidak dapat dilakukan seperti contoh di atas.
Butir soal uraian menghendaki gradualisasi penilaian. Barangkali butir soal nomor 1
penilaian terendah adalah 0 dan penilaian tertinggi adlah 10, tetapi soal nomor 2
mungkin diberi nilai tertinggi hanya 5 dan butir soal nomor 3 penilaian tertinggi
misalnya 5 dan sebagainya.
Untuk keperluan mencari reliabilitas tes perlu juga dilakukan analisa item seperti halnya
tes bentuk Obkektif. Skor untuk masing-masing item dicantumkan pada kolom item
menurut apa adanya. Rumus yang digunakan adlah rumus alpha sebagai berikut.
Keterangan: