Anda di halaman 1dari 11

BAB VI

ANALISIS BUTIR SOAL

Tes merupakan alat ukur yang terstandar dan obyektif berupa suatu pertanyaan,
pernyataan, atau seperangkat tugas yang direncanakan untuk memperoleh informasi tentang
siswa. Tes dapat digunakan sebagai salah satu alat ukur yang dipakai untuk menentukan
penilaian. Suatu tes dapat dikatakan sebagai alat ukur yang baik apabila tes tersebut benar-benar
dapat mengukur proses dan hasil belajar siswa dengan sebaik-baiknya.
Analisis tes seyogyanya dilakukan segera setelah diperoleh skor tes. Tujuan analisis hasil
tes adalah untuk mengetahui validitas soal, reliabilitas soal, tingkat kesukaran, dan daya
pembeda soal. Hasil analisis hasil tes menunjukkan kualitas soal sehingga dapat digunakan untuk
meningkatkan kualitas soal untuk periode berikutnya.
Tes yang seharusnya disusun adalah tes yang mengatur tingkat pencapaian siswa terhadap
perilaku yang terdapat dalam tujuan pembelajaran. Hasil suatu pengukuran yang berupa skor tes
dapat digunakan sebagai umpan balik baik bagi individu yang menempuh tes yaitu siswa
maupun bagi guru atau instruktur pendidikan.
Skor tes dapat digunakan sebagai umpan balik bila telah di interpretasi. Ada dua cara
menginterpretasi skor tes yaitu, 1) dengan membandingkan skor seorang siswa dengan
kelompoknya (norm reference test), 2) dengan melihat kedudukan skor yang diperoleh siswa
dengan kriteria yang telah ditentukan (criterion reference test).
Tes yang baik perlu memenuhi beberapa persyaratan yaitu validitas, reliabilitas, obyektifitas,
ekonomis, kewajaran, motivasi, selektifitas, dan menyeluruh.

A. Validitas
Suatu tes dikatakan valid (sahih) bila tes tersebut mampu mengukur apa yang seharusnya
diukur. Ada beberapa macam validitas diantaranya validitas isi dan validitas kunstruk. Tes
memenuhi validitas kunstruk bila tes dalam pokok-pokok uji (butir soal) sesuai atau mencakup
semua tujuan pembelajaran yang telah dirumuskan. Tes memenuhi validitas isi bila materi tes
dalam pokok-pokok uji (butir soal) sesuai atau mencakup semua bahan atau materi yang telah
ditetapkan dalam kurikulum. Biasanya validitas isi dan validitas kunstruk dilakukan secara
bersama-sama.
Validitas tes secara keseluruhan maupun setiap butir soal dapat diketahui dengan
menggunakan rumus korelasi product moment. Apabila pokok-pokok uji dalam suatu tes secara
logis dapat mengukur apa yang akan diukur berdasarkan pendapat sendiri, orang lain, atau atas
pertimbangan para ahli, maka dikatakan tes tersebut mempunyai validitas isi dan , validitas
konstruk, atau validitas logis.Sebagai calon pendidik mahasiswa harus mampu untuk membuat
instrumen tes yang memenuhi validitas isi dan kunstruk.Menurut Resky intan,2014
pengembangan instrumen penilaian kognitif materi gerak dan hama penyakit tumbuhan kelas
VIII telah memenuhi validitas isi dan kunstruk.
Selain validitas isi dan validitas konstruk, ada juga validitas ramalan. Koefisien validitas
ramalan adalah koefisien korelasi antara biji peramal misal biji waktu siswa di SMA dengan
indeks prestasi di perguruan tinggi untuk sejumlah siswa.Validitas ramalan bisa digunakan untuk
mengetahui apakah mahasiswa mampu menyelesaikan kuliah dalam waktu tertentu setelah
mereka diterima di suatu perguruan tinggi.Oleh karena itu tes yang digunakan untuk menyeleksi
mahasiswa baru harus memenuhi validitas ramalan.

B. Reliabilitas
Reliabilitas adalah konsistensi atau kemantapan pengukuran. Suatu tes dikatakan reliabel
bila dapat mengukur kapabilitas atau kemampuan seseorang secara konsisten atau mantap
sehingga menghasilkan pengukuran yang terandal (reliabel). Suatu tes yang terandal akan
memberi hasil yang sama jika diberikan beberapa kali secara berurutan. Reliabilitas dipengaruhi
oleh kejelasan pertanyaan pokok uji dan jumlah butir soal. Makin banyak jumlah butir soal
dalam tes, biasanya tes itu makin terandal.Untuk menentukan reliabitas bisa menggunakan dua
macam tes yang ekuivalen, yang paralel, atau yang isinya sama. Pada dasarnya dua tes yang
paralel dianggap lebih baik digunakan untuk menghitung reliabilitas, karena tidak ada
kemungkinan bahwa peserta tes masih ingat akan pertanyaan-pertanyaan pada tes sebelumnya.
Kemantapan hasil pengukuran dua tes yang paralel menghasilkan koefisien reliabilitas yang
disebut “koefisien ekuivalensi dan stabilitas”. Perlu diingat bahwa pembuatan dua macam
perangkat tes atau lebih yang paralel harus dilakukan dengan sangat hati-hati dan harus dijamin
bahwa kedua macam perangkat tes tersebut harus benar-benar ekuivalen, baik berdasarkan
kesesuaian dengan isi bahan ajar dan tujuan pembelajaran.Ada kalanya pengadaan dua macam
tes yang ekuivalen tersebut sulit dilaksanakan karena keterbatasan tenaga ahli atau kekurangan
dana. Untuk mengatasi masalah tersebut kita dapat menggunakan sebuah tes saja kemudian
membagi seperangkat tes tersebut menjadi dua misalnya dengan mengelompokkan nomor ganjil
dan nomor genap dan kita anggap ini sebagai “dua” macam perangkat tes.Membagi sebuah tes
menjadi dua yang ekuivalen sering sukar dilakukan karena ada kalanya tingkat kesukaran atau
kemampuan deskriminasi pokok-pokok uji itu dapat berbeda antara kelompok ganjil dan
kelompok genap. Karena itu ada yang menghitung reliabilitas dengan jalan memperkirakan
adanya konsistensi internal pada suatu tes. Kita tidak perlu membagi menjadi dua tes, dapat
menghitung reliabilitas yaitu dengan menggunakan rumus Kunder Richardson (KR20).
Selain analisis terhadap tes secara keseluruhan, analisis juga harus dilakukan terhadap
butir soal. Analisis butir soal bertujuan untuk menemukan soal yang baik, kurang baik, dan soal
yang jelek, sehingga dilakukan tindak lanjut terhadap soal-soal tersebut agar lebih baik. Analisis
dapat dikerjakan dengan baik apabila butir soal terdiri dari seperangkat tes yang mempunyai
bentuk yang sama misalnya pilihan ganda. Disamping itu jumlah pokok uji soal cukup banyak
misalnya 50 nomor atau lebih. Kemudian jumlah peserta tes harus cukup banyak tidak kurang
dari 30.
Untuk keperluan analisis butir soal, kita perlu mengelompokkan lembar-lembar jawaban
menjadi 3 kelompok yaitu kelompok atas (A), tengah (T), dan bawah (B). Perbandingan antara A
: T : B bisa bervariasi yaitu:
1. 25% : 50% : 25%
2. 27% : 46% : 27%
3. 30% : 40% : 30%
4. 33,3% : 33,3% : 33,3%
5. A : B = 50% : 50%
Langkah yang harus dilakukan adalah
1. Urutkanlah semua lembar jawaban (misalnya N) dengan ketentuan lembar jawaban yang
jumlah jawaban benar paling banyak di atas berturut-turut lembar jawaban yang jumlah
jawaban sedikit terletak di paling bawah.
2. Kalikan N dengan proporsi A atau B misalnya 25% dan 27% atau sesuai dengan yang dipilih,
bulatkan hasilnya menjadi bilangan bulat yang terdekat, selanjutnya disebut bilangan ini n.
3. Mulai dari lembar teratas, ambillah lembar-lembar jawaban sebanyak n, pisahkan dan
selanjutnya disebut kelompok (A).
4. Ambillah nlembar jawaban paling bawah selanjutnya disebut kelompok bawah (B).
5. Lembar jawaban bagian tengah yang tersisa (T) tidak digunakan untuk analisis pokok uji.
6. Selanjutnya buatlah tabel sebagai berikut
No item WB WA WB + WA WB – WA
1
2
3
4
5
6
Dst
Keterangan:
WA = jumlah peserta tes kelompok atas yang tidak menjawab atau menjawab salah pada
butir soal tersebut
WB = jumlah peserta tes kelompok bawah yang tidak menjawab atau menjawab salah pada
butir soal tersebut

C. Tingkat kesukaran
Tingkat kesukaran bersangkutan dengan pertanyaan apakah suatu butir soal bagi
sekelompok peserta tes terlalu sukar, terlalu mudah, atau sedang. Soal yang baik adalah soal
yang tidak terlalu mudah tetapi juga tidak terlalu sukar. Soal yang terlalu mudah melemahkan
usaha siswa untuk menyelesaikannya. Soal yang terlalu sukar menurunkan semangat bahkan
dapat membuat siswa putus asa. Tingkat kesukaran soal dinyatakan dalam suatu bilangan yang
disebut indeks kesukaran (difficulty index) dan diberi simbol P, singkatan dari kata proporsi.
Angka indeks kesukaran antara 0,00 – 1,00.
Tingkat kesukaran dapat dicari dengan rumus:
W B +W A
TK = x 100 %
n B +n A
Keterangan
TK = Tingkat kesukaran
nB = jumlah peserta kelompok bawah
nA = jumlah peserta kelompok atas

Kualifikasi tingkat kesukaran sebagai berikut:


Skor Keterangan
0,00 – 0,30 Sukar
0,31 – 0,70 Sedang
0,71 – 1,00 Mudah

D. Daya pembeda
Daya pembeda soal adalah kemampuan butir soal untuk membedakan antara siswa yang
pandai (berkemampuan tinggi) dengan siswa yang tidak pandai (berkemampuan rendah). Angka
yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi, diberi notasi D.
Cara menentukan daya beda suatu butir soal:
a. Membagi seluruh peserta tes menjadi dua kelompok besar, yaitu kelompok atas dan
kelompok bawah berdasarkan urutan skor yang diperoleh.
b. Jika peserta terlalu banyak, hanya diambil 27% siswa skor teratas dan 27% siswa skor
terbawah untuk digunakan dalam rumus atau yang dipilih sesuai %.
c. Menghitung nilai daya pembeda dengan rumus:
W B −W A
DB=
n
Keterangan:
DB = Daya beda
n = Jumlah kelompok atas atau kelompok bawah
Kisaran angka D dapat dilihat pada tabel di bawah ini:
Tabel Kisaran Angka D
Skor Keterangan
Bertanda negatif Daya pembeda sangat jelek
0 – 0,20 Daya pembeda lemah
0,21 – 0,40 Daya pembeda sedang
0,41 – 0,70 Daya pembeda baik
0,71 – 1,00 Daya pembeda sangat kuat

Untuk menentukan soal diterima atau tidak, dapat digunakan kriteria pada tabel di bawah ini.
Tabel Kriteria untuk Menentukan Soal Diterima atau Tidak
Skor Keterangan
0,40 – 1,00 Sangat baik
0,30 – 0,39 Diterima dan diperbaiki
0,20 – 0,29 Diperbaiki
0,00 – 0,19 Ditolak

Contoh:
Untuk mendapatkan gambaran yang lebih jelas mengenai langkah-langkah yang ditempuh
dalam mencari derajat kesukaran dan daya beda suatu item, di bawah ini akan dikemukakan
sebuah contoh:
1. Kita misalkan siswa yang mengikuti tes yang kita berikan sebanyak 50 orang. Lembar
jawaban siswa-siswa tersebut kita susun dari skor tertinggi paling atas sampai dengan skor
terendah paling bawah.
2. Kita ambil 27% dari mereka yang mendapatkan skor tertinggi. Dalam hal ini 27% x 50
orang sama dengan 13,5 orang kita bulatkan menjadi 14 orang. Begitu pula kita ambil 27%
dari mereka yang mendapatkan skor terendah. Jumlahnya tentu sama dengan kelompok
atas, yaitu 14 orang juga.
3. Misalkan data yang diperoleh adalah sebagai berikut:
- Untuk item no. 1, dari kelompok bawah salah 9 orang dan dari kelompok atas salah 2
orang.
- Untuk item no. 2, dari kelompok bawah salah 8 orang dan dari kelompok atas salah 5
orang.
- Untuk item no. 3 dari kelompok bawah salah 14 orang dari kelompok atas salah 8 orang.
- Untuk item no. 4, dari kelompok bawah salah 6 orang dan dari kelompok atas tidak ada
yang salah.
- Untuk item no. 5, dari kelompok bawah salah 13 orang dan dari kelompok atas salah 11
orang.
- Untuk item no. 6, dari kelompok bawah salah 2 orang dan dari kelompok atas salah 3
orang.
4. Berdasarkan data tersebut, maka dapat dibuat tabel seperti di bawah ini.
No Item WB WA WB + WA WB – WA
1 9 2 11 7
2 8 5 13 3
3 14 8 22 6
4 6 0 6 6
5 13 11 24 2
6 2 3 5 -1
dst

5. Berdasarkan tabel tersebut di atas, maka derajat kesukaran untuk masing-masing item
dapat dicari sebagai berikut:
11
- Untuk item no. 1 DK = x 100 %=39 %
28
13
- Untuk item no. 2 DK = x 100 %=46 %
28
22
- Untuk item no. 3 DK = x 100 %=82%
28
6
- Untuk item no. 4 D K= x 100 %=21 %
28
24
- Untuk item no. 5 DK = x 100 %=86 %
28
5
- Untuk item no. 6 DK = x 100 %=18 %
28
6. Berdasarkan tabel di atas pula, maka daya beda tiap item dapat dicari sebagai berikut:
7
- Untuk item no. 1 DB= =0,50
14
3
- Untuk item no. 2 DB= =0,21
14
6
- Untuk item no. 3 DB= =0,43
14
6
- Untuk item no. 4 DB= =0,43
14
2
- Untuk item no. 5 DB= =0,14
14
−1
- Untuk item no. 6 DB= =−0,07
14
Derajat kesukaran yang baik adalah derajat kesukaran yang bergerak antara 25% sampai
75%. Item yang mempunyai derajat kesukaran di bawah 25% berarti bahwa item tersebut terlalu
mudah. Sebaliknya item yang mempunyai derajat kesukaran di atas 75% berarti bahwa item
tersebut terlalu sukar.Daya beda ideal adalah daya beda 0,40 ke atas. Namun untuk ulangan-
ulangan harian, masih dapat ditolerir daya beda sebesar 0,20.
Berdasarkan ketentuan tersebut, maka dapat kita seleksi, item-item mana yang memenuhi
syarat dan item mana yang tidak memenuhi syarat. Item-item yang memenuhi syarat dapat kita
simpan dan kita gunakan untuk keperluan evaluasi yang akan datang. Item-item yang tidak
memenuhi syarat harus dibuang atau direvisi. Dalam contoh di atas, item yang tidak memenuhi
syarat tingkat kesukaran adalah item-item nomor 4 dan nomor 6 (terlalu mudah), dan item nomor
5 ( terlalu sukar). Sedangkan item yang tidak memenuhi daya beda adalah item nomor 5 dan
nomor 6 (daya bedanya terlalu kecil, yaitu di bawah 0,2), bahkan item nomor 6 daya bedanya
negatif). Dengan demikian item-item tersebut harus dibuang atau direvisi. Salah satu hal yang
perlu diperhatikan dalam mengadakan revisi item ialah efektifitas daripada masing-masing
option yang digunakan dalam item tersebut. Untuk mengetahui apakah suatu option berfungsi
secara efektif atau tidak, dibicarakan dalam bab berikutnya.
BAB VII
MENCARI EFEKTIFITAS OPTION

Suatu option (terutama option pengecoh) dapat dikatakan efektif apabila option tersebut
dipilih oleh sejumlah peserta. Option yang sangat sedikit mendapat pilihan (lebih-lebih yang
tidak mendapat pilihan sama sekali) berarti option tersebut kurang/tidak efektif. Untuk
mengetahui efektif/tidaknya suatu option ditempuh prosedur sebagai berikut.
1. Ambil 27% lembar jawaban yang mendapat skor tertinggi dan 27% lembar jawaban yang
mendapat skor terendah (jadi sama dengan prosedur mencari derajat kesukaran dan daya
beda).
2. Buat tabel sejumlah item yang akan diuji efektifitas option-optionnya, sebagai berikut:
Option a B c D E
Kelompok
Atas
Bawah
3. Isikan distribusi pilihan terhadap option yang disediakan baik untuk kelompok atas maupun
untuk kelompok bawah.
4. Berdasarkan distribusi pilihan kelompok atas dan kelompok bawah, maka dapat dihitung
option mana yang berfungsi secara efektif dan option mana yang tidak berfungsi secara
efektif.
Pedoman yang digunakan untuk menentukan efektivitas suatu option adalah sebagai berikut:
a. Untuk option kunci
- Jumlah pemilih kelompok atas dan kelompok bawah tidak kurang dari 25% tetapi tidak
lebih dari 75%.
- Frekuensi pilihan kelompok atas harus lebih tinggi daripada frekuensi pilihan kelompok
bawah.
b. Untuk option pengecoh (distractor)
- Jumlah pemilih kelompok atas dan kelompok bawah, minimal adalah 25% x 1/2 x 1/d x
(nH + nL). Dimana d = jumlah distraktor atau pengecoh, n H = jumlah kelompok atas dan
nL = jumlah kelompok bawah.
- Frekuensi pilihan kelompok atas harus lebih rendah dari frekuensi pilihan kelompok
bawah.

Contoh:
Untuk mendapatkan gambaran yang lebih jelas tentang prosedur yang ditempuh dalam
menguji efektivitas option-option di bawah ini disajikan sebuah contoh:
1. Kita misalkan jumlah siswa yang dites adalah 50 orang. Sehingga 27% nya setelah
dibulatkan adalah 14 orang.
2. Misalkan pula bahwa item tersebut menggunakan lima buah option, yaitu: (a), (b), (c),
(d), dan (e). Option kuncinya adalah (b), sehingga option pengecohnya adalah: (a), (c),
(d), dan (e).
3. Misalkan lagi bahwa kelompok atas yang memilih option (a) sebanyak satu orang, yang
memilih option (b) sebanyak sembilan orang, yang memilih option (c) sebanyak empat
orang, yang memilih option (d) tidak ada dan yang memilih option (e) juga tidak ada.
Kelompok bawah yang memilih option (a) sebanyak delapan orang, yang memilih
option (b) dua orang, yang memilih option (c) tiga orang, yang memilih option (d) satu
orang dan yang memilih option (e) tidak ada.
Dengan demikian maka isian tabelnya adalah sebagai berikut:
Option A b c D E
Kelompok
Atas 1 9 4 0 0
Bawah 8 2 3 1 0
4. Berdasarkan tabel tersebut maka dapat kita uji bagaimana efektivitas dari masing-
masing option tersebut:
- Option (b), sebagai option kunci berfungsi cukup efektif, sebab jumlah pemilihan
kelompok atas dan kelompok bawah adalah
9+2
x 100 %=39 %
28
Jadi lebih besar dari 25% dan leih kecil dari 75%. Di samping itu frekuensi
pemilihan kelompok atas (9 orang), lebih besar daripada frekuensi pemilih kelompok
bawah (2 orang).
- Option (a) sebagai option pengecoh berfungsi sangat efektif sebab jumlah pemilihnya
9 orang. Jadi tidak kurang dari 25% x 28 = 0,875. Di samping itu frekuensi pemilih
kelompok bawah (8 orang) lebih tinggi daripada frekuensi pemilihan kelompok atas
(1 orang).
- Option (c) sebagai option pengecoh tidak berfungsi secara efektif, sebab frekuensi
pemilih kelompok atas (4 orang) lebih tinggi daripada frekuensi pemilih kelompok
bawah (3 orang).
- Option (d) sebagai option pengecoh agak efektif, karena jumlah pemilih kelompok
atas dan kelompok bawah (1 orang) tidak kurang dari 25% x 1/2 x 1/4 x 28 orang.
Serta frekuensi pemilih kelompok bawah lebih besar daripada frekuensi pemilih
kelompok atas.
- Option (e) sebagai option pengecoh tidak berfungsi secara efektif, sebab jumlah
pemilih kelompok atas dan kelompok bawah kurang dari 0,875 orang. (kurang dari
25% x 1/2 x 1/4 x 28 orang).
Tingkat kesukaran maupun daya beda suatu item dapat berbeda-beda dari satu kelompok
siswa dengan kelompok siswa lainnya. Oleh karena itu tidaklah bijaksana menentukan secara
mutlak daya beda minimum suatu item. Yang penting untuk diingat adalah: apakah item itu
memiliki daya beda positif atau tidak, apakah pengecoh berfungsi secara efektif atau tidak,
apakah setiap item mengukur hasil belajar yang penting atau tidak? Kalau semua pertanyaan
tersebut dapat dijawab dengan ya, maka item itu hendaknya dipertahankan, dan disimpan dalam
suatu map untuk dapat digunakan di kemudian hari sebagai bank soal.
Kalau item tadi digunakan lagi pada kelompok siswa yang akan datang, hendaknya
diadakan analisis kembali, dan mencatat item tersebut dalam sebuah kartu kecil dengan
menuliskan pula tingkat kesukaran, daya beda dan efektivitas option-optionnya.

Anda mungkin juga menyukai