Disusun Oleh :
Kelompok 7
JAKARTA
2023
KATA PENGANTAR
Puji syukur kehadirat Allah SWT atas segala limpahan rahmat, taufik, dan hidayah- Nya
sehingga kami dapat menyelesaikan penyusunan makalah ini untuk memenuhi tugas mata kuliah
Ilmu Pendidikan Islam secara tepat waktu. Semoga makalah ini dapat bermanfaat bagi
pembacanya.
Tidak lupa ucapan terima kasih kami berikan kepada Dosen Pengampu mata kuliah
Evaluasi Pembelajaran Kimia yaitu Dr. Luki Yunita, M.Pd., serta pihak-pihak yang terkait dalam
membantu penyusunan makalah yang berjudul “Mengaplikasikan Analisis Butir Soal Secara
Kualitatif Dan Kuantitatif”
Penyusun menyadari dalam penulisan makalah ini banyak kekurangan seperti teknis
penulisan ataupun materi. Oleh karena itu kritik dan saran yang membangun sangat diharapkan
oleh penyusun untuk penyempurnaan makalah yang lebih baik.
Penyusun
i
DAFTAR ISI
BAB I .............................................................................................................................................. 1
PENDAHULUAN .......................................................................................................................... 1
A. Latar Belakang ..................................................................................................................... 1
B. Rumusan Masalah ................................................................................................................ 1
C. Tujuan .................................................................................................................................. 2
BAB II............................................................................................................................................. 3
PEMBAHASAN ............................................................................................................................. 3
A. Pengertian Analisis Butir Soal ............................................................................................. 3
1. Analisis Butir Soal Kualitatif ........................................................................................... 5
2. Analisis Butir Soal Kuantitatif ......................................................................................... 6
B. Perbedaan Analisis Butir Soal Secara Kualitatif Dan Kuatitatif ......................................... 7
C. Mengaplikasian Analisis Butir Soal Secara Empirik ......................................................... 11
1. Teori Tes Klasik ............................................................................................................. 11
2. Teori Respon Butir ......................................................................................................... 25
BAB III ......................................................................................................................................... 27
PENUTUP..................................................................................................................................... 27
A. Kesimpulan ........................................................................................................................ 27
DAFTAR PUSTAKA ................................................................................................................... 29
ii
BAB I
PENDAHULUAN
A. Latar Belakang
Tidak ada usaha guru yang lebih baik selain usaha untuk selalu meningkatkan mutu
tes yang disusunnya. Namun, hal ini tidak dilaksanakan karena kecenderungan
seseorang untuk beranggapan bahwa hasil karyanya adalah yang terbaik atau setidak-
tidaknya sudah cukup baik. Guru yang sudah berpengalaman, mengajar dan menyusun
soal-soal tes, juga masih sukar menyadari bahwa tesnya masih belum sempurna. Oleh
karena itu, cara yang paling baik adalah secara jujur melihat hasil yang diperoleh oleh
siswa. (Ariunto, 2006).
Kegiatan analisis butir soal merupakan kegiatan penting dalam penyusunan soal
agar diperoleh butir soal yang bermutu.Tujuan kegiatan ini adalah mengkaji dan
menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum digunakan,
meningkatkan kualitas butir tes melalui revisi atau membuang soal yang tidak efektif,
serta mengetahui informasi diagnostik pada siswa apakah mereka telah memahami
materi yang telah diajarkan. Soal yang bermutu adalah soal dapat memberikan
informasi setepat-tepatnya tentang siswa mana yang telah menguasai meteri dan siswa
yang belum menguasai materi. (Suprananto, 2012)
Analisis butir soal dapat dilakukan secara kualitatif (berkenaan dengan isi dan
bentuknya), dan kuantitatif (berkaitan dengan ciri-ciri statistiknya). Analisis kualitatif
mencakup pertimbangan validitas isi dan konstruksi, sedangkan analisis kuantitatif
mencakup pengukuran validilitas dan reliabilitas butir soal, kesulitan butir soal, serta
diskriminasi soal. Oleh karena itu, teknik terbaik adalah menggunakan atau
memadukan keduanya. Dalam makalah ini, akan dijelaskan secara rinci mengenai
analisis butir soal secara lengkap. (Suprananto, 2012)
B. Rumusan Masalah
Berdasarkan latar belakang tersebut, rumusan masalah yang akan dibahas dalam
makalah ini sebagai berikut.
1. Apa itu analisis butir soal secara kualitatif dan kuantitatif ?
2. Apa perbedaan analisis butir soal secara kualitatif dan kuantitatif ?
1
3. Bagaimana pengaplikasian analisis butir soal secara empiric ?
C. Tujuan
Adapun tujuan dari penulisan makalah ini adalah sebagai berikut.
1. Mengetahui analisis butir soal secara kualitatif maupun kuantitatif.
2. Mengetahui perbedaan dari analisis butir soal secara kualitatif maupun kuantitatif.
3. Mengetahui pengaplikasian dari analisis butir soal secara empiric.
2
BAB II
PEMBAHASAN
3
Identifikasi terhadap setiap butir item soal dilakukan dengan harapan dapat
menemukan berbagai informasi, yang pada dasarnya merupakan umpan balik
(feedback) guna melakukan perbaikan, pembenahan, dan penyempurnaan kembali
terhadap butir-butir soal, sehingga pada waktu yang akan datang tes hasil belajar yang
disusun atau dirancang oleh guru itu dapat mengukur apa yang hendak diukur yang
dilakukan secara terus-menerus dan dilakukan oleh lembaga mandiri secara berkala,
menyeluruh, transparan, dan sistematik, untuk menilai pencapaian standar nasional
pendidikan (Fitrianawati, 2017).
Kegiatan analisis butir soal memiliki banyak manfaat, diantaranya adalah: (1) dapat
membantupara pengguna tes dalam evaluasi atas tes yang digunakan, (2) sangat
relevanbagi penyusunan tes informal dan lokal seperti tes yang disiapkan guru untuk siswa
di kelas, (3) mendukung penulisan butir soal yang efektif, (4) secara materi dapat
memperbaiki tes di kelas, (5) meningkatkan validitas soal dan reliabilitas (Anastasi &
Urbina, 1997). Di samping itu, manfaat lainnya adalah: (1) menentukan apakah suatu
fungsi butirsoal sesuai dengan yang diharapkan, (2) memberi masukan kepada siswa
tentang kemampuan dan sebagai dasaruntuk bahan diskusi di kelas, (3) memberi masukan
kepada guru tentang kesulitan siswa, (4) memberi masukan pada aspek tertentu untuk
pengembangan kurikulum merevisi materi yang dinilai atau diukur,(6) meningkatkan
keterampilan penulisan soal (Nitko,1996).
Keperluan analisis butir soal dalam proses belajar mengajar, dapat digunakan
tes yang telah distandardisasikan, maupun tes buatan guru sendiri. Tes yang telah
distandarisasikan adalah tes yang telah mengalami proses standardisasi, yakni proses
validitas dan reliabilitas, sehingga tes tersebut benar-benar valid dan reliabel untuk suatu
tujuan dan bagi kelompok tertentu. Tes yang telah distandarisasikan oleh pemerintah pusat
digunakan dalam ujian nasional. Sedangkan tes buatan guru sendiri adalah suatu tes yang
disusun oleh guru sendiri untuk mengevaluasi keberhasilan proses belajar mengajar
(Amalia & Widayati, 2012).
Menurut Daryanto, analisis kualitas butir soal adalah kegiatan yang dilakukan untuk
mengidentifikasi soal – soal baik, kurang baik, soal jelek, dan memperoleh petunjuk untuk
melakukan perbaikan terhadap mutu soal (Daryanto, 2008). Kegiatan analisis kualitas butir
soal dapat dilakukan dengan dua cara yaitu secara kualitatif dan kuantitatif. Analisis secara
4
kualitatif berkaitan dengan isi dan bentuknya, sedangkan secara kuantitatif berkaitan
dengan ciri ciri statistiknya. Agar dapat lebih memahami, berikut ini akan diuraikan
mengenai teknik analisis kualitas butir soal secara kualitatif dan kuantitatif.
5
sama berdasarkan kaidah penulisannya. Di samping itu, para penelaah
dipersilahkan mengomentari/memperbaiki berdasarkan ilmu yang dimilikinya.
Setiap komentar/masukan dari peserta diskusi dicatat oleh notulis. Setiap butir soal
dapat dituntaskan secara bersama- sama. Namun, kelemahan teknik ini adalah
memerlukan waktu yang lama untuk berdiskusi setiap satu butir soal (Wahidmurni,
2010).
2. Teknik panel yakni suatu teknik menelaah butir soal berdasarkan kaidah
penulisan butir soal. Kaidah itu diantaranya materi, konstruksi, bahasa atau
budaya, kebenaran kunci jawaban atau pedoman penskoran. Dalam
menganalisis butir soal secara kualitatif, penggunaan format penelaahan soal
akan sangat membantu dan mempermudah prosedur pelaksanaannya (Sumiati et al,
2018). Analisis materi dimaksudkan sebagai penelaahan yang berkaitan dengan
substansi keilmuan yang ditanyakan dalam soal serta tingkat kemampuan yang
sesuai dengan soal. Analisis konstruksi dimaksudkan sebagai penelaahan yang
umumnya berkaitan dengan teknik penulisan soal. Analisis bahasa dimaksudkan
sebagai penelaahan soal yang berkaitan dengan pengunaan bahasa Indonesia yang
baik dan benar (Asrul, et al, 2015).
6
butir soal secara klasik yaitu murah, lebih mudah, dapat dilaksanakan dengan cepat,
sederhana, dan dapat menggunakan data dari beberapa peserta didik, sehingga
pendekatan klasik sering digunakan dibanding dengan pendekatan modern yang masih
dalam proses pengembangan (Zulaiha, 2008). Sedangkan pendekatan modern adalah
penelaahan butir soal dengan menggunakan Item Response Theory (IRT) atau teori
jawaban butir soal. Teori ini merupakan suatu teori yang menggunakan fungsi
matematika untuk menghubungkan antara peluang menjawab benar dengan
kemampuan peserta didik (Aziza & Dzhalilla, 2018).
Pada analisis kuantitatif, terdapat beberapa karakteristik butir soal, yaitu taraf
kesukaran, daya pembeda, dan efektifitas distraktor, validitas butir dan reliabilitas
(Mardapi, 2012). Suatu soal akan dikatakan baik apabila memiliki karakteristik butir
soal yang sesuai. Suatu soal akan dikatakan baik apabila memiliki karakteristik butir
soal yang sesuai. Analisis kualitatif merupakan penilaian yang dimaksudkan untuk
menganalisis butir soal ditinjau dari segi teknis, isi dan keterkaitan soal dengan materi
yang diajarkan serta editorial (Nurinda, et al, 2014).
7
menganalisis kualitas butir soal secara kualitatif adalah sebagai berikut: (Wahidmurni,
2010)
a. Aspek materi, berkaitan dengan substansi keilmuan yang ditanyakan dalam soal.
Aspek yang harus diperhatikan yaitu,
(1) soal harus sesuai dengan indikator;
(2) materi yang ditanyakan sesuai dengan kompetensi;
(3) pilihan jawaban homogen dan logis; dan
(4) kunci jawaban hanya satu.
b. Aspek konstruksi, berkaitan dengan teknik penulisan soal. Aspek yang perlu
diperhatikan yaitu:
(1) pokok soal dirumuskan dengan singkat, jelas, dan tegas;
(2) rumusan pokok soal dan pilihan jawaban merupakan pernyataan yang
diperlukan saja;
(3) pokok soal tidak memberi petunjuk kunci jawaban;
(4) pokok soal bebas dari pernyataan yang bersifat negatif ganda;
(5) pilihan jawaban homogen dan logis ditinjau dari segi materi;
(6) gambar, grafik, tabel, diagram, atau sejenisnya jelas dan berfungsi;
(7) panjang pilihan jawaban relatif sama;
(8) pilihan jawaban tidak menggunakan pernyataan “semua jawaban di atas
salah/benar” dan sejenisnya;
(9) pilihan jawaban yang berbentuk angka/waktu disusun berdasarkan besar
kecilnya angka atau kronologisnya; dan
(10) butir soal tidak bergantung pada jawaban soal yang sebelumnya.
c. Aspek bahasa/budaya, berkaitan dengan penggunaan bahasa yang baik dan benar
menurut ejaan yang sesuai. Aspek yang harus diperhatikan yaitu:
(1) menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia;
(2) menggunakan bahasa yang komunikatif;
(3) tidak menggunakan bahasa yang berlaku setempat/tabu; dan
(4) pilihan jawaban tidak mengulang kata/kelompok kata yang sama, kecuali
merupakan satu kesatuan (Depdiknas, 2008).
8
Tabel Format Penelaahan Pilihan Ganda
Mata Pelajaran : .................................
Kelas/semester : .................................
Penelaah : .................................
No Nomor soal
Aspek yang ditelaah
1 2 3 ...
A MATERI
1 Soal sesuai dengan indikator (menuntut tes
tertulis untuk bentuk pilihan ganda)
2 Materi yang ditanyakan sesuai dengan
kompetensi (urgensi, relevasi, kontinyuitas,
keterpakaian sehari-hari tinggi)
3 Pilihan jawaban homogen dan logis
Hanya ada satu kunci jawaban
B KONSTRUKSI
4 Pokok soal dirumuskan dengan singkat,
jelas, dan tegas
5 Rumusan pokok soal dan pilihan jawaban
merupakan pernyataan yang diperlukan
saja
6 Pokok soal tidak memberi petunjuk kunci
jawaban
7 Pokok soal bebas dan pernyataan tidak
bersifat negatif ganda
8 Pilihan jawaban homogen dan logis
ditinjau dari segi materi
9 Gambar, grafik, tabel, diagram, atau
sejenisnya jelas dan berfungsi
10 Panjang pilihan jawaban relatif sama
11 Pilihan jawaban tidak menggunakan
9
No Nomor soal
Aspek yang ditelaah
1 2 3 ...
10
C. Mengaplikasian Analisis Butir Soal Secara Empirik
Untuk mendapatkan instrumen berkualitas tinggi, selain dilakukan analisis secara teori
telah butir berdasarkan aspek isi, konstruksi, dan bahasa, perlu juga dilakukan analisis butir
secara empirik. Secara garis besar, analisis butir secara empirik ini dapat dibedakan
menjadi dua, yaitu dengan pendekatan teori tes klasik dan teori respons butir (Item
Response Theory, IRT).
11
Teori tes klasik memiliki keterbatasan atau kelemahan yang mendasar yaitu
hasil dari estimasi parameter yang diujikan tergantung pada karakteristik
responden. Hal tersebut menjadi kendala dalam pengaplikasiannya (Saifuddin,
1993). Hal ini dapat berakibat pada tingkat kesukaran tes, dimana tes yang
diujikan level tesnya akan menjadi rendah jika tes tersebut diujikan pada
responden yang berkemampuan tinggi dan sebaliknya jika tes tersebut diujikan
pada responden dengan kemampuan rendah maka tingkat kesukaran tes atau level
tesnya akan tinggi. Dari hal tersebut dapat dilihat bahwa hasil perkiraan
kemampuan responden akan tergantung pada karakteristik butir soal.
Keterbatasan tersebut yang menyebabkan bahwa estimasi kemampuan responden
akan tinggi jika tes yang diberikan berada di bawah kemampuannya. Sebaliknya,
estimasi kemampuan responden akan rendah apabila tes yang diujikan berada di
atas tingkat kemampuannya (Ruslan, 2019). Seiring berkembangnya waktu telah
berkembang analisis butir soal Latent Trait Models.
Latent Trait Models atau LTM merupakan suatu analisis butir soal dengan
pendekatan yang modern dimana kegunaannya untuk memperoleh pemodelan
dari hubungan antara kemampuan responden yang dianggap laten atau yang tidak
terlihat dengan menggunakan distribusi jawaban pada tes yang diujikan dan hal
tersebut merupakan sesuatu yang teramati. Model ini dimanfaatkan untuk
menggambarkan kualitas item (butir) soal dilihat dari kemampuan responden
yang mengerjakan tes. Latent Trait Model lebih rumit dan memerlukan software
untuk kalkulasinya. Latent Trait Models dibagi menjadi dua yaitu Rasch Model
dan Item Response Theory (IRT). Menurut Isgiyanto, (2013) Rasch Model
merupakan suatu model yang melibatkan satu parameter saja yakni melibatkan
parameter tingkat kesulitan butir. Hal tersebut membuat Rasch Model dapat
dikatakan sama dengan teori respon butir satu level parameter. (Isgianto, 2013)
12
sebagai suatu kemampuan untuk memahami materi yang di terima dengan benar.
Daya serap menjadi tolak ukur untuk mengetahui sejauh mata pemahaman peserta
didik terhadap pelajaran yang diajarkan oleh seorang guru dalam proses kegiatan
belajar mengajar. (Prasetyo, 2018)
Pada diri peserta didik terdiri berbagai daya serap belajar antara lain: daya
mengingat, berpikir, merasakan, kemauan dan sebagainya. Daya serap belajar
berkembang dengan baik jika dilatih dan diajarkan, kurangnya daya serap belajar
di sekolah dikarenakan kebiasaan dalam belajar yang tidak sesuai dengan yang
diharapkan peserta didik, akan menyebabkan minat dan motivasinya semakin
pudar. Sehingga dalam belajar ada keterpaksaan yang tidak diinginkan oleh
peserta didik yang mengakibat-kan proses belajar mengajar tidak optimal. Daya
serap erat kaitannya dengan kesulitan belajar peserta didik. Peserta didik yang
tingkat daya serapnya rendah akan sulit dalam mempelajari suatu mata pelajaran
tertentu (Najahah, 2015). Pengukuran daya serap belajar peserta didik sama
dengan alat untuk penilaian keberhasilan belajar mengajar, tes hasil belajar atau
tes prestasi belajar adalah tes yang mengukur pengetahuan yang dimiliki seseorang
akibat adanya program pendidikan maupun program pelatihan. (Alfirani, 2016)
Dengan kualitas tes yang baik, guru dan peserta didik mendapatkan gambaran
ketercapaian kompetensi pembelajaran, yakni kemampuan peserta didik,
pemetaan mutu pembelajaran, pemetaan daya serap pembelajaran dan upaya
perbaikan pada sistem pengajaran dan penilaian. BSNP (2012) menyebutkan
sekolah juga dapat menggunakan analisis daya serap untuk mengetahui
kelemahan-kelemahan pada tes setara Ujian Nasional sebelumnya. Dengan
pemetaan kelemahan-kelemahan yang ada pada peserta didik, sekolah diharapkan
melakukan perbaikan pada materi yang menjadi kelemahan peserta didik. Hal
tersebut dilakukan agar tes yang diberikan kepada siswa sesuai dengan daya serap
siswa, tingkat kesukarannya, dan soal yang diberikan pun harus valid. Sehingga,
tujuan dari pembelajaran dapat tercapai.
b. Tingkat Kesukaran
13
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada
tingkat kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks.
Indeks tingkat kesukaran ini pada umumnya dinyatakan dalam bentuk proporsi
yang besarnya berkisar 0,00 - 1,00 (Aiken, 1994: 66).
Semakin besar indeks tingkat kesukaran yang diperoleh dari hasil hitungan,
berarti semakin mudah soal itu. Suatu soal memiliki TK= 0,00 artinya bahwa
tidak ada siswa yang menjawab benar dan bila memiliki TK= 1,00 artinya bahwa
siswa menjawab benar. Perhitungan indeks tingkat kesukaran ini dilakukan untuk
setiap nomor soal. Pada prinsipnya, skor rata-rata yang diperoleh peserta didik
pada butir soal yang bersangkutan dinamakan tingkat kesukaran butir soal itu.
Rumus ini dipergunakan untuk soal selected response item (Nitko,1996 : 310)
yaitu
Tingkat Kesukaran (TK) = Jumlah siswa yang menjawab benar butir soal/
jumlah siswa yang mengikuti tes
Atau dengan menggunakan rumus:
𝑩
𝑷=
𝑵
P = proporsi (indeks kesukaran)
B = jumlah siswa yang menjawab benar
N = jumlah peserta tes (Nitko, 1996: 310).
Tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya
untuk keperluan ujian semester digunakan butir soal yang memiliki tingkat
kesukaran sedang, untuk keperluan seleksi digunakan butir soal yang memiliki
tingkat kesukaran tinggi atau sukar, dan untuk keperluan diagnostik biasanya
digunakan butir soal yang memiliki tingkat kesukaran rendah atau mudah. (Nitko,
1996: 310)
Klasifikasi tingkat kesulitan soal dapat menggunakan kriteria berikut:
14
Tabel 2. Klasifikasi tingkat kesulitan soal
Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagi guru
dan kegunaan bagi pengujian dan pengajaran. Kegunaannya bagi guru adalah:
(1) sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi
masukan kepada siswa tentang hasil belajar mereka,
(2) memperoleh informasi tentang penekanan kurikulum atau mencurigai
terhadap butir soal yang bias. (Nitko, 1996: 310-313)
Adapun kegunaannya bagi pengujian dan pengajaran adalah:
(a) pengenalan konsep yang diperlukan untuk diajarkan ulang,
(b) tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah,
(c) memberi masukan kepada siswa,
(d) tanda-tanda kemungkinan adanya butir soal yang bias,
(e) merakit tes yang memiliki ketepatan data soal (Nitko, 1996: 310-313)
Contoh : Tes formatif Kimia dengan 10 soal bentuk pilihan ganda, dengan
pilihan 4, dengan proporsi 2 soal mudah, 6 soal sedang, dan 2 soal sukar. Jumlah
siswa sebanyak 20 orang.
15
Tabel 3. Contoh formatif indeks kesukaraan
𝑩
𝑷=
𝑵
18
𝑃= = 0,90
20
16
kompetensi dengan peserta didik yang kurang menguasai kompetensi. (Purwanto,
2013)
Daya beda soal adalah kemampuan suatu soal untuk membedakan antara
siswa yang pandai (siswa yang mempunyai kemampuan tinggi) dengan siswa
yang kurang pandai (siswa yang mempunyai kemampuan rendah). Fungsi dari
daya beda itu adalah mendeteksi perbedaan individual yang sekecil-kecilnya di
antara para subyek tes, sejalan dengan fungsi dan tujuan tes itu sendiri. Butir yang
demikian dikatakan valid atau cermat (Azwar, 2005: 137).
Daya pembeda dapat diketahui dengan melihat besar kecilnya angka indeks
diskriminasi item. Angka indeks diskriminasi item adalah sebuah angka atau
bilangan yang menunjukkan besar kecilnya daya (discriminatory power) yang
dimiliki oleh sebutir item. Discriminatory power pada dasarnya dihitung atas
dasar pembagian testee ke dalam dua kelompok, yaitu kelompok atas (the higher
group) yang tergolong berkemampuan tinggi dan kelompok bawah (the lower
group) yaitu kelompok testee yang tergolong berkemampuan rendah. (Anas,
2012)
Indeks daya pembeda dihitung atas dasar pembagian kelompok menjadi dua
bagian, yaitu kelom pok atas yang merupakan kelom- pok peserta tes yang
berkemam puan tinggi dengan kelompok bawah yang merupakan kelompok
peserta tes yang berkemampuan rendah. Kemampuan tinggi ditunjukkan dengan
perolehan skor yang tinggi dan kemampuan rendah ditunjukkan dengan dengan
perolehan skor yang rendah. Indeks daya pembeda didefinisikan sebagai selisih
antara proporsi jawaban benar pada kelompok atas dengan proporsi jawaban
benar pada kelompok bawah (Crocker & Algina, (1986).
Perhitungan daya pembeda dibedakan antara kelompok kecil dan kelompok
besar. Kelompok kecil merupakan kelompok yang terdiri kurang dari 100
(seratus) orang, sebaliknya kelompok besar adalah kelompok yang terdiri lebih
dari 100 (seratu) orang. Untuk kelompok kecil, seluruh kelompok peserta tes
(testee) dibagi dua sama besar, 50% kelompok atas (JA) dan kelompok bawah
(JB). Seluruh pengikut tes, dideretkan mulai dari skor teratas sampai terbawah
lalu dibagi dua. Mengingat waktu untuk menganalisis, maka untuk kelompok
17
besar biasanya hanya diambil kedua kutubnya saja, yaitu 27% skor teratas sebagai
kelompok atas (JA) dan 27% skor terbawah sebagai kelompok bawah (JB).
(Suharsimi, 2013)
Rumus untuk mencari indeks daya pembeda yaitu :
𝒏𝒊𝑻 𝒏𝒊𝑹
𝑫= -
𝑵𝑻 𝑵𝑹
Keterangan :
Contoh soal :
Dari analisis soal tes yang terdiri dari 10 butir soal yang dikerjakan oleh 20 orang
siswa, terdapat dalam table
1 2 3 4 5 6 7 8 9 10
A B 1 0 1 0 0 0 1 1 1 0 5
B A 0 1 1 1 1 1 0 0 1 1 7
C A 1 0 1 0 1 1 1 1 1 1 8
D B 0 0 1 0 0 1 1 1 1 0 5
E A 1 1 1 1 1 1 1 1 1 1 10
18
F B 1 1 0 0 0 1 1 1 1 0 6
G B 0 1 0 0 0 1 1 1 1 1 6
H B 0 1 1 0 0 1 0 1 1 1 6
I A 1 1 1 0 0 1 1 1 1 1 8
J A 1 1 1 1 0 0 1 0 1 1 7
K A 1 1 1 0 0 1 1 1 1 0 7
L B 0 1 0 1 1 0 0 1 1 0 5
M B 0 1 0 0 0 0 0 1 1 0 3
N A 0 0 1 0 1 1 1 1 1 1 7
O A 1 1 0 1 1 1 1 1 1 1 9
P B 0 1 0 0 1 0 0 0 1 0 3
Q A 1 1 0 1 0 1 1 1 1 1 8
R A 1 1 1 1 0 1 1 1 1 0 8
S B 1 0 1 0 0 1 1 1 1 0 6
T B 0 1 0 1 0 1 1 1 1 0 6
Jumlah 11 15 12 8 6 16 15 17 20 10
Tabel 5. Contoh analisis soal daya pembeda
D = 0,8 - 0,3
D = 0,5
Indeks daya pembeda soal nomor 1 adalah indeks daya pembeda yang baik
dan soal dapat diterima
Menganalisis daya pembeda berdasarkan soal nomor 8. Dari soal nomor
8bdapat dianalisis bahwa dari 20 siswa, kelompok atas yang menjawab benar
19
adalah 8 siswa dan kelompok bawah yang menjawab benar adalah 9 siswa,
sisanya menjawab salah yaitu 3 siswa.
Dapat dianalisis menggunakan rumus daya pembeda
𝑛𝑖𝑇 𝑛𝑖𝑅
𝐷= -
𝑁𝑇 𝑁𝑅
10 10
𝐷= -
8 9
D = 0,8 - 0,9
D = -0,1
Indeks daya pembeda soal nomor 8 adalah indeks daya pembeda yang buruk
dan soal dapat tidak dapat diterima. ( Gito, 2007)
Daya pembeda soal maksimal tercapai apabila seluruh peserta tes kelompok
tinggi dapat men, jawab dengan benar (niT = NT), sedangkan seluruh subjek
kelompok rendah tidak seorang pun dapat menjawab dengan benar (niR = 0) (
Gito, 2007)
Dalam hal ini harga d=1-0 =1. Indeks daya pembeda soal sebesar 0 akan
terjadi apabila pro- porsi penjawab benar dari kelom pok tinggi dan dari
kelompok ren- dah sama besarnya, yaitu ketika indeks kesukaran bagi kelompok
tinggi sama besar dengan indeks kesukaran bagi kelompok rendah. ( Gito, 2007)
Secara matematis, indeks daya pembeda soal (D) besarnya akan berkisar
mulai dari 1 sampai dengan +1, namun hanya harga d yang positif sajalah yang
memiliki arti dalam analisis butir soal. Harga d yang berada di sekitar 0
menunjukkan bahwa soal yan bersangkutan mempunyai day pembeda yang
rendah sedangkan harga D yang negatif menunjukkan bahwa soal yang
bersangkutan tidak ada gunanya. ( Gito, 2007)
Indeks daya pembeda yang ideal adalah yang sebesar mungkin mendekati
angka 1, semakin besar indeks daya pembeda berarti soal tersebut semakin
mampu membedakan antara siswa yang menguasai bahan yang diujikan dan
siswa yang tidak menguasai bahan. Semakin kecil indeks daya pembeda
(mendekati 0) berarti semakin tidak jelaslah fungsi soal yang bersangkutan dalam
membedakan mana subjek yang menguasai bahan pelajaran dan mana subjek
yang tidak tahu apa-apa ( Gito, 2007)
20
d. Fungsi Pengecoh
Distraktor yaitu suatu pola yang dapat menggambarkan bagaimana testee
menentukan pilihan jawabannya terhadap kemungkinan-kemungkinan jawab
yang telah dipasangkan pada setiap butir item. Distraktor dinyatakan telah dapat
menjalankan fungsinya dengan baik apabila distraktor tersebut sekurang-
kurangnya sudah dipilih oleh 5% dari seluruh peserta tes atau apabila mempunyai
daya tarik yang besar bagi pengikut-pengikut tes yang kurang memahami konsep
atau kurang menguasai bahan (kelompok bawah). Untuk menentukan angka
pedoman efektifitas distraktor dapat dilakukan dengan cara perkalian antara 5%
X Jumlah siswa. (Arikunto, 2010)
Opsi salah yang baik adalah yang mampu berperan sebagaimana fungsinya,
yaitu sebagai perusak, penjebak, atau distraktor terhadap peserta uji. Namun,
tentunya peserta dari kelompok rendah yang lebih banyak “terjebak” daripada
kelompok tinggi. (Nurgiantoro, 2010)
Pada soal bentuk pilihan-ganda ada alternatif jawaban (opsi) yang merupakan
pengecoh, jadi pengecoh disini adalah jawaban dari soal yang bisa mengecoh
jawaban yang sebenarnya. Option atau alternatif itu jumlahnya berkisar antara
tuga sampai dengan lima buah, dan dari kemungkinan-kemungkinan jawab yang
terpasang pada setiap butri item itu, salah satu di antaranya adalah merupakan
jawaban betul (= kunci jawaban); sedangkan sisanya adalah merupakaan jawaban
salah. Jawaban-jawaban salah itulah yang biasa dikenal dengan
istilah distractor (distraktor = pengecoh). (Sudijono, 2011)
Butir soal yang baik, pengecohnya akan dipilih secara merata oleh peserta
didik yang menjawab salah. Sebaliknya, butir soal yang yang kurang baik,
pengecohnya akan dipilih secara tidak merata. Pengecoh dianggap bila jumlah
peserta didik yang memilih pengecoh itu sama atau mendekati jumlah ideal. Suatu
ditraktor dapat diperlakukan dengan 3 cara:
1. Diterima, karena sudah baik.
2. Ditolak, karena tidak baik.
3. Ditulis kembali, karena kurang baik.
21
Kekurangannya mungkin hanya terletak pada rumusan kalimatnya sehingga
hanya perlu ditulis kembali, dengan perubahan seperlunya. (Arikunto, 2010)
Menganalisis fungsi pengecoh (distractor) dikenal dengan istilah
menganalisis pola penyebaran jawaban butir soal pada soal bentuk pilihan ganda.
Pola tersebut diperoleh dengan menghitung banyaknya testee yang memilih
pilihan jawaban butir soal atau yang tidak memilih pilihan manapun (blank). Dari
pola penyebaran jawaban butir soal dapat ditentukan apakah pengecoh berfungsi
dengan baik atau tidak. Suatu pengecoh dapat dikatakan berfungsi dengan baik
jika paling sedikit dipilih oleh 5% pengikut tes. (Mahendra, 2019)
e. Validitas
Validitas atau keshahihan berasal dari kata validity yang berarti sejauh mana
ketetapan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya.
Dengan kata lain, validitas adalah suatu konsep yang berkaitan dengan
sejauhmana tes telah mengukur apa yang seharusnya diukur. (Wahidmurni A. M.,
2010). Validitas berhubungan dengan kemampuan untuk mengukur secara tepat
sesuatu yang diinginkan diukur. (Purwanto, 2011).
Validitas suatu tes selalu dibedakan menjadi dua macam yaitu validitas logis
dan validitas empiris. Validitas logis sama dengan analisis kualitatif terhadap
sebuah soal, yaitu untuk menentukan berfungsi tidaknya suatu soal berdasarkan
kriteria yang telah ditentukan, yang dalam hal ini adalah kriteria materi,
konstruksi, dan bahasa. (Sudaryono, 2012)
1) Validitas logis
Istilah "validitas logis" mengandung kata "logis" berasa dari kata "logika",
yang berarti penalaran. Dengan makna demikian maka valaiditas logis untuk
sebuah instrument evaluasi menunjukkan pada kondisi bagi sebuah instrument
yang memenuhi persyaratan valid berdsarkan hasil penalaran. Kondisi valid
tersebut dipandang terpenuhi karena instrument yang bersangkutan sudah
dirancang secara baik, mengikuti teori dan ketentuan yang ada.
22
2) Validitas empiris
Istilah "validitas empiris" memuat kata "empiris” yang artinya pengalaman.
Sebuah instrument dapat dikatakan memiliki validitas empiris apabila sudah diuji
dari pengalaman. (Arikunto, 2010)
a. Validitas isi.
Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan
khusus tertentu sejajar dengan materi atau isi pelajaran yang diberikan.
Oleh karena itu materi yang diajarkari tertera didalam kurikulum.
b. Validitas konstrak.
Sebuah tes dikatakan memiliki validitas konstruksi apabila butir-
butir soal yang membangun tes tersebut mengukur setiap aspek berpikir.
Dengan kata lain jika butir-butir soal mengukur aspek berpikir tersebut
sudah sesuai dengan aspek berpikir yeng menjadi tujuan instruksioanal.
Contoh: "siswa dapat membandingkan antara efek biologis dan efek
kologis", maka butir soal pada tes merupakan perintah agar membedakan
antara dua efek tersebut.
c. Validitas "ada sekarang".
Validitas ini lebih umum dikenal dengan validitas empiris. Sebuah
tes dikatakan memiliki validitas empiris jika hasilnya sesuai dengan
pengalaman. Jika ada istilah sesuai" tentu ada dua hal yang dipasangkan
dalam hal ini hasil dipasangkan dengan hasil pengalaman. Penglaman
selalu mengenal hal yang telah lampau sehingga data pengalaman tersebut
sudah ada (ada sekarang, concurrent). Misalnya seorang guru ingin
mengetahui apakah tes sumatif yang disusun sudah valid atau belum. Untuk
ini diperlukan sebuah kriterium masa lalu yang sekarang datanya dimiliki.
Misalnya nilal ulangan harian atau nilai ulangan sumatif yang lalu.
d. Validitas predictive.
Memprediksi artinya meramal, dengan meramal selalau mengenal
hal yang akan datang yang sekarang belum terjadi. Sebuah tes dikatakan
memiliki validitas prediksi tai validit ramalan apabila mempunyai
23
kemampuan untuk meramalea yang akan terjadi pada masa yang akan
datang. (Prasetyo, 2013)
Penganalisisan terhadap tes hasil belajar dapat dilakukan dengan dua cara.
Pertama, penganalisisan yang dilakukan dengan jalan berpikir secara rasional atau
penganalisisan dengan menggunakan logika (logical analysis). Ada dua macam
validitas logis yang dapat dicapai oleh sebuah instrument yaitu validitas isi dan
validitas konstruk. Kedua, penganalisisan yang dilakukan dengan mendasarkan
diri pada kenyataan empiris, dimana penganalisisan dilaksanakan dengan
menggunakan empirical analysis. Ada dua macam validitas empiris yaitu validitas
prediksi dan validitas konkuren. (Sudijono, 2011)
f. Reliabilitas
Reliabilitas berasal dari kata reliability berarti sejauh mana hasil suatu
pengukuran dapat dipercaya. Suatu hasil pengukuran hanya dapat dipercaya
apabila dalam beberapa kali pelaksanaan pengukuran terhadap kelompok subjek
yang sama, diperoleh hasil pengukuran yang relatif sama, selama aspek yang
diukur dalam diri subyek memang belum berubah. (Sudaryono, 2012)
Menurut teori klasik, reliabilitas dihubungkan dengan pengertian adanya
ketepatan suatu tes dalam pengukurannya. Pendapat lain menyatakan bahwa
reliabilitas adalah kestabilan skor yang diperoleh orang yang sama ketika diuji
ulang dengan tes yang sama pada situasi yang berbeda atau dari satu pengukuran
kepengukuran lainnya. Jadi reliabilitas dapat dinyatakan sebagai tingkat keajegan
atau kemantapan hasil dari dua pengukuran terhadap hal yang sama. Hasil
pengukuran itu diharapkan sama apabila pengukuran itu diulangi. (Sudaryono,
2012)
Reliabilitas adalah suatu hal yang sangat penting pada alat pengukuran
standar. Reliabilitas dihubungkan dengan pengertian adanya ketepatan tes dalam
pengukurannya. Reliabilitas adalah kestabilan skor yang diperoleh peserta tes
yang sama ketika diuji ulang dengan tes yang sama pada situasi yang berbeda
atau dari suatu pengukuran ke pengukuran lainnya. Dengan kata lain reliabilitas
merupakan tingkat konsistensi atau kemantapan hasil terhadap hasil dua
24
pengukuran hal yang sama. Dapat juga diartikan sebagai tingkat kepercayaan dari
suatu alat ukur. (Kebudayaan, 1997)
Hasil pengukuran diharapkan akan sama apabila pengukuran itu diulangi.
Dengan perangkat tes yang reliabel, apabila tes itu diberikan dua kali pada peserta
yang sama tetapi dalam selang waktu yang berbeda sepanjang tidak ada
perubahan dalam kemampuan maka skor yang diperoleh akan konstan. Kriteria
untuk menentukan tinggi rendahnya reliabilitas sebuah perangkat tes. (Arikunto,
2010). Dilihat pada rentangan koefesien korelasi sebagai berikut:
Klasifikasi Tingkat Reliabilitas Tes
Sebuah tes dikatakan mempunyai reliabilitas yang tinggi jika tes tersebut
memberikan data hasil yang ajeg (tetap) walaupun diberikan pada waktu yang
berbeda kepada responden yang sama. (Setiyawan, 2014)
25
bersifat unidimensional saja, namun teori respon butir telah merambah pada tes
multidimensional (Nurcahyo, 2016). Teori respon butir dibangun dan dibentuk dari
suatu pemahaman dimana probabilitas atau peluang responden menjawab benar
terhadap suatu butir tes dapat dijelaskan sebagai fungsi sederhana dari posisi
responden pada analisis butir, ditambah dengan satu atau lebih parameter yang
menjadi karakteristik butirbersifat unidimensional saja, namun teori respon butir telah
merambah pada tes multidimensional (Nurcahyo, 2017). Teori respon butir dibangun
dan dibentuk dari suatu pemahaman dimana probabilitas atau peluang responden
menjawab benar terhadap suatu butir tes dapat dijelaskan sebagai fungsi sederhana
dari posisi responden pada analisis butir, ditambah dengan satu atau lebih parameter
yang menjadi karakteristik butir.
Studi tentang penerapan teori respon butir atau Item Response Theory (IRT)
menjadi topik yang menarik untuk dikaji karena teori respon butir memiliki
masingmasing hal yang dianalisis di setiap masing-masing parameter yang digunakan.
Untuk dapat mengetahui suatu analisis butir soal dalam suatu tes, IRT atau teori respon
butir sangat cocok digunakan dalam mencari tingkat kemampuan responden, tingkat
kesulitan soal, daya beda dan lainnya tergantung dengan berapa level parameter yang
digunakan.
26
BAB III
PENUTUP
A. Kesimpulan
Analisis kualitas tes merupakan kegiatan untuk mengkaji soal pada setiap item atau
butirnya guna mengetahui kualitas dari setiap butir soal tersebut. Analisis kualitas butir
soal adalah suatu prosedur yang sistematis, yang akan memberikan informasi – informasi
yang sangat khusus terhadap butir tes yang kita susun. Keperluan analisis butir soal
dalam proses belajar mengajar, dapat digunakan tes yang telah distandardisasikan,
maupun tes buatan guru sendiri. Kegiatan analisis kualitas butir soal dapat dilakukan
dengan dua cara yaitu secara kualitatif dan kuantitatif. Aspek yang diperhatikan di dalam
penelaahan secara kualitatif ini adalah setiap soal ditelaah dari segi materi, konstruksi,
bahasa/budaya, dan kunci jawaban/pedoman penskorannya. Analisis butir soal secara
kualitatif dilakukan dengan cara menelaah kesesuaian dengan kemampuan dasar dan
indikator yang hendak diukur serta apakah butir-butir soal tersebut telah menenuhi syarat
dan ketentuan. Ada beberapa teknik yang dapat digunakan untuk menganalisis butir soal
secara kualitatif, antara lain yaitu teknik moderator dan teknik panel. Sedangkan
Penelaahan soal secara kuantitatif adalah penelaahan butir soal didasarkan pada data
empirik. Data empirik ini diperoleh dari soal yang telah diujikan. Analisis kualitatif
merupakan penilaian yang dimaksudkan untuk menganalisis butir soal ditinjau dari segi
teknis, isi dan keterkaitan soal dengan materi yang diajarkan serta editorial.
Adapun perbedaan dari analisis butir soal secara Kualitatif dan Kuantitatif. Analisis
soal secara teoritik atau analisis kualitatif dilakukan sebelum diadakan ujicoba, yakni
dengan cara mencermati butir-butir soal yang telah disusun dilihat dari kesesuaian dengan
kemampuan dasar dan indikator yang diukur serta pemenuhan per- syaratan baik dari aspek
materi, kontruksi, dan bahasa (Mardapi, 2004). Sedangkan analisis soal secara kuantitatif
menekankan pada karakteristik internal tes melalui data yang diperoleh secara empiris.
Karakteristik internal secara kuantitatif dimaksudkan meparameter soal tingkat kesukaran,
daya pembeda, distribusi jawaban, dan reliabilitas (Surapranata, 2005). Sebelum
menganalisis kualitas butir soal, pendidik harus memperhatikan kaidah penulisan butir soal
terlebih dahulu. Kaidah penulisan butir soal yang menjadi pedoman dalam menganalisis
27
kualitas butir soal secara kualitatif antara lain : (1) Aspek Materi, (2) Aspek Konstruksi,
dan (3) Aspek Bahasa/Budaya.
Dari penjelasan mengenai pengertian serta perbedaan dari analisis butir soal secara
kualitatif dan kuantitatif. Adapun pengaplikasian analisis butir soa secara empirik. Secara
garis besar, analisis butir secara empirik ini dapat dibedakan menjadi dua, yaitu dengan
pendekatan teori tes klasik dan teori respons butir (Item Response Theory, IRT). Teori tes
klasik memiliki pengertian sebagai suatu analisis butir tes dimana kegunaannya adalah
untuk mengukur serta untuk memprediksi hasil atau luaran dari suatu tes yang diujikan,
yang dapat dilihat melalui tingkat kemampuan orang yang melakukan tes (responden) dan
tingkat kesulitan butir soal yang diujikan. Teori klasik ini meliputi Daya Serap, daya beda,
indeks kesukaran, daya pengecoh, reliabilitas dan validitas adalah formula penting yang
disarikan dari teori tes klasik. Sedangkan Teori respon butir merupakan suatu analisis butir
tes yang lebih modern dari teori tes klasik, teori respon butir dibentuk dan didasarkan dari
fungsi matematika yang digunakan dalam memaparkan hubungan antara seseorang yang
mengikuti tes (responden) dengan butir tes yang diujikan. Untuk dapat mengetahui suatu
analisis butir soal dalam suatu tes, IRT atau teori respon butir sangat cocok digunakan
dalam mencari tingkat kemampuan responden, tingkat kesulitan soal, daya beda dan
lainnya tergantung dengan berapa level parameter yang digunakan.
28
DAFTAR PUSTAKA
Adedoyin, O. &. (2013). Using IRT Psychometric Analysis InExamining the Quality of Junior
Certificate Mathematics Multiple Choice Examination Test Items. International Journal
of Asian Social Science. 3(4), 992-1011.
Alfirani, A. (2016). Evaluasi Pembelajaran dan Implementasi. Padang : Sukabina Press.
Amalia, A. N. & A. W. (2012). Analisi Butir Soal Tes Kendali Mutu Kelas XII SMA Mata
Pelajaran Ekonomi Akuntansi Di Kota Yogyakarta Tahun 2012. Jurnal Pendidikan
Akuntansi Indonesia, 10(1).
Anastasi, A., & Urbina, S (1997). Psychology testing. Upper Saddle River, NJ: Prentice Hall.
Arikunto, S. (2010). Dasar-Dasar Evaluasi Pendidikan (edisi revisi). Jakarta: Bumi Aksara
Ariunto, S. (2006). Dasar - Dasar Evaluasi Pendidikan . Jakarta : Bumi Aksara
Asrul, Ananda, R & Rosnita. (2015). Evaluasi Pembelajaran. Bandung: Cita Pustaka Media.
Aziza, R. N., & Dzhalila, D. (2018). Metode kuantitatif dengan pendekatan klasik pada aplikasi
analisis butir soal sebagai media evaluasi penentuan soal yang berkualitas. Kilat, 7,
1689-99.
Budiyono. (2013). Metodologi Penelitian Pendidikan. Solo: UNS Press.
Daryanto, H. (2008). Evaluasi Pendidikan. Jakarta: PT Rineka Cipta
Departemen Pendidikan Nasional. (2008). Panduan Analisis Butir Soal. Jakarta: Depdiknas.
Fatimah, L. U., & Alfath, K. (2019). Analisis kesukaran soal, daya pembeda dan fungsi distraktor.
AL-MANAR: Jurnal Komunikasi dan Pendidikan Islam, 8(2), 37-64.
Fitrianawati, M. (2017). Peran analisis butir soal guna meningkatkan kualitas butir soal,
kompetensi guru dan hasil belajar peserta didik. Seminar Nasional Pendidikan PGSD
UMS & HDPGSDI Wilayah Jawa. Semarang : PGSD UMS
Isgianto, A. (2013). Perbandingan Penyekoran Model Rasch Dan Model Partial Credit Pada
Matematika. Jurnal Kependidikan: Penelitian Inovasi Pembelajaran.
Kebudayaan, D. P. (1997). Manual Item and Test Analysis ( Iteman) . Badan Penelitian dan
Pengembangan Pendidikan dan Kebudayaan: Pusat Penelitian dan Pengembangan
Sistem Pengujian.
Kusaeri & Suprananto. (2012). Pengukuran dan Penilaian Pendidikan. Yogyakarta: Graha Ilmu.
29
Linn, R. L., & Gronlund, N. E. (1995). Measuring and assessment inteaching.
Thousand Oaks, CA: Sage
Mahendra, I. W. (2019). Analisis Butir Soal Peningkatan Kompetensi Evaluasi Pembelajaran
Guru SLBN 1 Buleleng Singamangaraja. FPMIPA IKIP PGRI Bali.
Mardapi, Djemari. (2004). Penyusunan Tes Hasil Belajar. Yogyakarta: Program Pascasarjana
UNY.
Mardapi, Djemari. (2012). Pengukuran, Penilaian, dan Evaluasi Pendidikan. Yogyakarta: Nuha
Medika.
Najahah. (2015). Potensi Peserta Didik Dalam Pembelajaran . Lentera Pendidikan, P. P.
Nitko, A. J. (1996). Educational assessment of students. Prentice-Hall Order Processing Center,
PO Box 11071, Des Moines, IA50336-1071.
Nurcahyo. (2016). Aplikasi IRT dalam Analisis Aitem Tes Kognitif. Buletin Psikologi , 64 – 75
Nurgiantoro, B. (2010). Penilaian Pembelajaran Bahasa Berbasis Kompetensi. Yogyakarta:
BPFE Yogyakarta
Nurinda, S., Rudyatmi, E., & Ridlo, S. (2014). Analisis Butir Soal Olimpiade Biologi SMA
Tingkat Kabupaten/Kota Tahun 2013. Journal of Biology Education, 3(1).
Prasetyo, J. (2013). Evaluasi dan Remedial Belajar. Jakarta: Trans Info Media
Prasetyo. (2018). Fakto - Faktor yang Mempengaruhi Daya Serap Siswa Pada Mata Pelajaran
Ekonomi SMA Sentolo. Jurnal Daya Serap Siswa
Purwanto. (2011). Evaluasi Hasil Belajar. Yogyakarta: Pustaka Pelajar
Ruslan, M. S. (2019). KARAKTERISTIK BUTIR SOAL: CLASSICAL TEST THEORY VS
ITEM RESPONSE THEORY? Didaktika : Jurnal Kependidikan
Saifuddin, A. (1993). Reliabilitas dan Validitas . Yogyakarta: Pustaka Belajar
Santosa, Sedya, and Jami A. Badawi. (2022). Analisis Butir Soal Pilihan Ganda Tema
Pertumbuhan dan Perkembangan Makhluk Hidup Kelas III Madrasah Ibtidaiyah. Jurnal
Basicedu, vol. 6(2).
Sari, M. (2017). Rekonstruksi Butir Soal Ulangan Tengah Semester Mata Pelajaran Bahasa
Indonesia Kelas VII SMP Tahun Pelajaran 2016/2017. Skripsi. Semarang : UNNES.
Setiyawan, A. (2014). Faktor-Faktor Yang Mempengaruhi Reliabilitas Tes. Jurnal An Nur.
Sudaryono. (2012). Dasar-Dasar Evaluasi Pembelajaran. Yogyakarta: Graha Ilmu.
Sudijono, A. (2011). Pengantar Evaluasi Pendidikan. Jakarta: PT. Raja Grafindo Bumi Persada
30
Sumiati, Ati, U. W. & U. S. (2018). Workshop Teknik Menganalisis Butir Soal dalam
Meningkatkan Kompetensi Guru di SMK Cileungsi Bogor. Jurnal Pemberdayaan
Masyarakat Madani, 2(1).
Sumintono, B. &. (2014). Aplikasi model rasch untuk penelitian ilmu-ilmu sosial (2nd ed).
Cimahi : Trim Komunikata Publishing House
Supardi. (2016). Penilaian Autentik Pembelajaran Afektif, kognitif dan Psikomotor (Konsep dan
Aplikasi). Jakarta: Rajawali Pers, Jakarta
Suprananto, K. (2012). Pengukuran dan Penilaian Pendidikan . Yogyakarta : Graha Ilmu
Surapranata, Sumarna. (2005). Analisis, Validitas, Reliabilitas dan Interpretasi Hasil Tes.
Implementasi kurikulum 2004. Bandung: Remaja Rosdakarya Offset.
Suwarto. (2007). Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes Menurut Teori Tes Klasik.
Jurnal Pendidikan. Vol 16(2).
Wahidmurni, A. M. (2010). Evaluasi Pembelajaran; Kompetensi dan Praktik. Yogyakarta: Nuha
Litera.
Wahidmurni, D. (2010). Evaluasi Pembelajaran : Kompetensi dan Praktik. Yogyakarta: Nuha
Letera.
Zulaiha, Rahmah. (2008). Analisis Soal Secara Manual. Jakarta: PUSPENDIK.
31