Final BAB ENAMM Evaluasi

MAKALAH
ANALISIS KUALITAS TES DAN BUTIR SOAL

DALAM PEMBELAJARAN
Disusun Untuk Memenuhi Tugas

Mata Kuliah: Evaluasi dan Remedial Pembelajaran
Bidang Studi Akuntansi
Disusun Oleh:
Kelompok 2
Futri Furnama Sari (220902500010)
Wasimah Nur Afifah (220902501001)
Wahdini (220902501002)
Serli Agestina (220902501003)
Lisma (220902501004)
Nur Aviati (220902501005)
Putri Anggraeni Fajiran Safar (220902501007)
Rahmawati (220902501008)
PROGRAM STUDI PENDIDIKAN AKUNTANSI

FAKULTAS EKONOMI DAN BISNIS
UNIVERSITAS NEGERI MAKASSAR
2023
ii
KATA PENGANTAR
Puji syukur kehadirat Allah SWT karena telah memberikan kesempatan

kepada kami untuk menyelesaikan makalah ini. Atas rahmat dan hidayah-Nya lah
kami dapat menyelesaikan makalah yang berjudul “Analisis Kualitas Tes dan
Butir Soal dalam Pembelajaran” tepat waktu.
Makalah berjudul “Analisis Kualitas Tes dan Butir Soal dalam Pembelajaran”
disusun guna memenuhi tugas dosen pada mata kuliah Evaluasi dan Remedial
Pembelajaran Bidang Studi Akuntansi di Universitas Negeri Makassar. Selain itu,
kami juga berharap agar makalah ini dapat menambah wawasan bagi pembaca
tentang Analisis Kualitas Tes dan Butir Soal dalam Pembelajaran.
Kami mengucapkan terima kasih sebesar-besarnya kepada dosen mata kuliah
Evaluasi dan Remedial Pembelajaran Bidang Studi Akuntansi. Tugas yang telah
diberikan ini dapat menambah pengetahuan dan wawasan terkait bidang yang
ditekuni penulis.
Kami menyadari makalah ini masih jauh dari kata sempurna. Oleh karena itu,
kritik dan saran yang membangun akan kami terima demi kesempurnaan makalah
ini.
Makassar, 2 September 2023
Kelompok 2
i
DAFTAR ISI
KATA PENGANTAR..............................................................................................i
DAFTAR ISI............................................................................................................ii
DESKRIPSI AWAL................................................................................................1
A. Deskripsi Singkat......................................................................................1
B. Relevansi...................................................................................................1
C. Indikator....................................................................................................1
PEMBAHASAN......................................................................................................2
A. Validitas.....................................................................................................2
B. Reliabilitas.................................................................................................6
C. Kepraktisan..............................................................................................11
D. Objektivitas.............................................................................................13
E. Analisis Kualitas Butir Soal....................................................................14
F. Analisis Pengecoh.......................................................................................16
G. Analisis Homogenitas Soal.....................................................................18
H. Efektifitas Fungsi Opsi............................................................................19
PENUTUP..............................................................................................................21
SOAL LATIHAN..................................................................................................22
REFERENSI..........................................................................................................23
ii
BAB 6
ANALISIS KUALITAS TES DAN BUTIR SOAL
DALAM PEMBELAJARAN
DESKRIPSI AWAL
A. Deskripsi Singkat
Suharsimi Arikunto menyatakan bahwa analisis kualitas tes merupakan
kegiatan untuk mengkaji soal pada setiap item atau butirnya guna mengetahui
kualitas dari setiap butir soal tersebut. Analisis kualitas butir soal adalah suatu
prosedur yang sistematis, yang akan memberikan informasi-informasi yang sangat
khusus terhadap butir tes yang kita susun. Sumarna Surapranata mengemukakan
bahwa analisis kualitas soal dilakukan untuk mengetahui berfungsi tidaknya
sebuah soal. Dari pengertian tersebut dapat disimpulkan bahwa analisis kualitas
butir soal merupakan kegiatan menganalisis tiap-tiap butir soal secara mendetail
menggunakan metode pengujian tertentu.
Berdasarkan definisi dari 2 ahli di atas, dapat disimpulkan bahwa analisis
kualitas soal merupakan kegiatan meneliti dan mengidentifikasi setiap
pertanyaan untuk mengetahui kualitas setiap pertanyaan. Hasil dari proses review
dan identifikasi pertanyaan dapat digunakan untuk memperbaiki dan
menyempurnakan setiap komponen pertanyaan.
B. Relevansi
Tujuan utama analisis kualitas butir soal dalam sebuah tes yang dibuat
pendidik adalah untuk mengidentifikasi kekurangan-kekurangan dalam tes atau
pembelajaran.
C. Indikator
Setelah membaca, membahas, dan mempelajari bab ini mahasiswa
diharapkan mampu mengetahui tujuan dari dilakukannya kegiatan analisis kualitas
tes dan butir soal dalam mendukung proses pembelajaran.
1
PEMBAHASAN
A. Validitas
a. Pengertian Validitas
Validitas sering diartikan dengan kesahihan. Suatu alat ukur
disebut memiliki validitas bilamana sifat alat ukur tersebut isinya layak
mengukur objek yang seharusnya diukur dan sesuai dengan kriteria
tertentu. Validitas berhubungan dengan kemampuan untuk mengukur
secara tepat sesuatu yang diinginkan diukur. Zainal Arifin
menyebutkan ada dua unsur penting dalam validitas yaitu validitas
menunjukkan suatu derajat dan validitas selalu dihubungkan dengan
suatu putusan atau tujuan yang spesifik. Penganalisisan terhadap tes
hasil belajar dapat dilakukan dengan dua cara. Pertama, penganalisisan
yang dilakukan dengan jalan berpikir secara rasional atau
penganalisisan dengan menggunakan logika (logical analysis). Ada 2
hal penting dalam validatas yaitu: Pertama, validitas yang menunjukka
suatu derajat, ada yang sempurna, ada yang sedang dan ada yang
rendah. Kedua, validitas selalu dihubunngkan dengan suatu putusan
dan tujuan yang spesifik.
Ada dua macam validitas empiris yaitu validitas prediksi dan
validitas konkuren. Dari uraian adanya dua jenis validitas, yaitu
validitas logis yang mempunyai dua jenis validitas dan validitas
empiris yang juga mempunyai dua jenis validitas, maka secara
keseluruhan dikenal dengan adanya empat validitas, yaitu:
 Validitas Isi (Content Validity)
 Validitas Konstruksi (Construct Validity)
 Validitas Ramalan (Predictive Validity)
 Validitas Bandingan (Concurrent Validity)
b. Faktor-faktor yang Memengaruhi Validitas
 Faktor Instrument Evaluasi.
2
Dalam mengembangkan instrumen evaluasi, seorang evaluator
harus memperhatikan hal-hal yang memengaruhi validitas
instrumen dan berkaitan dengan prosedur penyusunan
instrumen. Seperti silabus, kisi-kisi soal, petunjuk mengerjakan
soal dan pengisian lembar jawaban, tingkat kesukaran, daya
pembeda, dan sebagainya. Beberapa sumber yang pada
umumnya berasal dari faktor internal tes evaluasi di antaranya
sebagai berikut:
1. Arahan tes yang disusun dengan makna tidak jelas
sehingga dapat mengurangi validitas tes.
2. Kata-kata yang digunakan dalam struktur instrument
evaluasi, terlalu sulit.
3. Item-item tes dikonstruksi dengan jelek.
4. Tingkat kesulitan item tes tidak tepat dengan materi
pembelajaran yang diterima siswa.
5. Waktu yang dialokasikan tidak tepat, hal ini termasuk
kemungkinan terlalu kurang atau terlalu longgar.
6. Jumlah item tes terlalu sedikit sehingga tidak mewakili
sample materi pembelajaran.
7. Jawaban masing-masing item evaluasi bisa diprediksi
siswa
 Faktor Administrasi Evaluasi dan Penskoran.

Terdapat beberapa hal yang memengarui hasil evaluasi, antara
lain alokasi waktu pengerjaan tes atau soal, kedisiplinan guru
pengawas, kedisiplinan peserta tes, kesalahan penskoran, serta
kondisi fisik dan psikis peserta tes. Faktor yang berasal dari
administrasi dan skor alat tes adalah sebagai berikut:
1. Waktu pengerjaan tidak cukup sehingga siswa dalam
memberikan jawaban dalam situasi yang tergesa-gesa.
2. Adanya kecurangan dalam tes sehingga tidak bisa
membedakan antara siswa yang belajar dengan yang
melakukan kecurangan.
3. Pemberian petunjuk dari pengawas yang tidak dapat
dilakukan pada semua siswa.
4. Teknik pemberian skor yang tidak konsisten, misalnya
pada tes esai, juga dapat mengurangi validitas tes
evaluasi.
5. Siswa tidak dapat mengikuti arahan yang diberikan
dalam tes esai, juga dapat mengurangi validitas tes
evaluasi.
6. Siswa tidak dapat mengikuti arahan yang diberikan
dalam tes baku.
 Faktor Jawaban dari Peserta Didik.

Faktor ini meliputi kecenderungan peserta didik untuk
menjawab dengan cepat namun kurang tepat, keinginan untuk
coba-coba dan menggunakan gaya bahasa tertentu dalm
menjawab soal uraian. Seringkali terjadi bahwa interpretasi
terhadap item-item tes evaluasi tidak valid, karena dipengaruhi
oleh jawaban testee dari pada interpretasi item-item pada tes
evaluasi.
c. Jenis-jenis Validitas
 Validitas Permukaan yaitu validitas yang berkriteria sangat
sederhana, karena hanya melihat dari sisi muka atau
tampang dari instrument itu sendiri.
 Validitas Isi yaitu validitas yang sering digunakan dalam
penilaian hasil belajar. Tujan utamanya adalah untuk
mengetahui sejauh mana peserta didik menguasai materi
pelajaran yang telah disampaikan, dan perubahan psikologis
apa yang timbul pada diri peserta didik tersebut setelah
mengalami proses pembelajaran tertentu.
 Validitas Susunan artinya kajituan daripada suatu tes ditinjau
dari susunan tersebut.
 Validitas Empiris yaitu validitas yang biasanya
menggunakan teknis statistik, yaitu analisis korelasi. Hal ini
disebabkan validitas empiris mencari hubungan antara skor
tes dengan suatu kriteria tertentu yang merupakan suatu
tolak ukur diluar tes yang bersangkutan.
 Validitas Faktor dalam validitas ini hasil belajar sering
digunakan skala pengukuran tentang suatu variabel yang
terdiri atas beberapa faktor. Faktor tersebut diperoleh
berdasarkan dimensi dari variabel yang diukur sesuai apa
yang terungkap dalam kontruksi teoritisnya.
 Validitas Konstruk (Construct Validity) adalah validitas yang
mempermasalahkan seberapa jauh butir-butir tes mampu
mengukur apa yang benar-benar hendak diukur sesuai
dengan konsep khusus atau definisi konseptual yang telah
ditetapkan. Validitas konstruk (construct) berkaitan dengan
fenomena dan objek yang abstrak, tetapi gejalanya dapat di
amati dan dapat di ukur (Kusaeri, 2012:81). Validitas
Konstruk dapat digunakan untuk mengukur sikap, minat
konsep diri, lokus kontrol, gaya kepemimpinan, motivasi
berprestasi, dan lain-lain, maupun yang sifatnya performa
maksimum seperti instrumen untuk mengukur bakat (tes
bakat), inteligensi (kecerdasan intelektual), kecerdasan,
emosional dan lain-lain.
 Validitas Kriteria (Criterion-Related Validity) ditentukan
berdasarkan kriteria, baik kriteria internal maupun kriteria
eksternal. Validitas kriteria diperoleh melalui hasil uji coba
tes kepada responden yang setara dengan responden yang
akan dievaluasi atau diteliti. Validitas kriteria merupakan
sebuah ukuran validitas yang ditentukan dengan cara
membandingkan skor-skor tes dengan kinerja tertentu pada
sebuah ukuran luar atau yang lain (Sudjana, 1999:15).
 Validitas Muka (Face Validity). Validitas muka adalah tipe

validitas yang paling rendah signifikasinya karena hanya
didasarkan pada penilaian selintas mengenai isi alat ukur.
Apabila isi alat ukur telah tampak sesuai dengan apa yang
ingin diukur maka dapat dikatakan validitas muka telah
terpenuhi (Arikunto, 1991:66). Validitas muka bisa
dikatakan juga sebagai validitas rendah dari validitas isi
(Content Validity).
B. Reliabilitas
a. Pengertian Reliabilitas
Realibilitas berasal dari kata reliable yang berarti dapat dipercaya.

Realibilitas suatu tes menunjukkan derajat ketetapan, keterandalan, atau
kemantapan (the level of cansistency) tes yang bersangkutan dalam
mendapatkan data (score) yang dicapai seseorang, apabila tes tersebut
diberikan kepadanya pada waktu yang berbeda. Reliabilitas sering
diartikan dengan keterandalan.
Menurut Masri Singarimbun, realibilitas adalah indeks yang
menunjukkan sejauh mana suatu alat ukur dapat dipercaya atau dapat
diandalkan. Bila suatu alat pengukur dipakai dua kali – untuk mengukur
gejala yang sama dan hasil pengukuran yang diperoleh relative konsisten,
maka alat pengukur tersebut reliable. Dengan kata lain, realibitas
menunjukkan konsistensi suatu alat pengukur di dalam pengukur gejala
yang sama.
Menurut Sumadi Suryabrata (2004: 28) reliabilitas menunjukkan
sejauhmana hasil pengukuran dengan alat tersebut dapat dipercaya. Hasil
pengukuran harus reliabel dalam artian harus memiliki tingkat konsistensi
dan kemantapan.
Reliabilitas, atau keandalan, adalah konsistensi dari serangkaian
pengukuran atau serangkaian alat ukur. Hal tersebut bisa berupa
pengukuran dari alat ukur yang sama (tes dengan tes ulang) akan
memberikan hasil yang sama, atau untuk pengukuran yang lebih subjektif,
apakah dua orang penilai memberikan skor yang mirip (reliabilitas antar
penilai). Reliabilitas tidak sama dengan validitas. Artinya pengukuran
yang dapat diandalkan akan mengukur secara konsisten, tapi belum tentu
mengukur apa yang seharusnya diukur. Dalam penelitian, reliabilitas
adalah sejauh mana pengukuran dari suatu tes tetap konsisten setelah
dilakukan berulang-ulang terhadap subjek dan dalam kondisi yang sama.
Penelitian dianggap dapat diandalkan bila memberikan hasil yang
konsisten untuk pengukuran yang sama. Tidak bisa diandalkan bila
pengukuran yang berulang itu memberikan hasil yang berbeda-beda.
Tinggi rendahnya reliabilitas, secara empirik ditunjukan oleh suatu
angka yang disebut nilai koefisien reliabilitas. Reliabilitas yang tinggi
ditunjukan dengan nilai rxx mendekati angka 1. Kesepakatan secara umum
reliabilitas yang dianggap sudah cukup memuaskan jika ≥ 0.700.
b. Teknik Mencari Reliabilitas pada Sebuah Tes
Adapun teknis yang digunakan untuk mencari reliabilitas pada

sebuah tes yaitu:
 Teknik Ulangan (Koefisien Stabilitas) merupakan jenis reliabel
apabila test and retest yaitu memberikan tes kepada sekelompok
individu kemudian mengulang tes yang sama pada kelompok
yang sama di waktu yang berbeda.
 Teknik Bentuk Paralel (Koefisien Ekuivalen) dipergunakan dua
buah tes yang sejenis (tetapi tidak identik). Kedua tes ini
diberikan kepada kelompok subjek tanpa adanya tenggang waktu.
Terdapat pula keuntungan menggunakan teknik bentuk paralel
dibandingkan dengan teknik ulangan:
1. Item-item yang digunakan tidak sama maka pengaruh
daripada hasil latihan dapat dihindarkan.
2. Tidak adanya tenggang waktu maka perbedaan faktor-faktor
yang memengaruhi pelaksanaan tes boleh dikatakan tidak ada.
 Teknik Belah Dua (Koefisien Konsistensi Internal) merupakan
reliabilitas yang didapat dari mengorelasikan dua buah tes dari
kelompok yang sama kemudian tiap tiap bagian diberikan skor
secara terpisah. Terdapat pula 2 prosedur yang dapat digunakan
untuk membelah dua suatu tes, yaitu:
1. Prosedur ganjil genap.
2. Prosedur secara random.
c. Karakteristik Reabilitas
Sebuah tes dianggap memiliki reliabilitas yang baik apabila memiliki
karakteristik sebagai berikut:
- Reliabilitas merupakan milik dari satu set nilai tes bukan milik tes
itu sendiri, artinya suatu tes dikatakan baik apabila dapat
menghasilkan skor yang cukup akurat, apabila tes tersebut
diberikan pada kelas tertentu, maka bisa juga menghasilkan skor
yang cukup konsisten bila diberikan pada kelas yang berbeda atau
ketika diberikan pada kelas yang sama pada waktu yang berbeda.
- Suatu tes dikatakan reliable jika dua buah tes dilakukan pada jarak
waktu yang berbeda dan menunjukkan skor yang tidak jauh
berbeda.
- Reliabilitas dapat dinyatakan untuk dua atau lebih pengukuran
independen yang diperoleh dari tes yang sama untuk setiap anggota
kelompok
d. Rumus Reabilitas
Terdapat beberapa rumus dalam pengujian reliabilitas instrumen,
antara lain; Spearman Brown, Flanagan, Rulon, Kuder Richardson
(KR) dan Cronbanch Alpha.
- Rumus Spearman-Brown
Rumus Spearman-Brown
Keterangan:
ri = reliabilitas instrument
rb = indeks korelasi antara dua belahan instrument
N = banyaknya responden
X = belahan pertama
Y = belahan kedua
- Rumus Flanagan
Keterangan:
v1 = varians belahan pertama (varian skor butir-butir ganjil)
v2 = varians belahan kedua (varian skor butir-butir genap)
vt = varians skor total
- Rumus Rulon
Keterangan:
ri = reliabilitas instrument.
Vt = varians total atau varians skor total
Vd = varians (varians difference)
d = skor pada belahan awal dikurangi skor pada belahan akhir
- Rumus KR 20
Keterangan:
k = banyaknya butir pertanyaan atau banyaknya soal
pi = proporsi subjek yang menjawab betul pada suatu butir
(proporsi subjek yang mendapat skor 1)
- Rumus KR 21
Keterangan:
p = skor rata-rata
- Rumus Cronbanch Alpha
Keterangan:
ri = reliabilitas instrumen
C. Kepraktisan
Dalam kamus besar bahasa Indonesia kepraktisan diartikan sebagai
suatu yang bersifat praktis atau efisien. Arikunto (2010) mengartikan
kepraktisan dalam evaluasi pendidikan merupakan kemudahan-kemudahan
yang ada pada instrument evaluasi baik dalam mempersiapkan,
menggunakan, menginterpretasi/ memperoleh hasil, maupun kemudahan
dalam menyimpanya.
Kepraktisan juga merupakan salah satu ukuran suatu instrumen
evaluasi dikatakan baik atau tidak. Bila guru menggunakan esay tes untuk
mengukur tanggapan siswa terhadap suatu produk pembelajaran, dan
jumlah siswa yang dibimbingnya mencapai dua ratus orang, maka upaya
ini cenderung tidak praktis. Diperlukan cara lain untuk menilai tanggapan
siswa tersebut, misalnya dengan tes lisan terhadap hasil diskusi kelompok.
Kepraktisan diartikan pula sebagai kemudahan dalam penyelenggaraan,
membuat instrumen, dan dalam pemeriksaan atau penentuan keputusan
yang objektif, sehingga keputusan tidak menjadi bias dan meragukan.
Kepraktisan dihubungkan pula dengan efisien dan efektifitas waktu dan
dana. Sebuah tes dikatakan baik bila tidak memerlukan waktu yang
banyak dalam pelaksanaannya, dan tidak memerlukan dana yang besar
atau mahal.
Kepraktisan berarti sebuah kemudahan baik dalam hal persiapan,

penggunaan, pengolahan, penafsiran, maupun pegadministrasian.
Kepraktisan merupakan syarat suatu tes standar. Berikut ini merupakan
faktor-faktor yang memengaruhi kepraktisan, yaitu:
 Kemudahan mengadministrasi
 Waktu yang disediakan untuk melancarkan evaluasi
 Kemudahan menskor
 Kemudahan interpretasi dan aplikasi
 Tersedianya bentuk instrumen evaluasi yang ekuivalen.
Berkaitan kepraktisan dalam penelitian pengembangan Van den

Akker (1999:10) menyatakan :
“Practically refers to the extent that user (or other expert) consider
the intervention as appealing and usable in ‘normal’ conditions”
Artinya, kepraktisan mengacu pada tingkat bahwa pengguna (atau
pakar-pakar lainnya) mempertimbangkan intervensi dapat digunakan dan
disukai dalam kondisi normal.
Untuk mengukur tingkat kepraktisan yang berkaitan dengan
pengembangan instrument berupa materi pembelajaran, Nieveen (1999)
berpendapat bahwa untuk mengukur kepraktisannya dengan melihat
apakah guru (dan pakar-pakar lainnya) mempertimbangkan bahwa materi
mudah dan dapat digunakan oleh guru dan siswa. Khusus untuk
pengembangan model yang dikembangkan dalam penelitian
pengembangan, model tersebutdikatakan praktis jika para ahli dan praktisi
menyatakan bahwa secara teoritis bahwa model dapat diterapkan di
lapangan dan tingkat keterlaksanaannya model tersebut termasuk kategori
“baik”. Istilah “baik” ini masih memerlukan indikator-indikator yang
diperlukan untuk menentunkan tingkat “kebaikan” dari keterlaksanaan
model yang di kembangkan.
D. Objektivitas
Objektivitas yang dibahas disini menunjukkan skor tes kemampuan
yang sama antara peserta didik yang satu dengan peserta didik yang
lainnya. Objektivitas prosedur tes yang tinggi akan memperoleh
reliabilitas hasil tes yang tidak dipengaruhi oleh prosedur penskoran.
Konsep realibilitas mendasari kesalahan pengukuran yang mungkin terjadi
pada suatu proses pengukuran atau pada nilai tunggal tertentu. ebuah tes
dikatakan memiliki objektivitas apabila dalam pelaksanaan apabila dalam
tes itu tidakada faktor subjektif yang mempengaruhi. Hal ini terjadi pada
sistem pada sistem skoring.Ada dua faktor yang mempengaruhi
subjektivitas dari suatu tes yaitu bentuk tes dan penilai
Faktor yang memengaruhi subjektivitas dari sebuah tes adalah:
 Bentuk Tes
Tes yang berbentuk uraian akan memberikan banyak
kemungkinan kepada si pemakai untukmemberikan
penilaian menurut caranya sendiri. Dengan demikian maka
hasil dari seorang siswayang mengerjakan soal-soal dari
sebuah tes, akan dapat berbeda apabila dinilai oleh dua
orang penilai. Untuk menghindari masuknya unsur
subjektivitas dari penilai, maka sistenm skoringnyadapat
dilakukan dengan membuat pedoman skoring terlebih
dahulu.
 Penilaian
Subjektivitas dari penilai akan dapat masuk karena
secara agak leluasa terutama dalam
tes bentuk uraian. Faktor yang mempengaruhi subjektivitas
yaitu kesan penilai terhadapsiswa, tulisan, waktu
mengadakan penilaian, bahasa, kelelahan dan sebagainya.
Untukmenghindari masuknya unsur subjektivitas dalam
pekerjaan penilaian, maka penilaian harusdilaksanakan
dengan pengingat pedoman. Pedoman yang dimaksud,
terutama menyangkutmasalah pengadministrasian yaitu
kontinuitas dan komprehensivitas. Dengan penelitian
yangkontinu (terus menerus) maka penilaian akan
memperoleh gambaran yang lebih jelas tentangkeadaan
siswa. Adapun komprehensif di sini mencakup keseluruhan
materi, aspek berfikir(ingatan, pemahaman, aplikasi dan
sebagainya), dan berbagai cara tes (tertulis, lisan,
perbuatandan sebagainya).
E. Analisis Kualitas Butir Soal

Analisis butir soal adalah suatu kegiatan analisis untuk menentukan
tingkat kebaikan butir-butir soal yang terdapat dalam suatu tes sehingga
informasi yang dihasilkan dapat kita pergunakan untuk memperbaiki butir
soal dan tes tersebut.
Tujuan analisis butir soal yaitu untuk mengadakan identifikasi soal-
soal yang baik,kurang baik dan soal yang buruk. Sehingga dapat petunjuk
untuk mendapatkan perbaikan.
Manfaat yang dapat diberikan apabila dilakukan analisis terhadap
butir soal,sebagai berikut :
- Untuk mengetahui soal yang dianalisis telah berfungsi
sebagaimana yang diharapkan.
- Untuk mengetahui tingkat kesukaran soal.
- Untuk mengetahui apakah tanggapan-tanggapan soal yang
dianalisis sudah baik susunannya.
- Untuk mengetahui apakah soal yang dianalisis sudah betul/baik
konstruksinya.
- Untuk bahan masukan menyusun program remedial teaching.
- Untuk meningkatakan keterampilan guru dalam merencanakan dan
mengolah hasil tes.
Adapun tingkat kesukaran dalam analisis kualitas butir soal yaitu :

a. Soal Bentuk Objektif
Menggunakan rumus tingkat kesukaran.
( WL+WH )
TK= ×100 %
( nL+ nH )
Keterangan:
WL = Jumlah peserta didik yang menjawab salah dari kelompok bawah
WH = Jumlah peserta didik yang menjawab salah dari kelompok atas
nL = Jumlah kelompok bawah
nH = Jumlah kelompok atas
b. Soal Bentuk Uraian

Menghitung tingkat kesukaran soal bentuk uraian adalah dengan
menghitung presentase peserta didik yang gagal menjawab benar atau di
bawah batas lulus (passing grade) untuk tiap-tiap soal. Adapun kriteria
yang dapat digunakan sebagai berikut:
- Jika jumlah peserta didik yang gagal mencapai 27%, termasuk
mudah.
- Jika jumlah peserta didik yang gagal antara 28% sampai dengan
72% , termasuk sedang.
- Jika jumlah peserta didik yang gagal 72% ke atas, termasuk sukar.
c. Daya Pembeda
Perhitungan daya pembeda adalah pengukuran sejauhmana suatu butir
soal mampu membedakan pesertadidik yang sudah belum menguasai
kompetensi berdasarkan kriteria tertentu.
Adapun rumus untuk mengetahui daya pembeda adalah:
( WL−WH )
DP=
n
Keterangan:
DP = adalah besarnya daya pembeda yang dicari
n = besarnya sampel dari salah satu kelompok
F. Analisis Pengecoh
Pengecoh dikatakan berfungsi efektif apabila paling tidak ada siswa
yang terkecoh memilih. Pengecoh yang sama sekali tidak dipilih tidak
dapat melakukan fungsinya sebagai pengecoh karena terlalu mencolok dan
dimengerti oleh semua mahasiswa sebagai pengecoh soal. Pengecoh yang
berdasarkan hasil uji coba tidak efektif direkomendasikan untuk diganti
dengan pengecoh yang lebih menarik.
Indeks pengecoh dihitung dengan rumus:
IP = P x 100%
(N - B) (n - 1)
Keterangan:
IP = indeks pengecoh
P = jumlah peserta didik yang memilih pengecoh
N = jumlah peserta didik yang ikut tes
B = jumlah peserta didik yang menjawab benar pada setiap soal
n = jumlah alternatif jawaban
1= bilangan tetap
Catatan:
Jika semua peserta didik menjawab benar pada butir soal tertentu (sesuai
kunci jawaban), maka IP = 0 yang berarti soal tersebut jelek. Dengan
demikian pengecoh tidak berfungsi.
Contoh:
50 orang peserta didik dites dengan 10 soal bentuk pilihan ganda. Tiap soal
memiliki alternatif jawaban (a, b, c, d, e). Kunci jawaban (jawaban yang
benar) no. 8 adalah c. Setelah soal no.8 diperiksa untuk semua peserta didik,
ternyata dari 50 orang peserta didik, 20 peserta didik menjawab benar dan
30 peserta didik menjawab salah. Idealnya, pengecoh dipilih secara merata.
Berikut ini adalah contoh soal no.8
.
Alternatif jawaban A B C D E
Distribusi jawaban peserta
7 8 20 7 8
didik
IP 93% 107% ** 93% 107%
Kualitas pengecoh ++ ++ ++ ++ ++
Keterangan:
** = kunci jawaban
++ = sangat baik
+ = baik
= kurang baik
_ = jelek
_ _ = sangat jelek
Pada contoh diatas, IP butir a, b, c, d, dan e adalah 93%, 107%, 93%, dan
107%. Semuanya dekat dengan angka 100%, sehingga digolongkan sangat
baik sebab semua pengecoh itu berfungsi. Jika pilihan jawaban peserta didik
menumpuk pada satu alternatif jawaban, misalnya seperti berikut:
Alternatif jawaban A B C D E
Distribusi jawaban peserta didik 20 2 20 8 0
IP 267% 27% ** 107% 0%
Kualitas pengecoh _ - ** ++ _
Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik, pengecoh (e)
dan (b) tidak berfungsi, pengecoh (a) menyesatkan, maka pengecoh (a) dan
(e) perlu diganti karena termasuk jelek, danpengecoh (b) perlu
direvisikarena kurang baik. adapun kualitas pengecoh berdasar indeks
pengecoh adalah:
Sangat baik IP = 76% - 125%
Baik IP = 51% - 75% atau 126% - 150%
Kurang baik IP = 26% - 50% atau 151% - 175%
Jelek IP = 0% - 25% atau 176% - 200%
Sangat jelek IP = lebih dari 200%
G. Analisis Homogenitas Soal

Homogen tidaknya butir soal diketahui dengan menghitung
koefisien korelasi antara skor tiap butir dengan skor total. Perhitungan
dilakukan sebanyak butir soal dalam tes yang bersangkutan. Pengujian
atau uji homogenitas bertujuan untuk meyakinkan bahwa sekumpulan data
yang akan diukur memang berasal dari populasi yang homogen (sama).
Penghitungan homogenitas dilakukan peneliti saat ingin membandingkan
sebuah sikap, intensi, atau perilaku (varians) pada dua kelompok populasi
(Widhiarso,2011).
Salah satu metode yang sering digunakan untuk uji homogenitas
adalah Levene’s Test. Metode ini menguji perbedaan varians antara dua
kelompok data dan memberikan nilai signifikansi (p-value). Jika nilai p-
value lebih besar dari 0,05, maka kelompok data dapat dianggap homogen.
Jika nilai p-value kurang dari 0,05, maka kelompok data dianggap
heterogen.
Tes Bartlett juga merupakan metode yang digunakan untuk
menguji homogenitas, terutama ketika terdapat lebih dari dua kelompok
data yang akan dibandingkan. Tes Bartlett menghitung statistik Chi-
Kuadrat untuk menguji perbedaan varians antara kelompok-kelompok
tersebut.
Dalam melakukan uji homogenitas, dapat menggunakan perangkat
lunak statistik seperti SPSS untuk mempermudah perhitungan. Namun,
perhitungan juga dapat dilakukan secara manual dengan mengikuti
langkah-langkah yang sesuai dengan metode yang digunakan.
Dengan melakukan uji homogenitas sebelum melakukan pengujian
statistik lanjutan, kita dapat memastikan bahwa kelompok-kelompok
populasi yang dibandingkan memiliki tingkat keragaman yang serupa. Hal
ini penting untuk menghasilkan analisis yang valid dan menghindari
kesalahan interpretasi.
H. Efektifitas Fungsi Opsi

Setelah tingkat kesukaran soal, daya pembeda, homogenitas dan
analisis pengecoh dihitung, selanjutnya perlu diketahui apakah suatu opsi
dari setiap soal berfungsi secara efektif atau tidak.
Untuk itu, dapat digunakan langkah-langkah berikut:
- Menentukan jumlah peserta didik (N)
- Menentukan jumlah sampel (n), baik untuk kelompok atas maupun
kelompok bawah yaitu 27% x N
- Membuat tabel pengujian efektifitas opsi
- Menghitung jumlah alternatif jawaban yang dipilih peserta didik,
baik untuk kelompok atas maupun kelompok bawah.
- Menentukan efektifitas fungsi opsi dengan kriteria:
a. Opsi kunci
1. Jumlah pemilih kelompok atas dan bawah antara 25-75%
2. Jumlah pemilih kelompok atas harus lebih banyak dari
jumlah pemilih kelompok bawah.
b. Opsi pengecoh
1. Jumla pemilih kelompok atas dan bawah tidak kurang dari
25%
2. Jumlah pemilih kelompok bawah harus lebih besar daripada
kelompok atas
PENUTUP
Analisis tes dan butir soal merupakan suatu tahap yang harus ditempuh
untuk mengetahui derajat kualitas suatu tes, baik tes secara keseluruhan maupun
butir soal yang menjadi bagian dari tes tersebut.
Suatu instrument dapat dikatakan valid apabila benar-benar mampu
mengukur apa yang hendak diukur dengan tepat. Validitas dapat dihitung dengan
beberapa metode, antara lain metode korelasi product moment angka
simpangan,korelasi perbedaan peringkat peringkat dan diagram pencar.
Reliabilitas merupakan derajat konsistensi suatu instrument.
Suatu tes dapat dikatakan reliable apabila selalu memberikan hasil yang
sama bila diteskan pada kelompok yang sama pada kesempatan yang berbeda.
Analisis butir soal dilakukan dengan melakukan perhitungan tingkat
kesukaran dan daya pembeda. Analisis lain yang dibutuhkan untuk memastikan
kualitas tes dan butir soal adalah analisis pengecoh, analisis homogenitas dan
analisis efektivitas fungsi opsi.
21
SOAL LATIHAN
1. Mengapa seorang guru harus melakukan analisis kualitas tes dan

karakteristik butir soal?
2. Aspek apa yang perlu diperhatikan dalam menyusun butir soal?
3. Apa itu analisis kualitas soal?
4. Apa manfaat dari analisis butir soal?
5. Seberapa penting dan jelaskan fungsi dari adanya pengecoh dalam
penyusunan soal?
22
REFERENSI
Dr. Muhammad Ilyas Ismail, M.Pd., M.Si. ((2020) (2023)). Evaluasi

Pembelajaran : Konsep Dasar, Prinsip, Teknik. Depok: PT. Raja Grafindo
Persada.
Muchlisin Riadi . (2017, April 1). Pengertian, Jenis dan Cara Menghitung
Validitas. https://www.kajianpustaka.com
Psychology Mania. (2013, Januari). Faktor-Faktor Yang Mempengaruhi
Validitas. https://www.psychologymania.com
Noor Wahyuni. (2014, November 1). UJI VALIDITAS DAN RELIABILITAS.
https://qmc.binus.ac.id/
Navel Oktaviandy Mangelep. (2012, April 3). RELIABILITAS, KEPRAKTISAN,
DAN EFEK POTENSIAL SUATU INSTRUMEN.
https://navelmangelep.wordpress.com/
Ade Marlina, Khairun Nisa, Miatun Natasya, Silvia Raswati, Retno. (2010,
November 28). Analisis Kualitas Tes dan Butir Soal.
https://fidanurlaeli.wordpress.com/
Maulidyah, R. (2015, Mei 2015). ANALISIS BUTIR SOAL.
https://riskangeblog.blogspot.com/
Salma. (2023, Juli 15). Uji Homogenitas: Pengertian, Jenis, dan Contohnya.
https://tambahpinter.com/uji-homogenitas/
23

Final BAB ENAMM Evaluasi

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Final BAB ENAMM Evaluasi

Diunggah oleh

Hak Cipta:

Format Tersedia

MAKALAH

ANALISIS KUALITAS TES DAN BUTIR SOAL

Disusun Untuk Memenuhi Tugas

PROGRAM STUDI PENDIDIKAN AKUNTANSI

Puji syukur kehadirat Allah SWT karena telah memberikan kesempatan

Makassar, 2 September 2023

 Faktor Administrasi Evaluasi dan Penskoran.

 Faktor Jawaban dari Peserta Didik.

 Validitas Muka (Face Validity). Validitas muka adalah tipe

Realibilitas berasal dari kata reliable yang berarti dapat dipercaya.

b. Teknik Mencari Reliabilitas pada Sebuah Tes

Adapun teknis yang digunakan untuk mencari reliabilitas pada

- Rumus Cronbanch Alpha

Kepraktisan berarti sebuah kemudahan baik dalam hal persiapan,

Berkaitan kepraktisan dalam penelitian pengembangan Van den

E. Analisis Kualitas Butir Soal

Adapun tingkat kesukaran dalam analisis kualitas butir soal yaitu :

b. Soal Bentuk Uraian

G. Analisis Homogenitas Soal

H. Efektifitas Fungsi Opsi

1. Mengapa seorang guru harus melakukan analisis kualitas tes dan

Dr. Muhammad Ilyas Ismail, M.Pd., M.Si. ((2020) (2023)). Evaluasi

Anda mungkin juga menyukai