Anda di halaman 1dari 34

MAKALAH EVALUASI PEMBELAJARAN KIMIA

“Mengaplikasikan Analisis Butir Soal Secara Kualitatif Dan Kuantitatif”

Ditujukan untuk memenuhi Tugas Mata Kuliah Evaluasi Pembelajaran Kimia

Dosen Pengampu : Dr. Luki Yunita, M. Pd

Disusun Oleh :

Kelompok 7

Kelas 3B – Pendidikan Kimia

1. Rizky Aulia Khoirunissa (11220162000034)


2. Nadia Ayu Fania (11220162000037)
3. Nabila Al Zahra (11220162000038)
4. Fida Atikah Hisana (11220162000050)

PROGRAM STUDI PENDIDIKAN KIMIA

FAKULTAS ILMU TARBIYAH DAN KEGURUAN

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

2023
KATA PENGANTAR

Puji syukur kehadirat Allah SWT atas segala limpahan rahmat, taufik, dan hidayah- Nya
sehingga kami dapat menyelesaikan penyusunan makalah ini untuk memenuhi tugas mata kuliah
Ilmu Pendidikan Islam secara tepat waktu. Semoga makalah ini dapat bermanfaat bagi
pembacanya.

Tidak lupa ucapan terima kasih kami berikan kepada Dosen Pengampu mata kuliah
Evaluasi Pembelajaran Kimia yaitu Dr. Luki Yunita, M.Pd., serta pihak-pihak yang terkait dalam
membantu penyusunan makalah yang berjudul “Mengaplikasikan Analisis Butir Soal Secara
Kualitatif Dan Kuantitatif”

Penyusun menyadari dalam penulisan makalah ini banyak kekurangan seperti teknis
penulisan ataupun materi. Oleh karena itu kritik dan saran yang membangun sangat diharapkan
oleh penyusun untuk penyempurnaan makalah yang lebih baik.

Jakarta, 3 November 2023

Penyusun

i
DAFTAR ISI

BAB I .............................................................................................................................................. 1
PENDAHULUAN .......................................................................................................................... 1
A. Latar Belakang ..................................................................................................................... 1
B. Rumusan Masalah ................................................................................................................ 1
C. Tujuan .................................................................................................................................. 2
BAB II............................................................................................................................................. 3
PEMBAHASAN ............................................................................................................................. 3
A. Pengertian Analisis Butir Soal ............................................................................................. 3
1. Analisis Butir Soal Kualitatif ........................................................................................... 5
2. Analisis Butir Soal Kuantitatif ......................................................................................... 6
B. Perbedaan Analisis Butir Soal Secara Kualitatif Dan Kuatitatif ......................................... 7
C. Mengaplikasian Analisis Butir Soal Secara Empirik ......................................................... 11
1. Teori Tes Klasik ............................................................................................................. 11
2. Teori Respon Butir ......................................................................................................... 25
BAB III ......................................................................................................................................... 27
PENUTUP..................................................................................................................................... 27
A. Kesimpulan ........................................................................................................................ 27
DAFTAR PUSTAKA ................................................................................................................... 29

ii
BAB I

PENDAHULUAN

A. Latar Belakang
Tidak ada usaha guru yang lebih baik selain usaha untuk selalu meningkatkan mutu
tes yang disusunnya. Namun, hal ini tidak dilaksanakan karena kecenderungan
seseorang untuk beranggapan bahwa hasil karyanya adalah yang terbaik atau setidak-
tidaknya sudah cukup baik. Guru yang sudah berpengalaman, mengajar dan menyusun
soal-soal tes, juga masih sukar menyadari bahwa tesnya masih belum sempurna. Oleh
karena itu, cara yang paling baik adalah secara jujur melihat hasil yang diperoleh oleh
siswa. (Ariunto, 2006).
Kegiatan analisis butir soal merupakan kegiatan penting dalam penyusunan soal
agar diperoleh butir soal yang bermutu.Tujuan kegiatan ini adalah mengkaji dan
menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum digunakan,
meningkatkan kualitas butir tes melalui revisi atau membuang soal yang tidak efektif,
serta mengetahui informasi diagnostik pada siswa apakah mereka telah memahami
materi yang telah diajarkan. Soal yang bermutu adalah soal dapat memberikan
informasi setepat-tepatnya tentang siswa mana yang telah menguasai meteri dan siswa
yang belum menguasai materi. (Suprananto, 2012)
Analisis butir soal dapat dilakukan secara kualitatif (berkenaan dengan isi dan
bentuknya), dan kuantitatif (berkaitan dengan ciri-ciri statistiknya). Analisis kualitatif
mencakup pertimbangan validitas isi dan konstruksi, sedangkan analisis kuantitatif
mencakup pengukuran validilitas dan reliabilitas butir soal, kesulitan butir soal, serta
diskriminasi soal. Oleh karena itu, teknik terbaik adalah menggunakan atau
memadukan keduanya. Dalam makalah ini, akan dijelaskan secara rinci mengenai
analisis butir soal secara lengkap. (Suprananto, 2012)

B. Rumusan Masalah
Berdasarkan latar belakang tersebut, rumusan masalah yang akan dibahas dalam
makalah ini sebagai berikut.
1. Apa itu analisis butir soal secara kualitatif dan kuantitatif ?
2. Apa perbedaan analisis butir soal secara kualitatif dan kuantitatif ?

1
3. Bagaimana pengaplikasian analisis butir soal secara empiric ?

C. Tujuan
Adapun tujuan dari penulisan makalah ini adalah sebagai berikut.
1. Mengetahui analisis butir soal secara kualitatif maupun kuantitatif.
2. Mengetahui perbedaan dari analisis butir soal secara kualitatif maupun kuantitatif.
3. Mengetahui pengaplikasian dari analisis butir soal secara empiric.

2
BAB II

PEMBAHASAN

A. Pengertian Analisis Butir Soal


Analisis kualitas tes merupakan kegiatan untuk mengkaji soal pada setiap item atau
butirnya guna mengetahui kualitas dari setiap butir soal tersebut. Analisis kualitas butir
soal adalah suatu prosedur yang sistematis, yang akan memberikan informasi – informasi
yang sangat khusus terhadap butir tes yang kita susun (Kusaeri & Suprananto, 2012).
Analisis kualitas soal dilakukan untuk mengetahui berfungsi tidaknya sebuah soal. Dari
pengertian tersebut dapat disimpulkan bahwa analisis kualitas butir soal merupakan
kegiatan menganalisis tiap-tiap butir soal secara mendetail menggunakan metode
pengujian tertentu (Surapranata, 2009).
Menurut Nitko yang diacu dalam Pedoman Analisis Butir Soal oleh Depdiknas (2008)
disebutkan bahwa analisis soal dapat digunakan untuk menentukan apakah suatu fungsi
butir soal sesuai dengan yang diharapkan, memberikan masukan kepada siswa tentang
kemampuan kognitif mereka serta merevisi materi yang dinilai atau diukur. Linn dan
Gronlund (1995) juga menambahkan tentang pelaksanaan kegiatan analisis butir soal yang
hiasanya didesain untuk menjawab pertanyaan-pertanyaan berikut ini.
1) Apakah fungsi soal sudah tepat?
2) Apakah soal ini memiliki tingkat kesukaran yang tepat?
3) Apakah soal bebas dari hal-hal yang tidak relevan?
4) Apakah pilihan jawabannya efektif?
Untuk menentukan butir soal yang tepat dalam suatu penelitian, harus diketahui bahwa
soal tersebut mempunyai daya beda yang baik terhadap siswa yang berbeda, waktu yang
berbeda dan tempat yang berbeda pula. Dengan kata lain butir soal merupakan kemampuan
suatu soal untuk membedakan antara siswa yang berkemampuan tinggi dengan siswa
berkemampuan rendah berdasarkan kriteria tertentu (Suwarto, 2007). Analisis butir soal
dilakukan dalam rangka mengetahui terlalu mudah atau sulit soal yang dikerjakan
siswa serta mengetahui kemampuan butir soal dalam membedakan siswa yang sudah
atau belum menguasai materi (Amalia & Widayati, 2012).

3
Identifikasi terhadap setiap butir item soal dilakukan dengan harapan dapat
menemukan berbagai informasi, yang pada dasarnya merupakan umpan balik
(feedback) guna melakukan perbaikan, pembenahan, dan penyempurnaan kembali
terhadap butir-butir soal, sehingga pada waktu yang akan datang tes hasil belajar yang
disusun atau dirancang oleh guru itu dapat mengukur apa yang hendak diukur yang
dilakukan secara terus-menerus dan dilakukan oleh lembaga mandiri secara berkala,
menyeluruh, transparan, dan sistematik, untuk menilai pencapaian standar nasional
pendidikan (Fitrianawati, 2017).
Kegiatan analisis butir soal memiliki banyak manfaat, diantaranya adalah: (1) dapat
membantupara pengguna tes dalam evaluasi atas tes yang digunakan, (2) sangat
relevanbagi penyusunan tes informal dan lokal seperti tes yang disiapkan guru untuk siswa
di kelas, (3) mendukung penulisan butir soal yang efektif, (4) secara materi dapat
memperbaiki tes di kelas, (5) meningkatkan validitas soal dan reliabilitas (Anastasi &
Urbina, 1997). Di samping itu, manfaat lainnya adalah: (1) menentukan apakah suatu
fungsi butirsoal sesuai dengan yang diharapkan, (2) memberi masukan kepada siswa
tentang kemampuan dan sebagai dasaruntuk bahan diskusi di kelas, (3) memberi masukan
kepada guru tentang kesulitan siswa, (4) memberi masukan pada aspek tertentu untuk
pengembangan kurikulum merevisi materi yang dinilai atau diukur,(6) meningkatkan
keterampilan penulisan soal (Nitko,1996).
Keperluan analisis butir soal dalam proses belajar mengajar, dapat digunakan
tes yang telah distandardisasikan, maupun tes buatan guru sendiri. Tes yang telah
distandarisasikan adalah tes yang telah mengalami proses standardisasi, yakni proses
validitas dan reliabilitas, sehingga tes tersebut benar-benar valid dan reliabel untuk suatu
tujuan dan bagi kelompok tertentu. Tes yang telah distandarisasikan oleh pemerintah pusat
digunakan dalam ujian nasional. Sedangkan tes buatan guru sendiri adalah suatu tes yang
disusun oleh guru sendiri untuk mengevaluasi keberhasilan proses belajar mengajar
(Amalia & Widayati, 2012).
Menurut Daryanto, analisis kualitas butir soal adalah kegiatan yang dilakukan untuk
mengidentifikasi soal – soal baik, kurang baik, soal jelek, dan memperoleh petunjuk untuk
melakukan perbaikan terhadap mutu soal (Daryanto, 2008). Kegiatan analisis kualitas butir
soal dapat dilakukan dengan dua cara yaitu secara kualitatif dan kuantitatif. Analisis secara

4
kualitatif berkaitan dengan isi dan bentuknya, sedangkan secara kuantitatif berkaitan
dengan ciri ciri statistiknya. Agar dapat lebih memahami, berikut ini akan diuraikan
mengenai teknik analisis kualitas butir soal secara kualitatif dan kuantitatif.

1. Analisis Butir Soal Kualitatif


Analisis kualitas butir soal secara kualitatif pada prinsipnya dilaksanakan
berdasarkan kaidah penulisan soal (tes tertulis, perbuatan dan sikap). Aspek yang
diperhatikan di dalam penelaahan secara kualitatif ini adalah setiap soal ditelaah dari
segi materi, konstruksi, bahasa/budaya, dan kunci jawaban/pedoman penskorannya
(Wahidmurni, 2010).
Analisis secara kualitatif dilakukan melalui penelaahan untuk mengetahui validitas
isi instrumen tes yaitu kesesuaian antara soal-soal dalam tes dengan indikator yang telah
disusun sebelumnya, hal ini merujuk pendapat dari Budiyono (2013) bahwa suatu
instrumen dikatakan valid menurut validitas isi jika isi instrumen tersebut telah
merupakan sampel yang representatif dari keseluruhan isi hal yang akan diukur. Bahan-
bahan penunjang analisis butir soal secara kualitatif adalah kisi-kisi pembuatan soal,
kurikulum acuan yang digunakan, buku sumber, kamus bahasa Indonesia, dan pedoman
analisis kualitas butir soal objektif maupun subjektif (Supardi, 2016).
Analisis butir soal secara kualitatif dilakukan dengan cara menelaah kesesuaian
dengan kemampuan dasar dan indikator yang hendak diukur serta apakah butir-butir
soal tersebut telah menenuhi syarat dan ketentuan. Aspek yang diperhatikan adalah
penelaahan dari segi materi, konstruksi, bahasa/budaya, dan kunci
jawaban/pedoman penskorannya (Sari, 2017). Ada beberapa teknik yang dapat
digunakan untuk menganalisis butir soal secara kualitatif, antara lain yaitu teknik
moderator dan teknik panel (Fatimah & Alfath, 2019).
1. Teknik moderator merupakan menganalisis dengan cara berdiskusi yang di
dalamnya terdapat satu orang sebagai penengah. Berdasarkan teknik ini,
setiap butir soal didiskusikan secara bersama-sama dengan beberapa ahli seperti
guru yang mengajarkan materi, ahli materi, penyusun atau pengembang
kurikulum, ahli penilaian, ahli bahasa (Sumiati, et al, 2018), berlatarbelakang
psikologi. Teknik ini sangat baik karena setiap butir soal dilihat secara bersama-

5
sama berdasarkan kaidah penulisannya. Di samping itu, para penelaah
dipersilahkan mengomentari/memperbaiki berdasarkan ilmu yang dimilikinya.
Setiap komentar/masukan dari peserta diskusi dicatat oleh notulis. Setiap butir soal
dapat dituntaskan secara bersama- sama. Namun, kelemahan teknik ini adalah
memerlukan waktu yang lama untuk berdiskusi setiap satu butir soal (Wahidmurni,
2010).
2. Teknik panel yakni suatu teknik menelaah butir soal berdasarkan kaidah
penulisan butir soal. Kaidah itu diantaranya materi, konstruksi, bahasa atau
budaya, kebenaran kunci jawaban atau pedoman penskoran. Dalam
menganalisis butir soal secara kualitatif, penggunaan format penelaahan soal
akan sangat membantu dan mempermudah prosedur pelaksanaannya (Sumiati et al,
2018). Analisis materi dimaksudkan sebagai penelaahan yang berkaitan dengan
substansi keilmuan yang ditanyakan dalam soal serta tingkat kemampuan yang
sesuai dengan soal. Analisis konstruksi dimaksudkan sebagai penelaahan yang
umumnya berkaitan dengan teknik penulisan soal. Analisis bahasa dimaksudkan
sebagai penelaahan soal yang berkaitan dengan pengunaan bahasa Indonesia yang
baik dan benar (Asrul, et al, 2015).

2. Analisis Butir Soal Kuantitatif


Teknik analisis kualitas butir soal secara kuantitatif dikenal juga dengan istilah
analisis empirik. Zulaiha (2008:3) menyatakan bahwa analisis kuantitatif dilakukan
untuk mengetahui apakah soal berkualitas baik atau tidak berdasarkan data empirik yang
diperoleh melalui uji coba soal. Penelaahan soal secara kuantitatif adalah penelaahan
butir soal didasarkan pada data empirik. Data empirik ini diperoleh dari soal yang
telah diujikan (Santosa & Badawi, 2022).
Ada dua pendekatan dalam analisis secara kuantitatif, yaitu pendekatan secara
klasik dan modern . Analisis butir soal secara klasik adalah proses penelaahan butir
soal melalui informasi dari jawaban peserta didik tes guna meningkatkan mutu butir soal
yang bersangkutan dengan menggunakan teori tes klasik (Santosa & Badawi, 2022).
Analisis secara kuantitatif dilakukan dengan pendekatan teori tes klasik yang
perhitungannya dibantu dengan program Microsift Excell. Adapun kelebihan analisis

6
butir soal secara klasik yaitu murah, lebih mudah, dapat dilaksanakan dengan cepat,
sederhana, dan dapat menggunakan data dari beberapa peserta didik, sehingga
pendekatan klasik sering digunakan dibanding dengan pendekatan modern yang masih
dalam proses pengembangan (Zulaiha, 2008). Sedangkan pendekatan modern adalah
penelaahan butir soal dengan menggunakan Item Response Theory (IRT) atau teori
jawaban butir soal. Teori ini merupakan suatu teori yang menggunakan fungsi
matematika untuk menghubungkan antara peluang menjawab benar dengan
kemampuan peserta didik (Aziza & Dzhalilla, 2018).
Pada analisis kuantitatif, terdapat beberapa karakteristik butir soal, yaitu taraf
kesukaran, daya pembeda, dan efektifitas distraktor, validitas butir dan reliabilitas
(Mardapi, 2012). Suatu soal akan dikatakan baik apabila memiliki karakteristik butir
soal yang sesuai. Suatu soal akan dikatakan baik apabila memiliki karakteristik butir
soal yang sesuai. Analisis kualitatif merupakan penilaian yang dimaksudkan untuk
menganalisis butir soal ditinjau dari segi teknis, isi dan keterkaitan soal dengan materi
yang diajarkan serta editorial (Nurinda, et al, 2014).

B. Perbedaan Analisis Butir Soal Secara Kualitatif Dan Kuatitatif


Analisis soal secara teoritik atau analisis kualitatif dilakukan sebelum diadakan
ujicoba, yakni dengan cara mencermati butir-butir soal yang telah disusun dilihat dari
kesesuaian dengan kemampuan dasar dan indikator yang diukur serta pemenuhan per-
syaratan baik dari aspek materi, kontruksi, dan bahasa (Mardapi, 2004). Sedangkan
analisis soal secara kuantitatif menekankan pada karakteristik internal tes melalui data
yang diperoleh secara empiris. Karakteristik internal secara kuantitatif dimaksudkan
meparameter soal tingkat kesukaran, daya pembeda, distribusi jawaban, dan reliabilitas
(Surapranata, 2005)
Sebelum menganalisis kualitas butir soal, pendidik harus memperhatikan kaidah
penulisan butir soal terlebih dahulu. Hal tersebut dilakukan dengan tujuan untuk
mendapatkan butir soal yang berkualitas dan layak untuk diujikan kepada peseta didik.
Untuk itu, sangat penting bagi pendidik dalam menguasi dan memahami kaidah-kaidah
penulisan butir soal tes. Kaidah penulisan butir soal yang menjadi pedoman dalam

7
menganalisis kualitas butir soal secara kualitatif adalah sebagai berikut: (Wahidmurni,
2010)
a. Aspek materi, berkaitan dengan substansi keilmuan yang ditanyakan dalam soal.
Aspek yang harus diperhatikan yaitu,
(1) soal harus sesuai dengan indikator;
(2) materi yang ditanyakan sesuai dengan kompetensi;
(3) pilihan jawaban homogen dan logis; dan
(4) kunci jawaban hanya satu.
b. Aspek konstruksi, berkaitan dengan teknik penulisan soal. Aspek yang perlu
diperhatikan yaitu:
(1) pokok soal dirumuskan dengan singkat, jelas, dan tegas;
(2) rumusan pokok soal dan pilihan jawaban merupakan pernyataan yang
diperlukan saja;
(3) pokok soal tidak memberi petunjuk kunci jawaban;
(4) pokok soal bebas dari pernyataan yang bersifat negatif ganda;
(5) pilihan jawaban homogen dan logis ditinjau dari segi materi;
(6) gambar, grafik, tabel, diagram, atau sejenisnya jelas dan berfungsi;
(7) panjang pilihan jawaban relatif sama;
(8) pilihan jawaban tidak menggunakan pernyataan “semua jawaban di atas
salah/benar” dan sejenisnya;
(9) pilihan jawaban yang berbentuk angka/waktu disusun berdasarkan besar
kecilnya angka atau kronologisnya; dan
(10) butir soal tidak bergantung pada jawaban soal yang sebelumnya.
c. Aspek bahasa/budaya, berkaitan dengan penggunaan bahasa yang baik dan benar
menurut ejaan yang sesuai. Aspek yang harus diperhatikan yaitu:
(1) menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia;
(2) menggunakan bahasa yang komunikatif;
(3) tidak menggunakan bahasa yang berlaku setempat/tabu; dan
(4) pilihan jawaban tidak mengulang kata/kelompok kata yang sama, kecuali
merupakan satu kesatuan (Depdiknas, 2008).

8
Tabel Format Penelaahan Pilihan Ganda
Mata Pelajaran : .................................
Kelas/semester : .................................
Penelaah : .................................
No Nomor soal
Aspek yang ditelaah
1 2 3 ...

A MATERI
1 Soal sesuai dengan indikator (menuntut tes
tertulis untuk bentuk pilihan ganda)
2 Materi yang ditanyakan sesuai dengan
kompetensi (urgensi, relevasi, kontinyuitas,
keterpakaian sehari-hari tinggi)
3 Pilihan jawaban homogen dan logis
Hanya ada satu kunci jawaban
B KONSTRUKSI
4 Pokok soal dirumuskan dengan singkat,
jelas, dan tegas
5 Rumusan pokok soal dan pilihan jawaban
merupakan pernyataan yang diperlukan
saja
6 Pokok soal tidak memberi petunjuk kunci
jawaban
7 Pokok soal bebas dan pernyataan tidak
bersifat negatif ganda
8 Pilihan jawaban homogen dan logis
ditinjau dari segi materi
9 Gambar, grafik, tabel, diagram, atau
sejenisnya jelas dan berfungsi
10 Panjang pilihan jawaban relatif sama
11 Pilihan jawaban tidak menggunakan

9
No Nomor soal
Aspek yang ditelaah
1 2 3 ...

pernyataan "semua jawaban di atas


salah/benar" dan sejenisnya
12 Pilihan jawaban yang berbentuk
angka/waktu disusun berdasarkan urutan
besar kecilnya angka atau kronologisnya
13 Butir soal tidak bergantung pada jawaban
soal sebelumnya
C BAHASA/ BUDAYA
14 Menggunakan bahasa yang sesuai dengan
kaidah bahasa Indonesia
15 Menggunakan bahasa yang komunikatif
16 Tidak menggunakan bahasa yang berlaku
setempat/tabu
17 Pilihan jawaban tidak mengulang
kata/kelompok kata yang sama, kecuali
merupakan satu kesatuan pengertian
Tabel 1. Format Penelaahan Pilihan Ganda
(Sari, 2017)
Sedangkan aspek yang perlu diperhatikan dalam analisis butir soal secara klasik
adalah setiap butir soal ditelaah dari segi:
1. validitas,
2. reliabilitas,
3. tingkat kesukaran,
4. daya pembeda, dan
5. penyebaran pilihan jawaban (untuk soal bentuk obyektif) atau fungsi pengecoh
pada setiap pilihan jawaban (Santosa & Badawi, 2022).

10
C. Mengaplikasian Analisis Butir Soal Secara Empirik
Untuk mendapatkan instrumen berkualitas tinggi, selain dilakukan analisis secara teori
telah butir berdasarkan aspek isi, konstruksi, dan bahasa, perlu juga dilakukan analisis butir
secara empirik. Secara garis besar, analisis butir secara empirik ini dapat dibedakan
menjadi dua, yaitu dengan pendekatan teori tes klasik dan teori respons butir (Item
Response Theory, IRT).

1. Teori Tes Klasik


Classical Test Theory (CTT) atau yang dikenal teori klasik merupakan suatu
analisis butir soal yang diperkenalkan atau digagas oleh Charles Spearman yakni
sekitar tahun 1904 (Sumintono, 2014). Teori tes klasik memiliki pengertian sebagai
suatu analisis butir tes dimana kegunaannya adalah untuk mengukur serta untuk
memprediksi hasil atau luaran dari suatu tes yang diujikan, yang dapat dilihat melalui
tingkat kemampuan orang yang melakukan tes (responden) dan tingkat kesulitan butir
soal yang diujikan (Sumintono, 2014). Penerapan dan penggunaan analisis butir tes
yaitu teori tes klasik ini didasarkan dan hanya fokus pada skor atau nilai sebenarnya.
Teori tes klasik sangat memperhatikan beberapa parameter butir tes yang akan
diujikan yaitu pada parameter tingkat kesulitan butir tes yang merupakan perbandingan
antara jumlah penjawab butir tes secara benar atau responden yang menjawab benar
dengan banyaknya penjawab butir tes atau banyaknya responden yang menjawab, lalu
parameter lainnya yakni daya beda atau diskrimin dari butir tes yang merupakan
kemampuan item atau butir dalam membedakan orang yang melakukan tes
(responden) yang memiliki kemampuan tinggi dan orang yang melakukan tes
(responden) yang memiliki kemampuan rendah, lalu parameter selanjutnya adalah
level tes yang akan diujikan dan dinyatakan sebagai suatu rasio antara varians skor
yang benar dan varians skor yang diamati. Teori tes klasik lebih umum digunakan di
Indonesia karena lebih sederhana dan bisa dikerjakan atau dihitung secara manual.
Sebagaimana disebutkan di atas memungkinkan untuk dikembangkan dalam rangka
pengembangan berbagai formula yang berguna dalam melakukan pengukuran
psikologis (Adedoyin, 2013). Daya Serap, daya beda, indeks kesukaran, efektifitas
distraktor, reliabilitas dan validitas adalah formula penting yang disarikan dari teori
tes klasik.

11
Teori tes klasik memiliki keterbatasan atau kelemahan yang mendasar yaitu
hasil dari estimasi parameter yang diujikan tergantung pada karakteristik
responden. Hal tersebut menjadi kendala dalam pengaplikasiannya (Saifuddin,
1993). Hal ini dapat berakibat pada tingkat kesukaran tes, dimana tes yang
diujikan level tesnya akan menjadi rendah jika tes tersebut diujikan pada
responden yang berkemampuan tinggi dan sebaliknya jika tes tersebut diujikan
pada responden dengan kemampuan rendah maka tingkat kesukaran tes atau level
tesnya akan tinggi. Dari hal tersebut dapat dilihat bahwa hasil perkiraan
kemampuan responden akan tergantung pada karakteristik butir soal.
Keterbatasan tersebut yang menyebabkan bahwa estimasi kemampuan responden
akan tinggi jika tes yang diberikan berada di bawah kemampuannya. Sebaliknya,
estimasi kemampuan responden akan rendah apabila tes yang diujikan berada di
atas tingkat kemampuannya (Ruslan, 2019). Seiring berkembangnya waktu telah
berkembang analisis butir soal Latent Trait Models.
Latent Trait Models atau LTM merupakan suatu analisis butir soal dengan
pendekatan yang modern dimana kegunaannya untuk memperoleh pemodelan
dari hubungan antara kemampuan responden yang dianggap laten atau yang tidak
terlihat dengan menggunakan distribusi jawaban pada tes yang diujikan dan hal
tersebut merupakan sesuatu yang teramati. Model ini dimanfaatkan untuk
menggambarkan kualitas item (butir) soal dilihat dari kemampuan responden
yang mengerjakan tes. Latent Trait Model lebih rumit dan memerlukan software
untuk kalkulasinya. Latent Trait Models dibagi menjadi dua yaitu Rasch Model
dan Item Response Theory (IRT). Menurut Isgiyanto, (2013) Rasch Model
merupakan suatu model yang melibatkan satu parameter saja yakni melibatkan
parameter tingkat kesulitan butir. Hal tersebut membuat Rasch Model dapat
dikatakan sama dengan teori respon butir satu level parameter. (Isgianto, 2013)

a. Analisis Daya Serap


Daya serap adalah kemampuan atau kekuatan untuk melakukan sesuatu untuk
bertindak dalam menyerap pelajaran. Daya serap berasal dari kata “daya”
kemampuan dan “serap” yang berarti mengambil. Jadi daya serap dapat dikatakan

12
sebagai suatu kemampuan untuk memahami materi yang di terima dengan benar.
Daya serap menjadi tolak ukur untuk mengetahui sejauh mata pemahaman peserta
didik terhadap pelajaran yang diajarkan oleh seorang guru dalam proses kegiatan
belajar mengajar. (Prasetyo, 2018)
Pada diri peserta didik terdiri berbagai daya serap belajar antara lain: daya
mengingat, berpikir, merasakan, kemauan dan sebagainya. Daya serap belajar
berkembang dengan baik jika dilatih dan diajarkan, kurangnya daya serap belajar
di sekolah dikarenakan kebiasaan dalam belajar yang tidak sesuai dengan yang
diharapkan peserta didik, akan menyebabkan minat dan motivasinya semakin
pudar. Sehingga dalam belajar ada keterpaksaan yang tidak diinginkan oleh
peserta didik yang mengakibat-kan proses belajar mengajar tidak optimal. Daya
serap erat kaitannya dengan kesulitan belajar peserta didik. Peserta didik yang
tingkat daya serapnya rendah akan sulit dalam mempelajari suatu mata pelajaran
tertentu (Najahah, 2015). Pengukuran daya serap belajar peserta didik sama
dengan alat untuk penilaian keberhasilan belajar mengajar, tes hasil belajar atau
tes prestasi belajar adalah tes yang mengukur pengetahuan yang dimiliki seseorang
akibat adanya program pendidikan maupun program pelatihan. (Alfirani, 2016)
Dengan kualitas tes yang baik, guru dan peserta didik mendapatkan gambaran
ketercapaian kompetensi pembelajaran, yakni kemampuan peserta didik,
pemetaan mutu pembelajaran, pemetaan daya serap pembelajaran dan upaya
perbaikan pada sistem pengajaran dan penilaian. BSNP (2012) menyebutkan
sekolah juga dapat menggunakan analisis daya serap untuk mengetahui
kelemahan-kelemahan pada tes setara Ujian Nasional sebelumnya. Dengan
pemetaan kelemahan-kelemahan yang ada pada peserta didik, sekolah diharapkan
melakukan perbaikan pada materi yang menjadi kelemahan peserta didik. Hal
tersebut dilakukan agar tes yang diberikan kepada siswa sesuai dengan daya serap
siswa, tingkat kesukarannya, dan soal yang diberikan pun harus valid. Sehingga,
tujuan dari pembelajaran dapat tercapai.

b. Tingkat Kesukaran

13
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada
tingkat kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks.
Indeks tingkat kesukaran ini pada umumnya dinyatakan dalam bentuk proporsi
yang besarnya berkisar 0,00 - 1,00 (Aiken, 1994: 66).
Semakin besar indeks tingkat kesukaran yang diperoleh dari hasil hitungan,
berarti semakin mudah soal itu. Suatu soal memiliki TK= 0,00 artinya bahwa
tidak ada siswa yang menjawab benar dan bila memiliki TK= 1,00 artinya bahwa
siswa menjawab benar. Perhitungan indeks tingkat kesukaran ini dilakukan untuk
setiap nomor soal. Pada prinsipnya, skor rata-rata yang diperoleh peserta didik
pada butir soal yang bersangkutan dinamakan tingkat kesukaran butir soal itu.
Rumus ini dipergunakan untuk soal selected response item (Nitko,1996 : 310)
yaitu
Tingkat Kesukaran (TK) = Jumlah siswa yang menjawab benar butir soal/
jumlah siswa yang mengikuti tes
Atau dengan menggunakan rumus:
𝑩
𝑷=
𝑵
P = proporsi (indeks kesukaran)
B = jumlah siswa yang menjawab benar
N = jumlah peserta tes (Nitko, 1996: 310).
Tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya
untuk keperluan ujian semester digunakan butir soal yang memiliki tingkat
kesukaran sedang, untuk keperluan seleksi digunakan butir soal yang memiliki
tingkat kesukaran tinggi atau sukar, dan untuk keperluan diagnostik biasanya
digunakan butir soal yang memiliki tingkat kesukaran rendah atau mudah. (Nitko,
1996: 310)
Klasifikasi tingkat kesulitan soal dapat menggunakan kriteria berikut:

No Range Tingkat Kesukaran Kategori Keputusan


1. 0,7-1,0 Mudah Ditolak/Direvisi
2. 0,3-0,7 Sedang Diterima
3. 0,0-0,3 Sulit Ditolak/Direvisi

14
Tabel 2. Klasifikasi tingkat kesulitan soal

Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagi guru
dan kegunaan bagi pengujian dan pengajaran. Kegunaannya bagi guru adalah:
(1) sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi
masukan kepada siswa tentang hasil belajar mereka,
(2) memperoleh informasi tentang penekanan kurikulum atau mencurigai
terhadap butir soal yang bias. (Nitko, 1996: 310-313)
Adapun kegunaannya bagi pengujian dan pengajaran adalah:
(a) pengenalan konsep yang diperlukan untuk diajarkan ulang,
(b) tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah,
(c) memberi masukan kepada siswa,
(d) tanda-tanda kemungkinan adanya butir soal yang bias,
(e) merakit tes yang memiliki ketepatan data soal (Nitko, 1996: 310-313)
Contoh : Tes formatif Kimia dengan 10 soal bentuk pilihan ganda, dengan
pilihan 4, dengan proporsi 2 soal mudah, 6 soal sedang, dan 2 soal sukar. Jumlah
siswa sebanyak 20 orang.

No Kemampuan Judgement Jumlah Indeks Indeks


soal Yang P Soal Siswa Yang Kesukaran Kesukaran
Diukur Menjawab
Benar
1. Pengetahuan Mudah 18 0,90 Mudah
2. Pengetahuan Mudah 12 0,60 Sedang
3. Pemahaman Sedang 10 0,50 Sedang
4. Aplikasi Sedang 12 0,60 Sedang
5. Aplikasi Sedang 9 0,45 Sedang
6. Pemahaman Sedang 20 1,00 Mudah
7. Analisa Sedang 6 0,30 Sukar
8. Pemahaman Sedang 10 0,50 Sedang
9. Sintesa Sukar 4 0,20 Sukar
10. Sintesa Sukar 9 0,45 Sedang

15
Tabel 3. Contoh formatif indeks kesukaraan

Dalam mencari indeks kesukaran menggunakan rumus yang telah dijelaskan


sebelumnya yaitu :

𝑩
𝑷=
𝑵

18
𝑃= = 0,90
20

Dari contoh di atas diperoleh hasil, yaitu :


Untuk soal nomor 1, 3, 4, 5, 8 dan 9, terdapat kesesuaian antara judgement dengan
hasil analisa.
Untuk soal nomor 2 terdapat di judgement termasuk soal mudah, berdasarkan
analisa termasuk soal sedang.
Untuk soal nomor 6 terdapat di judgement termasuk soal sedang, berdasarkan
analisa termasuk soal mudah
Untuk soal nomor 7 terdapat di judgement termasuk soal sedang, berdasarkan
analisa termasuk soal sukar
Untuk soal nomor 10 terdapat di judgement termasuk soal sukar, berdasarkan
analisa termasuk soal sedang. Berdasarkan analisa yang sudah ada, indeks
kesukaran soal yang harus diperbaiki adalah :
Soal nomor 2, diturunkan ke dalam kategori mudah
Soal nomor 6, dinaikkan ke dalam kategori sedang
Soal nomor 7 diturunkan ke dalam kategori sedang
Soal nomor 10, dinaikkan ke dalam kategori sukar

c. Daya Beda Butir


Daya pembeda adalah kemampuan butir soal tes hasil belajar membedakan
siswa yang mempunyai kemampuan tinggi dan rendah. Daya beda berhubungan
dengan derajat kemampuan butir membedakan dengan baik perilaku pengambil
tes dalam tes yang dikembangkan. Daya pembeda harus diusahakan positif dan
setinggi mungkin. Semakin tinggi koefisien daya beda suatu butir soal, semakin
mampu butir soal tersebut membedakan antara peserta didik yang menguasai

16
kompetensi dengan peserta didik yang kurang menguasai kompetensi. (Purwanto,
2013)
Daya beda soal adalah kemampuan suatu soal untuk membedakan antara
siswa yang pandai (siswa yang mempunyai kemampuan tinggi) dengan siswa
yang kurang pandai (siswa yang mempunyai kemampuan rendah). Fungsi dari
daya beda itu adalah mendeteksi perbedaan individual yang sekecil-kecilnya di
antara para subyek tes, sejalan dengan fungsi dan tujuan tes itu sendiri. Butir yang
demikian dikatakan valid atau cermat (Azwar, 2005: 137).
Daya pembeda dapat diketahui dengan melihat besar kecilnya angka indeks
diskriminasi item. Angka indeks diskriminasi item adalah sebuah angka atau
bilangan yang menunjukkan besar kecilnya daya (discriminatory power) yang
dimiliki oleh sebutir item. Discriminatory power pada dasarnya dihitung atas
dasar pembagian testee ke dalam dua kelompok, yaitu kelompok atas (the higher
group) yang tergolong berkemampuan tinggi dan kelompok bawah (the lower
group) yaitu kelompok testee yang tergolong berkemampuan rendah. (Anas,
2012)
Indeks daya pembeda dihitung atas dasar pembagian kelompok menjadi dua
bagian, yaitu kelom pok atas yang merupakan kelom- pok peserta tes yang
berkemam puan tinggi dengan kelompok bawah yang merupakan kelompok
peserta tes yang berkemampuan rendah. Kemampuan tinggi ditunjukkan dengan
perolehan skor yang tinggi dan kemampuan rendah ditunjukkan dengan dengan
perolehan skor yang rendah. Indeks daya pembeda didefinisikan sebagai selisih
antara proporsi jawaban benar pada kelompok atas dengan proporsi jawaban
benar pada kelompok bawah (Crocker & Algina, (1986).
Perhitungan daya pembeda dibedakan antara kelompok kecil dan kelompok
besar. Kelompok kecil merupakan kelompok yang terdiri kurang dari 100
(seratus) orang, sebaliknya kelompok besar adalah kelompok yang terdiri lebih
dari 100 (seratu) orang. Untuk kelompok kecil, seluruh kelompok peserta tes
(testee) dibagi dua sama besar, 50% kelompok atas (JA) dan kelompok bawah
(JB). Seluruh pengikut tes, dideretkan mulai dari skor teratas sampai terbawah
lalu dibagi dua. Mengingat waktu untuk menganalisis, maka untuk kelompok

17
besar biasanya hanya diambil kedua kutubnya saja, yaitu 27% skor teratas sebagai
kelompok atas (JA) dan 27% skor terbawah sebagai kelompok bawah (JB).
(Suharsimi, 2013)
Rumus untuk mencari indeks daya pembeda yaitu :
𝒏𝒊𝑻 𝒏𝒊𝑹
𝑫= -
𝑵𝑻 𝑵𝑹

Keterangan :

niT : Banyaknya penjawab soal dengan benar dari kelompok atas


NT : Banyaknya penjawab dari kelompok tinggi
niR : Banyaknya penjawab soal dengan benar dari kelompok rendah
NR : Banyaknya penjawab dari kelompok rendah

Kriteria indeks daya pembeda adalah sebagai berikut :

Nilai D Kategori Keterangan


𝐷 ≥ 0,40 Sangat baik Diterima
0,30 ≤ 𝐷 ≤ 0,39 Baik Perlu peningkatan
0,20 ≤ 𝐷 ≤ 0,29 Cukup Perlu perbaikan
𝐷 ≤ 0,19 Tidak Baik Dibuang
Tabel 4. Kriteria indeks daya pembeda

Contoh soal :
Dari analisis soal tes yang terdiri dari 10 butir soal yang dikerjakan oleh 20 orang
siswa, terdapat dalam table

Siswa Kelompok Nilai Soal Skor siswa

1 2 3 4 5 6 7 8 9 10
A B 1 0 1 0 0 0 1 1 1 0 5
B A 0 1 1 1 1 1 0 0 1 1 7
C A 1 0 1 0 1 1 1 1 1 1 8
D B 0 0 1 0 0 1 1 1 1 0 5
E A 1 1 1 1 1 1 1 1 1 1 10

18
F B 1 1 0 0 0 1 1 1 1 0 6
G B 0 1 0 0 0 1 1 1 1 1 6
H B 0 1 1 0 0 1 0 1 1 1 6
I A 1 1 1 0 0 1 1 1 1 1 8
J A 1 1 1 1 0 0 1 0 1 1 7
K A 1 1 1 0 0 1 1 1 1 0 7
L B 0 1 0 1 1 0 0 1 1 0 5
M B 0 1 0 0 0 0 0 1 1 0 3
N A 0 0 1 0 1 1 1 1 1 1 7
O A 1 1 0 1 1 1 1 1 1 1 9
P B 0 1 0 0 1 0 0 0 1 0 3
Q A 1 1 0 1 0 1 1 1 1 1 8
R A 1 1 1 1 0 1 1 1 1 0 8
S B 1 0 1 0 0 1 1 1 1 0 6
T B 0 1 0 1 0 1 1 1 1 0 6
Jumlah 11 15 12 8 6 16 15 17 20 10
Tabel 5. Contoh analisis soal daya pembeda

Menganalisis daya pembeda berdasarkan soal nomor 1. Dari soal nomor 1


dapat dianalisis bahwa dari 20 siswa, kelompok atas yang menjawab benar adalah
8 siswa dan kelompok bawah yang menjawab benar adalah 3 siswa, sisanya
menjawab salah yaitu 9 siswa.
Dapat dianalisis menggunakan rumus daya pembeda
𝑛𝑖𝑇 𝑛𝑖𝑅
𝐷= -
𝑁𝑇 𝑁𝑅
10 10
𝐷= -
8 3

D = 0,8 - 0,3
D = 0,5
Indeks daya pembeda soal nomor 1 adalah indeks daya pembeda yang baik
dan soal dapat diterima
Menganalisis daya pembeda berdasarkan soal nomor 8. Dari soal nomor
8bdapat dianalisis bahwa dari 20 siswa, kelompok atas yang menjawab benar

19
adalah 8 siswa dan kelompok bawah yang menjawab benar adalah 9 siswa,
sisanya menjawab salah yaitu 3 siswa.
Dapat dianalisis menggunakan rumus daya pembeda
𝑛𝑖𝑇 𝑛𝑖𝑅
𝐷= -
𝑁𝑇 𝑁𝑅
10 10
𝐷= -
8 9

D = 0,8 - 0,9
D = -0,1
Indeks daya pembeda soal nomor 8 adalah indeks daya pembeda yang buruk
dan soal dapat tidak dapat diterima. ( Gito, 2007)
Daya pembeda soal maksimal tercapai apabila seluruh peserta tes kelompok
tinggi dapat men, jawab dengan benar (niT = NT), sedangkan seluruh subjek
kelompok rendah tidak seorang pun dapat menjawab dengan benar (niR = 0) (
Gito, 2007)
Dalam hal ini harga d=1-0 =1. Indeks daya pembeda soal sebesar 0 akan
terjadi apabila pro- porsi penjawab benar dari kelom pok tinggi dan dari
kelompok ren- dah sama besarnya, yaitu ketika indeks kesukaran bagi kelompok
tinggi sama besar dengan indeks kesukaran bagi kelompok rendah. ( Gito, 2007)
Secara matematis, indeks daya pembeda soal (D) besarnya akan berkisar
mulai dari 1 sampai dengan +1, namun hanya harga d yang positif sajalah yang
memiliki arti dalam analisis butir soal. Harga d yang berada di sekitar 0
menunjukkan bahwa soal yan bersangkutan mempunyai day pembeda yang
rendah sedangkan harga D yang negatif menunjukkan bahwa soal yang
bersangkutan tidak ada gunanya. ( Gito, 2007)
Indeks daya pembeda yang ideal adalah yang sebesar mungkin mendekati
angka 1, semakin besar indeks daya pembeda berarti soal tersebut semakin
mampu membedakan antara siswa yang menguasai bahan yang diujikan dan
siswa yang tidak menguasai bahan. Semakin kecil indeks daya pembeda
(mendekati 0) berarti semakin tidak jelaslah fungsi soal yang bersangkutan dalam
membedakan mana subjek yang menguasai bahan pelajaran dan mana subjek
yang tidak tahu apa-apa ( Gito, 2007)

20
d. Fungsi Pengecoh
Distraktor yaitu suatu pola yang dapat menggambarkan bagaimana testee
menentukan pilihan jawabannya terhadap kemungkinan-kemungkinan jawab
yang telah dipasangkan pada setiap butir item. Distraktor dinyatakan telah dapat
menjalankan fungsinya dengan baik apabila distraktor tersebut sekurang-
kurangnya sudah dipilih oleh 5% dari seluruh peserta tes atau apabila mempunyai
daya tarik yang besar bagi pengikut-pengikut tes yang kurang memahami konsep
atau kurang menguasai bahan (kelompok bawah). Untuk menentukan angka
pedoman efektifitas distraktor dapat dilakukan dengan cara perkalian antara 5%
X Jumlah siswa. (Arikunto, 2010)
Opsi salah yang baik adalah yang mampu berperan sebagaimana fungsinya,
yaitu sebagai perusak, penjebak, atau distraktor terhadap peserta uji. Namun,
tentunya peserta dari kelompok rendah yang lebih banyak “terjebak” daripada
kelompok tinggi. (Nurgiantoro, 2010)
Pada soal bentuk pilihan-ganda ada alternatif jawaban (opsi) yang merupakan
pengecoh, jadi pengecoh disini adalah jawaban dari soal yang bisa mengecoh
jawaban yang sebenarnya. Option atau alternatif itu jumlahnya berkisar antara
tuga sampai dengan lima buah, dan dari kemungkinan-kemungkinan jawab yang
terpasang pada setiap butri item itu, salah satu di antaranya adalah merupakan
jawaban betul (= kunci jawaban); sedangkan sisanya adalah merupakaan jawaban
salah. Jawaban-jawaban salah itulah yang biasa dikenal dengan
istilah distractor (distraktor = pengecoh). (Sudijono, 2011)
Butir soal yang baik, pengecohnya akan dipilih secara merata oleh peserta
didik yang menjawab salah. Sebaliknya, butir soal yang yang kurang baik,
pengecohnya akan dipilih secara tidak merata. Pengecoh dianggap bila jumlah
peserta didik yang memilih pengecoh itu sama atau mendekati jumlah ideal. Suatu
ditraktor dapat diperlakukan dengan 3 cara:
1. Diterima, karena sudah baik.
2. Ditolak, karena tidak baik.
3. Ditulis kembali, karena kurang baik.

21
Kekurangannya mungkin hanya terletak pada rumusan kalimatnya sehingga
hanya perlu ditulis kembali, dengan perubahan seperlunya. (Arikunto, 2010)
Menganalisis fungsi pengecoh (distractor) dikenal dengan istilah
menganalisis pola penyebaran jawaban butir soal pada soal bentuk pilihan ganda.
Pola tersebut diperoleh dengan menghitung banyaknya testee yang memilih
pilihan jawaban butir soal atau yang tidak memilih pilihan manapun (blank). Dari
pola penyebaran jawaban butir soal dapat ditentukan apakah pengecoh berfungsi
dengan baik atau tidak. Suatu pengecoh dapat dikatakan berfungsi dengan baik
jika paling sedikit dipilih oleh 5% pengikut tes. (Mahendra, 2019)

e. Validitas
Validitas atau keshahihan berasal dari kata validity yang berarti sejauh mana
ketetapan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya.
Dengan kata lain, validitas adalah suatu konsep yang berkaitan dengan
sejauhmana tes telah mengukur apa yang seharusnya diukur. (Wahidmurni A. M.,
2010). Validitas berhubungan dengan kemampuan untuk mengukur secara tepat
sesuatu yang diinginkan diukur. (Purwanto, 2011).
Validitas suatu tes selalu dibedakan menjadi dua macam yaitu validitas logis
dan validitas empiris. Validitas logis sama dengan analisis kualitatif terhadap
sebuah soal, yaitu untuk menentukan berfungsi tidaknya suatu soal berdasarkan
kriteria yang telah ditentukan, yang dalam hal ini adalah kriteria materi,
konstruksi, dan bahasa. (Sudaryono, 2012)
1) Validitas logis
Istilah "validitas logis" mengandung kata "logis" berasa dari kata "logika",
yang berarti penalaran. Dengan makna demikian maka valaiditas logis untuk
sebuah instrument evaluasi menunjukkan pada kondisi bagi sebuah instrument
yang memenuhi persyaratan valid berdsarkan hasil penalaran. Kondisi valid
tersebut dipandang terpenuhi karena instrument yang bersangkutan sudah
dirancang secara baik, mengikuti teori dan ketentuan yang ada.

22
2) Validitas empiris
Istilah "validitas empiris" memuat kata "empiris” yang artinya pengalaman.
Sebuah instrument dapat dikatakan memiliki validitas empiris apabila sudah diuji
dari pengalaman. (Arikunto, 2010)
a. Validitas isi.
Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan
khusus tertentu sejajar dengan materi atau isi pelajaran yang diberikan.
Oleh karena itu materi yang diajarkari tertera didalam kurikulum.
b. Validitas konstrak.
Sebuah tes dikatakan memiliki validitas konstruksi apabila butir-
butir soal yang membangun tes tersebut mengukur setiap aspek berpikir.
Dengan kata lain jika butir-butir soal mengukur aspek berpikir tersebut
sudah sesuai dengan aspek berpikir yeng menjadi tujuan instruksioanal.
Contoh: "siswa dapat membandingkan antara efek biologis dan efek
kologis", maka butir soal pada tes merupakan perintah agar membedakan
antara dua efek tersebut.
c. Validitas "ada sekarang".
Validitas ini lebih umum dikenal dengan validitas empiris. Sebuah
tes dikatakan memiliki validitas empiris jika hasilnya sesuai dengan
pengalaman. Jika ada istilah sesuai" tentu ada dua hal yang dipasangkan
dalam hal ini hasil dipasangkan dengan hasil pengalaman. Penglaman
selalu mengenal hal yang telah lampau sehingga data pengalaman tersebut
sudah ada (ada sekarang, concurrent). Misalnya seorang guru ingin
mengetahui apakah tes sumatif yang disusun sudah valid atau belum. Untuk
ini diperlukan sebuah kriterium masa lalu yang sekarang datanya dimiliki.
Misalnya nilal ulangan harian atau nilai ulangan sumatif yang lalu.
d. Validitas predictive.
Memprediksi artinya meramal, dengan meramal selalau mengenal
hal yang akan datang yang sekarang belum terjadi. Sebuah tes dikatakan
memiliki validitas prediksi tai validit ramalan apabila mempunyai

23
kemampuan untuk meramalea yang akan terjadi pada masa yang akan
datang. (Prasetyo, 2013)
Penganalisisan terhadap tes hasil belajar dapat dilakukan dengan dua cara.
Pertama, penganalisisan yang dilakukan dengan jalan berpikir secara rasional atau
penganalisisan dengan menggunakan logika (logical analysis). Ada dua macam
validitas logis yang dapat dicapai oleh sebuah instrument yaitu validitas isi dan
validitas konstruk. Kedua, penganalisisan yang dilakukan dengan mendasarkan
diri pada kenyataan empiris, dimana penganalisisan dilaksanakan dengan
menggunakan empirical analysis. Ada dua macam validitas empiris yaitu validitas
prediksi dan validitas konkuren. (Sudijono, 2011)

f. Reliabilitas
Reliabilitas berasal dari kata reliability berarti sejauh mana hasil suatu
pengukuran dapat dipercaya. Suatu hasil pengukuran hanya dapat dipercaya
apabila dalam beberapa kali pelaksanaan pengukuran terhadap kelompok subjek
yang sama, diperoleh hasil pengukuran yang relatif sama, selama aspek yang
diukur dalam diri subyek memang belum berubah. (Sudaryono, 2012)
Menurut teori klasik, reliabilitas dihubungkan dengan pengertian adanya
ketepatan suatu tes dalam pengukurannya. Pendapat lain menyatakan bahwa
reliabilitas adalah kestabilan skor yang diperoleh orang yang sama ketika diuji
ulang dengan tes yang sama pada situasi yang berbeda atau dari satu pengukuran
kepengukuran lainnya. Jadi reliabilitas dapat dinyatakan sebagai tingkat keajegan
atau kemantapan hasil dari dua pengukuran terhadap hal yang sama. Hasil
pengukuran itu diharapkan sama apabila pengukuran itu diulangi. (Sudaryono,
2012)
Reliabilitas adalah suatu hal yang sangat penting pada alat pengukuran
standar. Reliabilitas dihubungkan dengan pengertian adanya ketepatan tes dalam
pengukurannya. Reliabilitas adalah kestabilan skor yang diperoleh peserta tes
yang sama ketika diuji ulang dengan tes yang sama pada situasi yang berbeda
atau dari suatu pengukuran ke pengukuran lainnya. Dengan kata lain reliabilitas
merupakan tingkat konsistensi atau kemantapan hasil terhadap hasil dua

24
pengukuran hal yang sama. Dapat juga diartikan sebagai tingkat kepercayaan dari
suatu alat ukur. (Kebudayaan, 1997)
Hasil pengukuran diharapkan akan sama apabila pengukuran itu diulangi.
Dengan perangkat tes yang reliabel, apabila tes itu diberikan dua kali pada peserta
yang sama tetapi dalam selang waktu yang berbeda sepanjang tidak ada
perubahan dalam kemampuan maka skor yang diperoleh akan konstan. Kriteria
untuk menentukan tinggi rendahnya reliabilitas sebuah perangkat tes. (Arikunto,
2010). Dilihat pada rentangan koefesien korelasi sebagai berikut:
Klasifikasi Tingkat Reliabilitas Tes

Kategori Reliabilitas Nilai Koefisien


Tes Korelasi
Sangat tinggi 0,800 – 1,000
Tinggi 0,600 – 0,799
Cukup 0,400 – 0,599
Rendah 0,200 – 0,399
Sangat Rendah 0,000 – 0,199
Tabel 6. Klasifikasi tingkat reliabilitas tes

Sebuah tes dikatakan mempunyai reliabilitas yang tinggi jika tes tersebut
memberikan data hasil yang ajeg (tetap) walaupun diberikan pada waktu yang
berbeda kepada responden yang sama. (Setiyawan, 2014)

2. Teori Respon Butir


Teori respon butir merupakan suatu analisis butir tes yang lebih modern dari teori
tes klasik, teori respon butir dibentuk dan didasarkan dari fungsi matematika yang
digunakan dalam memaparkan hubungan antara seseorang yang mengikuti tes
(responden) dengan butir tes yang diujikan (Sumintono, 2014). Dalam teori respon
butir terlihat bahwa pertimbangan pengukuran terhadap parameter butir tidak
bergantung pada sampel butir tertentu atau responden yang dipilih dalam suatu tes
yang diujikan, tetapi saat ini perkembangan teori respon butir dapat mengatasi kendala
dari teori tes klasik. Penerapan teori respon butir pada saat ini sudah cukup luas
khususnya di Indonesia, teori respon butir tidak hanya digunakan pada tes yang

25
bersifat unidimensional saja, namun teori respon butir telah merambah pada tes
multidimensional (Nurcahyo, 2016). Teori respon butir dibangun dan dibentuk dari
suatu pemahaman dimana probabilitas atau peluang responden menjawab benar
terhadap suatu butir tes dapat dijelaskan sebagai fungsi sederhana dari posisi
responden pada analisis butir, ditambah dengan satu atau lebih parameter yang
menjadi karakteristik butirbersifat unidimensional saja, namun teori respon butir telah
merambah pada tes multidimensional (Nurcahyo, 2017). Teori respon butir dibangun
dan dibentuk dari suatu pemahaman dimana probabilitas atau peluang responden
menjawab benar terhadap suatu butir tes dapat dijelaskan sebagai fungsi sederhana
dari posisi responden pada analisis butir, ditambah dengan satu atau lebih parameter
yang menjadi karakteristik butir.
Studi tentang penerapan teori respon butir atau Item Response Theory (IRT)
menjadi topik yang menarik untuk dikaji karena teori respon butir memiliki
masingmasing hal yang dianalisis di setiap masing-masing parameter yang digunakan.
Untuk dapat mengetahui suatu analisis butir soal dalam suatu tes, IRT atau teori respon
butir sangat cocok digunakan dalam mencari tingkat kemampuan responden, tingkat
kesulitan soal, daya beda dan lainnya tergantung dengan berapa level parameter yang
digunakan.

26
BAB III

PENUTUP

A. Kesimpulan
Analisis kualitas tes merupakan kegiatan untuk mengkaji soal pada setiap item atau
butirnya guna mengetahui kualitas dari setiap butir soal tersebut. Analisis kualitas butir
soal adalah suatu prosedur yang sistematis, yang akan memberikan informasi – informasi
yang sangat khusus terhadap butir tes yang kita susun. Keperluan analisis butir soal
dalam proses belajar mengajar, dapat digunakan tes yang telah distandardisasikan,
maupun tes buatan guru sendiri. Kegiatan analisis kualitas butir soal dapat dilakukan
dengan dua cara yaitu secara kualitatif dan kuantitatif. Aspek yang diperhatikan di dalam
penelaahan secara kualitatif ini adalah setiap soal ditelaah dari segi materi, konstruksi,
bahasa/budaya, dan kunci jawaban/pedoman penskorannya. Analisis butir soal secara
kualitatif dilakukan dengan cara menelaah kesesuaian dengan kemampuan dasar dan
indikator yang hendak diukur serta apakah butir-butir soal tersebut telah menenuhi syarat
dan ketentuan. Ada beberapa teknik yang dapat digunakan untuk menganalisis butir soal
secara kualitatif, antara lain yaitu teknik moderator dan teknik panel. Sedangkan
Penelaahan soal secara kuantitatif adalah penelaahan butir soal didasarkan pada data
empirik. Data empirik ini diperoleh dari soal yang telah diujikan. Analisis kualitatif
merupakan penilaian yang dimaksudkan untuk menganalisis butir soal ditinjau dari segi
teknis, isi dan keterkaitan soal dengan materi yang diajarkan serta editorial.

Adapun perbedaan dari analisis butir soal secara Kualitatif dan Kuantitatif. Analisis
soal secara teoritik atau analisis kualitatif dilakukan sebelum diadakan ujicoba, yakni
dengan cara mencermati butir-butir soal yang telah disusun dilihat dari kesesuaian dengan
kemampuan dasar dan indikator yang diukur serta pemenuhan per- syaratan baik dari aspek
materi, kontruksi, dan bahasa (Mardapi, 2004). Sedangkan analisis soal secara kuantitatif
menekankan pada karakteristik internal tes melalui data yang diperoleh secara empiris.
Karakteristik internal secara kuantitatif dimaksudkan meparameter soal tingkat kesukaran,
daya pembeda, distribusi jawaban, dan reliabilitas (Surapranata, 2005). Sebelum
menganalisis kualitas butir soal, pendidik harus memperhatikan kaidah penulisan butir soal
terlebih dahulu. Kaidah penulisan butir soal yang menjadi pedoman dalam menganalisis

27
kualitas butir soal secara kualitatif antara lain : (1) Aspek Materi, (2) Aspek Konstruksi,
dan (3) Aspek Bahasa/Budaya.

Dari penjelasan mengenai pengertian serta perbedaan dari analisis butir soal secara
kualitatif dan kuantitatif. Adapun pengaplikasian analisis butir soa secara empirik. Secara
garis besar, analisis butir secara empirik ini dapat dibedakan menjadi dua, yaitu dengan
pendekatan teori tes klasik dan teori respons butir (Item Response Theory, IRT). Teori tes
klasik memiliki pengertian sebagai suatu analisis butir tes dimana kegunaannya adalah
untuk mengukur serta untuk memprediksi hasil atau luaran dari suatu tes yang diujikan,
yang dapat dilihat melalui tingkat kemampuan orang yang melakukan tes (responden) dan
tingkat kesulitan butir soal yang diujikan. Teori klasik ini meliputi Daya Serap, daya beda,
indeks kesukaran, daya pengecoh, reliabilitas dan validitas adalah formula penting yang
disarikan dari teori tes klasik. Sedangkan Teori respon butir merupakan suatu analisis butir
tes yang lebih modern dari teori tes klasik, teori respon butir dibentuk dan didasarkan dari
fungsi matematika yang digunakan dalam memaparkan hubungan antara seseorang yang
mengikuti tes (responden) dengan butir tes yang diujikan. Untuk dapat mengetahui suatu
analisis butir soal dalam suatu tes, IRT atau teori respon butir sangat cocok digunakan
dalam mencari tingkat kemampuan responden, tingkat kesulitan soal, daya beda dan
lainnya tergantung dengan berapa level parameter yang digunakan.

28
DAFTAR PUSTAKA

Adedoyin, O. &. (2013). Using IRT Psychometric Analysis InExamining the Quality of Junior
Certificate Mathematics Multiple Choice Examination Test Items. International Journal
of Asian Social Science. 3(4), 992-1011.
Alfirani, A. (2016). Evaluasi Pembelajaran dan Implementasi. Padang : Sukabina Press.
Amalia, A. N. & A. W. (2012). Analisi Butir Soal Tes Kendali Mutu Kelas XII SMA Mata
Pelajaran Ekonomi Akuntansi Di Kota Yogyakarta Tahun 2012. Jurnal Pendidikan
Akuntansi Indonesia, 10(1).
Anastasi, A., & Urbina, S (1997). Psychology testing. Upper Saddle River, NJ: Prentice Hall.
Arikunto, S. (2010). Dasar-Dasar Evaluasi Pendidikan (edisi revisi). Jakarta: Bumi Aksara
Ariunto, S. (2006). Dasar - Dasar Evaluasi Pendidikan . Jakarta : Bumi Aksara
Asrul, Ananda, R & Rosnita. (2015). Evaluasi Pembelajaran. Bandung: Cita Pustaka Media.
Aziza, R. N., & Dzhalila, D. (2018). Metode kuantitatif dengan pendekatan klasik pada aplikasi
analisis butir soal sebagai media evaluasi penentuan soal yang berkualitas. Kilat, 7,
1689-99.
Budiyono. (2013). Metodologi Penelitian Pendidikan. Solo: UNS Press.
Daryanto, H. (2008). Evaluasi Pendidikan. Jakarta: PT Rineka Cipta
Departemen Pendidikan Nasional. (2008). Panduan Analisis Butir Soal. Jakarta: Depdiknas.
Fatimah, L. U., & Alfath, K. (2019). Analisis kesukaran soal, daya pembeda dan fungsi distraktor.
AL-MANAR: Jurnal Komunikasi dan Pendidikan Islam, 8(2), 37-64.
Fitrianawati, M. (2017). Peran analisis butir soal guna meningkatkan kualitas butir soal,
kompetensi guru dan hasil belajar peserta didik. Seminar Nasional Pendidikan PGSD
UMS & HDPGSDI Wilayah Jawa. Semarang : PGSD UMS
Isgianto, A. (2013). Perbandingan Penyekoran Model Rasch Dan Model Partial Credit Pada
Matematika. Jurnal Kependidikan: Penelitian Inovasi Pembelajaran.
Kebudayaan, D. P. (1997). Manual Item and Test Analysis ( Iteman) . Badan Penelitian dan
Pengembangan Pendidikan dan Kebudayaan: Pusat Penelitian dan Pengembangan
Sistem Pengujian.
Kusaeri & Suprananto. (2012). Pengukuran dan Penilaian Pendidikan. Yogyakarta: Graha Ilmu.

29
Linn, R. L., & Gronlund, N. E. (1995). Measuring and assessment inteaching.
Thousand Oaks, CA: Sage
Mahendra, I. W. (2019). Analisis Butir Soal Peningkatan Kompetensi Evaluasi Pembelajaran
Guru SLBN 1 Buleleng Singamangaraja. FPMIPA IKIP PGRI Bali.
Mardapi, Djemari. (2004). Penyusunan Tes Hasil Belajar. Yogyakarta: Program Pascasarjana
UNY.
Mardapi, Djemari. (2012). Pengukuran, Penilaian, dan Evaluasi Pendidikan. Yogyakarta: Nuha
Medika.
Najahah. (2015). Potensi Peserta Didik Dalam Pembelajaran . Lentera Pendidikan, P. P.
Nitko, A. J. (1996). Educational assessment of students. Prentice-Hall Order Processing Center,
PO Box 11071, Des Moines, IA50336-1071.
Nurcahyo. (2016). Aplikasi IRT dalam Analisis Aitem Tes Kognitif. Buletin Psikologi , 64 – 75
Nurgiantoro, B. (2010). Penilaian Pembelajaran Bahasa Berbasis Kompetensi. Yogyakarta:
BPFE Yogyakarta
Nurinda, S., Rudyatmi, E., & Ridlo, S. (2014). Analisis Butir Soal Olimpiade Biologi SMA
Tingkat Kabupaten/Kota Tahun 2013. Journal of Biology Education, 3(1).
Prasetyo, J. (2013). Evaluasi dan Remedial Belajar. Jakarta: Trans Info Media
Prasetyo. (2018). Fakto - Faktor yang Mempengaruhi Daya Serap Siswa Pada Mata Pelajaran
Ekonomi SMA Sentolo. Jurnal Daya Serap Siswa
Purwanto. (2011). Evaluasi Hasil Belajar. Yogyakarta: Pustaka Pelajar
Ruslan, M. S. (2019). KARAKTERISTIK BUTIR SOAL: CLASSICAL TEST THEORY VS
ITEM RESPONSE THEORY? Didaktika : Jurnal Kependidikan
Saifuddin, A. (1993). Reliabilitas dan Validitas . Yogyakarta: Pustaka Belajar
Santosa, Sedya, and Jami A. Badawi. (2022). Analisis Butir Soal Pilihan Ganda Tema
Pertumbuhan dan Perkembangan Makhluk Hidup Kelas III Madrasah Ibtidaiyah. Jurnal
Basicedu, vol. 6(2).
Sari, M. (2017). Rekonstruksi Butir Soal Ulangan Tengah Semester Mata Pelajaran Bahasa
Indonesia Kelas VII SMP Tahun Pelajaran 2016/2017. Skripsi. Semarang : UNNES.
Setiyawan, A. (2014). Faktor-Faktor Yang Mempengaruhi Reliabilitas Tes. Jurnal An Nur.
Sudaryono. (2012). Dasar-Dasar Evaluasi Pembelajaran. Yogyakarta: Graha Ilmu.
Sudijono, A. (2011). Pengantar Evaluasi Pendidikan. Jakarta: PT. Raja Grafindo Bumi Persada

30
Sumiati, Ati, U. W. & U. S. (2018). Workshop Teknik Menganalisis Butir Soal dalam
Meningkatkan Kompetensi Guru di SMK Cileungsi Bogor. Jurnal Pemberdayaan
Masyarakat Madani, 2(1).
Sumintono, B. &. (2014). Aplikasi model rasch untuk penelitian ilmu-ilmu sosial (2nd ed).
Cimahi : Trim Komunikata Publishing House
Supardi. (2016). Penilaian Autentik Pembelajaran Afektif, kognitif dan Psikomotor (Konsep dan
Aplikasi). Jakarta: Rajawali Pers, Jakarta
Suprananto, K. (2012). Pengukuran dan Penilaian Pendidikan . Yogyakarta : Graha Ilmu
Surapranata, Sumarna. (2005). Analisis, Validitas, Reliabilitas dan Interpretasi Hasil Tes.
Implementasi kurikulum 2004. Bandung: Remaja Rosdakarya Offset.
Suwarto. (2007). Tingkat Kesulitan, Daya Beda, dan Reliabilitas Tes Menurut Teori Tes Klasik.
Jurnal Pendidikan. Vol 16(2).
Wahidmurni, A. M. (2010). Evaluasi Pembelajaran; Kompetensi dan Praktik. Yogyakarta: Nuha
Litera.
Wahidmurni, D. (2010). Evaluasi Pembelajaran : Kompetensi dan Praktik. Yogyakarta: Nuha
Letera.
Zulaiha, Rahmah. (2008). Analisis Soal Secara Manual. Jakarta: PUSPENDIK.

31

Anda mungkin juga menyukai