Anda di halaman 1dari 16

TEORI TES KLASIK, TEORI RESPON BUTIR DAN ANALISI BUTIR

Disusun unutk memenuhi tugas mata kuliah Asesmen Pembelajaran Matematika


Dosen Pengampu : Dr. Kana Hidayati M.Pd

Disusun oleh :

Nova Riawan (20709251053)


Febri Kristiani (20709251063)

PROGRAM STUDI MAGISTER PENDIDIKAN MATEMATIKA JURUSAN


PENDIDIKAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS NEGERI YOGYAKARTA
2020
1. TEORI TES KLASIK
A. PENGERTIAN TEORI TES KLASIK
Dewasa ini ada dua macam teori tentang pengukuran, yakni Teori Tes Klasik
dan Teori Tes Modern (Suryabrata, 2000), Teori Tes Klasik disebut juga dengan
Classical True-Score Theory, dinamakan Teori Tes Klasik karena unsur-unsur teori ini
sudah dikembangkan dan diaplikasikan sejak lama, namun tetap bertahan hingga
sekarang.
Teori tes klasik atau classical test theory (CTT) merupakan salah satu
pendekatan yang digunakan dalam dunia pengukuran di bidang Psikologi. Pendekatan
teori tes klasik ini sering disebut model skor murni true score model. Pendekatan
inilah yang telah berhasil meletakkan dasar – dasar konsepsi dalam analisis
karakteristik psikometri perangkat ukur psikologis Crocker Algina, 2005. Inti Teori
Tes Klasik adalah asumsi-asumsi yang dirumuskan secara matematis. Asumsi –
asumsi tersebut pada prinsipnya merupakan hubungan matematis dari skor tampak,
skor murni, dan eror pengukuran.
Teori tes klasik (TTK) atau classical test theory (CTT) telah berkembang
secara luas dan menjadi aliran utama di kalangan ahli psikologi dan pendidikan, serta
bidang kajian perilaku (behavioral) yang lain, selama 20 dekade (Embretson & Reise,
2000) . TTK memiliki kelemahan karena bersifat examinee sample dependent dan
item sample dependent (Fan, 1998; Hambleton & Swaminathan, 1985; Hambleton,
Swaminathan, & Rogers, 1991; Hambleton, Robin, & Xing, 2000; Lord, 1980)
CTT merupakan teori psikometri yang populer serta banyak digunakan pada
berbagai disiplin ilmu (psikologi, pendidikan, dan ilmu sosial lainnya). Istilah “klasik”
yang digunakan tidak hanya mengacu kronologi model ini, tetapi juga sebagai kontras
dengan lebih teori psikometri yang lebih baru yang disebut sebagai sebagai Teori
Respon Butir (Item Response Theory), yang sering kali disebut juga dengan istilah
"teori modern". Terdapat beberapa perbedaan yang mendasari teori tes klasik dengan
teori respon butir.

B. ASUMSI TEORITIK MENGENAI SKOR


Performasi subjek pada suatu skala pengukuran dinyatakan dalam angka yang
disebut skor. Skor ini merupakan skor perolehan pengukuran yang selanjutnya disebut
sebagai skor tampak atau dilambangkan dengan X. Di dalam skor tampat terdapat skor
murni (T) dan error pengukuran (E) yang tidak pernah dapat diketahui besarannya
(Azwar, 2011). Teori tes klasik bekerja pada tataran skor tampak dengan
menggunakan model linier dalam menjelaskan model skor. Beberapa asumsi yang
mendasar skor dalam teori tes klasik diantaranya sebagai berikut (disarikan dari
Azwar, 2015)  
ASUMSI 1 : X = T + E
Asumsi ini menyatakan bahwa hubungan Skor tampak (X), skor murni (T),
dan eror pengukuran (E) bersifat aditif. Skor tampak (X) yang diperoleh individu
merupakan akumulasi dari skor murni (T) dan eror pengukuran (E).
ASUMSI 2 :∈ ( X )=T
Asumsi ini menyatakan bahwa skor murni merupakan nilai harapan X. Karena
besar skor murni diasumsikan tetap dalam setiap pengukuran, maka besar varians skor
tampak akan tergantung pada variasi eror pengukuran.
ASUMSI 3 : ρet = 0
Korelasi antara eror pengukuran dan skor murni adalah nol. Menurut asumsi
ini, bagi suatu kelompok populasi subjek yang dikenai tes distribusi eror pengukuran
dan distribusi skor murni adalah independen satu sama lain. variasi eror tidak
tergantung pada variasi skor murni.
ASUMSI 4 : ρe 1e2=0
Bila e1 adalah eror pengukuran tes pertama dan e2 adalah eror pengukuran tes
kedua, maka asumsi ini menyatakan bahwa distribusi eror kedua tes tersebut tidak
berkorelasi satu sama lain.
ASUMSI 4 : ρe 1 t 2=0
Asumsi kelima menyatakan bahwa eror pada suatu tes tidak berkorelasi degan
skor murni pada tes lain.

Analisis kuantitatif menurut pendekatan teori tes klasik menghasilkan karakteristik


butir yang meliputi tingkat kesukaran (p), daya pembeda (d), dan efektivitas
distraktor.
Kesesuaian karakteristik butir dengan jenis dan tujuan tes sangat menentukan
kualitas butir tes. Pada analisis butir secara klasik, tingkat kesukaran (p) dapat
diperoleh dengan beberapa cara :
1. Skala kesukaran linier;
2. Skala bivariat;
3. Indeks Davis; dan
4. Proporsi menjawab benar.
Tingkat kesukaran (p) mengandung banyak kelemahan, antara lain tingkat
kesukaran sebenarnya merupakan ukuran kemudahan butir karena semakin tinggi
indeks p, semakin mudah butir tersebut. Sebaliknya semakin rendah p semakin sulit.
Oleh karenanya ada beberapa ahli pengukuran yang menyebut tingkat kesukaran ini
dengan tingkat kemudahan. Tingkat kesukaran merupakan salah satu parameter butir
soal, yang disimbolkan ( ), yakni rasio antara jawaban benar dan banyaknya penjawab
butir soal. Formulasi tingkat kesukaran butir soal adalah:
𝑃𝑖 = 𝑛/𝑁
𝑃𝑖 = Tingkat kesukaran butir soal ke i
𝑖 = nomor butir soal
𝑛 = banyaknya siswa yang menjawab butir soal dengan benar
𝑁 = banyaknya siswa yang menjawab butir soal

Daya pembeda atau daya beda suatu butir tes berfungsi untuk menentukan dapat
tidaknya suatu butir tes membedakan kelompok dalam aspek yang diukur sesuai
dengan perbedaan yang ada pada kelompok itu. Tujuan dari penelaahan daya pembeda
adalah untuk melihat kemampuan butir tes tertentu dalam membedakan antara
pengambil tes yang berkemampuan tinggi dan pengambil tes yang berkemampuan
rendah.
Terdapat dua cara untuk menghitung daya pembeda dengan metode korelasi Page
yaitu korelasi point biserial dan korelasi biserial. Menurut Crocker & Algina (1986)
koefisien point biserial ditentukan dengan rumus:
μ +−μτ p
𝜌𝑝𝑏𝑖𝑠 =
στ √ q
𝜌𝑝𝑏𝑖𝑠 = Korelasi point biserial
𝜇+ =Rerata-rata skor peserta tes yang menjawaban benar butir soal
𝜇𝜏 = Rerata skor total
𝜎𝜏 = Simpangan baku skor total
𝜌 = Proporsi banyaknya peserta yang menjawab benar
q = 1-𝜌
Sementara untuk menghitung indeks daya pembeda dengan korelasi biserial
diguakan rumus:
μ +−μτ p
𝜌𝑏𝑖𝑠 =
στ √Y
𝜌𝑏𝑖𝑠 = Korelasi biserial
𝜇+ = Rerata-rata skor peserta yang menjawab benar
𝜇𝜏 = Rerata skor total
𝜎𝜏 = Simpangan baku skor total
𝜌 = Proporsi banyaknya peserta yang menjawab benar
𝑌 = Ordinat p dalam distribusi normal
Hal penting yang juga harus diperhatikan dalam menganalisis empirik butir soal
adalah kemampuan distraktor atau alternatif jawaban yang disediakan menarik peserta
tes untuk memilihnya. Jangan sampai tidak seorang peserta tes-pun memilih alternatif
jawaban yang disediakan. Nitko (1996) mengatakan distraktor dikatakan berfungsi
manakala paling tidak dipilih oleh seorang peserta tes dari kelompok rendah. Pemilih
dari kelompok rendah harus lebih banyak daripada kelompok atas. Distraktor juga
dapat dikatakan berfungsi manakala peserta tes (siswa) dari kelompok atas dapat
membedakan antara distraktor dan kunci jawaban sehingga yang memilih kunci
jawaban lebih banyak daripada yang memilih distraktor.

C. CATATAN MENGENAI TEORI SKOR KLASIK


Sumintono & Widhiarso (2015) memberikan catatan penggunaan skor
mentah/raw score sebagai ukuran prestasi yang memiliki beberapa kelemahan, di
antaranya sebagai berikut.
1. Skor mentah pada dasarnya bukanlah hasil pengukuran. Lebih tepatnya skor mentah
adalah jumlah jawaban benar dari soal yang dikerjakan siswa.
2. Skor mentah adalah informasi awal. Skor mentah juga biasanya dinyatakan dalam
persentase (%) yang tidak lain hanyalah ringkasan data berupa angka, tetapi tidak
memberikan data dari suatu pengukuran.
3. Skor mentah memiliki makna kuantitatif yang lemah. Makna kuantitatif dari skor
mentah yang didapat akan berbeda, bergantung pada banyaknya soal, sedangkan
persentase jawaban betul selalu bergantung pada tingkat kesulitan soal.
4. Skor mentah tidak menunjukkan kemampuan seseorang terhadap tugas tertentu. Skor
mentah juga tidak bisa banyak menjelaskan tingkat kesulitan soalnya.
5. Skor mentah dan persentase jawaban benar tidak selalu bersifat linier. Dalam sebuah
tes yang bersifat linier, siswa yang memiliki skor 15 (skala 0 hingga 100) selalu
memiliki kemampuan lebih tinggi dibanding yang memiliki skor 10. Namun, secara
empirik terkadang keduanya memungkinkan memiliki kemampuan yang sama.

D. KELEMAHAN TEORI TES KLASIK


Menurut para ahli, ada beberapa kelemahan yang ada pada pendkatan teori
klasik. Beberapa di antaranya adalah Hambleton, dkk (1991) dan Lord (1980). Mereka
menjelaskan bahwa kelemahan-kelemahan tes teori klasik adalah:
1. Statistik butir tes sangat tergantung pada karakteristik subjek yang dites;
2. Taksiran kemampuan peserta tes sangat tergantung pada butir tes yang diujikan;
3. Kesalahan baku penaksir skor berlaku untuk semua peserta tes, sehingga
kesalahan baku pengukuran tiap peserta dan butir soal tidak ada;
4. Informasi yang disajikan terbatas pada menjawab benar atau salah saja tidak
memperhatikan pola jawaban peserta tes; dan
5. Asumsi tes paralel susah dipenuhi.

2. TEORI RESPON BUTIR


A. PENGERTIAN TEORI RESPON BUTIR
Teori respon butir merupakan alternative pilihan yang bertujuan melepaskan
diri dari ketergantungan tes yang diberikan dengan sample peserta tes. Dalam hal ini
walau soal-soal tersebt dikerjakan oleh siswa yang pandai atau siswa yang kurang
pandai, indikasi tingkat kesukaran suatu soal tetap tidak berubah. Teori respon butir,
menentukan berapa persyaratan yang perlu dipenuhi oleh butir dan peserta. Model
pada respon butir itu baru berlaku apabila persyaratan itu terpenuhi sekaligus. Dalam
teori respons butir. Hambleton & Swaminathan (1985: 16) dan Hambleton,
Swaminathan, & Rogers (1991: 9) menyatakan bahwa ada tiga asumsi yang mendasari
teori respon butir, yaitu unidimensi, independensi lokal dan invariansi parameter.
Unidimensi memiliki arti bahwa setiap butir tes hanya mengukur satu
kemampuan. Namun pada faktanya, asumsi unidimensi tidak dapat dilakukan secara
tepat karena ada beberapa faktor kognitif lain yang mempengaruhi, seperti
kemampuan kognitif, kepribadian dan faktor-faktor pelaksanaan tes, seperti
kecemasan, motivasi, dan tebakan.
Asumsi ini berarti karakteristik butir tes tidak tergantung pada distribusi
parameter orang (kemampuan responden) dan parameter butir tes (tingkat kesukaran,
daya pembeda, dsb.). Parameter orang (kemampuan responden) tidak akan berubah
hanya karena mengerjakan tes yang berbeda tingkat kesukarannya dan parameter butir
tes (tingkat kesukaran, daya pembeda, dsb.) tidak akan berubah hanya karena diujikan
pada kelompok responden yang berbeda tingkat kemampuannya. Invariansi parameter
akan terbukti jika hasil estimasi kemampuan responden tidak berbeda walaupun tes
yang dikerjakan memiliki tingkat kesukaran berbeda dan jika hasil estimasi parameter
butir tes tidak berbeda walaupun diujikan pada responden yang berbeda tingkat
kemampuannya.
Asumsi independensi lokal dibagi menjadi dua yaitu independensi lokal
terhadap respon responden dan independensi lokal terhadap butir tes. Independensi
lokal terhadap respons responden memiliki arti bahwa jawaban responden tidak
dipengaruhi oleh jawaban responden lain. Sedangkan independensi lokal terhadap
butir tes memiliki arti bahwa jawaban responden pada sebuah butir tes tidak
dipengaruhi oleh jawaban responden itu pada butir tes yang lain.
Menurt Hambleton, Swaminathan, & Rogers (1991: 10) Model Rasch dituliskan
sebagai berikut:
P ( u1 , u2 , … ., un|θ )=P ( u1|θ ) . ¿
n
¿ ∏ P ( u 1|θ )
i=1

Keterangan
i= 1,2,3,4,…, n
n = banyaknya butir dalam tes
P ( u1|θ )= probabilitas peserta tes yang memiliki kemampuan θ dapat menjawab butir
tes ke I dengan benar
P ( u1 , u2 , … ., un|θ )= probabilitas peserta tes yang memiliki kemampuan θ dapat
menjawab butir tes ke I sampai ke n dengan benar
a. Model-model dalam Teori Respon Butir
1. Model 1 parameter (Model Rasch)
Menurt Hambleton, Swaminathan, & Rogers (1991: 13) Model Rasch
dituliskan sebagai berikut:
e(θ b )
i

P ( θ )= dengan i= 1,2,3,4,…, n
1+e(θ b )i

Keterangan
P = probabilitas peserta tes yang memiliki kemampuan dipilih secara acak
dapat menjawab butir i dengan benar
θ = tingkat kemampuan subyek (sebagai variabel bebas)
bi = indeks kesukaran butir ke-i
e = bilangan natural yang nilainya mendekati 2,718
n = banyaknya butir dalam tes
2. Model 2 parameter
Menurut Hambleton, Swaminathan, & Rogers (1991: 15), secara matematis
model logistik dua parameter dapat dituliskan sebagai berikut:
e Da (θ−b )
i i

Pi= dengan i= 1,2,3,4,…, n


1+ e Da (θ −b )
i i

Keterangan:
θ : tingkat kemampuan peserta tes
Pi: probabilitas peserta tes yang memiliki kemampuan dapat menjawab butir i
dengan benar
ai : indeks daya pembeda
bi : indeks kesukaran butir ke-i
e : bilangan natural yang nilainya mendekati 2,718
n : banyaknya butir dalam tes
D : faktor penskalaan yang harganya 1,7.
3. Model 3 parameter
model logistik tiga parameter dapat dinyatakan
sebagai berikut (Hambleton, & Swaminathan, 1985: 49; Hambleton,
Swaminathan, & Rogers, 1991: 17).
e Da (θ−b )
i i

Pi=c i (1+c i) dengan i= 1,2,3,4,…, n


1+ e Da (θ−b )
i i

θ : tingkat kemampuan peserta tes


Pi: probabilitas peserta tes yang memiliki kemampuan dapat menjawab butir i
dengan benar
ai : indeks daya pembeda
bi : indeks kesukaran butir ke-i
ci : indeks tebakan semu butir ke-i
e : bilangan natural yang nilainya mendekati 2,718
n : banyaknya butir dalam tes
D : faktor penskalaan yang harganya 1,7.
3. ANALISIS BUTIR
A. PENGERTIAN ANALISIS BUTIR
Penilaian terhadap butir soal pada dasarnya merupakan analisis butir soal, dan
selama ini pada umumnya para ahli pengukuran mengatakan bahwa analisis butir soal
maksudnya adalah penilaian terhadap soal. Telah diketahui bersama bahwa
penyusunan tes sangat mempengaruhi kualitas butir soal. Pendekatan untuk
menganalisis butir soal yang berkembang saat ini terdiri dari dua pendekatan yaitu
pendekatan klasik dan pendekatan modern. Kedua pendekatan ini masing-masing
memiliki kelebihan dan kekurangan. Namun keduanya masih sering digunakan dalam
analisis butir soal.
Analisis butir soal dengan pendekatan klasik diantaranya dapat dilakukan
menggunakan Program Iteman. Dengan melihat beberapa persyaratan yang harus
dipenuhi, penyusunan tes dituntut untuk mengikuti pedoman penyusunan tes dan
melakukan ujicoba. Kemudian berdasarkan hasil ujicoba, respon peserta dianalisis
menggunakan Program Iteman untuk mendapatkan karakteristik butir soal. Data hasil
analisis dengan Program Iteman dianalisis kembali menggunakan instrumen penilaian
butir soal yang memenuhi syarat sebagai alat ukur yang baik. Suryabrata (1999)
menyatakan bahwa analisis butir soal mencakup telaah soal atau analisis kualitatif dan
analisis terhadap data empirik hasil ujicoba atau analisis kuantitatif. Analisis butir
soal secara kualitatif menekankan penilaian dari ketiga segi yaitu materi, konstruksi,
dan bahasa. Namun demikian dalam pembahasan ini dikhususkan untuk menjelaskan
analisis butir soal secara kuantitatif.
Analisis ini dilakukan berdasarkan data yang diperoleh secara empiris melalui
ujicoba dari suatu perangkat tes. Analisis kuantitatif sering disebut dengan analisis
item yang menghasilkan karakteristik atau parameter butir dan tes, yaitu: tingkat
kesukaran, daya beda dan distribusi jawaban dan kunci setiap butir, serta reliabilitas
dan kesalahan pengukuran (SEM) dalam tes.
Dalam tes dan pengukuran, dikenal beberapa karakteristik butir soal. Untuk tes
hasil belajar pada umumnya dipertimbangkan tiga karakteristik butir soal, yaitu :
tingkat kesukaran, daya beda dan distribusi jawaban atau berfungsi tidaknya pilihan
jawaban (distraktor). Ketiga karakteristik butir soal ini secara bersamasama akan
menentukan mutu butir soal. Bila salah satu dari ketiga karakteristik ini tidak
memenuhi persyaratan maka mutu butir soal akan turun.
1. Karakteristik Butir Soal
a. Tingkat Kesukaran (Difficulty level)
Menurut Asmawi Zainul, dkk (1997) tingkat kesukaran butir soal
adalah proporsi peserta tes menjawab benar terhadap butir soal tersebut.
Tingkat kesukaran butir soal biasanya dilambangkan dengan p. Makin besar
nilai p yang berarti makin besar proporsi yang menjawab benar terhadap butir
soal tersebut, makin rendah tingkat kesukaran butir soal itu. Hal ini
mengandung arti bahwa soal itu makin mudah, demikian pula sebaliknya. Soal
yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal
yang terlalu mudah tidak merangsang mahasiswa untuk mempertinggi usaha
memecahkannya. Sebaliknya soal yang terlalu sukar akan menyebabkan
mahasiswa menjadi putus asa dan tidak mempunyai semangat untuk mencoba
lagi karena di luar jangkauannya (Suharsimi Arikunto : 2001).
Tingkat kesukaran butir soal tidaklah menunjukkan bahwa butir soal
itu baik atau tidak. Tingkat kesukaran butir hanya menunjukkan bahwa butir
soal itu sukar atau mudah untuk kelompok peserta tes tertentu. Butir soal hasil
belajar yang terlalu sukar atau terlalu mudah tidak banyak memberi informasi
tentang butir soal atau peserta tes (Asmawi Zainul, dkk : 1997). Pada analisis
butir soal secara klasikal, seperti yang dijelaskan oleh Depdikbud (1997)
tingkat kesukaran dapat diperoleh dengan beberapa cara antara lain :
a) skala kesukaran linier;
b) skala bivariat;
c) indeks davis;
d) proporsi menjawab benar.
Cara yang paling umum digunakan adalah proporsi menjawab benar atau
proportion correct, yaitu jumlah peserta tes yang menjawab benar pada soal
yang dianalisis dibandingkan dengan peserta tes seluruhnya. Dalam analisis
item ini digunakan proportion correct (p), untuk menilai tingkat kesukaran
butir soal, yang dapat dilihat berdasarkan hasil analisis iteman pada lampiran
6. Besarnya tingkat kesukaran berkisar antara 0,00 sampai 1,00. Untuk
sederhananya, tingkat kesukaran butir dan perangkat soal dapat dibagi menjadi
tiga kelompok, yaitu mudah, sedang dan sukar.
Tabel 1. Klasifikasi Tingkat Kesukaran Butir Soal
Tingkat Kesukaran Nilai p
Sukar 0,00 – 0,30
Sedang 0,31 – 0,70
Mudah 0,71 – 1,00

Untuk menyusun suatu naskah ujian sebaiknya digunakan butir soal yang
mempunyai tingkat kesukaran berimbang, yaitu : soal berkategori sukar
sebanyak 25%, kategori sedang 50% dan kategori mudah 25%.
Dalam penggunaan butir soal dengan komposisi seperti di atas, maka
dapat diterapkan penilaian berdasar acuan norma atau acuan patokan. Bila
komposisi butir soal dalam suatu naskah ujian tidak berimbang, maka
penggunaan penilaian acuan norma tidaklah tepat, karena informasi
kemampuan yang dihasilkan tidaklah akan berdistribusi normal. Walaupun
demikian ada yang berpendapat bahwa soal-soal yang dianggap baik adalah
soal-soal yang sedang, yaitu soal-soal yang mempunyai indeks kesukaran
berkisar antara 0,31 – 0,70. Berbagai kriteria tersebut mempunyai
kecenderungan bahwa butir soal yang memiliki indeks kesukaran kurang dari
0,30 dan lebih dari 0,70 sebaiknya dihindari atau tidak digunakan, karena butir
soal yang demikian terlalu sukar atau terlalu mudah, sehingga kurang
mencerminkan alat ukur yang baik. Namun demikian menurut Suharsimi
Arikunto (2001) soal-soal yang terlalu mudah atau terlalu sukar tidak berarti
tidak boleh digunakan. Hal ini tergantung dari tujuan penggunaannya.
Jika dari peserta tes banyak, p adahal yang dikehendaki lulus hanya
sedikit maka diambil peserta yang terbaik, untuk itu diambilkan butir soal tes
yang sukar. Demikian sebaliknya jika kekurangan peserta tes, maka dipilihkan
soal-soal yang mudah. Selain itu, soal-soal yang sukar akan menambah
motivasi belajar bagi siswa-siswa yang pandai, sedangkan soal-soal yang
mudah akan membangkitkan semangat kepada siswa yang lemah.
b. Daya beda
Daya beda butir soal ialah indeks yang menunjukkan tingkat
kemampuan butir soal membedakan kelompok yang berprestasi tinggi
(kelompok atas) dari kelompok yang berprstasi rendah (kelompok bawah)
diantara para peserta tes (Asmawi Zainul, dkk : 1997).
Suryabrata (1999) menyatakan tujuan pokok mencari daya beda adalah
untuk menentukan apakah butir soal tersebut memiliki kemampuan
membedakan kelompok dalam aspek yang diukur, sesuai dengan perbedaan
yang ada pada kelompok itu. Daya beda butir soal yang sering digunakan
dalam tes hasil belajar adalah dengan menggunakan indeks korelasi antara
skor butir dengan skor totalnya. Daya beda dengan cara ini sering disebut
validitas internal, karena nilai korelasi diperoleh dari dalam tes itu sendiri.
Daya beda dapat dilihat dari besarnya koefisien korelasi biserial
maupun koefesien korelasi point biserial. Dalam analisis ini digunakan nilai
koefisien korelasi biserial untuk menentukan daya beda butir soal. Koefisien
korelasi biserial menunjukkan hubungan antara dua skor, yaitu skor butir soal
dan skor keseluruhan dari peserta tes yang sama. Koefisien daya beda berkisar
antara –1,00 sampai dengan +1,00. Daya beda +1,00 berarti bahwa semua
anggota kelompok atas menjawab benar terhadap butir soal itu, sedangkan
kelompok bawah seluruhnya menjawab salah terhadap butir soal itu.
Sebaliknya daya beda –1,00 berarti bahwa semua anggota kelompok atas
menjawab salah butir soal itu, sedangkan kelompok bawah seluruhnya
menjawab benar terhadap soal itu. Daya beda yang dianggap masih memadahi
untuk sebutir soal ialah apabila sama atau lebih besar dari +0,30. Bila lebih
kecil dari itu, maka butir soal tersebut dianggap kurang mampu membedakan
peserta tes yang mempersiapkan diri dalam menghadapi tes dari peserta yang
tidak mempersiapkan diri. Bahkan bila daya beda itu menjadi negatif, maka
butir soal itu sama sekali tidak dapat dipakai sebagai alat ukur prestasi belajar.
Oleh karena itu butir soal tersebut harus dikeluarkan dari perangkat
soal. Makin tinggi daya beda suatu butir soal, maka makin baik butir soal
tersebut, dan sebaliknya makin rendah daya bedanya, maka butir soal itu
dianggap tidak baik (Asmawi Zainul, dkk : 1997).
Tabel 2. Klasifikasi Daya Beda Butir Soal
Kategori Daya Beda Koefisien Korelasi
Baik sekali 0,70 – 1,00
Baik 0,40 – 0,69
Cukup 0,20 – 0,39
Jelek 0,00 – 0,19
Tidak baik Negative
c. Distribusi Jawaban (Distraktor)
Dilihat dari konstruksi butir soal terdiri dari dua bagian, yaitu pokok
soal dan alternatif jawaban. Alternatif jawaban jawaban juga terdiri dari dua
bagian, yaitu kunci jawaban dan pengecoh. Pengecoh dikatakan berfungsi
apabila semakin rendah tingkat kemampuan peserta tes semakin banyak
memilih pengecoh, atau makin tinggi tingkat kemampuan peserta tes akan
semakin sedikit memilih pengecoh. Hal demikian dapat ditunjukkan dengan
adanya korelasi yang tinggi, rendah atau negatif pada hasil analisis.
Apabila proporsi peserta tes yang menjawab dengan salah atau memilih
pengecoh kurang dari 0,25 maka pengecoh tersebut harus direvisi. Dan untuk
pengecoh yang ditolak apabila tidak ada yang memilih atau proporsinya 0,00
(Depdikbud : 1997). Proporsi alternatif jawaban masing-masing butir soal
dapat dilihat pada kolom proportion endorsing pada hasil analisis iteman.
Selain memperhatikan fungsi daya tarik untuk dipilih oleh peserta tes,
pengecoh soal juga perlu memperhatikan daya beda (koefisien korelasi) yang
ditunjukkan oleh masing-masing alternatif jawaban. Setiap pengecoh
diharapkan memiliki daya beda negatif, artinya suatu pengecoh diharapkan
lebih sedikit dipilih oleh kelompok tinggi dibandingkan dengan kelompok
bawah. Atau daya beda pengecoh tidak lebih besar dari daya beda kunci
jawaban setiap butir soal.
Tabel 3. Klasifikasi Distraktor Butir Soal
Kategori Distraktor Nilai Proportion Endorsing
Baik ≥ 0,25
Revisi < 0,25
Tidak baik 0,000
B. KRITERIA KUALITAS BUTIR SOAL
Berdasarkan uraian di atas, menurut pandangan teori tes klasik secara empiris
mutu butir soal ditentukan oleh statistik butir soal yang meliputi : tingkat kesukaran,
daya beda dan efektifitas distraktor. Menurut statistik butir, kualitas butir soal secara
keseluruhan dapat dikategorikan sebagai berikut :
Tabel 4. Klasifikasi Kualitas Butir Soal
Kategori
Baik Apabila (1). Tingkat kesukaran 0,31 ≤ p ≤ 0,70, (2). Korelasi biserial butir
soal ≥ 0,40 dan (3). Korelasi biserial alternatif jawaban (distraktor)
bernialai negatif.
Revisi Apabila (1). Tingkat kesukaran p < 0,31 atau p > 0,70 tetapi korelasi
biserial butir ≥ 0,40 dan korelasi biserial distraktor bernilai negatif, (2).
Tingkat kesukaran 0,31 ≤ p ≤ 0,70 dan korelasi biserial butir soal ≥ 0,40
tetapi ada korelasi biserial pada distraktor yang bernilai positif, (3).
Tingkat kesukaran 0,31 ≤ p ≤ 0,70 dan korelasi biserial butir soal antara
0,20 sampai 0,30 tetapi korelasi distraktor bernilai negatif selain kunci
atau tidak ada yang lebih besar nilainya dari kunci jawaban.
Tidak Apabila (1). Tingkat kesukaran p < 0,31 atau p > 0,75 dan ada korelasi
baik biserial pada distraktor bernilai positif, (2). Korelasi biserial butir soal <
0,20, (3). Korelasi biserial butir soal < 0,30 dan korelasi biserial distraktor
bernilai positif.
C. RELIABILITAS
Reliabilitas adalah suatu hal yang sangat penting pada alat pengukuran standar.
Reliabilitas dihubungkan dengan pengertian adanya ketepatan tes dalam
pengukurannya. Reliabilitas adalah kestabilan skor yang diperoleh peserta tes yang
sama ketika diuji ulang dengan tes yang sama pada situasi yang berbeda atau dari
suatu pengukuran ke pengukuran lainnya. Dengan kata lain reliabilitas merupakan
tingkat konsistensi atau kemantapan hasil terhadap hasil dua pengukuran hal yang
sama. Dapat juga diartikan sebagai tingkat kepercayaan dari suatu alat ukur
(Depdikbud : 1997).
2
n ∑ s1
r 11 = [ ]
n−1
[1 2 ]
s1
Keterangan
r 11= koefisian reliabilitas
n= banyaknya butir soal
∑ s 21 = jumlah varians skor item

s21=variasi skor
Hasil pengukuran diharapkan akan sama apabila pengukuran itu diulangi.
Dengan perangkat tes yang reliabel, apabila tes itu diberikan dua kali pada peserta
yang sama tetapi dalam selang waktu yang berbeda sepanjang tidak ada perubahan
dalam kemampuan maka skor yang diperoleh akan konstan. Kriteria untuk
menentukan tinggi rendahnya reliabilitas sebuah perangkat tes, menurut (Suharsimi
Arikunto : 2001) dilihat pada rentangan koefesien korelasi sebagai berikut :
Tabel 5. Klasifikasi Tingkat Reliabilitas
Kategori Reliabilitas Nilai Koefesien Korelasi
Sangat tinggi 0,900 – 1,000
Tinggi 0,700 – 0,899
Cukup 0,400 – 0,699
Rendah 0,200 – 0,399
Sangat rendah 0,000 – 0,199
D. Validitas
Validitas adalah suatu ukuran yang menunjukan tingkatan-tingkatan kevalidan
atau kesahihan instrument. Ada beberapa faktor yang bisa menyebabkan soal
tidak valid yaitu faktor instrumen evaluasi,faktor administrasi evaluasi dan
penskoran, dan faktor dari jawaban peserta didik
r xy =N ∑ XY −( ∑ X)¿ ¿ ¿
Keterangan
r xy= koefisien validitas butir soal
N=¿banyaknya peserta tes
X = skor item butir soal
Y = skor total butir soal
Tabel 6 klasifikasi tingkat validitas
Kategori Reliabilitas Nilai Koefesien Validitas
Sangat kuat 0,800 – 1,000
Kuat 0,600 – 0,799
Cukup 0,400 – 0,599
Rendah 0,200 – 0,399
Sangat rendah 0,000 – 0,199

Daftar Pustaka

Asmawi Zainul dan Noehi Nasoetion. (1997). Penilaian Hasil Belajar. Pusat Antar
Universitas, Direktorat Jenderal Pendidikan Tinggi: Departemen Pendidikan Dan
kebudayaan.
Azwar, S. (2015). Dasar-dasar Psikometri. Yogyakarta: Pustaka Pelajar Croker, L. & Algina,
J. 1986. Introduction to classical and modern test theory. New York : Holt, Rinehard and
Winston Inc.
Dali, S Naga. (1992). Pengantar Teori Sekor Pada Pengukuran Pendidikan. Gunadarma:
Jakarta.
Departemen Pendidikan Dan Kebudayaan. (1997). Manual Item And Test Analysis (Iteman).
Badan Penelitian dan Pengembangan Pendidikan dan Kebudayaan: Pusat Penelitian dan
Pengembangan Sistem Pengujian.
Hambleton, R.K., Swaminathan, H., & Rogers, H.J. (1991). Fundamentals of item response
theory. London: Sage Publications, Inc.
Nitko, A.J. (1996). Penilaian berkelanjutan berdasarkan kurikulum (PB2K): Kerangka,
konsep, prosedur, dan kebijakan (terj. AM. Ahmad) Jakarta: Pusat Pengembangan
Agribisnis.
Sumadi Suryabrata. (2000). Pengembangan alat ukur psikologis. Yogyakarta: Andi Offset.
Sumintono, B., & Widhiarso, W. (2015). Aplikasi Pemodelan Rasch Pada Assessment
Pendidikan. Bandung: Trim Komunikata
Suharsimi Arikunto. (2001). Dasar-Dasar Evaluasi Pendidikan. Bumi Aksara: Jakarta.
Suryabrata, S. (1999). Pengembangan Alat Ukur Psikologis. Direktorat jenderal Pendidikan
Tinggi: Departemen Pendidikan dan Kebudayaan.

Anda mungkin juga menyukai