Anda di halaman 1dari 16

1

BAHAN KULIAH METODOLOGI PENELITIAN KUANTITATIF


SEKOLAH TINGGI AGAMA ISLAM NEGERI (STAIN) PONTIANAK
SEMESTER GANJIL TAHUN AKADEMIK 2013-2014
PERTEMUAN XII
ANALISIS BUTIR SECARA KLASIK: Tingkat Kesulitan, Daya Pembeda, dan Pengecoh
Dirangkum oleh: Ali Hasmy

1. Indeks/Tingkat Kesulitan (Difficulty Index/Level)
Menurut Assessment Systems Corporation (2006: 3.13), Borich & Kubiszyn
(2010: 229), Crocker & Algina (1986: 311), Ebel & Frisbie (1986: 231), Gulliksen (1950:
366,) Henrysson (dalam Thorndike, 1971: 139), Miller (2008: 130), Miller, Linn, &
Gronlund (2009: 356), Reynolds, Livingston, & Willson (2010: 148-149), Shultz &
Whitney (2005: 192), dan Thorndike (2005: 469) kesulitan butir didefinisikan sebagai
proporsi dari jawaban-jawaban yang benar.Dengan demikian, menurut Ebel & Frisbie
(1986: 231), semakin tinggi indeks kesulitan semakin udah butir/tes yang bersangkutan.
Sayangnya jawaban benar itu dapat mencakup jawaban yang dihasilkan dari tebakan,
dengan demikian proporsi jawaban benar kadang tidak menggambarkan keadaan yang
sesungguhnya. Salah satu cara untuk meminimalisir hal ini adalah dengan cara
memberikan distraktor yang homogen dan menarik, sehingga peserta tes yang tidak
benar-benar tahu/mampu akan terjebak untuk memilihnya, bukan memilih kunci
jawaban.
Berdasarkan definisi kesulitan butir di atas, makapersamaan untuk kesulitan
butir dengan skor politomus dapat dituliskan sebagai berikut:

=1

=1
/

(1)
dengan

: proporsi jawaban benar atau indeks kesulitan butir ke-j.


n : ukuran sampel

: skor maksimal untuk butir ke-j


=1
: jumlah skor butir ke-j dari peserta tes ke-i, dengan i mulai
dari 1 sampai ke n.
Untuk butir dengan skor dikotomus dimana skor maksimalnya = 1, maka
persamaan (1) dapat direduksi menjadi:
2

=1

=1
.1
=

=1

. (2)
Persamaan (2) ini dicantumkan oleh Gulliksen (1950: 366) dalam bukunya Theory of
mental test. Dengan demikian dapat dinyatakan bahwa formula indeks kesulitan untuk
skor dikotomus yang tercantum pada persamaan (2) sebenarnya adalah bentuk khusus
dari formula yang dicantumkan sebelumnya pada persamaan (1).
Persamaan (1)dan (2) di atas, jelas memperlihatkan bahwa indeks kesulitan butir
tidak lain adalah nilai rerata pada butir tertentu (item mean). Dalam konteks populasi
indeks kesulitan ini dapat disebut sebagai peluang peserta tes untuk sukses pada butir
tertentu yang dapat menggunakan lambang

dan khusus untuk data dikotomus ditulis


dengan lambang

. Dalam hal ini indeks kesulian butir dapat disebut sebagai


parameter kesulitan butir (item difficulty parameter).
Untuk kesulitan tes (p) yang didefinisikan sebagai rerata dari kesulitan butir
(

), persamaannya dapat dituliskan sebagai berikut:


=

=1

. (3)
Karena menurut Crocker & Algina (1986: 312),

=1
. (4)
maka persamaan (3) dapat dituliskan menjadi,
=

. (5)
Untuk tes dengan seluruh butir memiliki skor maksimal yang sama, persamaan (5) dapat
ditulis menjadi:
=

.
Hasil analisis kesulitan kemudian dapat dibandingan dengan kriteria dari Mc
Donald (1999: 34) dan Miller (2008: 131) yang tercantum pada tabel berikut ini.
Tabel 1.
Keriteria Kesulitan
Indeks Kesulitan Evaluasi Butir
3

1.00 Seluruh peserta tes menjawab dengan benar (terlalu mudah)
> 0.70 - < 1.00 Kesulitan rendah (mudah)
0.30 - 0.70 Rentang kesulitan yang umumnya dapat diterima (sedang/moderat)
> 0.00 - < 0.30 Kesulitan tinggi
0.00 Seluruh peserta tes menjawab dengan tidak benar (terlalu sulit)

Dengan menggunakan kriteria pada Tabel 1, maka menurut Miller (2008: 131) titik
tengah kesulitan adalah 0.50 guna merujuk pada distribusi normal. Hal ini sejalan
dengan pendapat Shultz & Whitney (2005: 194) yang menyatakan bahwa trait yang
diukur diasumsian berdistribusi normal.Menurut Reynolds, Livingston, & Willson (2010:
149), Shultz & Whitney (2005: 192) secara umum 0.50 merupakan Tingkat Kesulitan
Optimal/Ideal, yang mengindikasikan 50% dari peserta tes menjawab dengan benar dan
50% peserta tes menjawab dengan tidak benar. Selain itu tingkat kesulitan optimal
memaksimalkan variabilitas, dan tentu saja daya pembeda dan reliabilitas. Menurut
Reynolds, Livingston, & Willson (2010: 149) Aiken pada tahun 2000 menyarankan
rentang sebesar 0.20 sekitar tingkat kesulitan optimal yaitu antara 0,40 0,60.
Menurut Ebel & Frisbie (1986: 121) kesulitan optimal/ideal adalah titik tengah
antara skor ideal/sempurna (misalnya 1.00) dan the chance-level difficulty (0.50 untuk
pilihan Benar-Salah, 0.25 untuk Pilihan Ganda dengan 4 pilihan). Dengan demikian
kesulitan optimal/ideal untuk soal B-S adalah 0.75 dan untuk soal Pilihan Ganda dengan
4 pilihan adalah 0.625. Hal ini sejalan dengan pendapat mereka (1986: 225) yang
menyatakan bahwa tujuan yang terkait dengan kesulitan adalah mendapatkan skor
yang berada di tengah antara skor ideal/sempurna (perfect score) dan skor peluang
yang diharapkan (expected chance score).
Meski demikian, pemilihan butir dengan kesulitan tertentu untuk digunakan
atau tidak digunakan tergantung dari tujuan diberikannya tes. Untuk kepentingan
seleksi digunakan butir-butir dengan kesulitan tinggi. Sedangkan pada tes hasil belajar
diharapkan pelajar menguasai kompetensi yang diajarkan dan jika demikian tentunya
dapat menjawab butir-butir yang diberikan. Menurut Shultz & Whitney (2005: 192)
rentang nilai p untuk tes pengetahuan kependidikan dan ketenagakerjaan adalah sekitar
0.50 sampai dengan 0.90. Hal ini mengakibatkan indeks kesulitan butir bila dianalisis
4

berkisar dari moderat hingga tinggi (mudah). Sedangkan untuk kepentingan yang lebih
umum diperlukan butir yang sulit, sedang, dan juga mudah dengan proporsi tertentu.
Butir-butir yang sulit akan memberikan tantangan bagi yang memiliki kemampuan
tinggi, sedangkan butir-butir yang mudah memberikan kesempatan bagi yang memiliki
kemampuan rendah untuk menampilkan kemampuannya.
Menurut Henrysson (dalam Thorndike, 1971: 139-140), jika diperlukan indeks
kesulitan yang memiliki derajat pengukuran interval, maka nilai p dapat diubah menjadi
nilai z. Caranya adalah dengan mencari skor yang menjadi batas antara nilai p dan 1-p
pada tabel kurve normal. Skor inilah kemudian yang digunakan sebagai indeks kesulitan
yang disebut dengan indeks z. Argumentasinya adalah bahwa setiap butir/tes
dijawab oleh peserta tes yang memiliki kemampuan dari rendah sampai tinggi. Dalam
hal ini diasumsikan bahwa para peserta tes terdistribusi pada kontinum butir yang
mengikuti distribusi normal. Namun nilai yang didapat dari tabel kurve normal dengan
p = 0 sampai dengan p = 1, hasilnya tidaklah membentuk kurve normal, selain itu nilai z
tidak seluruhnya positif, tetapi juga negatif. Agar didapat nilai yang positif, kemudian
diusulkan penggunaan indeks atau, menurut Gulliksen (1950: 368), disebut Brolyers
Indexdengan melakukan transformasi linier misalnya:
= 13 + 4, atau
= 50 + 10,
yang secara umum dapat dituliskan sebagai berikut:
=

.
2. Indeks Daya Pembeda (Discriminating Power Index)
Menurut McDonald (1999: 78),Miller (2008: 132), Miller, Linn, & Gronlund
(2009: 357), Reynolds, Livingston, & Willson (2010: 150) diskriminasi butir memberikan
suatu indeks atau merujuk pada derajat mengenai bagaimana suatu butir membedakan
antara peserta tes yang mendapatkan skor tinggi dan skor rendah pada butir tes
tertentu.Menurut Ebel & Frisbie (1986: 230) jika tujuan utama seleksi butir adalah
untuk memaksimalkan reliabilitas tes, maka butir yang memiliki diskriminasi tinggi
adalah butir yang harus dipilih. Berdasarkan pendapat ini dapat dinyatakan bahwa
5

terdapat korelasi positif antara daya pembeda butir-butir pada suatu tes dengan
reliabilitas tes dimaksud. Sedangkan menurut Shultz & Whitney (2005: 192),
sebagaimana reliabilitas merupakan syarat perlu (necessary) tapi bukan syarat cukup
(sufficient) bagi validitas, maka variabilitas juga merupakan syarat perlu bagi daya
pembeda butir/tes tetapi bukan syarat cukup.
Selanjutnya Miller (2008: 135) menyatakan bahwa banyaknya peserta tes pada
kelompok atas (yang mendapatkan skor tinggi pada suatu tes) atau kelompok bawah
(yang mendapatkan skor rendah pada suatu tes) adalah:
a. 50% jika n 29.
b. 33% jika 30 n 39.
c. 25% jika n 40.
Namun menurut Assessment System Corporation (2006: 3.13), Reynolds, Livingston, &
Willson (2010: 151), Kelley pada tahun 1939 menyarankan untuk menggunakan 27%
kelompok atas dan 27% kelompok bawah. Hal yang sama juga dinyatakan oleh
Henrysson (Thordike, 1971: 144-145) maupun Shultz & Whitney (2005: 193).
Indeks daya pembeda butir yang dapat digunakan, menurut Borich & Kubiszyn
(2010: 230), Miller (2008: 135) dan Thorndike (2005: 471), dapat dituliskan dengan
persamaan berikut:

. (6)
dengan

: indeks diskriminasi butir.


H : banyaknya peserta tes pada kelompok atas yang menjawab
dengan benar.
L : banyaknya peserta tes pada kelompok bawah yang menjawab
dengan benar.
K : banyak peserta tes pada kelompok atas/kelompok bawah.
Persamaan (6) di atas dapat dituliskan sebagai berikut:

. (7)
Hal ini sejalan dengan pernyataan Crocker & Algina (1986: 314) bahwa indeks
diskriminasi adalah proporsi kelompok atas yang menjawab dengan benar dikurangi
dengan proporsi kelompok bawah yang menjawab dengan benar.
6

Berdasakan pendapat Crocker & Algina di atas, jelas terlihat hubungan antara
indeks diskriminasi dan indeks kesulitan. Dengan memperhatikan indeks kesulitan butir
atau proporsi jawaban benar pada butir tertentu sebagaimana yang tercantum pada
persamaan (2) yang disubstitusikan ke persamaan (7), maka daya pembeda butir
dengan skor dikotomus dapat dituliskan sebagai berikut:

=1

=1

=1

=1

. (8)
Sedangkan dengan memperhatikan persamaan (1) yang disubstitusikan ke persamaan
(7), maka daya pembeda butir untuk skor politomus dapat dituliskan sebagai berikut:

=1

=1

=1

=1
.

. (9)
Persamaan (9) ini juga dapat dituliskan sebagai berikut:
=

. (10)
Persamaan (10) mirip dengan formula dari Nitko pada tahun 2001 yang menurut
Reynolds, Livingston, & Willson (2010: 154) adalah:
=

1
.
Jika dihubungankan dengan persamaan (1) dan (2), maka persamaan (8), (9), dan
(10) secara umum dapat dituliskan sebagai berikut:

. (11)
Hal ini sejalan dengan pendapat Assessment System Corporation (2006: 3.13) dan
Johnson pada tahun 1951 yang dinyatakan oleh Reynolds, Livingston, & Willson (2010:
152).
Ada tiga kemungkinan yang dapat terjadi pada hasil perhitungan dengan
menggunakan persamaan (6) sampai dengan (11). Tiga kemungkinan dimaksud disebut
dengan tipe indeks daya pembeda, yang menurut Borich & Kubiszyn (2010: 229) adalah:
7

a. Indeks daya pembeda positif, dimana rerata kelompok atas memberikan jawaban
benar lebih tinggi dari kelompok bawah.
b. Indeks daya pembeda negatif, dimana rerata kelompok atas memberikan jawaban
benar lebih rendah dari kelompok bawah.
c. Indeks daya pembeda nol (zero), dimana rerata kelompok atas memberikan
jawaban benar sama dengan kelompok bawah.
Menurut Miller, Linn, & Gronlund (2009: 358-362), ada beberapa hal utama
yang perlu diperhatikan terkait dengan indeks daya pembeda butir, yaitu:
a. Daya pembeda butir tidak mengindikasian validitas butir.
b. Daya pembeda butir yang rendah tidak mesti mengindikasikan butir yang
jelek/rusak.
c. Secara umum, analisis butir yang didasarkan pada sampel kecil hanyalah bersifat
sangat sementara.
Untuk daya pembeda tes (D) yang didefinisikan sebagai rerata dari daya
pembeda butir (

), dengan memperhatikan persamaan (3), (4), dan (5),


persamaannya dapat dituliskan sebagai berikut:
=

=1

.
Hasil analisis daya pembeda kemudian dapat dibandingan dengan kriteria dari
Crocker & Algina (1986: 315), Ebel & Frisbie (1986: 234) yang tercantum pada tabel
berikut ini.
Tabel 2.
Kriteria Daya Pembeda
Indeks Diskriminasi Evaluasi Butir
0.40 Butir yang sangat bagus/memuaskan
0.30 - < 0.40
Cukup bagus, tidak perlu perbaikanatau perlu sedikit perbaikan
saja
0.20 - < 0.30 Kurang bagus dan biasanya perlu diperbaiki
< 0.20
Butir yang jelek dan seharusnya diperbaiki total atau malah
ditolak
8


Sedangkan dengan mengacu pada pendapat Hopkins pada tahun 1998 (Reynolds,
Livingston, & Willson, 2010: 152) dan point b pada pendapat Miller, Linn, & Gronlund
(2009: 358-362) yang dicantumkan sebelum ini, dapat disusun kriteria yang lebih rinci
sebagaimana tercantum pada Tabel 3.
Tabel 3.
Kriteria Daya Pembeda Menurut Hopkins
Indeks Diskriminasi Evaluasi Butir
0.40 Sangat tinggi
0.30 - < 0.40 Tinggi
0.10 - < 0.30 Sedang
0.00 - < 0.10 Rendah
< 0.00 Salah kunci atau kekurangan besar lainnya

Jika dihubungkan dengan tingkat kesulitan, untuk kepentingan secara umum,
maka kriteria kombinasinya menurut Haladyna (2004: 228) dapat dilihat pada Tabel 4.
Tabel 4.
Kriteria Kombinasi Tingkat Kesulitan dan Daya Pembeda
Indeks Kesulitan Indeks Daya Pembeda Evaluasi Butir
Sedang Tinggi/Sangat Tinggi Butir yang ideal. Bank butir seharusnya
mengandung butir-butir seperti ini.
Sedang Rendah/Negatif Butir tidak membedakan peserta tes
kelompok atas dan bawah dan tidak
berkonstribusi terhadap reliabilitas secara
signifikan. Butir seperti ini seharusnya
direvisi atau dikeluarkan
Tinggi Rendah/Sedang/Tinggi Butir mudah. Butir seperti ini dapat
dipertahankan jika ahli materi yakin
bahwa butir mengukur materi yang
esensial.
9

Rendah Tinggi/Sangat Tinggi Meski butir sulit, tetapi dapat
membedakan peserta tes kelompok atas
dan kelompok bawah. Butir seperti ini
dapat dipertahankan tetapi sebaiknya
diperiksa ulang pada penggunaan tes
berikutnya.
Rendah Rendah Performansi butir seperti ini buruk dan
seharusnya direvisi atau dikeluarkan

Menurut Reynolds, Livingston, & Willson (2010: 153), maksimum nilai D yang
bisa dicapai pada tingkat kesulitan tertentu adalah sebagaimana tercantum pada Tabel
5.
Tabel 5.
Maksimum Nilai D untuk Tingkat Kesulitan Tertentu
Tingkat Kesulitan Maksimum Nilai D
1.00 0.00
0.90 0.20
0.80 0.40
0.70 0.60
0.60 0.70
0.50 1.00
0.40 0.70
0.30 0.60
0.20 0.40
0.10 0.20
0.00 0.00

Untuk Ujian Ketuntasan (Mastery Test) atau Sensitivitas Pembelajaran
(Instructional Sensitivity), ada beberapa formula sebagaimana yang tercantum pada
persamaan (10) yang menurut Crocker & Algina (1986: 330), Haladyna (2004: 215),
Reynolds, Livingston, & Willson (2010: 155-156) dapat digunakan yaitu:
10

a. Formula dari Aiken (2000) dan Popham (2000), yaitu:
=



. (12)
b. Formula lainnya yang juga cukup populer yaituPre-to-Post Difference Index (PPDI)
dari Cox & Vargas (1966):
=

. (13)
c. Formula dari Aiken (2000), yaitu:
=

.
d. Formula Skor Batas Ketuntasan (Mastery Cutoff Score) dari Brennan (1972), yaitu:
=

(14)
Persamaan (14) sebenarnya sama dengan persamaan (7), hanya saja dengan
pemaknaan yang berbeda, dimana U adalah banyaknya peserta tes dengan skor di atas
cutoff yang menjawab dengan benar, sedangkan L adalah banyaknya peserta tes
dengan skor di bawah cutoff yang menjawab dengan benar. Selain itu,

adalah
banyaknya peserta tes dengan skor di atas cutoff, sedangan

adalah banyaknya
peserta tes dengan skor di atas cutoff.
Menurut Assessment Systems Corporation (2006: 3.15 & 3.17), McDonald (1999:
231-235), selain formula di atas, dapat digunakan korelasi butir-total dan yang paling
umum digunakan adalah korelasi product moment. Keluarga korelasi product moment
ini menurut Hinkle, Wiersma, & Jurs (1979: 96-104), Shultz & Whitney (2005: 194)
adalah korelasi Pearson r, Point-Biserial, Phi, Spearman.
Untuk butir dengan skor dikotomus (binary), menurut Assessment Systems
Corporation (1986: 3.3) dan (2006: 3.5 & 3.13), Ebel & Frisbie (1986: 230), McDonald
(1999: 235), Reynolds, Livingston, &Willson (2010: 154), Shultz & Whitney (2005: 193),
keluarga korelasi product moment yang dapat digunakan adalahkorelasiPoint-Biserial
untuk item dengan skor true dichotomy dan alternatifnya yaitu korelasi Biserial untuk
item dengan skor artificial dichotomy. Hanya saja, menurut Shultz & Whitney (2005:
194) korelasi point-biserial selalu memberikan hasil yang lebih tinggi dibandingkan
11

dengan korelasi biserial. Hal ini dikarenakan skor untuk jawaban benar dan tidak
benar sesungguhnya bukanlah bersifat true dichotomy, tetapi artificial. Dengan
menggunakan korelasi biserial maka terjadi koreksi terhadap sifat artificial tersebut.
Selain itu, Crocker & Algina (1986: 318) Lord & Novick (1968) menyatakan bahwa
hubungan antara korelasi biserial dan point-biserial adalah:

.
Dikarenakan Y ordinat pada kurve normal selalu lebih rendah/kecil dari maka nilai
korelasi biserial selalu lebih besar sekitar 1/5 dari nilai korelasi point-biserial.
Penggunaan koefisien D, korelasi Point-Biserial, dan korelasi Biserial berdasarkan
penelitian Beuchert & Mendoza (1979), Englehart (1965), Findley (1956), dan Oosterhof
(1976) menurut Crocker & Algina (1986: 319) dapat dirangkum sebagai berikut:
a. Jika butir memiliki kesulitan moderat, ketiga indeks memberikan hasil yang
relatifsama. Jika mementingkan kemudahan, gunakan indeks D, namun jika
memerlukan signifikansi statistik, gunakan Biserial atau Point-Biserial.
b. Jika butir memiliki kesulitan yang ekstrim, lebih baik digunakan koefisien Biserial
jika asumsi normalitas pada trait yang dikaji berdistribusi normal.
c. Jika peneliti menduga bahwa sampel lain nantinya (prospective group) akan
berbeda kemampuannya dengan sampel yang digunakan sekarang (analysis group),
maka direkomendasikan untuk menggunakan koefisien Biserial.
d. Jika peneliti yakin bahwa sampel lain nantinya akan relatif sama kemampuannya
dengan sampel yang digunakan sekarang, maka direkomendasikan untuk
menggunakan koefisien Point-Biserial.
Tetapi, menurut Henrysson (dalam Thorndike, 1971: 142-143), jika menggunakan
variabel kriteria berupa data dikotomus maka dapat digunakan koefisien korelasi
tetrakorik dan koefisien phi, , sedangkan jika menggunakan variabel kriteria berupa
ranking maka dapat digunakan koefisien korelasi rank biserial.
Berdasarkan beberapa pendapat di atas, untuk data politomus, dapat
digunakan koefisien korelasi Poliserial sebagai pengganti koefisien korelasi Biserial, dan
koefisien korelasi Polikorik sebagai pengganti koefisien korelasi Tetrakorik. Hanya saja
12

menurut McDonald (1999: 232) penggunaan korelasi butir-total memiliki dua masalah,
yaitu:
a. Jika digunakan skor total seluruh butir termasuk butir yang dikaji (item total score),
maka hasil analisisnya bersifat semu (spurious) karena pada skor total terkandung
skor dari butir yang dianalisis, sehingga mengandung korelasi butir dengan dirinya
sendiri. Namun penggunaan skor total seperti ini memberikan kriteria yang sama
bagi setiap butir yang dikaji.
b. Jika digunakan skor total yang sudah dikurangi dengan skor butir yang dikaji (item
reminder score) efek semunya tereliminasi, namun setiap butir memiliki kriteria
yang berbeda.
Dampak penggunaan item total score maupun item reminder score dapat diperkecil jika
menggunaan butir yang semakin banyak. Menurut Shultz & Whitney (2005: 194),
penggunaan korelasi butir-total memerlukan butir yang sebaiknya 20 dan peserta tes
sebanyak 5-10 kali banyaknya butir. Sedangkan Crocker & Algina (1986: 317)
menyarankan banyaknya butir 25. Untuk tes dengan butir yang sedikit, Crocker &
Algina (1986: 317) menyarankan penggunaan korelasi point-biserial yang dikoreksi.
Dalam kaitan daya pembeda dengan sensitivitas pembelajaran untuk kasus
sebagaimana tercantum pada persamaan (13), menurut Crocker & Algina (1986: 330-
331), juga dapat digunakan keluarga korelasi product moment sebagaimana yang
disarankan oleh Berk (1980) yang diderivasi dari Saupe (1966). Untuk melakukan hal ini
perlu diberikan pretest dan posttest pada individu yang sama. Selanjutnya skor posttest
dikurangi dengan skor pretest pada setiap peserta tes pada setiap butirnya untuk
mendapatkan skor perubahan (change score). Hasil pengurangan dimaksud
menghasilkan nilai 1 (gain score), 0 (no gain), atau -1 (loss of gain). Langkah selanjutnya
adalah menghitung total skor perubahan (change score total) dengan formula sebagai
berikut:

=
dengan Y adalah skor total pada posttest
X adalah skor total pada pretest.
13

Untuk menentukan daya pembeda butir dilakukan perhitungan korelasi antara skor
perubahan pada masing-masing butir dan skor total perubahan. Hanya saja penerapan
korelasi dengan cara seperti ini lebih mengacu pada rujukan norma (norm reference)
dibandingkan dengan rujukan kriteria (criterion reference).
Untuk kasus sebagaimana tercantum pada persamaan (12), menurut Crocker &
Algina (1986: 331) Milman (1974) menyarankan penggunaan korelasi parsial atau
regresi setapak (stepwise regression).
3. Analisis Pengecoh (Distractor/Foil Analysis)
Menurut Ebel & Frisbie (1986: 176), Haladyna (2004: 69 & 273), McDonald
(1999: 19) pengecoh adalah pilihan jawaban yang keliru namun kelihatannya masuk
akal.Sedangkan menurut Ebel & Frisbie (1986: 176), Haladyna (2004: 69), Miller (2008:
55) pengecoh menarik bagi peserta tes yang tidak tuntas tetapi tidak membuat bingung
bagi peserta tes yang tuntas. McDonald (1999: 19), Mehrens & Lehmann (1973: 277),
dan Thorndike (2005: 448) selain menyebut pengecoh dengan istilah distractor juga
menyebutnya dengan istilah foil. Tujuan dari dibuatnya suatu pengecoh (distractor atau
foil), menurut Ebel & Frisbie (1986: 176), adalah untuk membedakan antara peserta tes
yang tidak tuntas pada materi yang diujikan dan peserta tes yang tuntas.
Menurut Haladyna (2004: 273) ada tiga alasan perlunya dilakukan analisis
terhadap pengecoh. Pertama, pengecoh adalah bagian dari butir dan ia harus berguna,
jika tidak ia sebaiknya direvisi aatu dibuang. Pengecoh yang tidak berguna akan
berdampak buruk terhadap daya pembeda butir. Kedua, dengan penyekoran
politomus, pengecoh yang berguna akan memberikan kontribusi terhadap penyekoran
yang efektif, yang berdampak positif terhadap reliabilitas skor. Ketiga, dalam konteks
psikologi kognitif, pengecoh berguna sebagai pintu masuk untuk menemukan kesalahan
konsep pada peserta tes.
Menurut Borich & Kubiszyn (2010: 231-234) ada beberapa hal yang perlu
diperhatikan ketika menganalisis pengecoh, yaitu: efektivitas, salah kunci, ambiguitas,
dan penebakan.
a. Efektivitas (Effectivity)
Pengecoh yang efektif menurut Borich & Kubiszyn (2010: 231-232) tidak hanya
dipilih oleh peserta tes, tetapi harus lebih banyak dipilih oleh kelompok bawah. Hal
14

ini dikarenakan peserta tes dari kelompok atas (memiliki kemampuan yang lebih
tinggi) semestinya hanya sedikit yang terkecoh oleh pengecoh tertentu
dibandingkan dengan peserta tes dari kelompok bawah (memiliki kemampuan yang
lebih rendah). Hal ini sejalan dengan pendapat Miller, Linn, & Gronlund (2009: 357)
yang menyatakan bahwa pengecoh yang baik menarik lebih banyak peserta test
dari kelompok bawah dibandingkan dengan kelompok atas.
Berdasarkan dua pendapat di atas dapat dinyatakan bahwa pengecoh tidak
berfungsi dengan baik (tidak efektif) jika tidak dipilih oleh peserta tes. Selain itu,
meski pengecoh dipilih oleh peserta tes, ia juga dikatakan tidak efektif jikalebih
banyak dipilih oleh peserta test dari kelompok atas dibandingkan dengan kelompok
bawah.
b. Salah Kunci (Miskeying)
Menurut Borich & Kubiszyn (2010: 232-233) indikasi salah kunci terjadi jika peserta
tes dari kelompok atas lebih banyak memilih suatu distraktor dibandingkan dengan
pilihan yang ditetapkan sebagai kunci jawaban.
c. Ambiguitas (Ambiguity)
Menurut Borich & Kubiszyn (2010: 233) indikasi ambiguitas terjadi jika peserta tes
dari kelompok atas memilih suatu distraktor kurang lebih sama frekuensinya
dengan pilihan yang ditetapkan sebagai kunci jawaban.
d. Penebakan (Guessing)
Menurut Borich & Kubiszyn (2010: 233) terjadinya penebakan terindikasi dari
peserta tes dari kelompok atas yang memilih seluruh pilihan jawaban (distraktor
maupun pilihan yang ditetapkan sebagai kunci jawaban) dengan frekuensi yang
relatif seimbang.
Menurut Haladyna (2004: 218-228) metode-metode yang dapat digunakan
untuk mengkaji performansi pengecoh pada dasarnya dapat dikelompokkan menjadi
tiga, yaitu: menggunakan Metode Tabular, Metode Grafikal, dan Metode Statistikal.
Metode Statistikal yang dapat digunakan adalah Statistika deskriptif dan Statistia
Inferensial baik Parametrik maupun Nonparametrik. Adapun manfaatnya adalah: a)
merampingkan butir yang gemuk/kelebihan pilihan jawaban, b) memperbaiki butir-butir
tes, c) mendeteksi penyebab munculnya masalah-masalah performansi, d) kajian
15

tambahan untuk proses kognitif, e) keberbedaan fungsi pengecoh (differential
distractor functioning).
Referensi
Assessment System Corporation. (2006). Usersmanual for the ITEMAN: Conventional item
analysis program.

______________. (1986). Usersmanual for ITEMAN, RASCAL, and ASCAL.

Borich, G., & Kubiszyn, T. (2010). Educational testing & measurement: Classroom application
and practice. Danvers, MA: John Wiley & Sons, Inc.

Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. New York,
NY: CBS College Publishing.

Ebel, R. L., & Frisbie, D. A. (1986). Essentials of educational measurement. Englewood Cliffs,
NJ: Prentice Hall, Inc.

Gulliksen, H. (1950). Theory of mental tests. New York, NY: John Wiley & Sons. Inc.

Haladyna, T. M. (2004). Developing and validating multiple-choice test items. (3
rd
ed.).
Mahwah, NJ: Lawrence Erlbaum Associates, Inc.

Henrysson, S. (1971). Gathering, analyzing, and using data on test items. In R. L. Thorndike
(Ed.). Educational measurement (pp. 130-159). (2
nd
ed.). Washington, DC: American
Council on Education.

Hinkle, D. E., Wiersma, W., & Jurs, S. G. (1979). Applied statistics for the behavioral sciences.
Boston, MA: Houghton & Mifflin Company.

McDonald, R. P. (1999), Test theory: A unified treatment. Mahwah, NJ: Lawrence Erlbaum
Associates, Publishers.

Mehrens, W. A., & Lehmann, I. J. (1973). Measurement and evaluation in education and
psychology. New York, NY: Holt, Rinehart & Winston, Inc.

Miller, M. D., Linn, R. L., & Gronlund, N. E. (2009). Measurement and assessment in
teaching. (10
th
ed.). Upper Saddle River, NJ: Pearson Education, Inc.

Miller, P. W. (2008). Measurement and teaching. Munster, IN: Patrick W. Miller &
Associates.

Reynolds, C. R., Livingston, R. B., &Willson, V. (2010). Measurement and assessment in
education. (2
nd
ed.). Boston, MA: Pearson Education, Inc.

16

Shultz, K. S. & Whitney, D. J. (2005). Measurement theory in action: Case studies and
exercises. Thousand Oaks, CA: Sage Publications, Inc.

Thorndike, R. M. (2005). Measurement and evaluation in psychology and education. (7
th
ed.).
Upper Saddle River, NJ: Pearson Education, Inc.