Anda di halaman 1dari 27

Daya Pembeda (DP)

Daya pembeda soal adalah kemampuan suatu butir soal dapat membedakan antara warga
belajar/siswa yang telah menguasai materi yang ditanyakan dan warga belajar/siswa yang
tidak/kurang/belum menguasai materi yang ditanyakan. Manfaat daya pembeda butir soal adalah
seperti berikut ini.
1)    Untuk meningkatkan mutu setiap butir soal melalui data empiriknya. Berdasarkan indeks
daya pembeda, setiap butir soal dapat diketahui apakah butir soal itu baik, direvisi, atau ditolak.
2)    Untuk mengetahui seberapa jauh setiap butir soal dapat mendeteksi/membedakan
kemampuan siswa, yaitu siswa yang telah memahami atau belum memahami materi yang
diajarkan guru. Apabila suatu butir soal tidak dapat membedakan kedua kemampuan siswa itu,
maka butir soal itu dapat dicurigai "kemungkinannya" seperti berikut ini.
•    Kunci jawaban butir soal itu tidak tepat.
•    Butir soal itu memiliki 2 atau lebih kunci jawaban yang benar
•    Kompetensi yang diukur tidak jelas
•    Pengecoh tidak berfungsi
•    Materi yang ditanyakan terlalu sulit, schingga banyak siswa yang menebak
•    Sebagian besar siswa yang memahami materi yang ditanyakan berpikir ada yang salah
informasi dalam butir soalnya

Indeks daya pembeda setiap butir soal biasanya juga dinyatakan dalam bentuk proporsi. Semakin
tinggi indeks daya pembeda soal berarti semakin mampu soal yang bersangkutan membedakan
warga belajar/siswa yang telah memahami materi dengan warga belajar/peserta didik yang belum
memahami materi. Indeks daya pembeda berkisar antara -1,00 sampai dengan +1,00. Semakin
tinggi daya pembeda suatu soal, maka semakin kuat/baik soal itu. Jika daya pembeda negatif
(<0) berarti lebih banyak kelompok bawah (warga belajar/peserta didik yang tidak memahami
materi) menjawab benar soal dibanding dengan kelompok atas (warga belajar/peserta didik yang
memahami materi yang diajarkan guru).
Daya Pembeda. Salah satu tujuan analisis kuantitatif soal adalah untuk menentukan dapat
tidaknya suatu soal membedakan kelompok dalam aspek yang diukur sesuai dengan perbedaan
yang ada dalam kelompok itu. Indeks yang digunakan dalam membedakan antara peserta tes
yang berkemampuan rendah adalah indeks daya pembeda (item discrimination).
Indeks daya pembeda soal-soal yang ditetapkan dari selisih proporsi yang menjawab dari
masing-masing kelompok. Indeks ini menunjukkan kesesuaian antara fungsi soal dengan fungsi
tes secara keseluruhan. Dengan demikian validitas soal ini sama dengan daya pembeda soal yaitu
daya dalam membedakan antara peserta tes yang berkemampuan tinggi dengan peserta tes yang
berkemampuan rendah.
Angka yang menunjukkan besarnya daya pembeda berkisar antara -1 sampai dengan +1.
Tanda negatif menunjukkan bahwa peserta tes yang kemampuannya rendah dapat menjawab
benar sedangkan peserta tes yang kemampuannya tinggi menjawab salah. Dengan demikian soal
indeks daya pembedanya negatif menunjukkan terbaliknya kualitas peserta.
Indeks diskriminasi item umumnya diberi lambang dengan huruf D (singkatan dari
discriminatory power).
Indeks Dsikriminasi
Klasifikasi Interpretasi
Item (D)
Butir item yang bersangkutan daya
pembedanya lemah sekali (jelek),
< 0,20 Poor
dianggap tidak memiliki daya
pembeda yang baik
Butir item yang bersangkutan telah
0,20 – 0,40 Satisfactory memiliki daya pembeda yang cukup
(sedang)
Butir item yang bersangkutan telah
0,40 – 0,70 Good
memiliki daya pembeda yang baik
Butir item yang bersangkutan telah
0,70 – 1,00 Excellent memiliki daya pembeda yang baik
sekali
Butir item yang bersangkutan daya
Bertanda negatif (-) - pembedanya negative sekali (jelek
sekali)
Fungsi Distraktor. Pada saat membicarakan tes objektif bentuk multiple choice item tersebut
untuk setiap butir item yang dikeluarkan dalam tes hasil belajar telah dilengkapi dengan beberapa
kemungkinan jawab, atau yang sering dikenal dengan istilah option atau alternatif.
Option atau alternatif itu jumlahnya berkisar antara 3 sampai dengan 5 buah, dan dari
kemungkinan-kemungkinan jawaban yang terpasang pada setiap butir item itu, salah satu
diantaranya adalah merupakan jawaban betul (kunci jawaban), sedangkan sisanya adalah
merupakan jawaban salah. Jawaban-jawaban salah itulah yang biasa dikenal dengan istilah
distractor (pengecoh).
Menganalisis fungsi distraktor sering dikenal dengan istilah lain, yaitu : menganalisis pola
penyebaran jawaban item. Adapun yang dimaksud dengan pola penyebaran jawaban item adalah
suatu pola yang dapat menggambarkan bagaimana testee menentukan pilihan jawabnya terhadap
kemungkinan-kemungkinan jawab yang telah dipasangkan pada setiap butir item.
Suatu kemungkinan dapat terjadi, yaitu bahwa dari keseluruhan alternatif yang dipasang pada
butir item tertentu, sama sekali tidak dipilih oleh testee. Dengan kata lain, testee menyatakan
“blangko”. Pernyataan blangko ini sering dikenal dengan istilah omiet dan biasa diberi lambang
dengan huruf O.
Distraktor dinyatakan telah dapat menjalankan fungsinya dengan baik apabila distraktor tersebut
sekurang-kurangnya sudah dipilih oleh 5 % dari seluruh peserta tes.
Sebagai tindak lanjut atas hasil penganalisaan terhadap fungsi distraktor tersebut maka distraktor
yang sudah dapat menjalankan fungsinya dengan baik dapat dipakai lagi pada tes-tes yang akan
datang, sedangkan distraktor yang belum dapat berfungsi dengan baik sebaiknya diperbaiki atau
diganti dengan distraktor yang lain.
Reliabilitas. Keajegan dan ketidakajegan skor tes merupakan fokus dari pengkajian tentang
reliabilitas. Berikut adalah faktor yang mempengaruhi perolehan skor peserta didik (Thorndike)
yang berakibat pada ketidakajegan terhadap skor.
Analisis Butir Soal Secara Manual
Analisis soal dilakukan untuk mengetahui berfungsi tidaknya sebuah soal.
Analisis pada umunya dilakukan melalui 2 cara, yaitu analisis kualitatif (qualitative
control) dan analisis kuantitatif (quantitative control). Analisis kualitatif sering pula
dinamakan sebagai validitas logis (logical validity) yang dilakukan sebelum soal
digunakan untuk melihat berfungsi tidaknya sebuah soal. Analisis soal secara
kuantitatif sering pula dinamakan sebagai validitas sempiris (empirical validity) yang
dilakukan untuk melihat lebih berfungsi tidaknya sebuah soal, setelah soal itu
diujicobakan kepada sampel yang representatif. Tujuan dilakukannya analisis butir
soal adalah untuk meningkatkan kualitas soal, yaitu pakah suatu soal: dapat diterima
karena telah didukung data statistik yang memadai, diperbaiki karena terbukti
terdapat beberapa kelemahan, atau bahkan tidak digunakan sama sekali arena terbukti
secara empiris tidak berfungsi sama sekali.

Daya Pembeda
Tujuannya adalah untuk menentukan dapat tidaknya suatu soal membedakan
kelompok dalam spek yang diukur sesuai dengan perbedaan yang ada dalam
kelompok itu. Indeks daya pembeda ini didapat dari selisih proporsi yang menjawab
dari masing-masing kelompok. Indeks ini menunjukkan kesesuaian antara fungsi soal
dengan fungsi tes secara kesuluruhan. Dengan demikian, validitas soal ini sama
dengan daya pembeda soal, yaitu daya dalam membedakan antara peserta tes yang
berkemampuan tinggi dengan peserta tes yang berkemampuan rendah. Angka yang
menunjukkan besarnya daya pembeda berkisar antara -1 sampai dengan +1. Tanda
negatif menandakan bahwa peserta tes yang kemampuannya rendah dapat menjawab
benar, sedangkan peserta tes yang kemampuannya tinggi menjawab salah. Dengan
demikian, soal yang indeks daya pembedanya negatif menunjukkan terbaliknya
kualitas peserta tes. Kriteria yang digunakan untuk menganalisa soal adalah sebagai
berikut:
Tabel 5.5. Kategori Indeks Daya Pembeda
Nilai D Klasifikasi Interpretasi
> 0.20 Poor Daya pembeda lemah sekali (jelek), dianggap tidak
memiliki daya pembeda yang baik
0.20 – 0.40 Satisfactory Memiliki daya pembeda yang cukup (sedang)
0.40 – 0.70 Good Memiliki daya pembeda yang baik
0.70 – 1.00 Excellent Memiliki daya pembeda yang baik sekali
Bertanda negatif - Daya pembedanya negative (jelek sekali)

Akhirnya sebagai tindak lanjut atas hasil penganalisaan mengenai daya


pembeda butir hasil belajar tersebut adalah:

1) Butir soal yang telah memiliki daya pembeda item yang baik (satisfactory, good,
dan excellent) hendaknya dimasukkan dalam bank soal dan bisa digunakan
kembali pada tes yang akan datang.
2) Butir soal yang daya pembedanya masih rendah (poor) ada 2, yaitu: diperbaiki
atau didrop.
3) Khusus butir soal yang angka indeksnya bertanda negative, sebaiknya pada tes
hasil belajar yang akan datang tidak dikeluarkan kembali.
Untuk memahami konsep daya pembeda ini, maka anda bisa mempelajarinya
dari contoh berikut ini. Masih menggunakan data pada tabel 5.3, carilah daya
pembedanya.

Hasil Daya Pembeda


Soal PA PB D Kategori
1 1 0.6 0.4 Satisfactory
2 1 0.5 0.5 Good
3 1 1 0 Poor
4 1 1 0 Poor
5 0 0 0 Poor
6 1 1 0 Poor
7 0.9 0.8 0.1 Poor
8 1 1 0 Poor
9 1 0.9 0.1 Poor
10 0 0 0 Poor
Sebagai catatan: untuk mendapatkan kelompok kelas atas dan bawah, sebelumnya
anda harus mengurutkan hasil tes siswa dari yang tinggi sampai ke yang rendah.
Setelah itu jika jumlah peserta didik _ 100, maka jumlah peserta di bagi atas 2 atau 50

%, sedangkan jika jumlah peserta _ 100, maka jumlah peserta dibagi 27% atas dan
27% bawah (kelompok yang diantaranya tidak digunakan)

ANALISIS BUTIR SOAL

Analisis butir soal atau analisis item adalah pengkajian pertanyaan-pertanyaan tes
agar diperoleh perangkat pertanyaan yang memiliki kualitas yang memadai.
Untuk melakukan analisis terhadap sebuah butir soal ada dua pendekatan yang bisa
digunakan yaitu dengan teori tes klasik dan teori respon butir. selain itu, soal juga dapat di
analisis dengan menggunakan analisis kualitatif (teoritis) dan kuantitatif (empiris). Insya
Allah penulis akan sedikit membahas keempat hal tersebut. akan tetapi untuk saat ini,
penulis akan membahas analisis soal dengan cara kualitatif atau teoritis.
Analisis secara kualitatif dilakukan dengan melakukan penelaahan terhadap setiap
butir soal dari aspek materi, konstruksi dan bahasa. Aspek materi yang ditelaah berkaitan
dengan substansi keilmuan yang ditanyakan dalam butir tes serta tingkat kemampuan yang
sesuai dengan tes. Analisis konstruksi dimaksudkan untuk melihat hal-hal yang berkaitan
dengan kaidah penulisan tes. Analisis bahasa dimaksudkan untuk menelaah tes berkaitan
dengan penggunaan bahasa Indonesia yang baik dan benar menurut Ejaan Yang
Disempurnakan (EYD).
Telaah secara kualitatif dilakukan oleh tiga orang yang memiliki kompetensi sesuai
dengan aspek materi konstruksi dan bahasa. Setiap penelaah melakukan analisis terhadap
setiap butir soal berdasarkan kriteria yang telah ditetapkan sebelumnya dengan
menuliskan huruf “Y” jika butir sesuai dengan kriteria dan huruf “T” jika butir tidak sesuai
dengan kriteria yang telah ditetapkan.

Ada dua jenis analisis butir soal, yakni anasisis tingkat kesukaran soal dan analisis
daya pembeda disamping validitas dan reliabilitas. Menganalisis tingkat kesukaran soal
artinya mengkaji soal-soal tes dari segi kesulitannya. Sehingga dapat diperoleh soal-soal
mana yang termasuk mudah, sedang, dan sukar. Sedangkan menganalisis daya pembeda
artinya mengkaji soal-soal tes dari segi kesanggupan tes tersebut dalam membedakan
siswa yang termasuk kedalam kategori lemah atau rendah dan kategori kuat atau tinggi
prestasinya. Sedangkan validitas dan reliabilitas mengkaji kesulitan dan keajegan
pertanyaan tes.
A. ANALISIS TINGKAT KESULITAN
Asumsi yang digunakan untuk memperoleh kualitas soal yang aik, di samping
memenuhi validitas dan reliabilitas, adalah adanya keseimbangan dari tingkat
kesulitan soal tersebut. Keseimbangan yang dimaksudkan adalah adanya soal-soal
yang termasuk mudah, sedang, dan sukar secara proporsional. Tingkat kesukaran soal
dipandang dari kesanggupan atau kemampuan siswa dalam menjawabnya, buan dilihat
dari sudut guru sebagai pembuat soal. Persoalan yang penting dalam melakukan
analisis tingkat kesukaran soal adalah penentuan proporsi dan kriteria soal yang
termasuk mudah, sedang, dan sukar.
Ada beberapa dasar pertimbangan dalam menentukan proporsi jumlah soal
kategori mudah, sedang, dan sukar. Pertimbangan pertama adalah adanya
keseimbangan, yakni jumlah soal sama untuk ketiga kategori tersebut. Pertimbangan
kedua proporsi jumlah soal untuk ketiga kategori tersebut didasarkan atas kurva
normal. Artinya, sebagian besar soal berada dalam kategori sedang, sebagian lagi
termasuk ke dalam kategori mudah dan sukar dengan proporsi yang seimbang.
Tingkat kesukaran soal dipandang dari kesanggupan atau kemampuan siswa
salam menjawabnya, bukan dilihat dari sudut guru sebagai pembuat soal. Persoalan
yang penting dalam melakukan analisis tingkat kesukaran soal adalah penentuan
proporsi dan criteria soal termasuk mudah, sedang, dan sukar.
Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar.
Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi usaha
memecahkannya. Sebaliknya soal yang terlalu sukar akan menyebabkan siswa akan
menjadi putus asa dan tak mempunyai semangat untuk mencoba lagi karena di luar
jangkauan.
Bilangan yang menunjukan sukar dan mudahnya sesuatu soal disebut indeks
kesukaran (difficulty indeks). Besarnya indeknya kesukaran antara 0.00 sampai
dengan 1.0 indeks kesukaran ini menunjukan taraf kesukaran soal. Soal dengan indeks
kesukaran 0.0 menunjukan bahwa soal itu terlalu sukar, sebaliknya indeks 1,0
menunjukan bahwa soalnya terlalu mudah,.

0,0 1,0

Sukar mudah
Persoalan lain adalah menentukan kriteria soal, yaitu ukuran untuk menentukan
apakah soal tersebut termasuk mudah, sedang, atau sukar. Dalam menentukan kriteria
ini digunakan judgment dari guru berdasarkan pertimbangan-pertimbangan tertentu.
Pertimbangan tersebut antara lain adalah:
1. Ailitas yang diukur dalam pertanyaan tersebut. Misalkan untuk bidang kognitif,
aspek pengetahuan atau ingatan dan pemahaman termasuk kategori mudah, aspek
penerapan dan analisis termasuk kategori sedang, dan aspek sintesis dan evaluasi
termasuk kategori sukar.
2. Sifat materi yang diujikan atau ditanyakan. Misalnya ada fakta, konsep, prinsip dan
hukum, serta generalisasi. Fakta termasuk ke dalam mudah, konsep dan hukum
termasuk ke dalam kategori sedang, dan generalisasi (menarik kesimpulan)
termasuk ke dalam kategori sukar.
3. Isi bahan yang ditanyakan sesuai dengan bidang keilmuan, baik luasnya atau
kedalamannya. Tentang persoalan isi bahan yang akan diujikan, guru sendiri harus
sudah bisa mennentukan mana yang termasuk mudah, sedang, atau sukar.
4. Bentuk soal. Misalnya dalam tes objektif, tipe soal benar salah lebih mudah daripada
pilihan berganda dengan option tiga atau empat. Menjodohkan relatif leih sulit
daripada pilihan berganda jika terdapat lima atau leih yang harus dipasangkan.
Hal yang sama berlaku dalam menyusun tes uraian (esai). Artinya soal-soal jenis
esai hendaknya memperhatikan pula tingkat kesukaran soal. Mengingat sifatnya,
menentukan tingkat kesukaran soal tes uraian jauh lebih mudah dari pada tes objektif.
Melalui analisis abilitas yang diukur serta isi dan sifat bahan yang ditanyakan, dalam
tes uraian dapat dengan mudah menentukan tingkat kesukaran.
Cara melakuakan analisis untuk menentukan tingkat kesukaran soal adalah
dengan menggunakan rumus sebagai berikut:
I = Indeks kesulitan untuk setiap butir soal
B = Banyaknya siswa yang menjawab benar setiap butir soal
N = Banyaknya siswa yang memberikan menjawab pada soal yang
dimaksudkan
Cara lain dalam melakuakn analisis tingat kesukaran soal adalah dengan
menggunakan Tabel Rose dan Stanley. Kriterianya adalah:
Persentase Option Kategori
2 3 4 5
16 0,16n 0,213n 0,24n 0,25n Mudah

50 0,5n 0,667n 0,75n 0,80n Sedang

84 0,84n 0,20n 1,26n 0,344n Sukar


Keterangan:
- Option 2 adalah bentuk benar salah
- Option 3, 4, 5 adalah bentuk pilihan berganda
- - n adalah 27% dari banyaknya peserta yang mengikuti tes
Dalam menghitung indeks kesukaran soal. Rumusnya adalah sebagai berikut:
SR – ST
- SR adalah siswa yang menjawab salah dari kelompok rendah
- ST adalah siswa yang menjawab salah dari kelompok tinggi
Daya Pembeda (DP)
Daya pembeda soal adalah kemampuan suatu butir soal
d a p a t membedakan antara warga belajar/siswa yang telah menguasai materiy a n g
d i t a n y a k a n d a n w a r g a b e l a j a r / s i s w a y a n g t i d a k / k u r a n g / b e l u m menguasai
materi yang ditanyakan. Manfaat daya pembeda butir soal adalah seperti berikut
ini.1 ) U n t u k m e n i n g k a t k a n m u t u s e t i a p b u t i r s o a l
m e l a l u i d a t a empiriknya. Berdasarkan indeks daya pembeda, setiap
b u t i r s o a l dapat diketahui apakah butir soal itu baik, direvisi, atau ditolak.2 ) U n t u k
m e n g e t a h u i s e b e r a p a j a u h s e t i a p b u t i r s o a l
d a p a t mendeteksi/membedakan kemampuan siswa, yaitu siswa yang telahm e m a h a m i
atau belum memahami materi yang diajarkan guru. A p a b i l a s u a t u
butir soal tidak dapat membedakan keduakemampuan
siswa itu, maka butir soal itu dapat
d i c u r i g a i "kemungkinannya" seperti berikut ini.

Kunci jawaban butir soal itu tidak tepat.

B u t i r s o a l i t u m e m i l i k i 2 a t a u l e b i h k u n c i j a w a b a n yang benar

Kompetensi yang diukur tidak jelas

Pengecoh tidak berfungsi

Materi yang ditanyakan terlalu sulit, schingga banyaksiswa yang menebak

Sebagian besar siswa yang memahami materi yang d i t a n y a k a n b e r p i k i r
a d a y a n g s a l a h i n f o r m a s i d a l a m b u t i r soalnyaIndeks daya pembeda setiap
butir soal biasanya juga dinyatakan dalam b e n t u k p r o p o r s i . S e m a k i n t i n g g i
indeks daya pembeda soal berarti s e m a k i n m a m p u s o a l y a n g
bersangkutan membedakan wargabelajar/siswa yang
t e l a h m e m a h a m i m a t e r i d e n g a n w a r g a belajar/peserta
d i d i k y a n g b e l u m m e m a h a m i m a t e r i . I n d e k s d a y a pembeda berkisar
antara -1,00 sampai dengan +1,00. Semakin tinggidaya pembeda suatu soal, maka
semakin kuat/baik soal itu. Jika daya p e m b e d a n e g a t i f ( < 0 ) b e r a r t i l e b i h b a n y a k
k e l o m p o k b a w a h ( w a r g a belajar/peserta didik yang tidak memahami materi)
menjawab benar14

Panduan Analisis Butir Soal


soal dibanding dengan kelompok atas (warga belajar/peserta didik yangmemahami materi yang
diajarkan guru).U n t u k m e n g e t a h u i d a y a p e m b e d a s o a l b e n t u k p i l i h a n g a n d a
a d a l a h dengan menggunakan rumus berikut ini.
N BBBADP 
21
−=
atau
N BBBADP 
)(2
−=
DP = daya pembeda soal,BA = jumlah jawaban benar pada kelompok atas,BB = jumlah jawaban
benar pada kelompok bawah, N=jumlah siswa yangmengerjakan tes.Di samping rumus di atas,
untuk mengetahui daya pembeda soal bentukpilihan ganda dapat dipergunukan rumus korelasi
point biserial (r pbis)dan korelasi biserial (r bis) (Millman and Greene, 1993: 359-360)
dan(Glass and Stanley, 1970: 169-170) seperti berikut.
 pqSDs X b X  rpbis
−=
dan
nnunnsnbSDsY bY  rbis
−−=
2
..
Xb, Yb adalah rata-rata skor warga belajar/siswa yang menjawab benarXs, Ys adalah rata-rata
skor warga belajar siswa yang menjawab salahSDt adalah simpangan baku skor totaln b d a n n ,
a d a l a h j u m l a h s i s w a y a n g m e n j a w a b b e n a r d a n j u m l a h s i s w a y a n g menjawab
salah, serta nb + n, = n.p adalah proporsi jawaban benar terhadap semua jawaban siswaq adalah I
–pU adalah ordinat kurva normal.
Untuk mengetahui daya pembeda soal bentuk uraian adalah
d e n g a n menggunakan rumus berikut ini.
soal maksimumSkor bawahkelompok Meanataskelompok Mean DP 
−=
Hasil perhitungan dengan menggunakan rumus di atas
d a p a t menggambarkan tingkat kemampuan soal dalam membedakan
antarp e s e r t a d i d i k y a n g s u d a h m e m a h a m i m a t e r i y a n g d i u j i k a n
denganpeserta didik yang belum/tidak memahami materi yang
d i u j i k a n . Adapun klasifikasinya adalah seperti berikut ini (Crocker dan
Algina,1986: 315).0 , 4 0 - 1 , 0 0 s o a l d i t e r i m a b a i k 0 , 3 0 - 0 , 3 9 s o a l d i t e r i m a
tetapi perlu diperbaiki

B. ANALISIS DAYA PEMBEDA


Analisis daya pembeda mengkaji butir-butir soal dengan tujuan untuk
mengetahui kesanggupan soal dalam membedakan siswa yang tergolong mampu
(tinggi prestasinya dengan siswa yang tergolong kurang atau lemah prestasinya. Tes
dikatakan tidak memiliki daya pembeda apabila tes tersebut, jika diujikan kepada anak
yang prestasinya tinggi, hasilnya rendah, tetapi bila diberikan kepada anak yang lemah,
hasilnya tinggi. Atau jika diberikan kepada kedua kategori siswa tersebut hasinya
sama. Dengan demikian, tes yang tidak memiliki daya pembeda, tidak akan
menghasilkan gambaran hasil yang sesuai dengan kemampuan siswa yang sebenarnya.
Daya pembeda soal adalah kemampuan suatu butir soal dapat membedakan
antara warga belajar/siswa yang telah menguasai materi yang ditanyakan dan warga
belajar/siswa yang tidak/kurang/belum menguasai materi yang ditanyakan. Manfaat
daya pembeda butir soal adalah seperti berikut ini.
1) Untuk meningkatkan mutu setiap butir soal melalui data empiriknya. Berdasarkan
indeks daya pembeda, setiap butir soal dapat diketahui apakah butir soal itu baik,
direvisi, atau ditolak.
2) Untuk mengetahui seberapa jauh setiap butir soal dapat mendeteksi/membedakan
kemampuan siswa, yaitu siswa yang telah memahami atau belum memahami
materi yang diajarkan guru. Apabila suatu butir soal tidak dapat membedakan
kedua kemampuan siswa itu, maka butir soal itu dapat dicurigai
"kemungkinannya" seperti berikut ini.

 Kunci jawaban butir soal itu tidak tepat.

 Butir soal itu memiliki 2 atau lebih kunci jawaban yang benar

 Kompetensi yang diukur tidak jelas


 Pengecoh tidak berfungsi

 Materi yang ditanyakan terlalu sulit, schingga banyak siswa yang menebak

 Sebagian besar siswa yang memahami materi yang ditanyakan berpikir ada yang
salah informasi dalam butir soalnya

Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi,


disingkat D (d besar). Seperti halnya indeks kesukaran, indeks diskriminasi (daya
pembeda) ini berkisar antara 0,00-1,00. Hanya bedanya, indeks kesukaran tidak
mengenal tanda negatif (-), tetapi pada indeks diskriminasi dipergunakan jika sesuatu
soal “terbaik“ menunjukkan kualitas tes tersebut. Apa itu anak pandai disebut bodoh
dan anak bodoh disebut pandai.
Dengan demikian ada tiga titik pada daya pembeda, yaitu :
-1, 00 0, 00 1, 00
Daya pembeda Daya pembeda Daya pembeda
Negatif Rendah Tinggi (positif)
Cara yang dilakukan dalam analisis daya pembeda adalah dengan menggunakan
tabel atau criteria dari pase dan Stanley sport dalam analisis tingkat kesukaran soal.
Rumusnya adalah : SR – ST
Criteria pengujian daya pembeda adalah sebagai berikut :
Bila SR – ST sama atau lebih besar dari nilai tabel, artinya butir soal itu mempunyai
daya pembeda.

 Cara menentukan daya pembeda (nilai D)

Untuk ini perlu dibedakan antara kelompok kecil (kurang dari 100) dan kelompok
besar (100 orang ke atas).
a. Untuk Kelompok Kecil
Seluruh kelompok tes tersebut dibagi dua sama besar, 50 % kelompok atas
dan 50 % kelompok bawah.
Contoh :
Siswa Skor
A Kelompok
atas (JA)
B
9
C 8
D 7
E 7
F 6
G 5
H
Kelompok
I
bawah
J (JB)
5
4
4
3
Seluruh pengikut tes, dideretkan mulai dari skor teratas sampai terbawah lalu
dibagi 2
b. Untuk Kelompok Besar
Mengingat biaya dan waktu untuk menganalisis, maka untuk kelompok
besar biasanya hanya diambil kedua kutubnya saja, yaitu 27 % skor teratas
sebagai kelompok atas (JA) dan 27 % skor terbawah sebagai kelompok bawah
(JB).
JA = Jumlah kelompok atas
JB = Jumlah kelompok bawah
Contoh :
9
27 % sebagai JA
9
8
8
8
.
.
.
.
.
.
.
.
.
.
27 % sebagai JB
2
1
1
1
0
Rumus mencari D
Rumus untuk menentukan indeks diskriminasi adalah :
BA BB
D= - = PA - PB
JA JB
Dimana :
J = Jumlah peserta tes
JA = Banyaknya peserta kelompok atas
JB = Banyaknya peserta kelompok bawah
BA = Banyaknya peserta kelompok atas yang menjawab soal itu dengan benar
BB = Banyak peserta kelompok bawah yang menjawab soal itu dengan benar
PA = Proporsi peserta kelompok atas yang menjawab benar (ingat P sebagai
indeks kesukaran)
PB = Proporsi peserta kelompok bawah yang menjawab benar
c. Pola Jawaban Soal
Yang dimaksud pola jawaban soal disini adalah distribusi tes tersebut
dalam hal menentukan pilihan jawaban pada soal bentuk pilihan ganda. Pola
jawaban soal diperoleh dengan menghitung banyaknya tes tersebut yang
memilih pilihan jawaban a, b, c atau d atau yang tidak memilih pilihan manapun
(blangko). Dalam istilah evaluasi disebut objek disingkat O
Dengan melihat pola jawaban soal, dapat diketahui :
1. Taraf kesukaran soal
2. Daya pembeda soal
3. Baik dan tidaknya distraktor
Sesuatu distroktor dapat diperlakukan dengan 3 cara :
a. Diterima, karena sudah baik
b. Ditolak, karena tidak baik
c. Ditulis kembali karena kurang baik
Menulis soal adalah suatu pekerjaan yang sulit, sehingga apabila masih
dapat diperbaiki sebaiknya diperbaiki saja, tidak dibilang suatu distroktor dapat
dikatakan berfungsi baik jika paling sedikit dipilih 5 % pengikut tes.
Cara lain menghitung daya pembeda adalah dengan menempuh langkah sebagai
berikut:
1. Memeriksa jawaban soal semua siswa peserta tes.
2. Membuat daftar peringkat hasil tes berdasarkan skor yang dicapainya.
3. Menentukan jumlah sampel 27% dari jumlah peserta tes untuk kelompuk siswa
pandai(peringkat atas) dan 27% untuk kelompok siswa kurang (peringkat bawah).
4. Melakukan analisis butir soal, yakni menghitung jumlah siswa yang menjawab salah
dari semua nomor soal, baik pada kelompok pandai maupun pada kelompok
kurang.
5. Menghitung selisih jumlah siswa yang salah menjawab pada kelompok kurang dan
kelompok pandai (SR-ST).
6. Membandingkan nilai selisih yang diperoleh dengan table Rose dan Stanley.
7. Menentukan ada tidaknya daya pembeda ppada setiap nomor soal dengan kriteria ”
memiliki daya pembeda” bil selisih jumlah siswa yang menjawab salah anatar
kelompok kurang dengan kelompok pandai(SR-ST) sama atau lebih besar dari nilai
table.
Butir soal yang tidak memiliki daya pembeda diduga terlalu mudah atau terlalu
sukar sehingga perlu diperbaiki atau diganti dengan pertanyaan lain. idealnya semua
butir soal memiliki daya pembeda dan tingat kesukaran. Tes yang telah dibakuan, di
samping memenuhi validitas dan reliabilitas, juga memenuhi tingkat kesukaran dan
daya pembeda.
Kriteria Untuk Menentukan Soal Yang Baik dan Tidak Baik
Untuk menentukan apakah suatu soal dikatakan baik atau tidak baik sehingga
perlu direvisi, digunakan kriteria sebagai berikut :
a. Untuk soal yang berbentuk benar-salah (true-false) :
- Jika tingkat kesukarannya sama atau lebih kecil dari 0, 16, dikategorikan soal yang
suka.
- Jika tingkat kesukarannya sama atau lebih besar dari 0, 84, dikategorikan soal yang
mudah.
b. Untuk soal yang berbentuk pilihan ganda (multiple choice) :
- Untuk pilihan ganda dengan option 3, jika tingkat kesukarannya sama atau lebih
kecil dari 0,21, dikategorikan soal yang sukar, sedangkan Jika tingkat
kesukarannya sama atau lebih besar dari 0,79, dikategorikan soal yang mudah.
- Untuk pilihan ganda dengan option 4, Jika tingkat kesukarannya sama atau lebih
kecil dari 0,24, dikategorikan soal yang sukar; sedangkan Jika tingkat
kesukarannya sama atau lebih besar dari 0,76, dikategorikan soal yang mudah.
c. Jika daya pembeda soal ini adalah 0 (nol) atau negatif (minus), maka soal itu perlu
direvisi.diperbaiki.
d. Untuk menentukan daya pembeda suatu soal, di samping kriteria pada c tersebut di
atas dapat juga dicari dengan menggunakan “tabel koefisien biserial” dengan
mencari R bis dari tabel tersebut. Tabel tersebut digunakan untuk menghitung daya
pembeda yang didasarkan atas perhitungan 27 % Upper Group dan 27 % Lower
Group.

1. Daya Pembeda

Daya pembeda soal adalah kemampuan suatu butir soal dapat membedakan antara peserta didik
yang telah menguasai materi yang ditanyakan dan peserta didik yang tidak/kurang/belum
menguasai materi yang ditanyakan. Indeks daya pembeda setiap butir soal biasanya juga
dinyatakan dalam bentuk proporsi. Semakin tinggi indeks daya pembeda soal berarti semakin
mampu soal yang bersangkutan membedakan peserta didik yang telah memahami materi dengan
peserta didik yang belum memahami materi. Indeks daya pembeda berkisar antara -1,00 sampai
dengan +1,00. Semakin tinggi daya pembeda suatu soal, maka semakin kuat/baik soal itu. Jika
daya pembeda negatif (<0) berarti lebih banyak kelompok bawah (peserta didik yang tidak
memahami materi) menjawab benar dibanding dengan kelompok atas (peserta didik yang
memahami materi yang diajarkan pendidik). Analisis daya pembeda soal bentuk pilihan ganda
adalah dengan menggunakan rumus berikut ini:

Keterangan:

 DP adalah daya pembeda soal,


 BA adalah jumlah jawaban benar pada kelompok atas,
 BB adalah jumlah jawaban benar pada kelompok bawah,
 N adalah jumlah peserta yang mengerjakan tes

Selain rumus di atas, untuk mengetahui daya pembeda soal bentuk pilihan ganda dapat
dipergunakan rumus korelasi point biserial (r pbis) dan korelasi biserial (r bis) (Miliman , Ireene,
1993: 359-360) dan (Glass, Stanley, 1970: 169-170) seperti berikut:

Keterangan:

 Xb, Yb adalah rata-rata skor warga belajar/siswa yang menjawab benar


 Xs, Ys adalah rata-rata skor warga belajar siswa yang menjawab salah
 SD adalah simpangan baku skor total
 nb dan n, adalah jumlah siswa yang menjawab benar dan jumlah siswa yang menjawab
salah, serta nb + n, = n.
 p adalah proporsi jawaban benar terhadap semua jawaban siswa
 q adalah I –p

Hasil perhitungan dengan menggunakan rumus di atas dapat menggambarkan tingkat


kemampuan soal dalam membedakan antar peserta didik yang sudah memahami materi yang
diujikan dengan peserta didik yang belum/tidak memahami materi yang diujikan. Adapun
klasifikasinya adalah seperti berikut ini.

1. 0,40 – 1,00       : soal diterima baik


2. 0,30 – 0,39       : soal diterima tetapi perlu diperbaiki
3. 0,20 – 0,29       : soal diperbaiki
4. 0,19 – 0,00       : soal tidak dipakai/dibuang

(Crocker, Algina, 1986: 315)

1. 3.      Pola Penyebaran Jawaban


Pola penyebaran jawaban adalah distribusi peserta dalam menentukan pilihan jawaban pada soal
dengan bentuk pilihan ganda (Arikunto, 2002:219). Hal ini dimaksudkan untuk mengetahui
berfungsi tidaknya jawaban yang tersedia. Suatu pilihan jawaban (pengecoh) dapat dikatakan
berfungsi apabila pengecoh tersebut:

1. Paling tidak dipilih oleh 5% peserta tes/siswa,


2. Lebih banyak dipilih oleh kelompok siswa yang belum paham materi.

Secara statistik, pola penyebaran (distribusi) jawaban dapat dihitung dengan menghitung Standar
Deviasi (SD) dari soal tersebut. Jika semua peserta menjawab pada butir jawaban yang sama,
maka standar deviasinya 0 (nol).

1. 4.      Validitas Butir Soal

Sebuah butir soal (item) dikatakan valid apabila mempunyai dukungan yang besar terhadap skor
total. Skor pada item menyebabkan skor total menjadi tinggi atau rendah (Arikunto, 2002: 76).
Butir soal yang memiliki validitas yang tinggi jika skor pada item mempunyai kesejajaran
dengan skor total. Kesejajaran ini dapat diartikan dengan korelasi sehingga untuk mengetahui
validitas item digunakan rumus korelasi product moment seperti berikut:

Keterangan:

rx             = koefisien korelasi antara skor butir soal dan skor total,

N         = jumlah peserta tes,

∑xy      = jumlah perkalian x dengan y (skor butir soal dengan skor total)

∑x        = jumlah x (jumlah skor butir soal)

∑y        = jumlay y (jumlah skor total)

x2         = kuadrat dari x (kuadrat dari skor butir soal)

y2         = kuadrat dari y (kuadrat dari skor total)

Hasil perhitungan ini berkisar diantara -1,00 sampai +1,00. Sedangkan interpretasi hasil
perhitungan ini akan menentukan besarnya koefisien korelasi (validitas item) dengan klasifikasi
(Arikunto, 2002: 75) sebagai berikut:

1. 0,8 – 1,00        : sangat tinggi


2. 0,6 – 0,8          : tinggi
3. 0,4 – 0,6          : cukup
4. 0,2 – 0,4          : rendah
5. 0 – 0,2             : sangat rendah
1. 5.      Reliabilitas Skor tes

Tujuan utama menghitung reliabilitas skor tes adalah mengetahui tingkat ketepatan (precision)
dan keajegan (consistency) skor tes. Indeks reliabilitas ini berkisar antara 0 sampai 1. Semakin
tinggi koefisien reliabilitas suatu tes (mendekati 1), makin tinggi pula keajegan/ketepatannya.

Untuk mengetahui koefisien reliabilitas tes soal bentuk pilihan ganda dapat digunakan rumus
Kuder-Richardson 20 (KR-20) seperti berikut:

Keterangan:

k          = jumlah butir soal

(SD)2   = varian

p          = proporsi peserta yang menjawab benar

∑p(1-p)= jumlah proporsi peserta yang menjawab benar dan proporsi peserta yang menjawab
salah

KR-20 = koefisien reliabilitas tes

Analisis Kebutuhan Sistem

Fitur analisis soal mampu melakukan analisis tes hasil belajar bentuk soal pilihan ganda. Fitur ini
dikembangkan dalam bentuk sebuah block dan module dan  fitur ini dapat diintegrasi serta
memenuhi standar pengembangan block/module yang ditetapkan oleh MOODLE. Pemakai fitur
ini adalah guru, pengampu atau tutor. Guru/tutor selaku pihak yang bertanggungjawab
memasang sendiri fitur ini pada mata kuliah/course yang diampunya dan bertanggung-jawab
merancang dan melaksanakan pembelajaran sampai pada evaluasi hasil belajar dengan prasyarat
menggunakan model tes tertulis dengan bentuk soal pilihan ganda.

Sistem e-learning yang dilengkapi fitur analisis butir soal memiliki kemampuan untuk

1)      mendeteksi soal bentuk pilihan ganda pada tiap mata kuliah/course yang menggunakan
fitur ini

2)      mampu melakukan analisis tes hasil belajar yang mengacu pada beberapa parameter yaitu
1) Tingkat Kesukaran Soal, 2) Daya Pembeda Soal, 3) Pola Distribusi Soal/Standar Deviasi, 4)
Validitas Soal dan 5) Reliabilitas Tes hasil belajar.

3)      merekam tiap proses analisis yang dilakukan pada basisdatanya sendiri dan terpisah dari
question engine.

4)      mengkoleksi soal yang telah dianalisis dalam bentuk bank soal tersandar.
PROSEDUR ANALISIS ITEM YANG LEBIH SEDERHANA UNTUK “NORM-
REFERENCED TEST”
Ada beberapa prosedur analisis item yang dapat dilakukan terhadap norm-
referenced test (Thorndike, 1971). Bagi tes-tes hasil belajar yang informal yang
digunakan dalam pengajaran, agaknya diperlukan prosedur yang sederhana saja.
Langkah-langkah berikut merupakan prosedur yang simple, tetapi efektif.
Misalnya kita akan menganalisis 32 lembar jawaban tes multiple choice dengan
5 option. Maka langkah-langkahnya adalah sebagai berikut:
1. Susunlah 32 lembar jawaban tes tersebut pada skor yang paling tinggi sampai
kepada skor yang paling rendah.
2. Ambil  sepertiga dari jumlah lembar jawaban tes itu yang mendapat skor tinggi, dan
sebutlah ini Upper Group (10 lembar). Dan ambil pula  sepertiga dari jumlah
lembar jawaban tes itu yang mendapat skor rendah, dan sebut Lower Group (10
lembar pula). Pisahkan yang selebihnya, yaitu yang termasuk Middle Group (12
lembar). Meskipun lembaran Middle Group ini dapat dimasukkan ke dalam analisis,
penggunaan Upper dan Lower Group saja sudah cukup menyederhanakan prosedur
pengelolaan (analisis)
3. Untuk tiap Item, hitunglah jumlah siswa dari Upper Group yang memilih tiap
alternatif (option), kemudian kerjakan. Begitu juga pada Lower Group.
4. Catatlah jumlah dari langkah 3 tersebut di dalam catatan tes dalam kolom dimana
alternatif itu dipilih. Atau untuk digunakan “kartu item” yang terpisah seperti
berikut :

Item no. 1 A B* C D E
Alternatif
Upper 10 0 6 3 1 0
Lower 10 3 2 2 3 0
Jawaban yang benar
5. Taksirlah Tingkat Kesukaran soal (item difficulty) dengan menghitung persentase
siswa ymenjawab Item itu dengan benar. Prosedur sederhana ini adalah untuk
mendasarkan penaksiran itu hanya pada siswa-siswa yang termasuk di dalam
kelompok analisis item itu. Dengan demikian, jumlah siswa dalam Upper dan Lower
Group (10 + 10 = 20) yang memilih jawaban benar pada Item no. 1 di atas adalah 6
+ 2 = 8. Dari situ kita dapat menghitung Indeks Kesukaran soal sebagai berikut :
Index of item difficulty =
Meskipun perhitungan kita hanya didasarkan atas kelompok Upper dan Lower,
hasilnya akan menyediakan suatu taksiran mendekati kebenaran yang berlaku
untuk jumlah kelompok seluruhnya. Ini berarti bahwa indeks kesukaran no. 1
sebesar 40 % itu berlaku untuk kelompok (32 orang) yang mengerjakan tes itu.
Dengan demikian, karena “tingkat kesukaran” itu menunjukkan “persentase
jawaban item yang benar”, maka makin kecil persentase menunjukkan makin sulit
item itu.
Rumus untuk menghitung item difficulty adalah sebagai berikut :
P=
P = Persentase yang menjawab item itu dengan benar
R = Jumlah yang menjawab item itu dengan benar
T = Jumlah total (siswa) yang mencoba menjawab item itu.
6. Taksirlah daya pembeda (diseriminating power) item itu dengan membandingkan
jumlah siswa dalam Upper Group dan Lower Group yang menjawab item dengan
benar. Dari contoh di atas ternyata bahwa 6 siswa pada Upper Group dan 2 siswa
pada Lower Group menjawab dengan benar. Ini menunjukkan daya pembeda yang
positif karena item itu dapat membedakan siswa yang pandai (upper) dan siswa
yang kurang (lower); yang menjawab benar dari Upper Group jumlahnya lebih
banyak daripada yang menjawab benar dari Lower Group. Dari item no. 1 kita dapat
menghitung besarnya daya pembeda item itu sebagai berikut :
Index of item discriminating power =
Rumus daya pembeda : DP =
DP = Daya pembeda atau discriminating power yang dicari
U = Jumlah jawaban yang benar dari Upper-Group
L = Jumlah jawaban yang benar dari Lower Group
½ T = Setengah dari jumlah Upper dan Lower-Group
Daya pembeda dari suatu item dinyatakan dengan pecahan decimal dan indeks
maksimum daya pembeda yang positif = 1, 00
Daya pembeda nol (0, 00) diperoleh jika jumlah siswa yang sama pada kedua
kelompok (Upper dan Lower) menjawab item itu dengan benar.
Jadi :
DP =
Daya pembeda negatif diperoleh jika yang menjawab benar suatu item pada Lower
Group jumlahnya lebih besar ketimbang pada Upper Group.
Jadi :
DP =
Jika dari hasil analisis suatu item diperoleh DP = 0 (nol) atau DP = - (minus), item
yang bersangkutan harus dibuang atau diganti dengan yang baru.
7. Tentukan keefektifan distruktornya dengan membandingkan jumlah siswa pada
Upper Group dan Lower Group yang memilih tiap alternative yang salah.
INTERPRETASI DATA ANALISIS ITEM TES NORM-REFERENCED
Jika kita menggunakan jumlah siswa yang relative kecil dalam menganalisis item
tes hasil belajar kelas, informasi analisis item hendaknya diinterpretasikan dengan
sangat berhati-hati. Baik tingkat kesukaran maupun daya pembeda suatu item dapat
berubah-ubah atau berbeda-beda antara kelompok yang satu dengan kelompok yang
lain.
Jika suatu item menunjukkan indeks positif dalam diskriminasi, jika semua
alternatifnya berfungsi secara efektif, dan jika item itu mengukur secara pedagogis
hasil yang disignifikasi, item itu hendaknya dipertahankan dan disimpan dalam file
item untuk digunakan pada waktu yang akan datang.
Jika items itu disimpan dalam file dan digunakan kembali sesudah beberapa saat
tertentu, data hasil analisis item itu sebaiknya dicatat pada kartu setiap saat item itu
digunakan. Kumpulan data semacam itu akan memperlihatkan variabilitas dalam
indeks kesukaran item dan daya pembedanya, dan dengan demikian informasi itu lebih
interpretable.
PROSEDUR ANALISIS ITEM UNTUK CRITERION-REFERENCED TESTS
Dasar pemikiran dalam, mengevaluasi items dalam tes penguasaan criterion-
referenced adalah sampai sejauh mana tiap item dapat mengukur hasil pengajaran
(effects of instruction). Jika suatu item dapat dijawab dengan benar oleh semua siswa,
baik sebelum maupun sesudah diajari, jelaslah bahwa item itu tidak mengukur hasil
pengajaran. Demikian juga, jika suatu item dijawab salah oleh semua siswa, baik
sebelum maupun sesudah siswa mendapat pelajaran, item tersebut tidak berfungsi
sebagai alat evaluasi. Kedua-duanya merupakan contoh yang ekstrem; namun, kedua
contoh tersebut memberikan petunjuk penting bagi pencapaian pengukuran hasil
pengajaran sebagai satu dasar bagi penentuan kualitas item.
Indeks sensitivitas bagi keberhasilan pengajaran (sensitivity of instructional
effect) (S) dapat dihitung dengan menggunakan rumus berikut :
RA - RB
S=
T
S = Sensitivitas keberhasilan yang dicari
RA = Jumlah siswa yang menjawab benar item itu sesudah pengajaran
RB = Jumlah siswa yang menjawab benar item itu sebelum pengajaran
T = Jumlah total jawaban item itu yang benar kedua-duanya, sebelum dan dan
sesudah pengajaran.
Misalkan suatu item dijawab salah oleh semua siswa (32 orang) sebelum
pengajaran, dan dijawab benar oleh semua siswa sesudah pengajaran. Dengan
menggunakan rumus di atas akan kita peroleh sebagai berikut:
32 – 0
S = = 1,00
32
Jadi maksimum sensitivitas keberhasilan pengajaran dinyatakan dengan
indeks 1,00. Indeks items yang efektif akan berada di antara 0,00 dan 1,00 dan
makin besar nilai positif yang diperoleh menunjukkan bahwa item itu sensitivitas
keberhasilan pengajarannya makin besar pula. Dengan kata lain, makin besar angka
indeks yang diperoleh, makin besar pula sensitivitas keberhasilan pengajarannya.
Ada beberapa pembatasan dan penggunaan indeks sensitivitas itu. Pertama,
guru harus memberikan tes itu dua kali untuk menghitung indeks. Kedua, suatu
indeks yang rendah tidak selalu benar menunjukkan item yang tidak efektif atau
pengajaran yang tidak efektif.
Ketiga, respons para siswa terhadap item-item itu sesudah menerima
pelajaran, mungkin sedikit-banyak dipengaruhi oleh pengerjaan mereka pada tes
yang telah dilakukan pada waktu sebelum menerima pelajaran. Pembatasan yang
berakhir ini akan terlihat dan dirasakan siswa jika pengajaran itu diberikan dalam
waktu yang singkat.

Daftar Pustaka
Arikunto, Suharsimi. 2005. Dasar-dasar Evaluasi Pendidikan. Jakarta: Bumi Angkasa
Ngalim Purwanto, M. 2002. Prinsip dan Teknik Evaluasi Belajar, Bandung: Remaja
Rosdakarya.
Sudjana, Nana. 2001. Penilaian Hasil Proses Belajar Mengajar. Bandung: Remaja
Rosdakarya.
Sudirman N. Ilmu Pendidikan. 1998. Bandung: Remaja Rosdakarya.
http://www.scribd.com/doc/12469231/Makalah1-PANDUAN-ANALISA-BUTIR-SOAL
http://evaluasipendidikan.blogspot.com/2008/06/analisis-butir-soal.html
Reliabilitas Instrumen Tes Uraian
Menilai realibilitas soa tes uraian tidak hanya dengan menentukan “benar” atau “salah” seperti
tes objektif. Butir soal uraian menghendaki gradualisasi penilaian, hal ini dilakukan bobot
penilaian setiap butir soal tidak sama.

Dalam melakukan analisis menentukan tingkat realibitas tes uraian secara keseluruhan juga
dilakukan analisis tiap butir soal, rumus yang digunakan:

Keterangan:
Sedangkan, untuk mencari nilai varians (item maupun total) dapat menggunakan persamaan
berikut ini:

Reliabilitas Instrumen Afektif


Menilai realibilitas soal tes afektif dapat dilkukan dengan cara yang sama dengan menentukan
reliabilitas tes uraian, dengan persamaan:

Jika pada tes uraian n adalah jumlah subjek yang memberikan jawaban, maka pada tes afektif n
adalah jumlah belahan. Jadi dalam menganalisis tes afektif, maka salah satu cara adalah
mengelompokkan tanggapan (sikap) subjek. Misalkan 30 nomor skala sikap, jumlah belahan ada
3 maka tiap belahan memiliki 10 nomor, kemudian skor masing-masing nomor dijumlahkan
pada tiap belahan.

Nilai hasil analisis validitas kemudian dicocokkan dengan kriteria reliabilitas, berikut ini kriteria
validitas yang dikemukakan oleh Gerson, dkk.

Koefisien validitas Kriteria


>= 0,80 Relibilitas Tinggi
0,40 - < 0,80 Relibilitas Sedang
< 0,40 Relibilitas Rendah
Reliabilitas
Reliabel atau reliabilitas dapat diartikan bahwa suatu alat ukur/tes adalah handal, ajeg, dipercaya. Cara
yang terbaik untuk membahas reliabilitas adalah sejauh mana hasil pengukuran dari suatu instrument
mewakili karakteristik yang diukur. Menurut Jafar Ahiri (2006:3), reliabilitas adalah seberapa besar
konsistensi skor tes yang dicapai peserta tes pada pengujian ulang. Jafar ahiri selanjutnya mengatakan,
reliabilitas juga diartikan sebagai indikator ketidakhadiran kesalahan acak. Jika kesalahan acak dapat
diperkecil maka skor tes akan lebih konsisten dari suatu pengujian ke pengujian selanjutnya. Reliabilitas
adalah tingkat keterpercayaan hasil suatu pengukuran (Anonim: 2006: 2). Pengukuran yang memiliki
reliabilitas yang tinggi, yaitu pengukuran yang mampu memberikan hasil ukur yang terpercaya.
Menentukan Reliabilitas Soal Tes
Uji reliabilitas dilakukan hanya terhadap butir-butir angket yang dianggap valid saja. Selanjutnya skala
yang akan dibuat besarnya perkiraan reliabilitasnya dibelah menjadi dua atau tiga bagian, sehingga
masing-masing belahan berisi item-item dalam jumlah yang sama banyaknya. Untuk menentukan valid
atau tidaknya butir skor diperoleh dari hasil perhitungan product moment.

8. HASIL DAN PEMBAHASAN


8. 1. Validitas Dan Reliabilitas Soal Tes Materi Attitude PMB STIKOM Dinamika Bangsa
R tabel pada α 0,05 dengan derajad bebas df = jumlah kasus – 2. Pada penelitian ini jumlah kasus adalah
20, jadi df adalah 18 r (0,05 ; 18) pada uji satu arah = 0,2992.
Keputusan :
– Jika r hitung positif dan r hitung > r tabel maka butir tersebut valid.
– Jika r hitung negatif atau r hitung < r tabel maka butir tersebut tidak valid.
– R hitung dapat dilihat pada kolom Corrected Item – Total Correlation.
Dari 20 butir soal tes attitude yang diujikan pada tes PMB STIKOM Dinamika Bangsa, ternyata butir 1, 2,
3, 4, 6, 7, 8, 10, 11, 13, 16, 17,19 dan 20 tidak valid sehingga butir yang tidak valid tersebut perlu
dibuang. Selanjutnya akan diuji lagi ke 6 butir pertanyaan yang valid.
Karena butir 1, 2, 3, 4, 6, 7, 8, 10, 11, 13, 16, 17,19 dan 20 sudah dikeluarkan, maka r table dilihat pada α
0,05 dengan derajad bebas df = jumlah kasus – 2. Pada penelitian ini jumlah kasus adalah 6, jadi df
adalah 6 – 2 = 4 r (0,05 ; 4) pada uji satu arah = 0,6084. Pada output dapat dilihat bahwa nilai Corrected
Item-Total Correlation (r hitung) semuanya lebih kecil dari r tabel (0,6084), sehingga dapat disimpulkan
bahwa ke enam butir pertanyaan tersebut tidak valid. Setelah semua butir pertanyaan ternyata tidak
valid, maka selanjutnya adalah menguji reliabilitas butir pertanyaan tersebut. Cara pengambilan
keputusannya adalah :
– Jika r alpha positif dan lebih besar dari r atbel maka reliabel.
– Jika r alpha negatif atau r alpha lebih kecil dari r tabel maka tidak reliabel.
R alpha dapat dilihat pada tabel Reliability Statistics, yaitu bernilai 0,548, sedangkan r tabel seperti yang
sudah dicari sebelumnya adalah sebesar 0,6084. Kesimpulan ; r alpha < r tabel, sehingga butir soal tes
aptitude PMB STIKOM Dinamika Bangsa tahun 2005 tersebut bersifat tidak reliabel.

Validitas Dan Reliabilitas Soal Tes Materi Matematika PMB STIKOM Dinamika Bangsa.
R tabel pada α 0,05 dengan derajad bebas df = jumlah kasus – 2. Pada penelitian ini jumlah kasus adalah
20, jadi df adalah 18 r (0,05 ; 18) pada uji satu arah = 0,2992. Dengan dasar pengambilan keputusan yang
sama, maka dari 20 butir soal tes matematika yang diujikan pada tes PMB STIKOM Dinamika Bangsa,
ternyata butir 1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 16, 18,19 dan 20 tidak valid sehingga butir yang tidak
valid tersebut perlu dibuang. Selanjutnya akan diuji lagi ke 4 butir pertanyaan yang valid.
Karena butir 1, 2, 3, 4, 5, 6, 7, 8, 9, 11, 12, 13, 16, 18,19 dan 20 sudah dikeluarkan, maka r table dilihat
pada α 0,05 dengan derajad bebas df = jumlah kasus – 2. Pada penelitian ini jumlah kasus adalah 4, jadi
df adalah 4 – 2 = 2 r (0,05 ; 2) pada uji satu arah = 0,8000. Pada output dapat dilihat bahwa nilai
Corrected Item-Total Correlation (r hitung) semuanya lebih kecil dari r tabel (0,8000), sehingga dapat
disimpulkan bahwa ke empat butir pertanyaan matematika tersebut tidak valid. Setelah semua butir
pertanyaan ternyata tidak valid, maka selanjutnya adalah menguji reliabilitas butir pertanyaan tersebut.
Dengan dasar pengambilan keputusan yang sama, maka R alpha dapat dilihat pada tabel Reliability
Statistics, yaitu bernilai 0,276, sedangkan r tabel seperti yang sudah dicari sebelumnya adalah sebesar
0,8000. Kesimpulan ; r alpha < r tabel, sehingga butir soal tes matematika PMB STIKOM Dinamika Bangsa
tahun 2005 tersebut bersifat tidak reliabel.

Daya Beda Butir Soal


Untuk membedakan antara siswa yang pandai dengan siswa yang kurang pandai, siswa
dikelompokkan menjadi tiga kelompok, yaitu kelompok atas 33%, kelompok bawah 33% dan
sisanya adalah kelompok tengah. Rumus yang digunakan adalah :

keterangan:
D = daya pembeda
JA = banyaknya peserta kelompok atas
JB = banyaknya peserta kelompok bawah
BA = banyaknya peserta kelompok atas yang menjawab benar
BB = banyaknya peserta kelompok bawah yang menjawab benar
PA = BA / JA = proporsi peserta kelompok atas yang menjawab benar
JB = BB / JB = proporsi kelompok bawah yang menjawab benar
kriteria, jika D bernilai:
0,00–0,20 : soal jelek
0,20–0,40 : soal sedang/cukup
0,40–0,70 : soal baik
0,70–1,00 : soal baik sekali
4. Reliabilitas
Suatu tes dapat dikatakan mempunyai taraf kepercayaan yang tinggi jika tes dapat memberikan
hasil yang tetap. Jadi pengertian reliabilitas tes berhubungan dengan masalah
ketetapan(keajegan) hasil. Rumus yang digunakan untuk menentukan reliabilitas pada tes
obyektif adalah K-R.21

keterangan:
r11 = koefisien reliabilitas tes secara keseluruhan
n = banyaknya soal butir soal
M = Mean atau rerata skor soal yang valid
S = Simpangan baku
Untuk menginterpretasikan besarnya r11
r11 : 0,8–1,0 reliabilitas sangat tinggi
0,6–0,8 reliabilitas tinggi
0,4–0,6 reliabilitas cukup
0,2–0,4 reliabilitas rendah
0,0–0,2 reliabilitas sangat jelek
contoh hasil ulangan excel dapat diunduh di sini dan contoh pembuatan tabel produk momen
dapat dilihat disini
Postingan lain berkaitan dengan excel
koreksi pilihan ganda dengan excel
mencari hari lahir dan weton dengan excel
ulangan harian mengirim jawaban ke hape guru diimpor/diekspor ke file excel
persamaan parabola dengan excel
mencetak ukuran kertas folio (33x 21,5 cm) di excel(setting printer)
kartu perpustakaan dengan excel

Anda mungkin juga menyukai