Makalah Analisis Butir Soal PDF

BAB I
PENDAHULUAN
A. Latar Belakang
Dalam dunia pendidikan, penilaian merupakan bagian yang tidak
terpisahkan dari proses belajar mengajar. Sistem penilaian yang baik akan
mendorong guru menggunakan strategi mengajar yang lebih baik dan
memotivasi anak untuk belajar lebih giat. Penilaian biasanya dimulai dengan
kegiatan pengukuran. Pengukuran (measurement) merupakan cabang ilmu
statistika terapan yang bertujuan untuk membangun dasar-dasar
pengembangan tes yang lebih baik sehingga menghasilkan tes yang berfungsi
secara optimal, valid, dan reliabel.
Proses belajar mengajar dilaksanakan tidak hanya untuk kesenangan atau
bersifat mekanis saja tetapi mempunyai misi atau tujuan bersama. Dalam usaha
untuk mencapai misi dan tujuan itu perlu diketahui apakah usaha yang
dilakukan sudah sesuai dengan tujuan? Untuk mengetahui apakah tujuan
pendidikan sudah tercapai perlu diadakan tes. Sebuah tes yang dapat baik
sebagai alat pengukur harus dianalisis terlebih dahulu. Dalam menganalisis
butir soal dalam tes harus memperhatikan daya serap, tingkat kesukaran, daya
beda, fungsi pengecoh, validitas dan reabilitas. Hal tersebut dilakukan agar tes
yang diberikan kepada siswa sesuai dengan daya serap siswa, tingkat
kesukarannya, dan soal yang diberikan pun harus valid. Sehingga, tujuan dari
pembelajaran dapat tercapai.
B. Rumusan Masalah
Rumusan masalah dalam makalah ini, yaitu:
a. Apakah yang dimaksud dengan analisis butir soal secara kualitatif dan
kuantitatif?
b. Bagaimana cara mengaplikasikan analisis butir soal secara kualitatif dan
kuantitatif?
c. Apa manfaat dari menganalisis butir soal?
1 |Analisis Butir Soal

C. Tujuan
Tujuan dari penyusunan makalah ini, yaitu:
a. Mendeskripsikan pengertian analisis butir soal secara kualitatif dan
kuantitatif.
b. Mengaplikasikan analisis butir soal secara kualitatif dan kuantitatif.
c. Mengetahui manfaat dari menganalisis butir soal.

BAB II
PEMBAHASAN
A. Analisis Butir Soal Secara Kualitatif dan Kuantitatif
Pada prinsipnya analisis butir soal secara kualitatif dilaksanakan

berdasarkan kaidah penulisan soal (tes tertulis, perbuatan, dan sikap).
Penelaahan ini biasanya dilakukan sebelum soal digunakan atau diujikan.
Aspek yang diperhatikan di dalam penelaahan secara kualitatif ini adalah setiap
soal ditelaah dari segi materi, konstruksi, bahasa atau budaya, dan kunci
jawaban atau pedoman penskorannya.
Dalam menganalisis butir soal, terdapat dua teknik. Yaitu teknik kualitatif
dan teknik kuantitatif.
1. Teknik Analisis Secara Kualitatif

Ada beberapa teknik yang dapat digunakan untuk menganalisis butir
soal secara kualitatif, diantaranya adalah teknik moderator dan teknik
panel. Teknik moderator merupakan teknik berdiskusi yang di dalamnya
terdapat satu orang sebagai penengah. Berdasarkan teknik ini, setiap butir
soal didiskusikan secara bersama-sama dengan beberapa ahli seperti guru
yang mengajarkan materi, ahli materi, penyusun atau pengembang
kurikulum, ahli penilaian, ahli bahasa, berlatar belakang psikologi.
Teknik ini sangat baik karena setiap butir soal dilihat secara bersama-
sama berdasarkan kaidah penulisannya. Di samping itu, para penelaah
dipersilakan mengomentari berdasarkan kompetensinya masing-masing.
Setiap komentar atau masukan dari peserta diskusi dicatat. Setiap butir soal
dapat dituntaskan secara bersama-sama, perbaikannya seperti apa. Namun,
kelemahan teknik ini memiliki kelemahan karena memerlukan waktu lama
untuk rnendiskusikan setiap satu butir soal.
Teknik berikutnya adalah Teknik Panel yakni suatu teknik menelaah

butir soal berdasarkan kaidah penulisan butir soal. Kaidah itu diantaranya
materi, konstruksi, bahasa atau budaya, kebenaran kunci jawaban atau

pedoman penskoran. Caranya beberapa penelaah diberikan butir-butir soal
yang akan ditelaah, format penelaahan, dan pedoman penilaian atau
penelaahan. Pada tahap awal, semua orang yang terlibat dalam kegiatan
penelaahan disamakan persepsinya, kemudian mereka berkerja sendiri-
sendiri di tempat berbeda. Para penelaah dipersilakan memperbaiki
langsung pada teks soal dan memberikan komentarnya serta memberikan
nilai pada setiap butir soal dengan kriteria: soal baik, perlu diperbaiki, atau
diganti.
Dalam menganalisis butir soal secara kualitatif, penggunaan format
penelaahan soal akan sangat membantu dan mempermudah prosedur
pelaksanaannya. Format penelaahan soal digunakan sebagai dasar untuk
menganalisis setiap butir soal. Format penelaahan soal yang dimaksud
adalah format penelaahan butir soal: uraian, pilihan ganda, tes perbuatan
dan instrumen non-tes. Berikut disajikan keempat format penelaahan butir
soal.
a. Format Penelaahan Butir Soal Bentuk Uraian
Mata pelajaran :
Kelas/semester :
Penelaah :
Nomor soal
No. Aspek yang ditelaah
1 2 3 4 5 ...
A Materi
1 Soal sesuai dengan indikator
(menuntut tes tertulis untuk bentuk
Uraian)
2 Batasan pertanyaan dan jawaban
yang diharapkan sudah sesuai
3 Materi yang ditanyakan sesuai
dengan kompetensi (urgensi,
relevansi, kontinuitas, keterpakaian
sehari-hari tinggi)
4 Isi materi yang ditanyakan sesuai
dengan jenjang jenis sekolah atau
tingkat kelas

B Konstruksi
1 Menggunakan kata tanya atau
perintah yang menuntut jawaban
uraian
2 Ada petunjuk yang jelas tentang
cara mengerjakan soal
3 Ada pedoman penskorannya
4 Tabel, gambar, grafik, peta, atau
yang sejenisnya disajikan dengan
jelas dan terbaca
C Bahasa/Budaya
1 Rumusan kalimat komunikatif
2 Butir soal menggunakan bahasa
Indonesia yang baku
3 Tidak menggunakan kata/ungkapan
yang menimbulkan penafsiran
ganda atau salah pengertian
4 Tidak menggunakan bahasa yang
berlaku setempat/tabu
Keterangan: Berilah tanda (V) bila tidak sesuai dengan aspek yang
ditelaah!
b. Format Penelaahan Butir Soal Bentuk Pilihan Ganda

Mata pelajaran :
Kelas/semester :
Penelaah :
Nomor soal
1 2 3 4 5 ...
A Materi
(menuntut tes tertulis untuk bentuk
pilihan ganda)
sehari-hari tinggi)

3 Pilihan jawaban homogen dan logis
4 Hanya ada satu jawaban
B Konstruksi
1 Pokok soal dirumuskan dengan
singkat, jelas, dan tegas
2 Rumusan pokok soal dan pilihan
jawaban merupakan pernyataan
yang diperlukan saja
3 Pokok soal tidak memberi petunjuk
kunci jawaban
4 Pokok soal bebas dan pernyataan
yang bersifat negatif ganda
5 Pilihan jawaban homogen dan logis
ditinjau dari segi materi
6 Gambar, grafik, tabel, diagram, atau
sejenisnya jelas dan berfungsi
7 Panjang pilihan jawaban relatif
sama
8 Pilihan jawaban tidak menggunakan
pernyataan "semua jawaban di atas
salah/benar" dan sejenisnya
9 Pilihan jawaban yang berbentuk
angka/waktu disusun berdasarkan
urutan besar kecilnya angka atau
kronologisnya
10 Butir soal tidak bergantung pada
jawaban soal sebelumnya
C Bahasa/Budaya
1 Menggunakan bahasa yang sesuai
dengan kaidah bahasa Indonesia
2 Menggunakan bahasa yang
komunikatif
4 Pilihan jawaban tidak mengulang
kata/kelompok kata yang sama,
kecuali merupakan satu kesatuan
pengertian

ditelaah!
c. Format Penelaahan untuk Instrumen Perbuatan

Mata pelajaran :
Kelas/semester :
Penelaah :
Nomor soal
1 2 3 4 5 ...
A Materi
(menuntut tes perbuatan: kinerja,
hasil karya, atau penugasan)
2 Pertanyaan dan jawaban yang
diharapkan sudah sesuai
sehari-hari tinggi)
4 Isi materi yang ditanyakan sesuai
dengan jenjang jenis sekolah atau
tingkat kelas
B Konstruksi
1 Menggunakan kata tanya atau
perintah yang menuntut jawaban
perbuatan/praktik
2 Ada petunjuk yang jelas tentang
cara mengerjakan soal
3 Ada pedoman penskorannya
4 Tabel, gambar, grafik, peta, atau
yang sejenisnya disajikan dengan
jelas dan terbaca
C Bahasa/Budaya
1 Rumusan kalimat komunikatif
2 Butir soal menggunakan bahasa
Indonesia yang baku

3 Tidak menggunakan kata/ungkapan
yang menimbulkan penafsiran
ganda atau salah pengertian
5 Rumusan soal tidak mengandung
kata atau ungkapan yang dapat
menyinggung perasaan siswa
ditelaah!
d. Format Penelaahan untuk Instrumen Non-Tes

Mata pelajaran :
Kelas/semester :
Penelaah :
Nomor soal
1 2 3 4 5 ...
A Materi
1 Pernyataan/soal sudah sesuai
dengan rumusan indikator dalam
kisi-kisi
2 Aspek yang diukur pada setiap
pernyataan sudah sesuai dengan
tuntutan dalam kisi-kisi (misal
untuk tes sikap: aspek koginisi,
afeksi, atau konasi dan pernyataan
positif atau negatifnya
B Konstruksi
1 Pernyataan dirumuskan dengan
singkat (tidak melebihi 20 kata) dan
jelas
2 Kalimatnya bebas dari pernyaatn
yang tidak relevan objek yang
dipersoalkan atau kalimatnya
merupakan pernyataan yang
diperlukan saja
3 Kalimatnya bebas dari pernyataan
yang bersifat negatif ganda

yang mengacu pada masa lalu
faktual atau dapat diinterpretasikan
sebagai fakta
yang mungkin disetujui atau
dikosongkan oleh hampir semua
responden
7 Setiap pernyataan hanya berisi satu
gagasan secara lengkap
yang tidak pasti pasti seperti semua,
selalu, kadang-kadang, tidak satu
pun, tidak pernah
9 Kalimatnya tidak banyak
menggunakan kata hanya, sekedar,
semata-mata
C Bahasa/Budaya
1 Bahasa soal harus komunikatif dan
sesuai dengan jenjang pendidikan
siswa atau responden
2 Soal menggunakan bahasa
Indonesia baku
ditelaah!
2. Analisis Butir Soal Secara Kuantitatif
Penelaahan soal secara kuantitatif adalah penelaahan butir soal

didasarkan pada data empirik. Data empirik ini diperoleh dari soal yang
telah diujikan. Ada dua pendekatan dalam analisis secara kuantitatif, yaitu
pendekatan secara klasik dan modern.
Analisis butir soal secara klasik adalah proses penelaahan butir soal
melalui informasi dari jawaban peserta didik tes guna meningkatkan mutu

butir soal yang bersangkutan dengan menggunakan teori tes klasik.
Kelebihan analisis butir soal secara klasik adalah murah, sederhana,
familiar, dapat dilaksanakan sehari-hari dengan cepat menggunakan
komputer, dan dapat menggunakan data dari beberapa peserta didik atau
sampel kecil (Millman dan Greene, 1993: 358). Analisis jenis butir ini
yang lazim digunakan dalam praktik di lapangan, terutama oleh guru
disekolah.
Aspek yang perlu diperhatikan dalam analisis butir soal secara klasik
adalah setiap butir soal ditelaah dari segi: tingkat kesukaran butir, daya
pembeda butir, dan penyebaran pilihan jawaban (untuk soal bentuk
obyektif) atau fungsi pengecoh pada setiap pilihan jawaban, reliabilitas
dan validitas soal.
1. Tingkat Kesukaran
Tingkat kesukaran soal adalah peluang untuk menjawab benar
suatu soal pada tingkat kemampuan tertentu yang biasanya dinyatakan
dalam bentuk indeks. Indeks tingkat kesukaran ini pada umumnya
dinyatakan dalam bentuk proporsi yang besarnya berkisar 0,00 - 1,00
(Aiken (1994: 66). Semakin besar indeks tingkat kesukaran yang
diperoleh dari hasil hitungan, berarti semakin mudah soal itu. Suatu
soal memiliki TK= 0,00 artinya bahwa tidak ada siswa yang
menjawab benar dan bila memiliki TK= 1,00 artinya bahwa siswa
menjawab benar. Perhitungan indeks tingkat kesukaran ini dilakukan
untuk setiap nomor soal. Pada prinsipnya, skor rata-rata yang
diperoleh peserta didik pada butir soal yang bersangkutan dinamakan
tingkat kesukaran butir soal itu. Rumus ini dipergunakan untuk soal
selected response item, yaitu (Nitko, 1996: 310).
Tingkat Kesukaran (TK) =
Jumlah siswa yang menjawab benar butir soal

jumlah siswa yang mengikuti tes

Atau dengan menggunakan rumus:
𝐵
P=𝑁
P = proporsi (indeks kesukaran)
B = jumlah siswa yang menjawab benar
N = jumlah peserta tes
Tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan

tes. Misalnya untuk keperluan ujian semester digunakan butir soal
yang memiliki tingkat kesukaran sedang, untuk keperluan seleksi
digunakan butir soal yang memiliki tingkat kesukaran tinggi atau
sukar, dan untuk keperluan diagnostik biasanya digunakan butir soal
yang memiliki tingkat kesukaran rendah atau mudah.
Klasifikasi tingkat kesulitan soal dapat menggunakan kriteria

berikut:
No Range Tingkat Kategori keputusan

Kesukaran
1 0,7-1,0 Mudah Ditolak/direvisi
2 0,3-0,7 Sedang Diterima
3 0,0-0,3 Sulit Ditolak/direvisi
Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu

kegunaan bagi guru dan kegunaan bagi pengujian dan pengajaran
(Nitko, 1996: 310-313). Kegunaannya bagi guru adalah: (1) sebagai
pengenalan konsep terhadap pembelajaran ulang dan memberi
masukan kepada siswa tentang hasil belajar mereka, (2) memperoleh
informasi tentang penekanan kurikulum atau mencurigai terhadap
butir soal yang bias. Adapun kegunaannya bagi pengujian dan
pengajaran adalah: (a) pengenalan konsep yang diperlukan untuk

diajarkan ulang, (b) tanda-tanda terhadap kelebihan dan kelemahan
pada kurikulum sekolah, (c) memberi masukan kepada siswa, (d)
tanda-tanda kemungkinan adanya butir soal yang bias, (e) merakit tes
yang memiliki ketepatan data soal.
Contoh :
Tes formatif IPA, 10 soal bentuk pilihan ganda, option 4, dengan

proporsi 2 soal mudah, 6 soal sedang dan 2 soal sukar, jumlah siswa
= 20 orang.
Dalam mencari indeks kesukaran menggunakan rumus yang telah ditulis

di atas: P = B/N = 18/20
P = 0,90
Dari contoh di atas diperoleh hasil, yaitu : soal nomor 1, 3, 4, 5, 8 dan 9,
terdapat kesesuaian antara judgement dengan hasil analisa, soal nomor 2
yang di judgement mudah ternyata termasuk soal sedang, soal nomor 6
yang di judgement sedang ternyata termasuk soal mudah, soal nomor 7
yang dijudgement sedang, ternyata termasuk sukar dan soal nomor 10
yang dijudgement sukar, ternyata termasuk soal sedang.
Atas dasar hasil di atas, soal yang harus diperbaiki adalah:

Soal nomor 2, diturunkan ke dalam kategori mudah,
Soal nomor 6, dinaikkan ke dalam kategori sedang,
Soal nomor 7 diturunkan ke dalam kategori sedang,
Soal nomor 10, dinaikkan ke dalam kategori sukar.
2. Daya Pembeda
Daya pembeda soal adalah kemampuan suatu butir soal dapat

membedakan antara siswa yang menguasai materi yang ditanyakan
dan siswa yang belum menguasai materi yang diujikan. Daya
pembeda butir soal memiliki manfaat berikut. Pertama untuk
meningkatkan mutu setiap butir soal melalui data empiriknya.
Berdasarkan indeks daya pembeda, setiap butir soal dapat diketahui
apakah butir soal itu baik, direvisi atau ditolak.
Kedua, untuk mengetahui seberapa jauh masing-masing soal

dapat mendeteksi atau membedakan kemampuan siswa, yaitu siswa
yang telah memahami atau belum memahami materi yang diajarkan
guru. Apabila suatu soal tidak dapat membedakan kedua kemampuan
siswa itu maka butir soal itu dapat dicurigai kemungkinannya: a)
Kunci jawaban butir soal itu tidak tepat. b) Butir soal itu memiliki 2
atau lebih kunci jawaban yang benar. c) Kompetensi yang diukur tidak
jelas. d)Pengecoh tidak berfungsi. e)Materi yang ditanyakan terlalu
sulit, sehingga banyak siswa yang menebak dan f) Sebagian besar
siswa yang memahami materi yang ditanyakan berpikir ada yang salah
informasi dalam butir soalnya.
Untuk menentukan daya pembeda dibedakan menjadi kelompok
kecil (kurang dari 100 orang) dan kelompok besar (100 orang ke atas).
a) Untuk kelompok kecil
seluruh kelompok testee dibagi dua sama besar, 50% kelompok
atas dan 50% kelompok bawah.

Contoh:
Siswa Skor
A 9
B 8
C 7 KELOMPOK ATAS (JA)
D 7
E 6
F 5
G 5
H 4 KELOMPOK BAWAH (JB)
I 4
J 3
Seluruh pengikut tes, dideretkan mulai dari skor teratas sampai
terbawah, lalu dibagi 2.
b) Untuk kelompok besar
Mengingat biaya dan waktu untuk menganalisis, maka untuk
kelompok besar biasanya hanya diambil kedua kutubnya saja,
yaitu 27% skor teratas sebagai kelompok atas (JA) dan 27% skor
terbawah sebagai kelompok bawah (JB).
JA = jumlah kelompok atas
JB = jumlah kelompok bawah
Contoh :
9
9
8
8
8 27% sebagai JA
.
.
.
-

.
.
.
-
.
.
.
2 27% sebagai JB
1
1
1
0
Rumus untuk menentukan daya pembeda (indeks diskriminasi)

adalah:
𝐵𝐴 𝐵𝐵
D= - = 𝑃𝐴 - 𝑃𝐵
𝐽𝐴 𝐽𝐵
Di mana,
J = jumlah peserta tes
JA = banyaknya peserta kelompok atas
JB = banyaknya peserta kelompok bawah
BA = banyaknya peserta kelompok atas yang menjawab soal itu
dengan benar
BB = banyaknya peserta kelompok bawah yang menjawab soal
itu dengan benar
PA = proporsi peserta kelompok atas yang menjawab benar
(ingat, P sebagai indeks kesukaran)
PB = proporsi peserta kelompok bawah yang menjawab benar
Hasil perhitungan dengan menggunakan rumus di atas dapat
menggambarkan tingkat kemampuan soal dalam membedakan antar
peserta tes yang sudah memahami materi yang diujikan dengan

peserta tes yang belum atau tidak memahami materi yang diujikan.
Adapun klasifikasinya adalah seperti berikut:
D : 0,00 – 0,20 >> jelek
D : 0,20 – 0,40 >> cukup
D : 0,40 – 0,70 >> baik
D : 0,70 – 1,00 >> baik sekali
D : negatif, semuanya tidak baik. Jadi semua butir soal yang

mempunyai nilai D negatif sebaiknya dibuang saja.
Contoh Perhitungan
Dari hasil analisis tes yang terdiri dari 10 butir soal yang dikerjakan
oleh 20 orang siswa, terdapat dalam tabel sebagai berikut:
siswa kelompok Nilai soal Skor

1 2 3 4 5 6 7 8 9 10 siswa
A B 1 0 1 0 0 0 1 1 1 0 5
B A 0 1 1 1 1 1 0 0 1 1 7
C A 1 0 1 0 1 1 1 1 1 1 8
D B 0 0 1 0 0 1 1 1 1 0 5
E A 1 1 1 1 1 1 1 1 1 1 10
F B 1 1 0 0 0 1 1 1 1 0 6
G B 0 1 0 0 0 1 1 1 1 1 6
H B 0 1 1 0 0 1 0 1 1 1 6
I A 1 1 1 0 0 1 1 1 1 1 8
J A 1 1 1 1 0 0 1 0 1 1 7
K A 1 1 1 0 0 1 1 1 1 0 7
L B 0 1 0 1 1 0 0 1 1 0 5
M B 0 1 0 0 0 0 0 1 1 0 3
N A 0 0 1 0 1 1 1 1 1 1 7

O A 1 1 0 1 1 1 1 1 1 1 9
P B 0 1 0 0 0 1 0 0 1 0 3
Q A 1 1 0 1 0 1 1 1 1 1 8
R A 1 1 1 1 0 1 1 1 1 0 8
S B 1 0 1 0 0 1 1 1 1 0 6
T B 0 1 0 1 0 1 1 1 1 0 6
Jumlah 11 15 12 8 6 16 15 17 20 10
Berdasarkan nama-nama siswa dapat kita peroleh skor-skor sebagai
berikut:
A=5 F=6 K=7 P=3

B=7 G=6 L=5 Q=8
C=8 H=6 M=3 R=8
D=5 I=8 N=7 S=6
E = 10 J=7 O=9 T=6
Dari angka-angka yang belum teratur kemudian dibuat array (urutan
penyebaran), dari skor yang paling tinggi ke skor yang paling rendah.
Kelompok atas Kelompok bawah

10 6
9 6
8 6
8 6
8 6
8 5
7 5
7 5
7 3
7 3
10 orang 10 orang
Array ini sekaligus menunjukkan adanya kelompok atas (JA) dan
kelompok bawah (JB) dengan pemiliknya sebagai berikut:

Kelompok atas (JA) Kelompok bawah (JB)
B=7 A=5
C=8 D=5
E = 10 F=6
I=8 G=6
J=7 H=6
K=7 L=5
N=7 M=3
O=9 P=3
Q=8 S=6
R=8 T=6
10 orang 10 orang
Perhatikan pada tabel analisis 10 butir soal 20 siswa.
Dibelakang nama siswa dituliskan huruf A atau B sebagai tanda

kelompok. Hal ini mempermudah menentukan BA dan BB.
BA = banyaknya siswa yang menjawab benar pada kelompok atas (A)
BB = banyaknya siswa yang menjawab benar pada kelompok bawah

(B)
Sudah disebutkan di atas bahwa soal yang baik adalah soal yang dapat
membedakan antara anak pandai dengan anak bodoh, dilihat dari
dapat dan tidaknya mengerjakan soal itu.
Marilah kita perhatikan tabel analisis lagi, khusus untuk butir soal
nomor 1.
 Dari kelompok atas yang menjawab betul 8 orang

 Dan kelompok bawah yang menjawab betul 3 orang

Kita terapkan dalam rumus indeks diskriminasi:
JA = 10 JB = 10
PA = 0,8 PB = 0,3
BA = 8 BB = 3
Maka, D = PA - PB
= 0,8 – 0,3
= 0,5
Dengan demikian, maka indeks diskriminasi untuk soal nomor 1

adalah 0,5 (Daya pembeda baik, soal diterima).
Sekarang kita perhatikan butir soal nomor 8:
JA = 10 JB = 10
PA = 0,8 PB = 0,9
BA = 8 BB = 9
Maka, D = PA - PB
= 0,8 – 0,9
= -0,1
Butir soal ini jelek karena lebih banyak dijawab benar oleh kelompok
bawah dibandingkan dengan jawaban benar dari kelompok atas. Ini
berarti bahwa untuk menjawab soal dengan benar, dapat dilakukan
dengan menebak.
3. Fungsi pengecoh (distracter function)

Pada saat membicarakan tes objektif bentuk multiple choice item
tersebut untuk setiap butir item yang dikeluarkan dalam tes hasil
belajar telah dilengkapi dengan beberapa kemungkinan jawab, atau
yang sering dikenal dengan istilah option atau alternatif. Option atau
alternatif itu jumlahnya berkisar antara 3 sampai dengan 5 buah, dan

dari kemungkinan-kemungkinan jawaban yang terpasang pada setiap
butir item itu, salah satu diantaranya adalah merupakan jawaban betul
(kunci jawaban), sedangkan sisanya adalah merupakan jawaban salah.
Jawaban-jawaban salah itulah yang biasa dikenal dengan istilah
distractor (pengecoh).
Fungsi pengecoh dimaksudkan untuk mengetahui seberapa besar
peserta yang tidak memiliki kunci jawaban (option) pada bentuk soal
pilihan ganda. Untuk soal pilihan ganda, alternatif jawaban menurut
kaidah harus homogen dan logis sehingga setiap pilihan jawaban
(opition) dapat berfungsi atau ada yang memilih. Setiap pengecoh
dapat dikatakan berfungsi apabila ada yang memilih. Setiap pengecoh
dapat dikatakan berfungsi apabila terpilih minimal sebanyak 5% dari
jumlah peserta.untuk menghitungnya dapat digunakan rumus sebagai
berikut:
𝑗𝑢𝑚𝑙𝑎ℎ 𝑠𝑖𝑠𝑤𝑎 𝑦𝑎𝑛𝑔 𝑚𝑒𝑚𝑖𝑙𝑖ℎ 𝑜𝑝𝑡𝑖𝑜𝑛 𝑦𝑎𝑛𝑔 𝑠𝑎𝑙𝑎ℎ
x 100%
𝑗𝑢𝑚𝑙𝑎ℎ 𝑠𝑒𝑙𝑢𝑟𝑢ℎ 𝑝𝑒𝑠𝑒𝑟𝑡𝑎 𝑡𝑒𝑠
Menganalisis fungsi distraktor sering dikenal dengan istilah lain,

yaitu : menganalisis pola penyebaran jawaban item. Adapun yang
dimaksud dengan pola penyebaran jawaban item adalah suatu pola
yang dapat menggambarkan bagaimana testee menentukan pilihan
jawabnya terhadap kemungkinan-kemungkinan jawab yang telah
dipasangkan pada setiap butir item. Suatu kemungkinan dapat terjadi,
yaitu bahwa dari keseluruhan alternatif yang dipasang pada butir item
tertentu, sama sekali tidak dipilih oleh testee. Dengan kata lain, testee
menyatakan ―blangko. Pernyataan blangko ini sering dikenal dengan
istilah omit dan biasa diberi lambang dengan huruf O. Sebagai tindak
lanjut atas hasil penganalisaan terhadap fungsi distraktor tersebut
maka distraktor yang sudah dapat menjalankan fungsinya dengan baik
dapat dipakai lagi pada tes-tes yang akan datang, sedangkan distraktor
yang belum dapat berfungsi dengan baik sebaiknya diperbaiki atau
diganti dengan distraktor yang lain (Anas, 2011:408).

Contoh perhitungan:
Dari analisis sebuah item, polanya diketahui sebagai berikut:
Pilihan Jawaban A B C* D O Jumlah
Kelompok atas 5 7 15 3 0 30
Kelompok bawah 8 8 6 5 3 30
Jumlah 13 15 21 8 3 60
C diberi tanda (*) adalah kunci jawaban.
Dari pola jawaban soal ini dapat dicari:
1) P = 21/60 = 0,35
2) D = PA – PB = 15/30 - 6/30 = 9/30 = 0,30
3) Distraktor : semua distraktornya sudah berfungsi dengan baik
karena sudah dipilih oleh lebih dari 5% pengikut tes.
4) Dilihat dari segi omit (kolom paling kanan) adalah baik. Sebuah
item dikatakan baik jika omitnya tidak lebih dari 10% pengikut
tes.
(5% dari pengikut tes = 5% x 60 orang = 3 orang)
(10% dari pengikut tes = 10% x 60 orang = 6 orang)
Sebenarnya ketentuan ini hanya berlaku untuk tes pilihan ganda

dengan 5 alternatif dan P = 0,80. Tetapi demi praktisnya diberlakukan
semua.
4. Reliabilitas Skor Tes
Realibilitas adalah tingkat atau derajat konsistensi dari suatu

instrumen, reliabilitas tes berkenaan dengan dengan pertanyaan,
apakah suatu tes teliti dan dapat dipercaya sesuai dengan kriteria yang
telah ditetapkan. Suatu tes dapat dikatakan reliabel jika selalu
memberikan hasil yang sama bila diteskan pada kelompok yang sama
pada waktu yang sama pada waktu atau kesempatan yang berbeda.

Menurut Gronlun, ada empat faktor yang dapat mempengaruhi
reliabilitas, yaitu :
1. Panjang tes, yaitu banyaknya soal tes. Ada kecenderungan,

semakin panjang suatu tes akan lebih tinggi tingkat reliabilitas
suatu tes, karena semakin banyak soal, maka akan semakin
banyak sampel yang diukur dan proporsi jawaban yang benar
semakin semakin banyak, sehingga faktor tebakan akan semakin
rendah.
2. Sebaran skor, besarnya sebaran skor akan membuat tingkat

reliabilitas menjadi lebih tinggi, Karena koefesien reliabilitas
yang lebih besar diperoleh ketika peserta didik tetap pada posisi
yang relative sama dalam satu kelompok pengujian ke pengujian
berikutnya. Dengan kata lain, peluang selisih dari perubahan
posisi dalam kelompok dapat memperbesar koefesien reliabilitas.
3. Tingkat kesukaran, dalam penilaian yang menggunakan

pendekatan penilaian acuan norma, baik untuk soal yang mudah
maupun sukar, cenderung menghasilkan tingkat reliabilitas yang
rendah. Hal ini disebabkan antara hasil tes yang mudah dengan
hasil tes yang sukar keduanya dalam satu sebaran skor yang
terbatas. Untuk tes yang mudah, skor akan berada dibagian atas
dan akhir dari skala penilaian. Bagi kedua tes (mudah dan sukar),
perbedaan antar peserta didik kecil sekali dan cenderung tidak
dapat dipercaya. Tingkat kesukaran soal yang ideal untuk
meningkatkan koefesien reliabilitas adalah soal yang
menghasilkan sebaran skor berbentuk genta atau kurva normal.
4. Objektivitas, menunjukkan skor tes kemampuan yang sama

antara peserta didik yang satu dengan peserta didik lainnya.
Peserta didik memperoleh hasil yang sama dalam mengerjakan
suatu tes. Jika peserta didik memiliki tingkat kemampuan yang

sama, maka akan memperoleh hasil tes yang sama pada saat
mengerjakan tes yang sama. Objektivitas prosedur tes yang tinggi
akan memperoleh reliabilitas hasil tes yang tidak dipengaruhi
oleh prosedur penskoran.
Konsep reliabilitas mendasari kesalahan pengukuran yang

mungkin terjadi pada suatu proses pengukuran atau pada nilai tunggal
tertentu, sehingga menimbulkan perubahan pada susunan
kelompoknya. Misalnya, guru mengetes peserta didik dengan
instrumen tertentu dan mendapat nilai 70. Kemudian pada kesempatan
yang berbeda dengan instrumen yang sama, guru melakukan tes
kembali, ternyata peserta didik tersebut mendapat nilai 75. Artinya,
tes tersebut tidak reliabel, karena terjadi kesalahan pengukuran. Tes
yang reliabel adalah apabila koefesien reliabilitasnya tinggi dan
kesalahan baku pengukurannya rendah.
Menurut perhitungan product-moment dari Person, ada tiga

macam reliabilitas, yaitu koefesien stabilitas, koefesien ekuivalen dan
koefesien konsistensi internal.
a) Koefesien Stabilitas
Jenis reliabilitas yang menggunakan teknik test and retest,
yaitu memberikan tes kepada sekelompok individu, kemudian
diadakan pengulangan tes pada kelompok yang sama dengan
waktu yang berbeda. Cara memperoleh koefesien stabilitas
adalah dengan mengorelasikan hasil tes pertama dengan hasil tes
kedua dari kelompok yang sama, tes yang sama, pada waktu yang
berbeda. Jika antara waktu tes pertama dengan tes yang kedua
cukup lama, kemudian diadakan latihan-latihan tambahan, maka
bisa jadi nilai tes yang kedua akan lebih besar daripada tes yang
pertama. Sebaliknya, jika antara waktu tes pertama dengan tes
kedua relatif pendek, maka nilai tes kedua bisa jadi sama atau

lebih besar daripada tes pertama karena soal dan jawaban masih
dapat diingat.
Kesalahan teknis ini dapat bersumber dari berbagai faktor,
sehingga menyebabkan peserta didik mempunyai skor yang
berbeda pada saat dua kali mengerjakan tes yang sama. Bisa saja
perubahan skor yang terjadi bukan disebabkan perubahan hal
yang diukur, tetapi memang karena situasi yang berbeda atau
pengalaman dari peserta didik pada saat mengikuti tes yang
pertama, sehingga ketika mengerjakan tes yang kedua, peserta
didik lebih berhati-hati dan lebih baik hasilnya. Keunggulan
teknik ini adalah dapat memperkecil kemungkinan masuknya
sumber kesalahan yang lain. Namun, patut juga dipertimbangkan
bahwa penggunaan kelompok yang sama dan tes yang sama
dalam dua kali tes akan mempengaruhi hasil tes yang kedua,
karena responden sudah memiliki pengalaman mengerjakan tes
yang pertama. Hal ini sekaligus menunjukan kelemahan teknik
test and retest.
b) Koefesien ekuivalen
Jika mengorelasikan dua buah tes yang parallel pada
kelompok dan waktu yang sama. Metode yang digunakan untuk
memperoleh koefesien ekuivalen adalah metode dengan
menggunakan dua buah bentuk tes parallel or alternate-forms
method. Syarat-syarat yang harus dipenuhi kedua tes parallel
adalah criteria yang dipakai pada kedua tes sama., masing-masing
tes dikonstruksikan tersendiri, jumlah item, isi, dan corak sama,
tingkat kesukaran sama, petunjuk waktu yang disediakan untuk
mengerjakan tes dan contoh-contoh juga sama. Kemungkinan
kesalahan pada teknik ini bersumber dari derajat keseimbangan
antara dua tes tersebut, serta kondisi tempat yang mungkin

berbeda pada kelompok tes pertama dengan kelompok tes kedua,
meskipun dilakukan pada waktu yang sama.
c) Koefesien konsistensi internal

Reliabilitas yang didapat dengan jalan mengorelasikan dua
buah tes dari kelompok yang sama, tetapi diambil dari butir-butir
yang bernomor genap untuk tes yang pertama dan butir-butir
bernomor ganjil untuk tes yang kedua. Teknik ini sering disebut
split-half method. Split berarti membelah dan half berarti
setengah atau separuh. Jadi, split-half adalah tes yang dibagi
menjadi dua bagian yang sama, kemudian mengorelasikan butir
soal yang bernomor ganjil dalam belahan pertama (X) dan yang
bernomor genap dalam belahan kedua (Y). untuk membagi tes
menjadi dua bagian dapat juga dilakukan dengan jalan
mengambil nomor soal secara acak, tetapi jumlahnya tetap harus
sama untuk masing-masing kelompok. Disamping itu, pembagian
tes dapat juga dilakukan dengan cara setengah bagian pertama
untuk kelompok pertama dan setengah lagi untuk kelompok
kedua.
Untuk menghitung koefisien stabilitas, koefisien ekuivalen
dan koefisien konsistensi internal dapat digunakan analisis
korelasi seperti pada pengujian validitas. Khusus bagi
perhitungan koefisien konsistensi internal, korelasi tersebut baru
sebagian dari seluruh tes. Untuk memperoleh angka koefisien
korelasi secara menyeluruh dari tes tersebut harus dihitung dari
nomor-nomor kedua tes itu dengan rumus Spearman Brown.
2𝑟1.2
𝑟𝑛𝑛 =
1+(𝑛−1)𝑟1.2
Keterangan :
r : korelasi

n : panjang tes yang selalu sama dengan 2 karena seluruh tes = 2
x½
Contoh :
10 orang peserta didik dites dalam mata pelajaran ilmu pengetahuan
alam (IPA) dan ilmu pengetahuan sosial (IPS). Jumlah soal masing-
masing lima buah. Dua buah nomor genap diambil dari hasil tes IPA
dan tiga buah nomor ganjil diambil dari hasil tes IPS. Data diperoleh
sebagai berikut :
Nilai 10 orang Peserta Didik
Dalam Mata Pelajaran IPA danIPS
Skor IPA No.
Nama Skor IPS No. Ganjil (1,3 dan 5)
Genap (2 dan 4)
A 8 6 8 7 10
B 7 7 6 7 5
C 5 6 6 6 6
D 8 6 7 6 9
E 5 6 5 5 5
F 4 7 4 6 6
G 5 9 7 5 5
H 7 5 8 5 4
I 7 8 4 9 7
J 9 5 9 9 4
Perhitungan Koefisien Konsistensi Internal

X Y x y x2 y2 xy
14 25 +1 +6 1 36 6
14 8 +1 -1 1 1 -1
11 18 -2 -1 4 1 2
14 22 +1 +3 1 9 3
11 15 -2 -4 4 16 8

11 16 -2 -3 4 9 6
14 17 +1 -2 1 4 -2
12 17 -1 -2 1 4 2
15 20 +2 +1 4 1 2
14 22 +1 +3 1 9 3
130 190 22 90 29
X bar X bar
= 13 =19
∑ 𝑥𝑦 29 29 29
𝑟𝑥𝑦 = = = = = 0,65
√(∑ 𝑥 2 ) (∑ 𝑦 2 ) √(22)(90) √1980 44,50
Untuk menghitung seluruh tes itu, dapat digunakan rumus spearman

brown sebagai berikut :
2 𝑟1.2 (2)(0,65) 1,30
𝑟𝑛𝑛 = = = = 0,787
1+(𝑛−1)𝑟1.2 1+(2−1)(0.65) 1,65
Disamping itu, dapat pula digunakan teknik kuder-richardson (dua

orang ahli psikometri yang merumuskan persamaan untuk mencari
reliabilitas) yang lebih populer dengan istilah KR20. Salah satu Kr20
adalah sebagai berikut :
𝑘 𝑆 2 𝑡−𝑝𝑖𝑞𝑖
𝑟𝑡𝑡 = ( )
𝑘−1 𝑆 2𝑡
Contoh :
10 orang peserta didik di tes dengan 10 butir soal bentuk objektif.
Hasil perhitungan adalah sebagai berikut :
Nama Nomor Soal X X2
1 2 3 4 5 6 7 8 9 10
A 0 0 1 1 1 1 1 1 0 1 7 49
B 0 1 1 1 1 0 1 1 1 1 8 64
C 1 1 0 1 1 1 1 1 1 1 9 81
D 1 1 1 1 0 0 0 0 1 1 6 36
E 1 0 1 0 1 1 0 1 1 1 7 49

F 1 1 1 1 1 0 0 0 0 0 5 25
G 1 1 0 0 0 0 1 1 1 1 6 36
H 0 1 1 1 1 1 1 1 0 0 7 49
I 1 0 1 0 0 0 0 0 1 1 4 16
J 1 1 1 0 0 0 0 0 0 0 3 9
7 7 8 6 6 4 5 6 6 7 62 414
P 0,7 0,7 0,8 0,6 0,6 0,4 0,5 0,6 0,6 0,7
Q 0,3 0,3 0,2 0,4 0,4 0,6 0,5 0,4 0,4 0,3
p.q 0,2 0,2 0,1 0,2 0,2 0,2 0,2 0,2 0,2 0,2
1 1 6 4 4 4 5 4 4 1
Keterangan :
p = proporsi peserta didik yangmenjawab soal betul dari suatu butir
soal
q = 1- p
2
2 𝑛 ∑ 𝑋 2 − (∑ 𝑋) 10 (414)−(62)2 4140−3844 296
𝑆 𝑡= = = = =
𝑛 (𝑛−1) 10(10−1) 90 90
3,288
k =10 (jumlah butir soal)
∑ 𝑝. 𝑞 = 2,24
𝑘 𝑆 2 𝑡 − 𝑝𝑖𝑞𝑖 10 3,228 − 2,24

𝐾𝑅20 = ( ) = ( )
𝑘−1 𝑆 2𝑡 10 − 1 3,288
= 1,11 (0,318) = 0,35
Teknik Kuder-Richardson biasanya digunakan jika suatu instrumen
mengukur satu gejala psikologis atau perilaku yang sama. Artinya, tes
tersebut dapat dikatakan reliabel bilaterbukti ada konsistensi jawaban
antara soal yang satu dengan soal yang lain. Jika sifat dan tingkatan
homoginitas antar soal tidak terpenuhi,makates tersebut dianggap
mengukur lebih dari satu variabel. Jika dalam suatu testerdapat lebih
dari satu skala pengukuran atau mengukur lebih darisatuvariabel.jika

dalam suatu tes terdapat lebih dari satu skala pengukuran atau
mengukur lebih dari satu variabel dan setiap variabel memiliki
beberapa aspek, maka pengecekan reliabilitasdilakukan terhadap
masing-masing skala pengukuran. Teknikini lebih cocok untuk tes
yang menggunakan soal dua pilihan dengan salah satu jawaban benar.
Teknik lain yang biasa digunakan untukmenguji konsistensi internal
dari suatu tes adalah Cronbach’s Alpha atau koefisien alpha.
Perbedaannya dengan teknik Kuder- Richardson adalah teknik ini
tidak hanya digunakan untuk tes dengan dua pilihan saja, tetapi
penerapannya lebih luas, seperti menguji reliabilitas skala
pengukuran sikap dengan tiga, lima atau tujuh pilihan. Adapun rumus
yang digunakan untuk menghitung koefisien alpha adalah :
𝑅 ∑ 𝜎𝑖2
𝛼= (1 − )
𝑅−1 𝜎𝑥2
Keterangan :
R = jumlah butir soal
𝜎𝑖2 = varian butir soal
𝜎𝑥2 = varian skor total
Untuk butir soal yang bersifat dikotomi seperti pilihan-ganda. Varian
butir soal diperoleh dengan rumus:
𝜎𝑥2 = 𝑃𝑖 𝑞𝑖
Keterangan : Pi adalah tingkat kesukaran soal dan qi adalah (1- 𝑃𝑖 )
5. Validitas tes
Validitas merupakan syarat yang penting dalam suatu alat
evaluasi. Validitas berasal dari kata validity, dapat diartikan tepat atau
shahih, yakni sejauh mana ketepatan dan kecermatan suatu alat ukur
dalam melakukan fungsi ukurnya.11 Beberapa kriteria dipilih untuk
memperlihatkan keefektifan terhadap peramalan performance yang
akan datang (yang akan terjadi), kriteria yang lain untuk menunjukkan
status yang muncul, kriteria yang lain lagi untuk menimbulkan sifat-

sifat yang representatif dari luasnya isi atau tingkah laku, dan kriteria
yang lain lagi untuk (melengkapi) penyediaan data atau untuk
menunjang atau menolak beberapa teori psikologis. Sebagaimana
dikemukakan oleh Scarvia B. Anderson dalam bukunya
―Encyclopedia of Educational Evaluation‖ disebutkan bahwa ― A
test is valid it measure what it purpose to measure‖ (sebuah tes
dikatakan valid apabila tes tersebut mengukur apa yang hendak
diukur). Validitas suatu instrumen evaluasi, tidak lain adalah derajat
yang menunjukkan di mana suatu tes mengukur apa yang hendak
diukur. Validitas suatu instrumen evaluasi mempunyai beberapa
makna penting di antaranya sebagai berikut:
1. Validitas berhubungan dengan ketepatan interpretasi hasil tes
atau instrumen evaluasi untuk grup individual dan bukan
instrumen itu sendiri.
2. Validitas diartikan sebagai derajat yang menunjukkan kategori
yang bisa mencakup kategori rendah,menengah, dan tinggi.
3. Prinsip suatu tes valid, tidak universal. Validitas suatu tes yang
perlu diperhatikan oleh para peneliti adalah bahwa ia hanya valid
untuk suatu tujuan tertentu saja. Tes valid untuk bidang studi
metrologi industri belum tentu valid untuk bidang yang lain
misalnya bidang mekanika teknik.
Validitas suatu alat evaluasi, bukanlah merupakan ciri yang
absolut atau mutlak. Suatu tes dapat memiliki validitas yang tinggi ,
sedang, rendah, tergantung kepada tujuannya. Secara metodologis,
validitas suatu tes dapat dibedakan menjadi empat macam, yaitu
validitas isi (content validity), validitas konstruk (construct validity),
validitas konkuren (concurrent validity), dan validitas prediksi
(predictive validity).
a. Validitas Isi
Validitas isi artinya ketepatan daripada suatu tes dilihat dari
segi isi tersebut. Suatu tes hasil belajar dikatakan valid, apabila

materi tes tersebut benar-benar merupakan bahan-bahan yang
representatif terhadap bahan-bahan pelajaran yang diberikan.
Untuk mendapatkan validitas isi memerlukan dua aspek penting,
yaitu valid isi dam valid teknik sampling. Valid isi mencakup
khususnya, hal-hal yang berkaitan dengan apakah item-item
evaluasi menggambarkan pengukuran dalam cakupan yang ingin
diukur. Sedangkan valid teknik sampling pada umumnya
berkaitan dengan bagaimanakah baiknya suatu sample item tes
mempresentasikan total cakupan isi. Oleh karena materi yang
diajarkan tertera dalam kurikulum maka validitas ini sering
disebut validitas kurikuler. Validitas isi dapat diusahakan
tercapainya sejak penyusunan dengan memerinci materi
kurikulum atau materi buku pelajaran. Misalnya untuk siswa
kelas I SMU akan diberikan tes Matematika, maka item-itemnya
harus diambil dari materi pelajaran kelas I, apabila kita sisipkan
dan item-item yang diambil dari materi pelajaran kelas III maka
tes tersebut sudah tidak valid lagi.
Validitas isi pada umumnya ditentukan melalui
pertimbangan para ahli. Tidak ada formula matematis untuk
menghitung dan tidak ada cara untuk menunjukkan secara pasti.
Akan tetapi, untuk memberikan gambaran bagaimana suatu tes
divalidasi dengan menggunakan validitas isi, pertimbangan ahli
tersebut dilakukan dengan cara seperti berikut. Pertama, para ahli
diminta untuk mengamati secara cermat semua item dalam tes
yang hendak divalidasi. Kemudian mereka diminta untuk
mengoreksi interpretasi item-item yang telah dibuat. Pada akhir
perbaikan, mereka juga diminta untuk memberikan pertimbanga-
pertimbangan tentang bagaimana baik interpretasi tes evaluasi
tersebut menggambarkan cakupan isi yang hendak diukur.
Pertimbangan ahli tersebut biasanya juga menyangkut, apakah
semua aspek yang hendak diukur telah dicakup melalui

interpretasi item pertanyaan dalam tes. Atau dengan kata lain
perbandinga dibuat antara apa yang harus dimasukkan dengan
apa yang ingin diukur yang telah direfleksikan menjadi tujuan tes.
b. Validitas Konstruk
Validasi konstruk merupakan derajat yang menunjukkan
suatu tes mengukur sebuah konstruk sementara. Untuk
menentukan adanya validitas konstruk suatu tes dikorelasikan
dengan suatu konsepsi atau teori, item-item dalam tes itu harus
sesuai dengan ciri-ciri yang disebutkan dalam konsepsi tadi, yaitu
konsepsi tentang obyek yang akan dites. Untuk mengetahui
apakah suatu tes memenuhi syarat-syarat validitas konstruksi atau
tidak maka kita harus membandingkan susunan tersebut telah
memenuhi syarat-syarat penyusunan tes maka berarti tes tersebut
memenuhi syarat validitas konstruksi, apabila tidak memenuhi
syarat-syarat penyusunan tes berarti tidak memenuhi validitas
konstruksi. Proses melakukan validasi konstruk dapat dilakukan
dengan cara melibatkan hipotesis testing yang dideduksi dari teori
yang menyangkut dengan konstruk yang relevan. Misalnya jika
suatu teori kecemasan menyatakan bahwa seseorang yang
memiliki kecemasan yang lebih tinggi akan bekerja lebih lama
dalam menyelesaikan suatu problem, dibanding dengan orang
yang memiliki tingkat kecemasan rendah. Jika terjadi orang yang
cemasnya tinggi ternyata kemudian bekerja sebaliknya yaitu lebih
cepat, ini bukan berarti bahwa tes yang sudah baku tadi berarti
tidak mengukur kecemasan orang. Atau dengan kata lain
hipotesis yang berhubungan dengan tingkah laku seseorang
dengan kecemasan tinggi tidak benar. Dari kasus tersebut
mengindikasikan bahwa konstruksi yang berhubungan dengan
orang yang memiliki kecemasan tinggi memerlukan kajian ulang,
guna mengadakan koreksi dan penyesuaian kembali.

c. Validitas Konkuren
Jika hasil suatu tes mempunyai korelasi yang tinggi dengan
hasil dari suatu alat pengukur lain terhadap bidang yang sama
pada waktu yang sama pula, maka tes itu dikatakan memiliki
konkuren validity.
Validitas ini lebih umum dikenal dengan validitas empiris.
Sebuah tes dikatakan memiliki validitas empiris jika hasilnya
sesuai dengan pengalaman. Jika istilah ―sesuai tentu ada dua hal
yang dipasangkan dalam hal ini hasil tes dipasangkan dengan
hasil pengalaman. Pengalaman selalu mengenai hal yang telah
lampau sehingga data pengalaman tersebut sekarang sudah ada.
Cara-cara membuat tes dengan validitas konkruen dapat
dilakukan dengan beberapa langkah seperti berikut.
1. Administrasi tes yang baru yang dilakukan terhadap grup
atau anggota kelompok
2. Catat tes baku yang ada termasuk berapa koefisien
validitasnya jika ada
3. Hubungkan atau korelasikan dua tes skor tersebut
Hasil yang dicapai atau koefisien validitas yang muncul
menunjukkan derajat hubungan validitas tes yang baru. jika
koefisien tinggi, berarti tes yang baru tersebut mempunyai
validitas konkruen yang baik. Sebaliknya, tes yang baru
dikatakan mempunyai validitas konkruen yang jelek, apabila
koefisien yang dihasilkan rendah.
Tes mental merupakan contoh nyata terapan suatu tes
pembeda (validitas konkruen yang melibatkan penentuan tes )
yang sering ditemui dalam kasus psikologi. Jika hasil skor suatu
tes dapat digunakan degan cara benar untu mengklarifikasi orang
yang satu dengan orang lainnya, maka validitas konkruen tes
tersebut memiliki daya pembeda yang baik.

d. Validitas Prediksi
Memprediksi artinya meramal, dan meramal selalu mengenai
hal yang akan datang jadi sekarang belum terjadi. Sebuah tes
dikatakan memiliki validitas prediksi apabila mempunyai
kemampuan untuk meramalkan apa yang akan terjadi pada masa
yang akan mendatang. Jenis validitas ini menunjukkan kenyataan
jika ujian yang dimaksud dihubungkan dengan kriteria-kriteria
tentang hasil karya atau kesuksesan di masa depan. Demikianlah
jika suatu tes bakat skolastik diberikan pada siswa-siswa SMU
dikorelasikan dengan prestasi mereka di perguruan tinggi, maka
kenyataan yang diperoleh itu akan menunjukkan validitas
prediksi.
Instrumen validitas prediksi mungkin bervariasi bentuknya
tergantung beberapa faktor misalnya kurikulum yang digunakan,
buku pegangan yang dipakai, intensitas mengajar dan letak
geografis atau daerah sekolah. Yang perlu diperhatikan saat
melakukan tes validasi ini yaitu perlu memperhatikan proses dan
cara membandingkan instrumen yang divalidasi dengan tes yang
dibakukan. Perlu disadari bahwa skor tes yang dihasilkan juga
memiliki sifat ketidak sempurnaan. Ketika kriteria telah
diidentifikasi dan ditentukan, prosedur selanjutnya adalah
menentukan validitas prediksi suatu tes dengan cara seperti
berikut.
a) Buat item tes sesuai dengan tujuan yang hendak dicapai
b) Tentukan kelompok yang dijadikan subyek dalam pilot Study
c) Identifikasi kriterion prediksi yang hendak dicapai
d) Tunggu sampai tingkah laku yang diprediksi atau variabel
kriteria muncul dan terpenuhi dalam kelompok yang telah
ditentukan
e) Capai ukuran-ukuran kriteria tertentu
f) Korelasikan dua set skor yang dihasilkan

Sebagai contoh, kita akan menyelenggarakan tes untuk
menentukan validitas prediksi tes pada mahasiswa yang
mengikuti mata kuliah matematika teknik. Langkah pertama yang
harus dilakukan adalah membuat tes item, kemudian
memberikannya kepada kelompok mahasiswa potensi yang
mengambil mata kuliah tersebut. Kemudian kita menunggu
selama satu semester penuh pada kelompok mahasiswa yang
hendak diprediksi pada mata kuliah yang sama dengan mengukur
melalui nilai ujian akhir. Hasil korelasi antara dua set nilai akan
menentukan validitas prediksi tes. Jika hasilnya menunjukkan
koefisien korelasi tinggi, berarti tes tersebut mempunyai validitas
prediksi tinggi.
Untuk menguji validitas empiris dapat digunakan jenis
statistika korelasi product-moment, korelasi perbedaan peringkat,
atau korelasi diagram pencar. Berikut ini akan dikemukakan
beberapa contoh perhitungan korelasi.
a. Korelasi Product-Moment dengan Angka Simpangan
Σ𝑥𝑦
Rumus rxy =
√(Σ𝑥 2 )((Σ𝑦 2 )
Keterangan :r = koefisien korelasi
∑xy = jumlah produk x dan y
Contoh :
10 orang peserta didik kelas 11 SMA mendapat nilai dalam
mata pelajaran Bahasa Indonesia dan Bahasa Inggris seperti
berikut :
Tabel
Nilai Peserta Didik Kelas 11 SMA dalam
Mata Pelajaran Bahasa Indonesia dan Bahasa Inggris
No Nama Bahasa Indonesia Bahasa Inggris
1 A 5 6

2 B 7 8
3 C 8 7
4 D 5 5
5 E 6 7
6 F 7 7
7 G 4 5
8 H 5 7
9 I 8 8
10 J 6 6
Langkah-langkah penyelesaian:
1. Membuat tabel persiapan seperti berikut:
No X Y x y x2 y2 xy
2. Masukkan nilai masing-masing mata pelajaran, di mana nilai

Bahasa Indonesia sebagai variabel X dan nilai Bahasa Inggris
sebagai variabel Y.
3. Jumlahkan semua nilai yang ada dalam variabel X dan
variabel Y, kemudian hitung rata-rata X dan rata-rata Y.
4. Cari nilai pada kolom x dengan jalan nilai tiap-tiap peserta
didik dalam kolom X dikurangi dengan rata-rata X.
5. Cari nilai pada kolom y dengan jalan nilai tiap-tiap peserta
didik dalam kolom Y dikurangi dengan rata-rata Y.
6. Cari nilai pada kolom x2 dengan jalan mengkuadratkan
masing-masing nilai dalam kolom x.
7. Cari nilai pada kolom y2 dengan jalan mengkuadratkan
masing-masing nilai dalam kolom y.
8. Cari nilai pada kolom xy dengan jalan mengalikan tiap-tiap
nilai dalam kolom x dengan nilai-nilai dalam kolom y.

Berdasarkan langkah-langkah di atas dapat dihitung koefisien
korelasi product-moment sebagai berikut.
Tabel
Perhitungan Korelasi Product-Moment dengan
Angka Simpangan
No X Y x y x2 y2 xy
1 5 6 -1,1 -0,6 1,21 0,36 0,66
2 7 8 0,9 1,4 0,81 1,96 1,26
3 8 7 1,9 0,4 3,61 0,16 0,76
4 5 5 -1,1 -1,6 1,21 2,56 1,76
5 6 7 -0,1 0,4 0,01 0,16 -0,04
6 7 7 0,9 0,4 0,81 0,16 0,36
7 4 5 -2,1 -1,6 4,41 2,56 3,36
8 5 7 -1,1 0,4 1,21 0,16 -0,44
9 8 8 1,9 1,4 3,61 1,96 2,66
10 6 6 -0,1 -0,6 0,01 0,36 0,06
∑ 61 66 16,9 10,4 10,4
X 6,1 6,6
Σ𝑥𝑦 10,4 10,4 10,4

rxy = = = = =
√(Σ𝑥 2 )((Σ𝑦 2 ) √(16,9)((10,4) √175,76 13,257
0,784
Rumus lain korelasi product-moment, yaitu :
Σ𝑥𝑦
r.xy =
𝑛.𝜎𝑥.𝜎𝑦
Σ𝑥 2 16,9
𝜎𝑥 = √ =√ = √1,69 = 1,3
𝑁 10
Σ𝑦 2 10,4
𝜎𝑦 = √ =√ = √1,04 = 1,0198
𝑁 10
10,4
= (10)(1,3)(1,0198) = 0,784

Di samping itu, dapat juga digunakan rumus korelasi product-
moment dengan angka kasar sebagai berikut :
𝑁 Σ𝑥𝑦−(Σ𝑥)(Σ𝑦)
r=
√{𝑁 Σ𝑥 2 − (Σ𝑥)2 } {𝑁 Σ𝑦 2 − (Σ𝑦)2 }
Contoh :
Tabel
Teknik Korelasi Product-Moment dengan Angka Kasar
No X Y X2 Y2 XY
1 5 6 25 36 30
2 7 8 49 64 56
3 8 7 64 49 56
4 5 5 25 25 25
5 6 7 36 49 42
6 7 7 49 49 49
7 4 5 16 25 20
8 5 7 25 49 35
9 8 8 64 64 64
10 6 6 36 36 36
∑ 61 66 389 446 413
𝑁 Σ𝑥𝑦−(Σ𝑥)(Σ𝑦)
r =
√{𝑁 Σ𝑥 2 − (Σ𝑥)2 } {𝑁 Σ𝑦 2 − (Σ𝑦)2 }
10 (413)−(61)(66)
=
√{10 (389) − (61)2 } {10 (446)−(66)2 }
4130−4026
=
√{3890 − 3721} {4460 −4356}
104 104
= = = 0,784
√(169)(104) √ 17576

b. Korelasi Perbedaan Peringkat (Rank Differences
Correlation)
6 Σ𝐷2
Rumus: r = 1 -
𝑛 (𝑛2 −1)
Keterangan :
r = koefisien korelasi
1 dan 6 = bilangan tetap
D = perbedaan antara dua peringkat (rank)
n = jumlah sampel
Contoh :
Langkah-langkah penyelesaiannya:
1. Cari peringkat dari tiap-tiap mata pelajaran dengan jalan
mengurutkan nilai-nilai dari yang terbesar sampai yang terkecil.
2. Jika terdapat nilai yang sama, misalnya ada dua nilai yang
sama, maka kita jumlahkan nilai peringkat pertama dengan nilai
peringkat kedua, kemudian dibagi dua. Dengan demikian, kedua
orang tersebut memperoleh peringkat yang sama. Semakin besar
nilai yang diperoleh, semakin tinggi kedudukan peringkat dalam
kelompoknya.
3. Cari perbedaan peringkat dengan jalan mengurangkan
peringkat mata pelajaran Bahasa Indonesia dengan peringkat
mata pelajaran Bahasa Inggris.
4. Perbedaan peringkat yang diperoleh kemudian dikuadratkan.
Berdasarkan langkah-lagkah di atas, maka akan diperoleh
perhitungan sebagai berikut:
Tabel
Perhitungan Korelasi Perbedaan Peringkat

No X Y Rx Ry D D2
1 5 8 8 7,5 0,5 0,25
2 7 8 3,5 1,5 2 4
3 8 7 1,5 4,5 -3 9
4 5 5 8 9,5 -1,5 2,25
5 6 7 5,5 4,5 1 1
6 7 7 3,5 4,5 -1 1
7 4 5 10 9,5 0,5 0,25
8 5 7 8 4,5 3,5 12,25
9 8 8 1,5 1,5 0 0
10 6 6 5,5 7,5 -2 4
34
6 Σ𝐷2 6 (34) 204

r=1- =1- =1- = 1 – 0,206 =
𝑛 (𝑛2 −1) 10 (102 −1) 990
0,79
c. Teknik Diagram Pencar (Scatter Diagram)

Korelasi ini dapat digunakan apabila data kedua variabel
berbentuk nominal.
𝑁 ΣfU𝑥𝑈𝑦−(f𝑥𝑈𝑥)(f𝑦𝑈𝑦)
Rumus : r =
√{𝑁 f𝑥𝑈 2 𝑥 − (f𝑥𝑈𝑥)2 } {𝑁 f𝑦𝑈 2 𝑦 − (f𝑦𝑈𝑦)2 }
Contoh :
MATEMATIKA

40-49 50-59 60-69 70-79 80-89 90-99 Jumlah
90-99 2 4 4 10
80-89 1 4 6 5 16
70-79 5 10 8 1 24
60-69 1 4 9 5 2 21
50-59 3 6 6 2 17
FISIKA
40-49 3 5 4 12
Jumlah 7 15 25 23 20 10 100
MATEMATIKA
X 44,5 54,5 64,5 74,5 84,5 94,5
fUxUy
Y Ux -2 -1 0 1 2 3
FxU2x
fxUx
Uy
fx
94,5 2 2 4 4 10 20 40 44
FISIKA
84,5 1 1 4 6 5 16 16 16 31
74,5 0 5 10 8 1 0 0 0
64,5 -1 1 4 9 5 2 21 -21 21 -3
54,5 -2 3 6 6 2 17 -34 68 20
44,5 -3 3 5 4 12 -36 108 33
Fx 7 15 25 23 20 10 100 -55 253 125
FxUx -14 -15 0 23 40 30 64
fxU2 28 15 0 23 80 90 236
FuxUy 32 31 0 -1 24 39 125
𝑁 ΣfU𝑥𝑈𝑦−(f𝑥𝑈𝑥)(f𝑦𝑈𝑦)
r =
√{𝑁 f𝑥𝑈 2 𝑥 − (f𝑥𝑈𝑥)2 } {𝑁 f𝑦𝑈 2 𝑦 − (f𝑦𝑈𝑦)2 }
(100) (125)−(64)(−55)
=
√{(100)(236) − (64)2 } {(100)(253) − (−55)2 }
16020
= = 0,77
√(19594)(22275)

Dalam statistika, koefisien korelasi dinotasikan dengan “r”. Besarnya koefisien
korelasi tidak akan lebih kecil atau sama dengan -1.00 atau tidak akan lebih besar
atau sama dengan +1.00. Hal ini dapat dinyatakan dengan:
r = + 1.00, artinya korelasi sempurna positif
r = - 1.00, artinya korelasi sempurna negatif
Untuk menafsirkan koefisien korelasi dapat menggunakan kriteria sebagai berikut:
0,81 - 1,00 = sangat tinggi
0,61 - 0,80 = tinggi
0,41 - 0,60 = cukup
0,21 - 0,40 = rendah
0,00 - 0,20 = sangat rendah
Analisis butir secara modern yaitu penelaahan butir soal dengan
menggunakan Item Response Theory (IRT) atau teori jawaban butir soal.
Teori ini merupakan suatu teori yang menggunakan fungsi matematika
untuk menghubungkan antara peluang menjawab benar suatu scal dengan
kemampuan siswa. Nama lain IRT adalah latent trait theory (LTT), atau
characteristics curve theory (ICC).
Asal mula IRT adalah kombinasi suatu versi hukum phi-gamma
dengan suatu analisis faktor butir soal (item factor analisis) kemudian
bernama Teori Trait Latent (Latent Trait Theory), kemudian sekarang
secara umum dikenal menjadi teori jawaban butir soal (Item Response
Theory) (McDonald, 1999: 8).
B. Manfaat Analisis Butir Soal

Kegiatan analisis butir soal memiliki banyak manfaat, diantaranya: (1)
dapat membantu pengguna tes dalam mengevaluasi kualitas tes yang
digunakan, (2) relevan bagi penyusunan tes informal seperti tes yang disiapkan
guru untuk siswa di kelas, (3) mendukung penulisan butir soal yang efektif, (4)
secara materi dapat memperbaiki tes di kelas, (5) meningkatkan validitas soal
dan reliabilitas (Anastasi&Urbina, 1997:172). Nitko (1996:308-309) juga
menguraikan manfaat kegiatan analisis butir soal, di antaranya untuk: (1)

menentukan apakah suatu fungsi butir soal sesuai dengan yang diharapkan, (2)
memberi masukan kepada siswa tentang kemampuan dan sebagai dasar untuk
bahan diskusi di kelas, (3) memberi masukan kepada guru tentang kesulitan
siswa, (4) memberi masukan pada aspek tertentu untuk pengembangan
kurikulum, (5) merevisi materi yang diukur, (6) meningkatkan keterampilan
penulisan soal.
Dari uraian di atas menunjukkan analisis butir soal memberikan manfaat:
(1) menentukan soal-soal yang cacat atau tidak berfungsi dengan baik; (2)
meningkatkan butir soal melalui tiga komponen analisis yaitu tingkat
kesukaran, daya pembeda, dan pengecoh soal; (3) meningkatkan validitas soal
dan reliabilitas; (4) merevisi soal yang tidak relevan dengan materi yang
diajarkan, ditandai dengan banyaknya anak yang tidak dapat menjawab butir
soal tertentu.

BAB III
PENUTUP
A. Kesimpulan
 Analisis butir soal secara kualitatif dilaksanakan berdasarkan kaidah
penulisan soal (tes tertulis, perbuatan, dan sikap). Ada beberapa teknik
yang dapat digunakan untuk menganalisis butir soal secara kualitatif,
diantaranya adalah teknik moderator dan teknik panel.
a) Teknik moderator merupakan teknik berdiskusi yang di dalamnya
terdapat satu orang sebagai penengah.
b) Teknik Panel yakni suatu teknik menelaah butir soal berdasarkan
kaidah penulisan butir soal.
 Analisis butir soal secara kuantitatif adalah analisis butir soal didasarkan
pada data empirik. Data empirik ini diperoleh dari soal yang telah
diujikan. Ada dua pendekatan dalam analisis secara kuantitatif, yaitu:
1. Analisis butir soal secara klasik adalah proses penelaahan butir soal
melalui informasi dari jawaban peserta didik tes guna meningkatkan
mutu butir soal yang bersangkutan dengan menggunakan teori tes
klasik.
Aspek yang perlu diperhatikan dalam analisis butir soal secara klasik
adalah setiap butir soal ditelaah dari segi: tingkat kesukaran butir,
daya pembeda butir, dan penyebaran pilihan jawaban (untuk soal
bentuk obyektif) atau fungsi pengecoh pada setiap pilihan jawaban,
reliabilitas dan validitas soal.
2. Analisis butir secara modern yaitu penelaahan butir soal dengan
menggunakan Item Response Theory (IRT) atau teori jawaban butir
soal. Teori ini merupakan suatu teori yang menggunakan fungsi
matematika untuk menghubungkan antara peluang menjawab benar
suatu scal dengan kemampuan siswa. Nama lain IRT adalah latent
trait theory (LTT), atau characteristics curve theory (ICC).
 Manfaat menganalisis butir soal, yaitu:
1. Menentukan soal-soal yang cacat atau tidak berfungsi dengan baik,

2. Meningkatkan butir soal melalui tiga komponen analisis yaitu
tingkat kesukaran, daya pembeda, dan pengecoh soal,
3. Meningkatkan validitas soal dan reliabilitas, dan
4. Merevisi soal yang tidak relevan dengan materi yang diajarkan,
ditandai dengan banyaknya anak yang tidak dapat menjawab butir
soal tertentu.
B. Saran
Ketika kita menjadi pengajar dan pendidik, sebaiknya dalam penyusunan
instrument tes, seperti soal tes hendaknya disesuaikan dengan kriteria
penyusunan soal yang baik dan benar. Dimana, tingkat kesukarannya
diperhatikan, daya pembeda disesuaikan, pengecoh soal berfungsi dengan baik.
Dan juga ketika diuji dengan validitas maupun realibilitas sesuai dengan
kualitas dan metode pembelajaran yang menjunjung tinggi cita-cita guru
Indonesia untuk mencerdaskan kehidupan bangsa.

DAFTAR PUSTAKA
Arifin, Zaenal. 2009. EVALUASI PEMBELAJARAN. Bandung; PT.REMAJA

ROSDAKARYA
Arikunto, Suharsimi. 2003. DASAR-DASAR EVALUASI PENDIDIKAN. Jakarta;

Bumi Aksara
Kusaeri dan Suprananto. 2012. Pengukuran dan Penilaian Pendidikan. Jakarta;

GRAHA ILMU
Sudaryono. 2012. Dasar-dasar Evaluasi Pembelajaran. Jakarta; GRAHA ILMU

Makalah Analisis Butir Soal PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Makalah Analisis Butir Soal PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB I

1 |Analisis Butir Soal

2 |Analisis Butir Soal

A. Analisis Butir Soal Secara Kualitatif dan Kuantitatif

Pada prinsipnya analisis butir soal secara kualitatif dilaksanakan

1. Teknik Analisis Secara Kualitatif

Teknik berikutnya adalah Teknik Panel yakni suatu teknik menelaah

3 |Analisis Butir Soal

4 |Analisis Butir Soal

b. Format Penelaahan Butir Soal Bentuk Pilihan Ganda

5 |Analisis Butir Soal

6 |Analisis Butir Soal

c. Format Penelaahan untuk Instrumen Perbuatan

7 |Analisis Butir Soal

d. Format Penelaahan untuk Instrumen Non-Tes

8 |Analisis Butir Soal

2. Analisis Butir Soal Secara Kuantitatif

Penelaahan soal secara kuantitatif adalah penelaahan butir soal

9 |Analisis Butir Soal

Tingkat Kesukaran (TK) =

Jumlah siswa yang menjawab benar butir soal

10 |Analisis Butir Soal

P = proporsi (indeks kesukaran)

B = jumlah siswa yang menjawab benar

N = jumlah peserta tes

Tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan

Klasifikasi tingkat kesulitan soal dapat menggunakan kriteria

No Range Tingkat Kategori keputusan

Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu

11 |Analisis Butir Soal

Tes formatif IPA, 10 soal bentuk pilihan ganda, option 4, dengan

Dalam mencari indeks kesukaran menggunakan rumus yang telah ditulis

12 |Analisis Butir Soal

Daya pembeda soal adalah kemampuan suatu butir soal dapat

Kedua, untuk mengetahui seberapa jauh masing-masing soal

13 |Analisis Butir Soal

14 |Analisis Butir Soal

Rumus untuk menentukan daya pembeda (indeks diskriminasi)

15 |Analisis Butir Soal

D : 0,00 – 0,20 >> jelek

D : 0,20 – 0,40 >> cukup

D : 0,40 – 0,70 >> baik

D : 0,70 – 1,00 >> baik sekali

D : negatif, semuanya tidak baik. Jadi semua butir soal yang

siswa kelompok Nilai soal Skor

16 |Analisis Butir Soal

A=5 F=6 K=7 P=3

Kelompok atas Kelompok bawah

17 |Analisis Butir Soal

Dibelakang nama siswa dituliskan huruf A atau B sebagai tanda

BA = banyaknya siswa yang menjawab benar pada kelompok atas (A)

BB = banyaknya siswa yang menjawab benar pada kelompok bawah

 Dari kelompok atas yang menjawab betul 8 orang

18 |Analisis Butir Soal

Dengan demikian, maka indeks diskriminasi untuk soal nomor 1

Sekarang kita perhatikan butir soal nomor 8:

3. Fungsi pengecoh (distracter function)

19 |Analisis Butir Soal

Menganalisis fungsi distraktor sering dikenal dengan istilah lain,

20 |Analisis Butir Soal

Dari pola jawaban soal ini dapat dicari:

(5% dari pengikut tes = 5% x 60 orang = 3 orang)

(10% dari pengikut tes = 10% x 60 orang = 6 orang)