Anda di halaman 1dari 48

Analisis Butir Soal

Siti Masfuah, S.Pd., M.Pd


Universitas Muria Kudus
Statistically analyzing your
test items so that you can
ensure that your items are
effectively evaluating
student learning.
Soal yang berkualitas??
Manfaat soal yang telah ditelaah
1. Dapat membantu para pengguna tes dalam evaluasi atau tes yang
digunakan
2. Sangat relevan bagi penyusunan tes informal dan lokal seperti tes yang
disiapkan guru untuk siswa di kelas
3. Mendukung penulisan butir soal yang efektif
4. Secara materi dapat memperbaiki tes di kelas
5. Meningakatkan validitas soal dan reliabilitas
6. Menentukan apakah suatu fungsi butir soal sesuai dengan yang diharapkan
7. Memberi masukan kepada siswa tentang kemampuan dan sebagai dasar
untuk bahan diskusi di kelas
8. Memberi masukan kepada guru tentang kesulitan siswa
9. Memberi masukan pada aspek tertentu untuk pengembangan kurikulum
10. Merevisi materi uang dinilai atau diukur
11. Meningkatkan keterampilan penulisan soal
Qualitative

Quantitative
Quantitative
includes the
consideration of content includes principally
validity (content and the measurement
form of items), as well of item difficulty
as the evaluation of and item
items in terms of discrimination
effective item-writing
procedures.

Qualitative
Soal yang berkualitas??
Criterias??
01 Validitas 02 Reliabilitas
✓Sahih
✓Andal/Keajegan/konsiste
✓the test measured what it nsi
was suppose to measure. ✓tingkat keajegan atau
✓Mengukur sesuai dengan konsistensi hasil
Analisis yang diukur pengukuran suatu tes
✓Penggunaan alat ukur ✓Konsistensi berkaitan
Butir Soal yang tepat
✓Validitas internal &
dengan tingkat kesalahan
hasil suatu tes yang
eksternal
berupa skor

03 Daya Pembeda 04 Tingkat Kesukaran 05 Pengecoh


✓pengukuran sejauh mana suatu ✓pengukuran seberapa besar ✓ csz
butir soal mampu membedakan derajat kesukaran suatu soal.
siswa yang sudah menguasai Jika suatu soal memiliki
kompetensi dengan siswa yang tingkat kesukaran seimbang,
belum menguasai berdasarkan maka dapat dikatakan bahwa
kriteria tertentu soal tersebut baik
Validitas
Content Validity
Expert Judgment
Logis
Construct Validity
Expert judgment
Analisis Faktor

Criterion Validity/Predictive Validity


Empiris Korelasi dengan kriteria/Standar
(korelasi product moment)
Validitas
➢ pemeriksaan terhadap item- item tes untuk
membuat kesimpulan bahwa tes tersebut Validitas Logik
mengukur aspek yang relavan ➢ validitas pencuplikan
➢ Suatu tes dikatakan memiliki validitas (sampling validity)
konstruk apabila butir- butir soal yang ➢ validitas ini menuntut
membangun tes tersebut mengukut setiap batasan yang seksama
aspek berpikir seperti yang disebutkan terhadap kawasan
dalam tujuan pembelajaran perilaku yang diukur
➢ Pengujiannya dengan pendapat para ahli dan suatu desain logis
Validitas Isi (expert judgement) yang dapat mencakup
bagian kawasan
➢ keseuaian antara indikator pada Validitas Konstruk
➢ validitas perilaku yang diukur
kisi- kisi dengan definisi pencuplikan (sampling validity)
operasional instrumen tes ➢ dilihat dari cakupan item- item yang
➢ Penentuan validitas isi dapat ada dalam tes. Apakah keseluruhan
dilakukan melalui kegiatan focus item tersebut telah merupakan sampel
group discussion (FGD) yang representatif bagi seluruh item
➢ metode Lawshe (1973) dan yang mungkin dibuat, ataukah item
tersebut berisi hal- hal yang kurang
metode Aiken (1985).
relavan
Validitas menurut Zainal Arifin (2009)

Validitas Permukaan

Validitas Isi Validitas Konstruk

Validitas Empiris Validitas Faktor


• Validitas Permukaan

Melihat dari sisi muka/tampang instrumen


itu. Jika suatu tes secara sepintas telah
Jenis validitas diangap baik untuk mengungkapkan
yang paling fenomena yg akan diukur, mk tes tsb dapat
sederhana dikatakan memenuhi syarat validitas
permukaan sehingga tidak perlu dilakukan
judgement yang mendalam
Validitas Isi

Validitas isi terkait dengan apakah materi tes relevan dengan


kurikulum yang ditentukan dan mencakup keseluruhan aspek
yang akan diukur

Cara Pengujian
Cara pengukuran Teknik V-Aiken
Mencocokkan materi tes dengan Teknik Lawse
silabus, kisi2, melakukan diskusi Teknik maslach
dengan sesama pendidik, dan
mencermati kembali substansi dari
konsep yang akan diukur
Validitas Empiris
01 Validitas ini mencari hubungan antara skor tes dengan suatu kriteria
tertentu yang merupakan tolak ukur diluar tes yang bersangkutan.
Validitas empiris ini disebut juga validitas kriteria/validitas statistik.
Jenisnya yaitu validitas prediktif, validitas kongkuren dan validitas sejenis

02 Validitas prediktif bertujuan untuk meramalkan prestasi siswa,


melihat sejauh mana tes dapat memprakirakan perilaku siswa pada
masa yang akan datang.

03 Validitas konkuren adalah jika kriteria standar tes yang digunakan berlainan
jenis/tidak serumpun. Contoh: skor tes muatan matematika dikorelasikan
dengan skor tes muatan IPA

04 Skor tes Sejenis adalah jika kriteria standar tes yang diguankan sejenis.
Contoh: muatan matematika dengan muatan matematika
05 Pengujian validitas empiris:
1. Korelasi product moment dengan angka simpangan
2. Korelasi product moment dengan angka kasar
3. Korelasi perbedaan peringkat (Rank differences
correlation)
4. Teknik diagram Pencar (Scatter Diagram)
Korelasi Product Moment dengan Angka Simpangan
Korelasi Product Moment dengan Angka Simpangan
Korelasi Product Moment Angka Kasar
Korelasi Product Moment Angka Kasar
Korelasi Product Moment Angka Kasar
Interpretasi nilai r

Interpretasi koefisien korelasi ( r ) secara konvensional diberikan oleh Guilford (1956) berikut

Koefisien korelasi r Interpretasi


0,80 – 1,00 Sangat tinggi
0,60 – 0,80 Tinggi
0,40 – 0,60 Cukup
0,20 – 0,40 Rendah
0,00 – 0,20 Sangat Rendah

Penafsiran harga r juga bisa dilihat dengan membandingkan r hitung dengan r table.
Jika r hitung > r table, maka data bersifat reliabel
Validitas Konstruk
➢Konstruk adalah konsep yang dapat diobservasi
observable) & diukur (measurable).
➢Validitas konstruk dikenal dengan validitas logis (logical
validity)
➢Validitas konstruk berkaitan dengan sejuauh mana
pertanyaan/tes tersebut dapat mengukur & mengobservasi
fungsi psikologis yang merupakan deskripsi perilaku

Pengujian validitas konstruk dengan cara Validitas isi,


validitas prediktif, validitas konkuren.
Analisis statistik yang digunakan dalam validitas
konstruk yaitu analisis faktor (factor analysis), sehingga
dapat diketahui:
1. Aspek apa saja yang diukur oleh setiap butir soal
2. Berapa besar suatu butir soal berisi faktor-faktor
tertentu
3. Faktor apa saja yang diukur oleh suatu butir soal
Pada analisis faktor ini dapat menganalisis dan
mempertimbangkan apakah suatu tes dapat mengukur
fungsi psikologis yang merupakan deskripsi perilaku
siswa yang hendak diukur oleh tes tersebut
Validitas Faktor

Pengertian
Validitas ini diperoleh berdasarkan
dimensi/indikator dari variabel yang
diukur sesuai dengan apa yang
terungkap dalam konstruksi teoretsinya.

Kriteria
Menghitung homogenitas skor tiap
faktor dengan total skor, dan antara skor
dari faktor yang satu dengan skor dari
faktor yang lain
Reliabilitas
Tingkat/derajat konsistensi dari suatu instrumen
the test scores are consistent

Tes dikatakan reliabel jika selalu memberikan hasil yang


sama bila diteskan pada kelompok yang sama pada waktu
atau kesempatakn yang berbeda
Tinggi rendahnya reliabilitas, secara empirik ditunjukan oleh
suatu angka yang disebut nilai koefisien reliabilitas
Reliabilitas yang tinggi ditunjukan dengan nilai rxx
mendekati angka 1. Kesepakatan secara umum reliabilitas
yang dianggap sudah cukup memuaskan jika ≥ 0.700
Reliabilitas

Gabungan Split half


Test-retest Equivalent
Internal
Consistency

Satu 2 paket 2 paket 1 paket


instrument, isntrumen, 1x instrument, insrumen, 1x
uji. Hasil uji uji. Hasil uji
2x ujicoba. 2x ujicoba. belahan
paket 1 Gabungan
Hasil uji 1 dihubungkan pertama
dihubungka (6 dihubungkan
dg hasil uji dh hasil uji
n dg hasil paket 2 hubungan)
belahan kedua
uji 2

Product Product Product Spearman Brown,


Moment Moment Moment KR 20, KR 21
Teknik Pengukuran Reliabilitas

Spearman-Brown Flanagan Rulon

Hyot Kuder-Richardson
(KR 20)
Alpha Cronbach
(subjective test)
Pengujian Reliabilitas dengan Excel
Teknik Belah Dua (Split- Teknik Non Belah Dua (Non
Half Technique) Split-Half Technique).
dengan cara membagi tes Salah satu kelemahan perhitungan
menjadi dua bagian yang koefisien reliabilitas dengan
relatif sama (banyaknya soal menggunakan teknik belah dua
sama), sehingga masing- adalah (1) banyaknya butir soal harus
masing test mempunyai dua genap, dan (2) dapat dilakukan
macam skor, yaitu skor dengan cara yang berbeda sehingga
Tes Tunggal belahan pertama (awal / soal menghasilkan nilai yang berbeda pula
nomor ganjil) dan skor seperti terlihat pada contoh c.1 dan
Tes tunggal adalah tes contoh c.2.
yang terdiri dari satu set belahan kedua (akhir / soal
nomor genap). Koefisien menggunakan rumus Kuder-
yang diberikan terhadap Richardson (KR-20) dan Kuder-
sekelompok subjek dalam reliabilitas belahan
tes dinotasikan dengan r1/2 Richardson (KR-21).
satu kali pengetesan,
sehingga dari hasil 1/2 dan dapat dihitung
dengan menggunakan rumus Content Here
pengetesan hanya
diperoleh satu kelompok yaitu korelasi angka kasar
data Pearson. Content Here Uji Reliabilitas Tes Uraian
engan menggunakan
rumus Cronbach-Alpha,
yaitu:
Internal Consistency
Reliability
Pengujian Reliabilitas

✓Koefisien reliabilitas 0 – 1
Kategori koefisien reliabilitas (Guilford, 1956: 145) adalah sebagai
berikut:
•0,80 < r11 < 1,00 reliabilitas sangat tinggi
•0,60 < r11 < 0,80 reliabilitas tinggi
•0,40 < r11 < 0,60 reliabilitas sedang
•0,20 < r11 < 0,40 reliabilitas rendah.
•-1,00 < r11 < 0,20 reliabilitas sangat rendah (tidak reliable).
ITEMAN, others

Rasch model

Excel SPSS
Tingkat Kesukaran
peluang untuk menjawab benar suatu soal
pada tingkat kemampuan tertentu yang
biasanya dinyatakan dalam bentuk indeks

Indeks tingkat kesukaran ini pada umumnya


dunyatakan dalam bentuk proporsi yang besarnya
berkisar 0,00 – 1,00 (Aiken, 1994 : 66)

Semakin besar indeks tingkat kesukaran yang


diperoleh, berarti semakin mudah soal itu
Perhitungan Tingkat Kesukaran

Soal Objektif
01

TK= Jml siswa menjawab benar butir soal


Jumlah siswa yang mengikuti tes

02 Soal Subjektif

►Tingkat kesukaran = Mean


Skor maksimum yang telah ditetapka Pada
pedoaman penskoran

►Mean = Jumlah skor pada suatu soal


Jumlah siswa yang mengikuti tes
Perhitungan Tingkat Kesukaran

Soal Objektif
01
Jumlah siswa yang menjawab benar butir soal
Tingkat kesukaran (TK) =
jumlah siswa yang mengikuti tes

02 Soal Subjektif
Mean
Tingkat Kesukaran (TK) =
Skor maksimum yang telah ditetapkan pada pedoman penskoran

Jumlah skor siswa pada suatu soal


Mean =
Jumlah siswa yang mengikuti tes
Kriteria

Range Kriteria Proporsi dalam test

0,00 – 0,30 Soal tergolong sukar 25%


0,31 – 0,70 Soal tergolong sedang 50%
0,71 – 1,00 Soal tergolong mudah 25%
kemampuan suatu butir dapat membedakan
antara siswa yang telah menguasai materi yang
Daya ditanyakan dan siswa yang tidak/kurang/belum
Pembeda menguasai materi yang ditanyakan

Indeks DP biasanya dinyatakan dalam bentuk proporsi.


Semakin tinggi indeks DP berarti semakin mampu soal yang bersan
gkutan membedakan siswa yang telah memahami materi denga
n siswa yang belum memahami materi

Indeks daya pembeda:


antara -1,00 sampai dengan 1,00
Rumus mencari daya pembeda soal bentuk pilihan ganda

BA - BB 2 (BA - BB) DP = Daya Pembeda


DP = Atau DP = BA = Jml kel atas yang menjawab benar
1 N BB = Jml kel bahawa yang menjawab benar
N
2 N = Jml peserta tes

►Urutkan skor/nilai siswa dimulai dari tertinggi hingga terendah


►Bagilah kelas tersebut menjadi dua kelompok, contoh jika jumlah siswa 20, maka
BA = 10 dan BB= 10; jika jumlah siswa 30, maka BA = 15 dan BB=15. Namun
bagaimana jika jumlah siswa ganjil??
►Jika jumlah siswa 49, maka bagilah 2, yang tengah tidak usah diikutkan. Jd BA=
nomor urut 1-24 (24 siswa) dan BB= nomor urut 26-49 (24 siswa). Siswa dg nomor
urut 25 tidak diikutkan dalam perhitungan
►Jika jumlah siswa > 50, maka: (jk jml siswa 100),
►BA = 27% kelompok atas (skor tinggi mulai yang paling atas) = 1-27
►BB = 27% kelompok bawah (skor rendah mulai yang paling rendah) = 73-100
Contoh
No Siswa 1 2 3 …. 50 Skor
1 A1 A C D … C 45
2 A2 A D B … B 43 27% BA
3 A3 C A A … D 41
… … … … … … … …
33 A4 C D D … A 27
34 A5 D A C … B 26 27% BB
35 A6 C B A … B 25
Kunci jawaban A C B … D
Contoh Soal Pilihan Ganda
No Siswa Nomor Soal Skor total
1 2 3 4 5 6 7 8 9 10
1 A 1 1 1 1 1 1 1 1 0 0 8
2 B 1 1 1 1 1 1 1 1 0 0 8
3 C 1 1 1 1 1 1 1 1 0 0 8
4 D 1 1 1 1 0 1 1 1 0 0 7
5 E 1 1 1 1 0 1 1 0 0 0 6
6 F 1 0 1 0 1 0 0 0 1 0 4
7 G 1 0 0 1 1 0 0 0 1 0 4
8 H 1 0 0 1 1 0 0 0 1 0 4
9 I 1 0 0 0 1 0 0 0 1 0 3
10 J 1 0 0 0 1 0 0 0 1 0 3
Jml jwbn 10 5 6 7 8 5 5 4 5 0
benar
Jml siswa 10 10 10 10 10 10 10 10 10 10 10
TK 1 0,5 0,6 0,7 0,8 0,5 0,5 0,4 0,5 0
Kriteria Mdh Sd sd Sd Mdh Sd Sd Sd Sd Sl
Contoh Daya Beda Soal Pilihan Ganda

No Soal Kelompok Atas Kelompok Bawah Daya Beda


1 5 5 0 = buang
2 5 0 1 = terima baik
3 5 1 0,8 = terima baik
4 5 2 0,6 = terima baik
5 3 5 -0,4 = buang
6 5 0 1 = terima baik
7 5 0 1= terima baik
8 4 0 0,8= terima baik
9 0 5 -1 = buang
10 0 0 0 = buang
Jumlah siswa kel atas 5
Jumlah siswa kelompok bawah 5
Contoh Soal Uraian
Disamping rumus tersebut, untuk mengetahui daya pembeda soal bentuk
pilihan ganda dapat dipergunakan rumus korelasi point biseral ( r pbis) dan
korelasi biseral (r bis), sebagai berikut :

Xb − Xs Yb − Ys nb ns
rpbs = pq Atau rbis = 
SDt SDt un n 2 − n

Xb = rata-rata jawaban benar


Xs = rata-rata jawaban salah
P = proporsi jawaban benar
Q=1–p
SD = simpangan baku
Soal baik jika r bis ≥ 0,7
Mean kelompok atas - Mean kelompok bawah
DP =
Skor maksimum

►Mean = Jumlah skor pada suatu soal


Jumlah siswa yang mengikuti tes

DP dapat menggambar tingkat kemampuan soal dalam membedakan antar siswa


yang dudah memahami materi yang diujikan dengan siswa yang belum/tidak
memahami materi yang diujikan. Adapun Kriteria Daya Pembeda adalah sebagai
berikut :
0,40 – 1,00 soal diterima/baik
0,30 – 0,39 soal diterima tetapi perlu diperbaiki
0,20 – 0,29 soal diperbaiki
< 0,19 soal tidak dipakai/dibuang
Contoh Daya Pembeda dengan r bis
Penyebaran pilihan jawaban dijadikan dasar dalam
penelaahan soal. Hal ini dimaksudkan untuk mengetahui
berfungsi tidaknya jawaban yang tersedia. Suatu pilihan
jawaban (pengecoh) dapat dikatakan berfungsi apabila
pengecoh :
a. Paling tidak dipilih 5 % peserta tes/siswa
b. Lebih banyak dipilih oleh kelompok siswa yang belum paham
materi
Cara menentukan berfungsi tidaknya pengecoh

No Kelompok Jumlah peserta tes yang menjawab


soal pilihan soal
A B C D E*
1 Atas/tinggi 27% = 40 orang 4 12 16 8 0
Bawah/rendah 27%= 40 orang 0 12 16 12 0

Distraktor/pengecoh ada di pilihan E

Soal nomor 1 benar-benar jelek karena baik kelompok atas maupun


kelompok bawah semuanya bingung dan kedua kelompok memilih 01
C. Selain itu distractor atau pengecoh atau pilihan E tidak berfungsi 02
atau tidak efektif karena tidak ada yang memilih 03
05 04
Cara menentukan berfungsi tidaknya pengecoh

No Kelompok Jumlah peserta tes yang


soal menjawab pilihan soal
A* B C D E
2 Atas/tinggi 27% = 40 orang 40 0 0 0 0
Bawah/rendah 27%= 40 orang 0 8 12 10 0

Distraktor/pengecoh ada di pilihan A

Soal nomor 2 adalah soal yang bagus karena dapat membedakan 01


peserta tes yang pandai dan tidak pandai 02
03
05 04
Project
Berikut adalah soal uraian
yang berjumlah 8 soal,
yang dikerjakan oleh 20
siswa. Skor minimal 0 dan
skor maksimal 3.
Carilah:
1. Validitas product
moment
2. Reliabilitas Alpha
Cronbach
3. Daya Pembeda
4. Tingkat Kesukaran
Silahkan kerjakan di Excel!
THANK YOU

Anda mungkin juga menyukai