Anda di halaman 1dari 20

ANALISIS BUTIR KUANTITATIF

JURUSAN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS NEGERI SEMARANG

2019
A. Pengertian Analisis Butir Kuantitatif

Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi dari
jawaban peserta didik guna meningkatkan mutu butir soal yang bersangkutan dengan
menggunakan teori tes klasik.

Kelebihan analisisbutir soal secara klasik adalah murah, dapat dilaksanakan sehari-
hari dengan cepat menggunakan komputer, murah, sederhana, familier dan dapat menggunakan
data dari beberapa peserta didik atau sampel kecil (Millman dan Greene, 1993: 358).

Aspek yang perlu diperhatikan dalam analisis butir soal secara klasik adalah setiap butir soal
ditelaah dari segi: tingkat kesukaran butir, daya pembeda butir, dan penyebaran pilihan jawaban
(untuk soal bentuk obyektif) atau frekuensi jawaban pada setiap pilihan jawaban.

Langkah analisis butir kuantitatif secara klasik:

• Langkah pertama yang dilakukan adalah menabulasi jawaban yang telah dibuat pada
setiap butir soal yang meliputi berapa peserta didik yang: (1) menjawab benar pada
setiap soal, (2) menjawab salah (option pengecoh), (3) tidak menjawab soal.
Berdasarkan tabulasi ini, dapat diketahui tingkat kesukaran setiap butir soal, daya
pembeda soal, alternatif jawaban yang dipilih peserta didik.

• Misalnya analisis untuk 32 siswa, maka langkah (1) urutkan skor siswa dari yang
tertinggi sampai yang terendah. (2) Pilih 10 lembar jawaban pada kelompok atas dan 10
lembar jawaban pada kelompok bawah. (3) Ambil kelompok tengah (12 lembar jawaban)
dan tidak disertakan dalam analisis. (4) Untuk masing-masing soal, susun jumlah siswa
kelompok atas dan bawah pada setiap pilihan jawaban. (5) Hitung tingkat kesukaran pada
setiap butir soal. (6) Hitung daya pembeda soal. (7) Analisis efektivitas pengecoh pada
setiap soal (Linn dan Gronlund, 1995: 318-319).

1. Tingkat Kesukaran

Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat
kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks. Indeks tingkat
kesukaran ini pada umumnya dinyatakan dalam bentuk proporsi yang besarnya berkisar
0,00 - 1,00 (Aiken (1994:66). Semakin besar indeks tingkat kesukaran yang
diperoleh dari hasil hitungan, berarti semakin mudah soal itu. Suatu soal memiliki TK=
0,00 artinya bahwa tidak ada siswa yang menjawab benar dan bila memiliki TK= 1,00
artinya bahwa siswa menjawab benar. Perhitungan indeks tingkat kesukaran ini dilakukan
untuk setiap nomor soal. Pada prinsipnya, skor rata-rata yang diperoleh peserta didik pada
butir soal yang bersangkutan dinamakan tingkat kesukaran butir soal itu.

Tingkat kesukaran (TK) dirumuskan sebagai berikut.


TK =

Keterangan:
TK = tingkat kesukaran
SA = jumlah skor kelompok atas
SB = jumlah skor kelompok bawah
n = jumlah siswa
maks = skor maksimal soal yang bersangkutan

Kriteria interpretasi tingkat kesukaran digunakan pendapat Sudjana yaitu sebagai berikut:
0.00 – 0.30 > soal sukar
0.31 – 0.70 > soal sedang
0.71 – 1,00 > soal mudah

Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes.
Misalnya untuk keperluan ujian semester digunakan butir soal yang memiliki tingkat
kesukaran sedang, untuk keperluan seleksi digunakan butir soal yang memiliki tingkat
kesukaran tinggi/sukar, dan untuk keperluan diagnostik biasanya digunakan butir soal
yang memiliki tingkat kesukaran rendah/mudah
CONTOH PERHITUNGAN TINGKAT KESUKARAN SOAL URAIAN

KODE SISWA SOAL 2

U-24 10 1

U-26 7 1

U-29 7 1

U-2 10 1

U-4 0 0

U-19 5 0

U-21 10 1

U-22 10 1

U-30 10 1

U-32 10 1

U-3 7 1

U-36 0 0

U-31 0 0

U-33 7 1

U-9 10 1

U-25 0 0

U-12 7 1

U-7 7 1

U-11 7 1

U-1 7 1

U-28 7 1
U-15 5 0

U-20 7 1

U-8 5 0

U-18 7 1

U-27 5 0

U-35 5 0

U-23 0 0

U-34 0 0

U-5 0 0

U-6 0 0

U-17 0 0

U-14 0 0

U-13 7 1

U-16 0 0
Skor 0 – < 6,8 bernilai 0 , dianggap gagal
U-10 0 0
Skor 6,8 – 10 bernilai 1, dianggap tuntas
Jumlah Tes Gagal 17

Menghitung tingkat kesukaran (P) soal uraian nomor 1 :


Jumlah tes yang dianggap gagal = 17.

Jumlah seluruh tes = 36

Jumlah tes yang dianggap gagal


P x 100 %
Jumlah seluruh tes
17
  100 %
36

= 47 %

P 27% < TK ≤ 72% maka tingkat kesukaran soal nomor 1 dikategorikan sedang.

a. Kegunaan TK bagi Guru

1. Sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi masukan


kepada siswa tentang hasil belajar mereka.

2. Memperoleh informasi tentang penekanan kurikulum.

b. Kegunaan TK bagi Pengujian dan Pengajaran

(a) pengenalan konsep yang diperlukan untuk diajarkan ulang,

(b) tanda- tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah,

(c) memberi masukan kepada siswa,

(d) tanda-tanda kemungkinan adanya butir soal yang bias,

(e) merakit tes yang memiliki ketepatan data soal.

Dalam konstruksi tes, tingkat kesukaran butir soal sangat penting karena tingkat
kesukaran butir dapat:

(1) mempengaruhi karakteristik distribusi skor (mempengaruhi bentuk dan penyebaran


skor tes atau jumlah soal dan korelasi antarsoal),

(2) berhubungan dengan reliabilitas. Menurut koefisien alfa clan KR-20, semakin tinggi
korelasi antarsoal, semakin tinggi reliabilitas.

Tingkat kesukaran butir soal juga dapat digunakan untuk mempredikst alat ukur itu
sendiri (soal) dan kemampuan peserta didik dalam memahami materi yang diajarkan guru.
Misalnya satu butir soal termasuk kategori mudah, maka prediksi terhadap informasi ini
adalah seperti berikut.
1) Pengecoh butir soal itu tidak berfungsi.

2) Sebagian besar siswa menjawab benar butir soal itu; artinya bahwa sebagian besar
siswa telah memahami materi yang ditanyakan.

Bila suatu butir soal termasuk kategori sukar, maka prediksi terhadap informasi ini adalah
seperti berikut.

1) Butir soal itu "mungkin" salah kunci jawaban.

2) Butir soal itu mempunyai 2 atau lebih jawaban yang benar.

3) Materiyang ditanyakanbelum diajarkan atau belum tuntas pembelajarannya,


sehinggakompetensi minimumyang harus dikuasai siswa belum tercapai.

4) Materi yang diukur tidak cocok ditanyakan dengan menggunakan bentuk soal yang
diberikan (misalnya meringkas cerita atau mengarang ditanyakan dalam bentuk
pilihan ganda).

5) Pernyataan atau kalimat soal terlalu kompleks dan panjang.

2. Daya Pembeda (DP)

Daya pembeda soal adalah kemampuan suatu butir soal dapat membedakan antara
warga belajar/siswa yang telah menguasai materi yang ditanyakan dan warga
belajar/siswa yang tidak/kurang/belum menguasai materi yang ditanyakan. Manfaat daya
pembeda butir soal adalah seperti berikut ini.

1) Untuk meningkatkan mutu setiap butir soal melalui data empiriknya.


Berdasarkan indeks daya pembeda, setiap butir soal dapat diketahui apakah butir
soal itu baik, direvisi, atau ditolak.

2) Untuk mengetahui seberapa jauh setiap butir soal dapat


mendeteksi/membedakan kemampuan siswa, yaitu siswa yang telah memahami
atau belum memahami materi yang diajarkan guru.
Apabila suatu butir soal tidakdapat membedakan kedua kemampuan siswa itu, maka
butir soal itu dapat dicurigai "kemungkinannya" seperti berikut ini.

• Kunci jawaban butir soal itu tidak tepat.

• Butir soal itu memiliki 2 atau lebih kunci jawaban yang benar

• Kompetensi yang diukur tidak jelas

• Pengecoh tidak berfungsi

• Materi yang ditanyakan terlalu sulit, schingga banyak siswa yang menebak

• Sebagian besar siswa yang memahami materi yang ditanyakan berpikir ada yang
salah informasi dalam butir soalnya

Indeks daya pembeda setiap butir soal biasanya juga dinyatakan dalam bentuk
proporsi. Semakin tinggi indeks daya pembeda soal berarti semakin mampu soal yang
bersangkutan membedakan warga belajar/siswa yang telah memahami materi
dengan warga belajar/peserta didik yang belum memahami materi. Indeks daya pembeda
berkisar antara -1,00 sampai dengan +1,00. Semakin tinggi daya pembeda suatu soal,
maka semakin kuat/baik soal itu. Jika daya pembeda negatif (<0) berarti lebih banyak
kelompok bawah (warga belajar/peserta didik yang tidak memahami materi) menjawab
benar soal dibanding dengan kelompok atas (warga belajar/peserta didik yang memahami
materi yang diajarkan guru).

Untuk perhitungan Daya Pembeda (DP), dilakukan langkah-langkah berikut ini:


1. Para siswa didaftarkan dalam peringkat sebuah tabel.
2. Dibuat pengelompokkan siswa dalam dua kelompok, yaitu kelompok atas terdiri
atas 50% dari seluruh siswa yang mendapat skor tinggi dan kelompok bawah
terdiri atas 50% yang mendapat skor rendah.
Daya Pembeda ditentukan dengan:

Keterangan:
SA = jumlah skor kelompok atas pada butir soal yang diolah.
SB = jumlah skor kelompok bawah pada butir soal yang diolah.
IA = jumlah skor ideal salah satu kelompok pada butir soal yang diolah.

Interpretasi nilai DP mengacu pada pendapat Ruseffendi adalah sebagai berikut.


0,40 atau lebih : sangat baik.
0,30 – 0,39 : cukup baik, mungkin perlu diperbaiki
0,20 – 0,29 : minimum perlu diperbaiki
0,19 ke bawah : jelek, dibuang atau dirombak

CONTOH PERHITUNGAN DAYA PEMBEDA SOAL URAIAN

No KODE X Y

1 U-24 10 100

2 U-26 10 97

3 U-29 10 97

4 U-2 10 90

5 U-4 10 90

6 U-19 10 90

7 U-21 10 90

8 U-22 10 90

9 U-30 10 90

10 U-32 10 90

11 U-3 10 87

12 U-36 10 85

13 U-31 10 85

14 U-33 10 82

15 U-9 10 80
16 U-25 10 80 Tabel hasil perhitungan soal nomor 1
setelah diurutkan dan dibagi dua
17 U-12 7 79
kelompok:
18 U-7 10 77

19 U-11 10 77

20 U-1 10 72

21 U-28 10 67

22 U-15 10 65

23 U-20 10 62

24 U-8 10 60

25 U-18 10 52

26 U-27 7 52

27 U-35 7 52

28 U-23 7 42

29 U-34 7 42

30 U-5 10 40

31 U-6 10 40

32 U-17 10 40

33 U-14 7 37

34 U-13 5 27

35 U-16 10 25

36 U-10 10 20

Jumlah 36 337 2451


Menghitung t soal nomor 1:

Low
No High Grade Grade x1 x 12 x2 x 22

1 10 7 0,00 0,00 1,30 1,69

2 10 7 0,00 0,00 1,30 1,69

3 10 7 0,00 0,00 1,30 1,69

4 10 10 0,00 0,00 -1,70 2,89

5 10 10 0,00 0,00 -1,70 2,89

6 10 10 0,00 0,00 -1,70 2,89

7 10 7 0,00 0,00 1,30 1,69

8 10 5 0,00 0,00 3,30 10,89

9 10 10 0,00 0,00 -1,70 2,89

10 10 10 0,00 0,00 -1,70 2,89

Jumlah 100 83 0.00 0,00 0.00 32,10

Rata-rata 10 8,3

MH  ML
t hitung 
  x 12   x 2 2 
 
 n i n i  1 
 

10  8,3
=
0,00  32,10
10(10  1)

= 2,762
Hasil perhitungan dengan dk = 18 dan   5% diperoleh ttabel = 2,12, karena

thitung > ttabel maka daya pembeda soal nomor 1 signifikan.

3. Penyebaran (Distribusi) Jawaban

Penyebaran pilihan jawaban dijadikan dasar dalam penelaahan soal. Hal ini
dimaksudkan untuk mengetahui berfungsi tidaknya jawaban yang tersedia. Suatu pilihan
jawaban (pengecoh) dapat dikatakan berfungsi apabila pengecoh:

1) paling tidak dipilih oleh 5 % peserta tes/siswa,

2) lebih banyak dipilih oleh kelompok siswa yang belum paham materi.

4. Validitas

Reliabilitas Skor Tes


CONTOH PERHITUNGAN VALIDITAS SOAL URAIAN

Tabel hasil perhitungan soal uraian nomor 1

No Kode Siswa Skor nomor 1 (X) Total (Y) X2 Y2 X*Y

1 U-24 10 100 100 10000 1000

2 U-26 10 97 100 9409 970

3 U-29 10 97 100 9409 970

4 U-2 10 90 100 8100 900

5 U-4 10 90 100 8100 900

6 U-19 10 90 100 8100 900

7 U-21 10 90 100 8100 900

8 U-22 10 90 100 8100 900

9 U-30 10 90 100 8100 900

10 U-32 10 90 100 8100 900

11 U-3 10 87 100 7569 870

12 U-36 10 85 100 7225 850

13 U-31 10 85 100 7225 850

14 U-33 10 82 100 6724 820

15 U-9 10 80 100 6400 800


16 U-25 10 80 100 6400 800

17 U-12 7 79 49 6241 553

18 U-7 10 77 100 5929 770

19 U-11 10 77 100 5929 770

20 U-1 10 72 100 5184 720

21 U-28 10 67 100 4489 670

22 U-15 10 65 100 4225 650

23 U-20 10 62 100 3844 620

24 U-8 10 60 100 3600 600

25 U-18 10 52 100 2704 520

26 U-27 7 52 49 2704 364

27 U-35 7 52 49 2704 364

28 U-23 7 42 49 1764 294

29 U-34 7 42 49 1764 294

30 U-5 10 40 100 1600 400

31 U-6 10 40 100 1600 400

32 U-17 10 40 100 1600


400

33 U-14 7 37 49 1369 259

34 U-13 5 27 25 729 135

35 U-16 10 25 100 625 250

36 U-10 10 20 100 400 200

∑ 36 337 2451 3219 186065 23463


N XY   X  X 
rxy 
N X 2
  X 
2
N Y 2
  Y 
2

36.23463  337.2451

36.3219  337 . 36.186065  2451 
2 2

= 0,4671

Dari daftar kritik r Product Moment diperoleh rtabel = 0,329 (n = 36 dan   5% ), karena rxy <

rtabel maka soal uraian no 1 termasuk valid.

5. Reliabilitas

Tujuan utama menghitung reliabilitas skor tes adalah untuk mengetahui tingkat
ketepatan (precision) dan keajegan (consistency) skor tes. Indeks reliabilitas berkisar
antara 0 - 1. Semakin tinggi koefisien reliabilitas suatu tes (mendekati 1), makin tinggi
pula keajegan /ketepatannya.

Tes yang memiliki konsistensi reliabilitas tinggi adalah akurat,


reproducibel,dan generalized terhadap kesempatan testing dan instrumen tes lainnya.
Soal 1 Soal 2 Total
Kode Siswa X1  X 2  X1  X 2  X1 2 X22 X1  X 2 2

CONTOH PERHITUNGAN RELIABILITAS SOAL URAIAN

Dari tabel analisis tes uji coba (soal uraian) diperoleh :


U-24 10 10 20 100 100 400

U-26 10 7 17 100 49 289

U-29 10 7 17 100 49 289

U-2 10 10 20 100 100 400

U-4 10 0 10 100 0 100

U-19 10 5 15 100 25 225

U-21 10 10 20 100 100 400

U-22 10 10 20 100 100 400

U-30 10 10 20 100 100 400

U-32 10 10 20 100 100 400

U-3 10 7 17 100 49 289

U-36 10 0 10 100 0 100

U-31 10 0 10 100 0 100

U-33 10 7 17 100 49 289

U-9 10 10 20 100 100 400

U-25 10 0 10 100 0 100

U-12 7 7 14 49 49 196

U-7 10 7 17 100 49 289

U-11 10 7 17 100 49 289

U-1 10 7 17 100 49 289

U-28 10 7 17 100 49 289

U-15 10 5 15 100 25 225

U-20 10 7 17 100 49 289

U-8 10 5 15 100 25 225


U-18 10 7 17 100 49 289

U-27 7 5 12 49 25 144  F
U-35 7 5 12 49 25 144 a
k
U-23 7 0 7 49 0 49
t
U-34 7 0 7 49 0 49
o
U-5 10 0 10 100 0 100 r
U-6 10 0 10 100 0 100 y
a
U-17 10 0 10 100 0 100
n
U-14 7 0 7 49 0 49
g
U-13 5 7 12 25 49 144 M

U-16 10 0 10 100 0 100 e


m
U-10 10 0 10 100 0 100
p
Jumlah 337 179 516 3219 1413 8040 e
n
garuhi Reliabilitas

1) Semakin banyak jumlah butir soal, semakin ajek suatu tes.

2) Semakin lama waktu tes, semakin ajek.

3) Semakin sempit range kesukaran butir soal, semakin besar keajegan.

4) Soal-soal yang saling berhubungan akan mengurangi keajegan.

5) Semakin objektif pemberian skor, semakin besar keajegan.

6) Ketidaktepatan pemberian skor.

7) Menjawab besar soal dengan cara menebak.

8) Semakin homogen materi semakin besar keajegan.


9) Pengalaman peserta ujlan.

10) Salah penafsiran terhadap butir soal.

11) Menjawab soal dengan buru-buru/cepat.

12) Kesiapan mental peserta ujian.

13) Adanya gangguan dalam pelaksanaan tes.

14) Jarak antara tes pertama dengan tes kedua.

15) Mencontek dalam mengerjakan tes.

16) Posisi individu dalam belajar.

17) Kondisi fisik peserta ujian.

 Cara yang dilakukan untuk menentukan realibitas skor tes:

1) Keajegan pengukuran ulang: kesesuaian antara hasil pengukuran pertama dan


kedua dari sesuatu alat ukur terhadap kelompok yang sama.

2) Keajegan pengukuran setara: kesesuaian hasil pengukuran dan 2 atau lebih alat ukur
berdasarkan kompetensi kisi-kisi yang lama.

3) Keajegan belah dua: kesesuaian antara hasil pengukuran belahan pertama dan
belahan kedua dari alat ukur yang sama.

6. IRT (Item Response Theory)


Analisis butir soal secara modern yaitu penelaahan butir soal dengan
menggunakan Item Response Theory (IRT) atau teori jawaban butir soal. Teori ini
merupakan suatu teori yang menggunakan fungsi matematika untuk menghubungkan
antara peluang menjawab benar suatu scal dengan kemampuan siswa. Nama lain IRT
adalah latent trait theory (LTT), atau characteristics curve theory (ICC).
Asal mula IRT adalah kombinasi suatu versi hukum phi-gamma dengan suatu
analisis faktor butir soal (item factor analisis) kemudian bernama Teori Trait Latent
(Latent Trait Theory), kemudian sekarang secara umum dikenal menjadi teori jawaban
butir soal (Item Response Theory).

Ada empat macam model IRT, yaitu:

(1) Model satu parameter (Model Rasch), yaitu untuk menganalisis data yang
hanya menitikberatkan pada parameter tingkat kesukaran coal.

(2) Model dua paremeter, yaitu untuk menganalisis data yang hanya
menitikberatkan pada parameter tingkat kesukaran dan daya pembeda soal.

(3) Model tiga parameter, yaitu untuk menganalisis data yang menitikberatkan
pada parameter tingkat kesukaran soal, daya pembeda soal, dan menebak
(guessing).

(4) Model empat parameter, yaitu untuk menganalisis data yang menitikberatkan
pada parameter tingkat kesukaran soal, daya beda soal, menebak, dan
penyebab lain.

Kelebihan Analisis IRT

(1) IRT tidak berdasarkan grup dependent,

(2) skor siswa dideskripsikan bukan test dependent,

(3) model ini menekankan pada tingkat butir soal bukan tes,

(4) IRT tidak memerlukan paralel tes untuk menentukan relilabilitas tes,

(5) IRT suatu model yang memerlukan suatu pengukuran ketepatan untuk
setiap skor tingkat kemampuan.

Anda mungkin juga menyukai