Anda di halaman 1dari 17

BAB 5

ANALISIS BUTIR SOAL UNTUK SOAL PILIHAN GANDA

Analisis butir soal secara kuantitatif, adalah penelaahan butir soal didasarkan pada data
empirik dari butir soal yang bersangkutan. Data empirik ini diperoleh dari siswa yang
mengerjakan soal tersebut. Penelaahan secara kuantitatif ini dilakukan setelah soal diujikan.
Pada suatu uji coba, perlu dilihat kualitas butir soal. Kualitas butir soal ditandai oleh tingkat
kesukarannya, daya pembedanya, dan berfungsinya pengecoh, jika bentuk soalnya adalah
pilihan ganda. Berikut ini diberikan uraian mengenai analisis butir soal untuk tes bentuk
pilihan ganda. Ada dua pendekatan dalam analisis secara kuantitatif yaitu pendekatan secara
klasik dan pendekatan model respon butir soal. Analisis butir soal secara klasik adalah proses
penelaahan butir soal melalui informasi jawaban siswa guna meningkatkan mutu butir soal
yang bersangkutan dengan mempergunakan teori tes klasik.
Langkah-langkah menganalisis secara klasik:
1. Mentabulasi jawaban siswa. (berapa siswa yang menjawab benar (akan digunakan
menentukan indeks kesukaran soal, menentukan daya beda), berapa siswa yang
menjawab salah (berfungsinya pengecoh), tidak menjawab soal)
2. Mencocokkan dengan kunci jawaban dari soal (apakah kuncinya ada yang salah?,
apakah ada jawaban yang lebih dari satu jawaban, atau tidak ada jawaban sama sekali)

5.1. TINGKAT KESUKARAN (DIFFICULTY)

Tingkat kesukaran butir soal menyatakan proporsi banyaknya peserta yang menjawab
benar butir soal tersebut terhadap seluruh peserta tes. Indeks tingkat kesukaran butir soal
dapat dirumuskan dengan rumus berikut.

P=

dengan P adalah indeks tingkat kesukaran suatu butir soal, B adalah banyaknya peserta tes
yang menjawab benar butir soal tersebut, dan N adalah banyaknya seluruh peserta tes.

Berdasarkan rumus tersebut, maka rentang nilai indeks tingkat kesukaran adalah:

Berdasarkan rumus itu pula dapat disimpulkan bahwa semakin tinggi nilai P, maka
semakin mudah suatu butir soal dan semakin rendah nilai P maka semakin sukar butir soal
tersebut.
Pada analisis tingkat kesukaran maka pengembang tes harus menentukan kapan suatu
butir dipertahankan dalam suatu tes dari sisi tingkat kesukaran. Dalam konteks penelitian atau
penilaian yang menggunakan pendekatan acuan norma (PAN), untuk memperoleh variabel
terikat yang semakin menyebar, maka butir soal yang semakin mendekati tingkat kesukaran
0,5, semakin baik. Misalnya peneliti memutuskan bahwa suatu butir soal dipakai jika
mempunyai tingkat kesukaran pada interval 0,20 P 0,80 atau 0,25 P 0,75 atau 0,30
P 0,70 tergantung kepada urgensi penelitian.

Pada penilaian yang menggunakan pendekatan acuan patokan (PAP), misalnya pada
pelaksanaan kurikulum berbasis kompetensi atau KTSP, analisis tingkat kesukaran menjadi
tidak relevan untuk dibicarakan, karena yang terpenting pada kurikulum berbasis kompetensi
adalah apakah peserta didik telah memenuhi standar minimal kelulusan atau belum. Pada
pelaksanaan KTSP, seorang guru pasti mengharapkan semua butir soal dapat dikerjakan oleh
semua siswa, yang berarti kalau dikaitkan dengan tingkat kesukaran, maka yang diharapkan
adalah butir soal yang tingkat kesukarannya tinggi.

Contoh
Suatu tes pilihan ganda terdiri dari 15 butir dikenakan kepada 10 siswa. Sebaran skor untuk masing-
masing butir dan skor total peserta tes tampak pada tabel berikut.

Nomor
Urut Skor
Siswa Nomor Butir Soal Total
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 1 1 1 0 1 0 0 1 1 1 0 1 1 0 1 10
2 0 0 1 1 0 0 0 1 1 0 1 0 0 1 0 6
3 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 14
4 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 11
5 0 1 0 0 0 1 1 1 1 0 1 1 1 0 1 9
6 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 12
7 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 7
8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 15
9 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 12
10 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 13

Dari tabel tersebut dapat diperoleh indeks tingkat kesukaran masing-masing butir sebagai berikut.
, , , ... ,

Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya untuk keperluan
ujian semester digunakan butir soal yang mempunyai P sedang, untuk seleksi digunakan butir soal
yang P tinggi/sukar, untuk diagnostic digunakan butir soal yang P rendah/mudah.

0 <= P <= 0,3 sukar


0,3 < P <= 0,7 sedang
0,7 < P <= 1 mudah.

Indeks kesukaran dapat digunakan untuk memprediksi alat ukur (soal tersebut) dan kemampuan
siswa. Misalkan suatu butir soal itu mudah, maka prediksi atas informasi tersebut adalah sebagai
berikut:
1. Pengecoh butir soal tdk berfungsi
2. Sebagian besar siswa memahami materi tersebut.

Misalkan suatu butir soal itu sukar, maka prediksi atas informasi tersebut adalah sebagai berikut:
1. Butir soal tersebut mungkin salah kunci jawabannya
2. Butir soal tersebut mungkin mempunyai lebih dari satu jawaban yang benar.
3. Materi belum dipelajari.
4. Soal terlalu kompleks tidak sesuai dengan tingkat berpikir siswa.

Dalam uji coba untuk menentukan P, indeks kesukaran dapat dibiaskan oleh pengambilan
sampel.

Soal Uraian:
Tingkat kesukaran soal = Mean / Skor maksimum yang ditetapkan pada pedoman penyekoran
Mean = Jumlah skor siswa pada suatu soal / banyaknya siswa yang mengikuti tes

5.2. DAYA PEMBEDA (DISCRIMINATION POWER)

“Daya pembeda soal adalah kemampuan suatu butir soal untuk dapat membedakan
antara siswa yang telah menguasai materi yang ditanyakan dan siswa yang kurang/belum
menguasai materi yang ditanyakan”

Suatu butir soal mempunyai daya pembeda baik jika kelompok siswa pandai
menjawab benar butir soal lebih banyak daripada kelompok siswa tidak pandai. Dengan
demikian, daya pembeda suatu butir soal dapat dipakai untuk membedakan siswa yang pandai
dan tidak pandai. Sebagai tolok ukur pandai atau tidak pandai adalah skor total dari
sekumpulan butir yang dianalisis.

Ada beberapa cara untuk mengukur daya pembeda, yaitu sebagai berikut.

Cara Pertama (Cara Klasik)

Dengan cara ini, peserta tes diurutkan dari skor total tertinggi sampai dengan skor total
terrendah. Berdasarkan aturan tertentu, peserta tes dikelompokkan menjadi dua kelompok,
yaitu kelompok atas (pandai) dan kelompok bawah (tidak pandai). Biasanya penentuan itu
didasarkan atas mediannya, yang berarti separuh dari peserta tes adalah kelompok atas dan
separuh dari peserta tes adalah kelompok bawah. Jika peserta tesnya dalam jumlah besar,
dapat digunakan aturan bahwa 27% urutan teratas adalah kelompok atas dan 27% urutan
terbawah adalah kelompok bawah. Hal ini didasarkan pada pengalaman empirik bahwa 27%
kelompok atas dan 27% kelompok bawah dapat mewakili separuh kelompok atas dan separuh
kelompok bawah.
Indeks daya pembeda dirumuskan sebagai berikut.

D=

dengan D adalah indeks daya pembeda butir soal, Ba adalah banyaknya peserta tes pada
kelompok atas yang menjawab benar, Na adalah banyaknya peserta tes pada kelompok atas,
Bb adalah banyaknya peserta tes pada kelompok bawah yang menjawab benar, dan N b adalah
banyaknya peserta tes pada kelompok bawah.
Jika pembagian menjadi kelompok atas dan kelompok bawah didasarkan kepada
median, maka banyaknya peserta tes pada kelompok atas sama dengan banyaknya peserta tes
pada kelompok bawah. Jika pembagiannya didasarkan atas rerata, maka bisa jadi banyaknya
peserta tes pada kelompok atas tidak sama dengan banyaknya peserta tes pada kelompok
bawah.

Contoh
Suatu tes pilihan ganda terdiri dari 15 butir dikenakan kepada 10 siswa. Sebaran skor untuk masing-
masing butir dan skor total peserta tes tampak pada tabel berikut.

Nomor
Urut Skor
Siswa Nomor Butir Soal Total
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 1 1 1 0 1 0 0 1 1 1 0 1 1 0 1 10
2 0 0 1 1 0 0 0 1 1 0 1 0 0 1 0 6
3 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 14
4 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 11
5 0 1 0 0 0 1 1 1 1 0 1 1 1 0 1 9
6 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 12
7 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 7
8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 15
9 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 12
10 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 13

Untuk mencari indeks daya pembeda dengan cara pertama, peserta tes diurutkan dari skor total
tertinggi ke terrendah seperti pada tabel berikut.
Nomor Ke-
Urut Skor lom-
Siswa Nomor Butir Soal Total pok
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 15 Atas
3 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 14 Atas
10 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 13 Atas
9 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 12 Atas
6 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 12 Atas
4 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 11 Bawah
1 1 1 1 0 1 0 0 1 1 1 0 1 1 0 1 10 Bawah
5 0 1 0 0 0 1 1 1 1 0 1 1 1 0 1 9 Bawah
7 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 7 Bawah
2 0 0 1 1 0 0 0 1 1 0 1 0 0 1 0 6 Bawah

Untuk butir nomor 1, misalnya, indeks daya pembeda dapat dicari dengan cara berikut.
D1 = = = 0,8
Dengan cara yang sama, diperoleh:
D2 = 0, D3 = 0,2, D4 = 0,6, D5 = 0,2, D6 = 0,6, D7 = 0,4, D8 = 0, D9 = −0,2,
D10 = 0,2, D11 = 0, D12 = 0,4, D13 = 0,2, D14 = 0,6, dan D15 = 0,4.

Dengan mengetahui daya beda, setiap butir soal dapat diketahui apakah soal tersebut baik, perlu
direvisi, atau ditolak.

Daya Beda soal uraian = (Mean kelompok atas-Mean kelompok bawah)/ skor maksimum

Cara Kedua (dengan Koefisien Korelasi Biserial Titik)


Pada cara kedua, indeks daya pembeda suatu butir dicari dengan mencari koefisien
korelasi antara skor butir tersebut dengan skor total peserta tes. Dengan demikian, indeks daya
pembeda dirumuskan sebagai berikut.

D= =

dengan X adalah skor butir dan Y adalah skor total


Cara kedua ini disebut cara dengan menggunakan koefisien korelasi biserial titik
(point biseria correlationl).

Contoh:
Untuk mencari daya pembeda pada butir nomor 1 pada contoh di atas dapat dicari sebagai berikut.

Nomor Ke-
Urut Skor lom-
Siswa Nomor Butir Soal Total pok
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 15 Atas
3 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 14 Atas
10 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 13 Atas
9 1 1 1 1 1 1 1 1 1 1 0 1 0 0 1 12 Atas
6 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 12 Atas
4 0 1 1 1 1 1 1 1 1 1 1 1 0 0 0 11 Bawah
1 1 1 1 0 1 0 0 1 1 1 0 1 1 0 1 10 Bawah
5 0 1 0 0 0 1 1 1 1 0 1 1 1 0 1 9 Bawah
7 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 7 Bawah
2 0 0 1 1 0 0 0 1 1 0 1 0 0 1 0 6 Bawah

Total

Skor Butir ke-1 (X) 1 0 1 0 0 1 0 1 1 1 6


Skor Total (Y) 10 6 14 11 9 12 7 15 12 13 109
X2 1 0 1 0 0 1 0 1 1 1 6
Y2 100 36 196 121 81 144 49 225 144 169 1265
XY 10 0 14 0 0 12 0 15 12 13 76

D1 = =

= = 0,78

Dengan cara yang sama, diperoleh:


D2 = 0,27, D3 = 0,23, D4 = 0,53, D5 = 0,61, D6 = 0,76, D7 = 0,52, D8 = 0,25,
D9 = 0,135, D10 = 0,54, D11 = 0,02, D12 = 0,79, D13 = 0,29, D14 = 0,40, dan D15 = 0,43.

Cara Ketiga (dengan Koefisien Korelasi Biserial Titik)


Rumus pada cara kedua dapat disederhanakan dalam rumus berikut ini.

D=

dengan X adalah skor butir, Y adalah skor total, adalah rerata skor Y dengan X = 1,
adalah rerata untuk skor total untuk Y, adalah deviasi baku dari skor total (dianggap
populasi) dengan = , N adalah banyaknya siswa, dan adalah proporsi
peserta tes dengan X = 1.

Contoh:
Dengan rumus koefisien korelasi biserial titik yang kedua, indeks daya pembeda butir soal nomor 1
dihitung sebagai berikut.
= 12,667; = 10,900; = 2,733; px = 0,6
D1 = = = 0,78

Dengan cara yang sama, diperoleh:


D2 = 0,27, D3 = 0,23, D4 = 0,53, D5 = 0,61, D6 = 0,76, D7 = 0,52, D8 = 0,25,
D9 = 0,135, D10 = 0,54, D11 = 0,02, D12 = 0,79, D13 = 0,29, D14 = 0,40, dan D15 = 0,43.

Cara Keempat (dengan Koefisien Korelasi Biserial)


Rumus pada cara keempat ini adalah sebagai berikut.

D=

dengan X adalah skor butir, Y adalah skor total, adalah rerata skor Y dengan X = 1,
adalah rerata untuk skor total untuk Y, adalah deviasi baku dari skor total (dianggap

populasi) dengan = , N adalah banyaknya siswa, adalah proporsi

peserta tes dengan X = 1, z adalah nilai pada distribusi normal baku demikian hingga luas di

bawah kurva normal baku dan di kanan z adalah px, dan f(z) = .

Contoh:
Dengan rumus koefisien korelasi biserial, indeks daya pembeda butir soal nomor 1 dihitung sebagai
berikut.
= 12,667; = 10,900; = 2,733; px = 0,6; z = −0,25; f(−0,25) = 0,39, sehingga:

D1 = = = (0,647)(1,600) = 0,99

Di antara keempat cara di atas, dulu ketika alat kalkulasi belum banyak tersedia, orang
menggunakan cara pertama. Bahkan, pengambilan 27% urutan teratas untuk kelompok atas
dan 27% urutan terbawah untuk kelompok bawah adalah untuk menyederhanakan
perhitungan. Namun sekarang ini, dengan telah tersedianya paket pengolah data, misalnya MS
Exel, atau paket program statistik, misalnya SPSS, maka cara kedua, yaitu dengan koefisien
korelasi biserial titik yang dianjurkan. Cara ini dianjurkan karena di samping dapat untuk tes
pilihan ganda, dapat juga digunakan untuk tes uraian.

5.3. BERFUNGSINYA PENGECOH


Pengecoh yang baik harus dipilih oleh peserta tes. Untuk menentukan apakah pengecoh
berfungsi atau tidak, biasanya, diambil nilai ambang 5%. Artinya, salah satu syarat agar
pengecoh dikatakan berfungsi baik adalah jika pengecoh tersebut dipilih oleh paling sedikit
5% peserta tes.
Agar dapat mengecoh peserta tes, maka pengecoh-pengecoh yang ada pada suatu butir
soal harus sama kuat daya tariknya. Suatu pengecoh yang sangat berbeda dengan pengecoh
lainnya tentu saja tidak dianjurkan. Perhatikan contoh butir soal berikut.

Raja pertama Majapahit adalah ... .


a. Tunggul Ametung
b. Brawijaya
c. Hayam Wuruk
d. Gajah Mada
e. Ken Arok

Pengecoh d tidak mempunyai daya tarik sama kuat dengan pengecoh lainnya, karena
pengecoh d bukan nama raja, tidak seperti pengecoh yang lainnya. Oleh karena itu, pengecoh
d harus diganti.
Pada mata pelajaran tertentu, seperti misalnya matematika, pengecoh disusun
berdasarkan kesalahan yang mungkin dilakukan oleh peserta tes. Misalnya stemnya adalah
“Himpunan penyelesaian persamaan kuadrat adalah ... .”
Kunci jawaban dari butir soal tersebut dapat dicari dari pengerjaan berikut.

2x + 1 = 0 atau 2x − 1 = 0
x=− atau x =
HP = { ,− }

Untuk menentukan pengecoh dari stem tersebut, kesalahan yang mungkin dilakukan
oleh siswa. Diduga ada siswa yang mengerjakan soal tersebut dengan cara berikut.

4x + 1 = 0 atau 4x − 1 = 0
x=− atau x =
x=
HP = { ,− }
HP = { }

x= x=0
HP = {0}
HP = { }

Dengan pemikiran seperti itu, maka butir soal tersebut dapat disusun seperti berikut.
Himpunan penyelesaian persamaan kuadrat adalah ... .
a. {0}
b. { }
c. { }
d. { ,− }
e. { ,− }

Kecuali dipilih oleh paling sedikit 5% peserta tes, pengecoh yang baik harus lebih
mengecoh kelompok bawah daripada kelompok atas. Artinya, peserta tes kelompok bawah
yang memilih pengecoh tersebut lebih banyak daripada peserta tes kelompok atas. Perhatikan
contoh berikut.

Contoh:
Berikut ini terdapat sebaran jawaban sekelompok peserta tes untuk butir soal tertentu.

Pilihan Jawaban
Kelompok A B C D E
Kelompok Atas 1 5 42 4 0
Kelompok Bawah 9 5 26 3 9
Keterangan: kunci jawaban C

Butir soal tersebut mempunyai indeks tingkat kesukaran P = 0,65 dan D = 0,31, yang berarti
merupakan butir yang cukup baik untuk mengambil data prestasi belajar pada suatu penelitian. Namun
demikian, pengecoh B dan pengecoh D tidak berfungsi baik, sebab kelompok bawah tidak lebih
banyak yang memilih pengecoh-pengecoh tersebut dibandingkan dengan kelompok atas.
BAB 6
ANALISIS BUTIR UNTUK SOAL URAIAN
6.1. TINGKAT KESUKARAN
Indeks tingkat kesukaran untuk tes uraian dirumuskan sebagai berikut.

P=

dengan P adalah indeks tingkat kesukaran, adalah rerata untuk skor butir, dan adalah
skor maksimum untuk butir tersebut.

Contoh:
Misalnya terdapat 5 butir soal uraian yang dikenakan pada 10 orang siswa. Setiap butir diskor dengan
skala 10 (skor minimal 1 dan skor maksimal 10). Sebaran skor mereka adalah sebagai berikut.
No Urut Siswa Jumlah
No Butir 1 2 3 4 5 6 7 8 9 10 Skor
1 6 9 7 9 7 4 7 6 5 5 65
2 7 8 7 9 7 5 8 7 7 3 66
3 6 9 6 9 7 5 7 6 8 4 67
4 5 7 8 10 8 4 8 6 6 4 66
5 8 9 7 9 7 6 7 8 7 6 74
Skor Total Siswa 32 42 35 46 36 24 37 33 33 22

Dalam kasus ini, skor maksimal untuk masing-masing butir soal adal 10, sehingga indeks tingkat
kesukaran untuk butir soal nomor 1 dicari sebagai berikut.

Dengan cara yang sama, diperoleh: = 0,66; = 0,67; = 0,66; dan = 0,74.

6.2. DAYA PEMBEDA


Indeks daya pembeda dicari dengan mencari koefisien korelasi antara skor butir
dengan skor total sebagai berikut.

D= =

dengan X adalah skor butir dan Y adalah skor total

Contoh:
Untuk menghitung indeks daya pembeda untuk butir soal pertama, dicari koefisien korelasi
antara skor butir pertama dengan skor total, sebagai berikut.

Nomor Urut Siswa 1 2 3 4 5 6 7 8 9 10 Total


Skor Butir ke-1 (X) 6 9 7 9 7 4 7 6 5 5 65
Skor Total Siswa (Y) 32 42 35 46 36 24 37 33 33 22 340
XY 192 378 245 414 252 96 259 198 165 110 2309
X2 36 81 49 81 49 16 49 36 25 25 447
Y2 1024 1764 1225 2116 1296 576 1369 1089 1089 484 12032

Indeks daya pembeda untuk butir soal nomor 1 dicari sebagai berikut,

D1 = =

= = 0,92

Dengan cara yang sama, diperoleh D2 = 0,94; D3 = 0,91; D4 = 0,90; dan D5 = 0,84.

7. NON-TES
Informasi mengenai hasil belajar tidak hanya dapat diperoleh melalui tes, tetapi dapat
juga diperoleh melalui alat pengukuran yang disebut non-tes, seperti participation chart
(bagan partisipasi), check list (daftar cek), rating scale (skala lajuan), dan attitude scale (skala
sikap).
Alat ukur untuk memperoleh informasi hasil belajar yang diungkap melalui non-tes
terutama digunakan untuk mengetahui apa yang dilakukan siswa daripada apa yang diketahui
atau dipahaminya. Alat ukur non-tes berhubungan dengan penampilan yang dapat diamati
daripada pengetahuan dan proses mental lainnya yang tidak dapat diamati dengan indera
manusia. Namun demikian, alat ukur non-tes ini merupakan satu kesatuan dengan alat ukur
tes untuk memperoleh informasi hasil belajar yang lebih menyeluruh.

6.1. SKALA LAJUAN (RATING SCALE)


Skala lajuan adalah alat ukur non-tes yang menggunakan suatu prosedur terstruktur
untuk memperoleh informasi mengenai sesuatu yang diobservasi yang menyatakan posisi
sesuatu dalam hubungannya dengan sesuatu yang lain. Biasanya skala lajuan terdiri dari: (1)
pernyataan tentang karakteristik atau kualitas sesuatu yang diukur dan (2) cara menilai yang
menunjukkan peringkat atau karakter atau kualitaas yang dimiliki oleh sesuatu tersebut.
Ada beberapa tipe skala lajuan, di antaranya: (1) numerical rating scale dan (2)
descriptive graphic rating scale

Numerical Rating Scale


Komponen pada numerical rating scale adalah pernyataan tentang karakteristik atau
kualitas tertentu dari sesuatu yang diukur keberadaanya, yang diikuti oleh angka yang
menunjukkan kualitas keberadaan tersebut.

Contoh:
Petunjuk:
Nyatakan tingkatan dari setiap pernyataan atau jawaban dari pertanyaan berikut ini dengan cara
melingkari salah satu angka yang ada di depan pernyataan atau pertanyaan tersebut. Angka-angka itu
mengandung makna:
1 = tidak memuaskan
2 = di bawah rata-rata
3 = rata-rata
4 = di atas rata-rata
5 = sempurna

Nama Siswa yang Diamati: ____________

1. Seberapa aktifkah siswa berpartisipasi dalam kegiatan diskusi? 1 2 3 4 5


2. Seberapa baikkah jalinan hubungan baik antara siswa tersebut dengan 1 2 3 4 5
kelompoknya?
3. Seberapa besar kontribusi siswa tersebut dalam pemecahan persoalan yang 1 2 3 4 5
muncul dalam diskusi?
4. dst 1 2 3 4 5

Kadang-kadang numerical rating scale dipakai untuk mengukur kemampuan seseorang


dalam kegiatan tertentu yang terkait dengan aspek psikomotor. Berikut ini adalah contoh
numerical rating scale untuk penggunaan termometer.

Petunjuk:
Nyatakan tingkatan dari setiap pernyataan atau jawaban dari pertanyaan berikut ini dengan cara
melingkari salah satu angka yang ada di depan pernyataan atau pertanyaan tersebut. Angka-angka itu
mengandung makna:
5 = sangat tepat
4 = tepat
3 = agak tepat
2 = tidak tepat
1 = sangat tidak tepat

Nama Siswa yang Diamati: ____________

No Indikator Jawaban
1 2 3 4 5
1 Cara mengeluarkan termometer dari tempatnya.
2 Cara menurunkan air raksa serendah-rendahnya.
3 Cara memasang termometer pada orang yang diukur suhunya.
4 Lama waktu pemasangan termometer pada orang yang diukur
suhunya
5 Cara mengambil termometer dari tubuh orang yang diukur
suhunya
6 Cara membaca tinggi air raksa dalam pipa kapiler termometer

Descriptive Graphic Rating Scale


Tipe rating scale ini hampir sama dengan numerical rating scale. Bedanya adalah
bahwa kualitas sesuatu yang dikerjakan digambarkan dalam suatu kontinum dalam suatu
grafik garis.

Contoh:
Petunjuk:
Nyatakan tingkatan dari setiap pernyataan atau jawaban dari pertanyaan berikut ini dengan cara
memberi tanda cek (√) pada tempat yang sesuai.

Nama Siswa yang Diamati: ____________

1. Seberapa aktifkah siswa berpartisipasi Sangat Sangat


dalam kegiatan diskusi? Aktif Tidak Aktif
2. Seberapa baikkah jalinan hubungan baik Sangat Sangat
antara siswa tersebut dengan Baik Tidak Baik
kelompoknya?
3. Seberapa besar kontribusi siswa tersebut Sangat Sangat
dalam pemecahan persoalan yang muncul Berarti Tidak Bearti
dalam diskusi?
4. dst

6.2. SKALA SIKAP


Untuk dapat memahami pengukuran skala sikap, maka harus dimengerti bahwa sikap
adalah suatu konsep psikologik yang harus secara jelas dapat dibedakan dengan kontruks
psikologik lainnya, seperti kepercayaan diri, minat, dan opini. Seperti konstruks psikologik
lainnya, maka sikap haruslah memenuhi dua kriteria yaitu dapat diamati dan dapat diukur.
Ada beberapa cara untuk mengukur skala sikap, di antaranya adalah Skala Likert dan
Skala Thurstone.

Skala Likert
Model pengukuran dengan skala Likert sebenarnya bernama model summated ratings
(Sumadi Suryabrata, 2000: 183). Namun, karena modelnya pertama kali diusulkan oleh
Rensis Likert, maka model summated ratings dikenal dengan skala model Likert, disingkat
skala Likert. Skala ini pada dasarnya tergolong untuk mengukur sikap, yang karenanya sering
disebut skala sikap.
Prinsip utama skala Likert adalah menentukan lokasi kedudukan seseorang dalam suatu
kontinum suatu aspek terhadap suatu objek, mulai dari sangat negatif sampai dengan sangat
positif. Penentuan lokasi itu dilakukan dengan mengkuantifikasi pendapat seseorang terhadap
pertanyaan atau pernyaataan yang disediakan.
Untuk skala Likert digunakan skala lima dengan 1 (satu) berarti sangat negatif dan skala
5 (lima) berarti sangat positif. Bentuk pernyataan sangat negatif dapat diganti sangat tidak
setuju, sangat tidak baik, sangat tidak menarik, dan semacamnya tergantung aspek apa yang
dipersoalkan. Kadang-kadang, skala yang di tengah yaitu 3 (netral) dihilangkan, sehingga
hanya terdapat, misalnya 1 (sangat tidak setuju), 2 (tidak setuju), 4 (setuju), dan 5 (sangat
setuju). Berikut ini adalah contoh skala Likert dengan menggunakan pilihan sangat setuju,
setuju, tidak mempunyai pendapat, tidak setuju, dan sangat tidak setuju.

Contoh:
Petunjuk:
Jawablah semua butir soal di bawah ini dengan memberi tanda cek (√) pada tempat yang
tersedia!

1. Matematika sangat berguna dalam kehidupan sehari-hari.

sangat setuju setuju tidak mempunyai tidak setuju sangat tidak


pendapat setuju

2. Untuk mendapat nilai yang tinggi pada mata pelaja ran matematika, saya harus bekerja
keras.

sangat setuju setuju tidak mempunyai tidak setuju sangat tidak


pendapat setuju

3. Saya harus memperhatikan dengan serius saat guru berbicara di depan kelas.

sangat setuju setuju tidak mempunyai tidak setuju sangat tidak


pendapat setuju

4. Saya tidak perlu belajar keras, karena guru akan memberi nilai baik kepada saya.

sangat setuju setuju tidak mempunyai tidak setuju sangat tidak


pendapat setuju

5. Saya belajar matematika karena terpaksa.

sangat setuju setuju tidak mempunyai tidak setuju sangat tidak


pendapat setuju

Kadang-kadang skala Likert dipakai untuk mengukur pernyataan kognitif, yaitu


pernyataan tingkah laku yang berkenaan dengan suatu objek sikap tertentu. Ada dua macam
pernyataan kognitif. Pertama, pernyataan yang menyatakan apa yang akan dilakukan
terhadap suatu objek sikap tertentu. Misalnya: Bila saya boleh memilih maka saya akan
membeli kendaraan bermesin diesel. Kedua, pernyataan yang menyatakan kecenderungan
tindakan sosial. Misalnya: Pemerintah seharusnya meringankan pajak bagi kendaraan
bermesin diesel.

Skala Thurstone
Model pengukuran skala Thorstone dikembangkan pertama kali oleh Louis Thurstone
(Sumadi Suryabrata, 2000: 200). Thurstone oleh para ahli ilmu-ilmu sosial dianggap “bapak”
penyusunan skala untuk mengukur sikap.
Skala Thurstone mirip dengan skala Likert, namun biasanya rentangan skala pada skala
Thurtone lebih lebar, berkisar antara 7 sampai dengan 11 skala. Pada skala Thurstone,
responden juga hanya membubuhkan tanda cek (√) pada tempat yang disediakan. Berikut ini
adalah contoh skala Thurstone.

Contoh:
Petunjuk:
Berilah tanda cek (√) pada tempat yang disediakan. Skala 7 menunjukkan sangat setuju,
sedangkan skala 1 menunjukkan sangat tidak setuju.

No Pernyataan 1 2 3 4 5 6 7
1 Matematika sangat berguna dalam kehidupan sehari-hari.
2 Untuk mendapat nilai yang tinggi pada mata pelajaran
matematika, saya harus bekerja keras.
3 Saya harus memperhatikan dengan serius saat guru berbicara di
depan kelas.
4 Saya tidak perlu belajar keras, karena guru akan memberi nilai
baik kepada saya.
5 Saya belajar matematika karena terpaksa.

B. RANGKUMAN
Untuk mengukur hasil belajar dapat digunakan tes atau non-tes. Tes yang baik harus
valid dan reliabel. Ada beberapa tipe validitas, yaitu validitas isi, validitas berdasar kriteria,
dan validitas konstruks. Di sisi lain, reliabilitas dapat dicari dengan metode satu kali tes,
metode tes ulang, dan metode bentuk sejajar. Teknik Kuder-Richardson dan teknik alpha
adalah dua teknik menghitung koefisien reliabilitas yang banyak dipakai.
Ada dua jenis tes yang dikenal, yaitu tes uraian dan tes objektif. Dari beberapa jenis tes
objektif, yang banyak dipakai adalah tes bentuk pilihan ganda. Dari beberapa jenis tes pilihan
ganda, yang banyak dipakai adalah tes bentuk melengkapi lima pilihan.
Dalam suatu uji coba untuk melihat kualitas perangkat tes, kecuali dilakukan analisis
tes (yaitu melihat validitas dan reliabilitas), juga dilakukan analisis butir soal. Analisis butir
soal meliputi analisis untuk melihat tingkat kesukaran, daya pembeda, dan berfungsinya
pengecoh.
Informasi mengenai hasil belajar tidak hanya dapat diperoleh melalui tes, tetapi dapat
juga diperoleh melalui alat pengukuran yang disebut non-tes. Beberapa non-tes yang banyak
digunakan adalah skala lajuan (rating scale), misalnya numerical rating scale dan descriptive
graphic rating scale, dan skala sikap, misalnya skala Likert dan skala Thurstone.

D. DAFTAR PUSTAKA

Allen, M. J. dan Yen, W. M. 1979. Introduction to Measurement Theory. California:


Brook/Cole Publishing Company.

Asmawi Zainul dan Noehl Nasution. 1995. Penilaian hasil belajar. Jakarta: Direktorat
Jenderal Pendidikan Tinggi, Departemen Pendidikan dan Kebudayaan.

Crocker, L dan Algina, J. 1986. Introduction to Classical and Modern Test Theory. New
York: CBS College Publishing

Ditjen Pendidikan Tinggi. 1981. Penilaian dalam pendidikan. Akta Mengajar V. Jakarta:
Ditjen Pendidikan Tinggi.

Djemari Mardapi, dkk. 2002. Pola induk sistem pengujian hasil kegiatan pembelajaran
berbasis kemampuan dasar sekolah menengah umum (SMU). Jakarta: Depdiknas.

Gani KS dan Syamsudin R Endah. 1978. Dasar dan teknik pengukuran dan penilaian dalam
pendidikan. Jakarta: Pusat Penelitian Atma Jaya.

Gronlund, N. E. 1985. Measurement and evaluation in teaching. New York: Macmillan


Publishing Company.

Guilford, J. P. 1954. Psychometric Methods. New York: McGraw-Hill Book Company, Inc.

Johnson, D. W. & Johnson, R. T. 2002. Meaningful assesment. Boston: Allyn and Bacon.

Kane, M. T. 2001. “Current Concerns in Validity Theory”. Journal of Educational


Measurement. 38 (4).

Messick, S. 1989. “Validity”. Educational Measurement: Third Edition. Edited by R.L. Linn.
New York: Macmillan Publishing Company.

Nunnally, J. C. 1978. Psychometric Theory. New Delhi: Tata McGraw-Hill Publishing


Company Limited.

Popham, W. J. 1995. Classroom assessment. Boston: Allyn and Bacon.

Sumadi Suryabrata. 1983. Metodologi Penelitian. Jakarta: PT Raja Grafindo Persada.

Suryanto. 2001. Aspek afektif hasil pembelajaran matematika. Paedagogia, 4, 41-56.


Tim Pascasarjana UNY. 2003a. Pedoman pengembangan instrumen dan penilaian ranah
psikomotor. Yogyakarta: Pascasarjana UNY.

Tim Pascasarjana UNY. 2003b. Pedoman pengembangan instrumen dan penilaian ranah
afektif. Yogyakarta: Pascasarjana UNY.

***

Anda mungkin juga menyukai