ANALISIS BUTIR TES

BAB 3
ANALISIS BUTIR TES

DAN PRASYARATNYA
3.1. Analisis Butir Tes Objketif
a. Analisis Tingkat Kesukaran ButirTes Objektif
Dalam menganalisis tingkat keksukaran tes ini kita menggunakan

asumsi validitas dan reliabilitas, dan juga adanya keseimbangan dari tingkat
kesulitan soal tersebut . Dalam hal ini, keseimbangan tersebut adalah adanya soal-
soal yang dikategorikan soal mudah, sedang,dan sukar secara proporsional.
Tingkat kesukaran soal dapat dipandang sebagai kesanggupan siswa menjawab
soal, tidak dilihat dari segi kemampuan guru mendisain soal tersebut. Dalam
penilaian hasil belajar, suatu soal yang baik dimaknai sebagai bentuk soal yang
tidak terlalu mudah atau tidak terlalu sukar, jadi pada kadar sedang, artinya soal
yang terlalu mudah bermakna soal itu tidak mampu merangsang siswa untuk
mempertinggi usaha memecahka masalah dalam soal tersebut, dan sebaliknya
suatu soal yang terlalu sukar dapat membuat siswa
menjadi kewalahan bahkan dapat menjadi putus asa, dan akibatnya motivasi akan
menurun sehingga keinginan untuk mencoba dan terus mencoba memecahkan
masalah dalam soal berada di luar kemampuannya.
Dalam analisis butir tes, bilangan yang menunjukkan sukar dan

mudahnya suatu soal disebut taraf kesukaran atau indeks kesulitan butir tes
tersebut yang dilambangkan dengan proporsi p. Besar-kecilnya indeks kesukaran
berada pada kisaran 0,00 sampai dengan +1,00. Dalam hal ini, indeks kesukaran
menunjukkan sulit-mudahnya soal yang dijawab oleh siswa. Bila suatu soal
memiliki indeks kesukaran 0,0 menunjukkan bahwa soal kurang baik atau terlalu
sukar, sebaliknya bila indeks kesukaran butir tes adalah 1,0 bermakna soal
tersebut terlalu mudah.
228
Proporsi dari tingkat soal yang mudah, sedang, dan sukar merupakan
pertimbangan atas adanya keseimbangan ketiga kategori itu. Misalnya jika ada 60
soal tes objektif Matematika, mungkin saja ada 20 soal mudah, 20 soal sdang, dan
20 soal sulit. Dalam hal ini proporsinya sama betul jumlahnya. Perbandingan
antara soal mudah, sedang, dan sukar dapat juga dibuat 3: 4: 3, artinya dari
sejumlah soal tes objektif itu, maka ada 30% soal mudah, 40% soal sedang, dan
30% soal sukar. Ada juga yang membuat proporsi itu dengan 2 : 3: 5. Biasanya
hal ini tergantung kepada pertimbangan kepada pertimbangan (judgement) dari
guru saja.
Setelah dilakukan pertimbangan maka guru akan mengujicobakan tes
tersebut. Cara melakukan analisis butir tes untuk menentukan tingkat kesukaran
tes ini dengan menggunakan rumus: IK = .
Di mana : IK = Indeks kesukaran soal
B = Jumlah siswa menjawab benar, dan
N = Jumlah peserta tes
Kriteria yang digunakan adalah sebagai berikut:
0 ≤ IK ≤ 0,30, soal sukar
0,31 ≤ IK ≤ 0,70, soal sedang
0, 71 ≤ IK ≤ 1,00, soal mudah
Contoh 3.1. Misalnya dari 100 orang peserta tes matematika , maka jika untuk
soal nomor 5 jumlah yang menjawab benar adalah 15 orang maka IK
= = 0,15 yang berarti soal ini sukar. Kemudian jika sebanyak
40 orang menjawab soal nomor 25, maka IK = = 0,40

(sedang), sedang untuk soal nomor 34 ada 78 orang menjawab
benar, berarti IK = = 0,78 (soal mudah).
b. Indeks Kesukaran Butir Soal.

Indeks kesukaran Butir Soal dihitung dengan rumus:
1
; di mana:
IK = Indeks Kesukaran Soal
1
Ibid., p. 76
229
Up = proporsi subjek kelompok atas yang menjawab butir soal dengan benar
Lp = proporsi subjek kelompok bawah yang menjawab butir soal dengan benar
U = subjek kelompok atas yang menjawab butir soal
L = subjek kelompok bawah yang menjawab butir soal
Kriteria2 : Klasifikasi rentangan Indeks kesukaran:
0,00 < p  0,30 berarti butir soal adalah sukar
0,30< p  0,70 berarti butir soal adalah sedang
p > 0,70 berarti butir soal adalah mudah
Butir soal dinyatakan baik jika mempunyai indeks kesukaran antara 0,30 sampai
0,70
c. Indeks Daya Pembeda Butir Soal.

Indeks Daya Pembeda Butir Soal dihitung dengan rumus:
; di mana:
D = Indeks Daya Pembeda Butir Soal

Up = proporsi subjek kelompok atas yang menjawab butir soal dengan benar
Lp = proporsi subjek kelompok bawah yang menjawab butir soal dengan benar
U = subjek kelompok atas yang menjawab butir soal
Kriteria klasifikasi rentangan Indeks Daya pembeda butir soal:3
D  0,40 berarti Indeks Daya Pembeda Butir Soal adalah sangat baik
0,30  D  0,39 berarti Indeks Daya Pembeda Butir Soal adalah baik
0,20  D  0,29 berarti Indeks Daya Pembeda Butir Soal adalah perlu direvisi
D  0,19 berarti Indeks Daya Pembeda Butir Soal adalah jelek (dibuang)
Indeks Daya Pembeda Butir Soal yang dipakai jika D  0,20
Contoh 3.2: Hasil ujian Matematika untuk 10 butir tes objektif yang diikuti oleh
30 orang siswa seprti tertera pada tabel 3.1 berikut. Tentukanlah
daya pembeda masing-masing butir testersebut.
Tabel 3.1. Hasil Ujian tes objektif Matematika oleh 30 orang siswa.
Siswa Butir Tes Nomor Total
2
Masrun, Analisis Butir tes (Yogyakarta: Fakultas Psikologi Universitas Gadjah Mada, 1982), p.
18
3
Algina, J dan Crocker, L. Introduction to Classical and Modern Test Theory (New York : Holt,
Rinehart and Winston, Inc), p. 315.
230
Nomor 1 2 3 4 5 6 7 8 9 10
1 1 0 1 1 1 1 1 1 1 1 9
2 1 1 1 1 0 0 1 1 1 1 8
3 1 0 1 1 1 0 1 1 1 1 8
4 1 0 1 1 1 0 1 1 1 1 8
5 1 0 1 1 1 0 1 1 1 1 8
6 1 0 1 1 1 1 1 1 1 0 8
7 1 1 1 0 1 1 1 1 0 0 7
8 1 0 1 0 1 0 1 1 1 1 7
9 1 1 0 1 1 0 0 1 1 1 7
10 0 0 1 1 1 0 1 1 1 1 7
11 1 1 1 1 0 0 0 0 1 1 6
12 1 1 0 1 1 0 0 0 1 1 6
13 1 1 0 1 0 0 1 1 1 0 6
14 1 0 1 0 0 0 1 1 1 1 6
15 1 0 0 1 0 0 1 1 1 1 6
16 1 0 0 1 1 0 1 1 1 0 6
17 0 0 1 1 1 0 1 0 1 1 6
18 1 1 1 1 0 0 0 1 1 0 6
19 0 0 0 0 1 1 1 1 1 1 6
20 0 0 1 1 1 1 1 1 0 0 6
21 0 0 0 1 1 1 0 1 1 1 6
22 1 0 1 1 1 1 0 1 0 0 6
23 1 1 0 1 0 0 0 0 1 1 5
24 1 1 1 1 0 0 0 0 1 0 5
25 0 1 1 0 1 0 0 0 1 1 5
26 1 0 1 1 0 0 1 0 1 0 5
27 0 0 0 1 1 0 1 1 0 1 5
28 0 0 0 1 1 0 1 0 1 0 4
29 0 0 0 1 1 0 0 0 1 1 4
30 1 0 0 0 1 0 0 0 1 0 3
Tahapan untuk menentukan daya pembeda setiap butir adalah sebagai berikut:
1. Hitung banyak kelompok siswa pintar dan kelompok siswa kurang pintar yaitu
n = 27% (30) = 8 orang
231
2. Pisahkan jawaban kelompok pintar dan kelompok kurang pintar masing-
masing sebanyak 8norang sebagai berikut:
Tabel 3.2. Jawaban kelompok pintar untuk setiap butir

Siswa Butir Tes Nomor
Nomor 1 2 3 4 5 6 7 8 9 10 Total
1 1 0 1 1 1 1 1 1 1 1 9
2 1 1 1 1 0 0 1 1 1 1 8
3 1 0 1 1 1 0 1 1 1 1 8
4 1 0 1 1 1 0 1 1 1 1 8
5 1 0 1 1 1 0 1 1 1 1 8
6 1 0 1 1 1 1 1 1 1 0 8
7 1 1 1 0 1 1 1 1 0 0 7
8 1 0 1 0 1 0 1 1 1 1 7
Total
Jawaban 8 2 8 6 7 3 8 8 7 6
benar
Tabel 3.3. Jawaban kelompok kurang pintar untuk setiap butir
Siswa Butir Tes Nomor

Nomor 1 2 3 4 5 6 7 8 9 10 Total
23 1 1 0 1 0 0 0 0 1 1 5
24 1 1 1 1 0 0 0 0 1 0 5
25 0 1 1 0 1 0 0 0 1 1 5
26 1 0 1 1 0 0 1 0 1 0 5
27 0 0 0 1 1 0 1 1 0 1 5
28 0 0 0 1 1 0 1 0 1 0 4
29 0 0 0 1 1 0 0 0 1 1 4
30 1 0 1 0 1 0 1 1 1 1 7
Total
Jawaban 4 3 3 6 5 0 3 1 7 4
benar
Untuk menghitung indeks kesukaran setiap butir, dilakukan sebagai berikut:
232
(sedang)
3. Hitung daya beda setiap butir sebagai berikut:

(sangat baik)
(jelek)
, (sangat baik), dan seterusnya
233
d. Metode Ross dan Stanley
Dalam Sistem Pendidikan Nasional dikemukakan bahwa standar
nasional pendidikan terdiri atas standar isi, proses, kompetensi lulusan, tenaga
kependidikan, sarana dan prasarana, pengelolaan, pembiayaan, dan penilaian
pendidikan. Keseluruhannya harus ditingkatkan secara berencana dan berkala.
Pengembangan standar nasional pendidikan serta pemantauan dan pelaporan
pencapaian secara nasional dilaksanakan oleh suatu badan standardisasi,
penjaminan, dan pengendalian mutu pendidikan.
Menurut Peraturan Pemerintah Nomor 19 Tahun 2005 tentang Standar
Nasional Pendidikan seperti tertera pada pasal 63 ayat (1) bahwa penilaian
pendidikan pada jenjang pendidikan dasar dan menengah terdiri atas: (a)
penilaian hasil belajar oleh pendidik, (b) penilaian hasil belajar oleh satuan
pendidikan, dan (c) penilaian hasil belajar oleh pemerintah. Dalam hal ini,
penilaian hasil belajar dilakukan secara berkesinambungan untuk memantau
proses, kemajuan, dan perbaikan hasil dalam bentuk ulangan harian, ulangan
tengah semester, ulangan akhir semester, dan ulangan kenaikan kelas. Dalam
kaitan ini, menurut pasal 72 ayat (1) dinyatakan pula bahwa peserta didik
dinyatakan lulus dari satuan pendidikan pada pendidikan dasar dan menengah
setelah: menyelesaikan seluruh program pembelajaran, memperoleh nilai minimal
baik pada penialaian akhir untuk seluruh mata pelajaran agama dan akhlak mulia,
kelompok mata pelajaran kewarganegaraan dan kepribadian, kelompok mata
pelajaran estetika, dan kelompok mata pelajaran jasmani, olah raga, dan
kesehatan, lulus ujian sekolah/madrasah untuk kelompok mata pelajaran ilmu
pengetahuan dan teknologi, dan lulus Ujian Nasional
Dalam proses pembelajaran, metode atau cara yang diterapkan untuk
menentukan indeks kesukaran maupun daya pembeda soal bentuk objektif adalah
dengan menggunakan metode Rose dan Stanley. Kriteria yang digunakan dipakai
adalah dengan menggunakan Tabel sebagai berikut:
234
Tabel 3.4. Rumus Indeks Kesukaran Soal
Persentase Option Tes Objektif Kategori

Jawaban Tes
2 3 4 5
Salah
16 0,16 n 0,213 n 0,24 n 0,256 n Mudah
50 0,50 n 0,667 n 0,75 n 0,80 n Sedang
84 0,84 n 0,200 n 1,26n 1,344 n sukar
Sumber : CC. Roos dan Julian C. Stanley. “Measuremant in Today’s Schools”.

H, J. Printice – Halll, Inc. 1956. Halaman 451.
Keterangan: Option 2 adalah bentuk benar-salah; option 3, 4, dan 5

bentuk pilihan berganda: N adalah 27% dari banyak siswa peserta tes.
Tabel 3. 5. Indeks Daya Pembeda Soal menurut Roos dan Stanley.
Total Jumlah Selisih (WL – WH) Yang

Peserta Kelompok Menjawab Tes
Tes Rendah (WL) Banyak Option Tes
dan Kelompok
Tinggi (WH) 2 3 4 5
(27% x N)
28-31 8 4 5 5 5
32-35 9 5 5 5 5
36-38 10 5 5 5 5
39-42 11 5 5 5 5
43-46 12 5 5 6 6
47-49 13 5 6 6 6
50-53 14 5 6 6 6
54-57 15 6 6 6 6
58-61 16 6 6 6 6
62-65 17 6 6 6 7
66-69 18 6 6 7 7
70-72 19 6 7 7 7
73-75 20 6 7 7 7
235
76-79 21 6 7 7 7
80-83 22 6 7 7 7
84-86 23 7 7 7 7
87-90 24 7 7 8 7
91-94 25 7 7 8 8
95-98 26 7 8 8 8
99-101 27 7 8 8 8
102-105 28 7 8 8 8
106-109 29 7 8 8 8
110-112 30 7 8 8 8
113-116 31 7 8 8 8
117-120 32 8 8 9 9
121-124 33 8 8 9 9
125-127 34 8 9 9 9
128-131 35 8 9 9 9
132-135 36 8 9 9 9
136-138 37 8 9 9 9
139-142 38 8 9 9 9
143-146 39 8 9 9 9
147-149 40 8 9 9 10
150-153 41 9 9 10 10
154-157 42 9 9 10 10
158-161 43 9 10 10 10
162-164 44 9 10 10 10
165-168 45 9 10 10 10
169-172 46 9 10 10 10
173-175 47 9 10 10 10
176-179 48 9 10 10 10
180-183 49 9 10 10 10
184-187 50 9 10 10 10
188-190 51 10 10 11 11
191-194 52 10 10 11 11
195-198 53 10 11 11 11
199-201 54 10 11 11 11
202-205 55 10 11 11 11
206-209 56 10 11 11 11
236
210-212 57 10 11 11 11
213-216 58 10 11 11 11
Rumus yang digunakan untuk menghitung Indeks Kesukaran Soal

adalah sebagai berikut: WL + WH.
di mana: WL = jumlah siswa menjawab salah dari kelompok rendah
Wh = jumlah siswa menjawab salah dari kelompok tinggi
Contoh 3.1. Hasil tes matematika dari sebanyak 20 butir soal dengan 4 option
terhadap 40 siswa adalah sebagai berikut.
Tabel 3.6. Hasil tes matematika dari sebanyak 20 soal dengan 4 option
terhadap 40 siswa
Nomor Nilai Ranking Nomor Nilai Ranking
Siswa Siswa
1 18 1 21 11 22
2 16 2,5 22 11 22
3 16 2,5 23 11 22
4 15 5 24 10 26,5
5 15 5 25 10 26,5
6 15 5 26 10 26,5
7 14 7,5 27 10 26,6
8 14 7,5 28 10 26,5
9 13 11 29 10 26,5
10 13 11 30 9 31,5
11 13 11 31 9 31,5
12 13 11 32 9 31,5
13 13 11 33 9 31,5
14 12 17 34 8 36
15 12 17 35 8 36
16 12 17 36 8 36
17 12 17 37 8 36
18 12 17 38 8 36
19 12 17 39 7 39,5
20 12 17 40 7 39,5
237
Dari Tabel 3. 4 tampak bahwa masing-masing ada sebanyak 27% x 40
= 11 orang siswa termasuk kategori tinggi (nomor 1 – 11) dan kategori rendah
( nomor 30 - 40). Setelah hasil jawaban kategori tersebut diperiksa, hasilnya
adalah sebagai berikut:.
Tabel 3.7. Hasil jawaban benar dari kelompok tinggi/rendah
Nomor Soal Kelompo Siswa Yang

Menjawab Salah Wl + Wh Kategori Soal
Rendah Tinggi
(11 Orang) (11 Orang)
1 8 2 10 Sedang
2 8 1 9 Sedang
3 8 1 9 sedang
4 7 2 9 Sedang
5 7 1 8 sedang
6 7 3 10 Sedang
7 7 0 7 Mudah
8 7 2 9 Sedang
9 6 3 9 sedang
10 6 2 8 Sedang
11 6 2 8 Mudah
12 6 3 9 sedang
13 6 1 7 sedang
14 5 1 6 mudah
15 5 3 8 sedang
16 5 0 5 mudah
17 4 1 5 mudah
18 4 2 6 mudah
19 3 1 4 mudah
20 3 0 3 mudah
Keterangan: Soal: Mudah, kriterianya: 0,24 (11) = 2,64

Sedang, kriterianya 0,75 (11) = 8,25
Sukar, kriterianya 1,26 (11) = 13,86
238
Catatan:: Untuk menentukan interval kategori soal digunakan interpolasi dengan
cara menghitung i =
Jadi soal mudah pada interval 2,64 – 6,38
Sedang pada interval 6,39 – 10,13
Sukar pada interval 10,14 – 13,88
Atau dibulatkan menjadi: soal mudah pada interval 3 – 6
Sedang pada interval 7 – 10
Sukar pada interval di atas 10
Daya pembeda soal dimaknai sebagai bentuk upaya untuk mengetahui
kemampuan tes dalam membedakan antara siswa yang pintar dengan siswa yang
kurang pintar (bodoh). Artinya, jika sebuah tes diteskan kepada sekelompok
siswa yang pintar maka idealnya mereka akan mampu menjawab dengan benar
(hasilnya tinggi), dan sebaliknya jika soal tersebut diteskan kepada sekelompok
siswa yang kurang pintar menjawab dengan baik (hasilnya rendah). Sebuah tes
dikatakan tidak memiliki daya pembeda yang baik jika tes tersebut diteskan
kepada sekelompok siswa pintar hasilnya rendah, atau sebaliknya hasilnya tinggi
jika diteskan kepada sekelompok siswa yang kurang pintar. Demikian juga jika
soal tersebut diteskan secara bersamaan kepada kedua kelompok itu maka
hasilnya sama saja (tidak berbeda). Tes seperti ini kurang baik digunakan untuk
mengukur prestasi siswa.
Metode yang digunakan untuk mengukur daya pembeda adalah dengan
menggunakan metode Ross dan Stanley. Rumus yang dipakai adalah sebagai
berikut:: WL – WH
239
Contoh 3.2. Dalam sebuah ujian mata pelajaran coba, sebanyak 15 tes
matematika dengan 4 option diteskan kepada 30 siswa. Hasil
pemeriksaan adalah sebagai berikut:.
Tabel 3.8. Jawaban benar dari kelompok tinggi/rendah
Nomor Kelompok Siswa Yang

Soal Menjawab Salah Daya Pembeda Soal (DP)
Rendah (Wl) Tinggi (Wh) Wl - Wh
(11 Orang) (11 Orang)
1 8 2 6 baik
2 8 1 7 baik
3 8 1 7 baik
4 7 2 5 baik
5 7 1 6 baik
6 7 3 4 kurang baik
7 7 0 7 baik
8 7 2 5 baik
9 6 3 3 kurang baik
10 6 2 4 kurang baik
13 6 1 5 baik
16 5 0 5 baik
Jika kita menggunakan kriteria Roos dan Stanley (Tabel 3.2), maka
dapat dijelaskan sebagai berikut. Jika selisih (WL – WH) lebih besar atau sama
dengan nilai Tabel 2 di atas, maka butir soal itu memiliki daya pembeda yang
baik, dan bila nilai berada dibawahnya, maka kategori tes kurang baik. Dalam
contoh ini untuk jumlah siswa 30 orang (dalam interval 39 – 42, berarti
240
n = 27% % x 40 = 11) dengan option 4, maka nilai kritisnya adalah 5. Semua nilai
di atas nilai batas ini memiliki daya pembeda yang baik, sebaliknya jelek.
Dengan demikian hasil uji coba memberikan hasil hanya 9 soal yang memiliki
daya pembeda yang baik, sedang 11 soal memiliki daya beda yang kurang baik
(jelek) dan harus diperbaiki atau diganti sama sekali.
241
3. 2. Analisis Tes Uraian (Essay Tes)
Tes uraian, atau essay test, dimaknai sebagai suatu alat penilaian hasil
belajar yang memiliki keunggulan dalam mengukur kemampuan siswa.
Umumnya tes uraian merupakan pertanyaan yang menuntut siswa menjawabnya
dalam bentuk menguraikan, menjelaskan, mendiskusikan, membandingkan,
memberikan alasan, dan bentuk lain yang sejenis sesuai dengan tuntutan
pertanyaan dengan menggunakan kata-kata dan bahasa yang baik dan benar.
Dalam tes ini dituntut kemampuan siswa dalam hal mengekspresikan gagasannya
melalui bahasa tulisan. Kelebihan tes uraian ini terletak pada penilaian
kemampuan sesungguhnya, tanpa dapatmelakukan tebakan. Bentuk tes kurang
praktis digunakan karena munculnya bentuk tes objektif. Masing-masing tes
objektif dan essay memiliki kelebihan dan kekurangan, bahkan sampai saat
perdebatan hal ini masih sering diperdebatkan oleh hampir semua guru mulai di
tingkat SD sampai diperguruan tinggi. Ada kecenderungan di kalangan guru
untuk kembali menggunakan tes uraian sebagai alat penilian hasil belajar,
terutama di perguruan tinggi, disebabkan oleh beberapa hal, antara lain ialah :
a) Adanya gejala menurunnya hasil belajar atau kualitas pendidikan di perguruan
tinggi yang salah satu di antaranya berkenaan dengan penggunaan tes
objektif
b) Lemahnya para siswa peserta tes dalam menggunakan bahasa tulisan sebagai
akibat penggunaan tes objektif yang berlebihan
c) Kurangnya daya analisis para siswa karena terbiasa dengan tes objektif yang
memungkinkan mereka main tebak jawaban manakala menghadapi kesulitan
dalam menjawabnya.
Kondisi seperti ini sangat menunj peserta tes yang penggunaan tes uraian
di perguruan tinggi akhir-akhir ini dengan harapan dapat meningkatkan kembali
kualitas pendidikan di perguruan tinggi. Harus diakui bahwa tes uraian dalam
banyak hal mempunyai kelebihan daripada tes objektif, terutama dalam hal
kemampuan menalar di kalangan mahasiswa dan siswa. Hal ini ialah karena
melalui tes ini para mahasiswa dapat mengungkapkan aspek kognitif tingkat
tinggi seperti analisis-sintesis-evaluasi, baik secara lisan maupun secara tulisan.
Siswa juga dibiasakan dengan kemampuan memecahkan masalah (problem
solving), mencoba merumuskan hipotesis, menyusun dan mengekspresikan
gagasannya, dan menarik kesimpulan dari pemecahan masalah.
242
Contoh 3.3. Diketahui 2 butir soal uraian, yakni butir soal nomor 1 dan butir soal
nomor 2, diberikan kepada 5 siswa yang masing-masing memiliki
nilai maksimum 6, dan sekor hasil jawaban seperti terterapada tabel
di bawah ini. Tentukan tingkat kesukaran dan daya pembeda kedua
butir soal tersebut.
Tabel. 3.9. Sebaran nilai 5 siswa pada tes uraian butir 1 dan 2.
Siswa Soal 1 Soal 2

(Nilai Maksimum 6) (Nilai Maksimum 5)
A 6 5
B 5 4
C 3 2
D 3 2
E 2 1
∑X 19 14
3,80 2,80
TK 0,63 0,56
DP 0,47 0,56
Penyelesaian:
Cara yang lebih sederhana menghitung tingkat kesukaran dan daya pembeda
butir soal untuk jumlah peserta relatif sedikit (misalnya 5 orang siswa). Karena
peserta tes hanya 5 siswa dan nilai maksimal butir 1 adalah 6 dan nilai maksimum
butir 2 adalah 5, maka tingkat kesukaran dan daya pembeda butir tes 1 dan 2
masing-masing 2 dihitung sebagai berikut.
243
Keterangan: TK = Tingkat Kesukaran, DP = Daya Pembeda, KA = Kelompok
Atas, dan KB = Kelompok Bawah
244
IK &DB TES URAIAN
Contoh 3.3. Andaikan dalam suatu ujian tes uraian Mata pelajaran Matematika
untuk 5 butir tes, yang melibatkan 20 orang siswa, hasilnya adalah
sebagai berikut.
Tabel 3.10. Nilai hasil ujian 20 orang siswa.
Siswa Nilai Soal Nomor Nilai Ket

Nomor I II III IV V TOTAL
1 20 10 14 9 7 60
2 18 20 19 12 9 78
3 15 11 10 9 8 53
4 20 13 15 11 6 65
5 10 12 16 10 3 51
6 19 18 17 12 14 80
7 10 18 10 9 11 58
8 16 8 9 8 9 50
9 15 10 18 8 8 59
10 20 20 8 7 9 64
11 20 9 10 8 7 54
12 10 18 18 11 6 63
13 12 10 11 3 1 37
14 12 19 10 2 6 49
15 20 16 15 11 7 69
16 14 19 13 7 4 57
17 15 9 7 5 0 36
18 14 18 19 9 10 70
19 6 7 20 10 5 48
20 3 5 18 8 6 40
Atau setelah diurutkan hasilnya sebagai berikut:
Tabel 3.11. Nilai hasil ujian 20 orang siswa setelah diurutkan

245
Siswa Nilai Soal Nilai Ranking
Nomor I II III IV V
6 19 18 17 12 14 80 1
2 18 20 19 12 9 78 2
18 14 18 19 9 10 70 3
15 20 16 15 11 7 69 4
4 20 13 15 11 6 65 5
10 20 20 8 7 9 64 6
12 10 18 18 11 6 63 7
1 20 10 14 9 7 60 8
9 15 10 18 8 8 59 9
7 10 18 10 9 11 58 10
16 14 19 13 7 4 57 11
11 20 9 10 8 7 54 12
3 15 11 10 9 8 53 13
5 10 12 16 10 3 51 14
8 16 8 9 8 9 50 15
14 12 19 10 2 6 49 16
19 6 7 20 10 5 48 17
20 3 5 18 8 6 40 18
13 12 10 11 3 1 37 19
17 15 9 7 5 0 36 20
Taraf Sukar Soal ( Difficulty Index = DI)

1. Tetapkan Kriteria Taraf Sukar sebagai berikut :
Kriteria:
DI < 27%  soal sukar
27% < DI < 73%  soal Sedang
DI >73%  soal mudah
2. Urutkan nilai dari terbesar ke terkecil
3. Ambil 27% masing-masing nilai tertinggi dan terendah yaitu 27% x 20 = 5
(dibulatkan). Dengan demikian nilai tertinggi ada 5 orang siswa (High Group
246
HG) yaitu : 80, 78, 70, 69, 65, dan nilai terendah (Low Group = LG) ada 5
orang siswa yaitu 49, 48, 40, 37, 36.
4. Buat daftar nilai individu ke dalam Tabel sebagai berikut :
Tabel 3.12. Ranking nilai hasil ujian 20 orang siswa dalam ringkasan tabel.
H R Nilai Nomor Soal LG Ra Nilai Nomor Soal

G an I II III IV V nk I II III IV V
k
6 1 19 18 17 12 14 14 1 12 19 10 2 6
2 2 18 20 19 12 9 19 2 6 7 20 10 5
18 3 14 18 19 9 10 20 3 3 5 18 8 6
15 4 20 16 15 11 7 13 4 12 10 11 3 1
4 5 20 13 15 11 6 17 5 15 9 7 5 0
91 85 85 55 46 48 50 66 28 18
∑ ∑
Dengan demikian:
Demikian cara yang sama hitung yang lainnya.
247
Untuk Sekor Setiap Soal Berbeda Rumus Menjadi
Contoh: Untuk sekor berbeda ( I = 10, II = 10, III =15, IV = 20, V = 45)
I II III IV V I II III IV V
10 3 10 2 40 10 9 10 2 27
9 9 9 10 30 9 7 10 10 32
8 8 7 12 20 8 9 15 12 15
8 9 14 15 15 9 7 13 15 17
9 9 15 20 42 9 10 12 16 42
44 38 55 59 147 45 42 60 55 133
248
Daya Pembeda Butir Soal
Untuk menghitung daya pembeda soal lakukan langkah-langkah sebagai
berikut.
1. Dari masing-masing butir tentukanlah
a. Jumlah Total nilai yaitu
b. Jumlah Kuadrat yaitu
c. Rerata Nilai yaitu

d.. Deviasi yaitu
2. Hitung nilai t dengan rumus:
3,43 > t tabel =2,776(signifikan)
Artinya butir tes 1 memiliki daya pembeda yang baik, yang dapat
membedakan antara siswa yang pandai dengan yang kurang pandai (bodoh).
Dengan perhitungan tersebut hasilnya dirangkum sebagai berikut:
Tabel 3.13. Analisis daya beda data nilai hasil ujian dengan statistik uji statistik t
Butir Tes Nomor Butir Tes Nomor

I II III IV V I II III IV V
19 18 17 12 14 12 19 10 2 6
Nilai Tes
Nilai Tes
18 20 19 12 9 6 7 20 10 5
14 18 19 9 10 3 5 18 8 6
20 16 15 11 7 12 10 11 3 1
20 13 15 11 6 15 9 7 5 0
Jlh 91 85 85 55 46 48 50 66 28 18
JK 1681 1473 1461 611 462 558 616 994 202 98
Rerata 18.2 17 17 11 9.2 9.6 10 13.2 5.6 3.6
Deviasi 24.8 28 16 6 38.8 97.2 116 122.8 45.2 33.2
249
t 3,43 2,61 1,44 3,37 2,97
Kesimp signifikan sig nonsig sig sig
Beberapa Kelemahan Tes Uraian

Penilaian hasil tes uraian dapat dipengaruhi oleh aktor subjektif individu
pemberi nilai biasanya kurang objektif dan kurang konsisten. Faktor-faktor yang
mempengaruhi hal tersebut mungkin saja beberapa pertimbangan yang dianggap
menuju ketidak jujuran pemberi nilai, yang dapat dibedakan atas faktor:
a. Sifat Subjektif berupa Hallo Effect
Sifat ini dimaknai sebagai suatu sifat subjektif dari individu pemberi
nilai yang kurang jujur dan kurang konsisten. Seringkali seorang guru pemeriksa
lembar jawaban ujian, mengasumsikan seorang siswa yang pandai memiliki nilai
tinggi tanpa memeriksa lembar jawaban ujian secara teliti, langsung memberikan
nilai yang tinggi. Meskinya hal semacam ini tidak harus terjadi. Si Abdullah
adalah siswa pintar. Lalu guru tidak konsisten memeriksa lembar kertas ujian, dan
berasumsi nilai Abdullah tinggi, sehingga memberi nilai 90 tanpa diketahui pasti
berdasarkan hasil pemeriksaan pekerjaan Abdullah. Guru memeriksa hasil ujian
Abdilla untuk mata pelajaran tertentu Pada saat guru memeriksa hasil ujian
Abdilla, dalam pikiran guru sudah tergambar bahwa Abdilla pasti akan
memperoleh nilai yang tinggi. Adanya pemikiran tersebut akan sangat
mempengaruhi hasil pemeriksaannya, mskipun jawaban hasil ujian Abdilla
sebetulnya kurang bagus tetapi karena sudah mengenal bahwa Abdilla adalah
anak yang pandai maka guru cenderung memberi nilai tinggi terhadap hasil ujian
Abdilla. Kasus semacam ini dikenal dengan istilah (Hopkins,1990). Dalam
memeriksa tes objekti hal ini jarang dbutir tesukan karena jawaban tes objektif
bersifat tertutup, sehingga pemikiran asumsi atas siswa pada atau bidoh tidak
dipertimbangkan. Guru memeriksa lembar jawaban siswa mengacu kepada kunci
jawaban yang tersedia.
b. Sifat Subjektif berupa Efek Iringan (Carry Over Effect)
Sifat Efek Iringan (Carry Over Effect) dimaknai sebagai bentuk

subjektivitas individu pemeriksa jawaban ujian yang merupakan kondisi iringan
250
pola pemeriksaan jawaban dari suatu nomor butir ke nomor butir yang lain
mengikuti pola yang sama. Dalam hal ini kesalahan pola yang mengiringi pola
pikiran pemeriksa yang kurang benar, di mana pada saat seorang guru melakukan
pememeriksaan lembar jawaban tes uraian siswa A yang seyogyanya menerima
nilai 75 diberi nilai 85, karena sang guru baru selesai memeriksa jawaban B yang
mendapat nilai 85, sehingga teriring pola pemeriksaan siswa B mendorong guru
memberi nilai yang sama.
c. Pengaruh Urutan Pemeriksaan (Order effect).

Pengaruh pemeriksaan berdasarkan urutan dimaknai sebagai bentuk kesalahan
subjektivitas individu pemeriksa jawaban ujian yang dilakukan secara berurutan,
sehingga ada kecenderungan memberi nilai yang lebih tinggi pada lembar ujian
awal dibandingkan dengan yang diperiksa pada akhir pemeriksaaan yang
diberikan lebih rendah, atau sebaliknya. Pemeriksaan seperti ini cenderung suatu
sikap ketidakjujuran dari pemeriksa, yang seharusnya tidak membedakan urutan,
tetapi harus konsisten pada nilai kinerja dan kejujuran apa adanya hasil kinerja
siswa tersebut.
d. Pengaruh penerapan bahasa.

Ada pengaruh penerapan bahasa yang memukau pemeriksa lembar
jawaban tes uraian yang membuat penilai memberikan tambahan nilai yang lebih
tinggi. Kesalahan penulisan, tanda baca, kalimat, alinea sering membuat
terjadinya pengurangan atau penambahan nilai nilai,meskipun hal ini dapat
mengabaikan kejujuran bila ditinjau dari aspek penguasaan materi yang dijawab
siswa.
e. Pengaruh baik buruknya tulisan.

Baik buruknya tulisan dalam kertas lembar jawaban tes uraian sering
mempengaruhi pemberian nilai oleh pemeriksa. Tulisan yang indah dan kerapian
tulisan membuat pemeriksa menambah nilai, atau lebaliknya,meskipun hal itu
tidak sejalan dengan kualitas jawaban yang diberikan siswa. Dalam hal ini, tidak
hanya jawaban yang diperiksa secara objektif, akan tetapi kerapian dan keindahan
tulisanpun akan mempengaruhi pemberian nilai pada tes uraian.
3.3 SKALA PENGUKURAN
251
Skala pengukuran dimaknai sebagai bentuk penilaian terhadap
seperangkat lambang atau angka yang dibuat sehingga melalui aturan lambang
atau angka itu dapat dbutir tespatkan pada individu siswa yang menjadi sasaran
pengguna skala dengan melibatkan seperangkat aturan yang diperlukan dalam
pengukuran tersebut. Bentuk penskalaan dapat berupa proses untuk
mengasosiasikan bilangan dengan kinerja peserta ujian. Metode penskalaan
adalah aturan untuk memberikan bilangan kepada bentuk jawaban tes, di mana
skala responsi dapat berupa representasi kategori atau kontinum tempat
responden menata diri mereka. Skala digunakan untuk memperoleh responsi yang
dapat dibandingkan satu terhadap lainnya. Untuk kepentingan ini digunakan
skala pengukuran yang sesuai. Cara yang dipakai untuk menempatkan angka atau
bilangan pada hasil ukur, dilihat dari alat ukur pengukurannya, misalnya alat ukur
meteran, menggunakan Skala ukur “meter” dapat berupa cm, m, dm, km, dan
sebagainya. Hasil ukurnya dapat berupa panjang satuan skalanya, seperti, 2 meter,
10 meter, dan lainnya. Untuk alat ukur Timbangan, skala ukurnya berupa satuan
berat, gram, ons, pons, kg, ton dan sebagainya. Pada pengukuran hasil belajar,
alat ukur yang dipakai dapat berupa tes yang menerapkan skala ukur dengan
skala yang bervariasi, meskipun umumnya menggunakan skala 1-100, sehingga
hasil pengukurannya berupa nilai atau nilai, misalnya 45, 70, 100 dan
sebagainya. Pada proses pengukuran umumnya melibat tipe skala nominal,
ordinal, interval, dan rasio, seperti yang telah dijelaskan sebelumnya.
Pada proses pengukuran dan penilaian hasil belajar sebuah rencana
harus konsistensi secara internal pada pengukuran untuk menempatkan bilangan
dikenal sebagai suatu model penskalaan dan ukuran yang dihasilkan oleh
penerapan rencana itu sering diistilahkan sebagqi suatu skala (ukuran). Dalam
kaitan ini suatu skala dimaknai sebagai seperangkat lambang atau angka yang
dibuat sehingga melalui aturan lambang atau angka itu dapat dbutir tespatkan
pada individu (perilaku siswa) yang menjadi sasaran pengguna skala pengukuran
hasil beljar tersebut. Maknanya bahwa sebuah penskalaan dapat diartikan sebagai
suatu proses untuk mengasosiasikan bilangan dengan kinerja siswa sebagai
peserta tes tersebut. Dalam kaitan ini, strategi atau metode penskalaan dilibatkan
sebagai suatu aturan yang membantu untuk memberikan gambaran suatu nilai
atau bilangan kepada siswa peserta tes, di mana pemberian skala responsi
dimaknai sebagai bentuk representasi kategori atau kontinum tempat siswa
peserta tes menata diri mereka,yaKni melibatkan skala untuk memperoleh
jawaban seorang siswa yang dapat dibandingkan satu terhadap siswa lainnya.
252
Dalam proses pengukuran dan penilaian hasil belajar dikenal beberapa skala
antar lain:
a. Skala Guttman
Skala Guttman dikenal sebagai analisis skalogram yang susunan skalanya
berkisar dari bentuk jawaban siswa berupa pilihan jawaban yang disusun dari
jenjang yang lemah ke jenjang kuat. Dalam skala Guttman, apabila siswa setuju
pada salah satu pilihan jawaban, maka pilihan yang lebih lemah juga disetujuinya.
Dalam hal ini jenjang persetujuan itu dapat berupa tingkatan dari yang lemah ke
kuat. Misalnya jika jenjang itu diurutkan dari yang paling lemah ke yang kuat
yakni jika ada 4 jenjangan A, B, C, D, maka jika setuju B, seharusnya setuju
mestinya A setuju, dan jika setuju C, seharusnya A dan B setuju juga.
A. + + + +
B. - + + +
C. - - + +
D. - - - -
Misal :
Lemah
A. Pembantu rumah tangga

B. Anak di rumah tangga
C. Istri pada sebuah rumah tangga
D. Suami sebagai kepala rumah tangga
Kuat
Jika setuju B, seharusnya setuju A
Jika setuju C, seharusnya setuju A dan B
Dalam kasus ini, ada kemungkinan jawaban ada kalanya, tidak
seperti ini, namun ada kekeliruan.
Koefisien Reprodusibilitas dirumuskan sebagai berikut:

, yang dalam hal ini patokan C =90
253
Dalam banyak hal, skala Guttman dipercaya dapat menguntungkan
karena respon tunggal yang melekat paadanya dapat digunakan untuk
meramalkan berbagai tanggapan siswa terhadap semua butir tes yang melekat
pada skala tersebut sehingga skala Guttman berperan sebagai penentu
(deterministik). Dalam proses pengukuran, skala Guttman dicirikan oleh adanya
sifat yang dapat berhasil diselesaikan hanya ketika komponen prasyarat dapat
dituntaskan dalam urutan tertentu yang dianggap merupakan suatu penerapan
(implicational) terukur yang terdapat di alam. Nilai atau nilai akhir yang
diperoleh dari pengukuran melalui skala Guttman dapat dianggap setara dengan
butir terbaik (tertinggi) dari siswa yang telah sepakat dengan atau telah menjawab
dengan tepat. Dari pengukuran dan penilaian nilai akhir ini, siswa diharapkan
mampu memprediksi semua butir tes yang lain, di mana siswa telah sepakat
dengan atau menjawab dengan tepat dan akurat. Dengan kondisi skala Guttman
ini maka sering dikatakan bahwa skala ini bersiat skalabilitas atau implicational.
Di sisi lain, perlu diahami bahwa skala Guttman bukan merupakan statistik
karena tidak memperhitungan error atau kesalahan estimasinya. Untuk ini skala
Guttman dapat berfungsi dengan cara ini, bila butir tes yang terdapat dalam skala
Guttman tersebut diterapkan dari yang paling mudah ke yang paling sulit. Hal
seperti ini banyak ditentukan dengan cara memilih butir tes dalam urutan yang
tepat sesuai dengan proporsi jawaban yang sesuai atau yang tidak sesuai pada
butir pengukuran tersebut. Pendekatan pengukuran seperti ini, akan menghasilkan
pengukuran hasil belajar siswa yang paling mampu akan menjawab benar butir
pengukuran baik yang sulit maupun yang mudah, sementara siswa yang paling
tidak mampu akan menjawab benar (merespon positif) terhadap butir tes yang
mudah saja. Pada kenyataannya, skala Guttman yang sering digunakan ketika ada
kebutuhan untuk mengembangkan alat ukur non-tes berupa kuesioner singkat
dengan kemampuan diskriminan yang baik.
Dalam proses pengukuran penelitian, prinsip Guttman digunakan karena

para peneliti ingin memasukkan pertanyaan penelitian yang mampu
mengidentifikasi kelemahan penglihatan dan memiliki diskriminasi antara orang-
orang dengan derajat yang berbeda pada kelemahan penglihatan tersebut. Cukup
lama waktutelah berlalu untuk mengembangkan prinsip Guttman yang tidak dapat
melepaskan setiap butir pertanyaan dari jenjang kesulitan. Pada kurun waktu
berjalan banyak hasil visi terkait lainnya yang telah dikembangkan, namun dalam
banyak kasus konsep hirarki kesulitan butir pertanyaan yang telah diabaikan.
254
Kesulitan menerapkan butir pertanyaan yang menekankan pendekatan
probabilistik analisis Rasch pada teori pengukuran dan analisis modern.
Penerapan model Rasch satu parameter mengasumsikan bahwa pengamatan
memiliki deterministik skala Guttman yang mendasarinya, tetapi skala
peringkatnya terganggu oleh adanya sumber variabilitas acak homogen yaitu,
varians dari distribusi kesalahan adalah sama untuk setiap responden siswa.
Model Rasch adalah model sebenarnya dari varians acak dalam skala Guttman
yang memperhitungkan adanya kesalahan untuk memperkirakan interval antara
butir pertanyaan dan para siswa sebagai responden. Sebaliknya, melibatkan
deterministik Guttman yang berskala ordinal karena skala ini memiliki informasi
yang cukup untuk memperkirakan interval. Untuk mengevaluasi sifat skala
Guttman dari berbagai sifat tersebut yang berfungsi untuk melihat apakah urutan
hirarkis yang cukup ketat dapat untuk mempertimbangkan kesulitan butir
pertanyaan yang valid. Analisis tanggapan dari siswa sebagai responden dengan
vivi yang lemah dengan instrumen visual yang mencakup aktivitas skala visi
berkelanjutan yang diperluas dan dilengkapi dengan kuesioner yang
menunjukkan beberapa penyimpangan dari model skala Guttman. Hasil analisis
ini menunjukkan bahwa hubungan antara sifat laten dan tanggapan kuesioner
tidak deterministik tetapi bisa probabilistik. Pengembangan hal ini dimaksudkan
untuk menciptakan skala Guttman sehingga ada kemungkinan bahwa hal itu
berlaku dalam model untuk memahami urutan jenjang yang cukup penting untuk
skala Guttman yang dapat berguna untuk melacak jumlah kelemahan yang
muncul dari waktu ke waktu. Skala Guttman menunjukkan bahwa secara efektif
hanya berisi satu pertanyaan tunggal yang yang tidak dapat dianalisis
menggunakan analisis Rasch yang menggunakan model probabilistik. Karena
skala ini dimaksudkan untuk menjadi ukuran yang mampu mengukuran jenjang
dan siat berbagai fenomena yang terjadi di lapangan.
b. Skala Coombs
Posisi skala Coombs terletak pada kisaran skala ordinal dan skala
interval, yang dimaknai sebagai penunjukan jarak yang lebih dekat dan jarak
lebih jauh.
P Q R S
255
P Q R S
Skala Coombs dapat juga berfungsi untuk menentukan urutan obyek,

misal ABCD
Jika setuju A, juga setuju BCD
Jika setuju B, juga setuju CD
Jika setuju C, juga setuju D
visual, kami juga memilih untuk menguji validitas konstruk jika dibandingkan
dengan ketajaman visual diukur.
c. Nilai skala
1. Jenis nilai skala

Pada pengukuran hasil belajar, secara garis besar,dikenal dua nilai skala
 Dikotomi
 Politomi
2. Skala Dikotomi
(a) Hanya ada dua macam nilai,biasanya dinyatakan sebagai 0 dan 1
(b) Contoh 5
Jawaban Benar = 1
Jawaban Salah = 0
Ada = 1 Setuju =1
Tidak Ada = 0 Tidak Setuju = 0

3. Skala Politomi
(i) Memiliki bentangan nilai lebih dari dua macam.
(ii) Contoh 6
 Salah, Sebagian Benar, Benar
Salah =0
256
Sebagian Benar = 1 . . . . 9
Benar = 10
 Peringkat
Dari rendah ke tinggi
1, 2, 3, 4, 5
 Kiraan(Rating)
Dari buruk ke baik
1, 2, 3, 4, 5, 6, 7
d. Sifat Skala, dapat dibedakan atas:
1. Skala Diskrit
Jika diurutkan, terdapat lompatan di antara skala,
X1 X2 X3
. . . . . .
Misal :
1, 2, 3, 4, 5, . . .
5, 10, 15, 20, 25, . . .
100, 150, 200, 250, 300, . . .
2. Skala Kontinu
Jika data hasil pengukuran diurutkan, menjadi serba terus berkelanjutan
(sinambung) maka tipe data seperti ini dinamakan data kontinu.
Mis.
1 1,5 2 3 4 5
257
1,25
3. Diskrit Semu
Bila data hasil pengukuran bersifat terputus dari satu titik ke titik
berikutnya, maka data seperti ini disebut data distkrit yang ditata melalui
aturan tertentu.
kontinu
. . . . Diskrit Semu
Misal :
6 7 8 9
6 7 8 9
6,5 7,5 8,5

. . . .
6 7 8 9
258
10 15 20 25
12,5 17,5 20,5

. . . .
15 20 25
e. Dari data yang dihasilkan pada suatu pengukuran, maka berbagai tipe skala
yang muncul dapat dibedakan menjadi:
1. Tipe Skala Dasar
Ada sejumlah tipe skala ukur :
 Skala kategoris, untuk membedakan kategori.
 Skala kuantitatif berperingkat, untuk membedakan peringkat.
 Skala jawaban betul, untuk menentukan tingkat betul.
 Skala jawaban terbaik, untuk menetukan tingkat baik.
 Skala kiraan (Rating Scale), untuk menentukan letak kiraan.
 Skala satuan ukur, untuk menentapkan satuan ukur.

2. Skala Satuan Ukur
Satuan ukur ditentukan melalui suatu cara tertentu, misalnya :
 Meter = 1/40.000.000 Keliling Bumi
259
 Gram =
 Detik = 1/24 x 60 x 60 Hari
 Ampere =
 0
C = 1/100 (Temp.Didih - Temp.Beku) Air
 Volt =
1. Skala Kategoris
(b) Skala ini hanya menunjukkan kategori obyek ukur
(c) Contoh 7
 Makanan Asin =1
Makanan manis =2
Makanan Asam =3
Makanan Pedas =4
 Orang Desa =1
Orang Kota =2
2. Skala Kuantitatif Berperingkat
(a) Skala ini menunjukkan peringkat pada obyek ukur
(b) Contoh 8
 Tingkat status sosial ekonomi

Tinggi =1
Sedang =2
Rendah =3
260
 Ragam Tutur Bahasa
Halus = 1
Menengah = 2
Kasar =3
 Kepekatan Kopi
Tiada Kopi =1
Kopi Encer =2
Kopi Agak Encer =3
Kopi Sedang =4
Kopi Agak Pekat =5
Kopi Pekat =6
 Frekuensi
Tidak Pernah =1
Kadang-kadang =2
Agak Sering =3
Sering =4
Selalu =5
 Status Pendidikan
Tidak Pernah Bersekolah =0
Tidak Lulus SD =1
Lulus SD =2
261
Lulus SLTP =3
Lulus SLTA =4
Lulus S1 Perguruan Tinggi =5
Lulus S2 Perguruan Tinggi =6
Lulus S3 perguruan Tinggi =7
 Jumlah Mahasiswa
Kurang dari 1000 =1
1001 – 5000 =2
5001 – 10000 =3
10001 – 15000 =4
15001 – 20000 =5
Lebih Dari 20000 =6
3
0, . . . , 5. Skala Jawaban Betul
(a) Jawaban Betul Dikotomi
Hanya Ada Jawaban :
 Salah
 Benar
Acuan jawaban adalah kunci jawaban
Skala yang biasa digunakan :
Jawaban Salah :0
Benar : 1
Pertanyaan dapat berbentuk :
 Betul atau Salah
262
 Pilihan Ganda satu jawaban betu
Contoh :
 Helsinki adalah ibukota Norwegia
B S
Kunci : S
Pertanyaan Pilihan Ganda
 Penulis buku “Principia Mathematica philosophae Naturalis” adalah
A. Rene Descartes
B. Isaac Newton
C. Galileo Galilei
Kunci : B
(b) Jawaban Betul Politomi
Jawaban mencakup :
 Salah
 Sebagian betul
 Betul
Acuan jawaban adalah kunci jawaban
Banyak macam bentangan skala :
263
3. 4. Validitas
I. Validitas
Validitas berasal dari kata validity yang berarti sejauh mana ketepatan dan
kecermatan suatu alat ukur melakukan fungsi ukurnya. Suatu tes atau instrumen
pengukuran dikatakan memiliki validitas yang yang tinggi apabila alat tersebut
menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan
maksud dilakukannya pengukuran tersebut.
Validitas suatu tes harus selalu dikaitkan dengan tujuan atau pengambilan
keputusan tertentu. Tes masuk misalnya harus selalu dikaitkan dengan seberapa
jauh tes masuk tersebut dapat mencerminkan prestasi belajar para calon siswa
baru setelah belajar nanti. Konsep validitas tes dapat dibedakan atas 3 macam
1. Validitas isi (content validity)
2. Validitas konstruk (construct validity)
3. Validitas empiris kriteria
Validitas empiris dibedakan atas dua macam yaitu:
(a) validitas kongkuren (concurrent validity), dan
(b) validitas prediktif (predictive validity).
264
a. Validitas Isi
Validitas isi suatu tes mempermasalahkan seberapa
jauh suatu tes mengukur tingkat penguasaan terhadap isi
suatu materi tertentu yang seharusnya dikuasai sesuai
dengan tujuan pengajaran. Tes yang mempunyai validitas isi yang baik
ialah tes yang benar-benar mengukur penguasaan materi yang seharusnya
dikuasai. Menurut Gregory (2000) validitas isi menunjukkan tingkat sejauhmana
pertanyaan, tugas atau butir dalam suatu tes mampu mewakili secara keseluruhan
perilaku sampel yang dikenai tes tersebut. Wiersma dan Jurs (1990) menyatakan
bahwa validitas isi sebenarnya mendasarkan pada analisis logika, jadi tidak
merupakan suatu koefisien validitas.
Untuk memperbaiki validitas suatu tes maka isi suatu tes harus
diusahakan agar mencakup semua pokok/sub-pokok bahasan yang hendak diukur.
Kriteria untuk menentukan proporsi masing-masing pokok/sub-pokok bahasan
yang tercakup dalam suatu tes ialah berdasarkan banyaknya isi (materi) masing-
masing pokok/sub-pokok bahasan, yang dapat dilihat dari jumlah halaman isi
(materi) dan jumlah jam pertemuan untuk masing-masing pokok/sub-pokok
bahasan.
Penentuan proporsi tersebut dapat pula didasarkan pada pendapat
(judgement) para ahli dalam bidang bersangkutan. Suatu tes akan mempunyai
validitas isi yang baik jika tes tersebut terdiri dari butir tes-butir tes yang
mewakili semua materi yang hendak diukur. Salah satu cara yang biasa
dilakukan untuk memperbaiki validitas isi suatu tes ialah dengan menggunakan
blue-print untuk menentukan kisi-kisi tes.
265
a. Analisis melalui Interater
Untuk menentukan tingkat kesepakatan antar pengamat dianalisis secara
statistik dengan mengikuti prosedur yang dijabarkan dengan mekanisma dan
prosedur penggunaan rumus-rumus statistika sebagai berikut:
JKb =
JKk =
JKt =
JKe = JKt – JKk – JKb

RJKb =
RJKe =
r=
JKb = Jumlah Kuadrat butir
JKk = Jumlah Kuadrat Pengamat
JKt = Jumlah Kuadrat Total
Jke = Jumlah Kuadrat kekeliruan
dbt = nt – 1 = derajat kebebasan total
dbb = nb – 1 = derajat kebebasan butir
dbk = k – 1 = derajat kebebasan pengamat, dan
dbe = (n – 1)(k-1) = derajat kebebasan kekeliruan
Contoh 3. 4. Andaikan untuk validasi isi 60 butir tes dimintakan tanggapan 8

(delapan) orang panelis (yang ahli) tentang materi tes matematika
dan kedelapan tanggapan terhadap isi tes Matematika adalah
sebagai berikut :
Tabel 3.14. Tanggapan Panelis Terhadap Isi Tes Matematika
266
Penilai
No A B C D E F G H
butir Total
1 5 4 5 5 5 5 4 5 38
2 4 5 4 3 4 4 3 4 31
3 4 5 4 4 3 4 3 3 30
4 4 2 2 4 3 4 5 3 27
5 3 5 2 5 4 4 4 3 30
6 3 4 5 3 4 2 5 4 30
7 4 3 5 4 4 2 4 5 31
8 5 5 5 5 5 5 4 5 39
9 4 2 5 3 4 3 4 5 30
10 4 5 5 5 4 5 5 5 38
11 4 5 5 4 5 5 5 5 38
12 4 5 5 5 5 5 5 4 38
13 4 4 5 5 5 5 5 4 37
14 3 3 4 3 4 3 4 4 28
15 5 5 5 5 4 5 4 5 38
16 5 5 4 5 5 5 5 5 39
17 5 5 4 5 5 5 4 5 38
18 5 5 5 4 5 5 5 4 38
19 5 5 5 5 4 5 5 5 39
20 5 5 5 5 5 4 4 5 38
21 5 5 5 4 5 4 5 5 38
22 4 5 5 5 4 5 4 5 37
23 5 5 5 4 5 4 5 5 38
24 5 2 3 3 4 3 4 5 29
25 5 5 5 5 4 5 4 5 38
26 5 5 5 4 5 5 4 5 38
27 4 5 5 5 4 5 5 5 38
28 5 5 5 5 4 5 4 5 38
29 4 5 5 4 5 5 5 5 38
30 5 5 4 5 5 5 4 5 38
267
31 4 5 5 4 5 5 5 5 38
32 4 2 4 5 3 3 4 5 30
33 3 3 4 3 4 5 5 4 31
34 5 5 5 5 5 4 5 4 38
35 5 5 5 5 4 5 4 5 38
36 5 3 3 4 5 2 4 4 30
37 5 5 5 4 5 5 5 5 39
38 2 4 3 4 4 5 4 4 30
39 5 5 5 5 5 4 5 4 38
40 3 4 3 4 5 4 3 4 30
41 4 3 2 5 4 5 4 3 30
42 2 4 4 3 4 4 4 5 30
43 3 3 3 4 2 5 4 4 28
44 5 4 5 4 5 4 5 5 37
45 3 3 5 4 3 5 4 3 30
46 5 2 5 4 2 5 3 4 30
47 4 5 4 5 4 5 5 5 37
48 4 5 5 5 5 5 4 5 38
49 3 4 4 4 3 4 4 4 30
50 5 5 4 5 5 5 5 4 38
51 5 4 5 5 5 4 5 4 37
52 5 5 5 5 5 4 5 5 39
53 5 4 5 5 5 5 5 4 38
54 5 5 5 5 5 4 5 5 39
55 5 5 5 5 5 4 5 5 39
56 4 3 3 4 3 4 2 5 28
57 3 3 3 4 4 4 5 4 30
58 4 5 5 5 5 4 5 5 38
59 2 5 3 4 3 4 2 4 27
60 5 4 5 5 5 5 5 5 39
X 254 256 263 264 259 262 261 270 2089 545663
X2 1122 1152 1201 1190 1157 1184 1169 1240 73803 9415
268
JKb =
JKk =
JKt =
JKe = JKt – JKk – JKb = 323,498 – 2,88125 – 133,873 = 186,744
RJKb =
RJKe =
r=
JKb = Jumlah Kuadrat butir

JKk = Jumlah Kuadrat Pengamat
JKt = Jumlah Kuadrat Total
Jke = Jumlah Kuadrat kekeliruan
dbT = nt – 1
dbb = nb – 1
dbk = k – 1 dan
dbe = (n – 1)(k-1)
Hasil ini dirangkum dalam Tabel ANAVA sebagai berikut :
Tabel 3.15. Rangkuman Anava Analisis Hoyt
Sumber Variasi JK db RJK atau r

Varians
Responden 2,88 7 0,411 -
Butir 133,873 59 2,269 0,801
269
Sisa 168,744 413 0,452
Total 323,498 479 - -
Kriteria penilaian tingkat kesepakatan antara pengamat, bahwa tingkat

kesepakatan 0,70 sampai 0,80 sudah memadai4. Dengan demikian tingkat
kesepakatan para panelis ahli untuk menilai validitas isi tes matematika yang
digunakan sudah memadai
b. Validitas Konstruk
Validitas konstruk dimaknai sebagai bentuk validitas yang
mempersoalkan seberapa tajam butir tes dapat mengukur konsep apa yang
sesungguhnya akan diukur sesuai dengan konsep khusus atau definisi operasional
yang telah ditentuka sebelumnya. Dalam menentukan validitas konstruk biasanya
ditentukan dengan menggunakan dua kriteria yaitu:
i. Kriteria internal (internal criterion), yaitu tes itu sendiri yang dijadikan
kriteria
ii. Kriteria eksternal (external criterion), yaitlu tes lain yang sudah valid
untuk mengukur konstruk dijadikan kriteria.
Pada proses pengukuran, validitas konstruk menerapkan kriteria internal
atau validitas interenal, sedangkan validitas konstruk yang menerapkan kriteria
eksternal. Validitas konstru,k dimaknai sebagai validitas konvergen yang
menekankan pada pengukuran faktor-faktor yang membentuk suatu tes, dan
seberapa tepatnya tes tersebut mampu mengukur konsep yang seharusrya diukur
oleh suatu alat ukur berupa tes atau non tes. Pengukuran dengan menerapkan
validitas konvergen dimaknai sebagai suatu teknik perhitungan koefisien korelasi
dari berbagai indikator yang membentuk tes berdasarkan kisi-kisi yang cocok.
Dalam suatu pengukuran, suatu tes dianggap valid jika konsep yang membentuk
tes tersebut saling berkorelasi tinggi.
Validitas internal suatu butir tes tes ditunjukkan oleh koef'isien korelasi
antara nilai butir tes tersebut dengan nilai total tes, di mana makin tinggi
korelasinya maka validitas internal butir tes tersebut makin tinggi (baik). Suatu
4
Borg, Walter R & Gall, Meredith D. Educational Research (New York: Longmann, 1983), p.
479.
270
butir tes dikatakan mempunyai validitas internal yang memadai jika nilai butir tes
tersebut mempunyai korelasi yang signifikan dengan nilai total tes.
Pada proses pengukuran, validitas eksternal suatu butir tes tes ditunjukkan
oleh koefisien korelasi antara nilai butir tes tersebut dengan skol total pada tes
baku yang diacu sebagai kriteria pengukuran. Demikian pula tingkat kesahihan
atau validitas eskternal dari suatu tes diperlihatkan oleh koefisien korelasi antara
nilai tes tersebut dengan nilai tes standar yang diambil sebagai kriteria
pengukuran. Penerapan patokan berupa kriteria internal akan lebih dititikberatkan
untuk menentukan kesahihan internal pada suatu butir tes, sedangkan
penggunaan validitas eksternal akan lebih dititikberatkan untuk menentukan
validitas suatu tes. Validitas konstruk berkaitan dengan eksperimen psikologi
misalnya cemas akan suatu kekacauan. Ini mengacu pada kemungkinan operasi
yang menghadirkan penyebab khusus atau efek konstruk tertentu yang dapat
mempunyai arti lebih dari satu konstruk, setiap reduksi pada tingkat yang sama.
Kekacauan di sini berarti seorang peneliti menginterpretasikan secara teoritis ada
hubungan antara A dan B, peneliti yang lain menginterpretasikan adalah suatu
hubungan sebab akibat antarA dan Y, atau antar X dan B atau bahkan antara X
dan Y.
Proses analisis pada kesahihan pengukuran atau validitas konstruk dari penyebab
yang mempengaruhi ditentukan tingkat ketepatan alat ukur, karena ini suatu
pengukuran yang rumit harus memiliki indikator pengukuran dalam suatu
eksperimen lapangan. Perlu dicatat bahwa validitas kopnstruk tidakl terbatas
pada penyebab dan efek konstruk. Aspek pengukuran perlu melibatkan sampel
pengukuran atau objek ukur. Validitas internal dan validitas statistik memberi
suatu kesimpulan yang menyangkut perbedaan dari berbagai fenomena lapangan.
Di dalam penelitian, faktor Hawthorne Efek merupakan suatu pengacau
yang dapat membuat penyebab ketidakpastian tentang bagaimana operasi harus
dilakukan. Jika kita mengasumsikan pada saat itu produktivitas telah ditingkatkan
dengan studi Hawthorne dengan intervensi ekperimen yang direncanakan, isu
konstruk validiti bertujuan : Apakah peningkatan atau pergeseran disebabkan
oleh (perlakuan yang direncanakan) atau kecenderungan administratif yang
meningkatkan kondisi kerja (Hawthorne efek).
Perencanaan konstruk validitas mulai direncanakan dengan langkah pilot-
testing dari suatu eksperimen, ketika usaha antisipasi penyebab cocok dan efek
operasi referensi konstruk mereka, apakah ini diperoleh dari teori ilmu sosial
formal atau dari pertimbangan kebijakan. Seperti "pencocokan" kepada konstruk
271
dari minat yang terbaik dicapai ( 1) sebelum experimental dilakukan konstruk
didefinisikan dengan jelas dan sesuai dengan pemahaman kata-kata publik yang
digunakan, dan ( 2) analisa data diarahkan pada empat poin berikut:
Pertama, dibuat suatu test untuk variabel independen apakah variabel itu
benar-benar dapat mengubah apa yang dimaksud. Ini dilaksanakan dengan
mengukur apakah perlakuan manipulasi mengukur proses yang dirancang untuk
pengaruh perlakuan. ( Ini disebut "mengukur” variabel independen").
Ke dua, suatu test yang dilakukan untuk menilai apakah tidak ada
perbedaan variabel independen dalam mengukur hubungan, tetapi berbeda
konstruk. Sebagai contoh, manipulasi keahlian komunikator?' yang dikorelasikan
dengan laporan dari responden tentang pengetahuan tingkatan communicator, di
sini tidak dihubungkan dengan attribut konstruk, seperti, kecocokan, atau
kekuatan. Jika ada korelasi, sukar untuk membedakan pengaruh apakah dari
keahlian atau dari yang variabel lain .
Ketiga, variabel dependent harus dapat mengukur faktor-faktor yang
harusnya diukur. Secara normal, beberapa format inter-butir tes yang berkorelasi
dapat ditekankan.
Dan keempat, variabel yang dependent tidak didominasi oleh faktor
yang tidak relevan yang membuat ukuran kurang baik. Hasil konstruk, seperti
konstruk perlakuan, harus dibedakan.
Ketika kita sudah memerinci prosedur, pengukuran validitas konstruk
bergantung pada dua penilaian: pertama, menguji kovergensi perbedaan
pengukuran, memanipulasi sesuatu yang sama, dan kedua, menguji suatu
divergensi antar ukuran dan manipulasi dari hubungan, tetapi yang secara
konseptual membedakan "berbagai hal". Posisi kita harus tidak
mengintrepretasikan bahwa validitas konstruk sungguh tergantung pada
konvergensi dan divergensi, sebab jika kita menginginkan dengan jelas informasi
tentang kovergensi, kita tidak secara langsung mengtahui divergensi. Diskusi
tentang validitas konstruk dibatasi dengan konvergensi, bahkan selagi hal itu
tidak berkorespondensi antara sesama jenis pengukuran yang berbeda tipenya.
Dalam mengukur hal yang sama akan memberi makna yang yang lebih sedikit,
jika ada ketidaktepatan pengukuran yang sama yang berhubungan dengan ukuran
masing-masing-masing-masing, atau pengukuran observasional terhadap konstruk
yang dibuat sama- lihat Campbell dan Tyler, 1957; Cronbach Dan Meehl, 1955;
Cronbach, Glesser, Nanda, dan Rajaratnam, 1972. Bagaimanapun, seperti halnya
Campbell dan Fiske ( 1959) menyarankan, suatu konstruk harus dibedakan dari
272
hubungan teoritis konstruk seperti ketidak-tepatan metodologis. ( misalnya,
perbedaan dari konstruk teoritis lain, merupakan dasar riset, lihat Cook, Crosby
dan Hennigan, 1977.
c. Validitas Kongkuren
Validitas kongkuren (concurrent validity) adalah validitas yang
mempermasalahkan seberapa jauh kemampuan suatu tes untuk meramalkan
penampilan masa sekarang. Sebuah tes dikatakan memiliki validitas konkuren
yang baik jika hasilnya sesuai dengan penampilan atau kemampuan yang ada
sekarang. Untuk menentukan validitas konkuren suatu tes maka digunakan
kriteria eskternall yaitu penampilan yang ada sekarang.
Misalnya untuk menentukan validitas konkuren tes sumatif yang dibuat
untuk siswa SMU, maka nilai ulangan harian caturwulan yang bersangkutan
dapat dijadikan sebagai kriteria atau alat banding yang dibuat eksternal. Validitas
konkuren suatu tes ditunjukkan oleh koefisien korelasi antara tes tersebut dengan
nilai ulangan harian caturwulan yang bersangkutan.
d. Validitas Prediktif
Validitas prediktif (predictive validity) suatu tes adalah validitas yang
mempermasalahkan seberapa jauh kemampuan suatu tes dapat meramalkan atau
memprediksi penampilan yang akan datang. Sebuah tes dikatakan memiliki
validitas prediktif yang baik jika hasilnya sesuai dengan penampilan atau
kemampuan masa yang akan datang.
Misalnya untuk menentukan validitas prediktif tes masuk, maka nilai
caturwulan I setelah diterima dapat dijadikan kriteria atau alat pembanding.
Validitas prediktif suatu tes ditunjukkan oleh koefisien korelasi antara tes tersebut
dengan caturwulan sebagai kriterianya.
e. Konsep Validitas
Kita akan menggunakan konsep validitas dan ketidakvalidan untuk
mengacu pada pendekatan terbaik yang tersedia kepada validitas, atau kepalsuan
terhadap proposisi, mencakup tentang proposisi-proposisi tentang penyebab.
Sehubungan dengan diskusi dalam bab 1, kita selalu menggunakan sifat
“pendekatan" ketika mengacu pada validitas, selama seseorang tidak pernah dapat
mengetahui apa validitas itu. Paling baik, seseorang dapat mengetahui apa yang
273
belum diatur sebagai suatu kesalahan. Oleh karena itu, apabila kita menggunakan
istilah valid dan invalid di dalam buku ini, mereka selalu menjadi memahami
tentang sifat pendekatan atau yang bersifat tentatif (sementara).
Suatu yang dapat diharapkan adalah banyaknya jenis validitas ketika
berusaha untuk mengembangkan suatu jaringan kerja di mana untuk memahami
eksperimen di dalam bidang kompleks adalah cukup menentukan. Campbell dan
Stanley ( 1963) keduanya dinamakannya sebagai "validitas internal" dan "
validitas eksternal". Validitas internal mengacu pada pendekatan validitas dengan
mana kita menduga bahwa suatu hubungan antara dua variabel adalah
menyebabkan atau menghadiran suatu hubungan yang menyiratkan keberadaan
penyebab tersebut. Validitas eksternal mengacu pada pendekatan validitas dengan
mana kita dapat menduga bahwa hubungan sebab akibat yang dikira dapat
digeneralisasi dan mengubah ukuran penyebab dan efek dan melampaui type
orang yang berbeda , pengaturan, dan waktu.
Untuk lebih meyakinkan, selanjutnya kita akan menetapkan sub-bagian
tipe-tipe validitas dari Campbell dan Stanley. Covariasi adalah suatu kondisi yang
diperlukan untuk menduga penyebab, dan ilmuwan mulai dengan menanyakan
data mereka miliki: " Apakah menganggap variabel bebas dan variabel terikat
berhubungan?" Oleh karena itu, adalah perlu untuk mempertimbangkan alasan
khusus mengapa kita dapat menyimpulkan kesalahan tentang covariasi tersebut .
Kita akan mengatakan alasan-alasan (yang mana memperlakukan untuk
pembuatan kesimpulan) perlakuan bagi vakiditas kesimpulan statistik, untuk
kesimpulan tentang covariation dibuat atas dasar bukti statistik. Tipe validitas ini
telah didaftarkan oleh Campbell [1969] sebagai sebuah perlakuan untuk interval
validitas. Hal itu yang dinamakan "ketidakstabilan" dan mempunyai kaitan
dengan gambar kesimpulan yang palsu tentang populasi covariation dari data
sample tidak stabil. Kita kemudiannya mempertimbangkan " ketidakstabilan"
sebagai suatu perlakuan utama untuk validitas kesimpulan statistik.)
Jika suatu keputusan dibuat atas dasar sampel data dua variabel yang
berhubungan, kemudian yang dipraktekkan dalam pertanyaan peneliti berikutnya
adalah nampaknya akan menjadi : "Apakah suatu hubungan sebab akibat dari
variabel A ke variabel B, di mana A dan B merupakan variabel-variabel yang
dimanipulasi atau diukur, agak membandingkan teoritis atau generalisasi
konstruk yang mereka maksudkan untuk ditampilkan? Untuk menjawab
pertanyaan ini peneliti harus mengesampingkan berbagai pertimbangan lain untuk
hubungan tersebut, mencakup perlakuan bahwa B menyebabkan A dan perlakuan
274
bahwa C menyebabkan kedua A dan B. Yang pertama untuk perlakuan ini pada
umumnya ditangani dengan mudah dalam eksperimen, seperti akan kita lihat
kemudian. Yang belakangan tidak demikian dengan mudah dihadapkan dengan
hal tersebut, terutama di dalam quasi-experiments. Banyak tugas peneliti
melibatkan kesadaran sendiri berpikir melalui dan menguji alasan-alasan
noncausal mengapa dua variabel dapat menjadi berhubungan dan mengapa
“berubah" mungkin telah diamati dalam variabel dependent, bahkan
ketidakhadiran setiap perlakuan eksplisit terhadap teori atau secara praktek
signifikan. Kita menggunakan istilah validitas internal untuk mengacu pada
validitas itu dengan mana statemen dapat dibuat mengenai apakah ada hubungan
sebab akibat dari variabel suatu variabel ke variabel lainnya, dalam bentuk di
mana variabel-variabel tersebut dimanipulasi atau diukur.
Validitas internal tidak dilakukan dengan label yang abstrak terhadap
suatu yang menyebabkan atau mempengaruhi; melainkan dengan hubungan
antara operasi-operasi riset tanpa tergantung terhadap apa yang mereka tampilkan
secara teoritis. Bagaimanapun, peneliti ingin mampu memberi penjelasan
mengenai penyebab dan pengaruh nama-nama operasi yang mengacu pada
konstruk teoritis.
3.5. Validitas Internal

Validitas internal berkenaan dengan pertanyaan-pertanyaan seperti:
Apakah perlakuan eksperimental itu benar-benar menyebabkan perubahan pada
variabel terikat? Apakah variabel bebas benar-benar membuat perbedaan yang
signifikan? Pertanyaan-pertanyaan validitas internal ini tidak dapat dijawab
secara positif oleh peneliti kecuali kalau disain tersebut dapat memberikan
pengendalian yang memadai terhadap variabel-variabel luar. Artinya, kalau
disain tersebut dapat mengendalikan variabel, maka orang akan dapat
menghilangkan kemungkinan hasil empiris yang lain serta dapat menafsirkan
hasil itu sebagai hal yang menunjukkan adanya hubungan hakiki di antara
variabel-variabel tersebut. Pada dasarnya, validitas internal adalah masalah
pengendalian.
Disain yang mempunyai daya pengendalian memadai adalah masalah
bagaimana menemukan cara untuk menghilangkan variabel luar, yaitu variabel
yang dapat menimbulkan interpretasi lain. Segala sesuatu yang dapat membantu
pengendalian disain juga akan memperkokoh validitas internalnya.
275
Campbell dan Stanley menyebutkan delapan variabel-luar yang sering
merupakan ancaman bagi validitas-internal disain penelitian. Variabel-variabel
tersebut akan menimbulkan akibat yang dapat disalah-tafsirkan sebagai akibat
perlakuan eksperimental.
a. Sejarah.
Kejadian-kejadian khusus, yang bukan perlakuan eksperimental,
mungkin dapat terjadi di antara pengukuran pertama dan pengukuran
kedua, sehingga menimbulkan perubahan pada variabel terikat.
b. Pematangan.
Proses yang terjadi dalam diri subyek sebagai akibat lewatnya waktu
mungkin menimbulkan akibat yang dapat disalah artikan sebagai disebabkan
oleh variabel eksperimental. Subyek mungkin menunjukkan penampilan
yang berbeda pada ukuran variabel-terikat, hanya karena mereka lebih tua,
lebih lapar, lebih letih, atau lebih tidak bersemangat daripada keadaan
mereka pada waktu pengukuran pertama.
c. Pemberian pra-tes.
Pemberian pra-tes mungkin dapat mempengaruhi penampilan
subyek pada tes kedua, apa pun perlakuan eksperimental yang diterimanya.
d. Alat pengukuran.
Perubahan alat pengukur, penilai atau pengamat yang dipergunakan
mungkin mengakibatkan perubahan-perubahan pada ukuran yang diperoleh.
Apabila pasca tesnya lebih sulit, atau apabila pengamat yang digunakan
berbeda dalam pengukuran kedua, faktor-faktor ini mungkin dapat
menyebabkan perbedaan dalam kedua nilai tersebut.
e. Kemunduran Statistik (Statistical regression).
Apabila kelomppok itu dipilih berdasarkan nilai yang ekstrim,
regeresi (kemunduran) statistik mungkin dapat menimbulkan efek yang dapat
disalah-tafsirkan sebagai efek perlakuan eksperimental. Efek kemunduran ini
menunjukkan kepada kecenderungan nilai ekstrim untuk mundur atau
bergerak ke arah mean umum pada ukuran-ukuran berikutnya. Kemunduran
statistik pasti terjadi bila korelasi antara dua variabel yang kurang sempurna.
Karena secara praktis tak ada variabel penting dalam pendidikan yang
mempunyai korelasi sempurna, maka kita harus selalu waspada akan
pengaruh kemunduran statistik ini dalam disain eksperimen kita. Salah satu
aspek dari kemunduran statistik ini tercermin dalam peribahasa kuno :Jika
276
anda berada di dasar jurang, maka tak ada jalan lain bagi anda kecuali
naik” dan “jika anda berada di puncak gunung, maka tidak ada jalan lain
bagi anda kecuali turun”.
f. Pemilihan subjek yang berbeda.
Mungkin kelompok-kelompok itu sudah mempunyai perbedaan
penting, bahkan sebelum diberikannya perlakuan eksperimen. Jika dalam
suatu eksperimen belajar, kelompok coba itu lebih cerdas daripada kelompok
pengendali, maka hasil yang dicapai oleh kelompok coba pada ukuran
variabel terikat mungkin akan lebih baik dari pada kelompok pengendali,
meskipun seandainya kelompok tersebut tidak diberi perlakuan
eksperimental.
g. Hilang dalam eksperimen.
Dari kelompok-kelompok yang diperbandingkan itu mungkin ada
responden yang hilang dalam jumlah yang berbeda. Jika ada beberapa subjek
tertentu keluar dari salah satu kelompok selama berlangsungnya eksperimen
itu, maka kehilangan yang tidak sama ini mungkin dapat mempengaruhi hasil
penyelidikan tersebut . Misalnya, jika beberapa siswa yang dalam pre tes
mempunyai nilai terendah lambat laun keluar (hilang) dari kelompok coba,
maka dalam ukuran akhir, kelompok coba ini akan mempunyai prestasi rerata
yang lebih tinggi, buka karena perlakaun eksperimental melainkan karena
tidak adanya subjek-subjek yang mempunyai nilai terendah..
h. Interaksi pematangan dengan seleksi.
Jenis interaksi ini dapat terjadi dalam disain quasi eksperimental di
mana kelompok coba dan kelompok pengendali tidak dipilih secara acak
melainkan merupakan kelompok-kelompok utuh yang sudah ada
sebelumnya, misalnya, kelas. Sekalipun mungkin pre-tes menunjukkan
bahwa kedua kelompok tersebut sebanding, secara kebetulan mugkin
kelompok coba itu mempunyai tingkat kematangan yang semakin tinggi dari
pada kelompok pengendali, dan tingkat kematangan yang semakin tinggi
inilah yang menyebabkan hasil yang diamati itu. Orang-orang yang lebih
cepat matang secara kebetulan “terpilih” ke dalam kelompok-kelompok
eksperimen, dan interaksi kematangan dengan seleksi inilah yang mungkin
disalahartikan sebagai pengaruh variabel eksperimental.
Masalah ini juga sering timbul jika orang bekerja tidak dengan sukarela
diperbandingkan dengan non-sukarelawan, orang yang bekerja dengan sukarela
ini mungkin mempunyai motivasi lebih besar untuk berhasil dalam ukuran
277
variabel terikat, dan perbedaan hasil ini mungkin secara keliru dikaitkan kepada
variabel bebas- suatu hal yang dapat terjadi meskipun dalam pra tes kedua
kelompok tersebut sudah sebanding.
Semua metode pengendalian yang dibicarakan di atas dirancang untuk
mengendalikan variabel-variabel luar yang dapat membahayakan validitas
internal suatu disain.
3.6. Validitas Eksternal

Yang dimaksud dengan validitas eksternal adalah kerepresentatifan hasil
penyelidikan atau dapatnya hasil penyelidikan digeneralisasi. Dalam hal ini
peneliti mengajukan pertanyaan: Kepada populasi, situasi, variabel eksperimental,
dan variabel pengukur apakah hasil penyelidikan itu dapat digeneralisasi?
Setiap studi setelah dilakukan pada kelompok subyek yang tertentu,
dengan alat pengukur yang telah dipilih, dan dalam kondisi-kondisi yang dalam
beberapa hal unik. Meskipun demikian, peneliti yang bersangkutan ingin agar
hasil penelitian itu dapat memberikan keterangan tentang subyek, kondisi-
kondisi, dan operasi-operasi dalam bidang yang lebib luas daripada yang
sebenarnya diselidiki. Agar dari apa yang diamati itu dapat dibuat generalisasi
mengenai apa yang belum/tidak diamati, maka peneliti memerlukan semacam
jaminan bahwa sampel kejadian yang sebenarnya diteliti itu benar-benar
mewakili populasi induknya, yaitu yang akan digeneralisasi, berdasarkan hasil
penyelidikan itu. Sejauh mana hasil suatu eksperimrn dapat digeneralisasikan
kepada subyek, keadaan, dan alat pengukur yang lain, sebesar itu pulalah validitas
eksternal eksperimen tersebut. Bracht dan Glass menyebutkan dua macam
validitas eksternal: validitas populasi (population validity) dan validitas ekologis
(ecological validity). Validitas populasi menyangkut identifikasi populasi yang
akan digeneralisasi berdasarkan hasil eksperimen tersebut. Dalam hal ini peneliti
mengajukan pertanyaan: Populasi subyek yang bagaimanakah yang dapat
diharapkan mempunyai perilaku sama dengan subyek eksperimen yang dijadikan
sampel? Validitas ekologis menyangkut masalah penggeneralisasian pengaruh
eksperimental kepada kondisi-kondisi lingkungan yang lain. Pertanyaan yang
diajukan oleh validitas ini adalah: Dalam kondisi yang bagaimanakah
(maksudnya, keadaan, perlakuan, pelaku eksperimen, variabel terikat, dan
sebagainya) dapat diharapkan diperoleh hasil yang sama?
Peneliti berharap agar hasil penyelidikan terhadap kelompok eksperimental itu
dapat digeneralisasi kepada populasi yang jauh lebih besar, meskipun populasi
278
tersebut tidak/belum diselidiki. Generalisasi yang dilakukan peneliti itu akan
terjadi dalam dua tahap.
(1) dari sampel ke populasi yang dapat dijangkau secara eksperimen, dan
(2) dari populasi yang dapat dijangkau ke populasi sasaran
Apabila peneliti telah memilih sampel itu secara acak dari populasi yang dapat
dijangkau secara eksperimen, maka hasil eksperimen tersebut dapat
digeneralisasikan kekelompok lebih besar ini. Populasi yang dapat dijangkau
secara eksperimen dengan tanpa kesulitan. Perhatikan babwa penggeneralisasian
semacam itu hanya dapat dipertanggung jawabkan kalau prinsip pengacakan
dalam pemilihan sampel telah ditaati dengan baik. Anda mungkin masih ingat
bahwa prosedur ini menuntut agar peneliti menetapkan populasi yang dapat
dijangkau itu, dan agar setiap anggota populasi yang dapat dijangkau itu didaftar
dan diberi nomor, sehingga dari daftar tersebut dapat ditarik sampel dengan
menggunakan label bilangan acak.
Dalam tahap kedua, peneliti ingin membuat generalisasi dari populasi yang dapat
dijangkau ke populasi sasaran. Generalisasi semacam ini agak rawan dan tidak
dapat dilakukan dengan tingkat keyakinan yang sama dengan yang sebelumnya.
Untuk membuat kesimpulan semacam ini diperlukan pengetahuan yang
mendalam tentang ciri-ciri kedua populasi tersebut. Semakin mirip populasi yang
dapat dijangkau dengan populasi sasaran, semakin yakin pula orang dalam
melakukan generalisasi dari satu populasi ke populasi yang lainnya. Sudah barang
tentu perluasan populasi yang dapat dijangkau sampai meliputi seluruh populasi
itu akan menimbukan masalah pengelolaan pelaksanaan eksperimen.
Kempthorne menyatakan bahwa lebih baik kita mempunyai pengetahuan yang
dapat dipertanggung-jawabkan mengenai populasi yang terbatas sehingga kita
ragu-ragu untuk menarik kesimpulan mengenai populasi yang dapat dijangkau
tersebut berdasarkan sampel. Jika peneliti berusaha menggeneralisasikan populasi
yang dapat dijangkau kepada populasi sasaran, ia perlu mengetahui apakah kedua
populasi tersebut mirip satu sama lain dalam beberapa ciri yang relevan.
Misalnya, apabila peneliti menarik sampel dari satu kelompok umur saja (sebagai
populasi yang dapat dijangkaunya) dan kemudian mencoba menggeneralisasikan
hasil eksperimen terhadap semua kelompok umur (populasi sasaran), maka ia
akan memperoleh hasil yang secara eksternal tidak valid.
Mungkin ada interaksi "seleksi karena perlakuan (selection by treatment) " yang
menjadi sumber ketidak-validan eksternal pada waktu peneliti berusaha membuat
generalisasi dari satu populasi ke populasi yang lain. Jika dua populasi-yang
279
dapat dijangkau secara eksperimen bukan merupakan wakil dari populasi sasaran
yang sama, maka studi-studi yang tampaknya serupa dapat menimbulkan hasil-
hasil yang sama sekali berbeda. Maksudnya, di antara perlakuan dan ciri-khas
salah satu kelompok mungkin terjadi interaksi yang tidak akan terjadi pada
kelompok lainnya yang mempunyai ciri-khas berlainan. Dengan demikian kita
tidak mungkin menggeneralisasikan hasil penyelidikan itu dari satu kelompok ke
kelompok yang lain. lnteraksi semacarn ini dapat terjadi jika yang dipakai dalam
penyelidikan itu adalah sukarelawan.
Para pelaksana eksperimen harus memperhatikan validitas eksternal. Artinya,
mereka ingin dapat mengatakan bahwa hasil seperti itu juga akan diperoleh dalam
kondisi lingkungan eksperimen yang lain. Agar memiliki validitas eksternal,
suatu disain harus memberikan jaminan bahwa akibat eksperimen itu tidak terikat
pada lingkungan eksperimen tertentu.
Jelaslah bahwa persyaratan pertama bagi validitas eksternal adalah bahwa
perlakuan eksperimen harus memberikan uraian lengkap tentang operasi serta
setting eksperimenatal yang ada dalam penyelidikan tersebut. Dengan begitu
dapat menilai seberapa jauh hasil eksperiman itu dapat digeneralisasikan kepada
situasi yang lain. Kerepresentatifan itu merupakan faktor yang mempengaruhi
seberapa jauh hasil eksprimen dapat digeneralisasikan.
Kemungkinan ada efek reaktif yang disebabkan oleh pengaturan aksperimen.
Pengetahuan subyek bahwa mereka sedang ikut serta dalam suatu eksperimen
mungkin dapat mengubah respons mereka terhadap perlakuan eksperimen.
Kehadiran pengamat atau adanya peralatan selama berlangsungnya eksperimen
itu mungkin dapat mengubah respons wajar subyek yang berpartisipasi dalam
eksperimen itu, sedemikian rupa sehingga kita tidak dapat menggeneralisasikan
pengaruh variabel eksperimen itu kepada orang-orang yang
emngalami/menghadapi hal itu dalam setting yang bukan eksperimen.
Ada efek interaksi yang mugkin dapat mengancam kemampuan
digeneralisasikannya hasil eksperimen. Hal yang agak kurang tampak jelas dalam
mesalah validitas ekologis adalah persoalan kerepresentatifan variabel, baik
variabel eksperimental maupun variabel terukut, yang dipakai dalam
penyelidikan. Kerepresentatifan variabel mempengaruhi kemampuan
digeneralisasikannya hasil eksperimen dan karenanya merupakan faktor dalam
validitas eksternal disain tersebut. Dapatkah peneliti yakin bahwa tugas khusus
yang digunakan itu adalah sampel yang tepat bagi fungsi yang sedang diukurnya?
Dapatkah peneliti berasumsi bahwa kreativitas yang diukur oleh tes itu sama
280
dengan kreativitas yang dibicarakan oleh guru bahasa Inggris atau guru kesenian?
Kalau peneliti berbicara tentang sikap regressif, sikap agressif yang
bagaimanakah yang ia maksud? Apakah sikap yang disebabkan oleh karena anak
tidak boleh memiliki mainan yang diinginkannya sama dengan sikap agresif yang
disebabkan oleh makian lisan?
Banyak eksperimen psikologi yang menyangkut variabel kecemasan.
Dalam bebrapa eksperimen, kecemasan itu ditimbulkan dengan kejutan listrik,
dalam ekasperimen yang lain ditimbulkan oleh perintah isan yang diberikan
kepada subjek. Apakah ini jenis kecemasan yang sama? Dapatkah kita
menggereralisasikan hasil eksperimen itu dari satu jenis situasi ke situasi lain?
Ukuran yang digunakan bagi variabel terikat mungkin juga mempengaruhi
validitas ekologis suatu disain. Para peneliti harus memperhatikan baik-baik
validitas eksternal disain mereka; kecenderungan untuk membuat generalisasi
yang terlalu luas (overgenerelize) atas hasil eksperimen telah menimbulkan
persoalan dalam banyak penelitian pendidikan. Bracht dan Glass telah
menggolongkan hal-hal yang dapat emngurangi validitas eksternal menjadi dua
golongan, sesuai dengan kedua macam validitas eksternal itu:
(1) hal-hal yang berhubungan dengan generalisasi kepada populasi orang
(validitas populasi), dan
(2) hal-hal yang menyangkut lingkungan eksperimen (validitas ekologis)
Validitas eksternal digunakan bila data yang dihasilkan dari instrumen
sesuai dengan data/informasi lain mengenai variabel pengujian tersebut.
Misalnya, jika ingin diketahui validitas tes matematika , terlebih dahulu
diujicobakan kepada siswa sehingga subjek ujicoba tersebut hasinya
dikorelasikan dengan nilai patokan apa yang digunakan, misalnya nilai raport
dijadikan sebagai kriteriumnya. Oleh karena nilai raport tersebut ada di luar
instrumen maka hasil validitasinya disebut sebagai validitas eksternal. Kalau nilai
raport sama persis dengan nilai tes yang dihasilkan maka korelasinya menjadi
sempurna (r = 1,00). Untuk data hasi uji coba bertipe non-dikotomi, maka
korelasi yang digunakan adalah korelasi Spearman-Brown yang dirumuskan
sebagai berikut:
Tabel 3. 16. Misalkan hasil tes matematika 7 orang siswa sebagai berikut:
281
Siswa X Y XY X2 Y2
A 60 60 3600 3600 3600
B 75 75 5625 5625 5625
C 80 80 6400 6400 6400
D 66 66 4356 4356 4356
E 70 58 4060 4900 3364
F 80 90 7200 6400 8100
G 77 80 6160 5929 6400
508 509 37401 37250 37845
Dari data di atas dihitung korelasi antara nilai X (hasil ujian) dengan nilai Y (nilai
raport) sebagai berikut:
Nilai r = 0,86 harus dibandingkan dengan nilai rtabel, dan jika ternyata rhitung > rtabel
maka disimpulkan korelasinya signifikan, sebaliknya tidak signifikan. Dengan
menggunakan kalkulator dapat dilakukan sebagai berikut.
MODE 2 INV AC
= mengaktifkan kalkulator
Xi XD,XY Yi RUN
= memasukkan data X
dan Y
Kout 1 = ∑X2 INV 1 =
Kout 2 = ∑X INV 3 = xσn
Kout 3 =n INV 3 = xσn-1
Kout 4 = ∑Y2 INV 4 =
282
Kout 5 INV 5
= ∑Y = yσn
Kout 6 = ∑XY INV 6 = yσn-1
INV 7
=A
INV 8
=B
INV 9
Validitas internal diperoleh apabila terdapat kesesuaian antara bagian-
bagian instrumen dengan instrumen secara keseluruhan. Artinya, sebuah
instrumen dikatakan memiliki validitas internal apabila setiap bagian instrumen
mendukung misi instrumen secara keseluruhan.
Yang dimaksud dengan bagian-bagian instrumen dapat saja berupa butir-
butir pertanyaan baik dari angket maupun bentuk tes, akan tetapi dapat pula
kumpulan dari butir-butir tersebut mencerminkan suatu faktor. Dengan demikian
validitas internal ini meliputi validitas butir dan validitas faktor.
Catatan:
1. Sebuah instrumen memiliki validitas yang tinggi apabila butir-butir yang
membentuk instrumen tersebut tidak menyimpang dari fungsi instrumen.
2. Sebuah instrumen dikatakan memiliki validitas tinggi bila faktor-faktor
yang merupakan bagian dari instrumen tersebut tidak menyimpang dari
fungsi instrumen.
Misalnya, tes matematika yang terdiri dari Aljabar, (Faktor 1), Geometri
(Faktor 2), Aritmetika (Faktor 3), Trigonometri (Faktor 4) dan Kalkulus (Faktor
5). Tes matematika ini terdiri dari 5 faktor, di mana setiap faktor memiliki
sejumlah butir tes (soal). Penyusunan butir tes setiap faktor tidak harus berurut,
demikian juga jumlah butir tes setiap faktor tidak harus sama, tetapi bergantung
pada kebutuhan.
Selanjutnya,menyimpang tidaknya buir maupun faktor dari fungsi
instrumen dapat diketahui dari kesejajaran nilai butir/faktor dengan nilai total.
283
Pengujian validitas dapat dilakukan dengan dua cara, yaitu: analisis faktor
(anafak), dan analisis butir (anabut).
3.7. Analisis Faktor (Anafak)
Analisis faktor dimaknai sebagai suatu bentuk asumsi yang mengatakan

bahwa sebuah instrumen dikatakan valid apabila faktor yang membentuk
instrumen juga sudah valid. Analisis faktor dapat dilakukan apabila faktor-faktor
yang satu dengan yang lain tidak mempunyai kesamaan, kesinambungan atau
tumpang tindih terhadap indikator yang dimuatnya. Hal ini dapat diuji dengan
cara mengkorelasikan nilai-nilai yang ada di dalam suatu faktor dan dijumlahkan
lebih dahulu dengan penjumlahan nilai faktor yang lainnya.
= Faktor
Gambar 3.1. Faktor-faktor yang membentuk instrumen.
Bila antara faktor-faktor berkorelasi rendah maka dapat dikatakan butir-

butir tersebut mengukur hal yang khusus, tidak mengukur hal yang sama atau
hampir sama dengan yang ada pada faktor lain. Analisis ini juga dapat dilakukan
dengan mengkorelasikan nilai dengan nilai total, yakni dengan terlebih dahulu
mengetahui kekhususan setiap faktor, misalnya: korelasi faktor 1 dengan faktor 2,
korelasi faktor 1 dengan faktor 3, korelasi faktor 2 dengan faktor 3, dan
sebagainya. Hal itu dapat digambarkan sebagai berikut:
Tabel 3.17. Model Matriks butir setiap faktor pada Analisis faktor
284
Sub F1 F2 Fn
jek
1 2 3 ... ... 1 2 3 ... ... 1 2 3 ... ... ...
1 2 3 4 ... ... 2 1 4 ... 2 3 3 ... ... ...
2 3 5 5 ... ... 3 2 5 ... 1 4 5 ... ... ...
3 2 4 2 ... ... 2 4 3 ... 2 4 2 ... ... ...
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
Validitas setiap faktor dicari dengan cara:

a. menghubungkan jumlah nilai faktor 1 dengan nilai total
b. menghubungkan jumlah nilai faktor 2 dengan nilai total
c. menghubungkan jumlah nilai faktor n dengan nilai total
Salah satu informasi yang dapat digunakan untuk mengetahui hubungan
seperti itu adalah dengan menggunakan analisis faktor. Keterhubungan seperti
yang dinginkan di atas terlihat dari deskripsi koefisien hubungan sesamanya dapat
berasal dari struktur yang tidak terlihat dengan jelas. Untuk melihat
keterhubungan itu digunakan analisis faktor. Beberapa alasan untuk melakukan
analisis faktor antara lain (Comrey (1973):
a. Struktur model apa yang dapat menjelaskan korelasi antara berbagai
variabel atau butir tes.
b. Pengujian teori tentang jumlah konstruksi faktor untuk menjelaskan
korelasi antar berbagai variabel atau butir tes.
c. Mengetahui ada tidaknya pengaruh atau dampak perubahan-perubahan
variabel atau butir tes dan sejauh mana kondisi pengukuran terhadap
faktor dapat dikontrol
d. Sejauh mana verifikasi dapat dilakukan melalui keterlibatan sampel
dari populasi yang sama maupun yang berbeda.
e. Sejauh mana dampak analisis faktor dapat diamati terhadap hasil
analisis dari berbagai faktor yang dilibatkan.
Pengukuran terhadap seperangkat tes memerlukan lebih dari satu
butir tes, dan dalam analisis melibatkan interkorelasi dan kovarians yang
terjadi baik antar sesama butir maupun antar sesama faktor, terkecuali bila
antar butir tes benar-benar dijamin adanya keterpisahan atau independensi
285
antar sesama butir maupun faktor. Dalam kaitan ini, dapat dikatakan
bahwa faktor merupakan dimensi dari sejumlah butir atau sumbu dari
butir-butir tersebut. Hubungan antar dimensi atau faktor dengan butir tes
disebut sebagai muatan (loading) faktor. Selanjutnya, kuadrat dari
loading faktor disebut sebagai kovarians dari faktor dan butir tes.
Sumbu dan Muatan Faktor

Untuk menentukan sumbu dari berbagai butir tes, dailakukan melalui
analisis sudut yang disederhanakan dengan memilih sumbu utama, sumbu kedua,
dan seterusnya yang dipilih sesuai keperluan, di mana seluruh sudut dikaitkan
terhadap sumbu tersebut.
Dalam analisis faktor, cari semua sudut ke sumbu, dengan cara cos (sudut)
= Muatan Faktor. Muatan faktor memuat semua nilai cos (sudut), di mana ada
sudut ke sumbu I dan kesumbu II, dan yang lainnya. Dalam hal ini semua muatan
faktor dari sudut-sudut di atas adalah sebagai berikut.
Tabel 3.18. Muatan Faktor Hasil Analisis
Muatan Faktor
Tes I II
Tes 1 0,5707 -0,8211
Tes 2 0,7046 -0,7096
Tes 3 0,9668 0,2254
Tes 4 0,8211 0,5707
Tes 5 0,7096 0,7046
286
Reliabilitas
(KONSISTENSI)
Reliabilitas dimaknai sebagai suatu bentuk keteguhan atau ketetapan atau
kekonsistenan atau reliabilitas instrumen untuk mengukur sejauh mana hasil
suatu pengukuran dapat diyakini. Suatu hasil pengukuran hanya dapat diyakini
benar apabila dalam sejumlah kali pelaksanaan pengukuran terhadap kemampuan
siswa yang sama, diperoleh hasil pengukuran yang relatif memiliki kesamaan,
selama aspek yang diukur dalam diri siswa memang tetap konsisten.
Konsistensi ketetapan alat ukur barupa tes maupun non-tes berkaitan erat
dengan masalah tingkat kekeliruan (eror) pengukuran. Tingkat kekeliruan
pengukuran memperlihatkan sejauh mana ketidaktetapan hasil pengukuran yang
diperoleh dapat terjadi bilamana pengukuran dilakukan berulang terhadap
kelompok siswa yang sama. Konsep reliabilitas yang dimaknai sebagai bentuk
hasil pengukuran berhubungan erat dengan tingkat kekeliruan (eror) dalam
pengambilan sampel yang berpedoman kepada ketidaktetapan hasil pengukuran,
bila pengukuran tersebut diulang pada kelompok siswa yang berbeda. Umumnya
konsistensi alat ukur dapat dibedakan atas dua jenis, yakni:
(a) Kosistensi (reliabilitas)tanggapan, dan
(b) Konsistensi (reliabilitas) gabungan butir tes
a. Konsisten (Keajegan) Tanggapan

Pada proses pengukuran, alat ukur berupa tes atau non-tes tersebut
memiliki konsistensi tanggapan yang mempermasalahkan sejauh mana tanggapan
siswa terhadap tes tersebut sudah akurat dan memiliki keteguhan. Sebuah tes jika
dipergunakan dalam pengukuran kembali terhadap siswa yang sama, apakah akan
memberikan keteguhan hasil yang konsisten dengan hasil pengukuran
sebelumnya. Artinya, sejauhmana jawaban-jawaban terhadap butir-butir tes itu
tetap teguh dan mantap hasilnya, dan masih dapat dipercayai, sehingga tidak
bersifat tidak plin-plan. Apabila hasil pengukuran yang kedua menunjukkan
ketidakteguhan hasil (berbeda secara nyata) atau plin-plan maka jelas hasil
pengukuran seperti ini tidak mencerminkan keadaan instrumen yang sebenarnya.
Bila ternyata tanggapan para siswa tidak teguh atau tidak mantap atau tidak
konsisten, berarti instrumen alat ukurnya memiliki ketidakketeguhan hasil
pengukuran, dan ini menyatakan bahwa instrumen berupa tes kurang memiliki
keteguhan atau yang memadai atau kurang mantap. Untuk mengukur sejauh mana
287
tanggapan siswa terhadap tes adalah mantap, maka dapat dilakukan dengan cara
memberikan tes yang sama secara berulang-ulang (lebih satu kali pengulangan
tes) terhadap siswa yang sama. Pengulangan pengetesan alat ukur sebanyak dua
kali merupakan syarat minimal yang dibutuhkan untuk mengukur apakah
tanggapan siswa dalam menjawab tes teguh atau tidak. Dalam pelaksanaannya
pengetesan minimal dua kali butir tes dapat dilakukan dengan berbagai cara yaitu
dengan: melakukan tes ulang dua kali dengan tes sama terhadap siswa yang sama;
melakukan sekali tes saja dengan menenapkan dua perangkat tes yang butir-butir
tesnya setara (homogen).
Paling tidak ada tiga metode atau cara yang dapat dilakukan untuk
memeriksa keteguhan tanggapan siswa dalam menjawab tes yaitu:
(i) Metode Cara Tes Ulang
Tes ulang dapat dimaknai sebagai bentuk tes ulang dua kali pengetesan di
mana suatu tes yang sama diteskan pada waktu yang berbeda waktunya.
Misalnya seperangkat tes Matematika diteskan kepada kelompok siswa dalam
waktu Wl dan W2. Kemudian nilai pengetesan siswa pada waktu Wl
dibandingkan dengan nilai hhasil pengetesan siswa pada waktu W 2. Dasil
yang diharapkan adalah bahwa kedua hasil pengetesan itu hampir sama, tidak
terlalu jauh berbeda (perbedaan tidak signifikan). Dalam hal ini, yang perlu
diingat adalah agar tes butir-butir tes kedua tidak sampai dipengaruhi oleh tes
pertama, mengingat keadaan siswa sudah berubah dari kondisi yang pertama.
Kedua bentuk tes ini harus dapat dimonitor sebelum dilakukan pengetesan,
dan hal ini merupakan kesulitan dalam penerapan tes ulang tersebut.
(ii) Teknik Pilah dua
Pada teknik pemilahan seperangkat tes ada dua pilahan, pilahan dilakukan
kepada dua kelompok butir tes yang homogen (setara) pada waktu
bersamaan. Dalam hal ini pemilahan kelompok butir tes merupakan separuh
dari keseluruhan tes, di mana pilahan kelompok butir tes pertama dicuplik
dari butir-butir tes dari butir tes bernomor ganjil, sedang pilahan kelompok
butir tes kedua dicuplik dari butir-butir tes ber-nomor genap. Dalam hal ini,
keteguhan dengan metode pilah dua bersifat relatif, karena keteguhan tes
tersebut bergantung pada cara pemilahan butir-butir tes yang dicuplik.
(iii) Teknik Tes Kesetaraan
Pada proses pengukuran sering pengetesan dilakukan secara berulang
menggunakan dua tes yang dianggap setara bobot isi dan kandungan materi
yang dikandungnya, kemudian diberikan kepada siswa dalam waktu yang
288
bersamaan. Nilai dari kedua kelompok butir tes tersebut dihubungkan untuk
mendapatkan konsistensi tes.
b. Konsistensi gabungan.
Kekonsistenan gabungan butir tes dapat dimaknai sebagai bentuk
keteguhan atau kekonsistenan antara butir-butir tes dalam seperangkat tes
tersebut. Hal semacam ini biasanya dinyatakan dengan suatu bentuk pertanyaan
dasar yakni sejauhmana para siswa yang diukur dengan tes sehingga butir tes
yang satu dengan butir tes lainnya mampu menunjukkan hasil pengukuran yang
sama? Artinya, terhadap bagian-bagian siswa yang diukur dengan asumsi
kemampuan yang sama, apakah hasil ukur yang satu tidak kontradiksi dengan
hasil ukur butir tes yang lain? Bila pengetesan terhadap siswa yang memiliki
kemampuan yang sama dites dengan butir tes, di mana butir tes yang satu dengan
butir tes lain saling bertentangan/berbeda secara nyata hasilnyasehingga
dikatakan bahwa pengukuran dengan tes hasilnya tidak dapat dipercaya dan hail
itu tetap berubah atau tidak memiliki keteguhan (konsisten). Artinya,perangkat
tes yang mengandung butir-butir tes tersebut tidak memiliki keteguhan sehingga
tidak dapat digunakan untuk menjelaskan ciri atau karakter butir tes yang
sebenarnya dari kelomopok siswa yang dites.
Apabila hasil pengukuran terhadap kelompok siswa dites melalui butir
tes yang sama di mana antara butir tes yang satu dengan butir tes yang lain saling
terjadi pertentangan (kontradiksi atau tidak konsisten) maka butir-butir tes
tersebut perlu diperbaiki (direvisi), dengan pengertian bahwa butir-butir tes yang
dipakai hasilnya memiliki reliabilitas yang rendah. Koefisien keteguhan atau
konsistensi gabungan butir tes dapat dihitung dengan metode: (a) Rumus Kuder-
Richardson, KR-20 dan KR-21, dan dengan Rumus reliabilitas Hoyt, dengan
melibatkan analisis variansi butir tes.
c. Keajegan Tes
Dalam proses pengukuran, kekonsistenan alat ukur berupa tes dapat
ditentukan melalui dua faktor yaitu faktor penyimpangan baku atau kesalahan
baku pengukuran dan faktor koefisien kekonsistenan tes itu sendiri (Feldt &
Brennan: 105). Dalam hal ini, analisis statistik memiliki keterbatasannya untuk
mengukur hal tersebut. Kesalahan pengukuran dimaknai sebagai bentuk
ketidakkonsistenan siswa sebagai peserta tes bila ditinjau dari unit-unit skala
289
nilai. Koefisien kekonsistenan merupakan penghitungan koefisien konsistensi
dengan merangkum konsistenan atau ketidak-konsistenan di antara beberapa
kesalahan pengukuran hasil belajar siswa. Dalam teori tes klasik, sebuah tes
dikatakan memiliki reliabilitas yang tinggi bila nilai tes tersebut berkorelasi tinggi
dengan nilai murninya. Artinya, seberapa besar hubungan yang terjadi antara nilai
yang terlihat nyata pada dua tes yang setara sehingga reliabilitas tes tersebut dapat
diketahui dengan keteguhannya dan dapat perkirakan hasilnya. Pengestimasian
reliabilitas tes setidaknya tiga cara yang dapat digunakan yaitu (i) metode tes
ulang, (2) metode tes setara dan (3) metode sekali pengetesan.
Pendekatan tes ulang merupakan pemberian perangkat tes yang sama
terhadap sekelompok subjek sebanyak dua kali dengan selang waktu yang
berbeda. Asumsinya adalah bahwa nilai yang dihasilkan oleh tes yang sama akan
menghasilkan nilai yang tampak nyata yang relatif sama. Peramalan dengan
pendekatan tes ulang akan menghasilkan apa yang dinamakan koefisien stabilitas.
Untuk memperoleh koefisien reliabilitas melalui pendekatan tes ulang dapat
dilakukan dengan menghitung koefisien korelasi sederhana antara distribusi nilai
siswa pada pemberian tes pertama dengan nilai siswa pada pengetesan kedua.
Pendekatan tes ulang merupakan cara terbaik untuk mengukur ketrampilan
terutama ketrampilan fisik siswa.
Untuk menentukan reliabilitas tes bentuk pilihan ganda yangmemiliki nilai tipe
dikotomi atau nominal, biasanya dihitung dengan rumus Kuder Ridcardson 20
(KR-20), yang rumusnya sebagai berikut.
di mana: r = koefisien reliabelitas

k = banyak butit tes
p = proporsi jawaban benar butir ke i
q = proporsi jawaban salah butir ke i
= varians total
Contoh 3. 6. Pada saat ujian akhir semester, nilai hasil ujian 10 butir tes
matematika yang diikuti 30 siswa adalah seperti tertera pada tabel
berikut. Tentukan keterandalan tes tersebut.
290
Tabel 3.19. Nilai 10 butir tes matematika yang diikuti 30 siswa.
1 2 3 4 5 6 7 8 9 10 T
1 1 1 1 1 1 1 0 0 1 1 8
2 1 1 0 0 1 0 0 1 0 1 5
3 1 1 1 1 0 1 0 0 0 0 5
4 1 1 1 1 1 1 1 1 1 1 10
5 1 1 1 1 1 1 0 1 1 1 9
6 1 1 1 1 0 1 1 1 0 0 7
7 1 1 1 1 1 1 0 0 0 1 7
8 0 0 1 1 0 1 1 0 0 0 4
9 1 1 1 1 0 1 1 1 0 1 8
10 1 1 1 1 1 0 1 0 1 1 8
11 1 1 1 1 1 1 0 0 1 1 8
12 1 0 1 0 0 0 0 0 0 1 3
13 1 1 0 0 1 0 1 1 0 0 5
14 1 1 0 1 0 0 1 0 0 1 5
15 0 0 1 1 0 1 0 1 0 0 4
16 1 0 0 0 1 0 0 0 0 1 3
17 0 1 1 1 1 0 1 1 0 0 6
18 1 1 1 1 0 0 1 0 0 1 6
19 1 1 0 1 1 0 0 0 0 1 5
20 1 1 1 1 0 1 1 1 0 1 8
21 1 1 0 1 0 0 1 1 1 0 6
22 1 0 1 1 1 0 0 0 0 0 4
23 1 0 1 1 0 0 1 1 0 1 6
24 1 1 1 1 0 1 1 1 1 1 9
25 1 1 0 1 1 0 0 0 0 1 5
26 1 1 1 1 1 0 1 1 1 1 9
27 1 1 1 1 0 1 1 0 1 1 8
28 1 1 1 1 1 1 1 1 1 1 10
29 0 1 1 1 1 1 1 0 1 1 8
30 1 1 0 0 0 1 0 1 0 0 4
p 0.87 0.8 0.73 0.83 0.53 0.53 0.57 0.5 0.37 0.7
q 0.13 0.2 0.27 0.17 0.47 0.47 0.43 0.5 0.63 0.3
291
pq 0.12 0.16 0.2 0.14 0.25 0.25 0.25 0.25 0.23 0.21 2.05
4,25
Penyelesaian: Dari hasil analisis data di atas diperoleh
Dengan demikian koeisien konsistensi tes pilihan ganda pada tabel uji
coba di atas dalam ukuran sedang. Artinya sebanyak 30 butir tes yang diujikan
cukup layak digunakan dalam pengukuran hasil belajar untuk pokok bahasan
Matematika, di mana hasilnya cukup konsisten. Dalam hal lainnya, untuk bentuk
tes pilihan ganda biasa dan tes pilihan ganda assosiasi maka masing-masing
koefisien reliabilitas sebesar 0,70 juga cukup tinggi.
d. Konsistensi Internal
Pada proses pengukuran hasil belajar, pendekatan konsistensi internal

dalam upaya peramalan tingkat keampuhan yang dimaknai sebagai suatu upaya
untuk menghindari masalah-masalah yang biasanya ditimbulkan oleh pengetesan
ulang dan dengan pendekatan bentuk kesetaraan. Untuk menghindari perlakuann
tes berulang dapat di atasi dengan cara metode reliabilitas internal, yang tahap
pelaksaannya cukup memerlukan satu kali pengetesan terhadap seperangkat tes
yang diberikan pada sekelompok siswa sebagai subjek pengukuran, di mana
pendekatan ini memiliki nilai praktis dan efisiensi yang akurati yang lebih
mantap.
Dalam analisis tersebut, penekanan terapan pelaksanaan hanya dilakukan
sekali pengetesan yang diharapkan dapat menghasilkan satu distribusi nilai tes
dari kelompok siswa tersebut. Pentahapan analisis konsistensinya menekankan
pada analisis butir-butir tes atau terhadap perangkat butir tes sehingga perlu
dilakukan pemilahan tes menjadi beberapa pilahan butir tes yang disebut bagian
atau pilahan butir-butir tes. Pilahan butir tes dapat berisi beberapa butir tes,
bahkan jika bibutuhkan dapat berisi hanya satu butir tes saja. Jika pilahan-pilahan
tes telah diperoleh maka reliabilitas tes diperlihatkan oleh konsistensi di antara
butir tes-butir tes atau di antara pilahan-pilahan tes yang terpisah.
292
Pemilahan tes dilakukan sedemikian rupa sehingga sedapat mungkin
setiap pilahan berisi butir tes dalam jumlah yang sama banyak. Akan tetapi bila
pemilahan tes ke dalam pilahan yang berisi butir tes dalam jumlah sama banyak
tidak mungkin dilakukan, hal itu tidak merupakan masalah lagi sebab saat ini
telah tersedia rumusan-rumusan baru guna pengujian konsistensi untuk tes yang
dipilah menjadi pilahan-pilahan yang berisi butir tes dalam jumlah yang tidak
seimbang.
Metode pemilahan tes tergantung pula pada sifat, fungsi, dan jenis skala
pengukuran yang digunakan dalam tes. Cara pemilahan akan turut menentukan
pola rumusan atau formula mana yang harus digunakan dalam menghitung
koefisien konsistensinya. Seperangkat butir tes yang hasilnya dapat ditentukan
oleh kecepatan dan kecermatan siswa, misalnya, jika diinginkan cara pemilahan
yang berbeda dari cara pemilahan yang dilakukan terhadap perangkat tes yang
mampu mengukur kemampuan maksimum siswa. Perangkat tes yang berisi butir-
butir tes yang memiliki taraf kesukaran sama akan lebih terbuka terhadap
berbagai cara pemilahan bila dibandingkan dengan tes yang berisi butir-butir tes
dengan tingkat kesukaran yang sangat bervariasi, meskipun tidak setiap ciri butir
tes mengingikan cara pemilahan khusus, akan tetapi setiap cara pemilahan tes
yang digunakan hendaknya ditekankan pada usaha untuk memperoleh bagian-
bagian atau pilahan-pilahan yang relatif setara.
e. Metode Pemilahan Tes
Pada proses penyusunan perangkat tes, pemilahan perangkat tes menjadi

beberapa pilahan yang setara bertujuan untuk mengusahakan agar antara pilahan
yang satu dengan yang lain memiliki jumlah butir tes yang sama banyak, taraf
kesukaran yang seimbang, isi yang sebanding, dan sedapat mungkin memenuhi
ciri-ciri paralelisme sebagaimana yang telah dikemukakan terdahulu. meskipun
tersedia rumusan guna mengestimasi reliabilitas tes yang pilahannya tidak setara
akan tetapi estimasi terhadap bagian-bagian yang setara itu akan lebih
meyakinkan kita bahwa estimasi kita mendekati harga reliabilitas yang
sesungguhnya, bukan merupakan estimasi yang terlalu rendah atau yang terlalu
tinggi.
Pemilahan tes atas dua pilahan secara acak dapat dilakukan dengan cara
pengetosan untuk menentukan butir-butir tes nomor berapa saja yang dapat
293
dilibatkan menjadi pilahan pertama dan mana yang diikutkan menjadi pilahan
kedua.
Pemilahan secara acak dilakukan bila tes yang akan dipilah berisi butir-
butir tes yang setara. Pengertian kesetaraan dimaknai dari segi isi yang
terkandung dalam tes dan juga dari segi taraf kesukarannya, bila tes itu mengukur
aspek kognitif. Suatu tes yang berisi butir tes heterogen bila dipilah secara acak
dapat menghasilkan pilahan-pilahan yang tidak setara satu sama lain, kecuali bila
buti tes tersebut terdiri dari butir tes yang berjumlah besar.
3.9. PEMILAHAN GANJIL – GENAP.
Pemilahan dengan cara ganjil-genap mudah dilakukan. Dengan cara ini,

keseluruhan butir tes yang bernomor urut ganjil dijadikan satu pilahan sehingga
menjadi pilahan pertama dan seluruh butir tes yang bernomor urut genap
dijadikan satu pilahan menjadi pilahan ke dua. Dengan memilah butir tes secara
ganjil-genap diharapkan akan diperoleh dua pilahan yang setara dari segi isi,
konsep dan taraf kesukaran butir-butir tes.
Cara pemilahan ini dapat menghindari kemungkinan terjadinya
pengelompokan butir-butir tes tertentu ke dalam salah-satu pilahan saja,
meskipun semula butir-butir tes disusun dalam pola urutan tertentu akan tetapi
sewaktu dilakukan pemisahan ganjill-genap sehingga butir tes yang berurutan
ganjil saja atau genap sajadi akan dengan sendirinya terpisah ke dalam pilahan
yang berbeda. Dalam hal ini, tes yang mengukur aspek kemampuan di mana taraf
sukar butir tes serta korelasi butir tes dengan nilai total tes telah dihitung lebih
dahulu. Selanjutnya tes ditempatkan pada satu posisi atau titik tertentu
berdasarkan nilai taraf sukar butir tes (p) dan koefisien korelasi antara butir tes
yang bersangkutan dengan nilai totalnya (rix). Posisi butir tes pada grafik dapat
diketahui dari setiap butir tes yang letaknya berdekatan berarti memiliki ciri (p
dan rix) yang relatif sama atau mirip satu sama lain. Setiap dua butir tes yang
berdekatan dapat diundi untuk menentukan mana yang dimasukkan kedalam
pilahan pertama dan mana yang diikutkan kedalam pilahan ke dua sehingga
diperoleh dua pilahan yang masing-masing berisi sejumlah butir tes.
Dewasa ini, pemilahan dimaksud dapat diperoleh tanpa harus membuat
grafiknya lebih dahulu, yaitu lewat bantuan komputer dengan memasukkan saja
data p dan rix setiap butir tes dan meminta komputer untuk memasangkan butir tes
sekaligus memilahnya ke dalam dua pilahan yang berbeda.
294
a. Formula Spearman-Brown Untuk Belah-Dua
Dalam analisis data pengukuran hasil belajar, menerapan rumus korelasi

sederhana Spearman-Brown diartikan sebagai suatu rumus perhitungan yang tepat
sebagai usaha melakukan ramalan terhadap konsistensi butir tes tes yang dipilah
menjadi dua pilahan yang relatif setara antara butir-butir tes tersebut. Rumus
spearman-Brown cocok diterapkan pada butir-butir tes yang memiliki nilai
dikotomi maupun non-dikotomi. Rumus perhitungan konsistensi ini merupakan
rumus perbaikan terhadap koefisien korelasi antara dua pilahan butir tes, yang
bentuk rumusnya sebagai berikut:
Dari formula di atas, maka koeisien konsistensi (reliabilitas) dihitung dengan

rumus:
rxx' = koefisien korelasi (reliabilitas) Spearman-Brown

r1.2 = koefisien korelasi antara pilahan butir tes
Secara umum, untuk mendapatkan dua buah pilahan butir tes yang
relatif setara antara kedua pilahan itu, maka penerapan rumus Spearman-Brown,
dapat menggunakan cata pemilahan ganjil-genap atau cara pemilahan awal-akhir
dengan syarat kedua pilahan itu dapat dianggap setara. Nilai yang dihasilkan dari
jawaban siswa dalam tes masing-masing dihitung untuk setiap pilahan sehingga
setiap siswa memperoleh dua nilai pada kedua pilahan tersebut. Kemudian,
distribusi nilai siswa pada masing-masing pilahan dikorelasikan dengan formula
di atas. Koefisien korelasi antara kedua pilahan 1 dan pilahan 2 dilambangkan
dengan r12. Peramalan terhadap konsistensi butir-butir tes diperoleh dengan
menerapkan rumus Spearman-Brown terhadap kedua pilahan tersebut.
295
Untuk menggambarkan hal tersebut, dilukiskan dengan sebuah contoh
penerapan rumus Spearman-Brown, yang memuat contoh data nilai tes yang
terdiri atas 14 butir tes yang diikuti 15 siswa dan dipilah menjadi dua pilahan
dengan cara pemilahan ganjil-genap, seperti tertera pada tabel berikut.
Tabel 3.20. Pempilahan Ganjil-Genap Perangkat Butir Tes
Pilahan Pilahan
1 2 3 4 5 6 7 8 9 10 11 12 13 14 Total
Siswa 1 2
A 1 1 2 2 1 0 1 1 2 2 2 2 1 1 10 9 19
B 0 0 2 1 0 0 2 2 1 2 0 1 2 2 7 8 15
C 0 0 2 2 0 0 1 0 2 2 0 0 2 2 7 6 13
D 2 2 2 2 1 0 0 2 2 2 1 0 2 1 10 9 19
E 2 2 2 2 1 2 2 2 1 1 0 0 2 1 10 10 20
F 0 0 2 2 2 2 1 1 1 1 2 1 1 0 9 7 16
G 1 0 1 1 2 2 0 1 0 0 0 0 0 1 4 5 9
H 0 0 0 0 1 1 1 1 1 0 0 0 2 2 5 4 9
I 2 2 2 2 2 2 2 1 2 2 2 2 0 0 12 11 23
J 1 1 1 1 1 1 1 0 0 0 0 0 2 2 6 5 11
K 2 1 2 2 1 1 1 1 2 1 2 2 1 1 11 9 20
L 2 2 1 0 1 1 2 2 1 2 0 2 2 2 9 11 20
M 1 1 2 2 0 1 2 1 2 2 1 1 2 2 10 10 20
N 1 0 1 1 2 2 0 1 0 1 2 0 1 2 7 7 14
O 2 1 2 2 2 1 0 0 1 2 1 1 1 1 9 8 17
Pilahan 1 = jumlah nilai pada butir tes nomor 1+3+5+7+9+11+13

Pilahan 2 = jumlah nilai pada butir tes nomor 2+4+6+8+10+12+14
Total = jumlah nilai pada keseluruhan butir tes atau kedua pilahan
Tabel di atas menyajikan Distribusi Nilai Tes dari 10 Orang Siswa pada 12 Butir
tes
Dari penggunaan rumus korelasi diperoleh koefisien korelasi tes antara kedua
pilahan sebesar 0,88. Dengan demikian koeisien konsistensi Spearman-Brown:
296
Rumus di atas hanya dapat digunakan bila kita yakin bahwa asumsi
kesetaraan di antara kedua pilahan terpenuhi. Ciri terpenuhinya asumsi tersebut
antara lain adalah bila kedua pilahan tes menghasilkan rerata nilai yang setara
dan varians nilai yang sebanding.
Di pihak lain itu, rumus Spearman-Brown akan menghasilkan ramalan
konsistensi yang akuratn bila koefisien korelasi di antara kedua pilahan butir tes
itu tinggi, karena tingginya korelasi antara kedua pilahan merupakan indikasi
terpenuhinya asumsi kesetaraan. Koefisien korelasi antara kedua pilahan butir tes
yang tidak begitu tinggi, sebaiknya rumus Spearman-Brown tidak digunakan dan
kita ganti dengan cara pendekatan lain yang lebih sesuai.
Metode belah-dua dapat dipakai untuk meramalkan ketepatan dan
keakuratan butir tes dalam arti kesetaraan hasil ukur kedua pilahannya. Koefisien
kesetaraan ini pada dasarnya sama dengan koefisien konsistensinya (Magnusson:
1967).
3.10. PENERAPAN RUMUS RULON PADA RAMALAN KONSISTENSI.
Pada tahun 1939 pakar penilaian pendidikan benamaRulon telah

merumuskan suatu cara untuk meramalkan konsistensi pada teknik pemilahan
belah-dua meskipun asumsi bahwa kedua pilahan mempunyai varians yang sama
tidak dipenuhi. Dalam hal ini, selisih nilaihasil ujian siswa pada kedua pilahan
butir tes akan membentuk distribusi selisih nilai hasil ujian dengan nilai varians
yang besarnya ditentukan oleh varians tingkat kesalahan masing-masing pilahan.
Karena kesalahan varians yang terjadi pada masing-masing pilahan menentukan
varians kesalahan total tes, maka kesalahan varians butir tes ini dapat diramalkan
melalui besarnya varians selisih nilai di antara kedua pilahan tersebut. Artinya,
dalam melakukan peramalan terhadap konsistensi butir tes, varians selisih nilai
inilah yang perlu dikalkulasikan sebagai sumber kesalahan. Dalam hal ini, rumus
Rulon yang digunakan:
= Varians selisih nilai kedua pilahan
297
= Varians nilai total butir tes
d = Selisih nilai total kedua pilahan
Penerapan rumus Rulon dicontohkan dengan data pada Tabel di atas yang
di sajikan kembali dalam Tabel berikut.
Tabel 3.20. Pemilahan Butir Tes menurut Formula Rulon.
Pilahan Pilahan selisih

Siswa d2 T T2
1 2 (d)
A 10 9 1 1 19 361
B 7 8 -1 1 15 225
C 7 6 1 1 13 169
D 10 9 1 1 19 361
E 10 10 0 0 20 400
F 9 7 2 4 16 256
G 4 5 -1 1 9 81
H 5 4 1 1 9 81
I 12 11 1 1 23 529
J 6 5 1 1 11 121
K 11 9 2 4 20 400
L 9 11 -2 4 20 400
M 10 10 0 0 20 400
N 7 7 0 0 14 196
O 9 8 1 1 17 289
∑ 7 21 245 4269
Tabel Distribusi Perbedaan Nilai Pilahan dan Distribusi Nilai Total Tes dari
Data pada Tabel sebelumnya. Perhitungan varians perbedaan nilai dan varians
nilai tes terhadap data pada Tabel di atas menghasil kan:
298
Jadi koefisien konsistensi (reliabilitas) butir tes untuk data sebesar:
Penerapan rumus Rulon juga dapat diterapkan pada perangkat tes yang
butir-butir tesnya diberi nilai dikotomi. Penerapan rumus ini dalam perhitungan
koeisien konsistensi untuk perangkat tes yang butir tesnya diberi nilai dikotomi,
dapat dilukiskan dengan menggunakan data tabel berikut.
Tabel 3. 21. Pemilahan butir tes pada nilai dikotomi, Butir tes Dikotomi dan
Nilai Pilahan Ganjil-Genap.
Pilahan Pilahan
Siswa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 T
A 1 0 1 0 1 0 1 0 1 0 1 1 0 0 6 1 7
B 1 1 1 0 1 1 0 0 1 0 0 1 1 1 5 4 9
C 0 1 1 0 1 0 0 0 0 1 1 1 1 0 4 3 7
D 1 0 1 0 1 1 0 0 0 0 0 1 0 0 3 2 5
E 0 0 1 1 1 1 0 0 0 0 1 0 0 0 3 2 5
F 1 0 1 1 1 0 0 0 1 1 1 1 0 1 5 4 9
G 1 1 0 0 0 1 0 1 1 1 0 0 1 0 3 4 7
H 1 1 1 1 1 1 0 1 0 0 1 1 1 1 5 6 11
I 0 1 1 0 1 0 1 0 0 0 1 0 1 1 5 2 7
J 0 0 1 0 0 1 0 1 1 1 1 1 0 1 3 5 8
K 0 0 1 1 0 0 0 1 1 0 1 0 1 0 4 2 6
L 1 1 1 0 0 0 1 1 0 0 0 1 1 0 4 3 7
M 1 0 0 1 1 1 1 1 1 0 0 1 0 0 4 4 8
N 0 1 1 1 0 1 1 0 0 0 0 0 1 0 3 3 6
O 0 0 1 1 0 1 0 0 1 1 1 0 0 0 3 3 6
60 48 108
299
Dari tabel di atas, jika dilihat selisih pilahan 1 dan 2, kemudian dihitung pula
kuadrat selisih dan kuadrat total nilai maka hasilnya adalah seperti tertera pada
tabel sebagai berikut:
Tabel 3.22. Selisih data pilahan 1 dan 2, kuadrat selilih dan kuadrat total nilai.
Pilahan Nilai
Siswa
1 2 T d d2 T2
A 6 1 7 5 25 49
B 5 4 9 1 1 81
C 4 3 7 1 1 49
D 3 2 5 1 1 25
E 3 2 5 1 1 25
F 5 4 9 1 1 81
G 3 4 7 -1 1 49
H 5 6 11 -1 1 121
I 5 2 7 3 9 49
J 3 5 8 -2 4 64
K 4 2 6 2 4 36
L 4 3 7 1 1 49
M 4 4 8 0 0 64
N 3 3 6 0 0 36
O 3 3 6 0 0 36
∑ 60 48 108 12 50 814
4 3.2 7.2 0.8 3,33 54,27
S 1 1,32 1,61 1,70 6,43 25,25
1 1.74 2.6 2,89 41,38 637,49
Kalkulasi terhadap data di atas menghasilkan varians perbedaan nilai dan

varians nilai butir tes:
, dan
300
Dengan demikian, koefisien reliabilitas untuk data ini, yang dihitung
dengan formula Rulon, adalah:
Koefisien reliabilitas Rulon yang dikenakan pada tes yang telah dipilah
menjadi dua bagian ini merupakan estimasi reliabilitas bagi keseluruhan tes
sehingga tidak perlu dikenai formula koreksi lagi.
3.11 PENERAPAN KOEFISIEN ALPHA (α) DALAM KALKULASI

KONSISTENSI
Pemakaian rumus Spearman-Brown terhadap penilaian hasil belajar yang

dinilai baik dengan nilai dikotomi maupun nilai politomi menghasilkan ramalan
konsistensi akurat jika pilahan-pilahan butir tes yang dilakukan dapat memenuhi
asumsi kesetaraan yang tinggi. Namun bila hal itu tidak dipenuhi (Cronbach,
1951) maka cara lain yang tepat dapat digunakan adalah koefisien-alpha (α).
Meskipun penggunaan koeisien alpha dapat digunakan pada tes yang pilahannya
tidak setara satu sama lain, namun bila kedua pilahan tersebut tidak memenuhi
asumsi kesetaraan, maka koefisien konsistensi alpha merupakan under estimasi
terhadap konsistesi yang sebenarnya (hal ini bermakna, konsistensi yang
sesungguhnya sangat memungkinkan lebih tinggi daripada koefisien hasil
kalkulasi). Menurut Allen & Yen (1979), jika dari hasil hasil kalkulasi diperoleh
koefisien konsistensi yang cukup tinggi maka akan diketahui bahwa ada peluang
bahwa koefisien konsistensi yang sebenarnya lebih tinggi lagi namun jika
koefisien yang diperoleh ternyata rendah maka belum dapat dipastikan apakah
butir-butir tes yang bersangkutan memang memiliki konsistensi rendah atau
apakah hal itu menjadi suatu petunjuk ke arah tidak terpenuhinya asumsi
kesetaraan tersebut.
Penggunaan rumus koefisien alpha untuk meramalkan kekonsistensian
butir tes tes pilah-dua dirumuskan dengan:
301
dan serta masing-masing menyatakan varians nilai pilahan 1 dan
pilahan 2, serta varians nilai total butir-butir tes tersebut. Sebagai gambaran akan
hal ini, penerapan rumus alpha pada nilai dikotomi dapat digunakan kembali data
pada Tabel 3.22 di atas, hasil kalkulasi mendapatkan:
, , dan
Dengan demikian, koefisien alpha untuk data ini dapat dihitung sebagai
Ternyata bahwa koefisien alpha yang dihasilkan pada contoh di

atas identik dengan koefisien yang dihitung oleh rumus Rulon, di mana hal ini
memang akan selalu benar bila kedua formula dikenakan pada tes yang sama
yang dipilah menjadi dua pilahan.
a. Model Umum Koefisien Alpha Pada Menentukan Keajegan

Penerapan teknik pemilahan butir tes tidak terbatas pada cara memilah
butir-butir tes tes pada dua pilahan saja, melainkan pemilahan tersebut dapat
dikembangkan aplikasinya dengan cara memilah butir-butir tes menjadi beberapa
pilahan. Dalam hal seperti ini, pemilahan butir-butir tes yang akan diramalkan
keajegannya dapat dipilah menjadi pilahan-pilahan meskipun sebanyak jumlah
butir tes yang ada, sehingga setiap pilahan hanya berisi satu butir tes saja pun
diperbolahkan kalau memang hal itu dibutuhkan. Namun dalam hal kasus tes
yang dipilah menjadi pilahan sebanyak jumlah butir tesnya, mestinya selalu
diusahakan agar pilahan-pilahan tersebut isinya relatif setara (homogen). Dalam
hal ini, ada baiknya bila dapat dihasilkan pilahan-pilahan yang paralel satu sama
lain atau paling tidak yang dapat memenuhi asumsi kesetaraan (keequivalenan).
Pada proses analisis, untuk tes yang dipilah menjadi lebih dari dua pilahan yang
masing-masing berisi butir tes yang memiliki kesamaan panjang (jumlah butir tes
setiap pilahan sama banyak), kita dapat mengekspansi pemakaian rumus alpha.
Untuk hal ini dapat dikembangkan pemakaian rumus umum untuk koefisien alpha
sebagai berikut:
302
k = Banyaknya pilahan tes,
i = butir tes
= Varians pilahan i ;i = 1,2,...,k
= Varians nilai total butir tes
Penerapan cara yang bersifat umum koefisien alpha ini dapat diberikan
contoh penggunaannya terhadap data hasil pengetesan 12 butir tes yang diteskan
kepada 10 siswa pada Tabel berikut, kemudian dipilah menjadi tiga pilahan yang
sama panjang pilahannya.
Untuk menggunakan formula alpha disyaratkan adanya homogenitas

isi pilahan agar estimasi yang diperoleh dapat mendekati reliabilitas yang
sebenarnya. Untuk kepentingan contoh cara perhitungan, disajikan data hasil
pengetesan 12 butir tes yang diberikan kepada 10 siswa dan data hasilnya tertera
pada Tabel 3.23 yang diasumsikan telah memenuhi persyaratan tersebut.
Tabel 3. 23. Pemilahan Butir Tes untuk 12 butir tes nondikotomi.
Tola
Nomor Butir Pilahan
Siswa l
1 2 3 4 5 6 7 8 9 10 11 12 1 2 3
A 2 0 1 1 1 0 1 2 2 1 1 2 22 26 30 78
B 1 0 2 1 0 0 2 2 1 2 0 1 2 2 3 7
C 1 0 2 2 0 1 1 0 2 2 0 0 1 2 4 7
D 2 2 2 2 1 0 0 2 2 2 1 0 1 3 2 6
E 2 2 0 1 1 1 0 2 1 1 0 0 1 1 3 5
F 1 0 2 2 2 1 1 1 1 1 2 1 1 2 2 5
G 2 0 1 1 2 2 0 1 0 0 1 0 3 2 3 8
H 2 1 0 0 1 1 0 1 1 0 0 0 2 2 2 6
I 2 2 1 2 2 1 2 1 2 2 2 2 2 4 3 9
J 2 1 0 2 1 1 1 0 2 0 2 0 1 3 1 5
J 2 1 0 2 1 1 1 0 2 0 2 0 1 3 1 5
38, 51, 70, 469,
66 27 09 16
303
Pilahan 1 = jumlah nilai pacia butir tes nomor: 1+ 4+7+ 10
Pilahan 2 = jumlah nilai pada butir tes nomor 2+5+8+11
Nilai X = jumlah nilai pada keseluruhan bbutir tes
Setelah dipilah menjadi tiga bagian, perhitungan terhadap varians
nilai pilahan dan varians nilai total terhadap data tabel di atas menghasilkan:
= 38,66; = 51,27; = 70,09; = 469,16. Banyaknya pilahan adalah k
= 3, sehingga koefisien reliabilitas alpha untuk data ini adalah:
Kemudian untuk memberikan contoh tersebut, pemakaian formula

α pada tes yang butir tes-butir tesnya diberi nilai dikotomi, kita kembali melihat
data pada tabel berikut.
Tabel 3.24. Pempilahan butir tes dan pemakaian formula α pada tes yang butir
tes-butir tesnya diberi nilai dikotomi
Nomor Butir Pilahan Total

Siswa 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3
A 1 0 1 0 1 1 0 1 1 0 1 1 1 3 4 8
B 0 1 0 1 1 0 1 1 1 0 1 0 2 4 1 7
C 1 1 0 1 0 1 1 0 1 1 0 1 4 2 3 9
D 0 0 1 1 0 1 1 0 1 0 0 0 2 1 3 6
E 1 0 1 0 1 0 1 1 0 0 0 1 2 2 2 6
F 1 1 0 1 1 1 0 1 0 0 0 0 2 3 2 7
G 0 1 1 1 1 0 0 1 1 1 0 1 1 3 2 6
H 1 1 0 0 1 1 0 0 0 0 0 0 2 3 1 6
I 0 1 0 1 0 0 1 0 1 0 0 1 2 1 1 4
J 0 0 1 1 0 1 0 0 1 0 0 0 1 0 3 4

0.77 1.51 1.07 2.5
304
Pilahan 2 = jumlah nilai pada butir tes nomor 2+5+8+1 I
Nilai T = jumlah nilai pada keseluruhan butir tes
Perhitungan varians nilai masing-masing pilahan dan varians nilai tes

pada data pada tabel di atas menghasilkan = 0,77; = 1,51; = 1,07; dan
= 2,5. Jadi koefisien alpha adalah:
3.12 FORMULA KUDER-RICHARSON
Bila suatu tes berisi butir tes-butir tes yang dinilai dengan nilai
dikotomi sedangkan panjang tes (banyak butir tesnya) tidak begitu panjang, maka
pada pemilahan perangkat tes menjadi dua pilahan tidak cukup menghasilkan
pilahan yang setara sementara memilah tes menjadi lebih dari dua pilahan akan
menyebabkan panjang pilahan tidak terlalu panjang. Jika dalam pilahan hanya
berisi sedikit butir tes, maka perhitungan konsistensinya tidak dapat
menghasilkan ramalan yang cukup akurat/cermat.
Dalam hal ini, metode yang tepat dilakukan adalah dengan metode memilah butir
tes menjadi sejumlah butir tesnya sehingga setiap pilahan hanya berisi satu butir
tes saja. Selanjutnya, remalan konsistensinya dapat diupayakan melalui penerapan
rumus α yang diistilahkan dengan rumus Kuder-Richardson-20 (KR-20), atau
koefisien α - 20 dimaknai sebagai suatu rerata ramalan keajegan (reliabilitas) dari
metode pilah-dua yang mungkin dapat dibuat. Koefisien α-20 berfungsi untuk
menggambarkan sejauhmana tingkat kesetaraan isi butir-butir tes di dalam
pilahan butir tes, yang dirumuskan dengan:
di mana:
k menyatakan banyaknya butir tes dalam perangkat tes;
305
menyatakan varians total nilai perangkat butir tes
p menyatakan proporsi siswa yang menjawab satu butir tes tes benar
q menyatakan proporsi siswa yang menjawab satu butir tes tes salah
Sebagai contoh pemakaian rumus KR-20 dijelaskan dengan pensyunan data

hasil ujian sebanyak 10 butir tes yang diikuti 15 siswa pada tabel berikut.
306
Tabel 3.25. Penerapan formula KR-21 dengan pensyunaan data butir tes.
1 2 3 4 5 6 7 8 9 10 T
A 1 0 0 1 0 1 1 1 0 1 6
B 1 1 0 0 1 0 0 0 0 0 3
C 1 0 0 1 1 0 1 0 0 0 4
D 0 1 0 1 1 1 0 0 0 1 5
E 1 0 0 1 1 0 0 1 0 0 4
F 1 0 0 1 1 0 0 1 0 0 4
G 1 1 1 1 1 1 0 0 1 0 7
H 1 1 1 1 1 1 0 0 1 1 8
I 0 0 0 1 1 0 1 0 1 1 5
J 0 0 0 1 1 0 0 1 0 0 3
K 1 1 0 1 1 0 1 0 0 0 5
L 1 1 0 0 0 0 0 0 0 1 3
M 1 1 0 1 1 0 1 0 0 0 5
N 1 1 0 0 1 0 0 0 0 0 3
O 1 0 0 1 0 1 1 0 0 1 5
0.5
p 0.8 3 0.13 0.8 0.8 0.33 0.4 0.27 0.2 0.4 4.7
0.4
q 0.2 7 0.87 0.2 0.2 0.67 0.6 0.73 0.8 0.6 5.3
0.2
pq 0.16 5 0.12 0.16 0.16 0.22 0.24 0.2 0.16 0.24 1.90
2.24
Dari data yang disajikan pada Tabel di atas diketahui bahwa banyaknya
butir tes k = 10, ∑pq = 1,9, , sehingga:
307
Pengembangan rumus Kuder dan Richardson (KR-20) dimodiikasi dengan cara
merumuskan ramalan kejegannya ke bentuk rumus KR-21 yang dimaknai sebagai
bentuk rerata p dari keseluruhan butir tes, dan hal ini dirumukan dengan cara:
k = banyaknya butir tes

= rata-rata p, yaitu (Σp)/k
= rata-rata q, yaitu (Σq)/k
= varians nilai total tes

Perhitungan konsistensi KR-21 dengan menggunakan data tes pada Tabel di atas
adalah sebagai berikut:
k = 12 Σp = 4,7 = , = = 2,24.
Tampaklah bahwa rumus α-21 menghasilkan koefisien yang lebih kecil daripada
koefisien konsistensi yang dihitung dengan rumus α-20. Hal itu adalah selalu
benar bila harga p, yang menyatakan taraf kesukaran butir tes-butir tes dalam tes
yang bersangkutan, sangat bervariasi. Hasil kalkulasi menerapkan rumus α-20
dan α-21 akan menghasilkan koefisien kejegan yang hampir sama.
PILAH TIGA DAN METODE KRISTOF
Dalam proses pengukuran dapat terjadi kasus di mana panjang tes

dalam tes tidak genap. Dalam kasus suatu pilahan banyak butir tesnya tidak genap
maka bila perangkat tes dipilah dua maka akan menghasilkan dua pilahan
mengandung butir tes yang tidak sama banyak. Dan pada kasus dua pilahan tes
yang tidak sama panjangnya tersebut tentu tidak dapat memenuhi asumsi
kesetaraan, ataupun asumsi paralel. Karenanya, dalam kasus ini, rumus- α tidak
dapat diterapkan lagi. Untu mengatasi hal ini, maka cara lain direkomendasikan,
asal saja pilahan tes tesebut mangandung butir tes yang cukup panjang (jumlah
butit tes cukup banyak), sehingga dapat dilakukan pemilahannya atas tiga pilahan.
308
Ketiga pilahan itu tidak perlu sama panjang dan tidak perlu berisi butir tes yang
sama banyak, asalkan isinya tetap setara dan homogen. Perhitungan koefisien
keajegan tes yang telah dipilah menjadi tiga pilahan mengacu pada rumus
peramalan nilai murni sesungguhnya dan oleh Kristof hal ini dirumuskan dengan
cara:
menyatakan varians nilai/nilai murni

menyatakan varians total butir tes
menyatakan kovarians pilahan 1 dan pilahan 2
Secara umum rumus kovarians dinyatakan sebagai berikut:
(Oslon; 1978: 438)
Selanjutnya, peramalan terhadap varians nilai-murni tes oleh Kristof telah
menunjukkan bahwa ramalan tersebut dapat dikalkulasi besaran kovarians antar
ketiga pilahan tanpa mempertimbangkan besarnya varians masing-masing. Untuk
kalkulasi koefisien keajegannya, rumus yang dipakai adalah sebagai berikut.
di mana menyatakan varians nilai/nilai murni, menyatakan varians nilai

total
Contoh yang bersesuaian kita kembali lihat tabel yang memuat nilai belah-tiga
berikut:
Tabel 3.26. Pilahan tiga dari seperangkat tes
Nomor Butir Pilahan Total

Siswa 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3
A 1 0 1 0 1 1 0 1 1 0 1 1 1 3 4 8
B 0 1 0 1 1 0 1 1 1 0 1 0 2 4 1 7
C 1 1 0 1 0 1 1 0 1 1 0 1 4 2 3 9
309
D 0 0 1 1 0 1 1 0 1 0 0 0 2 1 3 6
E 1 0 1 0 1 0 1 1 0 0 0 1 2 2 2 6
F 1 1 0 1 1 1 0 1 0 0 0 0 2 3 2 7
G 0 1 1 1 1 0 0 1 1 1 0 1 1 3 2 6
H 1 1 0 0 1 1 0 0 0 0 0 0 2 3 1 6
I 0 1 0 1 0 0 1 0 1 0 0 1 2 1 1 4
J 0 0 1 1 0 1 0 0 1 0 0 0 1 0 3 4
0,03 - -0,32
0,13
0.77 1.51 1.07 2.5

Pilahan 2 = jumlah nilai pada butir tes nomor 2+5+8+1 I
Nilai T = jumlah nilai pada keseluruhan butir tes
Perhitungan terhadap kovarians antar masing-masing pilahan menghasilkan s 12 =

0,03; s13 =-0,13; dan s23 = -0,32; sedangkan varians nilai tes = 2,24.
Estimasi terhadap varians nilai-murni adalah:
Dengan demikian, koefisien reliabilitas untuk data pada Tabel adalah
Dari kalkulasi tampak bahwa metode Kristof dapat pula dikenakan pada tes yang
butir-butir tesnya diberi nilai dikotomi. Gambaran penerapan metode Kristof pada
peramalan tingkat keajegan (konsistensi) perangkat tes melalui ramalan varians
310
nilai-murni, dan hal ini dapat dilakukan baik bagi perangkat tes yang butir tesnya
berbentuk dikotomi maupuan diberi nilai bermacam-macam maupun pada butir
tes dikotomi maupun polotomi. Metode Kristof lebih sesuai digunakan dengan
melibatkan panjang tes yang cukup memadai.
Kemudian pada kasus pemilahan tes yang menghasilkan pilahan-pilahan
yang tidak homogen atau pilahan-pilahan perangkat tes yang tidak sama panjang,
maka pemakaian koefisien alpha akan beresiko terhadap ketidaksetaraan pilahan-
pilahan tersebut, namun rumus Kristof lebih mantap dan kurang mendapat
pengaruh lain. Demikian pula rumus Kristof ini lebih dapat bertahan terhadap
efek dari cara pemilahan yang dilakukan dan ketidakseimbangan pilahan yang
terlalu ekstrim.
3.13 PENERAPAN ANALISIS VARIANS UNTUK KEAJEGAN.
Pemanfaatan Anava untuk menentukan keajegan butir tes dapat

dilakukan melalui teknik penerapan rasio dari berbagai varians distribusi
tes, seperti yang ditawarkan pendekatan oleh Hoyt (1941), yang
dipublikasikan dalam Jurnal pengukuran dan penilaian yakni psychometrik
yang mendapat tanggapan besar dari beberapa pakar psikometri. Dalam hal
ini, analisis varians Hoyt adalah memandang bahwa distribusi butir tes
untuk keseluruhan siswa dapat dipandang sebagai data pada yang
dihasilkan pada suatu rancangan penelitian eksperimen faktorial dua-
jalan tanpa replikasi, yang berufungsi untuk menguji hipotesis yang menyatakan
perbedaan antara pilahan-pilahan butir tes yang menggunakan two factorial
design. Setiap butir tes dianggap sebagai perlakuan berbeda sehingga setiap
kali siswa dihadapkan pada sebuah butir tes, maka siswa berada pada
suatu perlakuan yang berbeda. Dalam hal seperti ini kita berasumsi
bahwa banyaknya butir tes setara dengan banyaknya tindakan, di mana, pola
rancangan faktorial menghasilkan nilai rerata kuadrat antar sis wa
yang sesungguhnya yang berarti bahwa ramalan terhadap varians nilai tes,
perkalian antar rerata kuadrat butir tes, dan rerata kuadrat interaksi antar butir tes
dengan siswa yang menjadi ramalan terhadap varians kesalahan, dan dengan
demikian rumus keajegan Hoyt ditulis:
311
K emudian karena bermakna s ebagai peramalan varians
interaksi dan bermakna sebagai ramalan varians nilai sis wa
s ehingga lambang yang digunakan dalam rumusan itu dapat ditulis
dengan:
D alam hal ini,disebabkan menyatakan varians kes alahan,

maka rumusan ters ebut di atas dapat pula dituliskan sebagai:
K alkulasi varians kesalahan dihitung dengan rumus :
menyatakan varians kesalahan
i menyatakan nilai siswa pada satu butir tes, yaitu nilai butir tes
X menyatakan jumlah nilai seorang siswa dari total butir tes, yaitu nilai tes
Y menyatakan jumlah nilai total siswa pada satu butir tes
k menyatakan banyaknya butir tes
n menyatakan banyaknya siswa peserta tes
Kalkulasi varians antar siswa dapat dilakukan dengan menggunakan
rumus Anava H oyt:
Aplikasi perhitungan dengan contoh di atas, seperti tabel berikut.

312
Tabel 3.27. P enggunaan rumus an Anava Hoyt.
Siswa 1 2 3 4 5 6 7 8 9 10
A 0 1 2 1 0 0 1 1 1 2
B 2 1 0 0 2 1 2 2 1 1
C 0 0 2 1 0 2 1 1 1 0
D 1 1 0 1 2 2 2 0 2 1
E 2 1 1 0 0 2 1 1 1 2
F 1 0 1 1 2 1 0 1 2 0
G 2 0 0 1 0 2 2 0 1 1
H 0 1 2 1 2 2 1 1 1 2
I 2 0 0 0 0 2 1 1 1 1
J 1 1 1 1 2 1 2 0 2 0
K 2 0 2 1 0 2 1 1 1 1
L 1 1 0 0 2 2 1 1 1 0
M 2 1 1 1 0 1 2 0 1 1
N 0 0 2 0 0 1 1 1 1 1
0 0 2 0 1 0 2 2 0 0 1
Y 16 10 14 10 12 23 20 11 17 14
Y2 256 100 196 100 144 529 400 121 289 196 400 64 100 36 225 3156 2
Dari Tabel di atas diperoleh: n = 15, k = 15, ∑i=∑X =∑Y = 206, ∑i 2 =318, ∑X2 =
2872, dan ∑Y2 = 3156. Dengan demikian diperoleh:
Dengan demikian maka koeisien keajegannya adalah:

313
Teknik analisis varians untuk ramalan keajegan juga dapat diterapkan pada data
tes yang butir tesnya diberi nilai dikotomi, caranya sama dengan perhitungan
pada data politomi
314
LATIHAN 3
Data ujian Matematika 15 butir tes objektif, yang diikuti 50 siswa adalah sebagai
berikut:
Siswa Butir Tes Nomor…

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2 1 1 1 0 1 0 0 1 1 1 1 1 1 0 0
3 0 0 1 1 0 1 1 1 1 1 0 1 0 1 1
4 0 1 0 1 1 0 1 0 1 0 0 0 1 0 1
5 0 1 1 0 1 1 0 1 1 1 0 1 1 1 0
6 1 1 0 1 0 0 1 0 0 1 0 0 0 0 1
7 1 1 1 1 1 1 1 1 0 0 0 1 1 1 1
8 0 0 1 0 1 0 0 1 0 1 0 1 1 0 0
9 1 1 0 1 0 1 1 0 1 0 0 0 0 1 1
10 1 1 1 1 1 1 0 1 0 1 0 1 1 1 1
11 1 0 0 0 1 0 1 1 0 0 0 0 1 0 0
12 1 1 1 1 0 1 0 0 0 1 0 1 0 1 1
13 0 1 1 0 1 1 1 1 1 1 0 0 1 1 0
14 0 1 0 1 0 0 0 1 0 0 0 1 1 0 1
15 0 1 1 0 1 1 1 0 0 0 0 0 0 1 0
16 0 0 0 1 0 0 0 1 1 1 0 1 1 0 1
17 1 1 1 1 1 1 1 1 0 1 0 0 1 1 1
18 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0
19 1 0 0 1 1 1 1 1 1 1 0 1 1 1 1
20 1 1 1 0 0 0 0 1 0 0 0 0 1 0 0
21 1 1 1 1 1 0 1 0 0 1 1 1 0 0 1
22 1 1 0 1 1 1 0 1 1 0 1 0 1 1 1
23 1 0 1 0 0 0 1 1 1 0 1 1 1 0 0
24 1 1 0 1 1 1 0 0 0 1 1 1 1 1 1
25 1 0 1 1 1 1 1 1 0 0 1 0 0 1 1
26 0 1 1 0 0 0 0 0 0 1 1 1 1 0 0
27 0 1 0 1 1 1 0 1 0 1 1 1 0 1 1
28 1 0 1 0 0 1 1 0 0 0 1 0 1 1 0
315
29 1 1 1 1 1 0 0 1 0 1 1 1 0 0 1
30 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1
31 1 0 1 0 1 1 1 0 0 0 1 0 1 1 0
32 1 1 0 1 0 0 0 1 0 1 1 1 0 0 1
33 1 0 1 1 1 0 1 0 0 0 1 1 1 0 1
34 1 1 1 0 1 0 1 1 0 1 1 0 0 0 0
35 1 0 1 1 0 0 0 1 0 1 1 1 0 0 1
36 0 0 0 1 1 1 1 1 0 1 1 1 1 1 1
37 1 1 1 0 1 1 1 0 0 0 1 1 1 1 0
38 1 1 1 1 0 1 0 1 0 1 1 1 1 1 1
39 1 0 1 0 1 0 1 1 0 0 1 1 1 0 0
40 1 1 1 1 0 1 1 1 0 1 1 1 0 1 1
41 1 1 0 0 1 1 0 0 0 1 1 1 1 1 1
42 1 1 1 1 1 1 1 1 0 0 1 0 0 1 1
43 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0
44 1 1 0 1 1 1 0 1 0 1 1 1 0 1 1
45 0 1 1 0 0 1 1 0 0 0 1 0 1 1 0
46 1 0 0 1 1 0 0 1 0 1 1 1 0 0 1
47 0 1 1 1 0 1 1 1 0 1 1 1 1 1 1
48 1 1 1 0 1 1 1 0 0 0 1 0 1 1 0
49 0 0 0 1 0 0 0 1 0 1 1 1 0 0 1
50 1 0 1 0 1 0 1 0 0 0 1 1 1 0 1
Tentukanlah:
1. Hitung sekor total masing-masing siswa
2. Tentukan ranking tertinggi dari 10 siswa
3. Hitung proporsi jawaban benar dari setiap butir tes
4. Hitung proporsi jawaban salah dari setiap butir tes
5. Indeks kesukaran masing-maasing butir tes
6. Hitung daya pembeda masing-masing butir tes
7. Hitung koefisin biserial masing-masing butir tes
8. Hitung koefisin biserial titik masing-masing butir tes
9. Andaikan data hasil ujian di atas menyatakan hasil kesepakatan 15 orang
pakar terhadap 50 butir tes, tentukan koeisien tingkat kesepakatan
(interater) pakar untuk perangkat tes tersebut.
10. Hitung koefisien keajegan tes dengan metode belah dua ganjil genap.
316
11. Hitung koefisien keajegan tes dengan metode Rulon.
12. Hitung koefisien keajegan tes dengan metode Alpha
13. Hitung koefisien keajegan tes dengan metode KR-20
14. Hitung koefisien keajegan tes dengan metode KR-21
15. Pilahlah perangkat tes atas tiga pilahan, kemudian hitung koeisien
keajegan dengan metode Kristof.
Diketahui nilai hasil ujian Matematika 5 butir tes uraian diikuiti 20 orang siswa.
Siswa Nilai Soal Nomor Nilai Ket

Nomor I II III IV V Total
1 20 14 17 19 11 ...
2 14 12 15 13 12 ...
3 11 13 12 19 18 ...
4 13 13 13 10 6 ...
5 11 16 14 12 3 ...
6 18 18 14 11 4 ...
7 10 18 10 9 11 ...
8 12 8 9 8 9 ...
9 15 16 18 8 8 ...
10 20 20 5 7 9 ...
11 20 9 10 8 7 ...
12 11 18 18 11 6 ...
13 16 10 11 3 1 ...
14 18 19 10 2 6 ...
15 12 16 15 11 7 ...
16 17 19 13 7 4 ...
17 11 9 7 5 0 ...
18 18 18 19 9 10 ...
19 16 7 20 10 5 ...
20 13 5 18 8 6 ...
317
16. Hitung nilai total masing-masing siswa
17. Tetapkan Kriteria Taraf Sukar untuk soal mudah, sedang, dan suka
18. Urutkan nilai dari terbesar ke terkecil
19. Ambil 27% masing-masing nilai tertinggi dan terendah yaitu 27% x 20
dan tentukan banyak siswa yang sesuai
20. Tentukan nilai tertinggi dari High Group (HG), dan nilai terendah Low
Group(LG).
21. Hitung ikdeks kesukaran masing-masing butir tes
22. Hitung ikdeks keajegan masing-masing butir tes
Diketahui sebaran nilai 5 siswa pada tes uraian butir 1 dan 2.
Siswa Butir tes nomor 1 Butir tes nomor 2

(Nilai Maksimum 6) (Nilai Maksimum 5)
A 6 5
B 4 4
C 3 3
D 3 2
E 2 1
∑X 18 15
......... .........
TK ......... .........
DP ......... .........
23. Tentukan indeks kesukaran dari tes nomor 1,dan 2

24. Tentukan daya beda dari tes nomor 1 dan 2
Diketahui Tanggapan Panelis Terhadap Isi Tes Matematika
No Penilai
butir 1 2 3 4 5 6 7 8
318
Total
1 5 4 5 5 5 5 4 5 38
2 4 5 4 3 4 4 3 4 31
3 4 5 4 4 3 4 3 3 30
4 4 2 2 4 3 4 5 3 27
5 3 5 2 5 4 4 4 3 30
6 3 4 5 3 4 2 5 4 30
7 4 3 5 4 4 2 4 5 31
8 5 5 5 5 5 5 4 5 39
9 4 2 5 3 4 3 4 5 30
10 4 5 5 5 4 5 5 5 38
11 4 5 5 4 5 5 5 5 38
12 4 5 5 5 5 5 5 4 38
13 4 4 5 5 5 5 5 4 37
14 3 3 4 3 4 3 4 4 28
15 5 5 5 5 4 5 4 5 38
16 5 5 4 5 5 5 5 5 39
17 5 5 4 5 5 5 4 5 38
18 5 5 5 4 5 5 5 4 38
19 5 5 5 5 4 5 5 5 39
20 5 5 5 5 5 4 4 5 38
25. Hitunglah tingakt kesepakatan penilai (interater) dari data di atas

26. Jelaskan dengan contoh apa yang dimaksud dengan validitas internal dan
juga validitas eksternal.
27. Dari data berikut tentukan koefisien kesepakatan (validitas tes) melalui
perhitungan interater
No 1 2 3 4 5 6 7 8 9 10 11 Total
1 5 2 5 4 2 5 3 4 5 4 2 42
2 4 5 4 5 4 5 5 5 4 5 4 53
3 4 5 5 5 5 5 4 5 5 5 5 41
4 3 4 4 4 3 4 4 4 4 4 3 53
5 5 5 4 5 5 5 5 4 4 5 5 42
319
6 5 4 5 5 5 4 5 4 5 5 5 41
7 5 5 5 5 5 4 5 5 5 5 5 41
8 5 4 5 5 5 5 5 4 5 5 5 37
9 5 5 5 5 5 4 5 5 5 5 5 51
10 5 5 5 5 5 4 5 5 5 5 5 42
11 4 3 3 4 3 4 2 5 3 4 3 41
12 3 3 3 4 4 4 5 4 3 4 4 50
13 4 5 5 5 5 4 5 5 5 5 5 53
14 2 5 3 4 3 4 2 4 3 4 3 41
15 5 5 4 5 5 5 4 5 4 5 5 52
16 4 5 5 4 5 5 5 5 5 4 5 52
17 4 2 4 5 3 3 4 5 4 5 3 54
18 3 3 4 3 4 5 5 4 4 3 4 53
19 5 5 5 5 5 4 5 4 5 5 5 54
20 5 5 5 5 4 5 4 5 5 5 4 54
21 4 3 3 4 3 4 2 5 3 4 3 38
22 3 3 3 4 4 4 5 4 3 4 4 41
23 4 5 5 5 5 4 5 5 5 5 5 53
24 2 5 3 4 3 4 2 4 3 4 3 37
25 5 5 4 5 5 5 4 5 4 5 5 52
26 4 5 5 4 5 5 5 5 5 4 5 52
27 4 2 4 5 3 3 4 5 4 5 3 42
28 3 3 4 3 4 5 5 4 4 3 4 42
29 5 5 5 5 5 4 5 4 5 5 5 53
30 5 5 5 5 4 5 4 5 5 5 4 52
31 5 3 3 4 5 2 4 4 3 4 5 42
32 5 5 5 4 5 5 5 5 5 4 5 53
33 2 4 3 4 4 5 4 4 3 4 4 41
34 5 5 5 5 5 4 5 4 5 5 5 53
35 3 4 3 4 5 4 3 4 3 4 5 42
36 4 3 2 5 4 5 4 3 2 5 4 41
X ... ... ... ... ... ... ... ... ... ... ... ...
320
X2 ... ... ... ... ... ... ... ... ... ... ... ...
JKb = ...
JKk = ...
JKt = ...
JKe = JKt – JKk – JKb = ...

RJKb = ...
RJKe = ...
r= ...
321

ANALISIS BUTIR TES

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

ANALISIS BUTIR TES

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB 3

ANALISIS BUTIR TES

3.1. Analisis Butir Tes Objketif

a. Analisis Tingkat Kesukaran ButirTes Objektif

Dalam menganalisis tingkat keksukaran tes ini kita menggunakan

Dalam analisis butir tes, bilangan yang menunjukkan sukar dan

40 orang menjawab soal nomor 25, maka IK = = 0,40

b. Indeks Kesukaran Butir Soal.

c. Indeks Daya Pembeda Butir Soal.

D = Indeks Daya Pembeda Butir Soal

Tabel 3.2. Jawaban kelompok pintar untuk setiap butir

Tabel 3.3. Jawaban kelompok kurang pintar untuk setiap butir

Siswa Butir Tes Nomor

Untuk menghitung indeks kesukaran setiap butir, dilakukan sebagai berikut:

3. Hitung daya beda setiap butir sebagai berikut:

, (sangat baik), dan seterusnya

Persentase Option Tes Objektif Kategori

Sumber : CC. Roos dan Julian C. Stanley. “Measuremant in Today’s Schools”.

Keterangan: Option 2 adalah bentuk benar-salah; option 3, 4, dan 5

Tabel 3. 5. Indeks Daya Pembeda Soal menurut Roos dan Stanley.

Total Jumlah Selisih (WL – WH) Yang

Rumus yang digunakan untuk menghitung Indeks Kesukaran Soal

Tabel 3.7. Hasil jawaban benar dari kelompok tinggi/rendah

Nomor Soal Kelompo Siswa Yang

Keterangan: Soal: Mudah, kriterianya: 0,24 (11) = 2,64

Tabel 3.8. Jawaban benar dari kelompok tinggi/rendah

Nomor Kelompok Siswa Yang

Siswa Soal 1 Soal 2

Siswa Nilai Soal Nomor Nilai Ket

Atau setelah diurutkan hasilnya sebagai berikut:

Tabel 3.11. Nilai hasil ujian 20 orang siswa setelah diurutkan

Taraf Sukar Soal ( Difficulty Index = DI)

H R Nilai Nomor Soal LG Ra Nilai Nomor Soal

Demikian cara yang sama hitung yang lainnya.

c. Rerata Nilai yaitu

2. Hitung nilai t dengan rumus:

3,43 > t tabel =2,776(signifikan)

Butir Tes Nomor Butir Tes Nomor

Beberapa Kelemahan Tes Uraian

b. Sifat Subjektif berupa Efek Iringan (Carry Over Effect)

Sifat Efek Iringan (Carry Over Effect) dimaknai sebagai bentuk

c. Pengaruh Urutan Pemeriksaan (Order effect).

d. Pengaruh penerapan bahasa.

e. Pengaruh baik buruknya tulisan.

3.3 SKALA PENGUKURAN

A. Pembantu rumah tangga

Koefisien Reprodusibilitas dirumuskan sebagai berikut:

Dalam proses pengukuran penelitian, prinsip Guttman digunakan karena

Skala Coombs dapat juga berfungsi untuk menentukan urutan obyek,

1. Jenis nilai skala

Tidak Ada = 0 Tidak Setuju = 0

6,5 7,5 8,5

12,5 17,5 20,5

 Skala kategoris, untuk membedakan kategori.

 Skala kuantitatif berperingkat, untuk membedakan peringkat.

 Skala jawaban betul, untuk menentukan tingkat betul.

 Skala jawaban terbaik, untuk menetukan tingkat baik.

 Skala kiraan (Rating Scale), untuk menentukan letak kiraan.

 Skala satuan ukur, untuk menentapkan satuan ukur.

 Meter = 1/40.000.000 Keliling Bumi

 Detik = 1/24 x 60 x 60 Hari

 Tingkat status sosial ekonomi

Banyak macam bentangan skala :