menjadi kewalahan bahkan dapat menjadi putus asa, dan akibatnya motivasi akan
menurun sehingga keinginan untuk mencoba dan terus mencoba memecahkan
masalah dalam soal berada di luar kemampuannya.
228
Proporsi dari tingkat soal yang mudah, sedang, dan sukar merupakan
pertimbangan atas adanya keseimbangan ketiga kategori itu. Misalnya jika ada 60
soal tes objektif Matematika, mungkin saja ada 20 soal mudah, 20 soal sdang, dan
20 soal sulit. Dalam hal ini proporsinya sama betul jumlahnya. Perbandingan
antara soal mudah, sedang, dan sukar dapat juga dibuat 3: 4: 3, artinya dari
sejumlah soal tes objektif itu, maka ada 30% soal mudah, 40% soal sedang, dan
30% soal sukar. Ada juga yang membuat proporsi itu dengan 2 : 3: 5. Biasanya
hal ini tergantung kepada pertimbangan kepada pertimbangan (judgement) dari
guru saja.
Setelah dilakukan pertimbangan maka guru akan mengujicobakan tes
tersebut. Cara melakukan analisis butir tes untuk menentukan tingkat kesukaran
tes ini dengan menggunakan rumus: IK = .
Di mana : IK = Indeks kesukaran soal
B = Jumlah siswa menjawab benar, dan
N = Jumlah peserta tes
Kriteria yang digunakan adalah sebagai berikut:
0 ≤ IK ≤ 0,30, soal sukar
0,31 ≤ IK ≤ 0,70, soal sedang
0, 71 ≤ IK ≤ 1,00, soal mudah
Contoh 3.1. Misalnya dari 100 orang peserta tes matematika , maka jika untuk
soal nomor 5 jumlah yang menjawab benar adalah 15 orang maka IK
= = 0,15 yang berarti soal ini sukar. Kemudian jika sebanyak
Tabel 3.1. Hasil Ujian tes objektif Matematika oleh 30 orang siswa.
Siswa Butir Tes Nomor Total
2
Masrun, Analisis Butir tes (Yogyakarta: Fakultas Psikologi Universitas Gadjah Mada, 1982), p.
18
3
Algina, J dan Crocker, L. Introduction to Classical and Modern Test Theory (New York : Holt,
Rinehart and Winston, Inc), p. 315.
230
Nomor 1 2 3 4 5 6 7 8 9 10
1 1 0 1 1 1 1 1 1 1 1 9
2 1 1 1 1 0 0 1 1 1 1 8
3 1 0 1 1 1 0 1 1 1 1 8
4 1 0 1 1 1 0 1 1 1 1 8
5 1 0 1 1 1 0 1 1 1 1 8
6 1 0 1 1 1 1 1 1 1 0 8
7 1 1 1 0 1 1 1 1 0 0 7
8 1 0 1 0 1 0 1 1 1 1 7
9 1 1 0 1 1 0 0 1 1 1 7
10 0 0 1 1 1 0 1 1 1 1 7
11 1 1 1 1 0 0 0 0 1 1 6
12 1 1 0 1 1 0 0 0 1 1 6
13 1 1 0 1 0 0 1 1 1 0 6
14 1 0 1 0 0 0 1 1 1 1 6
15 1 0 0 1 0 0 1 1 1 1 6
16 1 0 0 1 1 0 1 1 1 0 6
17 0 0 1 1 1 0 1 0 1 1 6
18 1 1 1 1 0 0 0 1 1 0 6
19 0 0 0 0 1 1 1 1 1 1 6
20 0 0 1 1 1 1 1 1 0 0 6
21 0 0 0 1 1 1 0 1 1 1 6
22 1 0 1 1 1 1 0 1 0 0 6
23 1 1 0 1 0 0 0 0 1 1 5
24 1 1 1 1 0 0 0 0 1 0 5
25 0 1 1 0 1 0 0 0 1 1 5
26 1 0 1 1 0 0 1 0 1 0 5
27 0 0 0 1 1 0 1 1 0 1 5
28 0 0 0 1 1 0 1 0 1 0 4
29 0 0 0 1 1 0 0 0 1 1 4
30 1 0 0 0 1 0 0 0 1 0 3
Tahapan untuk menentukan daya pembeda setiap butir adalah sebagai berikut:
1. Hitung banyak kelompok siswa pintar dan kelompok siswa kurang pintar yaitu
n = 27% (30) = 8 orang
231
2. Pisahkan jawaban kelompok pintar dan kelompok kurang pintar masing-
masing sebanyak 8norang sebagai berikut:
232
(sedang)
(jelek)
233
d. Metode Ross dan Stanley
Dalam Sistem Pendidikan Nasional dikemukakan bahwa standar
nasional pendidikan terdiri atas standar isi, proses, kompetensi lulusan, tenaga
kependidikan, sarana dan prasarana, pengelolaan, pembiayaan, dan penilaian
pendidikan. Keseluruhannya harus ditingkatkan secara berencana dan berkala.
Pengembangan standar nasional pendidikan serta pemantauan dan pelaporan
pencapaian secara nasional dilaksanakan oleh suatu badan standardisasi,
penjaminan, dan pengendalian mutu pendidikan.
Menurut Peraturan Pemerintah Nomor 19 Tahun 2005 tentang Standar
Nasional Pendidikan seperti tertera pada pasal 63 ayat (1) bahwa penilaian
pendidikan pada jenjang pendidikan dasar dan menengah terdiri atas: (a)
penilaian hasil belajar oleh pendidik, (b) penilaian hasil belajar oleh satuan
pendidikan, dan (c) penilaian hasil belajar oleh pemerintah. Dalam hal ini,
penilaian hasil belajar dilakukan secara berkesinambungan untuk memantau
proses, kemajuan, dan perbaikan hasil dalam bentuk ulangan harian, ulangan
tengah semester, ulangan akhir semester, dan ulangan kenaikan kelas. Dalam
kaitan ini, menurut pasal 72 ayat (1) dinyatakan pula bahwa peserta didik
dinyatakan lulus dari satuan pendidikan pada pendidikan dasar dan menengah
setelah: menyelesaikan seluruh program pembelajaran, memperoleh nilai minimal
baik pada penialaian akhir untuk seluruh mata pelajaran agama dan akhlak mulia,
kelompok mata pelajaran kewarganegaraan dan kepribadian, kelompok mata
pelajaran estetika, dan kelompok mata pelajaran jasmani, olah raga, dan
kesehatan, lulus ujian sekolah/madrasah untuk kelompok mata pelajaran ilmu
pengetahuan dan teknologi, dan lulus Ujian Nasional
Dalam proses pembelajaran, metode atau cara yang diterapkan untuk
menentukan indeks kesukaran maupun daya pembeda soal bentuk objektif adalah
dengan menggunakan metode Rose dan Stanley. Kriteria yang digunakan dipakai
adalah dengan menggunakan Tabel sebagai berikut:
234
Tabel 3.4. Rumus Indeks Kesukaran Soal
236
210-212 57 10 11 11 11
213-216 58 10 11 11 11
Contoh 3.1. Hasil tes matematika dari sebanyak 20 butir soal dengan 4 option
terhadap 40 siswa adalah sebagai berikut.
Tabel 3.6. Hasil tes matematika dari sebanyak 20 soal dengan 4 option
terhadap 40 siswa
Nomor Nilai Ranking Nomor Nilai Ranking
Siswa Siswa
1 18 1 21 11 22
2 16 2,5 22 11 22
3 16 2,5 23 11 22
4 15 5 24 10 26,5
5 15 5 25 10 26,5
6 15 5 26 10 26,5
7 14 7,5 27 10 26,6
8 14 7,5 28 10 26,5
9 13 11 29 10 26,5
10 13 11 30 9 31,5
11 13 11 31 9 31,5
12 13 11 32 9 31,5
13 13 11 33 9 31,5
14 12 17 34 8 36
15 12 17 35 8 36
16 12 17 36 8 36
17 12 17 37 8 36
18 12 17 38 8 36
19 12 17 39 7 39,5
20 12 17 40 7 39,5
237
Dari Tabel 3. 4 tampak bahwa masing-masing ada sebanyak 27% x 40
= 11 orang siswa termasuk kategori tinggi (nomor 1 – 11) dan kategori rendah
( nomor 30 - 40). Setelah hasil jawaban kategori tersebut diperiksa, hasilnya
adalah sebagai berikut:.
239
Contoh 3.2. Dalam sebuah ujian mata pelajaran coba, sebanyak 15 tes
matematika dengan 4 option diteskan kepada 30 siswa. Hasil
pemeriksaan adalah sebagai berikut:.
Jika kita menggunakan kriteria Roos dan Stanley (Tabel 3.2), maka
dapat dijelaskan sebagai berikut. Jika selisih (WL – WH) lebih besar atau sama
dengan nilai Tabel 2 di atas, maka butir soal itu memiliki daya pembeda yang
baik, dan bila nilai berada dibawahnya, maka kategori tes kurang baik. Dalam
contoh ini untuk jumlah siswa 30 orang (dalam interval 39 – 42, berarti
240
n = 27% % x 40 = 11) dengan option 4, maka nilai kritisnya adalah 5. Semua nilai
di atas nilai batas ini memiliki daya pembeda yang baik, sebaliknya jelek.
Dengan demikian hasil uji coba memberikan hasil hanya 9 soal yang memiliki
daya pembeda yang baik, sedang 11 soal memiliki daya beda yang kurang baik
(jelek) dan harus diperbaiki atau diganti sama sekali.
241
3. 2. Analisis Tes Uraian (Essay Tes)
Tes uraian, atau essay test, dimaknai sebagai suatu alat penilaian hasil
belajar yang memiliki keunggulan dalam mengukur kemampuan siswa.
Umumnya tes uraian merupakan pertanyaan yang menuntut siswa menjawabnya
dalam bentuk menguraikan, menjelaskan, mendiskusikan, membandingkan,
memberikan alasan, dan bentuk lain yang sejenis sesuai dengan tuntutan
pertanyaan dengan menggunakan kata-kata dan bahasa yang baik dan benar.
Dalam tes ini dituntut kemampuan siswa dalam hal mengekspresikan gagasannya
melalui bahasa tulisan. Kelebihan tes uraian ini terletak pada penilaian
kemampuan sesungguhnya, tanpa dapatmelakukan tebakan. Bentuk tes kurang
praktis digunakan karena munculnya bentuk tes objektif. Masing-masing tes
objektif dan essay memiliki kelebihan dan kekurangan, bahkan sampai saat
perdebatan hal ini masih sering diperdebatkan oleh hampir semua guru mulai di
tingkat SD sampai diperguruan tinggi. Ada kecenderungan di kalangan guru
untuk kembali menggunakan tes uraian sebagai alat penilian hasil belajar,
terutama di perguruan tinggi, disebabkan oleh beberapa hal, antara lain ialah :
a) Adanya gejala menurunnya hasil belajar atau kualitas pendidikan di perguruan
tinggi yang salah satu di antaranya berkenaan dengan penggunaan tes
objektif
b) Lemahnya para siswa peserta tes dalam menggunakan bahasa tulisan sebagai
akibat penggunaan tes objektif yang berlebihan
c) Kurangnya daya analisis para siswa karena terbiasa dengan tes objektif yang
memungkinkan mereka main tebak jawaban manakala menghadapi kesulitan
dalam menjawabnya.
Kondisi seperti ini sangat menunj peserta tes yang penggunaan tes uraian
di perguruan tinggi akhir-akhir ini dengan harapan dapat meningkatkan kembali
kualitas pendidikan di perguruan tinggi. Harus diakui bahwa tes uraian dalam
banyak hal mempunyai kelebihan daripada tes objektif, terutama dalam hal
kemampuan menalar di kalangan mahasiswa dan siswa. Hal ini ialah karena
melalui tes ini para mahasiswa dapat mengungkapkan aspek kognitif tingkat
tinggi seperti analisis-sintesis-evaluasi, baik secara lisan maupun secara tulisan.
Siswa juga dibiasakan dengan kemampuan memecahkan masalah (problem
solving), mencoba merumuskan hipotesis, menyusun dan mengekspresikan
gagasannya, dan menarik kesimpulan dari pemecahan masalah.
242
Contoh 3.3. Diketahui 2 butir soal uraian, yakni butir soal nomor 1 dan butir soal
nomor 2, diberikan kepada 5 siswa yang masing-masing memiliki
nilai maksimum 6, dan sekor hasil jawaban seperti terterapada tabel
di bawah ini. Tentukan tingkat kesukaran dan daya pembeda kedua
butir soal tersebut.
Tabel. 3.9. Sebaran nilai 5 siswa pada tes uraian butir 1 dan 2.
Penyelesaian:
Cara yang lebih sederhana menghitung tingkat kesukaran dan daya pembeda
butir soal untuk jumlah peserta relatif sedikit (misalnya 5 orang siswa). Karena
peserta tes hanya 5 siswa dan nilai maksimal butir 1 adalah 6 dan nilai maksimum
butir 2 adalah 5, maka tingkat kesukaran dan daya pembeda butir tes 1 dan 2
masing-masing 2 dihitung sebagai berikut.
243
Keterangan: TK = Tingkat Kesukaran, DP = Daya Pembeda, KA = Kelompok
Atas, dan KB = Kelompok Bawah
244
IK &DB TES URAIAN
Contoh 3.3. Andaikan dalam suatu ujian tes uraian Mata pelajaran Matematika
untuk 5 butir tes, yang melibatkan 20 orang siswa, hasilnya adalah
sebagai berikut.
Tabel 3.10. Nilai hasil ujian 20 orang siswa.
1 20 10 14 9 7 60
2 18 20 19 12 9 78
3 15 11 10 9 8 53
4 20 13 15 11 6 65
5 10 12 16 10 3 51
6 19 18 17 12 14 80
7 10 18 10 9 11 58
8 16 8 9 8 9 50
9 15 10 18 8 8 59
10 20 20 8 7 9 64
11 20 9 10 8 7 54
12 10 18 18 11 6 63
13 12 10 11 3 1 37
14 12 19 10 2 6 49
15 20 16 15 11 7 69
16 14 19 13 7 4 57
17 15 9 7 5 0 36
18 14 18 19 9 10 70
19 6 7 20 10 5 48
20 3 5 18 8 6 40
246
HG) yaitu : 80, 78, 70, 69, 65, dan nilai terendah (Low Group = LG) ada 5
orang siswa yaitu 49, 48, 40, 37, 36.
4. Buat daftar nilai individu ke dalam Tabel sebagai berikut :
Tabel 3.12. Ranking nilai hasil ujian 20 orang siswa dalam ringkasan tabel.
Dengan demikian:
247
Untuk Sekor Setiap Soal Berbeda Rumus Menjadi
Contoh: Untuk sekor berbeda ( I = 10, II = 10, III =15, IV = 20, V = 45)
I II III IV V I II III IV V
10 3 10 2 40 10 9 10 2 27
9 9 9 10 30 9 7 10 10 32
8 8 7 12 20 8 9 15 12 15
8 9 14 15 15 9 7 13 15 17
9 9 15 20 42 9 10 12 16 42
44 38 55 59 147 45 42 60 55 133
248
Daya Pembeda Butir Soal
Untuk menghitung daya pembeda soal lakukan langkah-langkah sebagai
berikut.
1. Dari masing-masing butir tentukanlah
a. Jumlah Total nilai yaitu
b. Jumlah Kuadrat yaitu
Artinya butir tes 1 memiliki daya pembeda yang baik, yang dapat
membedakan antara siswa yang pandai dengan yang kurang pandai (bodoh).
Dengan perhitungan tersebut hasilnya dirangkum sebagai berikut:
Tabel 3.13. Analisis daya beda data nilai hasil ujian dengan statistik uji statistik t
Nilai Tes
18 20 19 12 9 6 7 20 10 5
14 18 19 9 10 3 5 18 8 6
20 16 15 11 7 12 10 11 3 1
20 13 15 11 6 15 9 7 5 0
Jlh 91 85 85 55 46 48 50 66 28 18
JK 1681 1473 1461 611 462 558 616 994 202 98
Rerata 18.2 17 17 11 9.2 9.6 10 13.2 5.6 3.6
Deviasi 24.8 28 16 6 38.8 97.2 116 122.8 45.2 33.2
249
t 3,43 2,61 1,44 3,37 2,97
Kesimp signifikan sig nonsig sig sig
Sifat ini dimaknai sebagai suatu sifat subjektif dari individu pemberi
nilai yang kurang jujur dan kurang konsisten. Seringkali seorang guru pemeriksa
lembar jawaban ujian, mengasumsikan seorang siswa yang pandai memiliki nilai
tinggi tanpa memeriksa lembar jawaban ujian secara teliti, langsung memberikan
nilai yang tinggi. Meskinya hal semacam ini tidak harus terjadi. Si Abdullah
adalah siswa pintar. Lalu guru tidak konsisten memeriksa lembar kertas ujian, dan
berasumsi nilai Abdullah tinggi, sehingga memberi nilai 90 tanpa diketahui pasti
berdasarkan hasil pemeriksaan pekerjaan Abdullah. Guru memeriksa hasil ujian
Abdilla untuk mata pelajaran tertentu Pada saat guru memeriksa hasil ujian
Abdilla, dalam pikiran guru sudah tergambar bahwa Abdilla pasti akan
memperoleh nilai yang tinggi. Adanya pemikiran tersebut akan sangat
mempengaruhi hasil pemeriksaannya, mskipun jawaban hasil ujian Abdilla
sebetulnya kurang bagus tetapi karena sudah mengenal bahwa Abdilla adalah
anak yang pandai maka guru cenderung memberi nilai tinggi terhadap hasil ujian
Abdilla. Kasus semacam ini dikenal dengan istilah (Hopkins,1990). Dalam
memeriksa tes objekti hal ini jarang dbutir tesukan karena jawaban tes objektif
bersifat tertutup, sehingga pemikiran asumsi atas siswa pada atau bidoh tidak
dipertimbangkan. Guru memeriksa lembar jawaban siswa mengacu kepada kunci
jawaban yang tersedia.
251
Skala pengukuran dimaknai sebagai bentuk penilaian terhadap
seperangkat lambang atau angka yang dibuat sehingga melalui aturan lambang
atau angka itu dapat dbutir tespatkan pada individu siswa yang menjadi sasaran
pengguna skala dengan melibatkan seperangkat aturan yang diperlukan dalam
pengukuran tersebut. Bentuk penskalaan dapat berupa proses untuk
mengasosiasikan bilangan dengan kinerja peserta ujian. Metode penskalaan
adalah aturan untuk memberikan bilangan kepada bentuk jawaban tes, di mana
skala responsi dapat berupa representasi kategori atau kontinum tempat
responden menata diri mereka. Skala digunakan untuk memperoleh responsi yang
dapat dibandingkan satu terhadap lainnya. Untuk kepentingan ini digunakan
skala pengukuran yang sesuai. Cara yang dipakai untuk menempatkan angka atau
bilangan pada hasil ukur, dilihat dari alat ukur pengukurannya, misalnya alat ukur
meteran, menggunakan Skala ukur “meter” dapat berupa cm, m, dm, km, dan
sebagainya. Hasil ukurnya dapat berupa panjang satuan skalanya, seperti, 2 meter,
10 meter, dan lainnya. Untuk alat ukur Timbangan, skala ukurnya berupa satuan
berat, gram, ons, pons, kg, ton dan sebagainya. Pada pengukuran hasil belajar,
alat ukur yang dipakai dapat berupa tes yang menerapkan skala ukur dengan
skala yang bervariasi, meskipun umumnya menggunakan skala 1-100, sehingga
hasil pengukurannya berupa nilai atau nilai, misalnya 45, 70, 100 dan
sebagainya. Pada proses pengukuran umumnya melibat tipe skala nominal,
ordinal, interval, dan rasio, seperti yang telah dijelaskan sebelumnya.
Pada proses pengukuran dan penilaian hasil belajar sebuah rencana
harus konsistensi secara internal pada pengukuran untuk menempatkan bilangan
dikenal sebagai suatu model penskalaan dan ukuran yang dihasilkan oleh
penerapan rencana itu sering diistilahkan sebagqi suatu skala (ukuran). Dalam
kaitan ini suatu skala dimaknai sebagai seperangkat lambang atau angka yang
dibuat sehingga melalui aturan lambang atau angka itu dapat dbutir tespatkan
pada individu (perilaku siswa) yang menjadi sasaran pengguna skala pengukuran
hasil beljar tersebut. Maknanya bahwa sebuah penskalaan dapat diartikan sebagai
suatu proses untuk mengasosiasikan bilangan dengan kinerja siswa sebagai
peserta tes tersebut. Dalam kaitan ini, strategi atau metode penskalaan dilibatkan
sebagai suatu aturan yang membantu untuk memberikan gambaran suatu nilai
atau bilangan kepada siswa peserta tes, di mana pemberian skala responsi
dimaknai sebagai bentuk representasi kategori atau kontinum tempat siswa
peserta tes menata diri mereka,yaKni melibatkan skala untuk memperoleh
jawaban seorang siswa yang dapat dibandingkan satu terhadap siswa lainnya.
252
Dalam proses pengukuran dan penilaian hasil belajar dikenal beberapa skala
antar lain:
a. Skala Guttman
Skala Guttman dikenal sebagai analisis skalogram yang susunan skalanya
berkisar dari bentuk jawaban siswa berupa pilihan jawaban yang disusun dari
jenjang yang lemah ke jenjang kuat. Dalam skala Guttman, apabila siswa setuju
pada salah satu pilihan jawaban, maka pilihan yang lebih lemah juga disetujuinya.
Dalam hal ini jenjang persetujuan itu dapat berupa tingkatan dari yang lemah ke
kuat. Misalnya jika jenjang itu diurutkan dari yang paling lemah ke yang kuat
yakni jika ada 4 jenjangan A, B, C, D, maka jika setuju B, seharusnya setuju
mestinya A setuju, dan jika setuju C, seharusnya A dan B setuju juga.
A. + + + +
B. - + + +
C. - - + +
D. - - - -
Misal :
Lemah
253
Dalam banyak hal, skala Guttman dipercaya dapat menguntungkan
karena respon tunggal yang melekat paadanya dapat digunakan untuk
meramalkan berbagai tanggapan siswa terhadap semua butir tes yang melekat
pada skala tersebut sehingga skala Guttman berperan sebagai penentu
(deterministik). Dalam proses pengukuran, skala Guttman dicirikan oleh adanya
sifat yang dapat berhasil diselesaikan hanya ketika komponen prasyarat dapat
dituntaskan dalam urutan tertentu yang dianggap merupakan suatu penerapan
(implicational) terukur yang terdapat di alam. Nilai atau nilai akhir yang
diperoleh dari pengukuran melalui skala Guttman dapat dianggap setara dengan
butir terbaik (tertinggi) dari siswa yang telah sepakat dengan atau telah menjawab
dengan tepat. Dari pengukuran dan penilaian nilai akhir ini, siswa diharapkan
mampu memprediksi semua butir tes yang lain, di mana siswa telah sepakat
dengan atau menjawab dengan tepat dan akurat. Dengan kondisi skala Guttman
ini maka sering dikatakan bahwa skala ini bersiat skalabilitas atau implicational.
Di sisi lain, perlu diahami bahwa skala Guttman bukan merupakan statistik
karena tidak memperhitungan error atau kesalahan estimasinya. Untuk ini skala
Guttman dapat berfungsi dengan cara ini, bila butir tes yang terdapat dalam skala
Guttman tersebut diterapkan dari yang paling mudah ke yang paling sulit. Hal
seperti ini banyak ditentukan dengan cara memilih butir tes dalam urutan yang
tepat sesuai dengan proporsi jawaban yang sesuai atau yang tidak sesuai pada
butir pengukuran tersebut. Pendekatan pengukuran seperti ini, akan menghasilkan
pengukuran hasil belajar siswa yang paling mampu akan menjawab benar butir
pengukuran baik yang sulit maupun yang mudah, sementara siswa yang paling
tidak mampu akan menjawab benar (merespon positif) terhadap butir tes yang
mudah saja. Pada kenyataannya, skala Guttman yang sering digunakan ketika ada
kebutuhan untuk mengembangkan alat ukur non-tes berupa kuesioner singkat
dengan kemampuan diskriminan yang baik.
254
Kesulitan menerapkan butir pertanyaan yang menekankan pendekatan
probabilistik analisis Rasch pada teori pengukuran dan analisis modern.
Penerapan model Rasch satu parameter mengasumsikan bahwa pengamatan
memiliki deterministik skala Guttman yang mendasarinya, tetapi skala
peringkatnya terganggu oleh adanya sumber variabilitas acak homogen yaitu,
varians dari distribusi kesalahan adalah sama untuk setiap responden siswa.
Model Rasch adalah model sebenarnya dari varians acak dalam skala Guttman
yang memperhitungkan adanya kesalahan untuk memperkirakan interval antara
butir pertanyaan dan para siswa sebagai responden. Sebaliknya, melibatkan
deterministik Guttman yang berskala ordinal karena skala ini memiliki informasi
yang cukup untuk memperkirakan interval. Untuk mengevaluasi sifat skala
Guttman dari berbagai sifat tersebut yang berfungsi untuk melihat apakah urutan
hirarkis yang cukup ketat dapat untuk mempertimbangkan kesulitan butir
pertanyaan yang valid. Analisis tanggapan dari siswa sebagai responden dengan
vivi yang lemah dengan instrumen visual yang mencakup aktivitas skala visi
berkelanjutan yang diperluas dan dilengkapi dengan kuesioner yang
menunjukkan beberapa penyimpangan dari model skala Guttman. Hasil analisis
ini menunjukkan bahwa hubungan antara sifat laten dan tanggapan kuesioner
tidak deterministik tetapi bisa probabilistik. Pengembangan hal ini dimaksudkan
untuk menciptakan skala Guttman sehingga ada kemungkinan bahwa hal itu
berlaku dalam model untuk memahami urutan jenjang yang cukup penting untuk
skala Guttman yang dapat berguna untuk melacak jumlah kelemahan yang
muncul dari waktu ke waktu. Skala Guttman menunjukkan bahwa secara efektif
hanya berisi satu pertanyaan tunggal yang yang tidak dapat dianalisis
menggunakan analisis Rasch yang menggunakan model probabilistik. Karena
skala ini dimaksudkan untuk menjadi ukuran yang mampu mengukuran jenjang
dan siat berbagai fenomena yang terjadi di lapangan.
b. Skala Coombs
Posisi skala Coombs terletak pada kisaran skala ordinal dan skala
interval, yang dimaknai sebagai penunjukan jarak yang lebih dekat dan jarak
lebih jauh.
P Q R S
255
P Q R S
visual, kami juga memilih untuk menguji validitas konstruk jika dibandingkan
dengan ketajaman visual diukur.
c. Nilai skala
Politomi
2. Skala Dikotomi
(a) Hanya ada dua macam nilai,biasanya dinyatakan sebagai 0 dan 1
(b) Contoh 5
Jawaban Benar = 1
Jawaban Salah = 0
Ada = 1 Setuju =1
256
Sebagian Benar = 1 . . . . 9
Benar = 10
Peringkat
Dari rendah ke tinggi
1, 2, 3, 4, 5
Kiraan(Rating)
Dari buruk ke baik
1, 2, 3, 4, 5, 6, 7
d. Sifat Skala, dapat dibedakan atas:
1. Skala Diskrit
Jika diurutkan, terdapat lompatan di antara skala,
X1 X2 X3
. . . . . .
Misal :
1, 2, 3, 4, 5, . . .
5, 10, 15, 20, 25, . . .
100, 150, 200, 250, 300, . . .
2. Skala Kontinu
Jika data hasil pengukuran diurutkan, menjadi serba terus berkelanjutan
(sinambung) maka tipe data seperti ini dinamakan data kontinu.
Mis.
1 1,5 2 3 4 5
257
1,25
3. Diskrit Semu
Bila data hasil pengukuran bersifat terputus dari satu titik ke titik
berikutnya, maka data seperti ini disebut data distkrit yang ditata melalui
aturan tertentu.
kontinu
. . . . Diskrit Semu
Misal :
6 7 8 9
6 7 8 9
258
10 15 20 25
e. Dari data yang dihasilkan pada suatu pengukuran, maka berbagai tipe skala
yang muncul dapat dibedakan menjadi:
1. Tipe Skala Dasar
Ada sejumlah tipe skala ukur :
259
Gram =
Ampere =
0
C = 1/100 (Temp.Didih - Temp.Beku) Air
Volt =
1. Skala Kategoris
(b) Skala ini hanya menunjukkan kategori obyek ukur
(c) Contoh 7
Makanan Asin =1
Makanan manis =2
Makanan Asam =3
Makanan Pedas =4
Orang Desa =1
Orang Kota =2
2. Skala Kuantitatif Berperingkat
(a) Skala ini menunjukkan peringkat pada obyek ukur
(b) Contoh 8
260
Ragam Tutur Bahasa
Halus = 1
Menengah = 2
Kasar =3
Kepekatan Kopi
Tiada Kopi =1
Kopi Encer =2
Kopi Agak Encer =3
Kopi Sedang =4
Kopi Agak Pekat =5
Kopi Pekat =6
Frekuensi
Tidak Pernah =1
Kadang-kadang =2
Agak Sering =3
Sering =4
Selalu =5
Status Pendidikan
Tidak Pernah Bersekolah =0
Tidak Lulus SD =1
Lulus SD =2
261
Lulus SLTP =3
Lulus SLTA =4
Lulus S1 Perguruan Tinggi =5
Lulus S2 Perguruan Tinggi =6
Lulus S3 perguruan Tinggi =7
Jumlah Mahasiswa
Kurang dari 1000 =1
1001 – 5000 =2
5001 – 10000 =3
10001 – 15000 =4
15001 – 20000 =5
Lebih Dari 20000 =6
3
0, . . . , 5. Skala Jawaban Betul
(a) Jawaban Betul Dikotomi
Hanya Ada Jawaban :
Salah
Benar
Acuan jawaban adalah kunci jawaban
Skala yang biasa digunakan :
Jawaban Salah :0
Benar : 1
Pertanyaan dapat berbentuk :
Betul atau Salah
262
Pilihan Ganda satu jawaban betu
Contoh :
Helsinki adalah ibukota Norwegia
B S
Kunci : S
Pertanyaan Pilihan Ganda
Penulis buku “Principia Mathematica philosophae Naturalis” adalah
A. Rene Descartes
B. Isaac Newton
C. Galileo Galilei
Kunci : B
(b) Jawaban Betul Politomi
Jawaban mencakup :
Salah
Sebagian betul
Betul
Acuan jawaban adalah kunci jawaban
263
3. 4. Validitas
I. Validitas
Validitas berasal dari kata validity yang berarti sejauh mana ketepatan dan
kecermatan suatu alat ukur melakukan fungsi ukurnya. Suatu tes atau instrumen
pengukuran dikatakan memiliki validitas yang yang tinggi apabila alat tersebut
menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan
maksud dilakukannya pengukuran tersebut.
Validitas suatu tes harus selalu dikaitkan dengan tujuan atau pengambilan
keputusan tertentu. Tes masuk misalnya harus selalu dikaitkan dengan seberapa
jauh tes masuk tersebut dapat mencerminkan prestasi belajar para calon siswa
baru setelah belajar nanti. Konsep validitas tes dapat dibedakan atas 3 macam
1. Validitas isi (content validity)
2. Validitas konstruk (construct validity)
3. Validitas empiris kriteria
Validitas empiris dibedakan atas dua macam yaitu:
(a) validitas kongkuren (concurrent validity), dan
(b) validitas prediktif (predictive validity).
264
a. Validitas Isi
Validitas isi suatu tes mempermasalahkan seberapa
jauh suatu tes mengukur tingkat penguasaan terhadap isi
suatu materi tertentu yang seharusnya dikuasai sesuai
dengan tujuan pengajaran. Tes yang mempunyai validitas isi yang baik
ialah tes yang benar-benar mengukur penguasaan materi yang seharusnya
dikuasai. Menurut Gregory (2000) validitas isi menunjukkan tingkat sejauhmana
pertanyaan, tugas atau butir dalam suatu tes mampu mewakili secara keseluruhan
perilaku sampel yang dikenai tes tersebut. Wiersma dan Jurs (1990) menyatakan
bahwa validitas isi sebenarnya mendasarkan pada analisis logika, jadi tidak
merupakan suatu koefisien validitas.
Untuk memperbaiki validitas suatu tes maka isi suatu tes harus
diusahakan agar mencakup semua pokok/sub-pokok bahasan yang hendak diukur.
Kriteria untuk menentukan proporsi masing-masing pokok/sub-pokok bahasan
yang tercakup dalam suatu tes ialah berdasarkan banyaknya isi (materi) masing-
masing pokok/sub-pokok bahasan, yang dapat dilihat dari jumlah halaman isi
(materi) dan jumlah jam pertemuan untuk masing-masing pokok/sub-pokok
bahasan.
Penentuan proporsi tersebut dapat pula didasarkan pada pendapat
(judgement) para ahli dalam bidang bersangkutan. Suatu tes akan mempunyai
validitas isi yang baik jika tes tersebut terdiri dari butir tes-butir tes yang
mewakili semua materi yang hendak diukur. Salah satu cara yang biasa
dilakukan untuk memperbaiki validitas isi suatu tes ialah dengan menggunakan
blue-print untuk menentukan kisi-kisi tes.
265
a. Analisis melalui Interater
Untuk menentukan tingkat kesepakatan antar pengamat dianalisis secara
statistik dengan mengikuti prosedur yang dijabarkan dengan mekanisma dan
prosedur penggunaan rumus-rumus statistika sebagai berikut:
JKb =
JKk =
JKt =
RJKe =
r=
JKb = Jumlah Kuadrat butir
JKk = Jumlah Kuadrat Pengamat
JKt = Jumlah Kuadrat Total
Jke = Jumlah Kuadrat kekeliruan
dbt = nt – 1 = derajat kebebasan total
dbb = nb – 1 = derajat kebebasan butir
dbk = k – 1 = derajat kebebasan pengamat, dan
dbe = (n – 1)(k-1) = derajat kebebasan kekeliruan
266
Penilai
No A B C D E F G H
butir Total
1 5 4 5 5 5 5 4 5 38
2 4 5 4 3 4 4 3 4 31
3 4 5 4 4 3 4 3 3 30
4 4 2 2 4 3 4 5 3 27
5 3 5 2 5 4 4 4 3 30
6 3 4 5 3 4 2 5 4 30
7 4 3 5 4 4 2 4 5 31
8 5 5 5 5 5 5 4 5 39
9 4 2 5 3 4 3 4 5 30
10 4 5 5 5 4 5 5 5 38
11 4 5 5 4 5 5 5 5 38
12 4 5 5 5 5 5 5 4 38
13 4 4 5 5 5 5 5 4 37
14 3 3 4 3 4 3 4 4 28
15 5 5 5 5 4 5 4 5 38
16 5 5 4 5 5 5 5 5 39
17 5 5 4 5 5 5 4 5 38
18 5 5 5 4 5 5 5 4 38
19 5 5 5 5 4 5 5 5 39
20 5 5 5 5 5 4 4 5 38
21 5 5 5 4 5 4 5 5 38
22 4 5 5 5 4 5 4 5 37
23 5 5 5 4 5 4 5 5 38
24 5 2 3 3 4 3 4 5 29
25 5 5 5 5 4 5 4 5 38
26 5 5 5 4 5 5 4 5 38
27 4 5 5 5 4 5 5 5 38
28 5 5 5 5 4 5 4 5 38
29 4 5 5 4 5 5 5 5 38
30 5 5 4 5 5 5 4 5 38
267
31 4 5 5 4 5 5 5 5 38
32 4 2 4 5 3 3 4 5 30
33 3 3 4 3 4 5 5 4 31
34 5 5 5 5 5 4 5 4 38
35 5 5 5 5 4 5 4 5 38
36 5 3 3 4 5 2 4 4 30
37 5 5 5 4 5 5 5 5 39
38 2 4 3 4 4 5 4 4 30
39 5 5 5 5 5 4 5 4 38
40 3 4 3 4 5 4 3 4 30
41 4 3 2 5 4 5 4 3 30
42 2 4 4 3 4 4 4 5 30
43 3 3 3 4 2 5 4 4 28
44 5 4 5 4 5 4 5 5 37
45 3 3 5 4 3 5 4 3 30
46 5 2 5 4 2 5 3 4 30
47 4 5 4 5 4 5 5 5 37
48 4 5 5 5 5 5 4 5 38
49 3 4 4 4 3 4 4 4 30
50 5 5 4 5 5 5 5 4 38
51 5 4 5 5 5 4 5 4 37
52 5 5 5 5 5 4 5 5 39
53 5 4 5 5 5 5 5 4 38
54 5 5 5 5 5 4 5 5 39
55 5 5 5 5 5 4 5 5 39
56 4 3 3 4 3 4 2 5 28
57 3 3 3 4 4 4 5 4 30
58 4 5 5 5 5 4 5 5 38
59 2 5 3 4 3 4 2 4 27
60 5 4 5 5 5 5 5 5 39
X 254 256 263 264 259 262 261 270 2089 545663
X2 1122 1152 1201 1190 1157 1184 1169 1240 73803 9415
268
JKb =
JKk =
JKt =
RJKb =
RJKe =
r=
269
Sisa 168,744 413 0,452
Total 323,498 479 - -
b. Validitas Konstruk
Validitas konstruk dimaknai sebagai bentuk validitas yang
mempersoalkan seberapa tajam butir tes dapat mengukur konsep apa yang
sesungguhnya akan diukur sesuai dengan konsep khusus atau definisi operasional
yang telah ditentuka sebelumnya. Dalam menentukan validitas konstruk biasanya
ditentukan dengan menggunakan dua kriteria yaitu:
i. Kriteria internal (internal criterion), yaitu tes itu sendiri yang dijadikan
kriteria
ii. Kriteria eksternal (external criterion), yaitlu tes lain yang sudah valid
untuk mengukur konstruk dijadikan kriteria.
Pada proses pengukuran, validitas konstruk menerapkan kriteria internal
atau validitas interenal, sedangkan validitas konstruk yang menerapkan kriteria
eksternal. Validitas konstru,k dimaknai sebagai validitas konvergen yang
menekankan pada pengukuran faktor-faktor yang membentuk suatu tes, dan
seberapa tepatnya tes tersebut mampu mengukur konsep yang seharusrya diukur
oleh suatu alat ukur berupa tes atau non tes. Pengukuran dengan menerapkan
validitas konvergen dimaknai sebagai suatu teknik perhitungan koefisien korelasi
dari berbagai indikator yang membentuk tes berdasarkan kisi-kisi yang cocok.
Dalam suatu pengukuran, suatu tes dianggap valid jika konsep yang membentuk
tes tersebut saling berkorelasi tinggi.
Validitas internal suatu butir tes tes ditunjukkan oleh koef'isien korelasi
antara nilai butir tes tersebut dengan nilai total tes, di mana makin tinggi
korelasinya maka validitas internal butir tes tersebut makin tinggi (baik). Suatu
4
Borg, Walter R & Gall, Meredith D. Educational Research (New York: Longmann, 1983), p.
479.
270
butir tes dikatakan mempunyai validitas internal yang memadai jika nilai butir tes
tersebut mempunyai korelasi yang signifikan dengan nilai total tes.
Pada proses pengukuran, validitas eksternal suatu butir tes tes ditunjukkan
oleh koefisien korelasi antara nilai butir tes tersebut dengan skol total pada tes
baku yang diacu sebagai kriteria pengukuran. Demikian pula tingkat kesahihan
atau validitas eskternal dari suatu tes diperlihatkan oleh koefisien korelasi antara
nilai tes tersebut dengan nilai tes standar yang diambil sebagai kriteria
pengukuran. Penerapan patokan berupa kriteria internal akan lebih dititikberatkan
untuk menentukan kesahihan internal pada suatu butir tes, sedangkan
penggunaan validitas eksternal akan lebih dititikberatkan untuk menentukan
validitas suatu tes. Validitas konstruk berkaitan dengan eksperimen psikologi
misalnya cemas akan suatu kekacauan. Ini mengacu pada kemungkinan operasi
yang menghadirkan penyebab khusus atau efek konstruk tertentu yang dapat
mempunyai arti lebih dari satu konstruk, setiap reduksi pada tingkat yang sama.
Kekacauan di sini berarti seorang peneliti menginterpretasikan secara teoritis ada
hubungan antara A dan B, peneliti yang lain menginterpretasikan adalah suatu
hubungan sebab akibat antarA dan Y, atau antar X dan B atau bahkan antara X
dan Y.
Proses analisis pada kesahihan pengukuran atau validitas konstruk dari penyebab
yang mempengaruhi ditentukan tingkat ketepatan alat ukur, karena ini suatu
pengukuran yang rumit harus memiliki indikator pengukuran dalam suatu
eksperimen lapangan. Perlu dicatat bahwa validitas kopnstruk tidakl terbatas
pada penyebab dan efek konstruk. Aspek pengukuran perlu melibatkan sampel
pengukuran atau objek ukur. Validitas internal dan validitas statistik memberi
suatu kesimpulan yang menyangkut perbedaan dari berbagai fenomena lapangan.
Di dalam penelitian, faktor Hawthorne Efek merupakan suatu pengacau
yang dapat membuat penyebab ketidakpastian tentang bagaimana operasi harus
dilakukan. Jika kita mengasumsikan pada saat itu produktivitas telah ditingkatkan
dengan studi Hawthorne dengan intervensi ekperimen yang direncanakan, isu
konstruk validiti bertujuan : Apakah peningkatan atau pergeseran disebabkan
oleh (perlakuan yang direncanakan) atau kecenderungan administratif yang
meningkatkan kondisi kerja (Hawthorne efek).
Perencanaan konstruk validitas mulai direncanakan dengan langkah pilot-
testing dari suatu eksperimen, ketika usaha antisipasi penyebab cocok dan efek
operasi referensi konstruk mereka, apakah ini diperoleh dari teori ilmu sosial
formal atau dari pertimbangan kebijakan. Seperti "pencocokan" kepada konstruk
271
dari minat yang terbaik dicapai ( 1) sebelum experimental dilakukan konstruk
didefinisikan dengan jelas dan sesuai dengan pemahaman kata-kata publik yang
digunakan, dan ( 2) analisa data diarahkan pada empat poin berikut:
Pertama, dibuat suatu test untuk variabel independen apakah variabel itu
benar-benar dapat mengubah apa yang dimaksud. Ini dilaksanakan dengan
mengukur apakah perlakuan manipulasi mengukur proses yang dirancang untuk
pengaruh perlakuan. ( Ini disebut "mengukur” variabel independen").
Ke dua, suatu test yang dilakukan untuk menilai apakah tidak ada
perbedaan variabel independen dalam mengukur hubungan, tetapi berbeda
konstruk. Sebagai contoh, manipulasi keahlian komunikator?' yang dikorelasikan
dengan laporan dari responden tentang pengetahuan tingkatan communicator, di
sini tidak dihubungkan dengan attribut konstruk, seperti, kecocokan, atau
kekuatan. Jika ada korelasi, sukar untuk membedakan pengaruh apakah dari
keahlian atau dari yang variabel lain .
Ketiga, variabel dependent harus dapat mengukur faktor-faktor yang
harusnya diukur. Secara normal, beberapa format inter-butir tes yang berkorelasi
dapat ditekankan.
Dan keempat, variabel yang dependent tidak didominasi oleh faktor
yang tidak relevan yang membuat ukuran kurang baik. Hasil konstruk, seperti
konstruk perlakuan, harus dibedakan.
Ketika kita sudah memerinci prosedur, pengukuran validitas konstruk
bergantung pada dua penilaian: pertama, menguji kovergensi perbedaan
pengukuran, memanipulasi sesuatu yang sama, dan kedua, menguji suatu
divergensi antar ukuran dan manipulasi dari hubungan, tetapi yang secara
konseptual membedakan "berbagai hal". Posisi kita harus tidak
mengintrepretasikan bahwa validitas konstruk sungguh tergantung pada
konvergensi dan divergensi, sebab jika kita menginginkan dengan jelas informasi
tentang kovergensi, kita tidak secara langsung mengtahui divergensi. Diskusi
tentang validitas konstruk dibatasi dengan konvergensi, bahkan selagi hal itu
tidak berkorespondensi antara sesama jenis pengukuran yang berbeda tipenya.
Dalam mengukur hal yang sama akan memberi makna yang yang lebih sedikit,
jika ada ketidaktepatan pengukuran yang sama yang berhubungan dengan ukuran
masing-masing-masing-masing, atau pengukuran observasional terhadap konstruk
yang dibuat sama- lihat Campbell dan Tyler, 1957; Cronbach Dan Meehl, 1955;
Cronbach, Glesser, Nanda, dan Rajaratnam, 1972. Bagaimanapun, seperti halnya
Campbell dan Fiske ( 1959) menyarankan, suatu konstruk harus dibedakan dari
272
hubungan teoritis konstruk seperti ketidak-tepatan metodologis. ( misalnya,
perbedaan dari konstruk teoritis lain, merupakan dasar riset, lihat Cook, Crosby
dan Hennigan, 1977.
c. Validitas Kongkuren
Validitas kongkuren (concurrent validity) adalah validitas yang
mempermasalahkan seberapa jauh kemampuan suatu tes untuk meramalkan
penampilan masa sekarang. Sebuah tes dikatakan memiliki validitas konkuren
yang baik jika hasilnya sesuai dengan penampilan atau kemampuan yang ada
sekarang. Untuk menentukan validitas konkuren suatu tes maka digunakan
kriteria eskternall yaitu penampilan yang ada sekarang.
Misalnya untuk menentukan validitas konkuren tes sumatif yang dibuat
untuk siswa SMU, maka nilai ulangan harian caturwulan yang bersangkutan
dapat dijadikan sebagai kriteria atau alat banding yang dibuat eksternal. Validitas
konkuren suatu tes ditunjukkan oleh koefisien korelasi antara tes tersebut dengan
nilai ulangan harian caturwulan yang bersangkutan.
d. Validitas Prediktif
Validitas prediktif (predictive validity) suatu tes adalah validitas yang
mempermasalahkan seberapa jauh kemampuan suatu tes dapat meramalkan atau
memprediksi penampilan yang akan datang. Sebuah tes dikatakan memiliki
validitas prediktif yang baik jika hasilnya sesuai dengan penampilan atau
kemampuan masa yang akan datang.
Misalnya untuk menentukan validitas prediktif tes masuk, maka nilai
caturwulan I setelah diterima dapat dijadikan kriteria atau alat pembanding.
Validitas prediktif suatu tes ditunjukkan oleh koefisien korelasi antara tes tersebut
dengan caturwulan sebagai kriterianya.
e. Konsep Validitas
Kita akan menggunakan konsep validitas dan ketidakvalidan untuk
mengacu pada pendekatan terbaik yang tersedia kepada validitas, atau kepalsuan
terhadap proposisi, mencakup tentang proposisi-proposisi tentang penyebab.
Sehubungan dengan diskusi dalam bab 1, kita selalu menggunakan sifat
“pendekatan" ketika mengacu pada validitas, selama seseorang tidak pernah dapat
mengetahui apa validitas itu. Paling baik, seseorang dapat mengetahui apa yang
273
belum diatur sebagai suatu kesalahan. Oleh karena itu, apabila kita menggunakan
istilah valid dan invalid di dalam buku ini, mereka selalu menjadi memahami
tentang sifat pendekatan atau yang bersifat tentatif (sementara).
Suatu yang dapat diharapkan adalah banyaknya jenis validitas ketika
berusaha untuk mengembangkan suatu jaringan kerja di mana untuk memahami
eksperimen di dalam bidang kompleks adalah cukup menentukan. Campbell dan
Stanley ( 1963) keduanya dinamakannya sebagai "validitas internal" dan "
validitas eksternal". Validitas internal mengacu pada pendekatan validitas dengan
mana kita menduga bahwa suatu hubungan antara dua variabel adalah
menyebabkan atau menghadiran suatu hubungan yang menyiratkan keberadaan
penyebab tersebut. Validitas eksternal mengacu pada pendekatan validitas dengan
mana kita dapat menduga bahwa hubungan sebab akibat yang dikira dapat
digeneralisasi dan mengubah ukuran penyebab dan efek dan melampaui type
orang yang berbeda , pengaturan, dan waktu.
Untuk lebih meyakinkan, selanjutnya kita akan menetapkan sub-bagian
tipe-tipe validitas dari Campbell dan Stanley. Covariasi adalah suatu kondisi yang
diperlukan untuk menduga penyebab, dan ilmuwan mulai dengan menanyakan
data mereka miliki: " Apakah menganggap variabel bebas dan variabel terikat
berhubungan?" Oleh karena itu, adalah perlu untuk mempertimbangkan alasan
khusus mengapa kita dapat menyimpulkan kesalahan tentang covariasi tersebut .
Kita akan mengatakan alasan-alasan (yang mana memperlakukan untuk
pembuatan kesimpulan) perlakuan bagi vakiditas kesimpulan statistik, untuk
kesimpulan tentang covariation dibuat atas dasar bukti statistik. Tipe validitas ini
telah didaftarkan oleh Campbell [1969] sebagai sebuah perlakuan untuk interval
validitas. Hal itu yang dinamakan "ketidakstabilan" dan mempunyai kaitan
dengan gambar kesimpulan yang palsu tentang populasi covariation dari data
sample tidak stabil. Kita kemudiannya mempertimbangkan " ketidakstabilan"
sebagai suatu perlakuan utama untuk validitas kesimpulan statistik.)
Jika suatu keputusan dibuat atas dasar sampel data dua variabel yang
berhubungan, kemudian yang dipraktekkan dalam pertanyaan peneliti berikutnya
adalah nampaknya akan menjadi : "Apakah suatu hubungan sebab akibat dari
variabel A ke variabel B, di mana A dan B merupakan variabel-variabel yang
dimanipulasi atau diukur, agak membandingkan teoritis atau generalisasi
konstruk yang mereka maksudkan untuk ditampilkan? Untuk menjawab
pertanyaan ini peneliti harus mengesampingkan berbagai pertimbangan lain untuk
hubungan tersebut, mencakup perlakuan bahwa B menyebabkan A dan perlakuan
274
bahwa C menyebabkan kedua A dan B. Yang pertama untuk perlakuan ini pada
umumnya ditangani dengan mudah dalam eksperimen, seperti akan kita lihat
kemudian. Yang belakangan tidak demikian dengan mudah dihadapkan dengan
hal tersebut, terutama di dalam quasi-experiments. Banyak tugas peneliti
melibatkan kesadaran sendiri berpikir melalui dan menguji alasan-alasan
noncausal mengapa dua variabel dapat menjadi berhubungan dan mengapa
“berubah" mungkin telah diamati dalam variabel dependent, bahkan
ketidakhadiran setiap perlakuan eksplisit terhadap teori atau secara praktek
signifikan. Kita menggunakan istilah validitas internal untuk mengacu pada
validitas itu dengan mana statemen dapat dibuat mengenai apakah ada hubungan
sebab akibat dari variabel suatu variabel ke variabel lainnya, dalam bentuk di
mana variabel-variabel tersebut dimanipulasi atau diukur.
Validitas internal tidak dilakukan dengan label yang abstrak terhadap
suatu yang menyebabkan atau mempengaruhi; melainkan dengan hubungan
antara operasi-operasi riset tanpa tergantung terhadap apa yang mereka tampilkan
secara teoritis. Bagaimanapun, peneliti ingin mampu memberi penjelasan
mengenai penyebab dan pengaruh nama-nama operasi yang mengacu pada
konstruk teoritis.
275
Campbell dan Stanley menyebutkan delapan variabel-luar yang sering
merupakan ancaman bagi validitas-internal disain penelitian. Variabel-variabel
tersebut akan menimbulkan akibat yang dapat disalah-tafsirkan sebagai akibat
perlakuan eksperimental.
a. Sejarah.
Kejadian-kejadian khusus, yang bukan perlakuan eksperimental,
mungkin dapat terjadi di antara pengukuran pertama dan pengukuran
kedua, sehingga menimbulkan perubahan pada variabel terikat.
b. Pematangan.
Proses yang terjadi dalam diri subyek sebagai akibat lewatnya waktu
mungkin menimbulkan akibat yang dapat disalah artikan sebagai disebabkan
oleh variabel eksperimental. Subyek mungkin menunjukkan penampilan
yang berbeda pada ukuran variabel-terikat, hanya karena mereka lebih tua,
lebih lapar, lebih letih, atau lebih tidak bersemangat daripada keadaan
mereka pada waktu pengukuran pertama.
c. Pemberian pra-tes.
Pemberian pra-tes mungkin dapat mempengaruhi penampilan
subyek pada tes kedua, apa pun perlakuan eksperimental yang diterimanya.
d. Alat pengukuran.
Perubahan alat pengukur, penilai atau pengamat yang dipergunakan
mungkin mengakibatkan perubahan-perubahan pada ukuran yang diperoleh.
Apabila pasca tesnya lebih sulit, atau apabila pengamat yang digunakan
berbeda dalam pengukuran kedua, faktor-faktor ini mungkin dapat
menyebabkan perbedaan dalam kedua nilai tersebut.
e. Kemunduran Statistik (Statistical regression).
Apabila kelomppok itu dipilih berdasarkan nilai yang ekstrim,
regeresi (kemunduran) statistik mungkin dapat menimbulkan efek yang dapat
disalah-tafsirkan sebagai efek perlakuan eksperimental. Efek kemunduran ini
menunjukkan kepada kecenderungan nilai ekstrim untuk mundur atau
bergerak ke arah mean umum pada ukuran-ukuran berikutnya. Kemunduran
statistik pasti terjadi bila korelasi antara dua variabel yang kurang sempurna.
Karena secara praktis tak ada variabel penting dalam pendidikan yang
mempunyai korelasi sempurna, maka kita harus selalu waspada akan
pengaruh kemunduran statistik ini dalam disain eksperimen kita. Salah satu
aspek dari kemunduran statistik ini tercermin dalam peribahasa kuno :Jika
276
anda berada di dasar jurang, maka tak ada jalan lain bagi anda kecuali
naik” dan “jika anda berada di puncak gunung, maka tidak ada jalan lain
bagi anda kecuali turun”.
f. Pemilihan subjek yang berbeda.
Mungkin kelompok-kelompok itu sudah mempunyai perbedaan
penting, bahkan sebelum diberikannya perlakuan eksperimen. Jika dalam
suatu eksperimen belajar, kelompok coba itu lebih cerdas daripada kelompok
pengendali, maka hasil yang dicapai oleh kelompok coba pada ukuran
variabel terikat mungkin akan lebih baik dari pada kelompok pengendali,
meskipun seandainya kelompok tersebut tidak diberi perlakuan
eksperimental.
g. Hilang dalam eksperimen.
Dari kelompok-kelompok yang diperbandingkan itu mungkin ada
responden yang hilang dalam jumlah yang berbeda. Jika ada beberapa subjek
tertentu keluar dari salah satu kelompok selama berlangsungnya eksperimen
itu, maka kehilangan yang tidak sama ini mungkin dapat mempengaruhi hasil
penyelidikan tersebut . Misalnya, jika beberapa siswa yang dalam pre tes
mempunyai nilai terendah lambat laun keluar (hilang) dari kelompok coba,
maka dalam ukuran akhir, kelompok coba ini akan mempunyai prestasi rerata
yang lebih tinggi, buka karena perlakaun eksperimental melainkan karena
tidak adanya subjek-subjek yang mempunyai nilai terendah..
h. Interaksi pematangan dengan seleksi.
Jenis interaksi ini dapat terjadi dalam disain quasi eksperimental di
mana kelompok coba dan kelompok pengendali tidak dipilih secara acak
melainkan merupakan kelompok-kelompok utuh yang sudah ada
sebelumnya, misalnya, kelas. Sekalipun mungkin pre-tes menunjukkan
bahwa kedua kelompok tersebut sebanding, secara kebetulan mugkin
kelompok coba itu mempunyai tingkat kematangan yang semakin tinggi dari
pada kelompok pengendali, dan tingkat kematangan yang semakin tinggi
inilah yang menyebabkan hasil yang diamati itu. Orang-orang yang lebih
cepat matang secara kebetulan “terpilih” ke dalam kelompok-kelompok
eksperimen, dan interaksi kematangan dengan seleksi inilah yang mungkin
disalahartikan sebagai pengaruh variabel eksperimental.
Masalah ini juga sering timbul jika orang bekerja tidak dengan sukarela
diperbandingkan dengan non-sukarelawan, orang yang bekerja dengan sukarela
ini mungkin mempunyai motivasi lebih besar untuk berhasil dalam ukuran
277
variabel terikat, dan perbedaan hasil ini mungkin secara keliru dikaitkan kepada
variabel bebas- suatu hal yang dapat terjadi meskipun dalam pra tes kedua
kelompok tersebut sudah sebanding.
Semua metode pengendalian yang dibicarakan di atas dirancang untuk
mengendalikan variabel-variabel luar yang dapat membahayakan validitas
internal suatu disain.
278
tersebut tidak/belum diselidiki. Generalisasi yang dilakukan peneliti itu akan
terjadi dalam dua tahap.
(1) dari sampel ke populasi yang dapat dijangkau secara eksperimen, dan
(2) dari populasi yang dapat dijangkau ke populasi sasaran
Apabila peneliti telah memilih sampel itu secara acak dari populasi yang dapat
dijangkau secara eksperimen, maka hasil eksperimen tersebut dapat
digeneralisasikan kekelompok lebih besar ini. Populasi yang dapat dijangkau
secara eksperimen dengan tanpa kesulitan. Perhatikan babwa penggeneralisasian
semacam itu hanya dapat dipertanggung jawabkan kalau prinsip pengacakan
dalam pemilihan sampel telah ditaati dengan baik. Anda mungkin masih ingat
bahwa prosedur ini menuntut agar peneliti menetapkan populasi yang dapat
dijangkau itu, dan agar setiap anggota populasi yang dapat dijangkau itu didaftar
dan diberi nomor, sehingga dari daftar tersebut dapat ditarik sampel dengan
menggunakan label bilangan acak.
Dalam tahap kedua, peneliti ingin membuat generalisasi dari populasi yang dapat
dijangkau ke populasi sasaran. Generalisasi semacam ini agak rawan dan tidak
dapat dilakukan dengan tingkat keyakinan yang sama dengan yang sebelumnya.
Untuk membuat kesimpulan semacam ini diperlukan pengetahuan yang
mendalam tentang ciri-ciri kedua populasi tersebut. Semakin mirip populasi yang
dapat dijangkau dengan populasi sasaran, semakin yakin pula orang dalam
melakukan generalisasi dari satu populasi ke populasi yang lainnya. Sudah barang
tentu perluasan populasi yang dapat dijangkau sampai meliputi seluruh populasi
itu akan menimbukan masalah pengelolaan pelaksanaan eksperimen.
Kempthorne menyatakan bahwa lebih baik kita mempunyai pengetahuan yang
dapat dipertanggung-jawabkan mengenai populasi yang terbatas sehingga kita
ragu-ragu untuk menarik kesimpulan mengenai populasi yang dapat dijangkau
tersebut berdasarkan sampel. Jika peneliti berusaha menggeneralisasikan populasi
yang dapat dijangkau kepada populasi sasaran, ia perlu mengetahui apakah kedua
populasi tersebut mirip satu sama lain dalam beberapa ciri yang relevan.
Misalnya, apabila peneliti menarik sampel dari satu kelompok umur saja (sebagai
populasi yang dapat dijangkaunya) dan kemudian mencoba menggeneralisasikan
hasil eksperimen terhadap semua kelompok umur (popula- si sasaran), maka ia
akan memperoleh hasil yang secara eksternal tidak valid.
Mungkin ada interaksi "seleksi karena perlakuan (selection by treatment) " yang
menjadi sumber ketidak-validan eksternal pada waktu peneliti berusaha membuat
generalisasi dari satu populasi ke populasi yang lain. Jika dua populasi-yang
279
dapat dijangkau secara eksperimen bukan merupakan wakil dari populasi sasaran
yang sama, maka studi-studi yang tampaknya serupa dapat menimbulkan hasil-
hasil yang sama sekali berbeda. Maksudnya, di antara perlakuan dan ciri-khas
salah satu kelompok mungkin terjadi interaksi yang tidak akan terjadi pada
kelompok lainnya yang mempunyai ciri-khas berlainan. Dengan demikian kita
tidak mungkin menggeneralisasikan hasil penyelidikan itu dari satu kelompok ke
kelompok yang lain. lnteraksi semacarn ini dapat terjadi jika yang dipakai dalam
penyelidikan itu adalah sukarelawan.
Para pelaksana eksperimen harus memperhatikan validitas eksternal. Artinya,
mereka ingin dapat mengatakan bahwa hasil seperti itu juga akan diperoleh dalam
kondisi lingkungan eksperimen yang lain. Agar memiliki validitas eksternal,
suatu disain harus memberikan jaminan bahwa akibat eksperimen itu tidak terikat
pada lingkungan eksperimen tertentu.
Jelaslah bahwa persyaratan pertama bagi validitas eksternal adalah bahwa
perlakuan eksperimen harus memberikan uraian lengkap tentang operasi serta
setting eksperimenatal yang ada dalam penyelidikan tersebut. Dengan begitu
dapat menilai seberapa jauh hasil eksperiman itu dapat digeneralisasikan kepada
situasi yang lain. Kerepresentatifan itu merupakan faktor yang mempengaruhi
seberapa jauh hasil eksprimen dapat digeneralisasikan.
Kemungkinan ada efek reaktif yang disebabkan oleh pengaturan aksperimen.
Pengetahuan subyek bahwa mereka sedang ikut serta dalam suatu eksperimen
mungkin dapat mengubah respons mereka terhadap perlakuan eksperimen.
Kehadiran pengamat atau adanya peralatan selama berlangsungnya eksperimen
itu mungkin dapat mengubah respons wajar subyek yang berpartisipasi dalam
eksperimen itu, sedemikian rupa sehingga kita tidak dapat menggeneralisasikan
pengaruh variabel eksperimen itu kepada orang-orang yang
emngalami/menghadapi hal itu dalam setting yang bukan eksperimen.
Ada efek interaksi yang mugkin dapat mengancam kemampuan
digeneralisasikannya hasil eksperimen. Hal yang agak kurang tampak jelas dalam
mesalah validitas ekologis adalah persoalan kerepresentatifan variabel, baik
variabel eksperimental maupun variabel terukut, yang dipakai dalam
penyelidikan. Kerepresentatifan variabel mempengaruhi kemampuan
digeneralisasikannya hasil eksperimen dan karenanya merupakan faktor dalam
validitas eksternal disain tersebut. Dapatkah peneliti yakin bahwa tugas khusus
yang digunakan itu adalah sampel yang tepat bagi fungsi yang sedang diukurnya?
Dapatkah peneliti berasumsi bahwa kreativitas yang diukur oleh tes itu sama
280
dengan kreativitas yang dibicarakan oleh guru bahasa Inggris atau guru kesenian?
Kalau peneliti berbicara tentang sikap regressif, sikap agressif yang
bagaimanakah yang ia maksud? Apakah sikap yang disebabkan oleh karena anak
tidak boleh memiliki mainan yang diinginkannya sama dengan sikap agresif yang
disebabkan oleh makian lisan?
Banyak eksperimen psikologi yang menyangkut variabel kecemasan.
Dalam bebrapa eksperimen, kecemasan itu ditimbulkan dengan kejutan listrik,
dalam ekasperimen yang lain ditimbulkan oleh perintah isan yang diberikan
kepada subjek. Apakah ini jenis kecemasan yang sama? Dapatkah kita
menggereralisasikan hasil eksperimen itu dari satu jenis situasi ke situasi lain?
Ukuran yang digunakan bagi variabel terikat mungkin juga mempengaruhi
validitas ekologis suatu disain. Para peneliti harus memperhatikan baik-baik
validitas eksternal disain mereka; kecenderungan untuk membuat generalisasi
yang terlalu luas (overgenerelize) atas hasil eksperimen telah menimbulkan
persoalan dalam banyak penelitian pendidikan. Bracht dan Glass telah
menggolongkan hal-hal yang dapat emngurangi validitas eksternal menjadi dua
golongan, sesuai dengan kedua macam validitas eksternal itu:
(1) hal-hal yang berhubungan dengan generalisasi kepada populasi orang
(validitas populasi), dan
(2) hal-hal yang menyangkut lingkungan eksperimen (validitas ekologis)
Validitas eksternal digunakan bila data yang dihasilkan dari instrumen
sesuai dengan data/informasi lain mengenai variabel pengujian tersebut.
Misalnya, jika ingin diketahui validitas tes matematika , terlebih dahulu
diujicobakan kepada siswa sehingga subjek ujicoba tersebut hasinya
dikorelasikan dengan nilai patokan apa yang digunakan, misalnya nilai raport
dijadikan sebagai kriteriumnya. Oleh karena nilai raport tersebut ada di luar
instrumen maka hasil validitasinya disebut sebagai validitas eksternal. Kalau nilai
raport sama persis dengan nilai tes yang dihasilkan maka korelasinya menjadi
sempurna (r = 1,00). Untuk data hasi uji coba bertipe non-dikotomi, maka
korelasi yang digunakan adalah korelasi Spearman-Brown yang dirumuskan
sebagai berikut:
Tabel 3. 16. Misalkan hasil tes matematika 7 orang siswa sebagai berikut:
281
Siswa X Y XY X2 Y2
A 60 60 3600 3600 3600
B 75 75 5625 5625 5625
C 80 80 6400 6400 6400
D 66 66 4356 4356 4356
E 70 58 4060 4900 3364
F 80 90 7200 6400 8100
G 77 80 6160 5929 6400
508 509 37401 37250 37845
Dari data di atas dihitung korelasi antara nilai X (hasil ujian) dengan nilai Y (nilai
raport) sebagai berikut:
Nilai r = 0,86 harus dibandingkan dengan nilai rtabel, dan jika ternyata rhitung > rtabel
maka disimpulkan korelasinya signifikan, sebaliknya tidak signifikan. Dengan
menggunakan kalkulator dapat dilakukan sebagai berikut.
MODE 2 INV AC
= mengaktifkan kalkulator
Xi XD,XY Yi RUN
= memasukkan data X
dan Y
282
Kout 5 INV 5
= ∑Y = yσn
INV 7
=A
INV 8
=B
INV 9
Validitas internal diperoleh apabila terdapat kesesuaian antara bagian-
bagian instrumen dengan instrumen secara keseluruhan. Artinya, sebuah
instrumen dikatakan memiliki validitas internal apabila setiap bagian instrumen
mendukung misi instrumen secara keseluruhan.
Yang dimaksud dengan bagian-bagian instrumen dapat saja berupa butir-
butir pertanyaan baik dari angket maupun bentuk tes, akan tetapi dapat pula
kumpulan dari butir-butir tersebut mencerminkan suatu faktor. Dengan demikian
validitas internal ini meliputi validitas butir dan validitas faktor.
Catatan:
1. Sebuah instrumen memiliki validitas yang tinggi apabila butir-butir yang
membentuk instrumen tersebut tidak menyimpang dari fungsi instrumen.
2. Sebuah instrumen dikatakan memiliki validitas tinggi bila faktor-faktor
yang merupakan bagian dari instrumen tersebut tidak menyimpang dari
fungsi instrumen.
Misalnya, tes matematika yang terdiri dari Aljabar, (Faktor 1), Geometri
(Faktor 2), Aritmetika (Faktor 3), Trigonometri (Faktor 4) dan Kalkulus (Faktor
5). Tes matematika ini terdiri dari 5 faktor, di mana setiap faktor memiliki
sejumlah butir tes (soal). Penyusunan butir tes setiap faktor tidak harus berurut,
demikian juga jumlah butir tes setiap faktor tidak harus sama, tetapi bergantung
pada kebutuhan.
Selanjutnya,menyimpang tidaknya buir maupun faktor dari fungsi
instrumen dapat diketahui dari kesejajaran nilai butir/faktor dengan nilai total.
283
Pengujian validitas dapat dilakukan dengan dua cara, yaitu: analisis faktor
(anafak), dan analisis butir (anabut).
= Faktor
Tabel 3.17. Model Matriks butir setiap faktor pada Analisis faktor
284
Sub F1 F2 Fn
jek
1 2 3 ... ... 1 2 3 ... ... 1 2 3 ... ... ...
1 2 3 4 ... ... 2 1 4 ... 2 3 3 ... ... ...
2 3 5 5 ... ... 3 2 5 ... 1 4 5 ... ... ...
3 2 4 2 ... ... 2 4 3 ... 2 4 2 ... ... ...
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
Muatan Faktor
Tes I II
Tes 1 0,5707 -0,8211
Tes 2 0,7046 -0,7096
Tes 3 0,9668 0,2254
Tes 4 0,8211 0,5707
Tes 5 0,7096 0,7046
286
Reliabilitas
(KONSISTENSI)
Reliabilitas dimaknai sebagai suatu bentuk keteguhan atau ketetapan atau
kekonsistenan atau reliabilitas instrumen untuk mengukur sejauh mana hasil
suatu pengukuran dapat diyakini. Suatu hasil pengukuran hanya dapat diyakini
benar apabila dalam sejumlah kali pelaksanaan pengukuran terhadap kemampuan
siswa yang sama, diperoleh hasil pengukuran yang relatif memiliki kesamaan,
selama aspek yang diukur dalam diri siswa memang tetap konsisten.
Konsistensi ketetapan alat ukur barupa tes maupun non-tes berkaitan erat
dengan masalah tingkat kekeliruan (eror) pengukuran. Tingkat kekeliruan
pengukuran memperlihatkan sejauh mana ketidaktetapan hasil pengukuran yang
diperoleh dapat terjadi bilamana pengukuran dilakukan berulang terhadap
kelompok siswa yang sama. Konsep reliabilitas yang dimaknai sebagai bentuk
hasil pengukuran berhubungan erat dengan tingkat kekeliruan (eror) dalam
pengambilan sampel yang berpedoman kepada ketidaktetapan hasil pengukuran,
bila pengukuran tersebut diulang pada kelompok siswa yang berbeda. Umumnya
konsistensi alat ukur dapat dibedakan atas dua jenis, yakni:
(a) Kosistensi (reliabilitas)tanggapan, dan
(b) Konsistensi (reliabilitas) gabungan butir tes
287
tanggapan siswa terhadap tes adalah mantap, maka dapat dilakukan dengan cara
memberikan tes yang sama secara berulang-ulang (lebih satu kali pengulangan
tes) terhadap siswa yang sama. Pengulangan pengetesan alat ukur sebanyak dua
kali merupakan syarat minimal yang dibutuhkan untuk mengukur apakah
tanggapan siswa dalam menjawab tes teguh atau tidak. Dalam pelaksanaannya
pengetesan minimal dua kali butir tes dapat dilakukan dengan berbagai cara yaitu
dengan: melakukan tes ulang dua kali dengan tes sama terhadap siswa yang sama;
melakukan sekali tes saja dengan menenapkan dua perangkat tes yang butir-butir
tesnya setara (homogen).
Paling tidak ada tiga metode atau cara yang dapat dilakukan untuk
memeriksa keteguhan tanggapan siswa dalam menjawab tes yaitu:
(i) Metode Cara Tes Ulang
Tes ulang dapat dimaknai sebagai bentuk tes ulang dua kali pengetesan di
mana suatu tes yang sama diteskan pada waktu yang berbeda waktunya.
Misalnya seperangkat tes Matematika diteskan kepada kelompok siswa dalam
waktu Wl dan W2. Kemudian nilai pengetesan siswa pada waktu Wl
dibandingkan dengan nilai hhasil pengetesan siswa pada waktu W 2. Dasil
yang diharapkan adalah bahwa kedua hasil pengetesan itu hampir sama, tidak
terlalu jauh berbeda (perbedaan tidak signifikan). Dalam hal ini, yang perlu
diingat adalah agar tes butir-butir tes kedua tidak sampai dipengaruhi oleh tes
pertama, mengingat keadaan siswa sudah berubah dari kondisi yang pertama.
Kedua bentuk tes ini harus dapat dimonitor sebelum dilakukan pengetesan,
dan hal ini merupakan kesulitan dalam penerapan tes ulang tersebut.
(ii) Teknik Pilah dua
Pada teknik pemilahan seperangkat tes ada dua pilahan, pilahan dilakukan
kepada dua kelompok butir tes yang homogen (setara) pada waktu
bersamaan. Dalam hal ini pemilahan kelompok butir tes merupakan separuh
dari keseluruhan tes, di mana pilahan kelompok butir tes pertama dicuplik
dari butir-butir tes dari butir tes bernomor ganjil, sedang pilahan kelompok
butir tes kedua dicuplik dari butir-butir tes ber-nomor genap. Dalam hal ini,
keteguhan dengan metode pilah dua bersifat relatif, karena keteguhan tes
tersebut bergantung pada cara pemilahan butir-butir tes yang dicuplik.
(iii) Teknik Tes Kesetaraan
Pada proses pengukuran sering pengetesan dilakukan secara berulang
menggunakan dua tes yang dianggap setara bobot isi dan kandungan materi
yang dikandungnya, kemudian diberikan kepada siswa dalam waktu yang
288
bersamaan. Nilai dari kedua kelompok butir tes tersebut dihubungkan untuk
mendapatkan konsistensi tes.
b. Konsistensi gabungan.
Kekonsistenan gabungan butir tes dapat dimaknai sebagai bentuk
keteguhan atau kekonsistenan antara butir-butir tes dalam seperangkat tes
tersebut. Hal semacam ini biasanya dinyatakan dengan suatu bentuk pertanyaan
dasar yakni sejauhmana para siswa yang diukur dengan tes sehingga butir tes
yang satu dengan butir tes lainnya mampu menunjukkan hasil pengukuran yang
sama? Artinya, terhadap bagian-bagian siswa yang diukur dengan asumsi
kemampuan yang sama, apakah hasil ukur yang satu tidak kontradiksi dengan
hasil ukur butir tes yang lain? Bila pengetesan terhadap siswa yang memiliki
kemampuan yang sama dites dengan butir tes, di mana butir tes yang satu dengan
butir tes lain saling bertentangan/berbeda secara nyata hasilnyasehingga
dikatakan bahwa pengukuran dengan tes hasilnya tidak dapat dipercaya dan hail
itu tetap berubah atau tidak memiliki keteguhan (konsisten). Artinya,perangkat
tes yang mengandung butir-butir tes tersebut tidak memiliki keteguhan sehingga
tidak dapat digunakan untuk menjelaskan ciri atau karakter butir tes yang
sebenarnya dari kelomopok siswa yang dites.
Apabila hasil pengukuran terhadap kelompok siswa dites melalui butir
tes yang sama di mana antara butir tes yang satu dengan butir tes yang lain saling
terjadi pertentangan (kontradiksi atau tidak konsisten) maka butir-butir tes
tersebut perlu diperbaiki (direvisi), dengan pengertian bahwa butir-butir tes yang
dipakai hasilnya memiliki reliabilitas yang rendah. Koefisien keteguhan atau
konsistensi gabungan butir tes dapat dihitung dengan metode: (a) Rumus Kuder-
Richardson, KR-20 dan KR-21, dan dengan Rumus reliabilitas Hoyt, dengan
melibatkan analisis variansi butir tes.
c. Keajegan Tes
Dalam proses pengukuran, kekonsistenan alat ukur berupa tes dapat
ditentukan melalui dua faktor yaitu faktor penyimpangan baku atau kesalahan
baku pengukuran dan faktor koefisien kekonsistenan tes itu sendiri (Feldt &
Brennan: 105). Dalam hal ini, analisis statistik memiliki keterbatasannya untuk
mengukur hal tersebut. Kesalahan pengukuran dimaknai sebagai bentuk
ketidakkonsistenan siswa sebagai peserta tes bila ditinjau dari unit-unit skala
289
nilai. Koefisien kekonsistenan merupakan penghitungan koefisien konsistensi
dengan merangkum konsistenan atau ketidak-konsistenan di antara beberapa
kesalahan pengukuran hasil belajar siswa. Dalam teori tes klasik, sebuah tes
dikatakan memiliki reliabilitas yang tinggi bila nilai tes tersebut berkorelasi tinggi
dengan nilai murninya. Artinya, seberapa besar hubungan yang terjadi antara nilai
yang terlihat nyata pada dua tes yang setara sehingga reliabilitas tes tersebut dapat
diketahui dengan keteguhannya dan dapat perkirakan hasilnya. Pengestimasian
reliabilitas tes setidaknya tiga cara yang dapat digunakan yaitu (i) metode tes
ulang, (2) metode tes setara dan (3) metode sekali pengetesan.
Pendekatan tes ulang merupakan pemberian perangkat tes yang sama
terhadap sekelompok subjek sebanyak dua kali dengan selang waktu yang
berbeda. Asumsinya adalah bahwa nilai yang dihasilkan oleh tes yang sama akan
menghasilkan nilai yang tampak nyata yang relatif sama. Peramalan dengan
pendekatan tes ulang akan menghasilkan apa yang dinamakan koefisien stabilitas.
Untuk memperoleh koefisien reliabilitas melalui pendekatan tes ulang dapat
dilakukan dengan menghitung koefisien korelasi sederhana antara distribusi nilai
siswa pada pemberian tes pertama dengan nilai siswa pada pengetesan kedua.
Pendekatan tes ulang merupakan cara terbaik untuk mengukur ketrampilan
terutama ketrampilan fisik siswa.
Untuk menentukan reliabilitas tes bentuk pilihan ganda yangmemiliki nilai tipe
dikotomi atau nominal, biasanya dihitung dengan rumus Kuder Ridcardson 20
(KR-20), yang rumusnya sebagai berikut.
290
Tabel 3.19. Nilai 10 butir tes matematika yang diikuti 30 siswa.
1 2 3 4 5 6 7 8 9 10 T
1 1 1 1 1 1 1 0 0 1 1 8
2 1 1 0 0 1 0 0 1 0 1 5
3 1 1 1 1 0 1 0 0 0 0 5
4 1 1 1 1 1 1 1 1 1 1 10
5 1 1 1 1 1 1 0 1 1 1 9
6 1 1 1 1 0 1 1 1 0 0 7
7 1 1 1 1 1 1 0 0 0 1 7
8 0 0 1 1 0 1 1 0 0 0 4
9 1 1 1 1 0 1 1 1 0 1 8
10 1 1 1 1 1 0 1 0 1 1 8
11 1 1 1 1 1 1 0 0 1 1 8
12 1 0 1 0 0 0 0 0 0 1 3
13 1 1 0 0 1 0 1 1 0 0 5
14 1 1 0 1 0 0 1 0 0 1 5
15 0 0 1 1 0 1 0 1 0 0 4
16 1 0 0 0 1 0 0 0 0 1 3
17 0 1 1 1 1 0 1 1 0 0 6
18 1 1 1 1 0 0 1 0 0 1 6
19 1 1 0 1 1 0 0 0 0 1 5
20 1 1 1 1 0 1 1 1 0 1 8
21 1 1 0 1 0 0 1 1 1 0 6
22 1 0 1 1 1 0 0 0 0 0 4
23 1 0 1 1 0 0 1 1 0 1 6
24 1 1 1 1 0 1 1 1 1 1 9
25 1 1 0 1 1 0 0 0 0 1 5
26 1 1 1 1 1 0 1 1 1 1 9
27 1 1 1 1 0 1 1 0 1 1 8
28 1 1 1 1 1 1 1 1 1 1 10
29 0 1 1 1 1 1 1 0 1 1 8
30 1 1 0 0 0 1 0 1 0 0 4
p 0.87 0.8 0.73 0.83 0.53 0.53 0.57 0.5 0.37 0.7
q 0.13 0.2 0.27 0.17 0.47 0.47 0.43 0.5 0.63 0.3
291
pq 0.12 0.16 0.2 0.14 0.25 0.25 0.25 0.25 0.23 0.21 2.05
4,25
Dengan demikian koeisien konsistensi tes pilihan ganda pada tabel uji
coba di atas dalam ukuran sedang. Artinya sebanyak 30 butir tes yang diujikan
cukup layak digunakan dalam pengukuran hasil belajar untuk pokok bahasan
Matematika, di mana hasilnya cukup konsisten. Dalam hal lainnya, untuk bentuk
tes pilihan ganda biasa dan tes pilihan ganda assosiasi maka masing-masing
koefisien reliabilitas sebesar 0,70 juga cukup tinggi.
d. Konsistensi Internal
292
Pemilahan tes dilakukan sedemikian rupa sehingga sedapat mungkin
setiap pilahan berisi butir tes dalam jumlah yang sama banyak. Akan tetapi bila
pemilahan tes ke dalam pilahan yang berisi butir tes dalam jumlah sama banyak
tidak mungkin dilakukan, hal itu tidak merupakan masalah lagi sebab saat ini
telah tersedia rumusan-rumusan baru guna pengujian konsistensi untuk tes yang
dipilah menjadi pilahan-pilahan yang berisi butir tes dalam jumlah yang tidak
seimbang.
Metode pemilahan tes tergantung pula pada sifat, fungsi, dan jenis skala
pengukuran yang digunakan dalam tes. Cara pemilahan akan turut menentukan
pola rumusan atau formula mana yang harus digunakan dalam menghitung
koefisien konsistensinya. Seperangkat butir tes yang hasilnya dapat ditentukan
oleh kecepatan dan kecermatan siswa, misalnya, jika diinginkan cara pemilahan
yang berbeda dari cara pemilahan yang dilakukan terhadap perangkat tes yang
mampu mengukur kemampuan maksimum siswa. Perangkat tes yang berisi butir-
butir tes yang memiliki taraf kesukaran sama akan lebih terbuka terhadap
berbagai cara pemilahan bila dibandingkan dengan tes yang berisi butir-butir tes
dengan tingkat kesukaran yang sangat bervariasi, meskipun tidak setiap ciri butir
tes mengingikan cara pemilahan khusus, akan tetapi setiap cara pemilahan tes
yang digunakan hendaknya ditekankan pada usaha untuk memperoleh bagian-
bagian atau pilahan-pilahan yang relatif setara.
293
dilibatkan menjadi pilahan pertama dan mana yang diikutkan menjadi pilahan
kedua.
Pemilahan secara acak dilakukan bila tes yang akan dipilah berisi butir-
butir tes yang setara. Pengertian kesetaraan dimaknai dari segi isi yang
terkandung dalam tes dan juga dari segi taraf kesukarannya, bila tes itu mengukur
aspek kognitif. Suatu tes yang berisi butir tes heterogen bila dipilah secara acak
dapat menghasilkan pilahan-pilahan yang tidak setara satu sama lain, kecuali bila
buti tes tersebut terdiri dari butir tes yang berjumlah besar.
294
a. Formula Spearman-Brown Untuk Belah-Dua
Secara umum, untuk mendapatkan dua buah pilahan butir tes yang
relatif setara antara kedua pilahan itu, maka penerapan rumus Spearman-Brown,
dapat menggunakan cata pemilahan ganjil-genap atau cara pemilahan awal-akhir
dengan syarat kedua pilahan itu dapat dianggap setara. Nilai yang dihasilkan dari
jawaban siswa dalam tes masing-masing dihitung untuk setiap pilahan sehingga
setiap siswa memperoleh dua nilai pada kedua pilahan tersebut. Kemudian,
distribusi nilai siswa pada masing-masing pilahan dikorelasikan dengan formula
di atas. Koefisien korelasi antara kedua pilahan 1 dan pilahan 2 dilambangkan
dengan r12. Peramalan terhadap konsistensi butir-butir tes diperoleh dengan
menerapkan rumus Spearman-Brown terhadap kedua pilahan tersebut.
295
Untuk menggambarkan hal tersebut, dilukiskan dengan sebuah contoh
penerapan rumus Spearman-Brown, yang memuat contoh data nilai tes yang
terdiri atas 14 butir tes yang diikuti 15 siswa dan dipilah menjadi dua pilahan
dengan cara pemilahan ganjil-genap, seperti tertera pada tabel berikut.
Pilahan Pilahan
1 2 3 4 5 6 7 8 9 10 11 12 13 14 Total
Siswa 1 2
A 1 1 2 2 1 0 1 1 2 2 2 2 1 1 10 9 19
B 0 0 2 1 0 0 2 2 1 2 0 1 2 2 7 8 15
C 0 0 2 2 0 0 1 0 2 2 0 0 2 2 7 6 13
D 2 2 2 2 1 0 0 2 2 2 1 0 2 1 10 9 19
E 2 2 2 2 1 2 2 2 1 1 0 0 2 1 10 10 20
F 0 0 2 2 2 2 1 1 1 1 2 1 1 0 9 7 16
G 1 0 1 1 2 2 0 1 0 0 0 0 0 1 4 5 9
H 0 0 0 0 1 1 1 1 1 0 0 0 2 2 5 4 9
I 2 2 2 2 2 2 2 1 2 2 2 2 0 0 12 11 23
J 1 1 1 1 1 1 1 0 0 0 0 0 2 2 6 5 11
K 2 1 2 2 1 1 1 1 2 1 2 2 1 1 11 9 20
L 2 2 1 0 1 1 2 2 1 2 0 2 2 2 9 11 20
M 1 1 2 2 0 1 2 1 2 2 1 1 2 2 10 10 20
N 1 0 1 1 2 2 0 1 0 1 2 0 1 2 7 7 14
O 2 1 2 2 2 1 0 0 1 2 1 1 1 1 9 8 17
296
Rumus di atas hanya dapat digunakan bila kita yakin bahwa asumsi
kesetaraan di antara kedua pilahan terpenuhi. Ciri terpenuhinya asumsi tersebut
antara lain adalah bila kedua pilahan tes menghasilkan rerata nilai yang setara
dan varians nilai yang sebanding.
Di pihak lain itu, rumus Spearman-Brown akan menghasilkan ramalan
konsistensi yang akuratn bila koefisien korelasi di antara kedua pilahan butir tes
itu tinggi, karena tingginya korelasi antara kedua pilahan merupakan indikasi
terpenuhinya asumsi kesetaraan. Koefisien korelasi antara kedua pilahan butir tes
yang tidak begitu tinggi, sebaiknya rumus Spearman-Brown tidak digunakan dan
kita ganti dengan cara pendekatan lain yang lebih sesuai.
Metode belah-dua dapat dipakai untuk meramalkan ketepatan dan
keakuratan butir tes dalam arti kesetaraan hasil ukur kedua pilahannya. Koefisien
kesetaraan ini pada dasarnya sama dengan koefisien konsistensinya (Magnusson:
1967).
297
= Varians nilai total butir tes
d = Selisih nilai total kedua pilahan
Penerapan rumus Rulon dicontohkan dengan data pada Tabel di atas yang
di sajikan kembali dalam Tabel berikut.
Tabel Distribusi Perbedaan Nilai Pilahan dan Distribusi Nilai Total Tes dari
Data pada Tabel sebelumnya. Perhitungan varians perbedaan nilai dan varians
nilai tes terhadap data pada Tabel di atas menghasil kan:
298
Jadi koefisien konsistensi (reliabilitas) butir tes untuk data sebesar:
Penerapan rumus Rulon juga dapat diterapkan pada perangkat tes yang
butir-butir tesnya diberi nilai dikotomi. Penerapan rumus ini dalam perhitungan
koeisien konsistensi untuk perangkat tes yang butir tesnya diberi nilai dikotomi,
dapat dilukiskan dengan menggunakan data tabel berikut.
Tabel 3. 21. Pemilahan butir tes pada nilai dikotomi, Butir tes Dikotomi dan
Nilai Pilahan Ganjil-Genap.
Pilahan Pilahan
Siswa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 2 T
A 1 0 1 0 1 0 1 0 1 0 1 1 0 0 6 1 7
B 1 1 1 0 1 1 0 0 1 0 0 1 1 1 5 4 9
C 0 1 1 0 1 0 0 0 0 1 1 1 1 0 4 3 7
D 1 0 1 0 1 1 0 0 0 0 0 1 0 0 3 2 5
E 0 0 1 1 1 1 0 0 0 0 1 0 0 0 3 2 5
F 1 0 1 1 1 0 0 0 1 1 1 1 0 1 5 4 9
G 1 1 0 0 0 1 0 1 1 1 0 0 1 0 3 4 7
H 1 1 1 1 1 1 0 1 0 0 1 1 1 1 5 6 11
I 0 1 1 0 1 0 1 0 0 0 1 0 1 1 5 2 7
J 0 0 1 0 0 1 0 1 1 1 1 1 0 1 3 5 8
K 0 0 1 1 0 0 0 1 1 0 1 0 1 0 4 2 6
L 1 1 1 0 0 0 1 1 0 0 0 1 1 0 4 3 7
M 1 0 0 1 1 1 1 1 1 0 0 1 0 0 4 4 8
N 0 1 1 1 0 1 1 0 0 0 0 0 1 0 3 3 6
O 0 0 1 1 0 1 0 0 1 1 1 0 0 0 3 3 6
60 48 108
299
Dari tabel di atas, jika dilihat selisih pilahan 1 dan 2, kemudian dihitung pula
kuadrat selisih dan kuadrat total nilai maka hasilnya adalah seperti tertera pada
tabel sebagai berikut:
Tabel 3.22. Selisih data pilahan 1 dan 2, kuadrat selilih dan kuadrat total nilai.
Pilahan Nilai
Siswa
1 2 T d d2 T2
A 6 1 7 5 25 49
B 5 4 9 1 1 81
C 4 3 7 1 1 49
D 3 2 5 1 1 25
E 3 2 5 1 1 25
F 5 4 9 1 1 81
G 3 4 7 -1 1 49
H 5 6 11 -1 1 121
I 5 2 7 3 9 49
J 3 5 8 -2 4 64
K 4 2 6 2 4 36
L 4 3 7 1 1 49
M 4 4 8 0 0 64
N 3 3 6 0 0 36
O 3 3 6 0 0 36
∑ 60 48 108 12 50 814
4 3.2 7.2 0.8 3,33 54,27
S 1 1,32 1,61 1,70 6,43 25,25
1 1.74 2.6 2,89 41,38 637,49
, dan
300
Dengan demikian, koefisien reliabilitas untuk data ini, yang dihitung
dengan formula Rulon, adalah:
Koefisien reliabilitas Rulon yang dikenakan pada tes yang telah dipilah
menjadi dua bagian ini merupakan estimasi reliabilitas bagi keseluruhan tes
sehingga tidak perlu dikenai formula koreksi lagi.
301
dan serta masing-masing menyatakan varians nilai pilahan 1 dan
pilahan 2, serta varians nilai total butir-butir tes tersebut. Sebagai gambaran akan
hal ini, penerapan rumus alpha pada nilai dikotomi dapat digunakan kembali data
pada Tabel 3.22 di atas, hasil kalkulasi mendapatkan:
, , dan
Dengan demikian, koefisien alpha untuk data ini dapat dihitung sebagai
302
k = Banyaknya pilahan tes,
i = butir tes
= Varians pilahan i ;i = 1,2,...,k
= Varians nilai total butir tes
Penerapan cara yang bersifat umum koefisien alpha ini dapat diberikan
contoh penggunaannya terhadap data hasil pengetesan 12 butir tes yang diteskan
kepada 10 siswa pada Tabel berikut, kemudian dipilah menjadi tiga pilahan yang
sama panjang pilahannya.
Tola
Nomor Butir Pilahan
Siswa l
1 2 3 4 5 6 7 8 9 10 11 12 1 2 3
A 2 0 1 1 1 0 1 2 2 1 1 2 22 26 30 78
B 1 0 2 1 0 0 2 2 1 2 0 1 2 2 3 7
C 1 0 2 2 0 1 1 0 2 2 0 0 1 2 4 7
D 2 2 2 2 1 0 0 2 2 2 1 0 1 3 2 6
E 2 2 0 1 1 1 0 2 1 1 0 0 1 1 3 5
F 1 0 2 2 2 1 1 1 1 1 2 1 1 2 2 5
G 2 0 1 1 2 2 0 1 0 0 1 0 3 2 3 8
H 2 1 0 0 1 1 0 1 1 0 0 0 2 2 2 6
I 2 2 1 2 2 1 2 1 2 2 2 2 2 4 3 9
J 2 1 0 2 1 1 1 0 2 0 2 0 1 3 1 5
J 2 1 0 2 1 1 1 0 2 0 2 0 1 3 1 5
38, 51, 70, 469,
66 27 09 16
303
Pilahan 1 = jumlah nilai pacia butir tes nomor: 1+ 4+7+ 10
Pilahan 2 = jumlah nilai pada butir tes nomor 2+5+8+11
Pilahan 3 = jumlah nilai pada butir tes nomor 3+6+9+12
Nilai X = jumlah nilai pada keseluruhan bbutir tes
Setelah dipilah menjadi tiga bagian, perhitungan terhadap varians
nilai pilahan dan varians nilai total terhadap data tabel di atas menghasilkan:
= 38,66; = 51,27; = 70,09; = 469,16. Banyaknya pilahan adalah k
= 3, sehingga koefisien reliabilitas alpha untuk data ini adalah:
Tabel 3.24. Pempilahan butir tes dan pemakaian formula α pada tes yang butir
tes-butir tesnya diberi nilai dikotomi
Bila suatu tes berisi butir tes-butir tes yang dinilai dengan nilai
dikotomi sedangkan panjang tes (banyak butir tesnya) tidak begitu panjang, maka
pada pemilahan perangkat tes menjadi dua pilahan tidak cukup menghasilkan
pilahan yang setara sementara memilah tes menjadi lebih dari dua pilahan akan
menyebabkan panjang pilahan tidak terlalu panjang. Jika dalam pilahan hanya
berisi sedikit butir tes, maka perhitungan konsistensinya tidak dapat
menghasilkan ramalan yang cukup akurat/cermat.
Dalam hal ini, metode yang tepat dilakukan adalah dengan metode memilah butir
tes menjadi sejumlah butir tesnya sehingga setiap pilahan hanya berisi satu butir
tes saja. Selanjutnya, remalan konsistensinya dapat diupayakan melalui penerapan
rumus α yang diistilahkan dengan rumus Kuder-Richardson-20 (KR-20), atau
koefisien α - 20 dimaknai sebagai suatu rerata ramalan keajegan (reliabilitas) dari
metode pilah-dua yang mungkin dapat dibuat. Koefisien α-20 berfungsi untuk
menggambarkan sejauhmana tingkat kesetaraan isi butir-butir tes di dalam
pilahan butir tes, yang dirumuskan dengan:
di mana:
k menyatakan banyaknya butir tes dalam perangkat tes;
305
menyatakan varians total nilai perangkat butir tes
p menyatakan proporsi siswa yang menjawab satu butir tes tes benar
q menyatakan proporsi siswa yang menjawab satu butir tes tes salah
306
Tabel 3.25. Penerapan formula KR-21 dengan pensyunaan data butir tes.
1 2 3 4 5 6 7 8 9 10 T
A 1 0 0 1 0 1 1 1 0 1 6
B 1 1 0 0 1 0 0 0 0 0 3
C 1 0 0 1 1 0 1 0 0 0 4
D 0 1 0 1 1 1 0 0 0 1 5
E 1 0 0 1 1 0 0 1 0 0 4
F 1 0 0 1 1 0 0 1 0 0 4
G 1 1 1 1 1 1 0 0 1 0 7
H 1 1 1 1 1 1 0 0 1 1 8
I 0 0 0 1 1 0 1 0 1 1 5
J 0 0 0 1 1 0 0 1 0 0 3
K 1 1 0 1 1 0 1 0 0 0 5
L 1 1 0 0 0 0 0 0 0 1 3
M 1 1 0 1 1 0 1 0 0 0 5
N 1 1 0 0 1 0 0 0 0 0 3
O 1 0 0 1 0 1 1 0 0 1 5
0.5
p 0.8 3 0.13 0.8 0.8 0.33 0.4 0.27 0.2 0.4 4.7
0.4
q 0.2 7 0.87 0.2 0.2 0.67 0.6 0.73 0.8 0.6 5.3
0.2
pq 0.16 5 0.12 0.16 0.16 0.22 0.24 0.2 0.16 0.24 1.90
2.24
Dari data yang disajikan pada Tabel di atas diketahui bahwa banyaknya
butir tes k = 10, ∑pq = 1,9, , sehingga:
307
Pengembangan rumus Kuder dan Richardson (KR-20) dimodiikasi dengan cara
merumuskan ramalan kejegannya ke bentuk rumus KR-21 yang dimaknai sebagai
bentuk rerata p dari keseluruhan butir tes, dan hal ini dirumukan dengan cara:
Tampaklah bahwa rumus α-21 menghasilkan koefisien yang lebih kecil daripada
koefisien konsistensi yang dihitung dengan rumus α-20. Hal itu adalah selalu
benar bila harga p, yang menyatakan taraf kesukaran butir tes-butir tes dalam tes
yang bersangkutan, sangat bervariasi. Hasil kalkulasi menerapkan rumus α-20
dan α-21 akan menghasilkan koefisien kejegan yang hampir sama.
Dari kalkulasi tampak bahwa metode Kristof dapat pula dikenakan pada tes yang
butir-butir tesnya diberi nilai dikotomi. Gambaran penerapan metode Kristof pada
peramalan tingkat keajegan (konsistensi) perangkat tes melalui ramalan varians
310
nilai-murni, dan hal ini dapat dilakukan baik bagi perangkat tes yang butir tesnya
berbentuk dikotomi maupuan diberi nilai bermacam-macam maupun pada butir
tes dikotomi maupun polotomi. Metode Kristof lebih sesuai digunakan dengan
melibatkan panjang tes yang cukup memadai.
Kemudian pada kasus pemilahan tes yang menghasilkan pilahan-pilahan
yang tidak homogen atau pilahan-pilahan perangkat tes yang tidak sama panjang,
maka pemakaian koefisien alpha akan beresiko terhadap ketidaksetaraan pilahan-
pilahan tersebut, namun rumus Kristof lebih mantap dan kurang mendapat
pengaruh lain. Demikian pula rumus Kristof ini lebih dapat bertahan terhadap
efek dari cara pemilahan yang dilakukan dan ketidakseimbangan pilahan yang
terlalu ekstrim.
i menyatakan nilai siswa pada satu butir tes, yaitu nilai butir tes
X menyatakan jumlah nilai seorang siswa dari total butir tes, yaitu nilai tes
Y menyatakan jumlah nilai total siswa pada satu butir tes
k menyatakan banyaknya butir tes
n menyatakan banyaknya siswa peserta tes
Kalkulasi varians antar siswa dapat dilakukan dengan menggunakan
rumus Anava H oyt:
Siswa 1 2 3 4 5 6 7 8 9 10
A 0 1 2 1 0 0 1 1 1 2
B 2 1 0 0 2 1 2 2 1 1
C 0 0 2 1 0 2 1 1 1 0
D 1 1 0 1 2 2 2 0 2 1
E 2 1 1 0 0 2 1 1 1 2
F 1 0 1 1 2 1 0 1 2 0
G 2 0 0 1 0 2 2 0 1 1
H 0 1 2 1 2 2 1 1 1 2
I 2 0 0 0 0 2 1 1 1 1
J 1 1 1 1 2 1 2 0 2 0
K 2 0 2 1 0 2 1 1 1 1
L 1 1 0 0 2 2 1 1 1 0
M 2 1 1 1 0 1 2 0 1 1
N 0 0 2 0 0 1 1 1 1 1
0 0 2 0 1 0 2 2 0 0 1
Y 16 10 14 10 12 23 20 11 17 14
Y2 256 100 196 100 144 529 400 121 289 196 400 64 100 36 225 3156 2
Dari Tabel di atas diperoleh: n = 15, k = 15, ∑i=∑X =∑Y = 206, ∑i 2 =318, ∑X2 =
2872, dan ∑Y2 = 3156. Dengan demikian diperoleh:
314
LATIHAN 3
Data ujian Matematika 15 butir tes objektif, yang diikuti 50 siswa adalah sebagai
berikut:
Tentukanlah:
1. Hitung sekor total masing-masing siswa
2. Tentukan ranking tertinggi dari 10 siswa
3. Hitung proporsi jawaban benar dari setiap butir tes
4. Hitung proporsi jawaban salah dari setiap butir tes
5. Indeks kesukaran masing-maasing butir tes
6. Hitung daya pembeda masing-masing butir tes
7. Hitung koefisin biserial masing-masing butir tes
8. Hitung koefisin biserial titik masing-masing butir tes
9. Andaikan data hasil ujian di atas menyatakan hasil kesepakatan 15 orang
pakar terhadap 50 butir tes, tentukan koeisien tingkat kesepakatan
(interater) pakar untuk perangkat tes tersebut.
10. Hitung koefisien keajegan tes dengan metode belah dua ganjil genap.
316
11. Hitung koefisien keajegan tes dengan metode Rulon.
12. Hitung koefisien keajegan tes dengan metode Alpha
13. Hitung koefisien keajegan tes dengan metode KR-20
14. Hitung koefisien keajegan tes dengan metode KR-21
15. Pilahlah perangkat tes atas tiga pilahan, kemudian hitung koeisien
keajegan dengan metode Kristof.
Diketahui nilai hasil ujian Matematika 5 butir tes uraian diikuiti 20 orang siswa.
1 20 14 17 19 11 ...
2 14 12 15 13 12 ...
3 11 13 12 19 18 ...
4 13 13 13 10 6 ...
5 11 16 14 12 3 ...
6 18 18 14 11 4 ...
7 10 18 10 9 11 ...
8 12 8 9 8 9 ...
9 15 16 18 8 8 ...
10 20 20 5 7 9 ...
11 20 9 10 8 7 ...
12 11 18 18 11 6 ...
13 16 10 11 3 1 ...
14 18 19 10 2 6 ...
15 12 16 15 11 7 ...
16 17 19 13 7 4 ...
17 11 9 7 5 0 ...
18 18 18 19 9 10 ...
19 16 7 20 10 5 ...
20 13 5 18 8 6 ...
317
16. Hitung nilai total masing-masing siswa
17. Tetapkan Kriteria Taraf Sukar untuk soal mudah, sedang, dan suka
18. Urutkan nilai dari terbesar ke terkecil
19. Ambil 27% masing-masing nilai tertinggi dan terendah yaitu 27% x 20
dan tentukan banyak siswa yang sesuai
20. Tentukan nilai tertinggi dari High Group (HG), dan nilai terendah Low
Group(LG).
21. Hitung ikdeks kesukaran masing-masing butir tes
22. Hitung ikdeks keajegan masing-masing butir tes
No Penilai
butir 1 2 3 4 5 6 7 8
318
Total
1 5 4 5 5 5 5 4 5 38
2 4 5 4 3 4 4 3 4 31
3 4 5 4 4 3 4 3 3 30
4 4 2 2 4 3 4 5 3 27
5 3 5 2 5 4 4 4 3 30
6 3 4 5 3 4 2 5 4 30
7 4 3 5 4 4 2 4 5 31
8 5 5 5 5 5 5 4 5 39
9 4 2 5 3 4 3 4 5 30
10 4 5 5 5 4 5 5 5 38
11 4 5 5 4 5 5 5 5 38
12 4 5 5 5 5 5 5 4 38
13 4 4 5 5 5 5 5 4 37
14 3 3 4 3 4 3 4 4 28
15 5 5 5 5 4 5 4 5 38
16 5 5 4 5 5 5 5 5 39
17 5 5 4 5 5 5 4 5 38
18 5 5 5 4 5 5 5 4 38
19 5 5 5 5 4 5 5 5 39
20 5 5 5 5 5 4 4 5 38
No 1 2 3 4 5 6 7 8 9 10 11 Total
1 5 2 5 4 2 5 3 4 5 4 2 42
2 4 5 4 5 4 5 5 5 4 5 4 53
3 4 5 5 5 5 5 4 5 5 5 5 41
4 3 4 4 4 3 4 4 4 4 4 3 53
5 5 5 4 5 5 5 5 4 4 5 5 42
319
6 5 4 5 5 5 4 5 4 5 5 5 41
7 5 5 5 5 5 4 5 5 5 5 5 41
8 5 4 5 5 5 5 5 4 5 5 5 37
9 5 5 5 5 5 4 5 5 5 5 5 51
10 5 5 5 5 5 4 5 5 5 5 5 42
11 4 3 3 4 3 4 2 5 3 4 3 41
12 3 3 3 4 4 4 5 4 3 4 4 50
13 4 5 5 5 5 4 5 5 5 5 5 53
14 2 5 3 4 3 4 2 4 3 4 3 41
15 5 5 4 5 5 5 4 5 4 5 5 52
16 4 5 5 4 5 5 5 5 5 4 5 52
17 4 2 4 5 3 3 4 5 4 5 3 54
18 3 3 4 3 4 5 5 4 4 3 4 53
19 5 5 5 5 5 4 5 4 5 5 5 54
20 5 5 5 5 4 5 4 5 5 5 4 54
21 4 3 3 4 3 4 2 5 3 4 3 38
22 3 3 3 4 4 4 5 4 3 4 4 41
23 4 5 5 5 5 4 5 5 5 5 5 53
24 2 5 3 4 3 4 2 4 3 4 3 37
25 5 5 4 5 5 5 4 5 4 5 5 52
26 4 5 5 4 5 5 5 5 5 4 5 52
27 4 2 4 5 3 3 4 5 4 5 3 42
28 3 3 4 3 4 5 5 4 4 3 4 42
29 5 5 5 5 5 4 5 4 5 5 5 53
30 5 5 5 5 4 5 4 5 5 5 4 52
31 5 3 3 4 5 2 4 4 3 4 5 42
32 5 5 5 4 5 5 5 5 5 4 5 53
33 2 4 3 4 4 5 4 4 3 4 4 41
34 5 5 5 5 5 4 5 4 5 5 5 53
35 3 4 3 4 5 4 3 4 3 4 5 42
36 4 3 2 5 4 5 4 3 2 5 4 41
X ... ... ... ... ... ... ... ... ... ... ... ...
320
X2 ... ... ... ... ... ... ... ... ... ... ... ...
JKb = ...
JKk = ...
JKt = ...
RJKe = ...
r= ...
321