Evaluasi Pendidikan
Yang diampu oleh Ibu Dr. Endang Sri Andayani, S.E., M.Si., Ak.
Disusun Oleh :
Kelompok 6
Nama Anggota :
MEI 2021
KATA PENGANTAR
Puji Syukur kami haturkan kepada Tuhan Yang Maha Esa karena atas rahmat dan
ridho-Nya, baik itu berupa sehat fisik maupun akal pikiran, sehingga penulis mampu untuk
menyelesaikan pembuatan makalah sebagai tugas dari mata kuliah Evaluasi Pendidikan
dengan judul “VALIDITAS DAN RELIABILITAS”.
Penulis tentu menyadari bahwa makalah ini masih jauh dari kata sempurna dan masih
banyak terdapat kesalahan serta kekurangan di dalamnya. Untuk itu, penulis mengharapkan
kritik serta saran dari pembaca untuk makalah ini, supaya makalah ini nantinya dapat menjadi
makalah yang lebih baik lagi. Kemudian apabila terdapat banyak kesalahan pada makalah ini
penulis mohon maaf yang sebesar-besarnya.
Penulis juga mengucapkan terima kasih kepada semua pihak khususnya kepada dosen
mata kuliah Evaluasi Pendidikan kami yaitu Ibu Dr. Endang Sri Andayani, S.E., M.Si., Ak.
yang telah membimbing kami dalam penulisan makalah ini.
Semoga makalah ini bermanfaat tidak hanya bagi para civitas akademika Universitas
Negeri Malang, tetapi juga bagi semua pihak, terima kasih.
Penulis
i
DAFTAR ISI
KATA PENGANTAR............................................................................................................................i
DAFTAR ISI.........................................................................................................................................ii
BAB I....................................................................................................................................................1
PENDAHULUAN.................................................................................................................................1
1.1 Latar Belakang.............................................................................................................................1
1.2 Rumusan Masalah........................................................................................................................1
1.3 Tujuan Penulisan.........................................................................................................................1
BAB II...................................................................................................................................................2
PEMBAHASAN...................................................................................................................................2
2.1 Konsep dan Karakteristik Validitas.............................................................................................2
2.2 Jenis – Jenis Validitas..................................................................................................................2
2.3 Menentukan Koefisien Validitas..................................................................................................4
a. Metode Korelasi (Correlation Method)......................................................................................4
b. Validasi Silang (Cross Validation).............................................................................................8
2.4 Konsep Reliabilitas......................................................................................................................9
2.5 Faktor – faktor yang Mempengaruhi Reliabilitas.......................................................................10
2.6 Metode dan Perhitungan Koefisien Reliabilitas.........................................................................10
1. Metode Test-retest (Test-retest Method)..................................................................................11
2. Metode Bentuk Paralel (Equivalent Form Method).................................................................14
3. Split Half Reliability Rumus Spearman Brown.......................................................................18
4. Kuder-Richardson (KR) Method..............................................................................................23
5. Antar Rater (Inter-rater Reliability) dengan SPSS...................................................................24
DAFTAR RUJUKAN..........................................................................................................................30
ii
BAB I
PENDAHULUAN
Instrument yang tidak memiliki reliabilitas dan validitas, akan menghasilkan nilai dan
kesimpulan yang kurang sesuai dengan apa yang terjadi. Agar instrument soal yang
digunakan memiliki reliabilitas dan validitas, instrument soal tersebut diuji dengan
menggunakan beberapa metode pengujian. Instrument soal tersebut yang disusun tentu saja
harus memiliki validitas, agar hasil yang diperoleh bisa diandalkan (reliable) dan juga valid.
1
BAB II
PEMBAHASAN
2.1 Konsep dan Karakteristik Validitas
Secara etimologi validitas berasal dari kata dalam bahasa inggris yaitu
“Valid”, dimana valid dapat diartikan benar atau sah. Validitas merupakan ketepatan
sebuah tes mengukur apa yang dimaksudkan untuk diukur oleh tes tersebut. Validitas
ini mengarah kepada ketepatan interpretasi hasil penggunaan suatu prosedur evaluasi
sesuai dengan tujuan pengukurannya. Validitas dalam evaluasi pendidikan
berhubungan dengan pelaksanaan tes hasil belajar. Validitas dari suatu tes ditentukan
dengan cara mengukur sejauh mana tes tersebut cocok dengan kriteria tertentu. Suatu
tes memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukur secara
tepat atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya
pengukuran tersebut. Hal ini artinya hasil ukur dari pengukuran tersebut
mencerminkan secara tepat keadaan atau fakta sesungguhnya dari apa yang diukur.
2
Validitas wajah merujuk kepada kesesuaian antara penampilan luar alat
ukur dan atribut-atribut variabel yang ingin diukur. Contohnya jika alat ukur
adalah kuisioner, maka item-item pertanyaan dalam kuisioner harus dapat
dipahami oleh subjek penelitian dengan benar. Ketika tes muncul untuk
mengukur apa yang pengguna tes ingin atau ingin ukur, hal itu dapat dikatakan
memiliki validitas wajah. Dengan demikian, validitas wajah tidak mengacu
pada apa yang diukur oleh tes, tetapi apa yang tampaknya diukur oleh tes
tersebut, yaitu apakah tampaknya relevan dengan berbagai tujuannya.
Validitas wajah tidak memerlukan teknik statistik apa pun, namun didasarkan
pada penilaian subjektif. Setiap kali tes disiapkan, hal tersebut diserahkan
kepada para ahli untuk menilai apakah tes itu mengukur apa yang ingin
diukur. Setelah tes divalidasi secara langsung, kita dapat melanjutkan lebih
jauh untuk menghitung koefisien validitas.
3
d. Validitas Konstruk (Construct Validity)
Validitas konstruk suatu tes adalah sejauh mana tes tersebut dapat
dikatakan mengukur suatu konstruk atau sifat teoretis. Validitas konstruk ini
merujuk kepada kesesuaian antara hasil pengukuran alat ukur dengan konsep
teoritis tentang variabel yang diteliti. Sebuah tes dapat dikatakan memiliki
validitas konstruk apabila butir-butir soal yang membangun tes tersebut
mengukur setiap aspek berpikir seperti yang disebutkan dalam tujuan
instruksional khusus. Contoh konstruksi tersebut adalah bakat skolastik,
pemahaman mekanis, kecemasan, neurotisme, dll. Validitas konstruksi
memerlukan akumulasi informasi secara bertahap dari berbagai sumber.
Meskipun validasi konstruk telah umum dikaitkan dengan pembangunan teori
dan pengujian teori, validasi juga memiliki kegunaan untuk penggunaan
praktis hasil penilaian. Saat memilih tes yang digunakan yang mungkin
mengukur konstruksi tertentu, seperti penalaran logis atau pemahaman tulisan,
tes harus diuji untuk menentukan bukti apa yang direpresentasikan untuk
mendukung validitas interpretasi yang diusulkan.
Validitas prediktif dari suatu tes mengacu pada kapasitas prediksi suatu
tes. Validitas ini mengacu pada keefektifan suatu tes dalam memprediksi hasil
masa depan di area tertentu. Suatu tes dapat dikatakan memiliki validitas
prediktif apabila mempunyai kemampuan untuk meramalkan apa yang akan
terjadi pada masa mendatang. Validitas prediktif memberikan informasi yang
paling relevan untuk pengujian yang digunakan dalam pemilihan dan
klasifikasi peserta. Beberapa kegunaan lain termasuk mempekerjakan pelamar
kerja, memilih siswa untuk masuk ke perguruan tinggi atau sekolah
profesional, dan menugaskan personel militer ke program pelatihan kerja.
Contohnya kita menyiapkan tes masuk untuk masuk ke B.Ed. Tentu saja dan
berdasarkan nilai, kita telah menerima kandidat. Kandidat ini menyelesaikan
kursus B.Ed dan muncul untuk ujian B.Ed terakhir. Nilai ujian masuk dan nilai
akhir B.Ed pemeriksaan berkorelasi. Jika koefisien korelasi tinggi maka tes
masuk memiliki validitas prediksi yang tinggi.
4
konkuren. Kapan pun nilai tes akan digunakan untuk memprediksi kinerja
masa depan atau untuk memperkirakan kinerja saat ini pada beberapa ukuran
yang dinilai selain tes itu sendiri (disebut kriteria), kita secara khusus
memperhatikan evaluasi hubungan antara tes dan kriteria. Misalnya skor tes
kesiapan berbicara dapat digunakan untuk memprediksi pencapaian siswa di
masa depan dalam berbicara, atau tes keterampilan kamus dapat digunakan
untuk memperkirakan keterampilan siswa saat ini dalam penggunaan kamus
yang sebenarnya. Contoh pertama adalah validitas prediktif dan contoh kedua
adalah validitas konkuren.
Jenis validitas yang berbeda tentu memerlukan metode penilaian yang berbeda
pula. Metode yang digunakan untuk menilai validitas suatu tes adalah sebagai berikut:
NΣXY −ΣX ΣY
r=
√¿¿
NΣdxdy−ΣdxΣdy
r=
√¿¿
5
N = Ukuran sampel, dy =Y–M
M = Mean
σy
y=r ( X−Mx ) + My
σx
y = Nilai prediksi
Dari rumus di atas dapat ditarik kesimpulan yaitu apabila pada hasil
perhitungan r hitung > r tabel maka instrumen tersebut adalah valid, demikian
juga apabila r hitung < r tabel maka instrumen tersebut tidak valid. Apabila
kita mengenakan SPSS maka apabila nilai signifikasi < 0,05 maka instrumen
valid, dan sebaliknya apabila nilai signifikasi > 0,05 maka instrumen
dikatakan tidak valid.
Contoh:
6
Terdapat 10 peserta didik yang mengikuti ujian akuntansi sebanyak 5 soal.
NO NAMA BUTIR SOAL TOTAL
SISWA (Y)
P1 P2 P3 P4 P5
1 A 1 1 1 1 1 5
2 B 0 0 1 1 1 3
3 C 1 0 1 1 1 4
4 D 0 1 1 1 0 3
5 E 1 1 1 1 0 4
6 F 1 0 1 1 1 5
7 G 0 0 0 0 1 1
8 H 1 1 1 1 0 4
9 I 0 1 0 1 1 3
10 J 1 1 1 1 0 4
TOTAL 6 6 8 9 6 35
Soal 1:
N NAMA P1 TOTAL X2 Y2 XY
O SISWA (X) (Y)
1 A 1 5 1 25 5
2 B 0 3 0 9 0
3 C 1 4 1 16 4
4 D 0 3 0 9 0
5 E 1 4 1 16 4
6 F 1 4 1 16 4
7 G 0 1 0 1 0
8 H 1 4 1 16 4
9 I 0 3 0 9 0
10 J 1 4 1 16 4
TOTAL 6 35 6 133 25
Selanjutnya dari perhitungan indeks validitas atau r hitung didapatkan hasil sebagai
berikut:
7
4. Soal nomor 4 memiliki r hitung = 0.813
5. Soal nomor 5 memiliki r hitung = - 0.199
Adapun hasil perbandingan r hitung dengan r tabel mendapatkan hasil sebagai berikut:
Dari tabel
di atas dapat disimpulkan bahwa apabila r hitung > r tabel maka soal tersebut
dikatakan valid dan apabila r hitung < r tabel maka soal tersebut dikatakan tidak valid.
Sehingga dari soal nomor 1-5 terdapat 3 soal yang valid yaitu nomor 1, 3, dan 4 serta
terdapat 2 soal tidak valid yaitu nomor 2 dan 5.
Selain melakukan perhitungan secara manual, data di atas juga dapat dihitung
melalui SPSS. Langkah-langkahnya adalah sebagai berikut:
1. Klik “Variable View” kemudian ketikkan P1, P2, P3, P4, P5, dan Total pada kolom
“Name” dan “Label”. Jangan lupa untuk mengubah decimals menjadi 0.
8
2. Selanjutnya klik “Data View” dan masukkan nilai dari masing – masing nomor soal
mulai dari P1 hingga P5, serta kolom Total. Setelah input data selesai, klik “Analyze”
> “Correlate” > “Bivariate”
3. Kemudian klik bagian atas (P1), tekan tombol Shift dan tahan lalu klik Total. Setelah
P1 hingga Total terblok, maka klik tanda panah untuk memindahkan ke kanan.
Kemudian pada kolom “Correlation Coefficients” pilih Pearson. Selanjutnya klik
“Options” untuk mengecek apakah optionsnya menggunakan 0.05. Jika sudah, maka
klik “Continue” dan “OK”.
4. Dari hasil uji SPSS di atas mendapatkan hasil seperti di bawah ini.
9
Berdasarkan hasil di atas
dapat ditarik kesimpulan yaitu:
a. P1 mendapatkan hasil 0.797 sehingga soal tersebut valid karena 0.797 > 0.05
(nilai sig).
b. P2 mendapatkan hasil 0.398 sehingga soal tersebut tidak valid karena 0.398 <
0.05 (nilai sig)
c. P3 mendapatkan hasil 0.732 sehingga soal tersebut valid karena 0.732 > 0.05
(nilai sig)
d. P4 mendapatkan hasil -0.199 sehingga soal tersebut tidak valid karena -0.199
< 0.05 (nilai sig).
b. Validasi Silang (Cross Validation)
10
partisi Di akan menjadi data uji dan sisanya akan menjadi data latih. Di bawah ini
adalah contoh pembagian dataset dalam k-fold cross validation:
Dataset
5 fold
Fold ke-1
Fold ke-2
Fold ke-3
Fold ke-4
Fold ke-5
11
hitung akurasi atau kedekatan suatu hasil pengukuran dengan
angkat atau data yang sebenarnya berdasarkan porsi data
tersebut. Perhitungan akurasi menggunakan persamaan seperti
berikut ini:
Σdata uji benar klasifikasi
Akurasi= 100 X
Σtotal data uji
c) Fold ke-2 adalah ketika bagian ke-2 menjadi data uji (testing
data) dan sisanya menjadi data latih (training data). Selanjutnya
hitung akurasi berdasarkan porsi data tersebut.
d) Ulangi langkah berikut hingga mencapai fold ke-k. Hitung rata-
rata akurasi dari data k buah akurasi di atas. Rata-rata akurasi
ini menjadi akurasi final.
12
Peserta tes yang menebak akan dapat mengurangi reliabilitas. Apabila terdapat
banyak kesempatan untuk menebak, maka pengujian tersebut akan menghasilkan hasil
yang kurang reliable.
7. Instruksi tes (test instructions)
Jika peserta tes kurang memahami instruksi dengan baik, maka kemungkinan mereka
akan menjawab juga salah dan ini akan menghambat reliabilitas tes.
8. Item soal yang terlalu mudah atau terlalu sulit
Item soal dengan tingkat kesukaran sedang, cenderung lebih reliable dibanding
dengan soal yang terlalu mudah atau terlalu sulit.
2.6 Metode dan Perhitungan Koefisien Reliabilitas
Ketika memeriksa koefisien reliabilitas dari tes standar, penting untuk dilakukan
pertimbangan metode yang digunakan untuk mendapatkan estimasi reliabilitas. American
Psychological Association (APA) memperkenalkan beberapa metode yang digunakan untuk
mengestimasi reliabilitas. Metodenya serupa karena melibatkan korelasi dua set skor yang
diperoleh dari prosedur penilaian yang sama atau dari bentuk yang setara dari prosedur yang
sama.
Metode untuk Mengestimasi Reabilitas
1. Metode Test-retest (Test-retest Method)
Contoh :
Pada sebuah pengujian instrument soal “X” untuk melihat instrument tersebut
memiliki koefisien stabilitas yang tinggi dapat dilakukan dengan mengulang pemberian tes
dengan subjek yang sama dan dengan waktu yang berbeda dan taraf signifikansi 5%. Test
pertama dilakukan pada bulan Januari 2021 dan yang kedua pada bulan Februari 2021.
13
Hasil pengujian instrument soal bulan Januari :
r =N ∑ XY −¿ ¿ ¿
Tabel Penolong :
Subjek X1 X2 X1² X2² X1X2
A 7 8 49 64 56
B 9 10 81 100 90
C 7 6 49 36 42
D 10 10 100 100 100
E 5 7 25 49 35
F 7 8 49 64 56
14
G 7 9 49 81 63
H 7 7 49 49 49
I 9 10 81 100 90
∑ 68 75 532 643 581
r =N ∑ XY −¿ ¿ ¿
5.229−5.100 129
r= = =0,791
√(4.788−4.624)(5.787−5.625) 162,99
Setelah diperoleh r hitung, untuk dapat dipastikan bahwa instrument tersebut stabil
atau tidak, dapat dilihat dari r tabel nya. Dengan n = 9 dan taraf signifikansi 5%, maka r tabel
nya adalah 0,666 terlihat dalam tabel berikut :
Berdasarkan hal tersebut, maka r hitung senilai 0,791 lebih besar (>) dari r tabel yang senilai
0,666. Hal ini berarti pengukuran pertama dan pengukuran kedua memiliki koefisien
stabilitas yang tinggi (reliable).
Menggunakan SPSS
Langkah 1 : Tuliskan data ke spss bagian “Data View” dan pada “Variable View” ubahlah
nama dan juga label seperti terlihat dalam gambar berikut.
15
Langkah 2 : Setelah data view dan variable view sudah dimasukkan, klik pada “Analyze”
dalam data view, pilih “Correlate” lalu “Bivariate”, kedua pengukuran tersebut dipindah
kolom variables dan pastikan dalam correlation coefficients kita sudah memilih “Pearson”
16
Correlations
Pengukuran 1 Pengukuran 2
N 9 9
N 9 9
Metode reliabilitas ini juga dikenal sebagai reliabilitas bentuk paralel / reliabilitas bentuk
setara / reliabilitas bentuk sebanding. Disebut parallel karena kita memberikan dua alat tes
yang berbeda namun keduanya harus parallel, jika tidak parallel maka tidak bisa diberikan,
17
misalnya alat A untuk mengukur pengetahuan terkait jurnal penyesuaian alat B juga untuk
mengukur pengetahuan terkait jurnal penyesuaian, namun itemnya berbeda tetapi isinya
sama. Peserta diuji dengan dua kali sesi pengerjaan test namun dengan dua form test yang
itemnya berbeda namun memiliki sifat ekuivalen antar keduanya.
Metode bentuk ekuivalen untuk menetapkan reliabilitas banyak digunakan dalam tes
standar (Standardized tests). Hal ini karena sebagian besar tes standar, dua atau lebih bentuk
soal tersedia. Jika dua bentuk soal tersedia dengan format hampir sama, maka reliabilitasnya
tinggi. Namun jika dua bentuk soal tersedia dengan format tidak sama, maka reliabilitasnya
rendah.
Metode yang digunakan untuk menghitung korelasi antara dua set skor yang diperoleh
dari dua bentuk soal ujian adalah metode korelasi Pearson (Pearson’s method of correlation)
yang hampir sama dengan metode test-retest. Koefisien korelasi ini disebut sebagai
“Koefisien ekuivalen”.
Nilai koefisien ini berkisar antara 0 – 1. Jika nilai koefisien mendekati 1, maka alat ukur
ini semakin reliable. Jika nilai koefisien mendekati 0, maka alat ukur ini semakin tidak
reliable.
Contoh :
HASIL NILAI PENGUJIAN FORM A DAN FORM B
18
∑ 68 72 478 540 507
Dari tabel penolong, kita masukkan dalam rumus korelasi pearson :
r =N ∑ XY −¿ ¿ ¿
5.070−4.896 174
r= = =0,948
√(4.780−4.624)(5.400−5.184) 183,56
Setelah diperoleh r hitung, untuk dapat dipastikan bahwa kedua instrument tersebut ekuivalen
atau tidak, dapat dilihat dari r tabel nya. Dengan n = 10 dan taraf signifikansi 1%, maka r
tabel nya adalah 0,765 terlihat dalam tabel berikut :
Berdasarkan hal tersebut, maka r hitung senilai 0,948 lebih besar (>) dari r tabel yang senilai
0,765. Hal ini berarti instrument A dan instrument B memiliki koefisien ekuivalen yang
tinggi (reliable).
Cara lain yang dapat dilakukan adalah dengan menggunakan SPSS, yaitu :
Langkah 1 :
Tuliskan data ke spss bagian “Data View” dan pada “Variable View” ubahlah nama dan juga
label
19
Langkah 2 : Setelah data view dan variable view sudah dimasukkan, klik pada “Analyze”
dalam data view, pilih “Correlate” lalu “Bivariate”, pindahkan kedua pengukuran tersebut
dalam kolom variables.
20
Correlations
N 10 10
N 10 10
Koefisien korelasi dari Form A dan Form B adalah 0.948 dengan signifikansi 0.00 <
0.05 yang berarti memiliki korelasi. Koefision pearson correlation 0.948 yang mendekati
angka 1, maka alat tes form A dan form B tersebut memiliki ekuivalen (reliable) sehingga
dapat digunakan untuk fungsi ukurnya. Namun jika koefisien korelasi tersebut mendekati 0,
maka alat tes form A dan form B tersebut tidak reliable (tidak ekuivalen). Apabila kita
bandingkan r hitung dengan r tabel, maka hasilnya adalah 0.948 > 0.765 yang berarti kedua
alat ukur tersebut memiliki koefisien ekuivalen yang tinggi (reliable).
Keterbatasan dalam Equivalent Form Method :
1. Konstruksi bentuk tes setara terlalu sulit dibandingkan dengan yang lain, karena harus
menyusun dua seri tes
2. Terdapat kemungkinan bahwa efek ingatan atau efek latihan pada saat mengerjakan
bentuk tes kedua.
3. Kondisi pengujian saat memberikan dua bentuk test mungkin berbeda dan peserta test
mungkin tidak dalam keadaan fisik, mental atau emosional yang sama pada saat
pengerjaan.
3. Split Half Reliability Rumus Spearman Brown
Split Half Reliability adalah teknik pengujian reliabilitas instrument dengan cara
membaginya menjadi dua bagian. Indeks reliabilitas dicerminkan dari korelasi antara dua
bagian instrument.
Groth dan Marnat (2008) menyebutkan bahwa konsistensi internal melalui reliabilitas
belah dua dan koefisien alpha merupakan teknik-teknik terbaik untuk menentukan reliabilitas
sebuah cirri-sifat dengan derajat fluktuasi yang tinggi. Karena tes diberikan hanya satu kali,
21
maka soal-soalnya dikorelasikan satu sama lain, dan tidak ada kemungkinan pengaruh waktu
untuk mengintervensi seperti yang terjadi pada metode test-retest. Pengujian relibilitas dalam
hal ini menggunakan teknik belah dua (split half) yang dianalisis dengan rumus Spearman
Brown. Jika anda memiliki kuesioner dengan mode skala likert, dimana skala terentang dari 1
- 4 atau 1 - 5, jika hasil analisis korelasinya ≥ 0.80 maka instrument soal dinyatakan reliabel,
kita dapat menggunakan teknik reliabilitas Spearman-Brown dengan formula :
2 r hh
r S B=
1+r hh
Contoh :
Seorang guru ingin menguji reliabilitas soal dengan menggunakan rumus reliabilitas
spearmen brown, soal yang akan diuji berjumlah 15 butir soal. Lalu guru tesebut membagi
instrument soal berdasarakan nomor soal yang bernomor ganjil dan nomor soal yang genap.
Adapun data poin dalam soal sebagai berikut:
Poin Dalam Soal
No Soal
No. Res
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 5 5 4 4 4 4 5 5 4 4 4 4 5 4 5
2 4 2 3 3 3 3 4 3 3 3 4 3 5 4 4
3 5 5 4 4 4 4 5 4 4 4 5 4 4 5 4
4 4 5 4 5 4 3 5 4 4 4 4 4 5 5 4
5 3 3 2 2 2 2 3 3 3 3 2 3 2 3 4
6 4 4 3 3 3 3 3 3 3 3 4 3 4 3 3
7 4 4 3 4 3 3 4 3 4 3 4 3 4 4 4
8 4 4 5 4 4 4 4 4 4 3 1 3 4 3 4
9 4 4 5 4 4 5 5 5 4 5 5 5 5 4 5
10 4 3 3 4 2 3 5 3 4 3 4 3 4 3 3
11 4 3 3 3 3 3 4 3 4 4 4 3 5 2 4
12 4 4 3 5 4 4 5 5 4 4 3 3 4 5 4
13 4 4 4 3 3 3 5 3 3 4 3 3 3 4 4
14 3 3 2 4 3 3 4 4 5 3 4 3 4 4 4
15 4 4 4 4 4 4 5 5 4 4 5 3 4 4 4
16 5 4 4 4 4 5 5 4 4 4 4 5 5 5 5
17 5 3 4 4 4 4 2 3 4 4 5 4 5 4 4
18 4 2 2 4 3 4 3 2 3 3 3 2 4 3 3
19 4 5 3 4 4 4 5 3 5 2 4 2 4 4 4
20 3 3 3 2 2 2 2 3 2 2 2 2 2 4 3
1. Butir-butir instrumen dibagi dua kelompok, yaitu kelompok butir item genap (2, 4,
6, ...) dan kelompok butir item ganjil (1, 3, 5, ...).
2. Skor data tiap kelompok disusun tersendiri.
3. Hitung skor total masing-masingnya. Untuk lebih jelasnya dapat melihat dari gambar
tabel berikut ini:
22
2 4 6 8 10 12 14 1 3 5 7 9 11 13 15
1 5 4 4 5 4 4 4 30 1 5 4 4 5 4 4 5 5 36
2 2 3 3 3 3 3 4 21 2 4 3 3 4 3 4 5 4 30
3 5 4 4 4 4 4 5 30 3 5 4 4 5 4 5 4 4 35
4 5 5 3 4 4 4 5 30 4 4 4 4 5 4 4 5 4 34
5 3 2 2 3 3 3 3 19 5 3 2 2 3 3 2 2 4 21
6 4 3 3 3 3 3 3 22 6 4 3 3 3 3 4 4 3 27
7 4 4 3 3 3 3 4 24 7 4 3 3 4 4 4 4 4 30
8 4 4 4 4 3 3 3 25 8 4 5 4 4 4 1 4 4 30
9 4 4 5 5 5 5 4 32 9 4 5 4 5 4 5 5 5 37
10 3 4 3 3 3 3 3 22 10 4 3 2 5 4 4 4 3 29
11 3 3 3 3 4 3 2 21 11 4 3 3 4 4 4 5 4 31
12 4 5 4 5 4 3 5 30 12 4 3 4 5 4 3 4 4 31
13 4 3 3 3 4 3 4 24 13 4 4 3 5 3 3 3 4 29
14 3 4 3 4 3 3 4 24 14 3 2 3 4 5 4 4 4 29
15 4 4 4 5 4 3 4 28 15 4 4 4 5 4 5 4 4 34
16 4 4 5 4 4 5 5 31 16 5 4 4 5 4 4 5 5 36
17 3 4 4 3 4 4 4 26 17 5 4 4 2 4 5 5 4 33
23
18 2 4 4 2 3 2 3 20 18 4 2 3 3 3 3 4 3 25
19 5 4 4 3 2 2 4 24 19 4 3 4 5 5 4 4 4 33
20 3 2 2 3 2 2 4 18 20 3 3 2 2 2 2 2 3 19
4. Menghitung korelasi antara skor total kelompok genap dan skor total kelompok ganjil
Total Total
No. Res XY X^2 Y^2
Skor (X) Skor (Y)
24
14 29 24 696 841 576
r XY =∑ XY −¿ ¿ ¿
Setelah diperoleh koefisien korelasi Pearson, kita masukkan lagi ke dalam formula Split Half
Spearman-Brown :
25
2 r hh 2(0.87)
r S B= = =0.93
1+r hh 1+ 0.87
Pengukuran reliabilitas soal memberikan hasil dengan tingkat reliabilitas yang tinggi,
dengan nilai reliablilitas sebesar 0,93, oleh karena itu soal termasuk reliabel karena 0,93 ≥
0.80.
Jika kita ingin menghitumg dengan memakai SPSS maka dapat melalui cara berikut ini :
1. Klik Variable View. Pada bagian name tulislah X.1 sampai dengan X.8 menunjukkan
banyaknya butir soal untuk bernomor ganjil, sementara Y.1 sampai dengan Y.7
menunjukkan banyaknya butir soal untuk bernomor genap. Seperti dalam gambar :
2. Klik Data View, lalu masukkan perolehan skor masing- masing responden untuk
variabel X dan variabel Y
3. Setelah itu, klik menu Analyze - Scale - Reliability Analysis dan mucul dialog
"Reliability Analysis", selanjutnya pindahkan butir soal X.1 sampai dengan butir soal
X.8 ke kotak Items (keterangan: kita akan melakukan uji reliabilitas butir kuesoner
untuk variabel Ganjil). Pada bagian "Model" pilih Split-half, lalu klik Statistics.
26
4. Muncul diloag "Reliability Analysis: Statistics", kemudian pada baglan "Descriptives
for" berikan tanda ceklist (V) untuk Scale if item deleted, selanjutnya klik Continue.
Reliability Statistics
S 2t −∑ p . q
r 11 =
k
(k −1) { S2t }
Formula KR-21 yaitu :
k
r 11 = ¿
(k −1)
28
k = jumlah item dalam instrument
q=1–p
n = jumlah responden
1. Langkah pertama kita buat tabel di excel dengan tampilan sebagai berikut:
Peserta didik 1 2 3 4 5 6 7 8 9 10 Xt Xt^2
Agus 1 1 0 0 0 1 0 0 1 0 4 16
Intan 1 1 1 0 0 1 0 0 0 0 4 16
Dwi 1 0 0 1 0 1 0 0 0 0 3 9
Zaenal 1 1 1 0 0 1 0 1 0 0 5 25
Malik 1 1 1 1 1 1 1 1 1 0 9 81
Abdul 1 1 1 1 1 0 1 1 1 0 8 64
Miya 1 1 1 1 1 0 1 1 1 0 8 64
Hyunjae 1 0 1 0 1 0 1 0 0 1 5 25
Juyeon 1 1 1 1 0 0 1 0 0 1 6 36
Dio 0 1 0 1 1 0 1 0 0 1 5 25
Np 9 8 7 6 5 5 6 4 4 3 57 361
P 0.9 0.8 0.7 0.6 0.5 0.5 0.6 0.4 0.4 0.3
q 0.1 0.2 0.3 0.4 0.5 0.5 0.4 0.6 0.6 0.7
p.q 0.09 0.16 0.21 0.24 0.25 0.25 0.24 0.24 0.24 0.21 2.13
Np = jumlah siswayang menjawab dengan benar pada nomor soal/pada setiap item
29
p = proporsi dari siswa yang menjawab dengan benar Np/jumlah siswa
q=1–p
2. Menghitung varian total terlebih dahulu
S2t =∑ X t2−¿ ¿¿
KR-21
k
r 11 = ¿
( k−1 )
Untuk Mt=
∑ Xt = 57 =5,7
n 10
Kesimpulan :
KR-20 : karena r hitung = 0,46 ≤ 0,70 maka instrumen soal tidak reliabel
KR-21 : karena r hitung = 0,36 ≤ 0,70 maka instrumen soal tidak reliabel
Berdasarkan perhitungan koefisien reliabilitas KR20 dan KR21 diperoleh hasil yang
tidak jauh berbeda. Formula KR21 menghasilkan koefisien reliabilitas yang lebih kecil
dibandingkan koefisien reliabilitas yang dihitung menggunakan formula KR20. Hal tersebut
disebabkan karena harga p, yang menyatakan taraf kesukaran item-item dalam tes yang
bersangkutan sangat bervarasi. Dengan kata lain formula KR21 kurang tepat untuk digunakan
pada tes yang tingkat kesukarannya bervariasi atau tidak homogen.
Ada dua teknik untuk estimasi reliabilitas antar rater yang dapat digunakan, yakni
dengan koefisien Kappa dari Cohen dan Intraclass Correlation Coefficients (ICC).
30
- Skor hasil penilaiannya bersifat kategori dan hanya dua kategori
Agus 1 1
Intan 1 1
Dwi 0 0
Zaenal 1 1
Malik 1 1
Abdul 0 1
Miya 0 0
Hyunjae 0 0
Juyeon 1 1
Dio 0 0
31
Analisis Koefisien Kappa dengan SPSS
1. KlikVariable View. Pada bagian Name pertama dan seterusnya tuliskan Rater 1,
Rater 2. Selanjutnya pada bagian Decimals ubah menjadi 0. Tampak pada gambar
berikut ini:
2. Klik Data View, masukkan nilai yang diperoleh siswa dari Rater 1 dan Rater 2,
lalu Tekan Analyze – descriptive statistics – crosstab
Interpretasi Ouput
32
Tabel pertama memperlihatkan
Rater1 * Rater2 Crosstabulation konsistensi penilaian antar rater.
Terlihat bahwa dari 10 orang yang
dinilai, terdapat 9 orang yang
Rater2
0 1 Total
Rater1 0 Count 4 1 5
1 Count 0 5 5
Total Count 4 6 10
Symmetric Measures
Asymptotic Approximate
a b
Value Standard Error Approximate T Significance
N of Valid Cases 10
33
b. Using the asymptotic standard error assuming the null hypothesis.
Tabel kedua menunjukkan Reliabilitas antar rater, yaitu K=0,800. Ayimptotic standardized
error menunjukkan kesalahan pengukuran terstandar, yakni semakin kecil semakin reliabel.
Contoh kasus :
Empat orang guru diminta untuk menilai tingkat keaktifan pada 10 siswa di dalam
kelas XII IPA 5. Skor yang diberikan observer berkisar antara 1-5. Skor 1
menunjukkan tidak aktif sama sekali, sementara skor 5 menunjukkan siswa sangat
aktif. Peneliti hendak mencari seberapa jauh kesepakatan rater dalam menilai
keaktifan siswa. Data yang diperoleh adalah sebagai berikut:
Agus 1 1 2 1
Intan 2 2 2 3
Dwi 3 3 3 3
Zaenal 4 4 4 4
Malik 5 5 5 5
34
Abdul 4 4 4 4
Miya 3 3 3 3
Hyunjae 2 2 2 2
Juyeon 1 2 1 1
Dio 3 2 2 2
Untuk mengestimasi Intraclass Correlation Coefficients di SPSS, ikuti langkah berikut:
1. Klik Variable View. Pada bagian Name pertama dan seterusnya tuliskan Rater 1,
Rater 2, Rater 3, Rater 4. Selanjutnya pada bagian Decimals ubah menjadi 0.
2. Klik Data View, lalu masukkan nilai yang diperoleh siswa dari Rater 1,Rater 2
Rater 3, Rater 4. Lalu Pilih Menu Analyze – Scale - Reliability Analysis
35
Interpretasi Ouput
Reliability Statistics
Cronbach's
Alpha N of Items
ANOVA
.982 4
Intraclass
Correlationb Lower Bound Upper Bound Value df1 df2 Sig
36
Average Measures .982c .953 .995 55.400 9 27 .000
Two-way mixed effects model where people effects are random and measures effects are fixed.
a. The estimator is the same, whether the interaction effect is present or not.
b. Type C intraclass correlation coefficients using a consistency definition. The between-measure variance is excluded
from the denominator variance.
c. This estimate is computed assuming the interaction effect is absent, because it is not estimable otherwise.
Tabel pertama menunjukkan output jika diestimasi dengan menggunakan koefisien Alpha.
Tabel menunjukkan reliabilitas Alpha yang memuaskan, yakni 0,982. Tabel kedua adalah
keluaran analisis melalui ANOVA. Dari output tersebut menunjukkan tidak adanya
perbedaan penilaian antar rater (p> 0,05). Tabel ketiga menunjukkan output ICC dengan
reliabilitas antar rater yang cukup memuaskan, yakni rxx = 0,932
37
DAFTAR RUJUKAN
38