Anda di halaman 1dari 41

VALIDITAS DAN RELIABILITAS

Untuk Memenuhi Tugas Mata Kuliah

Evaluasi Pendidikan

Yang diampu oleh Ibu Dr. Endang Sri Andayani, S.E., M.Si., Ak.

Disusun Oleh :

Kelompok 6

Nama Anggota :

1. Megarizki Ramadhani (190421628801)


2. Muhammad Teuku Arfat C. S(1904216288920)
3. Nurul Asminingtyas (1904216288868)

UNIVERSITAS NEGERI MALANG

FAKULTAS EKONOMI DAN BISNIS

MEI 2021
KATA PENGANTAR

Puji Syukur kami haturkan kepada Tuhan Yang Maha Esa karena atas rahmat dan
ridho-Nya, baik itu berupa sehat fisik maupun akal pikiran, sehingga penulis mampu untuk
menyelesaikan pembuatan makalah sebagai tugas dari mata kuliah Evaluasi Pendidikan
dengan judul “VALIDITAS DAN RELIABILITAS”.

Penulis tentu menyadari bahwa makalah ini masih jauh dari kata sempurna dan masih
banyak terdapat kesalahan serta kekurangan di dalamnya. Untuk itu, penulis mengharapkan
kritik serta saran dari pembaca untuk makalah ini, supaya makalah ini nantinya dapat menjadi
makalah yang lebih baik lagi. Kemudian apabila terdapat banyak kesalahan pada makalah ini
penulis mohon maaf yang sebesar-besarnya.

Penulis juga mengucapkan terima kasih kepada semua pihak khususnya kepada dosen
mata kuliah Evaluasi Pendidikan kami yaitu Ibu Dr. Endang Sri Andayani, S.E., M.Si., Ak.
yang telah membimbing kami dalam penulisan makalah ini.

Semoga makalah ini bermanfaat tidak hanya bagi para civitas akademika Universitas
Negeri Malang, tetapi juga bagi semua pihak, terima kasih.

Malang, Mei 2021

Penulis

i
DAFTAR ISI

KATA PENGANTAR............................................................................................................................i
DAFTAR ISI.........................................................................................................................................ii
BAB I....................................................................................................................................................1
PENDAHULUAN.................................................................................................................................1
1.1 Latar Belakang.............................................................................................................................1
1.2 Rumusan Masalah........................................................................................................................1
1.3 Tujuan Penulisan.........................................................................................................................1
BAB II...................................................................................................................................................2
PEMBAHASAN...................................................................................................................................2
2.1 Konsep dan Karakteristik Validitas.............................................................................................2
2.2 Jenis – Jenis Validitas..................................................................................................................2
2.3 Menentukan Koefisien Validitas..................................................................................................4
a. Metode Korelasi (Correlation Method)......................................................................................4
b. Validasi Silang (Cross Validation).............................................................................................8
2.4 Konsep Reliabilitas......................................................................................................................9
2.5 Faktor – faktor yang Mempengaruhi Reliabilitas.......................................................................10
2.6 Metode dan Perhitungan Koefisien Reliabilitas.........................................................................10
1. Metode Test-retest (Test-retest Method)..................................................................................11
2. Metode Bentuk Paralel (Equivalent Form Method).................................................................14
3. Split Half Reliability Rumus Spearman Brown.......................................................................18
4. Kuder-Richardson (KR) Method..............................................................................................23
5. Antar Rater (Inter-rater Reliability) dengan SPSS...................................................................24
DAFTAR RUJUKAN..........................................................................................................................30

ii
BAB I

PENDAHULUAN

1.1 Latar Belakang

Perkembangan pendidikan telah menjadikan banyaknya metode untuk pengujian


kelayakan dari instrument soal. Persoalan alat ukur yang digunakan untuk melakukan
evaluasi sering dihadapkan pada persoalan yaitu akurasi, konsistensi, dan stabilitas sehingga
alat ukur tersebut bisa mengukur hasil dengan akurat ketika digunakan. Konsistensi dan
stabilitas ini berarti instrument soal tidak mengalami perubahan dari satu pengukuran ke
pengukuran lainnya.

Instrument yang tidak memiliki reliabilitas dan validitas, akan menghasilkan nilai dan
kesimpulan yang kurang sesuai dengan apa yang terjadi. Agar instrument soal yang
digunakan memiliki reliabilitas dan validitas, instrument soal tersebut diuji dengan
menggunakan beberapa metode pengujian. Instrument soal tersebut yang disusun tentu saja
harus memiliki validitas, agar hasil yang diperoleh bisa diandalkan (reliable) dan juga valid.

Evaluasi dalam pembelajaran sangat penting dan sangat menentukan tindakan


selanjutnya dalam pembelajaran. Oleh karena itu, instrument soal untuk bahan evaluasi juga
harus sesuai, yaitu reliable dan valid yang akan dibahas dan diuji dalam makalah ini.

1.2 Rumusan Masalah

1. Bagaimanakah konsep dan karakteristik dari validitas ?


2. Bagaimanakah jenis – jenis validitas?
3. Bagaimanakah cara menentukan koefisiensi validitas ?
4. Bagaimanakah konsep reliabilitas ?
5. Bagaimanakah faktor – faktor yang mempengaruhi reliabilitas ?
6. Bagaimanakah metode dan perhitungan koefisien reliabilitas ?

1.3 Tujuan Penulisan

1. Untuk mengetahui konsep dan karakteristik dari validitas


2. Untuk mengetahui jenis – jenis validitas
3. Untuk mengetahui cara menentukan koefisiensi validitas
4. Untuk mengetahui konsep reliabilitas
5. Untuk mengetahui faktor – faktor yang mempengaruhi reliabilitas
6. Untuk mengetahui metode dan perhitungan koefisien reliabilitas

1
BAB II

PEMBAHASAN
2.1 Konsep dan Karakteristik Validitas

Secara etimologi validitas berasal dari kata dalam bahasa inggris yaitu
“Valid”, dimana valid dapat diartikan benar atau sah. Validitas merupakan ketepatan
sebuah tes mengukur apa yang dimaksudkan untuk diukur oleh tes tersebut. Validitas
ini mengarah kepada ketepatan interpretasi hasil penggunaan suatu prosedur evaluasi
sesuai dengan tujuan pengukurannya. Validitas dalam evaluasi pendidikan
berhubungan dengan pelaksanaan tes hasil belajar. Validitas dari suatu tes ditentukan
dengan cara mengukur sejauh mana tes tersebut cocok dengan kriteria tertentu. Suatu
tes memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukur secara
tepat atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya
pengukuran tersebut. Hal ini artinya hasil ukur dari pengukuran tersebut
mencerminkan secara tepat keadaan atau fakta sesungguhnya dari apa yang diukur.

Karakteristik dari validitas yaitu sebagai berikut:

1. Validitas adalah konsep kesatuan.


2. Validitas mengacu pada kebenaran hasil tes.
3. Dalam bidang pendidikan dan psikologi, tidak ada tes yang valid secara
sempurna karena pengukuran mental tidak mutlak tetapi relatif.
4. Jika suatu tes valid, itu reliabel; tetapi jika suatu tes bisa diandalkan, itu
mungkin valid atau mungkin tidak.
5. Validitas adalah penilaian evaluatif atas sebuah tes. Validitas ini mengukur
sejauh mana suatu tes mengukur apa yang ingin diukur.
6. Validitas mengacu pada kesesuaian interpretasi hasil dan bukan pada prosedur
itu sendiri.
7. Validitas mengacu pada derajat berarti validitas tinggi, validitas sedang dan
validitas rendah.
8. Tidak ada penilaian yang valid untuk semua tujuan. Tes hanya berlaku untuk
tujuan tertentu saja.

2.2 Jenis – Jenis Validitas

Terdapat enam jenis validitas yaitu sebagai berikut:

a. Validitas Wajah (Face Validity)

2
Validitas wajah merujuk kepada kesesuaian antara penampilan luar alat
ukur dan atribut-atribut variabel yang ingin diukur. Contohnya jika alat ukur
adalah kuisioner, maka item-item pertanyaan dalam kuisioner harus dapat
dipahami oleh subjek penelitian dengan benar. Ketika tes muncul untuk
mengukur apa yang pengguna tes ingin atau ingin ukur, hal itu dapat dikatakan
memiliki validitas wajah. Dengan demikian, validitas wajah tidak mengacu
pada apa yang diukur oleh tes, tetapi apa yang tampaknya diukur oleh tes
tersebut, yaitu apakah tampaknya relevan dengan berbagai tujuannya.
Validitas wajah tidak memerlukan teknik statistik apa pun, namun didasarkan
pada penilaian subjektif. Setiap kali tes disiapkan, hal tersebut diserahkan
kepada para ahli untuk menilai apakah tes itu mengukur apa yang ingin
diukur. Setelah tes divalidasi secara langsung, kita dapat melanjutkan lebih
jauh untuk menghitung koefisien validitas.

b. Validitas Isi (Content Validity)

Validitas isi merujuk kepada kesesuaian hasil pengukuran variabel yang


diteliti oleh sebuah alat ukur dengan isi (konten) dari variabel tersebut
sebagaimana yang dimaksudkan oleh peneliti. Suatu tes dapat dikatakan
memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar
dengan materi atau isi pelajaran yang diberikan. Validitas isi mengacu pada
sejauh mana tes berisi item yang mewakili perilaku yang akan kita nilai.
Validitas isi suatu tes diperkirakan dengan menilai keberadaan isi yang akan
dinilai dalam kertas tes. Misalkan kita ingin membuat tes prestasi dalam
bahasa Inggris. Jadi semua soal tes harus terkait dengan prosa, puisi, novel,
tata bahasa, dll, dan semua item harus mengukur tujuan perilaku yang berbeda
seperti pengetahuan, pemahaman, penerapan, analisis, sintesis, dan evaluasi.
Validitas isi bergantung pada analisis ahli pada item yang termasuk dalam tes.
Validitas isi juga dikenal sebagai 'validitas kurikuler' atau 'validitas rasional'
atau 'validitas logis'.

c. Validitas Konkuren (Concurrent Validity)

Istilah ‘validitas konkuren’ digunakan untuk merujuk proses validasi


tes baru dengan menghubungkannya dengan beberapa sumber informasi yang
tersedia yang mungkin telah diperoleh segera sebelum atau segera setelah tes
baru diberikan. Validitas konkuren menunjukkan sejauh mana skor tes sesuai
dengan ukuran kinerja yang sudah diterima (atau status dibuat pada saat yang
sama). Misalkan kita ingin melakukan tes kecerdasan pada seseorang. Jika
koefisien korelasinya tinggi, maka tes kecerdasan dikatakan memiliki validitas
konkuren yang tinggi. Validitas bersamaan relevan dengan tes yang digunakan
untuk diagnosis.

3
d. Validitas Konstruk (Construct Validity)

Validitas konstruk suatu tes adalah sejauh mana tes tersebut dapat
dikatakan mengukur suatu konstruk atau sifat teoretis. Validitas konstruk ini
merujuk kepada kesesuaian antara hasil pengukuran alat ukur dengan konsep
teoritis tentang variabel yang diteliti. Sebuah tes dapat dikatakan memiliki
validitas konstruk apabila butir-butir soal yang membangun tes tersebut
mengukur setiap aspek berpikir seperti yang disebutkan dalam tujuan
instruksional khusus. Contoh konstruksi tersebut adalah bakat skolastik,
pemahaman mekanis, kecemasan, neurotisme, dll. Validitas konstruksi
memerlukan akumulasi informasi secara bertahap dari berbagai sumber.
Meskipun validasi konstruk telah umum dikaitkan dengan pembangunan teori
dan pengujian teori, validasi juga memiliki kegunaan untuk penggunaan
praktis hasil penilaian. Saat memilih tes yang digunakan yang mungkin
mengukur konstruksi tertentu, seperti penalaran logis atau pemahaman tulisan,
tes harus diuji untuk menentukan bukti apa yang direpresentasikan untuk
mendukung validitas interpretasi yang diusulkan.

e. Validitas Prediktif (Predictive Validity)

Validitas prediktif dari suatu tes mengacu pada kapasitas prediksi suatu
tes. Validitas ini mengacu pada keefektifan suatu tes dalam memprediksi hasil
masa depan di area tertentu. Suatu tes dapat dikatakan memiliki validitas
prediktif apabila mempunyai kemampuan untuk meramalkan apa yang akan
terjadi pada masa mendatang. Validitas prediktif memberikan informasi yang
paling relevan untuk pengujian yang digunakan dalam pemilihan dan
klasifikasi peserta. Beberapa kegunaan lain termasuk mempekerjakan pelamar
kerja, memilih siswa untuk masuk ke perguruan tinggi atau sekolah
profesional, dan menugaskan personel militer ke program pelatihan kerja.
Contohnya kita menyiapkan tes masuk untuk masuk ke B.Ed. Tentu saja dan
berdasarkan nilai, kita telah menerima kandidat. Kandidat ini menyelesaikan
kursus B.Ed dan muncul untuk ujian B.Ed terakhir. Nilai ujian masuk dan nilai
akhir B.Ed pemeriksaan berkorelasi. Jika koefisien korelasi tinggi maka tes
masuk memiliki validitas prediksi yang tinggi.

f. Validitas Kriteria (Criterion Validity)

Validitas kriteria merujuk kepada kesesuaian antara hasil pengukuran


sebuah alat ukur dengan alat ukur ideal tentang variabel yang diteliti. Bukti
validitas kriteria memberi tahu kita seberapa baik sebuah tes sesuai dengan
kriteria tertentu. Validitas kriteria mencakup validitas prediktif dan validitas

4
konkuren. Kapan pun nilai tes akan digunakan untuk memprediksi kinerja
masa depan atau untuk memperkirakan kinerja saat ini pada beberapa ukuran
yang dinilai selain tes itu sendiri (disebut kriteria), kita secara khusus
memperhatikan evaluasi hubungan antara tes dan kriteria. Misalnya skor tes
kesiapan berbicara dapat digunakan untuk memprediksi pencapaian siswa di
masa depan dalam berbicara, atau tes keterampilan kamus dapat digunakan
untuk memperkirakan keterampilan siswa saat ini dalam penggunaan kamus
yang sebenarnya. Contoh pertama adalah validitas prediktif dan contoh kedua
adalah validitas konkuren.

2.3 Menentukan Koefisien Validitas

Jenis validitas yang berbeda tentu memerlukan metode penilaian yang berbeda
pula. Metode yang digunakan untuk menilai validitas suatu tes adalah sebagai berikut:

a. Metode Korelasi (Correlation Method)

Metode korelasi ini digunakan di sebagian besar kasus untuk


menghitung validitas dari suatu tes. Korelasi ganda digunakan jika lebih dari
dua ukuran yang terlibat di mana ahli matematika dan biometrik Inggris ‘R’
Karl Pearson digunakan. Beberapa metode digunakan untuk ini, tetapi berikut
ini adalah salah satu metode yang populer.

NΣXY −ΣX ΣY
r=
√¿¿

r = Indeks validitas, X = Nilai mentah dalam tes X

N = Ukuran sampel, Y = Nilai mentah dalam tes Y

XY = Jumlah hasil perkalian tiap skor X dikalikan skor Y yang sesuai

Agar perhitungannya mudah, kita bisa menggunakan rumus di sini:

NΣdxdy−ΣdxΣdy
r=
√¿¿

r = Indeks validitas, dx =X–M

5
N = Ukuran sampel, dy =Y–M

X = Skor mentah kelompok X, Y = Skor mentah kelompok Y

M = Mean

Terkadang kita perlu memprediksi hasil masa depan seseorang dengan


mengacu pada hasil saat ini. Persamaan regresi berikut digunakan untuk tujuan
ini:

σy
y=r ( X−Mx ) + My
σx

y = Nilai prediksi

My = Rata-rata skor yang diprediksi (Y)

Mx = Rata-rata skor tes (X)

σy = Simpangan baku skor prediksi (Y)

σx = Simpangan baku skor tes (X)

X = Nilai ujian (dasar prediksi)

Y = Nilai yang diprediksi

Dari rumus di atas dapat ditarik kesimpulan yaitu apabila pada hasil
perhitungan r hitung > r tabel maka instrumen tersebut adalah valid, demikian
juga apabila r hitung < r tabel maka instrumen tersebut tidak valid. Apabila
kita mengenakan SPSS maka apabila nilai signifikasi < 0,05 maka instrumen
valid, dan sebaliknya apabila nilai signifikasi > 0,05 maka instrumen
dikatakan tidak valid.

Contoh:

6
Terdapat 10 peserta didik yang mengikuti ujian akuntansi sebanyak 5 soal.
NO NAMA BUTIR SOAL TOTAL
SISWA (Y)
P1 P2 P3 P4 P5
1 A 1 1 1 1 1 5
2 B 0 0 1 1 1 3
3 C 1 0 1 1 1 4
4 D 0 1 1 1 0 3
5 E 1 1 1 1 0 4
6 F 1 0 1 1 1 5
7 G 0 0 0 0 1 1
8 H 1 1 1 1 0 4
9 I 0 1 0 1 1 3
10 J 1 1 1 1 0 4
TOTAL 6 6 8 9 6 35

Dari tabel yang disajikan di atas, langkah selanjutnya adalah menilai


validitas suatu tes, adapun caranya adalah sebagai berikut:

Soal 1:
N NAMA P1 TOTAL X2 Y2 XY
O SISWA (X) (Y)
1 A 1 5 1 25 5
2 B 0 3 0 9 0
3 C 1 4 1 16 4
4 D 0 3 0 9 0
5 E 1 4 1 16 4
6 F 1 4 1 16 4
7 G 0 1 0 1 0
8 H 1 4 1 16 4
9 I 0 3 0 9 0
10 J 1 4 1 16 4
TOTAL 6 35 6 133 25

NΣXY −ΣX ΣY ( 10∗25 )−(6)(35)


r= r= r =0.797
√¿¿ √¿¿

Selanjutnya dari perhitungan indeks validitas atau r hitung didapatkan hasil sebagai
berikut:

1. Soal nomor 1 memiliki r hitung = 0.797


2. Soal nomor 2 memiliki r hitung = 0.398
3. Soal nomor 3 memiliki r hitung = 0.732

7
4. Soal nomor 4 memiliki r hitung = 0.813
5. Soal nomor 5 memiliki r hitung = - 0.199

Setelah menghitung indeks validitas atau r hitung, langkah selanjutnya adalah


membandingkan r hitung dengan r tabel. Adapun r tabelnya adalah sebagai berikut:

Dikarenakan N (ukuran sampel)


adalah 10, maka df = (10 – 2) = 8
sehingga besarnya r tabel adalah
0.5494.

Adapun hasil perbandingan r hitung dengan r tabel mendapatkan hasil sebagai berikut:

Variabe R hitung R tabel Keterangan


l
P1 0.797 Valid
P2 0.398 Tidak Valid
P3 0.732 0.5494 Valid
P4 0.813 Valid
P5 -0.199 Tidak Valid

Dari tabel
di atas dapat disimpulkan bahwa apabila r hitung > r tabel maka soal tersebut
dikatakan valid dan apabila r hitung < r tabel maka soal tersebut dikatakan tidak valid.
Sehingga dari soal nomor 1-5 terdapat 3 soal yang valid yaitu nomor 1, 3, dan 4 serta
terdapat 2 soal tidak valid yaitu nomor 2 dan 5.

Selain melakukan perhitungan secara manual, data di atas juga dapat dihitung
melalui SPSS. Langkah-langkahnya adalah sebagai berikut:

1. Klik “Variable View” kemudian ketikkan P1, P2, P3, P4, P5, dan Total pada kolom
“Name” dan “Label”. Jangan lupa untuk mengubah decimals menjadi 0.

8
2. Selanjutnya klik “Data View” dan masukkan nilai dari masing – masing nomor soal
mulai dari P1 hingga P5, serta kolom Total. Setelah input data selesai, klik “Analyze”
> “Correlate” > “Bivariate”

3. Kemudian klik bagian atas (P1), tekan tombol Shift dan tahan lalu klik Total. Setelah
P1 hingga Total terblok, maka klik tanda panah untuk memindahkan ke kanan.
Kemudian pada kolom “Correlation Coefficients” pilih Pearson. Selanjutnya klik
“Options” untuk mengecek apakah optionsnya menggunakan 0.05. Jika sudah, maka
klik “Continue” dan “OK”.

4. Dari hasil uji SPSS di atas mendapatkan hasil seperti di bawah ini.

9
Berdasarkan hasil di atas
dapat ditarik kesimpulan yaitu:
a. P1 mendapatkan hasil 0.797 sehingga soal tersebut valid karena 0.797 > 0.05
(nilai sig).
b. P2 mendapatkan hasil 0.398 sehingga soal tersebut tidak valid karena 0.398 <
0.05 (nilai sig)
c. P3 mendapatkan hasil 0.732 sehingga soal tersebut valid karena 0.732 > 0.05
(nilai sig)
d. P4 mendapatkan hasil -0.199 sehingga soal tersebut tidak valid karena -0.199
< 0.05 (nilai sig).
b. Validasi Silang (Cross Validation)

Validasi silang merupakan metode yang berguna untuk memperkirakan


kesalahan prediksi untuk evaluasi kinerja model. Validasi silang menunjukkan proses
memvalidasi tes dengan menggunakan sampel populasi yang berbeda dari sampel
yang distandarkan sebelumnya. Hal ini diperlukan karena data validitas mungkin
tinggi atau rendah karena faktor peluang yang khas pada sampel standarisasi. Ketika
tes diberikan ke berbagai sampel dalam berbagai situasi, itu sedang divalidasi silang.
Berbagai jenis validasi silang adalah: perpanjangan validitas, generalisasi validitas,
dan tanda tangan psikometri. Dalam validasi silang dikenal sebagai estimasi rotasi,
dengan membagi data menjadi himpunan bagian k dengan ukuran yang hampir sama,
model dalam klasifikasi dilatih dan diuji sebanyak k. Disetiap pengulangan, salah satu
himpunan bagian akan digunakan sebagai data penguji dan sub kelompok data k
lainnya berfungsi sebagai data pelatihan.

K-fold cross validation adalah metode untuk mengevaluasi kinerja classifier,


metode ini digunakan ketika jumlah data yang dimiliki terbatas (jumlah instance tidak
banyak). K-fold cross validation diawali dengan membagi data sejumlah n-fold yang
diinginkan. Dalam proses cross validation data akan dibagi dalam n buah partisi
dengan ukuran yang sama variabel Data ke 1, variabel Data ke 2, variabel Data ke 3 ..
Dan selanjutnya proses uji dan latih dilakukan sebanyak n kali. Dalam iterasi ke-i

10
partisi Di akan menjadi data uji dan sisanya akan menjadi data latih. Di bawah ini
adalah contoh pembagian dataset dalam k-fold cross validation:

Dataset

5 fold

Fold ke-1

Fold ke-2

Fold ke-3

Fold ke-4

Fold ke-5

Berikut adalah langkah-langkah kinerja validasi silang (cross validation):

a) Total instance dibagi menjadi N bagian.


b) Fold ke-1 adalah ketika bagian ke-1 menjadi data uji (testing
data) dan sisanya menjadi data latih (training data). Lalu,

11
hitung akurasi atau kedekatan suatu hasil pengukuran dengan
angkat atau data yang sebenarnya berdasarkan porsi data
tersebut. Perhitungan akurasi menggunakan persamaan seperti
berikut ini:
Σdata uji benar klasifikasi
Akurasi= 100 X
Σtotal data uji
c) Fold ke-2 adalah ketika bagian ke-2 menjadi data uji (testing
data) dan sisanya menjadi data latih (training data). Selanjutnya
hitung akurasi berdasarkan porsi data tersebut.
d) Ulangi langkah berikut hingga mencapai fold ke-k. Hitung rata-
rata akurasi dari data k buah akurasi di atas. Rata-rata akurasi
ini menjadi akurasi final.

2.4 Konsep Reliabilitas


Reliabilitas merupakan ketepatan atau keajegan alat penilaian dalam menilai apa yang
akan dinilainya (Sudjana, 2004). Reliabilitas mengacu pada konsistensi dari pengukuran,
yaitu seberapa stabil skor dari sebuah tes atau hasil penilaian lainnya dari satu pengukuran ke
pengukuran lainnya. Jika alat penilaian tersebut dapat mengukur hasil penilaian secara
konsisten, maka alat penilaian tersebut reliable. Keandalan (reabilitas) dari alat penilain
tersebut mengacu pada sejauh mana hasil penilaian yang diperoleh bebas dari adanya
kesalahan pengukuran.
2.5 Faktor – faktor yang Mempengaruhi Reliabilitas
Reliabilitas suatu tes dipengaruhi oleh beberapa faktor yang dijelaskan sebagai berikut :
1. Panjang tes / Jumlah butir tes (Length of the test)
Terdapat korelasi positif antara jumlah item dalam tes dan reliabilitas tes. Semakin
banyak jumlah item tes terisi, maka semakin besar juga reliabilitasnya. Hal ini karena
semakin panjang tes (semakin banyak butir soal) sehingga semakin banyak juga
perilaku yang terukur dengan lebih tepat. Dalam menyiapkan suatu tes perlu
dipertimbangkan jumlah butirnya. Meskipun semakin banyak butir berarti semakin
tinggi reliabilitas, bukan berarti butir tes dibuat sebanyak – banyaknya.
2. Konstruksi tes (Construction of the test)
Semakin banyak pilihan jawaban dalam soal maka akan meningkatkan reliabilitas dari
tes tersebut.
3. Homogenitas soal tes
Soal yang memiliki homogenitas tinggi akan cenderung mengarah pada tingginya
tingkat reliabilitas. Misalnya tes untuk mengukur kemampuan bahasa dan fisika. Tes
fisika akan menghasilkan reliabilitas yang lebih tinggi dari tes bahasa. Hal ini karena
dari segi kemampuan penyelesaian soal fisika lebih homogen dari pengetahuan
bahasa.
4. Heterogenitas kelompok
Reliabilitas suatu tes akan lebih banyak jika tes tersebut diberikan kepada kelompok
yang sifatnya heterogen. Semakin heterogen suatu kelompok dalam pengerjaan tes,
maka semakin tinggi koefisien dari reliabilitasnya.
5. Kondisi pengujian (Testing Condition)
Kondisi fisik ujian dan faktor lingkungan di sekitar peserta tes mempengaruhi
reliabilitas tes. Kondisi pengujian yang seragam, maka reliabilitasnya semakin tinggi.
6. Kesalahan menebak dan kebetulan (Guessing and chance errors)

12
Peserta tes yang menebak akan dapat mengurangi reliabilitas. Apabila terdapat
banyak kesempatan untuk menebak, maka pengujian tersebut akan menghasilkan hasil
yang kurang reliable.
7. Instruksi tes (test instructions)
Jika peserta tes kurang memahami instruksi dengan baik, maka kemungkinan mereka
akan menjawab juga salah dan ini akan menghambat reliabilitas tes.
8. Item soal yang terlalu mudah atau terlalu sulit
Item soal dengan tingkat kesukaran sedang, cenderung lebih reliable dibanding
dengan soal yang terlalu mudah atau terlalu sulit.
2.6 Metode dan Perhitungan Koefisien Reliabilitas
Ketika memeriksa koefisien reliabilitas dari tes standar, penting untuk dilakukan
pertimbangan metode yang digunakan untuk mendapatkan estimasi reliabilitas. American
Psychological Association (APA) memperkenalkan beberapa metode yang digunakan untuk
mengestimasi reliabilitas. Metodenya serupa karena melibatkan korelasi dua set skor yang
diperoleh dari prosedur penilaian yang sama atau dari bentuk yang setara dari prosedur yang
sama.
Metode untuk Mengestimasi Reabilitas
1. Metode Test-retest (Test-retest Method)

Untuk mengestimasi reliabilitas dengan menggunakan metode test-retest ini,


penilaian yang sama diberikan dua kali pada kelompok siswa yang sama dengan
interval waktu antar tes dari beberapa menit hingga beberapa tahun. Skor hasil
penilaian ini memberikan ukuran stabilitas, yaitu menunjukkan seberapa stabil hasil
penilaian dari periode waktu tertentu. Semakin dekat hasil antara dua pengujian,
semakin besar juga koefisien reliabilitasnya atau koefisien stabilitasnya. Koefisien
reliabilitas yang diperoleh dengan metode pengujian test-retest ini disebut dengan
“Koefisien Stabilitas”.
Koefisien stabilitas test-retest yang tinggi menunjukkan bahwa kesalahan
variabel dalam set skor yang diperoleh redah. Sebaliknya, koefisien stabilitas yang
rendah menunjukkan bahwa kesalahan variabel dalam set skor yang diperoleh adalah
tinggi. Stabilitas tersebut ditunjukkan oleh korelasi koefisien yang besar, korelasi
positif sempurna ditunjukkan dengan 1,00, korelasi negatif sempurna korelasi sebesar
-1, dan tidak ada korelasi sebesar 0,00.
Ketika akan mengukur stabilitas, maka penting untuk memikirkan jeda waktu
antara kedua penilaian. Apabila jeda waktu pendek, misalnya satu atau dua hari, maka
konsistensi hasil siswa akan meningkat karena siswa mengingat tugas dan jawaban
yang sesuai. Apabila jeda waktu panjang, hasilnya tidak hanya akan dipengaruhi oleh
ketidakstabilan prosedur penilaian, tetapi juga dipengaruhi oleh perubahan aktual
dalam periode waktu tertentu. Untuk menghitung koefisien stabilitas ini menggunakan
rumus korelasi product moment (Korelasi Pearson) secara manual dan melalui spss.

Contoh :
Pada sebuah pengujian instrument soal “X” untuk melihat instrument tersebut
memiliki koefisien stabilitas yang tinggi dapat dilakukan dengan mengulang pemberian tes
dengan subjek yang sama dan dengan waktu yang berbeda dan taraf signifikansi 5%. Test
pertama dilakukan pada bulan Januari 2021 dan yang kedua pada bulan Februari 2021.

13
Hasil pengujian instrument soal bulan Januari :

Subje Nomor soal X1


k 1 2 3 4 5 6 7 8 9 10
A 1 0 1 1 0 1 1 1 1 0 7
B 1 1 1 1 0 1 1 1 1 1 9
C 1 1 1 0 1 1 1 1 0 0 7
D 1 1 1 1 1 1 1 1 1 1 10
E 1 0 0 1 0 1 1 0 1 0 5
F 1 1 1 1 1 1 1 0 0 0 7
G 1 0 1 1 1 0 1 1 1 0 7
H 1 0 1 1 1 0 1 0 1 1 7
I 1 1 1 1 1 0 1 1 1 1 9
Hasil pengujian instrument soal bulan Februari :

Subje Nomor soal X2


k 1 2 3 4 5 6 7 8 9 10
A 1 1 1 1 0 1 1 1 1 0 8
B 1 1 1 1 1 1 1 1 1 1 10
C 1 1 1 0 1 0 1 1 0 0 6
D 1 1 1 1 1 1 1 1 1 1 10
E 1 0 0 1 1 1 1 0 1 1 7
F 1 1 1 1 1 1 1 0 1 0 8
G 1 1 1 1 1 1 1 1 1 0 9
H 1 0 1 1 1 0 1 0 1 1 7
I 1 1 1 1 1 1 1 1 1 1 10
Perhitungan dengan rumus korelasi product moment (Korelasi Pearson) :

r =N ∑ XY −¿ ¿ ¿

∑XY = Jumlah perkalian X dan Y

∑X² = Jumlah kuadrat X

∑Y² = Jumlah kuadrat Y

N = Banyak pasangan nilai

Tabel Penolong :
Subjek X1 X2 X1² X2² X1X2
A 7 8 49 64 56
B 9 10 81 100 90
C 7 6 49 36 42
D 10 10 100 100 100
E 5 7 25 49 35
F 7 8 49 64 56

14
G 7 9 49 81 63
H 7 7 49 49 49
I 9 10 81 100 90
∑ 68 75 532 643 581

r =N ∑ XY −¿ ¿ ¿

5.229−5.100 129
r= = =0,791
√(4.788−4.624)(5.787−5.625) 162,99

Setelah diperoleh r hitung, untuk dapat dipastikan bahwa instrument tersebut stabil
atau tidak, dapat dilihat dari r tabel nya. Dengan n = 9 dan taraf signifikansi 5%, maka r tabel
nya adalah 0,666 terlihat dalam tabel berikut :

Berdasarkan hal tersebut, maka r hitung senilai 0,791 lebih besar (>) dari r tabel yang senilai
0,666. Hal ini berarti pengukuran pertama dan pengukuran kedua memiliki koefisien
stabilitas yang tinggi (reliable).
Menggunakan SPSS
Langkah 1 : Tuliskan data ke spss bagian “Data View” dan pada “Variable View” ubahlah
nama dan juga label seperti terlihat dalam gambar berikut.

15
Langkah 2 : Setelah data view dan variable view sudah dimasukkan, klik pada “Analyze”
dalam data view, pilih “Correlate” lalu “Bivariate”, kedua pengukuran tersebut dipindah
kolom variables dan pastikan dalam correlation coefficients kita sudah memilih “Pearson”

Langkah 3 : Klik “OK” dan akan muncul output seperti berikut.

16
Correlations

Pengukuran 1 Pengukuran 2

Pengukuran 1 Pearson Correlation 1 .791*

Sig. (2-tailed) .011

N 9 9

Pengukuran 2 Pearson Correlation .791* 1

Sig. (2-tailed) .011

N 9 9

*. Correlation is significant at the 0.05 level (2-tailed).


Koefisien korelasi dari pengukuran 1 dan pengukuran 2 adalah 0.791 dengan
signifikansi 0.011 < 0.05 yang berarti memiliki korelasi. Koefision pearson correlation 0.791
yang mendekati angka 1, maka koefisien stabilitas instrument soal tersebut adalah stabil
(reliable) sehingga dapat digunakan untuk fungsi ukurnya. Namun jika koefisien korelasi
tersebut mendekati 0, maka instrument soal tersebut tidak reliable.
Apabila kita bandingkan r hitung dengan r tabel, maka hasilnya adalah 0.791 > 0.666
yang berarti instrument soal tersebut memiliki koefisien stabilitas yang tinggi (reliable).
Keterbatasan dalam Metode test-retest :
a. Kondisi pengujian selama test dan retest dapat bervariasi yang mengakibatkan
ketidakstabilan skor.
b. Jika jarak test dan retest terlalu cepat, peserta dapat mengingat jawaban dari test
pertama yang dapat meningkatkan skor.
c. Jika jarak test dan retest terlalu lama (panjang), pembelajaran tambahan atau
perubahan karakteristik individu juga dapat mempengaruhi skor dan dapat
menurutkan reliabilitas dari test tersebut.
2. Metode Bentuk Paralel (Equivalent Form Method)

Metode reliabilitas ini juga dikenal sebagai reliabilitas bentuk paralel / reliabilitas bentuk
setara / reliabilitas bentuk sebanding. Disebut parallel karena kita memberikan dua alat tes
yang berbeda namun keduanya harus parallel, jika tidak parallel maka tidak bisa diberikan,

17
misalnya alat A untuk mengukur pengetahuan terkait jurnal penyesuaian alat B juga untuk
mengukur pengetahuan terkait jurnal penyesuaian, namun itemnya berbeda tetapi isinya
sama. Peserta diuji dengan dua kali sesi pengerjaan test namun dengan dua form test yang
itemnya berbeda namun memiliki sifat ekuivalen antar keduanya.
Metode bentuk ekuivalen untuk menetapkan reliabilitas banyak digunakan dalam tes
standar (Standardized tests). Hal ini karena sebagian besar tes standar, dua atau lebih bentuk
soal tersedia. Jika dua bentuk soal tersedia dengan format hampir sama, maka reliabilitasnya
tinggi. Namun jika dua bentuk soal tersedia dengan format tidak sama, maka reliabilitasnya
rendah.
Metode yang digunakan untuk menghitung korelasi antara dua set skor yang diperoleh
dari dua bentuk soal ujian adalah metode korelasi Pearson (Pearson’s method of correlation)
yang hampir sama dengan metode test-retest. Koefisien korelasi ini disebut sebagai
“Koefisien ekuivalen”.
Nilai koefisien ini berkisar antara 0 – 1. Jika nilai koefisien mendekati 1, maka alat ukur
ini semakin reliable. Jika nilai koefisien mendekati 0, maka alat ukur ini semakin tidak
reliable.
Contoh :
HASIL NILAI PENGUJIAN FORM A DAN FORM B

Subjek FORM A FORM B


A 8 9
B 7 8
C 6 6
D 5 5
E 5 6
F 7 7
G 7 7
H 8 8
I 6 6
J 9 10
Berdasarkan hasil nilai test tersebut untuk mengukur koefisien ekuivalen kita dapat
membuat tabel penolong untuk perhitungan menggunakan rumus korelasi pearson.
Tabel penolong.

Subjek X1 X2 X1² X2² X1X2


A 8 9 64 81 72
B 7 8 49 64 56
C 6 6 36 36 36
D 5 5 25 25 25
E 5 6 25 36 30
F 7 7 49 49 49
G 7 7 49 49 49
H 8 8 64 64 64
I 6 6 36 36 36
J 9 10 81 100 90

18
∑ 68 72 478 540 507
Dari tabel penolong, kita masukkan dalam rumus korelasi pearson :

r =N ∑ XY −¿ ¿ ¿

5.070−4.896 174
r= = =0,948
√(4.780−4.624)(5.400−5.184) 183,56

Setelah diperoleh r hitung, untuk dapat dipastikan bahwa kedua instrument tersebut ekuivalen
atau tidak, dapat dilihat dari r tabel nya. Dengan n = 10 dan taraf signifikansi 1%, maka r
tabel nya adalah 0,765 terlihat dalam tabel berikut :

Berdasarkan hal tersebut, maka r hitung senilai 0,948 lebih besar (>) dari r tabel yang senilai
0,765. Hal ini berarti instrument A dan instrument B memiliki koefisien ekuivalen yang
tinggi (reliable).
Cara lain yang dapat dilakukan adalah dengan menggunakan SPSS, yaitu :
Langkah 1 :
Tuliskan data ke spss bagian “Data View” dan pada “Variable View” ubahlah nama dan juga
label

19
Langkah 2 : Setelah data view dan variable view sudah dimasukkan, klik pada “Analyze”
dalam data view, pilih “Correlate” lalu “Bivariate”, pindahkan kedua pengukuran tersebut
dalam kolom variables.

Langkah 3 : Klik “OK” dan akan muncul output seperti berikut.

20
Correlations

FORM A (ALAT FORM B (ALAT


TES A) TES B)

FORM A (ALAT TES A) Pearson Correlation 1 .948**

Sig. (2-tailed) .000

N 10 10

FORM B (ALAT TES B) Pearson Correlation .948** 1

Sig. (2-tailed) .000

N 10 10
Koefisien korelasi dari Form A dan Form B adalah 0.948 dengan signifikansi 0.00 <
0.05 yang berarti memiliki korelasi. Koefision pearson correlation 0.948 yang mendekati
angka 1, maka alat tes form A dan form B tersebut memiliki ekuivalen (reliable) sehingga
dapat digunakan untuk fungsi ukurnya. Namun jika koefisien korelasi tersebut mendekati 0,
maka alat tes form A dan form B tersebut tidak reliable (tidak ekuivalen). Apabila kita
bandingkan r hitung dengan r tabel, maka hasilnya adalah 0.948 > 0.765 yang berarti kedua
alat ukur tersebut memiliki koefisien ekuivalen yang tinggi (reliable).
Keterbatasan dalam Equivalent Form Method :
1. Konstruksi bentuk tes setara terlalu sulit dibandingkan dengan yang lain, karena harus
menyusun dua seri tes
2. Terdapat kemungkinan bahwa efek ingatan atau efek latihan pada saat mengerjakan
bentuk tes kedua.
3. Kondisi pengujian saat memberikan dua bentuk test mungkin berbeda dan peserta test
mungkin tidak dalam keadaan fisik, mental atau emosional yang sama pada saat
pengerjaan.
3. Split Half Reliability Rumus Spearman Brown
Split Half Reliability adalah teknik pengujian reliabilitas instrument dengan cara
membaginya menjadi dua bagian. Indeks reliabilitas dicerminkan dari korelasi antara dua
bagian instrument.

Groth dan Marnat (2008) menyebutkan bahwa konsistensi internal melalui reliabilitas
belah dua dan koefisien alpha merupakan teknik-teknik terbaik untuk menentukan reliabilitas
sebuah cirri-sifat dengan derajat fluktuasi yang tinggi. Karena tes diberikan hanya satu kali,

21
maka soal-soalnya dikorelasikan satu sama lain, dan tidak ada kemungkinan pengaruh waktu
untuk mengintervensi seperti yang terjadi pada metode test-retest. Pengujian relibilitas dalam
hal ini menggunakan teknik belah dua (split half) yang dianalisis dengan rumus Spearman
Brown. Jika anda memiliki kuesioner dengan mode skala likert, dimana skala terentang dari 1
- 4 atau 1 - 5, jika hasil analisis korelasinya ≥ 0.80 maka instrument soal dinyatakan reliabel,
kita dapat menggunakan teknik reliabilitas Spearman-Brown dengan formula :

2 r hh
r S B=
1+r hh

rhh = koefisien korelasi Pearson

Contoh :

Seorang guru ingin menguji reliabilitas soal dengan menggunakan rumus reliabilitas
spearmen brown, soal yang akan diuji berjumlah 15 butir soal. Lalu guru tesebut membagi
instrument soal berdasarakan nomor soal yang bernomor ganjil dan nomor soal yang genap.
Adapun data poin dalam soal sebagai berikut:
Poin Dalam Soal
No Soal
No. Res
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
1 5 5 4 4 4 4 5 5 4 4 4 4 5 4 5
2 4 2 3 3 3 3 4 3 3 3 4 3 5 4 4
3 5 5 4 4 4 4 5 4 4 4 5 4 4 5 4
4 4 5 4 5 4 3 5 4 4 4 4 4 5 5 4
5 3 3 2 2 2 2 3 3 3 3 2 3 2 3 4
6 4 4 3 3 3 3 3 3 3 3 4 3 4 3 3
7 4 4 3 4 3 3 4 3 4 3 4 3 4 4 4
8 4 4 5 4 4 4 4 4 4 3 1 3 4 3 4
9 4 4 5 4 4 5 5 5 4 5 5 5 5 4 5
10 4 3 3 4 2 3 5 3 4 3 4 3 4 3 3
11 4 3 3 3 3 3 4 3 4 4 4 3 5 2 4
12 4 4 3 5 4 4 5 5 4 4 3 3 4 5 4
13 4 4 4 3 3 3 5 3 3 4 3 3 3 4 4
14 3 3 2 4 3 3 4 4 5 3 4 3 4 4 4
15 4 4 4 4 4 4 5 5 4 4 5 3 4 4 4
16 5 4 4 4 4 5 5 4 4 4 4 5 5 5 5
17 5 3 4 4 4 4 2 3 4 4 5 4 5 4 4
18 4 2 2 4 3 4 3 2 3 3 3 2 4 3 3
19 4 5 3 4 4 4 5 3 5 2 4 2 4 4 4
20 3 3 3 2 2 2 2 3 2 2 2 2 2 4 3

Langkah-Langkah dalam pengujian reliabiltas dengan rumus Spearman Brown sebagai


berikut:

1. Butir-butir instrumen dibagi dua kelompok, yaitu kelompok butir item genap (2, 4,
6, ...) dan kelompok butir item ganjil (1, 3, 5, ...).
2. Skor data tiap kelompok disusun tersendiri.
3. Hitung skor total masing-masingnya. Untuk lebih jelasnya dapat melihat dari gambar
tabel berikut ini:

No. Genap (Y) Tota No. Ganjil (X) Total


l Skor
Skor (X)
(Y)

22
2 4 6 8 10 12 14 1 3 5 7 9 11 13 15

1 5 4 4 5 4 4 4 30 1 5 4 4 5 4 4 5 5 36

2 2 3 3 3 3 3 4 21 2 4 3 3 4 3 4 5 4 30

3 5 4 4 4 4 4 5 30 3 5 4 4 5 4 5 4 4 35

4 5 5 3 4 4 4 5 30 4 4 4 4 5 4 4 5 4 34

5 3 2 2 3 3 3 3 19 5 3 2 2 3 3 2 2 4 21

6 4 3 3 3 3 3 3 22 6 4 3 3 3 3 4 4 3 27

7 4 4 3 3 3 3 4 24 7 4 3 3 4 4 4 4 4 30

8 4 4 4 4 3 3 3 25 8 4 5 4 4 4 1 4 4 30

9 4 4 5 5 5 5 4 32 9 4 5 4 5 4 5 5 5 37

10 3 4 3 3 3 3 3 22 10 4 3 2 5 4 4 4 3 29

11 3 3 3 3 4 3 2 21 11 4 3 3 4 4 4 5 4 31

12 4 5 4 5 4 3 5 30 12 4 3 4 5 4 3 4 4 31

13 4 3 3 3 4 3 4 24 13 4 4 3 5 3 3 3 4 29

14 3 4 3 4 3 3 4 24 14 3 2 3 4 5 4 4 4 29

15 4 4 4 5 4 3 4 28 15 4 4 4 5 4 5 4 4 34

16 4 4 5 4 4 5 5 31 16 5 4 4 5 4 4 5 5 36

17 3 4 4 3 4 4 4 26 17 5 4 4 2 4 5 5 4 33

23
18 2 4 4 2 3 2 3 20 18 4 2 3 3 3 3 4 3 25

19 5 4 4 3 2 2 4 24 19 4 3 4 5 5 4 4 4 33

20 3 2 2 3 2 2 4 18 20 3 3 2 2 2 2 2 3 19
4. Menghitung korelasi antara skor total kelompok genap dan skor total kelompok ganjil

Total Total
No. Res XY X^2 Y^2
Skor (X) Skor (Y)

1 36 30 1080 1296 900

2 30 21 630 900 441

3 35 30 1050 1225 900

4 34 30 1020 1156 900

5 21 19 399 441 361

6 27 22 594 729 484

7 30 24 720 900 576

8 30 25 750 900 625

9 37 32 1184 1369 1024

10 29 22 638 841 484

11 31 21 651 961 441

12 31 30 930 961 900

13 29 24 696 841 576

24
14 29 24 696 841 576

15 34 28 952 1156 784

16 36 31 1116 1296 961

17 33 26 858 1089 676

18 25 20 500 625 400

19 33 24 792 1089 576

20 19 18 342 361 324

Total ( ∑ ) 609 501 15598 18977 12909


Dari data tabel korelasi diatas dapat kita hitung koefisien korelasi dengan rumus
pearson berikut:
r =n ∑ XY −¿ ¿ ¿

r XY =∑ XY −¿ ¿ ¿

Setelah diperoleh koefisien korelasi Pearson, kita masukkan lagi ke dalam formula Split Half
Spearman-Brown :

25
2 r hh 2(0.87)
r S B= = =0.93
1+r hh 1+ 0.87

Pengukuran reliabilitas soal memberikan hasil dengan tingkat reliabilitas yang tinggi,
dengan nilai reliablilitas sebesar 0,93, oleh karena itu soal termasuk reliabel karena 0,93 ≥
0.80.

Jika kita ingin menghitumg dengan memakai SPSS maka dapat melalui cara berikut ini :

1. Klik Variable View. Pada bagian name tulislah X.1 sampai dengan X.8 menunjukkan
banyaknya butir soal untuk bernomor ganjil, sementara Y.1 sampai dengan Y.7
menunjukkan banyaknya butir soal untuk bernomor genap. Seperti dalam gambar :

2. Klik Data View, lalu masukkan perolehan skor masing- masing responden untuk
variabel X dan variabel Y

3. Setelah itu, klik menu Analyze - Scale - Reliability Analysis dan mucul dialog
"Reliability Analysis", selanjutnya pindahkan butir soal X.1 sampai dengan butir soal
X.8 ke kotak Items (keterangan: kita akan melakukan uji reliabilitas butir kuesoner
untuk variabel Ganjil). Pada bagian "Model" pilih Split-half, lalu klik Statistics.

26
4. Muncul diloag "Reliability Analysis: Statistics", kemudian pada baglan "Descriptives
for" berikan tanda ceklist (V) untuk Scale if item deleted, selanjutnya klik Continue.

Reliability Statistics

Cronbach's Alpha Part 1 Value .778


5. Klik Ok, maka muncul output
SPSS berjudul "Reliability"
N of Items 4a

Part 2 Value .768


Case Processing Summary Berdasarkan tabel output diketahui jumlah
sampel (N) adalah 20 orang karyawan,
N of Items 4b
sehingga valid 100%, Sementara nilai
N %
Excluded adalah 0 artinya tidak ada data
Total N of Items 8 yang dikecualikan atau semua data
Cases Valid 20 100.0 digunakan.

Correlation Between Forms .692


a
Excluded 0 .0
Tabel output di samping
Spearman-Brown Equal Length .818 memberikan informasi mengenai
Coefficient Total 20 100.0 relibilitas (kehandalan) butir soal
secara keseluruhan (gabungan)
Unequal Length .818 Untuk
pada mengetahul apakah butir-
variabel kompetensi (X).
a. Listwise deletion based on all variables in the butir soal kuesioner
Berdasarkan tabel outputvariabel
di atas
Item-Total Statistics
procedure. kompetensi tersebut
diketahui nilai reliabel
korelasi atau
Guttman
Guttman Split-Half Coefficient .818
tidak,
Split-HalfmakaCoefficient
kita cukup
adalah
memperhatikan
sebesar 0,818 nilai> 0,80, yangdengan
ada
27
a. The items are: X.1, X.2, X.3, X.4. dalam tabel maka
demikian "Cronbach's Alpha if
dapat disimpulkan
Item Deleted".
bahwa Menurut
butir soal untuk Jonathan
variabel
Sarwono
kompetensi (2015: (X)262) secarabutir
b. The items are: X.5, X.6, X.7, X.8.
Scale Cronbach's
Scale Mean Variance if Corrected Alpha if
if Item Item Item-Total Item
Deleted Deleted Correlation Deleted

X.1 26.40 18.884 .673 .840

X.2 27.05 18.050 .528 .851

X.3 27.10 17.358 .785 .824

X.4 26.30 16.958 .554 .852

X.5 26.70 18.642 .587 .845

X.6 26.75 16.934 .527 .857

X.7 26.35 16.555 .728 .826

X.8 26.50 19.000 .649 .842

4. Kuder-Richardson (KR) Method


Terdapat dua jenis formula KR yaitu Kuder Richardson formula 20 (KR-20) atau Cronbach
Alpha dan Kuder Richardson formula 21 (KR-21). Biasanya rumus ini digunakan khusus
untuk tes objektif pilihan ganda yang jawabanya 1-0-1-0. Lalu soal yang diujikan dapat
dikatakan reliabel jika r11 ≥ 0,7.

Formula KR-20 yaitu:

S 2t −∑ p . q
r 11 =
k
(k −1) { S2t }
Formula KR-21 yaitu :

k
r 11 = ¿
(k −1)

28
k = jumlah item dalam instrument

p = proporsi subjek yang menjawab benar pada item

q=1–p

S2t =Varian s Total S 2t =∑ X t2−¿ ¿ ¿

n = jumlah responden

Mt=Mean skor total Mt=


∑ Xt
n
Contoh : Bu Nia ingin menguji reliabilitas soal pilihan ganda dari ujian mata pelajaran
Akuntansi yang minggu lalu diadakan, soal pilihan ganda dari ujian tersebut berjumlah 10
soal, dan 10 siswa. Dengan menggunakan formula KR-20 dan KR-21 reliabilitas soal pilihan
ganda tersebut:

1. Langkah pertama kita buat tabel di excel dengan tampilan sebagai berikut:
Peserta didik 1 2 3 4 5 6 7 8 9 10 Xt Xt^2
Agus 1 1 0 0 0 1 0 0 1 0 4 16
Intan 1 1 1 0 0 1 0 0 0 0 4 16
Dwi 1 0 0 1 0 1 0 0 0 0 3 9
Zaenal 1 1 1 0 0 1 0 1 0 0 5 25
Malik 1 1 1 1 1 1 1 1 1 0 9 81
Abdul 1 1 1 1 1 0 1 1 1 0 8 64
Miya 1 1 1 1 1 0 1 1 1 0 8 64
Hyunjae 1 0 1 0 1 0 1 0 0 1 5 25
Juyeon 1 1 1 1 0 0 1 0 0 1 6 36
Dio 0 1 0 1 1 0 1 0 0 1 5 25
Np 9 8 7 6 5 5 6 4 4 3 57 361
P 0.9 0.8 0.7 0.6 0.5 0.5 0.6 0.4 0.4 0.3
q 0.1 0.2 0.3 0.4 0.5 0.5 0.4 0.6 0.6 0.7
p.q 0.09 0.16 0.21 0.24 0.25 0.25 0.24 0.24 0.24 0.21 2.13

Xt = jumlah total skor koresponden

Xt2 = jumlah Xt yang dikuadratkan

Np = jumlah siswayang menjawab dengan benar pada nomor soal/pada setiap item

29
p = proporsi dari siswa yang menjawab dengan benar Np/jumlah siswa

q=1–p
2. Menghitung varian total terlebih dahulu

S2t =∑ X t2−¿ ¿¿

3. Kerjakan dengan rumus KR20 dan KR21


KR-20
S 2t −∑ p . q
r 11 =
k
( k−1 ) { 2
St } =
10
{
( 10−1 )
3,61−2,13
3,61} =0,46

KR-21
k
r 11 = ¿
( k−1 )

Untuk Mt=
∑ Xt = 57 =5,7
n 10
Kesimpulan :
KR-20 : karena r hitung = 0,46 ≤ 0,70 maka instrumen soal tidak reliabel
KR-21 : karena r hitung = 0,36 ≤ 0,70 maka instrumen soal tidak reliabel

Berdasarkan perhitungan koefisien reliabilitas KR20 dan KR21 diperoleh hasil yang
tidak jauh berbeda. Formula KR21 menghasilkan koefisien reliabilitas yang lebih kecil
dibandingkan koefisien reliabilitas yang dihitung menggunakan formula KR20. Hal tersebut
disebabkan karena harga p, yang menyatakan taraf kesukaran item-item dalam tes yang
bersangkutan sangat bervarasi. Dengan kata lain formula KR21 kurang tepat untuk digunakan
pada tes yang tingkat kesukarannya bervariasi atau tidak homogen.

5. Antar Rater (Inter-rater Reliability) dengan SPSS


Pendekatan ini dipakai untuk menilai kesepakatan antar rater dalam menilai suatu
individu. Dengan demikian reliabilitas tersebut melekat pada skor yang diberikan, bukan
pada alat ukurnya. Misalkan dalam suatu kompetisi lompat indah, dua juri menilai seberapa
indah lompatan atlet tersebut. Jika kedua juri tersebut memiliki penilaian yang hampir sama,
maka ada kesepakatan penilaian, yang berarti reliabilitasnya tinggi. Namun sebaliknya, jika
juri pertama menilai lompatannya sangat indah sedangkan juri kedua menilai lompatannya
biasa saja, maka tidak ada kesepakatan.

Ada dua teknik untuk estimasi reliabilitas antar rater yang dapat digunakan, yakni
dengan koefisien Kappa dari Cohen dan Intraclass Correlation Coefficients (ICC).

Koefisien kappa cocok digunakan saat:

-       Rater yang dipakai hanya dua rater

30
-       Skor hasil penilaiannya bersifat kategori dan hanya dua kategori

Intraclass Correlation Coefficients (ICC) cocok digunakan saat:

-       Rater yang dipakai banyak, lebih dari dua

-       Skor hasil penilaiannya bersifat kontinum

1. Estimasi reliabilitas antar rater dengan Koefisien Kappa


Contoh kasus :
Dua orang Guru BK (yang berperan sebagai rater) menilai 10 orang di kelas
apakah mereka mengalami gangguan konsetrasi belajar atau tidak. Cara kedua
rater menilai adalah dengan memberi skor 1 jika mengalami gangguan
konsentrasi, dan 0 jika tidak mengalami. Data yang diperoleh adalah sebagai
berikut:

Siswa Rater 1 Rater 2

Agus 1 1

Intan 1 1

Dwi 0 0

Zaenal 1 1

Malik 1 1

Abdul 0 1

Miya 0 0

Hyunjae 0 0

Juyeon 1 1

Dio 0 0

31
Analisis Koefisien Kappa dengan SPSS

1. KlikVariable View. Pada bagian Name pertama dan seterusnya tuliskan Rater 1,
Rater 2. Selanjutnya pada bagian Decimals ubah menjadi 0. Tampak pada gambar
berikut ini:

2. Klik Data View, masukkan nilai yang diperoleh siswa dari Rater 1 dan Rater 2,
lalu Tekan Analyze – descriptive statistics – crosstab

3. Masukkan variabel “rater1” pada rows dan “rater2” pada coloumn(s)

4. Masuk ke menu statistics, lalu centang menu kappa - tekan Continue. Masuk ke


menu Cells, lalu pilih menu Total di bawah Percentages - tekan Continue Klik
OK

Interpretasi Ouput

32
Tabel pertama memperlihatkan
Rater1 * Rater2 Crosstabulation konsistensi penilaian antar rater.
Terlihat bahwa dari 10 orang yang
dinilai, terdapat 9 orang yang
Rater2

0 1 Total

Rater1 0 Count 4 1 5

% of 40.0% 10.0% 50.0%


Total

1 Count 0 5 5

% of 0.0% 50.0% 50.0%


Total

Total Count 4 6 10

% of 40.0% 60.0% 100.0%


Total

Symmetric Measures

Asymptotic Approximate
a b
Value Standard Error Approximate T Significance

Measure of Agreement Kappa .800 .186 2.582 .010

N of Valid Cases 10

a. Not assuming the null hypothesis.

33
b. Using the asymptotic standard error assuming the null hypothesis.

Tabel kedua menunjukkan Reliabilitas antar rater, yaitu K=0,800. Ayimptotic standardized
error menunjukkan kesalahan pengukuran terstandar, yakni semakin kecil semakin reliabel.

Menurut Fleiss (1975) kategori nilai kappa adalah sebagai berikut :

k < 0.40 poor agreement

0.40 < k < 0.75 good, and

k > 0.75 excellent agreement.


2. Estimasi reliabilitas antar rater dengan Intraclass Correlation Coefficients
(ICC)

Contoh kasus :

Empat orang guru diminta untuk menilai tingkat keaktifan pada 10 siswa di dalam
kelas XII IPA 5. Skor yang diberikan observer berkisar antara 1-5. Skor 1
menunjukkan tidak aktif sama sekali, sementara skor 5 menunjukkan siswa sangat
aktif. Peneliti hendak mencari seberapa jauh kesepakatan rater dalam menilai
keaktifan siswa. Data yang diperoleh adalah sebagai berikut:

Siswa Rater 1 Rater 2 Rater 3 Rater 4

Agus 1 1 2 1

Intan 2 2 2 3

Dwi 3 3 3 3

Zaenal 4 4 4 4

Malik 5 5 5 5

34
Abdul 4 4 4 4

Miya 3 3 3 3

Hyunjae 2 2 2 2

Juyeon 1 2 1 1

Dio 3 2 2 2
Untuk mengestimasi Intraclass Correlation Coefficients di SPSS, ikuti langkah berikut:

1. Klik Variable View. Pada bagian Name pertama dan seterusnya tuliskan Rater 1,
Rater 2, Rater 3, Rater 4. Selanjutnya pada bagian Decimals ubah menjadi 0.

2. Klik Data View, lalu masukkan nilai yang diperoleh siswa dari Rater 1,Rater 2
Rater 3, Rater 4. Lalu Pilih Menu Analyze – Scale - Reliability Analysis

3. Masukkan variabel Rater1, Rater2, Rater3, dan Rater4 ke dalam kotak Item.


Lalu Pilih Statistics, Pilih kotak F-test dan centang Intraclass Correlation
Coefficients, Pilihlah jenis analisis sesuai dengan default SPSS, yaitu Two Way
Mixed dan Consistency dengan Confidence Interval 95%, lalu continue dan klik
Ok.

35
Interpretasi Ouput

Reliability Statistics

Cronbach's
Alpha N of Items

ANOVA
.982 4

Sum of Squares df Mean Square F Sig

Between People 55.400 9 6.156

Within People Between Items .000 3 .000 .000 1.000

Residual 3.000 27 .111

Total 3.000 30 .100

Total 58.400 39 1.497

Grand Mean = 2.80

Intraclass Correlation Coefficient

95% Confidence Interval F Test with True Value 0

Intraclass
Correlationb Lower Bound Upper Bound Value df1 df2 Sig

Single Measures .932a .834 .980 55.400 9 27 .000

36
Average Measures .982c .953 .995 55.400 9 27 .000

Two-way mixed effects model where people effects are random and measures effects are fixed.

a. The estimator is the same, whether the interaction effect is present or not.

b. Type C intraclass correlation coefficients using a consistency definition. The between-measure variance is excluded
from the denominator variance.

c. This estimate is computed assuming the interaction effect is absent, because it is not estimable otherwise.
Tabel pertama menunjukkan output jika diestimasi dengan menggunakan koefisien Alpha.
Tabel menunjukkan reliabilitas Alpha yang memuaskan, yakni 0,982. Tabel kedua adalah
keluaran analisis melalui ANOVA. Dari output tersebut menunjukkan tidak adanya
perbedaan penilaian antar rater (p> 0,05). Tabel ketiga menunjukkan output ICC dengan
reliabilitas antar rater yang cukup memuaskan, yakni rxx = 0,932

37
DAFTAR RUJUKAN

Sudjana, N. (2004). Penilaian Hasil Proses Belajar Mengajar. Remaja Rosdakarya.

Mani, A. (2016). Measurement and Evaluation in Education : English Edition. Vikas


Publishing House
Budiastuti, D., Bandur, A. (2018). Validitas dan Reliabilitas Penelitian : Dilengkapi Analisis
dengan NVIVO, SPSS, dan AMOS. Jakarta:Mitra Wacana Media.
Janna, M.,. Konsep Uji Validitas dan Reliabilitas dengan Menggunakan SPSS.

38

Anda mungkin juga menyukai