EVALUASI PENDIDIKAN ISLAM

BAB I
PENDAHULUAN
A. Latar Belakang
Secara etimologi "evaluasi" berasal dan bahasa Inggris yaitu evaluation
dari akar kata value yang berarti nilai atau harga. Nilai dalam bahasa Arab disebut
alqiamah atau altaqdir’ yang bermakna penilaian (evaluasi). Sedangkan secara
harpiah, evaluasi pendidikan dalam bahasa Arab sering disebut dengan al-taqdir
altarbiyah yang diartikan sebagai penilaian dalam bidang pendidikan atau
penilaian mengenai hal yang berkaitan dengan kegiatan pendidikan. Secara
terminologi, beberapa ahli memberikan. mendefinisikan evaluasi merupakan
kegiatan yang terencana untuk rnengetahui keadaan objek dengan menggunakan
instrumen dan hasilnya dibandingkan dengan tolak ukur untuk memperoleh
kesimpulan (M. Chabib dalam Thoha Ina Magdalena DKK. 2020). Sedangkan
Edwind dalam Ramayulis berpendapat tentang evaluasi mengatakan bahwa
evaluasi mengandung pengertian suatu tindakan atau proses dalam menentukan
nilai sesuatu (Ramayulis, 2002).
Evaluasi adalah suatu kegiatan yang disengaja dan bertujuan. Kegiatan
evaluasi dilakukan dengan sadar oleh guru dengan tujuan untuk memperoleh
kepastian mengenai keberhasilan belajar siswa dan memberikan masukan kepada
guru mengenai apa yang dia lakukan dalam kegiatan pengajaran. Dengan kata
lain, evaluasi yang dilakukan oleh guru bertujuan untuk mengetahui bahan bahan
pelajaran yang disampaikan apakah sudah dikuasi oleh siswa ataukah belum.
Seorang guru yang merasa bertanggung jawab atas penyempurnaan
pengajarannya, maka ia harus mengevaluasi pengajarannya itu agar ia mengetahui
perubahan apa yang seharusnya diadakan (Popham & Baker, 2008). Siswa juga
harus dievaluasi.
Evaluasi harus dilakukan secara sistematis dan kontinu agar dapat
menggambarkan kemampuan para siswa yang dievaluasi. Dalam pembelajaran
1
2
yang terjadi di sekolah atau khusunya di kelas, guru adalah pihak yang paling

bertanggung jawab atas hasilnya. Kesalahan utama yang sering terjadi di
antarapara guru adalah bahwa evaluasi hanya dilakukan pada saat-saat tertentu,
seperti pada akhir materi, pertengahan, dan/atau akhir suatu program pengajaran.
Penyimpanganpenyimpangan dalam mengevaluasi pun dapat terjadi apabila guru
tersebut memanipulasi hasil belajar siswanya (Sukardi, 2011).
Mengadakan evaluasi meliputi dua langkah yaitu mengukur dan menilai.
Mengukur adalah membandingkan sesuatu dengan satu ukuran. Menilai adalah
mengambil suatu keputusan terhadap sesuatu dengan ukuran baik dan buruk. Guru
sebelum melakukan evaluasi juga harus melakukan pengukuran dan penilaian
terhadap siswanya (Arikunto, 2010)
Evaluasi merupakan proses penilaian pertumbuhan siswa dalam proses
belajar mengajar. Percapaian perkembangan siswa perlu diukur, baik posisi siswa
dalam proses belajar individu maupun posisinya di dalam kegiatan kelompok. Hal
yang demikian perlu disadari oleh guru karena pada umumnya siswa masuk kelas
dengan kemampuan yang bervariasi. Ada siswa yang dengan cepat menangkap
materi pelajaran, tetapi ada pula yang tergolong memiliki kecepatan biasa dan ada
pula yang tergolong lambat. Guru dapat mengevaluasi pertumbuhan kemampuan
siswa tersebut dengan mengetahui apa yang mereka kerjakan pada awal sampai
akhir belajar (Sukardi, 2011:).
Dengan adanya evaluasi, peserta didik dapat mengetahui sejauh mana
keberhasilan yang telah dicapai selarna mengikuti pendidikan. Pada kondisi
dimana siswa mendapatkan nilai yang mernuaskan, maka akan memberikan
dampak berupasuatu stimulus, motivator agar siswa dapat lebih meningkatkan
prestasi. Pada kondisi dimana hasil yang dicapai tidak memuaskan, maka siswa
akan berusaha memperbaiki kegiatan belajar, namun demikian sangat diperlukan
pemberian stimulus positif dari guru/pengajar agar siswa tidak putus asa.
Sedangkan evaluasi dalam pendidikan Islam adalah pengambilan sejumlah yang
berkaitan dengan pendidikan Islam guna melihat sejauh mana keberhasilan
pendidikan yang selaras dengan nilai-nilai Islam sebagai tujuan dari pendidikan
itu sendiri. Lebih jauh Jalaludin mengatakan bahwa evaluasi dalam pendidikan
3
lslam telah menggariskan tolak ukur yang serasi dengan tujuan pendidikannya.

Baik tujuan jangka pendek yaitu membimbing manusia agar hidup selamat di
dunia maupun tujuan jangka panjang untuk kesejahteraan di akhirat nanti. Kedua
tujuan tersebut menyatu dalam sikap dan tingkah laku yang mencerminkan akhlak
yang mulia. Sebagai tolak ukur dan akhlak mulia ini dapat dilihat dari cerminan
tingkah laku dalam kehidupan sehari-hari. (Mahirah B, 2017)
Proses pengukuran tentu perlu dilakukan dengan menggunakan instrumen
yang valid dan reliabel, yang dilakukan pada sample yang mendekati jumlah
populasi dan pengumpulan serta analisis data dilakukan dengan cara yang
benar. Alat ukur yang tidak valid dan reliabel akan memberikan informasi yang
keliru mengenai keadaan subjek atau individu yang yang di berikan tes itu.
Apabila informasi yang didapat keliru maka akan mempersulit pengambilan
keputusan apakah tes tersebut menghasilkan data yang valid dan reliabel.
Dalam hal pengukuran, khususnya dalam pendidikan tentunya yang terpenting
adalah informasi hasil ukur yang benar”. Sebab dengan hasil ukur yang tidak atau
kurang tepat maka akan memberikan informasi yang tidak benar, sehingga
kesimpulan yang diambil juga tidak benar.
Jika kita menggunakan basil ukur tes yang sudah baku sebagai
kriteria eksternal, maka besaran validitas eksternal dari tes yang kita
kembangkan didapat dengan jalan mengkorelasikan skor hasil ukur tes
yang dikembangkan dengan skor hasil ukur tes baku yang dijadikan
kriteria. Makin tinggi koefisien korelasi yang didapat, maka validitastes yang
dikembangkan juga makin baik. Kriteria yang digunakan
untuk menguji validitas eksternal digunakan nilai r-tabel.
Jika koefisien korelasi antara skor hasil ukur tes yang
dikembangkan dengan skor hasil ukur tes baku lebih besar daripada
r-tabel maka tes y ang dikembangkan adalah valid berdasarkan kriteria
eksternal yang dipilih (hasil ukur instrumen baku). Jadi keputusan ujivaliditas
dalam hal ini adalah mengenai valid atau tidaknya tes sebagai
suatu kesatuan, bukan valid atau tidaknya butir tes seperti pada
validitas internal.
4
Reliabilitas berasal dari kata reliability berarti sejauh mana

hasil suatu pengukuran dapat dipercaya. Suatu hasil pengukuran dapat
dipercaya apabila dalam beberapa kali pelaksanaan pengukuran
terhadap kelompok subyek yang sama, diperoleh hasil pengukuran
yang relatif sama, selama aspek yang diukur dalam diri subyek
memang belum berubah. Menyatakan bahwa reliabilitas ukuran menyangkut
seberapa jauh skor deviasi individu, atau skor-z, relatif konsisten apabila
dilakukan pengulangan pengadministrasian dengan tes yang sama atau tes yang
ekivalen. (Nur dalam zulkifli, 2009)
Reliabilitas dalam arti reliabilitas alat ukur berkaitan erat dengan masalah
eror penguuran. Eror pengukuran sendiri menunjukan sejauh mana inkonsistensi
hasil pengukran terjadi apabila dilakukakn pengukuran ulang terhadapa kelompok
subjek yang sama. Sedangkan konsep reliabilitas dalam reliabilitas hasil ukur
berkaitan erat dengan eror dalam pengambilan sampel yang mengacu pada
inkonsinstensi hasil ukur apabila hasil pengkuran dilakukan ulang pada kelompok
yang berbeda. (ramli dan idrus, 2019) Reliabilitas soal berkaitan dengan suatu
perangkat soal apabila diujikan kepada subjek yang sama secara berulang kali me
nunjukkan keajegan atau kestabilan hasil.
B. Rumusan Masalah
1. Pengerian evaluasi, tujuan evaluasi dan fungsi evaluasi
2. Pengertian reliabilitas
3. Teknik uji reliabilitas
C. Tujuan
1. Untuk mengetahui pengertian evaluasi, tujuan evaluasi dan fungsi evaluasi
2. Untuk mengetahui pengetian reliabilitas
3. Untuk mengetahui teknik uji reliabilitas
BAB II
PEMBAHASAN
A. Evaluasi
1. Konsep Evaluasi Pembelajaran
kata value yang berarti nilai atau harga. Nilai dalam bahasa Arab disebut
alqiamah atau al-taqdir’ yang bermakna penilaian (evaluasi). Sedangkan secara
harpiah, evaluasi pendidikan dalam bahasa Arab sering disebut dengan al-taqdir
altarbiyah yang diartikan sebagai penilaian dalam bidang pendidikan atau
penilaian mengenai hal yang berkaitan dengan kegiatan pendidikan. Secara
terminologi, beberapa ahli memberikan pendapat tentang pengertian evaluasi
diantaranya: Edwind dalam Ramayulis mengatakan bahwa evaluasi mengandung
pengertian suatu tindakan atau proses dalam menentukan nilai sesuatu
(Ramayulis, 2002). M. Chabib Thoha, mendefinisikan evaluasi merupakan
kegiatan yang terencana untuk rnengetahui keadaan objek dengan menggunakan
instrumen dan hasilnya dibandingkan dengan tolak ukur untuk memperoleh
kesimpulan (Thoha, 1990)
Pengertian evaluasi secara umum dapat diartikan sebagai proses sistematis
untuk menentukan nilai sesuatu (ketentuan, kegiatan, keputusan, unjuk-kerja,
proses, orang, objek dan yang lainnya) berdasarkan kriteria tertentu melalui
penilaian. Untuk menentukan nilai sesuatu dengan cara membandingkan dengan
kriteria, evaluator dapat langsung membandingkan dengan kriteria umum, dapat
pula melakukan pengukuran terhadap sesuatu yang dievaluasi kemudian
membandingkan dengan kriteria tertentu. Dalam pengertian lain antara evaluasi,
pengukuran, dan penilaian merupakan kegiatan yang bersifat hirarki.
Evaluasi merupakan suatu proses yang sistematis untuk menentukan atau
membut keputusan sampai sejumlah tujuan-tujuan pengajaran telah dicapai oleh
siswa. ( Purwanto dalam Ramli dan Idrus, 2019). Dalam sistim evaluasi
merupakan salah satu komponen yang penting dan tahap yang harus di tempuh
oleh guru untuk mengetahui keefaktifan pembelajaran. Hasil yang diperoleh dari
5
6
evaluasi dapat dijadikan balikan (feed back) bagi guru dalam memperbaiki dan
menyempurnakan program dari kegiatan pembelajran. (Ramli dan Idrus, 2019)
2. Tujuan Evaluasi Pembelajaran
Evaluasi adalah suatu kegiatan yang disengaja dan bertujuan. Kegiatan
evaluasi dilakukan dengan sadar oleh guru dengan tujuan untuk memperoleh
kepastian mengenai keberhasilan belajar siswa dan memberikan masukan kepada
guru mengenai apa yang dia lakukan dalam kegiatan pengajaran. Dengan kata
lain, evaluasi yang dilakukan oleh guru bertujuan untuk mengetahui bahan bahan
pelajaran yang disampaikan apakah sudah dikuasi oleh siswa ataukah belum.
Selain itu, apakah kegiatan pegajaran yang dilaksanakannya itu sudah sesuai
dengan apa yang diharapkan atau belum.
Menurut Sudirman N, dkk, bahwa tujuan penilaian dalam proses
pembelajaran adalah:
1) Mengambil keputusan tentang hasil belajar.
2) Memahami siswa
3) Memperbaiki dan mengembangkan program pengajaran.
Selanjutnya, mengatakan bahwa pengambilan keputusan tentang hasil
belajar merupakan suatu keharusan bagi seorang guru agar dapat mengetahui
berhasil tidaknya siswa dalam proses pembelajaran. Ketidakberhasilan proses
pembelajaran itu disebabkan antara lain sebagai berikut:
1) Kemampuan siswa yang rendah.
2) Kualitas materi pelajaran tidak sesuai dengan tingkat usia anak.
3) Jumlah bahan pelajaran terlalu banyak sehingga tidak sesuai dengan waktu
yang diberikan.
4) Komponen proses belajar dan mengajar yang kurang sesuai dengan tujuan
yang telah ditetapkan oleh guru itu sendiri.( Mahirah B, 2017)
Di samping itu, pengambilan keputusan juga sangat diperlukan untuk
memahami siswa dan mengetahui sampai sejauh mana dapat memberikan
bantuan terhadap kekurangan siswa. Evaluasi juga bermaksud meperbaiki dan
mengembangkan program pengajaran. Dengan demikian, tujuan evaluasi adalah
untuk memperbaiki cara, pembelajaran, mengadakan perbaikan dan pengayaan
7
bagi siswa, serta menempatkan siswa pada situasi pembelajaran yang lebih tepat
sesuai dengan tingkat kemampuan yang dimilikinya. Tujuan lainnya adalah untuk
memperbaiki dan mendalami dan memperluas pelajaran, dan yang terakhir adalah
untuk memberitahukan atau melaporkan kepada para oran gtua/wali siswa
mengenai penentuan kenaikan kelas atau penentuan kelulusan siswa.
3. Fungsi Evaluasi Pembelajaran
Evaluasi yang sudah menjadi pokok dalam proses keberlangsungan,
pendidikan maka sebaiknya dikerjakan setiap hari dengan jadwal yang sistematis
dan terencana. Guru dapat melakukan evaluasi tersebut dengan menempatkannya
secara satu kesatuan yang saling berkaitan dengan mengimplementasikannya pada
satuan materi pembelajaran. Bagian penting lainnya yaitu bahwa guru perlu
melibatkan siswa dalam evaluasi sehingga secara sadar dapat mengenali
perkembangan pencapaian hasil belajar pembelajaran mereka, Sehingga salah
satu komponen dalam pelaksanaan pendidikan.
Evaluasi mempunyai beberapa fungsi. Berdasarkan Undang-undang RI
tentang Sisdiknas No. 20 Tahun 2003 Pasal 58 ayat 1 bahwa evaluasi hasil belajar
peserta didik dilakukan untuk membantu proses, kemajuan, dan perkembangan
hasil belajar peserta didik secara berkesinambungan. Menurut M. Ngalim
Purwanto bahwa kewajiban bagi setiap guru untuk melaksanakan kegiatan
evaluasi itu (Purwanto, 1991). Hal ini karena pada akhirnya guru harus
memberikan informasi lembaganya ataupun kepada siswanya itu sendiri,
mengenai bagaimana dan sampai dimana penguasaan dan kemampuan telah
dicapai oleh siswa tentang materi dan keterampilan mengenai
mata pelajaran yang telah diberikannya.
Jahja Qohar Al-Haj, mengemukakan bahwa fungsi evaluasi dari sisi siswa
secara individual, dan dari segi program pengajaran
a. Dilihat dari segi siswa secara individu, evaluasi berfungsi sebagai: mengetahui
tingkat pencapaian siswa dalam suatu proses pembelajaran yaitu:
1) Menetapkan keefektifan pengajaran dan rencana kegiatan.
2) Memberi basis Laporan kemajuan siswa
3) Menetapkan kenaikkan dan kelulusan
8
b. Dilihat dari segi program pengajaran, evaluasi berfungsi:

1) Memberi dasar pertimbangan kenaikan dan promosi siswa.
2) Memberi dasar penyusunan dan penempatan kelompok siswa yang
homogen.
3) Diagnosis dan remedial pekerjaan siswa.
4) Memberi dasar pembimbingan dan penyuluhan.
5) Dasa pemberian angka dan rapor bagi kemajuan belajar siswa.
6) Memberi motivasi belajar bagi siswa.
7) Mengidentifikasi dan mengkaji kelainan siswa.
8) Menafsirkan kegiatan sekolah ke dalam masyarakat
9) Untuk mengadministrasi sekolah.
10) Untuk mengembangkan kurikulum.
11) Mempersiapkan penelitian pendidikan di sekolah (Al-Haj, dalam mahirah
B,2017).
B. Reliabilitas
1. Konsep Realibilitas
Reliabilitas berasal dari kata reliability berarti sejauh mana
hasil suatu pengukuran dapat dipercaya. Suatu hasil pengukuran dapat
yang relatif sama, selama aspek yang diukur dalam diri subyek
memang belum berubah. Menyatakan bahwa reliabilitas ukuran menyangkut
seberapa jauh skor deviasi individu, atau skor-z, relatif konsisten apabila
dilakukan pengulangan pengadministrasian dengan tes yang sama atau tes yang
ekivalen. (Nur dalam Zulkfli Matondang, 2009)
Reliabilitas dalam arti reliabilitas alat ukur berkaitan erat dengan masalah
eror penguuran. Eror pengukuran sendiri menunjukan sejauh mana inkonsistensi
hasil pengukran terjadi apabila dilakukakn pengukuran ulang terhadapa kelompok
subjek yang sama. Sedangkan konsep reliabilitas dalam reliabilitas hasil ukur
berkaitan erat dengan eror dalam pengambilan sampel yang mengacu pada
9
inkonsinstensi hasil ukur apabila hasil pengkuran dilakukan ulang pada kelompok
yang berbeda. (ramli dan idrus, 2019)
Menyatakan bahwa reliabilitas merupakan salah-satu ciri atau karakter
utama instrumen pengukuran yang baik. Arifin dalam zulkfli menyatakan bahwa
suatu tes dikatakan reliabel jika selalu memberikan hasil yang sama bila diteskan
pada kelompok yang sama pada waktu atau kesempatan yang berbeda. (Azwar
dalam zulfikar matondang, 2009)
Konsep reliabilitas dalam arti reliabilitas alat ukur berkaitan
erat dengan masalah kekeliruan pengukuran. Kekeliruan pengukuran
sendiri menunjukkan sejauh mana inkonsistensi hasil pengukuran
terjadi apabila dilakukan pengukuran ulang terhadap kelompok
subyek yang sama. Sedangkan konsep reliabilitas dalam arti
reliabilitas hasil ukur berkaitan erat dengan kekeliruan dalam
pengambilan sampel yang mengacu pada inkonsistensi hasil ukur
apabila pengukuran dilakukan ulang pada kelompok yang berbeda.
(Sudjana 2004) menyatakan bahwa reliabilitas alat penilaian
adalah ketepatan atau keajegan alat tersebut dalam menilai apa yang
dinilainya. Artinya, kapanpun alat penilaian tersebut digunakan akan
memberikan hasil yang relatif sama.
2. Teknik Mengukur Reliabilitas
Pada umumnya pengukuran karakteristik afektif memberikan koefisien
reliabilitas yang lebih rendah daripada pengukuran ranah kognitif, karena
karakteristik kognitif cenderung lebih stabil daripada karakteristik afektif.
Menurut Gable yang di kutip Litwin , koefisien reliabilitas instrumen ranah
kognitif biasanya kira-kira 0,90 atau lebih, sedangkan koefisien reliabilitas
instrumen ranah afektif kurang dari 0,70.Koefisien reliabilitas pada taraf 0,70 atau
lebih biasanya dapat diterima sebagai reliabilitas yang baik.
Sedangkan menurut Naga koefisien reliabilitas yang memadai sebaiknya terletak
di atas 0,75 (Litwin dalam Gaguk Margono, 2013).
Beberapa alasan pentingnya pengukuran reliabilitas yang bersifat
multidimensi seperti dikemukan oleh Widhiarso (2010) dengan uraian sebagai
10
berikut: pertama, karakteristik konstruk psikologis yang umumnya bersifat

multidimensi. Kedua, adanya pelibatan aspekaspek dalam penyusunan instrumen
psikologis biasanya diawali dengan penurunan butir-butir dari beberapa aspek
teoretis dan kecenderungannya bersifat multidimensi. Ketiga, jumlah butir
di dalam instrumen. Jumlah butir yang terlalu banyak dapat menambah potensi
penambahan varians error dalam butir sehingga memunculkan dimensi baru dari
dimensi yang ditetapkan semula. Jumlah butir dan juga bentuk skala
mempengaruhi sikap responden terhadap butir yang kemudian mempengaruhi
tanggapan mereka terhadap instrumen. Keempat, teknik penulisan butir.
Merumuskan sebuah koefisien reliabilitas yang kemudian diberi nama koe
fisien reliabilitas skor komposit McDonald yang juga dinamakan koefisien omega
(ὠ ). Koefisien reliabilitas ini berbasis pada analisis faktor konfirmatori yangmer
upakan bagian dari menu pemodelan Structural Equation Modeling (SEM).
Reliabilias skor komposit McDonald ini menjelaskan besarnya proporsi indikator
dalam menjelaskan konstruk ukur (McDonald dalam Gaguk Margono, 2013).
Adapun formula untuk mendapatkan koefisien reliabilitas konstruk adalah sebagai
berikut:
[∑ ]
i
λi
i−1
ω=
[ ∑ ] [∑
i i
1− λi ]
2
λi +
i−1 i−1
Keterangan:
𝜆i = factor loading terstandarisasi indifaktor ke i
Menurut Latan (2012) SEM merupakan suatu suatu teknik analisis

multivariate generasi kedua yang menggabungkan antara analisis faktor dan
analisis jalur sehingga memungkinkan peneliti untuk menguji dan mengestimasi
secara simultan hubungan antara multipleexogenous dan endogenous variabel
dengan banyak indikator.Hasil penelitian Joreskog pada tahun 1970an
11
membawa teori statistika pada analisis struktural linear yang lebih dikenal dengan
sebutan model persamaan struktural atau SEM. Sumber penting yang digunakan
dalam menganalisis adalah struktur kovarian sehingga terkadang pendekatan ini
dinamakan dengan covariant structure model (CSM). Model yang disusun
memuat variabel tak terukur yang dinamakan dengan konstruk laten yang
dibangun oleh serangkaian variabel terukur yang dinamakan dengan konstruk
terukur. Error pengukuran yang merefleksikan reliabilitas skor pengukuran
dilihat sebagai konstruk unik dan menjadi bagian yang penting dalam analisis
SEM, error pengukuran yang dilibatkan dalam analisis SEM inilah yang
kemudian menjadi kelebihan SEM dibanding dengan teknik analisis lainnya
(Capraro et al., 2001). SEM dapat mengestimasi varians error skor hasil
pengukuran secara aktual mengestimasi reliabilitas. SEM sebagai teknik statistik
multivariat yang mengkombinasikan antara regresi berganda yang
mengidentifikasikan hubungan antara konstruk dan
analisis faktor yang mengidentifikasi konsep tak terukur melalui beberapa
indikator manifest yang keduanya dipakai secara simultan. (Gefen et
al., 2001)
SEM memiliki beberapa kelebihan dibanding dengan teknik analisis
lainnya. Dalam menguji hubungan antara variabel, SEM secara otomatis
mereduksi efek error pengukuran. pengaruh variabel independen terhadap variabel
dependen dipengaruhi oleh efek atenuasi, (Capraro et al., 2001). Nilai efek ini
tidak dapat melebihi batas koefisien reliabilitas skor tes yang digunakan.
Pendekatan pertama adalah koreksi korelasi atenuasi yang disebabkan oleh error
pengukuran dan pendekatan kedua adalah model persamaan struktural dalam
kontek analisis faktor konfirmatori. SEM adalah salah satu pendekatan untuk men
egaskan model pengukuran. Pada model pengukuran SEM menghubungkan antara
konstruk laten dengan dengan konstruk empirik. Konstruk empirik dinyatakan
oleh kombinasi konstruk laten. Disamping dapat mampu menangani generalizabil
ity theory dan item response theory, SEM mampu membandingkan
model pengukuran dan memfasilitasi investigasi ketepatan model.( Lee dan Song
2001)
12
dimensi instrumen pengukuran. Teknik ini diperkenalkan oleh Spearman

yang bertujuan untuk mengeksplorasi faktor-faktor yang menjadi bagian dari
inteligensi. SEM juga dapat mengidentifikasi reliabilitas konstruk yang terlihat
melalui nilai butir loading yang dihasilkan. Berdasarkan perspektif SEM
reliabilitas konstruk dapat dihitung melalui persamaan sebagai
berikut:
[∑ ]
i
λi
i−1
CR=
[ ] [∑ ]
i i
∑ λi + δ
i−1 i−1
Keterangan:
CR = reliabilitas konstruk
𝜆i = faktor loading terstandarisasi indikator ke i
δ = erros standar pengukuran
Reliabilitas konstruk ini memberikan hasil yang sama dengan reliabilitas

skor komposit McDonald karena δ = 1- 𝜆2
Koefisien reliabilitas multidimensi berikut merupakan koefisien reliabilitas
konstruk yang dikembangkan oleh Hancock dan Mueller (2000), yang
menunjukan seberapa jauh indikator instrumen mampu merefleksikan konstruk
yang hendak diukur. Koefisien ini merupakan modifikasi dari koefisien reliabilitas
konstruk McDonald yang tidak mampu mengakomodasi bobot yang berbeda
antardimensi. Hasil modifikasi dinamakan koefisien reliabilitas konstruk
berbobot sebagai berikut:
p
l 2i
∑
Ω=
i−1 ( 1−l 2i )
p
1+ ∑ ( 1−l 2i )
i−1
13
Keterangan:
li = koefisien dimensi ke i transtandar
Koefisien reliabilitas ini dapat diartikan sebagai korelasi kuadrat antara
dimensi dengan skor komposit linier optimal, sehingga beberapa ahli
menamakannya dengan reliabilitas maksimal (maximal reliability).
Pada penelitian Widhiarso dan Mardapi (2010), model multidimensi untuk
koefisien reliabilitas memiliki ketepatan pengukuran yang tinggi bila
dibandingkan dengan reliabilitas unidimensi. Oleh karena itu dalam penelitian ini,
peneliti hanya difokuskan pada koefiesien konsistensi internal seperi α untuk
reliabilitas unidimensi dan ω , CR dan Ωw .
Instrumen sikap terhadap statistika semula ini terdiri atas 15 butir
pernyataan. Ketiga belas butir instrumen ini merupakan hasil penelitian dari
peneliti sendiri yang semula 15 butir dan gugur 2 butir. Instrumen yang terdiri dari
13 butir ini dapat dirinci sebagai berikut: 5 butir untuk dimensi evaluasi, 3 butir
potensi, dan 5 butir aktivitas. Untuk reliabilitas konsistensi
internal alpha Cronbach diperoleh langsung menggunakan program SPSS sebesar
0,710.(Gaguk Margono, 2013)
Untuk reliabilitas skor komposit McDonald, dengan menggunakan
pemodelan analisis strukturatau structural equation modelling (SEM) diperoleh:
i
∑ λi= 6,040 dan ∑ii-1 – 𝜆i2 = 9,632; jadi

i−1
( 6,040 )
ω= =0,791
( 6,040 ) + ( 9,632 )
Reliabilitas konstruk diperoleh hasil yang sama sebagai berikut: ∑ ii-1 – 𝜆i =
( 6,040 )
6,040 dan ∑ii-1 δ = 9,620; jadi CR = =0,791
( 6,040 ) + ( 9,620 )
Berikut untuk reliabilitas berbobot, dengan menggunakan pemodelan
l 2i
analisis struktur atau SEM diperoleh: ∑ p
i-1 = 5,148, sehingga dapat di
(1−l 2i )
hitung sebagai berikut:
14
5,148
Ωw = =0,837
1+ 5,148
Dari hasil perhitungan di atas dapat dirangkum sebagai berikut:

Tabel 1. Rangkuman Hasil Perhitungan Koefisien Reliabilitas
Koefisien
Instrumen reliabilitas Koefisien Reliabilitas Multidimensi
unidimensi
Sikap α = 0,710 CR = 0,791 ὠ = 0,791 ΩW = 0,837
Perhitungan untuk instrumen di atas diperoleh koefisien alpha Crobach

jauh lebih kecil bila dibandingkan dengan reliabilitas konstruk, reliabilitas skor
komposit McDonald, dan reliabilitas maksimal. Dengan selisih 0,081 dan 0,127.
Namun selisih tersebut apakah mencerminkan keakuratan? Hal ini belum ada
kesepakatan antar ahli psikometri. Namun kita di kalangan peneliti di Indonesia
sebaiknya setelah mengetahui alat mana yang paling tepat
sebaiknya kita mulai memakai/menggunakan alat tersebut secara benar dan
memadai. ( gaguk margono, 2013)
3. Teknik Pengujian Reliabilitas
Pendekatan dalam penelitian ini menggunakan pendekatan kuantitatif
dengan menggunakan desain one way anava 4 × 1. Populasi dalam penelitian ini
adalah siswa kelas XI SMA Negeri di Jakarta Pusat. Pengambilan sampel siswa
yang mengisi instrumen dilakukan dengan cara multi stage random sampling.
Dari skor kelompok siswa yang telah mengisi instrumen, diambil 30 data siswa
secara acak untuk dihitung koefisien reliabilitasnya misalnya r1. Setelah itu data
15
30 responden dikembalikan lagi ke kelompok masing-masing, kemudian diambil

lagi secara acak 30 responden dan dihitung kembali koefisien reliabilitasnya,
misalkan nilai nya r2. Demikian seterusnya replikasi dilakukan sebanyak 30 kali
sehingga diperoleh data koefisien reliabilitas sebanyak 30 untuk setiap
kelompok. Jumlah total koefisien reliabilitas yang akan dianalisis adalah sebanyak
120 reliabilitas (dengan 30 reliabilitas pada tiap selnya). Dengan demikian yang
menjadi unit analisis pada penelitian ini adalah koefisien reliabilitas instrumen.
(Siti Muslihah Hadi, 2013)
Gambar 1. Diagram Alur Prosedur Penelitian
Responden = 765
Kelompok 1 Kelompok 2 Kelompok 3 Kelompok 4

200 responden 168 responden 200 responden 197 responden
30 responden 30 responden 30 responden 30 responden
Penghitungan Penghitungan Penghitungan Penghitungan

koifisien reliabi koifisien reliab koifisien reliab koifisien reliab
litas ilitas ilitas ilitas
(r1,r2....r30) (r1,r2....r30) (r1,r2....r30) (r1,r2....r30)
Instrumen dalam penelitian ini menggunakan instrumen disposisi

matematika. Pada instrumen tersebut dilakukan validasi konstruk oleh 20 orang
panelis dengan menggunakan rumus Lawshe dengan 60 butir pernyataan yang
divalidasi ada 5 butir yang tidak cocok sehingga direvisi. Sedangkan validasi
16
empiris setiap set instrumen yang berbeda kategori respon diujicobakan pada
300 responden menggunakan rumus korelasi Product Moment perhitungan
reliabilitasnya menggunakan rumus alpha Cronbach didapatkan koefisien 0,77;
0,75; 0,73; 0,73 yang berarti dinyatakan reliabel.
Hasil penelitian ini menunjukkan bahwa nilai rata-rata koefisien
reliabilitas instrumen disposisi matematika dengan tujuh kategori respon adalah
0,887 dengan standar deviasi 0,037. Nilai rata-rata koefisien reliabilitas
instrumen disposisi matematika dengan enam kategori respon adalah 0,876
dengan standar deviasi 0,036. Nilai rata-rata koefisien reliabilitas instrumen
disposisi matematika dengan lima kategori respon adalah 0,854 dengan standar
deviasi 0,045. Nilai rata-rata koefisien reliabilitas instrumen disposisi matematika
dengan empat kategori respon adalah 0,844 dengan standar deviasi 0,055.
Adapun hasil statistik deskriptif empat kelompok data koefisien reliabilitas dapat
dilihat pada tabel 1, .(Siti Muslihah Hadi, 2013)
Tabel 1. Rekapitulasi Statistik Deskriptif Koefisien Reliabilitas

Kategori Responden
Statistik 7 (X1) 6 (X2) 5 (X3) 4 (X4)
N 30 30 30 30
Rata- rata 0,887 0,876 0,854 0,844
SD 0,037 0,036 0,045 0,055
Uji reliabilitas dilakukan peneliti untuk melihat konsistensi sebuah alat ukur
untuk mengukur variabel yang akan diukur. Beberapa jenis uji reliabilitas yang
digunakan:
1) Reliabilitas test ulang (re-test)
Pengujian reliabilitas ini dilakukan dengan cara mencobakan 1 jenis intrumen
beberapa kali pada subyek / responden yang sama. Reliabilitas diukur dari koefisien
korelasi antara percobaan pertama dengan percobaan selanjutnya. Intrumen
dinyatakan reliabel jika koefisien korelasi positif dan signifikan
17
2) Reliabilitas ekuivalen
Pengujian ini dilakukan dengan cara mencobakan instrument yang berbeda tetapi
ekuivalen (sebanding/sepadan) . Percobaan dilakukan 1 kali saja pada responden
yang sama. Reliabilitas instrument diukur dari koefisien korelasi antara percobaan
intrumen 1 dengan percobaan instrument lainnya. Instrumen dinyatakan reliabel jika
koefisien korelasi positif dan signifikan
3) Reliabilitas konsistensi internal (internal consistency)
Pengujian ini dilakukan dengan cara mencobakan instrument sekali saja pada subjek
penelitian. Pengujian ini dilakukan dengan beberapa cara seperti tehnik belah 2 (split-
half procedure), tehnik Kuder-Richardson Approach 20 (KR 20), tehnik Kuder-
Richardson Approach 21 (KR 21), dan Alfa Cronbach’s.
Uji reliabilitas kuesioner pada penelitian ini. dilakukan dengan menggunakan
tehnik Alpha Cronbach’s. Tehnik ini digunakan untuk intrumen yang memiliki jawanban
lebih dari 1 misalnya instrumen berbentuk essay, angket atau kuesioner . Rumus
koefisien Alpha Cronbach’s sebagai berikut:
{ }
2
k ∑S
ri = 1− 2 i
( k−1 ) St
keterangan:
k = koefisien reliabilitas alfa cronbach
∑si2 = jumlah item soal
St2 = jumlah varians skor tiap item
Instrumen dikatakan realiabel jika koefisien reliabilitas Alfa Cronbach

lebih dari 0,70. Jika nilai koefisien ini kurang 0,70 makan disarankan untuk
merevisi atau menghilangkan item soal yang nilai reliabilitasnya rendah. Berikut
adalah tabel hasil penghitungan koefisien Alfa Cronbach :
Reliability Statistics
Cronbach”s alpha N of items
18
905 15
Berdasarkan hasil penghitungan SPSS diperoleh nilai reliabilitas 0.905.

Hal ini berarti bahwa koefisien Alfa Cronbach > r-tabel (0.905 > 0.361) sehingga
kuesioner ini dinyatakan reliabel.
Pengujian validitas dan reliabilitas pada penelitian kualitatif telah memiliki
standar buku untuk meniliai validitas dan reliabilitas data temuanya melalui
engujian terhadap alat ukur yang dipakai untuk mengumpulkan data. Strauss dan
corbin mengatakan masih banyak kalangan ilmiah yang kurang memahami
paradigma penelitian kualitatif
Walizer (1987) menyebutkan bahwa beberapa cara umum untuk
mengukur reliabilitas di antaranya :
1) Reliabilitas Stabilitas, menyangkut usaha memperoleh nilai yang sama atau
serupa untuk setiap orang atau setiap unit yang diukur setiap saat Anda
mengukurnya. Reliabilitas ini menyangkut penggunaan indikator yang sama,
definisi operasional, dan prosedur pengumpulan data setiap saat, dan
mengukurnya pada waktu yang berbeda. Untuk dapat memperoleh reliabilitas
stabilitas setiap kali unit diukur skornya haruslah sama atau hampir sama.
2) Reliabilitas Terwakili, mengacu pada keterandalan masing‐masing grup.
Menguji apakah penyampaian indikator sama jawabannya saat diterapkan ke
kelompok yang berbeda‐beda.
3) Reliabilitas Seimbang (equivqlence reliability), menyangkut usaha
memperoleh nilai relatif yang sama dengan jenis ukuran yang berbeda pada
waktu yang sama. Definisi konseptual yang dipakai sama tetapi dengan satu
atau lebih indikator yang berbeda, batasan‐batasan operasional, peralatan
pengumpulan data, dan / atau pengamat‐pengamat.
Dalam uji reliabilitas, besar sampel yang digunakan sejumlah 298
partisipan. Hasil analisis reliabilitas dengan teknik Cronbach’s Alpha
menghasilkan 0,94 (M = 87,86, SD = 14,41) untuk 16 pernyataan Skala Identitas
Sosial. Berdasarkan alat tes ini reliabel karena koefisien Alpha Cronbach yang dih
19
asilkan di atas 0,70. Jangkauan koefisien corrected item-total correlation dari 16

pernyataan ini adalah 0,60 – 0,80 (Median = 0,67) (Kaplan dan Saccuzzo,2013).
Peneliti mencari nilai standard error of measurement untuk mengestimasi
jangkauan skor skala Identitas Sosial yang mungkin diperoleh seseorang. Adapun
estimasi yang dihasilkan pada tingkat kepercayaan 68% adalah ±3,53 dari skor
total yang diperoleh dengan menggunakan Skala Identitas Sosial. Hal ini berarti,
jika seseorang mendapatkan skor total Skala Identitas Sosial = 50, maka dengan
tingkat kepercayaan 68%, estimasi skor yang sebetulnya bisa diperoleh orang ters
ebut antara 46,47 sampai 53,53. Tabel 1 menyajikan hasil reliabilitas per faktor
dan total skala secara detil.
Reliabilitas per faktor dan total skala.
Jangkauan
Alpha Omega korelasi M SD Jumlah
aitem-total pernyataan
Keanggotaan 0,81 0,82 0,51 – 0,71 22,42 3,71 4

Pribadi 0,87 0,87 0,71 – 0,75 23,11 3,98 4
Publik 0,87 0,87 0,66 – 0,77 20,77 4,56 4
Identitas 0,86 0,87 0,60 – 0,79 21,56 4,13 4
Identitas sosial 0,94 0,94 0,60 – 0,80 87,86 14,41 16
Hasil reliabilitas, khususnya dengan metode Cronbach’s alpha

menunjukkan pada setiap domain memiliki reliabilitas yang tinggi. Demikian pula
dengan metode Omega pun menunjukkan bahwa skala Identitas Sosial ini reliabel.
Hasil uji reliabilitas dengan menggunakan metode Cronbach’s alpha pada
penelitian kami lebih tinggi dibandingkan penelitian Luhtanen dan Crocker
baik dalam reliabilitas per domain maupun total. Selain itu, jangkauan dari
koefisien korelasi aitem-total per domain maupun total juga lebih tinggi dari
penelitian (Luhtanen dan Crocker, dalam christiany dan Clara 2017), .
Anastasi & Urbina, dalam christiany & clara menjelaskan Reliabilitas
adalah seberapa jauh suatu alat ukur memberikan hasil yang relatif tidak berbeda
20
bila dilakukan pengukuran kembali terhadap gejala yang sama pada waktu yang

berbeda (christiany & clara, 2017).
Dalam pengertian yang paling luas, reliabilitas alat ukur menunjukkan
sejauh mana perbedaan-perbedaan individual dalam skor tes disebabkan oleh
perbedaan-perbedaan yang sesungguhnya dalam aspek yang diukur dan sejauh
mana dapat dianggap disebabkan oleh kesalahan peluang. Metode perhitungan
yang digunakan adalah koefisien alpha, yang juga merupakan metode yang paling
populer digunakan untuk mengukur konsistensi internal (Murphy & Davidshofer,
2001). Peneliti juga melakukan analisis reliabilitas dengan koefisien Omega.
Analisis reliabilitas dengan koefisien Omega, mengikuti langkah-langkah dalam
Peters (2014). Metode Omega menggunakan pendekatan analisis faktor. Koefisien
ini menekankan pada seberapa jauh aitem-aitem merefleksikan faktor laten yang
disusun. Batasan koefisien reliabilitas yang baik menurut (Anastasi dan Urbina,
1997). Berkisar 0,80 – 0,90. Setelah koefisien reliabilitas didapatkan, peneliti
mencari nilai standard error of measurement. Hal ini dikarenakan kekonsistenan
hasil pengukuran juga dipengaruhi oleh kesalahan-kesalahan dalam pengukuran,
nilai standard error of measurement dibutuhkan guna mengestimasi skor tes yang
mungkin diperoleh seseorang (Crocker & Algina, 2008).
Reliabilitas dibedakan atas dua macam, yaitu reliabilitas konsistensi
tanggapan, dan reliabilitas konsistensi gabungan butir. (Djaali ,2000)
Reliabilitas konsistensi tanggapan responden mempersoalkan apakah tanggapan
responden atau obyek ukur terhadap tes atau instrumen tersebut sudah baik atau
konsisten. Dalam hal ini apabila suatu tes atau instrumen digunakan untuk
melakukan pengukuran terhadap obyek ukur kemudian dilakukan
pengukuran kembali terhadap obyek ukur yang sama, apakah hasilnya
masih tetap sama dengan pengukuran sebelumnya. Jika hasil
pengukuran kedua menunjukkan ketidakkonsistenan maka jelas hasil
pengukuran itu tidak mencerminkan keadaan obyek ukur yang
sesungguhnya.
Koefisien reliabilitas konsistensi gabungan butir untuk skor
butir dikotomi dapat dihitung dengan menggunakan rumus
21
Kuder-Richardson yang dikenal dengan nama KR-20 (Djaali, 2000) dengan

rumus:
k
KR-20= k−1 1− (
∑ PiQi
2
S1 )
Keterangan:
K= cacah butir
pi qi = varians skor butir
pi = proporsi jawaban yang benar untuk butir nomor i
qi = proporsi jawaban yang salah untuk butir nomor i
S12 = varians skor total responden
Koefisien reliabilitas gabungan butir untuk skor butir politomi,

maka koefisien reliabilitas dihitung menggunakan koefisien Alpha
(Djaali, 2000) dengan rumus:
( )
2
k ∑ S1
rii = k−1 1− 2
S1
keterangan:
rii = koefisien reliabilitas
k = cacah butir
Si2 = varians skor butir
St2 = varians skor total responden
Nur dalam zulkifli Interpretasi terhadap koefisien reliabilitas merupakan

intrepretasi relatif, artinya tidak ada batasan mutlak yang
menunjukkan berapa angka koefisien minimal yang harus dicapai agar
22
suatu pengukuran dapat disebut reliabel. Namun, memberikan

informasi tentang hubungan varians skor teramati dengan varians skor
sejati kelompok individu. Misalnya, diperoleh koefisien reliabilitas
sama dengan 0,87. Koefisien reliabilitas ini dapat diartikan bahwa: (1)
87% varians skor teramati diakib atkan oleh varians skor sejati
kelompok individu, dan (2) korelasi antara skor teramati dan skor
sejati sama dengan √ 0,87 atau 0,93. (zulkfli matondang, 2009)
4. Reliabilitas tes
Tujuan utama menghitung reliabilitas skor tes adalah untuk mengetahui

tingkat ketepatan (precision) dan keajegan (consistency) skor tes.Suatu instrument
atau tes dikatakan memiliki nilai reliabilitas yang tinggi apabila tes yang dibuat
memiliki hasil yang konsisten dalammengukur yang hendak diukur. Indeks
reliabilitas berkisar antara 0-1.Semakin tinggi koefisien reliabilitas suatu tes
(mendekati 1), makin tinggi pula keajegan/ketepatannya.
Reliabilitas soal berkaitan dengan suatu perangkat soal apabila diujikan
kepada subjek yang sama secara berulang kali menunjukkan keajegan atau
kestabilan hasil. Rumus yang digunakan untuk menghitung Reliabilitas tes hasil
belajar bentuk objektif yaitu dengan menggunakan rumus K-R. 20 sebagai
berikut:
r11 = ( )(
n
n−1
S 2−∑ pq
S
2 )
keterangan:
r11 = reliabilitas tes secara keseluruhan
p = populasi subjek yang menjawab item dengan benar
q = populasi subjek yang menjawab item dengan salah ( q = 1-p)
∑pq = jumlah hasil perkalian antara p dan q
n = banyaknya item
S = standar deviasi dari tes
23
(Suharsimi Arikunto,dalam Rahmatika & Djazari ,2016)
Soal dikatakan reliabel atau memiliki Reliabilitas tinggi apabila koefisien

Reliabilitasnya lebih dari atau sama dengan 0,70. Soal yang memiliki koefisien
Reliabilitas kurang dari 0,70 dinyatakan tidak reliabel atau memiliki Reliabilitas
rendah.
Tabel 1. Klasifikasi Tingkat Kesukaran

Indek kesukaran Kategori tingkat kesukaran
0 – 0,30 Sukar
0,31 – 0,70 Sedang
0,71 – 1,00 Mudah
(Nana Sudjana, 2014)
Hasil perhitungan Reliabilitas soal Pra Ujian Nasional Mata Pelajaran

Ekonomi Akuntansi Kelas XII IIS SMA Negeri 1 Magelang Tahun Ajaran
2015/2016 menunjukkan bahwa soal memiliki koefisien Reliabilitas (r11) sebesar
0,62.
Reliabilitas soal dapat dihitung dengan menggunakan rumus KR-20,
dengan interpretasi apabila koefisien Reliabilitas lebih dari atau sama dengan 0,70
maka soal tersebut dinyatakan reliabel atau memiliki Reliabilitas tinggi dan
apabila koefisien Reliabilitas kurang dari 0,70 maka soal termasuk dalam kategori
tidak reliabel atau memiliki Reliabilitas rendah. Hasil tersebut berarti bahwa soal
Pra Ujian Nasional Mata Pelajaran Ekonomi Akuntansi Kelas XII IIS
SMA Negeri 1 Magelang Tahun Ajaran 2015/2016 termasuk dalam kategori soal
dengan Reliabilitas rendah atau tidak reliabel karena r11 kurang dari 0,70.
Sala satu cara untuk menentukan tingkat reliabiltas instrumen adalah
menggunakan koefisien Alfa. Azwar menjelaskan bahwa koefisien alfa dapat
digunakan selama masing-masing belahan samapanjang atau berisi item yang
24
sama banyaknya. Koefisien alfa dapat ditentukan dengan menggunakan persamaa
n (Azwar, 2015):
Pxx’ ≥ α = ( k −1
k
) ¿¿
Keterangan:
Pxx’ = koesisien reliabilitas
α = koefisien alfa
k = banyaknya butir dalam tes
αx2 = varians skor tes
αt2 = varians skor belahan tes dengan i = 1,2,3 dst. (belahan tes)
Dalam penelitian ini estimasi reliabilitas instrumen dengan menggunakan
koefisien alfa digunakan untuk mengestimasi reliabilitas instrumen tes.
Reliabilitas alfa memiliki rentang nilai antara 0 sampai dengan 1.
Berdasarkan (Streiner, 2003) sebuah instrumen pada tahap penelitian
pendahuluan dinyatakan reliabel apabila nilai reliabilitas alfa 0,7; pada penelitian
dasar sebesar 0,8 dan pada penelitian dalam bidang kedokteran dengan tujuan
klinis sebesar 0,95.
ICC (Interclass Correlation Coeficient) merupakan reliabilitas yang
digunakan untuk hasil rating dari pengamatan beberapa rater
(Shrout & Fleiss, dalam khoirul & supahar,2018). Hal yang sama juga disampaika
n oleh Mardapi,. ICC dapat diestimasikan dengan menggunakan persama-an
(Mardapi, 2012)
MSrs−MSe
P=
MSr+ ( k −1 ) MSe
Keterangan :
MSrs = rerata kuadrat antara penilain
Mse = varians skor kesalahan
k = jumlah peneilaian
25
Analisis ICC pada penelitian ini menggunakan bantuan SPSS 16. Dalam
penelitian ini, reliabilitas ICC digunakan untuk mengestimasi reliabilitas
instrumen lembar pengamatan.
Sebagai pendukung, pengujian reliabilitas tiap butir soal dapat ditentukan
dengan menggunakan IIC dan reliabilitas perangkat tes dapat diperoleh dari TIC.
Grafik IIC dan TIC didapatkan dengan pengolahan data melalui program BILOG
MG (Mathildadu Toit,dalam khoirul & supahar,2018) Melalui grafik ICC dengan
3 parameter dapat diketahui tingkat kehandalan soal. Grafik IIC dan
TIC memiliki rentang skala logit antara 3 sampai dengan 3. Sumintono & Widhiar
so menjelaskan bahwa kala logit merupakan skala yang menggambarkan abilitas
atau kemampuan peserta didik. Skala minus menunjukkan abilitas yang rendah
dan semakin positif menunjukkan abilitas yang tinggi.( Sumintono & Widhiarso,2
015)
Nurhasan dalam Tegar, reliabilitas tes dihitung dengan mengunakan
metode pengukuran ulang (Test Retest). Sebagaimana dijelaskan oleh Suntoda, PP
T Pembelajaran tes dan pengukuran (Tegar, 2018). Langkah angkahnya adalah se
bagai berikut:
1. Dilakukan dengan dua kali pengukuran yaitu pengukuran pertama dan
pengukuran ulang. Berdasarkan jumlah skore pertama dan skore tes
ulang. Kelompok jumlah skore pertama sebagai variabel X dan jumlah
skore ulang sebagai variabel Y.
2. Selanjutnya mengkorelasikan skore total variabel X(skore pertama)
dengan
skore total variabel Y ( skore tes ulang) dengan rumus teknik korelasi
Product Moment,yaitu sebagai berikut:
N . ∑ xy−(∑ x)( ∑ y)
rxy =
√¿ ¿¿
keterangan:
rxy = koefisien kolerasi antara variabel x,y
∑xy = jumlah dari hasil perkalian antara x,y
26
X2 = nilai x yang dikuadratkan

Y2 = nilai y yang ikuadratkan
N = jumlah sampel
Setelah mendapat koefisien korelasi rxy dilakukan penghitungan signifikan

reliabilitas tersebut menggunakan rumus sebagai berikut:
r √n−2
t=
√ 1−r 2
keterangan:
t =nilai t hit ung
r = koefisien kolerasi hasil rxy hitung
n =jumlah responden
Distribusi tabel t untuk ἀ dan derajat kebebasan (dk = n1+ n2-2), jika t
hitung > t tabel berarti reliabel, jika t hitung < t tabel berarti tidak reliabel. Selain
itu untuk melihat kategori tingkat reliabilitas tes peneliti
mengacu pada:
Tabel 1. Kategori tingkat reliabilitas
Koefisien kolerasi Tingkat reliabilitas

0,90 – 0,99 Sangat tinggi
0,80 – 0,89 Tinggi
0,70 – 0,79 Cukup
0,60 – 0,69 Rendah
0,00 – 0,59 Sangat rendah
Kriteria Penafsiran Korelasi Reliabilitas
Berdasarkan analisis data yang telah dilakukan, telah tergambarkan bahwa

tes TGMD-2 ulrich di modivikasi dengan Stability Skills adalah valid
Tabel 3. Hasil Analisis Data Validitas Tes TGMD-2

Item tes T-hitung T-tabel Simpulan
27
Tabel ke 1 14,78 1,65 Reliabel ( r hitung ≥ r tabel

Tabel ke 2 dengan tingkat reliabilitas
cukup (0,70 - 0,70)
Bedasarkan analisis data yang telah dilakukan menggunakan metode test

retest, telah tergambarkan tes TGMD-2 memiliki reliabilitas yang tinggi, dengan
keterangan lengkap berikut:
∑xy = 369033
∑x2 = 365529
∑y2 = 372736
N = 150
Mengacu pada Suntoda untuk distribusi tabel t untuk ἀ=0,05 dan derajat
kebebasan (dk= n-2), jika t hitung > t tabel berarti reliabel, jika t hitung < t tabel
tidak reliabel.
1-α(0,05)
1-0,05 = 0,95
dk = 148 maka didapat t tabel sebesar 1,65
Uji Reliabilitas adalah pengujian indeks yang menunjukkan sejauh mana
suatu alat pengukur dapat dipercaya atau diandalkan. Hal ini menunjukkan sejauh
mana hasil pengukuran itu tetap konsisten bila dilakukan dua kali atau lebih
terhadap gejala yang sama, dengan menggunakan alat ukur yang sama. Alat ukur
dikatakan reliabel jika menghasilkan hasil yang sama meskipun dilakukan
pengukuran berkalikali. (livia amanda, dkk, 2019)
Suatu kuesioner dikatakan reliabel jika jawaban dari kuesioner tersebut
konsisten atau stabil dari waktu ke waktu. Kuesioner sebagai alat ukur harus
mempunyai reliabilitas yang tinggi. Perhitungan reliabilitas hanya bisa dilakukan
jika variabel pada kuesioner tersebut sudah valid. Dengan demikian harus
menghitung validitas dahulu sebelum menghitung reliabilitas, jadi apabila
28
pertanyaan pada kuesioner tidak valid maka tidak perlu dilanjutkan dengan

pengujian reliabilitas [7]. Uji reliabilitas dapat diukur dengan menggunakan
formula Cronbach’s alpha (α) sebagai berikut:
2
K St −∑ k 2
1Sj
α= j=1
k−1 St
2
Untuk mengetahui nilai Cronbach’s alpha (α), perlu diketahui sebelumnya

nilai varians skor total seluruh instrumen dan nilai varians skor per instrumen.
Nilai varians skor total seluruh instrumen adalah:
(∑ )
150
150
vi
St = ∑ V −
2 2
i
i=1
= 187,367
i=1 150
150
Nilai varians skor instrumen ke-1,sebagi berikut:
(∑ )
150
150
vi
∑V
i=1
S x1 =
2 2
i − = 0,861
i=1 150
150
Dengan cara yang sama, dicari nilai varians skor indikator ke 2 hingga 30
didapatkan hasil seperti dalam Tabel 3.
Setelah varians skor total dari masing-masing instrumen diketahui.
Selanjutnya dicari nilai Cronbach’s alpha (α) dengan jumlah instrumen (k) = 30.
k
S −∑ S 2j
2
t
α= k j =1 = 0,907
k−1 S 2
t
Berdasarkan statistik uji reliabilitas didapatkan nilai Cronbach’s alpha (α)

sebesar 0,907. Karena nilai Cronbach’s alpha (α) lebih besar dari 0,6 maka dapat
29
dikatakan kuesioner ini reliabel yang artinya cocok dan dapat digunakan sebagai
alat ukur tingkat partisipasi masyarakat Kota Padang.
Tabel 3. Distribusi Responden Berdasarkan Kecamatan Domisilinya

Instrumen ke Nilai varians skor Instrumen ke- Nilai varians skor
1 0,861 16 0,922
2 0,468 17 0,649
3 0,410 18 0,772
4 0,360 19 0,489
5 0,637 20 1,139
6 0,675 21 0,863
7 0,637 22 0,761
8 0,589 23 1,154
9 0,642 24 1,090
10 0,437 25 1,009
11 0,592 26 1,151
12 0,431 27 1,071
13 0,591 28 0,919
14 0,514 29 0,610
15 0,914 30 1,065
30
Rumus yang digunakan untuk menghitung reliabilitas dari tes kemampuan

membaca kritis adalah menggunakan rumus Cronbach’s Alpha, (Sugiyono 2019)
yaitu:
2 r AB
r1=
1+ r AB
keterangan:
r1 = reliabilitas internal seluruh instrumen
r AB = kolerasi product moment pearson antara item ganjil dan genap
Dengan ketentuan klasifikasi reliabilitas instrumen adalah sebagai berikut,

(Riduan 2010).
Tabel . Klasifikasi Reliabilitas Instrumen

Batasan Kategori
0.80 – 1.00 Sangat Tinggi
0,600 – 0.799 Tinggi
0.400 – 0. 599 Cukup
0. 200 – 0.399 Rendah

0.000 – 0. 199 Sangat rendah
(tidak valid)
Berdasarkan hasil perhitungan reliabilitas yang telah dilakukan pada soal

pilihan ganda membaca kritis diperoleh skor reliabilitas sebesar 0.851 dengan
kategori sangat tinggi, artinya soal pilihan ganda membaca kritis reliabel.
31
Menurut Siregar, reliabilitas bertujuan untuk mengetahui sejauh

mana hasil pengukuran tetap konsisten. Instrumen penelitian dikatakan reliabel
bila koefisien reliabilitas r>0,6. Rumus uji reliabilitas menggunakan teknik alpha
cronbach (siregar dalam Allima DKK, 2014). yaitu:
( )( )
n
k ∑i=1 ∝2t
r= 1−
k −1 ∝t
2
dengan k = jumlah butir pertanyaan

Nilai variance extract pada konstruk laten KMJS dan PMJS adalah KMJS
= 0,394 dan PMJS = . Berdasarkan perhitungan yang telah dilakukan, konstruk
laten KMJS nilainya tidak signifikan yaitu 0,394 yang kurang dari 0,5. Sedangkan
konstruk laten PMJS signifikan.Namun nilai 0,394 tersebut masih dapat
ditoleransi karena nilai loading factor minimal adalah 0,5.
Nilai construct reliability (cr) pada konstruk laten KMJS dan PMJS adalah
KMJS = dan PMJS = . Berdasarkan hasil perhitungan ternyata
konstruk laten PMJS memiliki nilai reliabilitas yang tinggi yaitu 0,889. Nilai cr
konstruk laten KMJS masih dibawah 0,7 sehingga tidak memenuhi syarat
reliabilitas. Namun nilai cr KMJS mendekati 0,7 sehingga masih dapat diterima.
Nilai yang mendekati 0,7 disebabkan oleh loading factor minimal adalah 0,5
32
BAB III
PENUTUP
A. Kesimpulan
evaluasi pembelajaran merupakan hal penting yang perlu di perhatikan dan
dilaksanakan dalam proses evaluasi agar tercapai hasil evaluasi yang maksimal
maka kegiatan evaluasi dilaksanakan melalui beberapa tahap yang meliputi:
evaluasi dalam satuan kegiatan, evaluasi setelah beberapa kali pertemuan, dan
evaluasi setelah menyelesaikan pembelajaran. Sesuai dengan hasil penelitian
tentang prosedur evaluasi pembelajaran pada peserta didik dapat diketahui bahwa
kegiatan evaluasi dilakukan melalui beberapa prosedur kegiatan, meliputi:
perencanaan, pelaksanaan, monitoring pelaksanaan evaluasi, pengolahan data,
hasil, dan penggunaan hasil evaluasi.
Reliabilitas mempermasalahkan sejauh mana hasil suatu
pengukuran dapat dipercaya. Suatu hasil pengukuran hanya dapat
yang relatif sama. Penentukan koefisien reliabilitas instrumen untuk
skor butir dikotomi digunakan rumus KR-20, sedang untuk skor
politomi digunakan rumus Alpha. Interpretasi terhadap koefisien
reliabilitas merupakan intrepretasi relatif, artinya tidak ada batasan
mutlak yang menunjukkan berapa angka koefisien minimal yang
harus dicapai agar suatu pengukuran dapat disebut reliabel. Namun,
memberikan informasi tentang hubungan varians skor teramati dengan
varians skor sejati kelompok individu.
B. Saran
Setelah mengetahui sistem evaluasi berbasis komputer dalam pelaksanaan
evaluasi pembelajaran sudah selayaknya teknologi dalam pendidikan mendapat
perhatian yang lebih dari berbagai pihak
33
Dafrat pustaka
Allima Stefiana Insani, Abdul Hoyyi & Rita Rahmawati, 2014. Analisis Faktor-
Faktor Yang Mempengaruhi Kepuasana Mahasiswa Dalam Pemilihan
Jurusan Menggunakan Structuran Equation Modeling (SEM). Jurnal
Gaussian, vol.3, no.4
Arikunto, Suharsmi, 2010. Prosedur Penelitian. Jakarta: PT Bumi Aksara.
Azwar, S. 2015. Metode penelitian. Yogyakarta: Pustaka Pelajar.
Capraro, M. M., R. M. Capraro, dan R. K. Herson, 2001. Measurement Error of
Score on the Mathematics Anxiety Rating Scale Across Sudies.
Educational and Psychological Measurement.
Christiany Suartono dan Clara Moningka, 2017. Pengujian Validitas Dan
Reliabilitas Skala Identitas sosial. Jurnal Humanitas, Vol.2, No.2
Agustus 2017
Crocker, L, dan Algina, J, 2008. Introduction to classical and modern test theory.
Ohio, USA: Cengage Learning.
Djaali., dkk. Pengukuran Dalam Pendidikan. Jakarta: Program
Pascasarjana, 2000.
Geffen, D., D. W. Straub, dan M. D. Boudreau, 2001. “Structural Equation
Modeling and Regression: Guidelines for Research Practice.”
Communications of AIS, Volume 4, Article 7
Gaguk Margono, 2013. Aplikasi analisis faktor konfirmatori untuk menentukan
reliabilittas multidimensi. Statistika, vol.13 No.1
Hancock, G. R., dan R. O. Mueller, 2000. “Rethinking Construct Reliability
within Latent Variable Systems.” Di dalam Stuctural Equation Modeling:
Present and Future, R. Cudek, S. H. C. duToit, dan D. F. Sorbom (Eds.),
Chicago: Scientific Software International.
Ina Magdalena, Hadana Nur Fauzi Dan Raafiza Putri, 2020. Pentingnya Evluasi
Dalam Pembelajaran Dan Akibat Memanipulasinya. Jurnal Pendidikan
Dan Sain; Vol. 2, No. 2
34
Livia Amanda, Feera Yanura, Dodi Devianto, 2019. Uji Validitas Dan Reliabilitas
Tingkat Partisipasi Politik Masyarakat Kota Padang. Jurnal matematika
UNAND, Vol. 7, No. 1, Mei 2019
Kaplan, R. M, dan Saccuzzo, D. P, 2013. Psychological Testing: Principles,
Applications, And Issues. (8th ed). Belmont, CA: Thomson Wadsworth
Khoirul bashooir dan supahar, 2018. Validitas Reliabiitas Instrumen Asesment
Kinerja Literasi Sains Pembelajaran Fisika Berbasis STEM. Jurnal
penelitian dan evaluasi pendidikan, vol.22, no.2, Desember 2018
Lee, S. Y., dan X.Y. Song, 2001. Hyphotesis testing and model comparsion in two
level structural education model. Multivariate behavioral research, vol. 36
no.4
Mahirah B, 2017. Evaluasi belajar peserta didik (siswa). Jurnal idaarah, vol. 1,
no.2 Desember 2017
Mardapi. D, 2012. Pengukuran, Penilain Dan Evaluasi Pendidikan. Yogyakarta:
Nuha Medika
Murphy, K. R., dan Davidshover, C. O,2001. Psychological Testing: Principles
and Applications. (5th Ed). New Jersey: Prentice Hall.
Nana Sudjana, 2014. Penilaian Hasil Proses Belajar Mengajar. Bandung:
PT Remaja Rosdakarya.
Ramayulis, 2002. Metodologi Pendidikan Agama Islam, Kalam Muliah: jakara
2002
Rahmatika Rahayu dan M. Djazari, 2016. Analisis Soal Pra Ujian Nasional Mata
Pelajaran Ekonomi Akuntasin. Jurnal Pendidikan Akuntansi Indonesia,
vol. XIV no.1
Ramli dan Muhammad Idrus, 2019. Evaluasi Pembelajaran Panduan Para
Pengajar Dan Inovator Pendidikan Sekar. Mujahid press. Bandung.
Riduan. (2010). Skala Pengukuran Variabel-variabel Penelitian. Bandung:
Alfabeta
Siti Muslihah Hadi, 2013. Perbandingan Banyak Kategori Respon Terhadap
Reliabilitas Instrumen Diposisi Matematika. Jurnal evaluasi pendidikan
vol.4, no.2
35
Streiner, D. L. 2003. Startingat the beginning an introduction to coefficient alpha
and internal consistency. Journal of Personality Assessment, 80(1),–
103
Sugiyono. (2019). Metode Penelitian Pendidikan (Kuantitatif, Kualitatif,
Kombinasi, R&D dan Penelitian Pendidikan). Bandung: Alfabeta
Sukardi, 2011. Metodologi penelitian pendidikan kompetensi dan praktiknya.
Jakarta: PT Bumi Aksara
Tegar, 2018. Uji Validitas Dan Reliabilitas Test Of Gross Motor Development-2
(TGMD-2) Dale A. Ulrich Pada Anak 9 Tahun. Jurnal of teaching phisical
education in elementary school, Vol.2, No.1
Peters, G. J. Y. (2014). The alpha and the omega of scale reliability and validity:
Why and how to abandon Cronbach’s alpha and the route towards more
comprehensive assessment of scale quality. The European Health
Psychologist,16, 56–69
Widhiarso, Wahyu dan Djemari Mardapi, 2010. Komparasi Ketepatan Estimasi
Koefisien Reliabilitas Teori skor Murni Klasik. Jurnal Penelitiandan
Evaluasi Pendidikan.
Widhiarso, Wahyu, 2009. “Koefisien Reliabilitas pada Pengukuran Kepribadian
yang Bersifat Multidimensi.” Psikobuana, Vol. 1,No1
Zulkifli Matondang, 2009. Validitas Dan Reliabilitas Suatu Instrumen Penelitian.
Jurnal tabularasa pps unimed, vol. 6, no.1 Juni 2009
36

EVALUASI PENDIDIKAN ISLAM

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

EVALUASI PENDIDIKAN ISLAM

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB I

yang terjadi di sekolah atau khusunya di kelas, guru adalah pihak yang paling

lslam telah menggariskan tolak ukur yang serasi dengan tujuan pendidikannya.

Reliabilitas berasal dari kata reliability berarti sejauh mana

b. Dilihat dari segi program pengajaran, evaluasi berfungsi:

berikut: pertama, karakteristik konstruk psikologis yang umumnya bersifat

Menurut Latan (2012) SEM merupakan suatu suatu teknik analisis

dimensi instrumen pengukuran. Teknik ini diperkenalkan oleh Spearman

Reliabilitas konstruk ini memberikan hasil yang sama dengan reliabilitas

∑ λi= 6,040 dan ∑ii-1 – 𝜆i2 = 9,632; jadi

Dari hasil perhitungan di atas dapat dirangkum sebagai berikut:

Perhitungan untuk instrumen di atas diperoleh koefisien alpha Crobach

30 responden dikembalikan lagi ke kelompok masing-masing, kemudian diambil

Gambar 1. Diagram Alur Prosedur Penelitian

Kelompok 1 Kelompok 2 Kelompok 3 Kelompok 4

30 responden 30 responden 30 responden 30 responden

Penghitungan Penghitungan Penghitungan Penghitungan

(r1,r2....r30) (r1,r2....r30) (r1,r2....r30) (r1,r2....r30)

Instrumen dalam penelitian ini menggunakan instrumen disposisi

Tabel 1. Rekapitulasi Statistik Deskriptif Koefisien Reliabilitas

SD 0,037 0,036 0,045 0,055

Instrumen dikatakan realiabel jika koefisien reliabilitas Alfa Cronbach

Berdasarkan hasil penghitungan SPSS diperoleh nilai reliabilitas 0.905.

asilkan di atas 0,70. Jangkauan koefisien corrected item-total correlation dari 16

Keanggotaan 0,81 0,82 0,51 – 0,71 22,42 3,71 4

Hasil reliabilitas, khususnya dengan metode Cronbach’s alpha

bila dilakukan pengukuran kembali terhadap gejala yang sama pada waktu yang

Kuder-Richardson yang dikenal dengan nama KR-20 (Djaali, 2000) dengan

Koefisien reliabilitas gabungan butir untuk skor butir politomi,

Nur dalam zulkifli Interpretasi terhadap koefisien reliabilitas merupakan

suatu pengukuran dapat disebut reliabel. Namun, memberikan

Tujuan utama menghitung reliabilitas skor tes adalah untuk mengetahui

(Suharsimi Arikunto,dalam Rahmatika & Djazari ,2016)

Soal dikatakan reliabel atau memiliki Reliabilitas tinggi apabila koefisien

Tabel 1. Klasifikasi Tingkat Kesukaran

Hasil perhitungan Reliabilitas soal Pra Ujian Nasional Mata Pelajaran

X2 = nilai x yang dikuadratkan

Setelah mendapat koefisien korelasi rxy dilakukan penghitungan signifikan

Koefisien kolerasi Tingkat reliabilitas

Berdasarkan analisis data yang telah dilakukan, telah tergambarkan bahwa

Tabel 3. Hasil Analisis Data Validitas Tes TGMD-2

Tabel ke 1 14,78 1,65 Reliabel ( r hitung ≥ r tabel

Bedasarkan analisis data yang telah dilakukan menggunakan metode test

pertanyaan pada kuesioner tidak valid maka tidak perlu dilanjutkan dengan

Untuk mengetahui nilai Cronbach’s alpha (α), perlu diketahui sebelumnya

Berdasarkan statistik uji reliabilitas didapatkan nilai Cronbach’s alpha (α)

Tabel 3. Distribusi Responden Berdasarkan Kecamatan Domisilinya

Rumus yang digunakan untuk menghitung reliabilitas dari tes kemampuan

Dengan ketentuan klasifikasi reliabilitas instrumen adalah sebagai berikut,

Tabel . Klasifikasi Reliabilitas Instrumen

0.80 – 1.00 Sangat Tinggi

0,600 – 0.799 Tinggi

0.400 – 0. 599 Cukup

0. 200 – 0.399 Rendah

Berdasarkan hasil perhitungan reliabilitas yang telah dilakukan pada soal

Menurut Siregar, reliabilitas bertujuan untuk mengetahui sejauh

dengan k = jumlah butir pertanyaan

Anda mungkin juga menyukai