Tugas 3

Pengertian Construct Validity dan Contohnya | Construct validiy atau validitas konstruk
adalah validitas yang menunjukkan sejauhmana suatu tes mengukur konstruk teori yang
menjadi dasar penyusunan tes itu. Prosedur pengujian validitas konstruk berasal dari hasil
komputasi interkorelasi diantara berbagai hasil test dan kemudian diikuti oleh hasil test dan
kemudian diikuti oleh analisis lebih lanjut terhadap matriks korelasi yang diperoleh,
melalui berbagai metode. Diantara metode yang sering digunakan adalah metode
multirait-multimethod dan analisis faktor. Pengukuran validitas konstruk merupakan
proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai trait (sifat)
yang diukur. Namun, pada situasi-situasi tertentu adanya bukti validitas konstruk mungkin
diperlihatkan. Validitas ini adalah salah satu jenis validitas, menurut yang ditetapkan oleh
American Psycological Association ada 3 jenis validitas yaitu conten validity, construct
validity dan criterion-related validity.
Campbell dan Fiske (1959) mengembangkan suatu pendekatan untuk menguji validitas
konstruk yang disebut multitrait-multimethod. Validitas dengan multitrait-multimethod
digunakan dengan menggunakan lebih dari satu macam metode untuk mengukur lebih dari
satu macam trait.
Contoh perhitungan validitas multitrait-multimethod dikemukakan oleh Alen dan Yen

(Azwar,2005) dengan mengandaikan dengan adanya dua trait, yaitu sifat
introversi dan sifat neurotisme, yang masing-masing diungkap oleh dua macam metode,
yaitu pertama metode jawaban ya-tidak (YT) ddan kedua metode pilihan ganda (PG).
Dalam contoh ini, terdapat empat macam tes. Hasil pelaksanaan empat macam tes tersebut
pada sekelompok siswa yang sama kemudian dikorelasikan satu sama lain dan koefisien-
koefisien korelasinya dimasukkan dalam suatu matriks validitas (perhatikan tabel 1 di
bawah ini)
Tabel 1. Matriks validasi dengan pendekatan multitrait-multimethod

Introversi Neurotisme Introversi Neurotisme
YT YT PG PG
Introversi
(0.80) 0.25 0.78 0.19
YT
Introversi
(0.85) 0.16 0.72
PG
Neurotisme
(0.87) 0.24
YT
Neurotisme
(0.92)
PG
Pada matriks validas tabel 1 di atas, koefisien korelasi antara skor tes dengan dirinya
sendiri tidak dicantumkan sebagai r=1, tetapi digantikan eloh koefisien reliabilitasnya.
Sebagai contoh, koefisien reliabilitas atas skala introversi yang menggunakan metode YT
adalah 0.8 dan dalam matrik diletakan dalam tanda kurung. Dasar pemikiran dalam
validitas dengan pendekatan ini adalah adanya validitas yang baik diperlihatkan oleh
korelasi yang tinggi antara dua pengukuran terhadap trait yang sama oleh dua metode yang
berbeda, atau korelasi yang rendah antara dua pengukuran terhadap trait yang sama oleh
dua metode yang berbeda, atau korelasi yang rendah antara dua pengukuran terhadap trait
10
yang berbeda walaupun menggunakan metode yang serupa. Pada tabel 1, dapat dijelaskan
bahwa skala-skala tersebut menunjukkan hasil ukur yang memiliki validitas konstruk yang
baik. Perhatikan bahwa skala introversi YT dan skala Introversi PG berkolerasi 0.78; skala
neurotisme YT dan Neurotisme PG berkorelasi sebesar 0.72.
Tampak juga pada tabel 1, bahwa korelasi masing-masing skala yang mengukur trait yang
berbeda, kesemuanya rendah. Dalam istilah validitas, skala-skala tersebut memperlihatkan
adanya validitas konvergen dan validitas diskriminan. Validitas konvergen adalah
validitas yang ditunjukkan oleh tingginya korelasi antara skor skala-skala yang mengukur
trait yang sama. Sedangkan validitas diskriminan adalah validitas yang ditunjukan oleh
rendahnya korelasi antara skor skala-skala yang mengukur trait yang berbeda. Pada contoh
tersebut, validitas konvergen dan daya beda diskriminant validity) termasuk dalam kategori
baik. Maka dapat diilustrasikan suatu matriks validasi multitrait-multimethod yang ideal
seperti pada tabel 2 berikut
Tabel 2. Matriks validasi dengan pendekatan multitrait-multimethod

A1 B1 A2 B2
r A1A1 r A1B1 r A1A2 r A1B2
A1
(T) (R) (T) (R)
r B1B1 r B1A2 r B1B2
B1
(T) (R) (T)
r A2A2 r A2B2
A2
(T) (T)
r B2B2
B2
(T)
Keterangan : T=tinggi; R=rendah.
Perhatikan tabel 2 di atas, huruf melambangkan trait dan angka melambangkan metode.
Jadi, A1 dan A2 adalah dua skala yang mengukur trait yang sama, yaitu traut A diukur oleh
dua metode yang berbeda, metode 1 dan metode 2. A1 dan B1 adalah dua macam trait yang
berbeda yang dikuru oleh satu metode yang sama, yaitu metode 1. A1 dan B2
melambangkan mengukur dua trait yang berbeda yaitu trait A dan B yang diukur oleh dua
metode yang berbeda, metode 1 dan metode 2. Korelasi antara setiap variable dengan
dirinya sendiri, yaitu rA1A1, rB1B1, rA2A2, dan rB2B2.
Pendekatan lain untuk menguji validitas konstruk adalah dengan menggunakan analisis
vaktor. Validitas konstruk dilakukan untuk mengetahui sejauh mana tes/instrument
mengungkap suatu trait atau konstruk teoritik yang hendak diukur (Allen & Yen,
1979:108). Pendekatan ini, melibatkan perhitungan statistic yang memiliki persyaratan-
persyaratan yang ketat, dengan melihat hubungan antara variable-variabel dan menjelaskan
saling hubungan tersebut dalam bentuk kelompok variable yang terbatas yang disebut
faktor. Oleh karena itu validitas yang diperoleh melalui pendekatan ini disebut validitas
faktorial.
Prosedur analisis faktor yang dapat digunakan tergantung pada konstruk teori yang
dibangun. Jika seorang pembuat instrument (tes atau nontes) menganggap konstruk teoritis
yang dibangun sudah mapan, maka analisi faktor yang digunakan adalah analisis faktor
11
konfirmatori, tujuannya untuk mengkonfirmasi apakah eori yang dibangun untuk
menyusun instrument tersebut sesuai dengan data empirik atau tidak. Analsis faktor
konfirmatori pada tulisan ini belum bisa kami jelaskan, cukup diketahui gambaran
umumnya saja. Kemudian, jika pembuat instrument merasa konstruk teoritisnya masih
belum mapan, sehingga faktor-faktor yang membangun instrument tersebut belum
teridentifikasi dengan jelas, maka prosedur analisis faktor yang digunakan adalah analisis
faktor eksploratori. Pembuktian validitas konstruk dilakukan dengan menggunakan
analisis faktor eksploratori digunakan untuk mengungkap trait (sifat) atau konstruk teoritis
yang hendak diukur. Dalam arti, untuk mengetahui apakah butir-butir yang telah disusun
menggunakan factor-faktor yang membangun instrument tersebut. Metode analisis faktor
dapat diukur dengan aplikasi SPSS.
12
Apa itu Reliabilitas?
Reliabilitas adalah keakuratan dan ketepatan dari suatu alat ukur dalam suatu prosedur
pengukuran. Berdasarkan bahasa, reliabilitas berasal dari kata reliability yang terdiri dari
kata rely dan ability, artinya sejauh mana hasil suatu pengukuran dapat dipercaya. Suatu
hasil pengukuran dapat dipercaya apabila dalam beberapa kali pelaksanaan pengukuran
terhadap kelompok subyek yang sama, diperoleh hasil pengukuran yang relatif sama,
selama aspek yang diukur dalam diri subyek memang belum berubah.
Reliabilitas
Berikut ini beberapa pengertian dan definisi reliabilitas dari beberapa sumber buku:
 Menurut Sudjana (2005:16), reliabilitas alat penilaian adalah ketepatan atau

keajegan alat tersebut dalam menilai apa yang dinilainya. Artinya, kapanpun alat
penilaian tersebut digunakan akan memberikan hasil yang relatif sama.
 Menurut Mehrens & Lehmann (1973:102), reliabilitas merupakan derajat keajegan
(consistency) di antara dua buah hasil pengukuran pada objek yang sama.
 Menurut Rbel (1986:71), reliabilitas adalah syarat-syarat yang digunakan untuk
menggambarkan salah satu sifat yang paling signifikan dari satu nilai uji dengan
cara yang konsisten.
 Menurut Suryabrata (2000), reliabilitas alat ukur menunjuk kepada sejauh mana
perbedaan-perbedaan skor perolehan mencerminkan perbedaan atribut yang
sebenarnya.
Koefisien reliabilitas mengindikasikan adanya stabilitas skor yang didapatkan oleh

individu, yang merefleksikan adanya proses reproduksi skor. Skor disebut stabil bila skor
yang didapat pada suatu waktu dan pada waktu yang lain hasilnya relatif sama. Makna lain
reliabilitas dalam terminologi stabilitas adalah subjek yang dikenai pengukuran akan
menempati ranking yang relatif sama pada testing yang terpisah dengan alat tes yang
ekuivalen.
Karakteristik Reliabilitas
Sebuah tes dianggap memiliki reliabilitas yang baik apabila memiliki karakteristik sebagai
berikut:
13
1. Reliabilitas merupakan milik dari satu set nilai tes bukan milik tes itu sendiri,
artinya suatu tes dikatakan baik apabila dapat menghasilkan skor yang cukup
akurat, apabila tes tersebut diberikan pada kelas tertentu, maka bisa juga
menghasilkan skor yang cukup konsisten bila diberikan pada kelas yang berbeda
atau ketika diberikan pada kelas yang sama pada waktu yang berbeda.
2. Suatu tes dikatakan reliable jika dua buah tes dilakukan pada jarak waktu yang
berbeda dan menunjukkan skor yang tidak jauh berbeda.
3. Reliabilitas dapat dinyatakan untuk dua atau lebih pengukuran independen yang
diperoleh dari tes yang sama untuk setiap anggota kelompok.
Pengujian Reliabilitas Instrumen
a. Metode tes ulang (tes re-tes estimate reliabelity)
Uji reliabilitas dengan metode tes ulang digunakan untuk mengetahui sejauh mana suatu
pengukuran dapat diandalkan. Uji ini dilakukan sebanyak dua kali, pengukuran pertama
dan ulangnya. Kedua pengukuran dapat dilakukan oleh orang yang sama atau berbeda.
Dalam hal ini perlu diatur bahwa proses pengukuran kedua, keadaan yang diukur itu harus
benar-benar sama. Selanjutnya hasil pengukuran yang pertama dan yang kedua
dikorelasikan dan hasilnya menunjukkan reliabilitas dari tes ini.
Hal penting yang perlu diperhatikan dalam pengukuran reliabilitas tes ulang adalah; 1).
jangka waktu antara kedua pengambilan penilaian, 2). stabilitas yang diharapkan dari
kinerja yang diukur. Secara umum, semakin lama antara interval pelaksanaan tes yang
berulang, semakin rendah tingkat reliabilitasnya. Pendekatan tes ulang merupakan
pemberian perangkat tes yang sama terhadap sekelompok subjek sebanyak dua kali dengan
selang waktu yang berbeda. Asumsinya adalah bahwa skor yang dihasilkan oleh tes yang
sama akan menghasilkan skor tampak yang relatif sama.
Estimasi reliabilitas dengan pendekatan tes ulang akan menghasilkan koefisien stabilitas
(stability). Untuk memperoleh koefisien reliabilitas melalui pendekatan tes ulang dapat
dilakukan dengan menghitung koefisien korelasi linier antara distribusi skor subyek pada
pemberian tes pertama dengan skor subjek pada pemberian tes kedua.
b. Metode Bentuk Paralel (Equivalent)
Tes paralel atau tes equivalent adalah dua buah tes yang mempunyai kesamaan tujuan,
tingkat kesukaran dan susunan tetapi butir-butir soalnya berbeda, dalam istilah bahasa
Inggris disebut alternate-forms method (parallel forms).
X
Pengujian reliabilitas instrument dengan cara ini cukup dilakukan sekali, tetapi
instrumennya dua, pada responden yang sama, waktu sama, instrument berbeda.
Reliabilitas instrument dihitung dengan cara mengkorelasikan antara data instrument yang
satu dengan data instrument yang dijadikan ekuivalen. Bila korelasi positif dan signifikan,
maka instrument dapat danyatakan reliable.
14
Kelemahan dari metode ini adalah bahwa pengetes pekerjaannya berat karena harus
menyusun dua seri tes. Lagipula harus tersedia waktu yang lama untuk mencobakan dua
kali tes.
c. Metode Gabungan (paralel form and alternative form reliability estamete)
Pengujian reliabilitas ini dilakukan dengan cara mencobakan dua instrument yang
ekuivalen itu beberapa kali, ke responden yang sama. Reliabilitas instrument dilakukan
dengan mengkorelasikan dua instrument, setelah itu dikorelasikan pada pengujian kedua
dan selanjutnya dikorelasikan silang. Jika dengan dua kali pengujian dalam waktu yang
berbeda maka akan dapat dianalisis keenam koefesien reliabilitas. Bila keenam koefesien
korelasi itu semuanya positif dan signifikan maka dapat dinyatakan bahwa instrument
tersebut reliable.
Rumus Reliabilitas Instrumen
Terdapat beberapa rumus dalam pengujian reliabilitas instrumen, antara lain; Spearman
Brown, Flanagan, Rulon, Kuder Richardson (KR) dan Cronbanch Alpha.
a. Rumus Spearman-Brown
Rumus Spearman-Brown
Keterangan:
ri = reliabilitas instrument
rb = indeks korelasi antara dua belahan instrument
N = banyaknya responden
X = belahan pertama
Y = belahan kedua
b. Rumus Flanagan
15
Rumus Flanagan
Keterangan:
BACA JUGA
 Populasi dan Sampel Penelitian (Pengertian, Proses, Teknik Pengambilan dan

Rumus)
 Pengertian dan Jenis Skala Pengukuran dalam Penelitian
 Pengertian dan Jenis-jenis Variabel Penelitian
 Karakteristik, Jenis dan Prosedur Penelitian Kualitatif
 Pengertian, Jenis dan Identifikasi Plagiarisme
v1 = varians belahan pertama (varian skor butir-butir ganjil)
v2 = varians belahan kedua (varian skor butir-butir genap)
vt = varians skor total
c. Rumus Rulon
Rumus Rulon
Keterangan:
Vt = varians total atau varians skor total
Vd = varians (varians difference)
d = skor pada belahan awal dikurangi skor pada belahan akhir
d. Rumus KR 20
Rumus KR 20
16
Keterangan:
k = banyaknya butir pertanyaan atau banyaknya soal
pi = proporsi subjek yang menjawab betul pada suatu butir (proporsi subjek yang
mendapat skor 1)
e. Rumus KR 21
Rumus KR 21
Keterangan:
p = skor rata-rata
f. Rumus Cronbanch Alpha
Rumus Cronbanch Alpha

Keterangan:
ri = reliabilitas instrumen
17
. Validitas Prediktif
Validitas tes berdasarkan kriteria yakni umumnya tes yang akan diuji validitasnya disebut
prediktor. Statistik yang diperlukan untuk pengujian validitas ini adalah koefisien korelasi
antara skor tes sebagai prediktor dan skor suatu kriteria. Mardapi (2004) mengatakan
bahwa prosedur guna mencapai criterion-related validity menghendaki adanya kriteria
eksternal yang dapat dihubungkan dengan skor tes yang diuji validitasnya. Kriteria dalam
hal ini adalah variabel perilaku yang akan diprediksi oleh skor tes. Koefisien korelasi
antara skor tes (X) dengan kriteria (Y) merupakan koefisien validitas yang menunjukkan
kekuatan validitas prediktif suatu tes.
Pembaca, apabila skor kriteria validasi merupakan skor yang hendak di prediksi oleh tes
dan karenanya baru dapat diperoleh setelah tenggang waktu tertentu setelah tes dikenakan,
maka prosedur validasi berdasar kriteria akan menghasilakan sebuah statistik yang disebut
koefisien validitas prediktif (Azwar, 2004). Selanjutnya, Azwar memberikan ilustrasi
sebagai berikut: Tes A dirancang sebagai alat seleksi dalam memilih calon operator
komputer yang akan diterima diantara sekian banyak pelamar. Pemilihan calon yang akan
diterima harus berdasarkan prediksi bahwa mereka yang akan diterima akan berhasil dalam
pekerjaannya. Misalnya tes A mengukur kemampuan psikologis tertentu, misalnya
motivasi, jadi skor tes A merupakan predictor keberhasilan kerja. Kalau tes A memang
baik sebagai alat prediksi keberhasilan kerja, pastilah pelamar yang diterima bekerja,
karena skornya tinggi pada tes A, akan berhasil nantinya dalam pekerjaan mereka. Berhasil
18
dalam arti, memiliki ukuran-ukuran keberhasilan. Misal keberhasilan iu dapat diketahui
dari hasil rating yang dilakukan oleh asesor setelah mereka bekerja.
Untuk dapat menguji validitas prediktif tes A, diperlukan skor hasil rating dari asesor
setelah pelamar yang diterima bekerja. Prosedurnya adalah menghitung korelasi antara
skor yang diperoleh pelamar pada saat dites (skor motivasi) dengan tes A dengan skor
hasil rating assessor. Semakin tinggi korelasi antara kedua skor tersebut, maka semakin
baik validitas prediktif tes A tersebut.
Selanjutnya, sekadar untuk mengingatkan bahwa validitas prediktif diuji dengan cara
menghitung kecocokan antara skor-tampak tes (skor pelamar pada saat diseleksi) dan skor
kriterianya (skor hasil rating assessor setelah bekerja). Akan tetapi, dalam berbagai hal
sering terjadi apa yang disebut retriksi sebaran (retriction of range) baik pada distribusi
skor tes sebagai prediktor maupun pada distribusi skor kriteria.
Contoh lain misalnya, skor tes masuk perguruan tinggi yang mana sebagian besar calon
mahasiswa dikenai tes (SBMPTN) masuk yang pada dasarnya adalah prediktor terhadap
keberhasilan belajar mereka setelah menjadi mahasiswa. Mereka yang mencapai skor
tertentu dapat diterima dan diperbolehkan belajar di perguruan tinggi, sedangkan sisanya
ditolak. Karena tes masuk tersebut dirancang guna membedakan antara mereka yang
memiliki kemungkinan besar untuk berhasil dalam belajar di perguruan tinggi dan yang
tidak, maka selayaknya bila kriteria yang dipakai sebagai indikator keberhasilan itu adalah
indeks prestasi (IP) mereka setelah beberapa semester menjadi mahasiswa. Hanya saja,
karena tidak semua calon mahasiswa dapat diterima maka skor kriteria hanya dapat
diperoleh dari mereka yang diterima menjadi mahasiswa saja, jadi merupakan sampel yang
relatif homogen karena hanya diambil dari ujung distribusi skor tes masuk. Jadi, korelasi
antara skor prediktor dan skor kriteria hanya dapat dihitung berdasar data sampel yang
relative terbatas heterogenitasnya.
Bagaimana efek restrisik sebaran ini terhadap koefisien validitas? Bila skor prediktor
adalah X dan skor kriteria adalah Y, korelasi antara X dan Y adalah rXY yang merupakan
koefisien validitas prediktif tes X. Hubungan antara rXY dan kesalahan standar
estimasi (standard error of estimate) dilukiskan sebagai :
s YX = s y  1- r 2 xy
r 2 XY = 1 – s 2 y . x / s2y
Keterangan :
s Y X = kesalahan standar estimasi X terhadap Y, yaitu deviasi standard distribusi Y untuk
harga X tertentu
s y = Deviasi standar skor criteria Y (distribusi marginal)
r XY = Koefisien korelasi antara perdiktor X dan criteria Y.
Dengan asumsi homoscedasticity, maka harga s Y X akan mengecil akibat restriksi

sisematis yang terjadi, sedangkan harga s 2 y . x / s2y akan membesar dan r 2 XY akan
mengecil. Jadi koefisien validitas r XY menjadi rendah. Secara umum dapat dikatakan
19
bahwa restriksi sebaran yang menjadikan varasi skor murni prediktor kecil akan
menghasilkan underestimasi terhadap koefisien validitas yang sesungguhnya. Tabel
berikut, diberikan contoh perhitungan validitas prediktif, tes A yang digunakan untuk
seleksi dalam penerimaan operator komputer.
Tabel 1. Ilustrasi Pengujian Validitas Prediktif

Hasil rating
Nama subjek Skor Tes Masuk
assessor setelah
yang diterima (X)
bekerja (Y)
Asep 112 9
Begi 107 9
Dayat 98 7
Ebi 99 4
Hendrik 112 10
Ismu 105 9
Iwan 107 8
Kahar 100 7
Rustam 105 7
Wasis 110 9
Korelasi antara skor tes A dengan skor kriteria, r XY =0.81
Tampak pada tabel 1, besarnya korelasi antara skor masuk tes A (X) dengan skor ratting
assessor (Y) adalah r XY =0.81. ini menunjukkan bahwa tes A memiliki validitas prediktif
yang baik. Selanjutnya, dapat dihitung kesalahan standar estimasi skor X terhadap skor Y,
dengan terlebih dahulu menghitung standar deviasi skor kriteria s y = 1.73. Subsitusikan
nilai r XY dan s y pada persamaan
s YX = s y  1- r 2 xy
s YX = (1.73)  1- 0.81
s YX = 0.0145
Jadi kesalahan standar estimasi sebesar 0.0145. Angka ini menunjukkan bahwa kesalahan
standar estimasi masih tergolong dapat ditolerir.
2. Validitas Konkuren
Pada dasarnya, dalam menyusun dan mengembangkan instrumen psikologi, pengujian
validitas suatu instrument dala menjalankan fungsi ukurnya seringkali dapat dilakukan
dengan melihat sejauh mana kesesuaian antara hasil ukur instrumen tersebut dengan hasil
ukur instrumen lain yang sudah teruji kualitasnya atau dengan ukuran-ukuran yang
dianggap dapat menggambarkan aspek yang diukur tersebut secara reliabel. Dalam kasus
seperti ini, instrumen yang telah teruji validitasnya atau ukuran yang dianggap tepat
berlaku sebagai kriteria validasi.
Untuk keperluan pengujian validitasnya, instrumen yang mau diuji validitas konkurennya
harus diambil dari kelompok subjek yang sama dengan instrumen yang telah teruji
validitasnya. Korelasi antara skor subjek yang diperoleh dengan instrumen yang mau diuji
validitasnya dengan skor subjek yang diperoleh dengan instrumen yang sudah diuji
20
validitasnya, menunjukkan kekuatan validitas konkuren instrumen tersebut. Semakin tinggi
koefisien korelasinya (mendekati 1), maka semakin baik validitas konkurennya.
Untuk memperjelas konsep perhitungan validitas konkuren, misalnya kita ingin menguji
validitas konkuren instrument sikap terhadap mata pelajaran matematika yang disusun oleh
lembaga tertentu (kita sebut tes X). sebagai kriterinya, kita ambil instrumen sikap terhadap
matematika (The Attitudes Toward Mathematics Inventory-ATMI) yang dikembangkan
oleh McLeod (1992) yang telah teruji validiasnya (kita sebut tes Y). Kedua instrumen
tersebut diujikan pada sekelompok siswa (misalnya 10 orang siswa), dengan skor masing-
masing seperti pada tabel 2.
Tabel 2. Ilustrasi Pengujian Validitas Konkuren

Nama Subjek Skor Tes X Skor Tes Y
Afiq 78 64
Enkawet 76 62
Ika 68 56
Leo 42 40
Peldi 58 62
Rifly 70 64
Surya 56 62
Uya 64 48
Yaya 54 48
Yusuf 46 38
Korelasi antara skor tes X dengan skor tes Y, r XY =0.86
Tampak pada tabel 2, hasil perhitungan atas data fiktif untuk kedua tes X dan tes Y,
diperoleh korelasi antara tes X dengan tes Y sebagai kriteria, yaitu r XY =0.86. angka 0.86
merupakan koefisien validitas tes X. Azwar (2004) menyatakan bahwa ada perbedaan
antara validitas prediktif dengan validitas konkuren, yaitu :
 Waktu pengambilan data : pada validitas prediktif data yang dijadikan sebagai
kriteria diperoleh setelah tenggang waktu tertentu sedangkan data validasi konkuren
diperoleh bersama dengan data prediktornya;
 Fungsi dari kriterianya : pada validasi prediktif kriterinya merupakan variabel
perilaku yang hendak diprediksikan oleh tes sedangkan pada validasi konkuren kriterianya
merupakan ukuran kesesuaian fungsi ukur tes yang bersangkutan. Dengan kata lain,
kriteria pada validasi prediktif sudah diketahui terlebih dahulu sedangkan pada validasi
konkuren menentukan kriteria yang layak tidak selalu mudah dilakukan.
21
BAB II
KAJIAN PUSTAKA
A. Kajian Teori
1. Pengertian Reliabilitas
Reliabilitas berasal dari kata reliability dalam bahasa inggris,
yang berasal dari kata reliable yang berarti dapat dipercaya. Raliabilitas
disebut juga keandalan, konsisitensi, stabilitas atau dependability (Azwar,
2018: 7; Cohen et al., 2007: 146). Reliabilitas menunjukkan tingkat atau
22
derajat keajegan/konsistensi hasil pengukuran suatu instrumen pada
waktu kapanpun ataupun pada subjek yang berbeda (Azwar, 2018: 7;
Carmines & Zeller, 1979: 11; Cohen et al., 2007: 147; Faralina, Kadri, &
Yap, 2016:
48; Franzen, 2002: 7; Garson, 2013: 28; Mardapi, 2017: 46; Wantah,
2010: 132). Oleh karena itu, reliabilitas suatu instrumen harus diestimasi
untuk menunjukkan tingkat konsistensinya.
Reliabilitas tidak bisa diketahui secara tepat atau pasti. Hal ini
dikarenakan, reliabilitas merupakan suatu derajat atau tingkat,
bukanlah sesuatu yang pasti atau mutlak (Onwuegbuzie & Daniel, 2002:
89). Sebuah pernyataan menyebutkan bahwa “reliability is essentially a
synonym for dependability, consistency, and replicability over time, over
instruments and over groups of respondents” (Cohen et al., 2007: 199).
Maksudnya, reliabilitas pada dasarnya adalah sinonim untuk keandalan,
konsistensi, dan kemampuan meniru dari waktu ke waktu, dengan
satu
23
atau lebih instrumen dan satu atau lebih kelompok responden.
Reliabilitas dapat disebut juga dengan tingkat/derajat dimana prosedur
pengukuran menghasilkan jawaban yang sama kapanpun dan dimanapun
ini diambil (Kirk & Miller, 1986: 19). Dalam buku Introduction to
Measurement Theory (Allen & Yen, 1979: 72), disebutkan terdapat
berbagai cara untuk mendefinisikan atau menginterpretasikan reliabilitas
tes. Sebagai contoh, sebuah tes adalah reliable jika skor amatan
(observed score) berkorelasi tinggi dengan skor sebenarnya (true score).
Sehingga, dari beberapa uraian mengenai pengertian reliabilitas, dapat
disimpulkan bahwa reliabilitas merupakan tingkat atau derajat
keajegan/konsistensi hasil pengukuran suatu instrumen pada waktu
kapanpun dengan kondisi yang sama ataupun pada subjek yang berbeda
pada waktu dan kondisi yang sama.
2. Macam-Macam Reliabilitas
Secara garis besar reliabilitas dapat dibagi menjadi 3 kelompok,
yaitu stability consistency, internal consistency, dan inter-rater
consistency (Allen & Yen, 1979: 77-83; Azwar, 2018: 51-88; Cohen et al.,
2007: 146-147; Mardapi, 2017: 47). Stability consistency dilakukan
dengan melakukan tes sebanyak dua kali (pengulangan test)
menggunakan instumen yang sama dan pada subjek yang sama (atau
pada subjek yang berbeda tetapi dengan karakteristik yang sama).
Stability consistency juga dapat dilakukan dengan metode tes yang
paralel, yaitu dua buah tes yang paralel (mengukur konstruk dan
karakterisik yang sama) kemudian digunakan pada dua kelompok

24
subjek yang sama pada sekali waktu.
25
Reliabilitas yang kedua yaitu kelompok internal consistency. Pada internal
consistency, tes hanya dilakukan satu kali dengan satu instrumen.
Sedangkan, inter-rater consistency dilakukan berdasarkan hasil penilaian
beberapa ahli terhadap instrumen yang dibuat.
3. Internal Consistency
Reliabilitas berdasarkan internal consistency diestimasi hanya
menggunakan satu kali tes, dan hal ini untuk menghindari masalah yang
berhubungan dengan pengulangan tes ataupun tes bentuk paralel (Allen
& Yen, 1979: 78; Azwar, 2018: 59; Cohen et al., 2007: 147; Mardapi,
2017:
54; Retnawati, 2016: 88). Koefisien reliabilitas internal consistency
merupakan sebuah hasil dari pengukuran latent trait (Viladrich, Angulo-
brunet, & Doval, 2017: 755). Sampel yang sangat besar dari peserta akan
mengungkapkan internal consistency yang sangat baik (Daniel, Sadek, &
Langdon, 2018: 2). Pengukuran internal consistency dari reliabilitas
tidak tepat untuk penggunaan pada tes yang heterogen (mengukur
beberapa trait), sehingga hanya tepat digunakan untuk tes yang
mengukur satu laten trait (Allen & Yen, 1979: 83). Internal
consistency dilakukan cukup menggunakan 1 kali tes, sehingga
menghindarkan dari kekhawatiran yang timbul akibat pengulangan tes.
Apabila pendekatan internal consistency telah ditetapkan, maka
pendekatan test-retest tidak perlu dilaksanakan (Holden & Bernstein,
2013: 947).
26
Internal consistency dapat dilakukan menggunakan 3 pendekatan,
yaitu paralel klasik, τ-equivalent, dan konginerik. Pendekatan
27
menggunakan paralel klasik memiliki asumsi bahwa kedua belahan tes
adalah paralel (memiliki varians belahan yang sama dan rerata kedua
belahan yang sama). Pendekatan τ-equivalent memiliki asumsi bahwa
kedua belahan tes memiliki varians yang sama dan rerata kedua belahan
tidak sama. Pendekatan konginerik digunakan ketika kedua belahan tidak
memiliki varians dan rerata yang sama.
4. τ-Equivalent
Pada τ-equvalent (tau-equivalen) terdapat berbagai teknik estimasi
reliabilitas. Pada pendekatan ini terdapat asumsi yang mendasarinya.
Asumsi tersebut adalah varians kedua belahan haruslah homogen atau
sama dan rerata kedua belahan tidak sama.
Varians kedua belahan yang homogen sudah menjadi asumsi bagi
pendekatan τ -equvalent. Saat kita membagi menjadi dua belahan
sangat mungkin bahwa kedua belahan tersebut tidak homogen. Padahal pada
beberapa teknik estimasi reliabilitas menyebutkan bahwa apabila varians
kedua belahan tidak homogen, maka akan terjadi underestimate. Oleh
karena itu diperlukan juga uji homogenitas varians untuk memastikan
homogenitasnya agar tidak terjadi underestimate dan memenuhi asumsi τ -
equvalent. Uji homogenitas dalam dunia pendidikan biasanya
menggunakan taraf signifikansi 0.05 (=0.05), demikian pula dalam
penelitian ini.
28
5. Faktor-Faktor yang Mempengaruhi Reliabilitas
Beberapa hal dapat mempengaruhi reliabilitas suatu instrumen.
Hal-hal yang mempengaruhi reliabilitas tersebut dapat menghasilkan
koefisien yang lebih tinggi ataupun rendah. Banyak ahli yang
menyebutkan faktor-faktor tersebut. Beberapa hal tersebut diantaranya
adalah panjang tes, persebaran skor, tingkat keobjektivan dari penskoran,
heterogenitas grup, kemampuan pengambil tes, dan sebagainya
(Onwuegbuzie & Daniel, 2002: 92-93). Sedangkan menurut ahli lain,
faktor-faktor yang dapat mempengaruhi reliabilitas yaitu panjang tes,
kecepatan waktu pengerjaan, homogenitas grup, kesulitan dari butir-butir
tes, dan objektivitas (Mehrens & Lehman, 1991: 258).
Beberapa teknik estimasi reliabilitas menghasilkan koefisien yang
berbeda walaupun diterapkan pada data yang sama. Hal ini dikarenakan
terdapat beberapa faktor yang dapat mempengaruhi hasil estimasi
reliabilitas. Beberapa faktor tersebut, menurut Azwar (Azwar, 2018: 93)
adalah perbedaan konsep atau dasar pikiran yang melandasi ide dasar
terbentuknya suatu formula, sifat distribusi skor item atau skor tes,
varians antar belahan tes, dan sebagainya.
Banyak faktor yang dapat mempengaruhi koefisien estimasi
reliabilitas. Faktor-faktor tersebut secara umum adalah sebagai berikut.
a. Panjang Tes
Semakin panjang tes (banyak jumlah itemnya), maka semakin
tinggi koefisien estimasi reliabilitasnya. Koefisien reliabilitas
29
meningkat ketika panjangnya tes ditingkatkan menjadi k kali lipat
(Mardapi, 2017: 42).
b. Varians item dalam tes
Hal ini berpengaruh terhadap hasil estimasi reliabilitas untuk
teknik yang menggunakan metode belah sebanyak item, seperti
teknik estimasi reliabilitas menggunakan KR-20 dan KR-21.
c. Varians belahan tes
Varians skor pada masing-masing belahan dan varians dari skor
total tes digunakan untuk mengestimasi reliabilitas dari tes akan
memepengaruhi hasil estimasi reliabilitas (Allen & Yen, 1979: 83).
Hal ini paling berpengaruh pada teknik estimasi reliabilitas
menggunakan metode belah dua. Karena dalam teknik estimasi
reliabilitas menggunakan metode belah dua, kebanyakan menggunakan
varians masing-masing belahan, varians total, ataupun kovarian
untuk menghitung koefisien reliabilitasnya.
d. Tingkat kesulitan (TK) dari butir-butir tes
TK dalam hal ini mempengaruhi hasil perhitungan varians
item. Hal ini terutama terlihat jelas pada data dikotomus, karena pada
data dikotomus proporsi menjawab benar (p) dikalikan proporsi
menjawab salah (q = 1-p) sama dengan varians item.
30
e. Objektivitas penskoran
Objektivitas penskoran sangatlah penting. Jika penskoran
tidak objektif, maka tidak dapat menggambarkan reliabilitas
instrumen yang digunakan karena terpengaruh oleh subjek yang
memberi skor.
Faktor-faktor yang mempengaruhi estimasi reliabilitas perlu
diketahui agar hasil estimasi reliabilitas lebih terpercaya. Selain itu,
estimasi koefisien reliabilitas perlu mengetahui syarat-syarat atau asumsi
yang berlaku agar tidak terjadi estimasi yang sembarangan. Ketika tanpa
memperhatikan syarat atau asumsi yang berlaku, untuk beberapa teknik
estimasi reliabilitas bisa saja akan menghasilkan koefisien reliabilitas yang
hampir sama. Jika dalam hal ini, penerapan teknik estimasi reliabilitas
yang tidak memenuhi asumsinya atau beberapa syaratnya, maka
seharusnya hasil estimasinya tidak dapat digunakan untuk
menginterpretasikan reliabilitas suatu tes.
6. Berbagai Teknik Estimasi Reliabilitas dalam
Pendekatan τ- equivalent
Teknik estimasi yang akan dibandingkan yaitu teknik estimasi
reliabilitas dalam internal consistency menggunakan pendekatan τ-
equivalent. Berikut ini rumus-rumus yang digunakan untuk estimasi
reliabilitas.
a. Flanagan
Rumus Flanagan untuk estimasi koefisien reliabilitas adalah
31
sebagai berikut ini (Mardapi, 2017: 61).
32
= (1)
Keterangan:
: Koefisien estimasi relibilitas rumus Flanagan
: Kovarian antara kedua belahan tes
: Varians skor tes total
b. Guttman
Rumus Guttman yang digunakan untuk estimasi koefisien
reliabilitas adalah sebagai berikut ini (Mardapi, 2017: 61).
= 2 1− (2)
Keterangan:
: Koefisien estimasi reliabilitas rumus Guttman
: Varians skor keseluruhan tes
: Varians skor belahan pertama
: Varians skor belahan kedua
c. Rulon
Rumus Rulon merupakan salah satu teknik estimasi reliabilitas
dalam pendekatan τ-equvalent. Teknik estimasi reliabilitas dengan
rumus Rulon tanpa perlu berasumsi bahwa kedua belahan mempunyai
varians yang sama (Mardapi, 2017: 61). Hal ini berarti, rumus Rulon
dapat diterapkan pada dua belahan yang mempunyai varians sama
33
ataupun tidak. Rumus Rulon yang digunakan untuk estimasi koefisien
reliabilitas yaitu sebagai berikut (Azwar, 2018: 72; Mardapi, 2017:
61).
=1− (3)
Keterangan:
: Koefisien estimasi reliabilitas menggunakan rumus Rulon
: Varians distribusi perbedaan kedua belahan tes
: Varians distribusi skor total
d. Koefisien Alpha
Koefisien Alpha merupakan suatu ukuran internal consistency
dari skor pada tes multiple-item yang mengukur satu latent trait
(Rossiter, 2011: 24). Koefisien Alpha dapat digunakan untuk estimasi
reliabilitas dengan metode belah dua. Apabila kedua belahan tes tidak
paralel, maka lebih tepat menggunakan Koefisien Alpha untuk
estimasi reliabilitasnya (Mardapi, 2017: 62). Indeks Koefisien Alpha
akan meningkat, jika kita menambah jumlah item (Anastasiadou, 2011:
3). Jika teknik Koefisien Alpha diterapkan pada tes yang isinya
mengukur beberapa trait, maka akan dihasilkan koefisien reliabilitas
yang tidak cermat (Azwar, 2018: 95-96). Koefisien Alpha jika
digunakan untuk pengukuran model konginerik, maka akan
menghasilkan underestimate terhadap reliabilitas yang sebenarnya
(Olivares et al., 2010: 620). Jadi, Koefisien Alpha paling tepat
digunakan pada pengukuran model τ -equivalent (varians kedua

34
belahan homogen dan rerata tidak sama). Rumus Koefisien Alpha yang
35
digunakan untuk estimasi koefisien reliabilitas dengan metode belah
dua adalah sebagai berikut ini (Allen & Yen, 1979:

83).
∑ (4)
=
Keterangan:
α : Koefisien estimasi reliabilitas rumus Koefisien Alpha
N : Jumlah komponen tes/belahan tes
: Varians belahan ke - i
: Varians skor total
Y : observed score dari tes yang terdiri dari N komponen.
e. Kuder Richardson-20
Kuder Richardson – 20 (KR-20) merupakan rumus yang
dikembangkan oleh Kuder dan Richardson pada tahun 1937 (Allen &
Yen, 1979: 84). Nama lain dari rumus ini adalah Koefisien Alpha –
20 (-20). Ketika sebuah koefisien internal konsistensi dibutuhkan
untuk dilaporkan, hanya menyajikan KR-20 dan Alpha Cronbach
tidaklah cukup (Tan, 2009: 108). Hal ini sesuai dengan yang
disampaikan oleh Azwar dan Mardapi (Azwar, 2018: 95; Mardapi,
2017: 63) bahwa teknik estimasi Koefisien Alpha dan formula-
formula Kuder- Richardson semua merupakan batas bawah
reliabilitas dan merupakan underestimate terhadap reliabilitas murni
atau reliabilitas yang sebenarnya. Rumus KR-20 yang digunakan
untuk estimasi koefisien
36
reliabilitas adalah sebagai berikut ini (Allen & Yen, 1979: 84; Azwar,
2018: 73; Finch & French, 2015: 180; Mardapi, 2017:

65).
∑ ( ) (5)
− 20 =
Keterangan:
KR-20 : Koefisien estimasi reliabilitas rumus KR-20
: Proporsi subjek yang menjawab benar
: Varians skor total tes
: Banyaknya item/butir tes
f. Kuder Richardson -21
Rumus KR-21 yang digunakan untuk estimasi koefisien
reliabilitas adalah sebagai berikut ini (Allen & Yen, 1979: 84;
Azwar,
2018: 75; Mardapi, 2017: 65).
( )
− 21 = (6)
Keterangan:
− 21 : Koefisien estimasi reliabilitas rumus KR-21
: jumlah butir soal
P : Rerata proporsi subjek yang mendapat nilai 1 pada setiap
item
: Varians skor total
7. Standard Error of Measurement

37
Reliabilitas suatu instrumen berkaitan atau berhubungan dengan
kesalahan pengukuran (Samritin & Suryanto, 2016: 99). Semakin
reliable
38
suatu instrument, maka semakin sedikit kesalahan pengukuran yang terjadi.
Standard error of measurement (kesalahan pengukuran) disimbolkan
dengan . Standard error of measurement (SEM) digunakan untuk
mengukur besarnya kesalahan yang terjadi pada pengukuran yang berlaku
untuk grup tanpa memperhatikan skor yang didapatkan oleh seseorang
(Mardapi, 2017: 84). SEM ( ) diasumsikan sama untuk semua examinee
dalam sampel, sehingga kita dapat mengestimasinya menggunakan rumus
sebagai berikut.
= = 1− (7)
Keterangan:
: estimasistandard error of measurement
: standard deviasi dari observed score.
: koefisien reliabilitas
Jika = 0 , maka observed score dari seorang examinee akan
sama dengan true score dari examinee tersebut (Allen & Yen, 1979: 89).
Jadi, semakin kecil nilai SEM, maka semakin tepat pengukuran yang
terjadi. Dalam penelitian ini, apabila nilai SEM yang dihasilkan
berdasarkan suatu koefisien reliabilitas lebih kecil daripada SEM yang
lainnya dengan data yang sama, maka teknik estimasi reliabilitas tersebut
dikatakan lebih baik daripada teknik estimasi reliabilitas yang
menghasilkan SEM lebih besar.
39
B. Penelitian yang Relevan
Sebelum penelitian ini, tentu telah diadakan beberapa penelitian
dalam tema yang sama dengan penelitian ini. Namun, tentunya terdapat
persamaan dan perbedaan, serta beberapa masukkan dan kelemahan dari
penelitian sebelumnya. Peneliti mengkaji beberapa penelitian.
Beberapa ulasan mengenai penelitian terdahulu dengan
penelitian ini adalah sebagai berikut ini. Penelitian yang dilakukan oleh
Westrick (2017), yang berjudul Reliability Estimates for Undergraduater
Grade Point Average (Estimasi Reliabilitas untuk IPK Sarjana). Penelitian
yang dilakukan oleh Westrick dan penelitian ini memiliki persamaan dan
perbedaan. Persamaan penelitian Westrick dengan penelitian ini adalah
sama-sama membandingkan teknik estimasi reliabilitas menggunakan
koefisiennya. Sedangkan, perbedaannya pada data yang digunakan, pada
penelitian Westrick menggunakan data rerata IPK untuk masing-masing
perguruan tinggi, sedangkan penelitian ini akan menggunakan data
bangkitan agar dapat memastikan asumsi yang berlaku
untuk teknik estimasi reliabilitas terpenuhi.
Westrick tidak menyebutkan atau membuktikan homogenitas dari
masing-masing belahan. Sedangkan pada penelitian ini, belahan pertama dan
belahan keduaakan dibuktikan homogenitasnya jika ingin menggunakan
teknik estimasi reliabilitas menggunakan pendekatan τ -equivalent. Selain itu,
dalam penelitian ini juga akan dipastikan validitas faktornya
(unidimentionallity) dengan Exploratory Factor Anlysis (EFA) dengan
bantuan SPSS. Penelitian sekarang ini juga akan mencari tahu apakah terdapat
40
perbedaan koefisien reliabilitas dari berbagai teknik dengan memberikan
kontrol perlakuan yang sama yaitu memenuhi asumsinya.
Penelitian yang dilakukan oleh Sarwiningsih(2017), yang berjudul
Komparasi Ketepatan Estimasi Koefisien Reliabilitas Tes Ujian Nasional
Kimia Provinsi Jambi Tahun Ajaran 2014/2015. Penelitian yang dilakukan
oleh Sarwiningsih dengan penelitian ini memiliki persamaan dan perbedaan.
Persamaan dari kedua penelitian ini yaitu, membandingkan teknik estimasi
reliabilitas melalui koefisien yang didapatkan pada internal consistency.
Perbedaannya, pada penelitian Sarwiningsih menggunakan metode belah dua
(split-half, yaitu Rumus Spearman-Brown, Flanagan, dan Rulon), Koefisien
Alpha, dan formula Kuder-Richardson. Untuk semua koefisien yang
didapatkan dari teknik estimasi reliabilitas dibandingkan. Padahal asumsi yang
berlaku untuk teknik estimasi reliabilitas menggunakan Spearman-Brown
berbeda dengan yang lainnya. Sedangkan pada penelitian ini, hanya
membandingkan koefisien dari teknik estimasi reliabilitas dengan asumsi
penggunaan yang sama. Grup pertama terdiri dari teknik estimasi reliabilitas
menggunakan rumus Flanagan, Guttmans, Rulon, dan Koefisien Alpha.
Grup kedua yang akan dibandingkan yaitu yang menggunakan teknik
estimasi reliabilitas KR-20 dan KR-21. Dalam pelitian ini akan
diikutsertakan rumus guttmans, dimana dalam penelitian Sarwiningsih tidak
ada.
Dalam penelitian Sarwiningsih, untuk penggunaan teknik estimasi
belah dua, tidak ditunjukkan atau dibuktikan homogenitas varians kedua
belahan. Dalam penelitian ini akan diadakan uji homogenitas varians antara
41
kedua belahan. Sumber data dalam penelitian Sarwiningsih didapatkan dari
Pusat Penelitian Pendidikan (PUSPENDIK), berupa respon butir peserta Ujian
Nasional Kimia SMA Tahun Ajaran 2014/2015. Sedangkan penelitian ini akan
digunakan data bangkitan menggunakan aplikasi WinGen.
Penelitian yang dilakukan oleh Setiawati, Mardapi, dan Azwar
(2013), dengan judul Penskalaan Teori Klasik Instrumen Multiple
Intelligences Tipe Thurstone dan Likert. Persamaan penelitian sekarang
dengan penelitian mereka yaitu sama-sama membahas tentang perbandingan
reliabilitas dan SEM. Penelitian mereka membandingkan reliabilitas pada
dua buah instrumen dengan teknik penskalaan yang berbeda. Kedua
instrumen tersebut mengukur konstruk yang sama. Agar skor yang
digunakan dapat dibandingkan, maka kedua skor tersebut distandarkan
menjadi skor z mengacu pada tabel z kurve normal. Hasil penelitian tersebut
menyimpulkan bahwa koefisien reliabilitas dan SEM instrumen tipe
Thurstone lebih rendah dibanding tipe Likert. Sedangkan penelitian sekarang
akan menggunakan berbagai teknik estimasi reliabilitas dengan data yang
sama dan asumsi yang dipenuhi.
Penelitian yang dilakukan oleh Widhiarso dan Mardapi (2010), yang
berjudul Komparasi Ketepatan Estimasi Koefisien Reliabilitas Teori Skor
Murni Klasik. Salah satu persamaannya yaitu membandingkan teknik
estimasi reliabilitas berdasarkan estimasi koefisiennya. Data yang digunakan
dalam penelitian Widhiarso dan Mardapi dengan penelitian ini sama-sama
menggunakan data bangkitan. Kalau dalam penelitian Widhiarso dan Mardapi,
membandingkan selisih koefisien setiap teknik estimasi reliabilitas dengan
42
nilai reliabilitas murni yang telah ditetapkan oleh peneliti, sedangkan dalam
penelitian ini membandingkan teknik estimasi reliabilitas manakah yang
paling stabil atau koefisiennya tinggi dibandingkan dengan koefisien hasil
estimasi teknik reliabilitas lainnya terhadap data yang sama dan perbandingan
dari segi SEM. Pada penelitian ini teknik estimasi reliabilitas yang
menggunakan metode belah dua juga akan dibuktikan homogenitas antar
kedua belahan, karena teknik estimasi tersebut menggunakan pendekatan
τ - equivalent. Sedangkan untuk memenuhi asumsi internal consistency, setiap tes
dari penelitian ini akan diuji menggunakan Exploratory Factor Analysis.
Jumlah estimasi reliabilitas yang dilakukan dalam penelitian ini akan lebih
banyak daripada penelitian yang sebelumnya.
C. Kerangka Pikir
Reliabilitas merupakan sesuatu yang harus dipenuhi oleh suatu
instrumen agar hasil pengukurannya dapat dipercaya. Reliabilitas dapat
diestimasi menggunakan banyak teknik yang sesuai dengan asumsinya
masing-masing. Estimasi reliabilitas menghasilkan koefisien yang
merupakan derajat atau tingkat kecenderungan dari reliabilitas yang berkisar
dari 0 sampai
1 (koefisien estimasi reliabilitas). Begitu banyaknya teknik estimasi
reliabilitas, sehingga menimbulkan pertanyaan teknik manakah yang lebih
baik diantara yang lain dan apakah terdapat perbedaan koefisien estimasi
reliabilitas antara rumus yang satu dengan yang lainnya.
43
Estimasi koefisien reliabilitas memiliki banyak teknik yang dapat
digunakan. Salah satu metode estimasi reliabilitas yaitu dengan metode
internal consistency. Metode ini hanya memerlukan pelaksanaan
administrasi tes sebanyak 1 kali. Karena pelaksanaan tes hanya 1 kali, maka
tidak ada kekhawatiran yang dapat terjadi akibat pengulangan tes yang dapat
mempengaruhi reliabilitas instrumen. Metode internal consistency hanya
tepat digunakan pada tes yang mengukur satu latent trait (unidimensi). Salah
satu cara menguji asumsi unidimensi ini dapat dianalisis menggunakan
exploratory factor analysis.
Internal consistency memiliki tiga pendekatan, yaitu paralel
klasik,τ - equivalent, dan konginerik. Ketiga pendekatan tersebut memiliki
asumsi yang berbeda-beda. Asumsi pendekatan paralel klasik yaitu kedua
belahan harus paralel ( = = ). Asumsi pendekatan τ -equivalent
untuk belah dua yaitu kedua belahan memiliki varians yang sama/homogen
dan rerata kedua belahan tidak sama ( = ≠ ). Asumsi ini sangat
sulit didapatkan karena = , akan tetapi dalam dunia pendidikan
biasanya terdapat toleransi kesalahan 0.05 (5%) yang dapat digunakan untuk
menguji homogenitas varians. Asumsi konginerik digunakan ketika varians
kedua belahan tidak sama dan rerata kedua belahan tidak sama ( ≠
≠ ).
Rumus Koefisien Alpha dalam pendekatan τ -equivalent sering kali
digunakan tanpa memperhatikan asumsinya (Socan, 2000: 23). Teknik-teknik
lain yang termasuk dalam pendekatan τ -equivalent yang menggunakan metode
44
belah dua, seperti Flanagan dan Guttman juga sering digunakan tanpa
memperhatikan asumsi τ -equivalent. Teknik estimasi reliabilitas dengan Rulon
tidak mensyaratkan agar kedua belahan homogen, tetapi bukan berarti tidak
dapat digunakan pada dua belahan tes yang homogen. Sehingga dalam
penelitian ini teknik estimasi reliabilitas dengan Rulon akan digunakan pada
dua belahan tes yang homogen agar memenuhi asumsi τ -equivalent.
Khusus untuk teknik estimasi reliabilitas dengan metode belah dua (spit-
half) dan yang menggunakan pendekatan τ -equivalent yang
mengharuskan kedua belahan homogen, maka akan diadakan uji homogenitas
terlebih dahulu untuk memastikan kedua belahan memiliki varians yang
homogen dengan taraf signifikansi 0.05. Selain itu, akan diestimasi juga
reliabilitas menggunakan KR-20 dan KR-21, dimana kedua teknik ini
termasuk dalam metode internal consistency dan dapat dikatakan
menggunakan belah tes menjadi sebanyak butir.
Karakter psikometrik suatu tes salah satunya estimasi reliabilitas.
Namun, selain estimasi reliabilitas, dapat juga dilakukan estimasi standard
error of measurement (SEM) berdasarkan varians skor total dan koefisien
estimasi reliabilitasnya. SEM begitu penting untuk memperkirakan skor murni
seseorang dalam suatu tes. SEM berlaku sama untuk semua individu dalam
tes tersebut. Satu-satunya hal yang mempengaruhi perhitungan SEM dalam
penelitian ini adalah koefisien estimasi reliabilitas yang berdasarkan banyak
teknik estimasi reliabilitas, untuk varians skor total akan selalu sama karena
menggunakan data yang sama.
45
Walaupun menggunakan data yang sama, beberapa teknik estimasi
reliabilitas umumnya tidak akan menghasilkan koefisien yang serupa
(Azwar, 2018: 93). Hal ini dikarenakan, beberapa hal yang dapat
mempengaruhi hasil komputasi, diantaranya yaitu perbedaan konsep dan
dasar pemikiran yang berbeda, sifat distribusi skor item dan skor tes, varians
antar belahan tes, dan sebagainya.
Koefisien Alpha memiliki bentuk lain apabila digunakan dengan
membelah tes yang dikotomus menjadi sebanyak butir tes, yaitu KR-20. Hal
ini dikarenakan berlakunya teori binomial (perkalian antara proporsi
menjawab benar dengan proporsi menjawab salah sama dengan varians item
tersebut). Beberapa teori menyatakan bahwa teknik estimasi reliabilitas
dengan rumus KR – 20 akan menghasilkan estimasi reliabilitas yang lebih
tinggi daripada penggunaan teknik estimasi reliabilitas dengan rumus KR –
21. Ini mengindikasikan adanya perbedaan koefisien reliabilitas antar teknik
estimasi reliabilitas walaupun digunakan pada data yang sama. Jika koefisien
estimasi reliabilitas yang dihasilkan oleh tiap teknik berbeda, maka
kemugkinan nilai SEM berdasarkan tiap koefisien reliabilitasnya juga
berbeda. Sehingga perlu diadakan penelitian lebih lanjut mengenai
perbandingan berbagai teknik estimasi reliabilitas berdasarkan koefisien
reliabilitas dan standard error of measurement.
46
D. Pertanyaan Penelitian
Terdapat beberapa pertanyaan dalam penelitian ini. Pertanyaan dalam
penelitian ini adalah sebagai berikut.
1. Bagaimanakah hasil estimasi reliabilitas menggunakan teknik estimasi
reliabilitas Flanagan, Guttman, Rulon, Koefisien Alpha, KR-20, dan KR-
21?
2. Bagaimanakah perbandingan koefisien estimasi reliabilitas yang dihasilkan
berdasarkan teknik estimasi reliabilitas Flanagan, Guttman, Rulon,
Koefisien Alpha, KR-20, dan KR-21?
3. Bagaimanakah hasil perhitungan standard error of measurement yang
terjadi berdasarkan teknik estimasi reliabilitas Flanagan, Guttman, Rulon,
4. Bagaimanakah perbandingan standard error of measurement yang terjadi
berdasarkan teknik estimasi reliabilitas Flanagan, Guttman, Rulon,
47

Tugas 3

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas 3

Diunggah oleh

Hak Cipta:

Format Tersedia

Pengertian Construct Validity dan Contohnya | Construct validiy atau validitas konstruk

Contoh perhitungan validitas multitrait-multimethod dikemukakan oleh Alen dan Yen

Tabel 1. Matriks validasi dengan pendekatan multitrait-multimethod

Tabel 2. Matriks validasi dengan pendekatan multitrait-multimethod

 Menurut Sudjana (2005:16), reliabilitas alat penilaian adalah ketepatan atau

Koefisien reliabilitas mengindikasikan adanya stabilitas skor yang didapatkan oleh

Pengujian Reliabilitas Instrumen

a. Metode tes ulang (tes re-tes estimate reliabelity)

b. Metode Bentuk Paralel (Equivalent)

c. Metode Gabungan (paralel form and alternative form reliability estamete)

Rumus Reliabilitas Instrumen

 Populasi dan Sampel Penelitian (Pengertian, Proses, Teknik Pengambilan dan

f. Rumus Cronbanch Alpha

Rumus Cronbanch Alpha

Dengan asumsi homoscedasticity, maka harga s Y X akan mengecil akibat restriksi

Tabel 1. Ilustrasi Pengujian Validitas Prediktif

Tabel 2. Ilustrasi Pengujian Validitas Konkuren

Reliabilitas berasal dari kata reliability dalam bahasa inggris,

disebut juga keandalan, konsisitensi, stabilitas atau dependability (Azwar,

2018: 7; Cohen et al., 2007: 146). Reliabilitas menunjukkan tingkat atau

waktu kapanpun ataupun pada subjek yang berbeda (Azwar, 2018: 7;

untuk menunjukkan tingkat konsistensinya.

dikarenakan, reliabilitas merupakan suatu derajat atau tingkat,

89). Sebuah pernyataan menyebutkan bahwa “reliability is essentially a

synonym for dependability, consistency, and replicability over time, over

instruments and over groups of respondents” (Cohen et al., 2007: 199).

Maksudnya, reliabilitas pada dasarnya adalah sinonim untuk keandalan,

konsistensi, dan kemampuan meniru dari waktu ke waktu, dengan

Reliabilitas dapat disebut juga dengan tingkat/derajat dimana prosedur

pengukuran menghasilkan jawaban yang sama kapanpun dan dimanapun

Measurement Theory (Allen & Yen, 1979: 72), disebutkan terdapat

berbagai cara untuk mendefinisikan atau menginterpretasikan reliabilitas

(observed score) berkorelasi tinggi dengan skor sebenarnya (true score).

Sehingga, dari beberapa uraian mengenai pengertian reliabilitas, dapat

disimpulkan bahwa reliabilitas merupakan tingkat atau derajat

keajegan/konsistensi hasil pengukuran suatu instrumen pada waktu

pada waktu dan kondisi yang sama.

Secara garis besar reliabilitas dapat dibagi menjadi 3 kelompok,

yaitu stability consistency, internal consistency, dan inter-rater

2007: 146-147; Mardapi, 2017: 47). Stability consistency dilakukan

dengan melakukan tes sebanyak dua kali (pengulangan test)

pada subjek yang berbeda tetapi dengan karakteristik yang sama).

Stability consistency juga dapat dilakukan dengan metode tes yang

karakterisik yang sama) kemudian digunakan pada dua kelompok

consistency, tes hanya dilakukan satu kali dengan satu instrumen.

Sedangkan, inter-rater consistency dilakukan berdasarkan hasil penilaian

beberapa ahli terhadap instrumen yang dibuat.

berhubungan dengan pengulangan tes ataupun tes bentuk paralel (Allen

54; Retnawati, 2016: 88). Koefisien reliabilitas internal consistency

merupakan sebuah hasil dari pengukuran latent trait (Viladrich, Angulo-

mengungkapkan internal consistency yang sangat baik (Daniel, Sadek, &

Langdon, 2018: 2). Pengukuran internal consistency dari reliabilitas

tidak tepat untuk penggunaan pada tes yang heterogen (mengukur

beberapa trait), sehingga hanya tepat digunakan untuk tes yang

consistency dilakukan cukup menggunakan 1 kali tes, sehingga

menghindarkan dari kekhawatiran yang timbul akibat pengulangan tes.

Apabila pendekatan internal consistency telah ditetapkan, maka

pendekatan test-retest tidak perlu dilaksanakan (Holden & Bernstein,

yaitu paralel klasik, τ-equivalent, dan konginerik. Pendekatan

belahan yang sama). Pendekatan τ-equivalent memiliki asumsi bahwa

tidak sama. Pendekatan konginerik digunakan ketika kedua belahan tidak

memiliki varians dan rerata yang sama.

Pada τ-equvalent (tau-equivalen) terdapat berbagai teknik estimasi