Kelompok 2 - Pengertian Validitas Dan Reliabilitas

BERBAGAI DEFINISI VALIDITAS DAN
RELIABILITAS INSTRUMEN
DEFINISI VALIDITAS DAN RELIABILITAS INSTRUMEN
A Validitas
Ketika kita ingin mengetahui berat sebuah cincin emas maka kita harus
menggunakan timbangan emas agar hasil ukur itu dapat dikatakan valid. Sebuah
timbangan beras memang mengukur "berat" tetapi tidak cukup cermat mengukur
berat emas. Karena itu sebuah timbangan beras tidak valid guna mengukur berat
emas.
Validitas suatu alat ukur tergantung pada kemampuan alat ukur tersebut
mencapai tujuan pengukuran yang dikehendaki dengan tepat. Suatu tes yang
dimaksudkan untuk mengukur variabel A dan kemudian memberikan hasil
pengukuran mengenai variabel A, dikatakan sebagai alat ukur yang memiliki validitas
tinggi. Suatu tes yang dimaksudkan mengukur variabel A akan tetapi menghasilkan
data mengenai variabel A' atau bahkan B, dikatakan sebagai alat ukur yang memiliki
validitas rendah untuk mengukur variabel A dan tinggi validitasnya untuk mengukur
variabel A' atau B.
1. Definisi Validitas Menurut Para Ahli
a Standard, (1999) mendefinisikan "validity is the degree to which evidence and
theory sport interpretation of the scores entailed by proposed uses of test".
Jadi yang dimaksud validitas adalah penafsiran skor tes seperti yang
tercantum pada tujuan penggunaan tes bukan tes itu sendiri.
b Djemari Mardapi (2016: 32) menjelaskan bahwa validitas merupakan
dukungan bukti dan teori terhadap penafsiran skor tes sesuai dengan tujuan
penggunaan tes.
c Nitko, A.J. & Brookhart, S.M. (2011: 38) mendeskripsikan validity is the
soundness of your interpretation and uses of students assessment results.
1
d Robert L. Johnson, et al. (2009: 23) "Validity addresses the accuracy of our
inferences (e.g., decisions) based on our interpretation of the performance
assessment scores. "
e Reynolds, et al. (2010: 124) "Validity refers to the appropriateness or
accuracy of the interpretations of test scores." Validitas mengacu pada
kesesuaian atau ketepatan interpretasi hasil tes. Yang dimaksud di sini,
validitas merupakan kemampuan suatu tes untuk mengukur sesuai dengan
tujuan yang akan diukur. Apabila sebuah skor dari tes ditafsirkan sebagai
kecerdasan seseorang, maka hasil tes tersebut harus benar-benar
mencerminkan kecerdasan seseorang tersebut.
f Mahrens & Lehman (1991: 265) "Validity can be defined as the extent to
which certain inferences can be made accurately." Validitas dapat
didefinisikan sebagai sejauh mana kesimpulan dari hasil penilaian tertentu
dapat dibuat secara akurat. Akurat di sini merupakan ketepatan hasil yang
didapatkan sesuai dengan tujuan disusunnya tes.
g Braun, et. al (2002: 169) menyatakan "Validity is an integrated evaluative
judgment of the degree to which empirical evidence and theoretical rationales
support the adequacy and appropriateness of inferences and actions based on
test scores or other modes of assessment."
h Menurut Girden & Kabacoff (2011: 8), validitas merupakan hal yang penting
dalam pengukuran dan kegiatan tes. Tes dikatakan valid apabila tes mampu
mengukur karakteristik yang akan diukur.
i Saifuddin Azwar (2015: 40-41), validitas mengacu pada aspek ketepatan dan
kecermatan hasil pengukuran. Validitas hendaklah diartikan sebagai validitas
hasil pengukuran yang diperoleh oleh tersebut.
j M. David Miller, et. al (2009: 70) menyatakan " Validity is the adequacy an
appropriatenes of interpretation an uses of assesment resul".
Berdasarkan pengertian validitas menurut para ahli, maka dapat disimpulkan

bahwa suatu tes dapat dikatakan valid apabila tes tersebut mampu mengukur apa yang
2
seharusnya diukur, atau dengan kata lain menunjukkan keakuratan dari hasil
pengukuran.
Saifuddin Azwar (2015: 40-41) menjelaskan bahwa dalam Teori Skor-murni
Klasik, makna validitas tersebut dapat dinyatakan sebagai sejauh mana besaran skor-
tampak X mampu mendekati besaran skor murni T. Skor X tidak akan sama dengan
skor murni T, kecuali apabila alat ukur tersebut memiliki validitas yang sempurnam.
Semakin skor tampak mendekati skor murni semakin tinggi validitasnya. Pengukuran
yang memiliki skor tinggi validitasnya akan memiliki error yang kecil, artinya skor
setiap subjek yang diperoleh melalui suatu alat ukur tersebut tidak jauh berbeda
dengan skor yang sesungguhnya. Dengan demikan secara keseluruhan pengukuran
yang bersangkutan akan menghasilkan varians error yang kecil pula. Teori skor-murni
klasik mengartikannya sebagai validitas intrinsik, yang dirumuskan dengan akar
kuadrat dari perbandingan antara varians skor murni dan varians skor tampak.
Saifuddin Azwar (2015: 41) menekankan bahwa masalah validitas berkenaan
dengan hasil ukur bukan alat ukurnya sendiri. Sebutan validitas hendaknya diartikan
sebagai validitas hasil pengukuran yang diperoleh dari suatu tes. Sejalan dengan
pendapat Saifuddin Azwar, Djemari Mardapi (2012: 39) menyatakan bahwa dalam
proses validasi, kita tidak bertujuan untuk melakukan validasi tes tetapi melakukan
validasi terhadap interpretasi data yang diperoleh melalu suatu prosedur tes.
2. Jenis-Jenis Validitas
Menurut Allen & Yen (1979: 95) validitas tes dapat dibagi ke dalam tiga
kelompok utama yaitu validitas isi (content validity), validitas konstruk
(contruct
validity), dan validitas berdasarkan kriteria (criterion-related validity). Salkind (2013:

64) membedakan tipe validitas dan cara penggunaannya, yaitu:
3
Tabel 1 Tipe Validitas Menurut Salkind

Waktu
Tipe Validitas Cara Penggunaan Contoh
Penggunaan
Validitas Isi Ketika ingin Menguji konten Kuis mingguan di
mengetahui apakah lebih detil dan kelas statistik
sampel dari memastikan bahwa cukup mampu
beberapa butir-butir sampel yang digunakan untuk
mencerminkan ciri digunakan sesuai mengukur pokok
seluruh populasi dengan bagian yang bahasan setiap bab
pada topik tertentu. akan dilakukan tes. pada materi
statistik.
Validitas Ketika ingin Hubungkan nilai Tes EATS dari
Kriteria mengetahui jika skor skor tes dengan kemampuan
tes memiliki beberapa memasak
hubungan sistematis perhitungan yang menunjukkan
dengan kriteria yang sudah valid dan hubungan dengan
mengindikasikan menilai seperangkat seorang chef
bahwa pengambil kemampuan yang setelah 2 tahun
tes berkompeten sama. selesai mengikuti
dalam sebuah topik. sekolah memasak.
4
Tabel Lanjuta Tipe Validitas Menurut Salkind

Waktu
Tipe Validitas Cara Penggunakan Contoh
Penggunaan
Validitas Ketika ingin Hubungkan skor tes Memang benar
Konstruk mengetahui jika dengan beberapa seseorang yang
sebuah tes teori yang mengikuti latihan
mengukur beberapa menggambarkan fisik dan olahraga
konstruksi konstruk darimana fisik yang
psikologis yang tes didesain. berbahaya akan
mendasarinya. mendapatkan skor
yang tinggi pada
tes keagresifan.
(Salkind, 2013)
Lebih lanjut lagi dijelaskan mengenai jenis-jenis validitas sebagai berikut:

a Validitas Isi (Content Validity)
Allen & Yen (1979: 95) "Content validity is established through a
rational analysis of the content of a test, and its determination is based on
individual, subjective judgment." Validitas isi ditetapkan melalui analisis
rasional isi dari tes dan didasarkan pada penilaian subjektif individu. Djemari
Mardapi (2004: 26) menyatakan bahwa validitas isi suatu tes harus
menjawab pertanyaan "sejauh mana item test itu mencakup keseluruhan
situasi yang ingin diukur oleh test tersebut. Validitas isi ditetapkan
menurut analisis rasional terhadap isi test, yang penilaiannya didasarkan pada
pertimbangan subjektif individual. Prosedur validasinya tidak melibatkan
perhitungan statistik apapun. Validitas isi menunjukkan sejauh mana butir soal
dalam suatu tes mencakup keseluruhan kawasan isi yang hendak diukur
(Saifuddin Azwar, 2015: 42). Tujuan validitas isi adalah untuk menilai apakah
butir soal yang ada dalam tes mewakili domain yang akan diukur.
Saifuddin Azwar (2015: 42) menjelaskan bahwa validitas isi merupakan
validitas yang diestimasi lewat pengujian terhadap kelayakan atau relevansi isi
5
tes melalui analisis rasional oleh panel yang berkompeten atau melalui expert
judgment. Kemudian, Heri Retnawati (2016: 17) menjelaskan bahwa validitas
isi terkait dengan analisis rasional terhadap domain yang hendak diukur untuk
mengetahui keterwakilan instrumen dengan kemampuan yang hendak diukur.
Validitas isi mempunyai dua tipe, yaitu face validity dan logical validity.
Djemari Mardapi (2016: 34-35), face validity tercapai apabila pemeriksaan
terhadap item-item test memberi kesimpulan bahwa test tersebut mengukur
aspek yang relevan. Dasar penyimpulannya lebih banyak diletakkan pada
common sense atau akal sehat. Logical validity menuntut batasan yang seksama
terhadap kawasan (domain) perilaku yang diukur dan suatu desain logis yang
dapat mencakup bagian-bagian kawasan perilaku tersebut. Item-item yang ada
dalam test harus merupakan sampel yang representatif bagi seluruh item yang
mungkin dibuat.
Validitas isi ditentukan berdasarkan pendapat beberapa ahli. Ahli yang
digunakan merupakah ahli bidang tertentu, yang sesuai dengan instrumen yang
akan diukur kevalidannya. Instrumen dikatakan valid apabilah para ahli
(expert) meyakini bahka instrumen tersebut mengukur atau mencakup dari
penguasaan materi yang seharusnya diukur.
b Validitas Konstruk (Contruct Validity)

Menurut Allen & Yen (1979: 108) "A test's construct validity is the
degree to which it measures the theoretical construct or trait that it was
designed to measure." Syaifuddin Azwar (2015: 45) mendefinisikan validitas
konstruk sebagai suatu tipe validitas yang menunjukkan sejauh mana tes
mengukur suatu trait atau konstruk teoritis yang hendak diukurnya. Dengan
kata lain, validitas kontruk menunjuk pada konstruk teori yang menjadi dasar
penyusunan tes. Konstruk dalam pengertian ini berkaitan dengan aspek-aspek
psikologis seseorang khususnya pada aspek kognitif, afektif dan
psikomotor. Sebuah tes dikatakan memiliki validitas konstruk yang tinggi
apabila butir soal pada perangkat tes tersebut mengukur aspek berpikir seperti
6
apa yang dirumuskan dalam kompetensi yang diharapkan. Untuk mengetahui

apakah suatu tes memenuhi syarat-syarat validitas konstruksi atau tidak maka
kita harus membandingkan susunan tes tersebut dengan syarat-syarat
penyusunan tes yang baik.
c Validitas Berdasarkan Kriteria (Criterion-Related Validity)

Miller, et all. (2009: 74) "Criterion-related validities is how well on the
assessment predicts future performanceon some valued measure called other
than the test itself." Ebel & Frisbie (1991: 106) mendefinisikan "Criterion
measure is an accepted standard against which some test is compared to
validate the use of the test as a predictor." Validitas berdasarkan kriteria
merupakan tipe validitas yang disususn berdasarkan kriteria yang telah ada
sebelumnya. Suatu kriteria adalah variabel perilaku yang akan diprediksikan
oleh skor tes atau berupa ukuran lain yang relevan.
Untuk mengestimasi tingginya validitas berdasarkan kriteria, dilakukan
komputasi koefisien korelasi antara skor tes dengan kor kriteria. Prosedur
validitas kriteria menghasilkan salah satu diantara dua macam validitas, yaitu
validitas prediktif (predictive validity) dan validitas konkuren (concurrent
validity). Validitas prediksi merupakan validitas yang menunjukkan hubungan
antara nilai yang terdapat pada alat ukur yang akan dicari validitasnya dengan
skor kriteria yang diperoleh di masa yang akan datang. Validitas konkuren bisa
diperoleh dengan cara menghitung korelasi antara kriteria yang diperoleh atas
suatu pengukuran yang sudah standar dalam waktu yang relatif sama.
3. Pembuktian Validitas
Ketepatan interpretasi atau penafsiran hasil suatu tes didasarkan pada bukti-
bukti yang mendukung. Sesuai dengan tujuan penggunaan tes, bukti validitas
dikelompokkan menjadi empat, yaitu bukti berdasarkan isi tes, bukti berdasarkan
proses respons, dan bukti berdasarkan hubungan dengan variabel lain.
a Bukti berdasarkan isi tes
7
Bukti berdasarkan isi dapat diperoleh dari suatu analisis hubungan antara isi tes
dan konstruk yang ingin diukur. Isi tes mengacu pada tema, kata-kata, format butir,
tugas atau pertanyaan pada tes seperti juga prosedur administrasi dan penskoran.
Bukti validasi isi dapat diperoleh dari analisis hubungan antara isi tes dengan
konstruk yang ingin diukur. Pembuktian validitas berdasarkan isi biasa digunakan
pada validitas tampang (face validity) dan validitas logik (logic validity).
b Bukti berdasarkan proses respons
Bukti validitas ini berdasarkan proses respons, yaitu analisis terhadap respons butir
individu. Pertanyaannya tentang strategi unjuk kerja, atau respons terhadap item
tertentu dapat memperkaya definisi konstruk.
c Bukti berdasarkan hubungan dengan variabel lain
Analisi hubungan skor tes dengan variabel eksternal dilakukan untuk melengkapi
bukti validtas. Bukti validitas berdasarkan hubungan dengan variabel yang lain
disebut validitas terkait kriteria. Prosedur untuk memperoleh bukti validitas terkait
krteria memerlukan kriteria eksternal yang dapat dihubungkan dengan skor tes
yang diuji validitasnya.
B. Reliabilitas
Reliabilitas merupakan penerjemahan dari kata reliability yang mempunyai
asal kata rely dan ability. Pengukuran yang memiliki reliabilitas tinggi disebut
sebagai pengukuran yang reliabel (reliable).Walaupun reliabilitas mempunyai
berbagai arti seperti kepercayaan, keterandalan, keajegan, kestabilan dan konsistensi,
namun ide pokok yang terkandung dalam konsep reliabilitas adalah sejauh mana hasil
pengukuran dapat dipercaya.
Ketika kita mengukur panjang sebuah meja kayu dengan menggunakan
sebuah meteran berulang-ulang baik dalam tenggang waktu yang singkat maupun
tenggang waktu yang lama, maka hasil ukur kita akan dapat dipastikan selalu
menunjukkan angka yang sama selama panjang meja tersebut belum berubah. Kita
katakan bahwa meteran tersebut reliabel, atau konsisten, atau dapat diandalkan, atau
8
stabil. Demikian pula ketika kita melakukan pengukuran terhadap variabel fisik
lainnya, misalnya waktu yang diperlukan oleh seorang perenang guna menempuh
jarak 200 m. Sebuah stopwatch yang reliabel akan selalu menunjukkan waktu tempuh
sebagai perbandingan antara jarak 200m dengan kecepatan rata-rata yang sama. Tentu
waktu tempuhnya akan ditunjukkan oleh stopwatch yang sama. Kita katakan bahwa
pengukuran oleh stopwatch tersebut konsisten.
1. Definisi Reliabilitas Menurut Para Ahli
a Djemari Mardapi (2016: 46) menjelaskan bahwa reliabilitas atau keandalan
merupaka koefisien yang menunjukkan tingkat keajegan atau kekonsitenan
hasil pengukuran suatu tes.
b Nitko, A.J. & Brookhart, S.M. (2011: 66) Nitko (2011: 64) "Reliability is the
degree to which students results remain consistent over replications of an
assessment procedure." Reliabilitas adalah sejauh mana hasil tes siswa tetap
konsisten setelah dilakukan berulang kali, sesuai dengan prosedur penilaian.
c Menurut Reynolds (2010: 91), "reliability refers to consistency or stability of
assessment results." Reliabilitas dapat diartikan sebagai konsistensi atau
stabilitas hasil penilaianM.
d David Miler, et. al (2009: 107) Reliability refers to the consistency of
measurement, that is, how consistent test score or other assesment result are
from one measurement to another.
e Robert L. Johnson, et al. (2009: 22) by reliability, we mean the consistency of
examinees' scores across such facets as occasions, tasks, and raters.
f Wright (2008: 123) "A test or assessments with a low level of reliability can be
considered to be a random number generator. Reliability is a sample statement
of the dependability, stability, and consistency of the test scores from a
measure."
g Saifuddin Azwar (2015: 7), reliabilitas merupakan penerjemahan dari kata
reliability. Suatu pengukuran yang mampu menghasilkan data yang memiliki
tingkat reliabilitas tinggi disebut sebagai pengukuran yang reliabel (reliable).
9
Konsep reliabilitas adalah sejauh mana hasil suatu proses pengukuran dapat
dipercaya.
Berdasarkan pengertian beberapa ahli di atas, dapat disimpulkan bahwa

reliabilitas adalah ketepatan atau keajegan dari sebuah tes dalam menilai apa yang
dinilai, artinya tes tersbut menunjukkan hasil yang sama walaupun tes tersebut
diberikan beberapa kali kepada objek yang sama pada waktu yang berbeda.
Reliabilitas alat ukur menunjukkan sejauh mana hasil pengukuran dengan alat ukur
dapat dipercaya.
Jika kita memperoleh hasil pengukuran yang relatif sama pada siswa yang
sama pada waktu yang berbeda, maka dapat diaktakan bahwa hasil yang kita peroleh
memiliki derajat reliabilitas yang tinggi. Sama halnya jika ada dua orang guru yang
berbeda menilai kinerja siswa dengan perangkat tes yang sama dan hasilnya
menunjukkan skor yang relatif sama, maka dapat dikatakan bahwa hasilnya memiliki
derajat reliabilitas yang tinggi. Sama halnya dengan validitas, reliabilitas juga
berhubungan dengan interpretasi yang akan dibuat.
2. Jenis-Jenis Reliabilitas
Reliabilitas instrumen baik tes maupun nontes dapat dikategorikan menjadi
tiga, yaitu: konsistensi internal, stabilitas dan antarpenilai.
a Konsistensi Internal
Metode ini hanya memerlukan satu kali penyajian tes saja, dikenal dengan
nama single-trial administration, dan karena itu masalah-masalah yang timbul
akibat penyajial berulang dapat dihindari. Pendekatan dalam melakukan
estimasi reliabilitas dengan konsistensi internal ada tiga, yaitu :
1) Paralel Klasik
Pada metode ini suatu tes dibagi dua, bisa gasal dan genap, atau bagian
awal dan bagian akhir. Persyaratan yang harus dipenuhi adalah rerata
bagian pertama dan kedua sama, varians kedua belahan sama serta materi
yang diukur sama. Estimasi reliabilitas dengan metode paralel klasik biasa
disebut dengan Sperman-Brown.
10
2) Pendekatan Konginerik
Pendekatan ini digunakan apabila varians kedua belahan tidak sama dan
rerata dua belahan juga tidak sama. Perhitungan reliabilitas berdasarkan
pendekatan konginerik dapat dihitung dengan formula Raju.
b Stabilitas
Stabilitas hasil pengukuran dapat dilakukan dengan melalui test retest, yaitu
dengan memberikan ujian dengan suatu soal kepada sekelompok individu
kemudian mengujikan kembali soal tersebut pada kelompok sama pada waktu
yang berbeda.. Koefisien stabilitas dapat dilihat dari besarnya korelasi skor
hasil pengukuran pertama dan hasil pengukuran kedua. Dua distribusi skor
dikorelasikan. Besarnya korelasi ini menyatakan indeks reliabilitas dalam arti
stabilitas hasil pengukuran. Metode ini juga dikenal dengan metode test retest.
Reliebelitas tes retes dapat dilakukan dengan cara seperti berikut:
1. Selenggarakan tes pada suatu kelompok yang tepat sesuai dengan
rencana.
2. Setelah selang waktu tertentu, misalnya satu minggu atau dua minggu,
lakukan kembali tes yang sama dengan kelompok yang sama tersebut.
3. Korelasikan kedua hasil tes tersebut.
4. Tau-Ekuivalen
Pada pendekatan tau ekuivalen, skor murni pada Tes 1 sama dengan skor
murni pada Tes 2, ditambah suatu konstanta. Estimasi reliabilitas dengan
metode tau-ekuivalen bisa menggunakan rumus yang dikembangkan oleh
Rulon, formula Cronbach Alpha, Kuder dan Richardson (KR20, KR21) .
c Reliabilitas Antar Penilai (Inter Rater)
Pengumpulan data di lapangan bisa berupa pengamatan terhadap perilaku
seseorang atau karya tulis seseorang. Koefisien reliabilitas data semacam ini
menggunakan inter rater yaitu pada dasarnya menggunakan teknik analisis
varians. Formula yang digunakan untuk menghitung relibilitas pada
pendekatan analisis varians adalah rumus yang dikembangkan oleh Hyot.
11
3. Standar Reliabilitas
Derajat reliabilitas yang menajdi patokan pada pada pengukuran pendidikan
bergantung dari besarnya keputusan yang akan dibuat. Jika hasil pengukuran
digunakan mengevaluasi cakupan materi pelajaran, maka derajat reliabilitasnya
mungkin agak rendah dan ditentukan oleh guru yang membuat perangkat pengukuran
tersebut. Namun jika kita diminta untuk menetukan seberapa besar derajat reliabilitas
yang dijadikan patokan, maka perlu memperhatikan beberapa pertimbangan seperti
seberapa penting keputusan yang akan dibuat, seberapa luas jangkauannya, dan
keterpakainnya untuk waktu tertentu. Namun untuk kondisinya tidak serumit
pertimbangan yang dimaksud sebelumnya, maka derajat reliabilitas minimum berada
diantar 0.60 dan 0.85 khususnya untuk perangkat tes yang dibuat oleh guru ( Miller,
et all, 2009:132).
C. Kesalahan Pengukuran
Kesalahan pengukuran selalu melekat pada setiap pengukuran. Meskipun
kesalahan pengukuran telah dikaji secara luas pada konteks tes psikologi dan
pendidikan. Salah satu contoh kasus pada pengukuran waktu tempuh seorang pelari
100 meter yang dilakukan oleh sekelompok orang, walaupun sekelompok orang
tersebut menggunakan stopwatch yang sama, maka hasil pengukuran diakhir tidak
akan persis sama untuk tiap orang yang mengukur.
Beberapa teori maupun model telah dikembangkan untuk beberapa masalah
dalam pengukuran, namun teori yang paling terkenal adalah teori tes klasik. Menurut
teori klasik, setiap hasil pengukuran memuat dua komponen yakni True skor yakni
skor yang diperoleh jika tidak ada kesalahan dalam pengukuran atau dengan kata lain
skor reliabel sempurna. Dan juga skor eror atau dengan kata lain, Nilai Perolehan =
True Skor + Eror dengan persamaan matematis Xi= T + E. Xi merupakan nilai
Perolehan untuk tiap individu.
Menurut Azwar (2007: 5) kesalahan pengukuran menunjuk pada sejauh mana
12
inkonsistensi hasil pengukuran terjadi apabila pengukuran dilakukan ulang pada

kelompok subjek yang sama. Semakin kecil harga kesalahan pengukuran maka
pengukuran semakin cermat dan semakin dapat dipercaya. Ada dua macam kesalahan
dalam pengukuran yaitu kesalahan sistematis dan kesalahan acak.
Kesalahan pengukuran mengurangi keberartian satu perangkat tes, hal ini
membatasi hasil pengukuran dapat digeneralisasikan dan menurunkan derajat
kepercayaan yang diperoleh pada satu tes. Kesalahan pengukuran secara garis besar
dapat disebabkan oleh dua hal yakni kesalahan sistematik dan kesalahan acak.
Kesalahan sistematik nampaknya agak sulit untuk dideteksi dan membutuhkan
metode statistik yang rumit untuk. Kesalahan yang bersifat sistematis disebabkan oleh
orang yang mengukur atau alat ukur/instrumennya (Djemari Mardapi, 2000: 5).
Kesalahan pengukuran yang sistematik adalah kesalahan yang secara konsisten
mempengaruhi hasil pengukuran. Kesalahan pengukuran sistematik ini disebabkan
karena soal tes yang terlalu mudah atau terlalu sukar, selain itu ada guru yang
pemurah dan ada yang mahal dalam memberi skor. Kesalahan sistematik tidak bisa
diestimasi besarnya. Sedangkan kesalahan yang bersifat acak tidak memiliki pola
secara sistematis. Kesalahan acak disebabkan antara lain karena kesalahan dalam
menentukan sampel isi tes, dan adanya variasi emosi seseorang yang bersifat acak.
Besarnya kesalahan pengukuran acak ini yang dapat diestimasi.
Ada beberapa sumber kesalahan yang mempengaruhi hasil pengukuran yang
meliputi alat ukur, objek yang diukur, lingkungan pengukuran, dan subjek yang
mengukur (Djemari Mardapi, 1999: 4). Dalam bidang pendidikan sumber kesalahan
pengukuran lebih banyak dan lebih kompleks, karena baik objek yang diukur maupun
subjek yang mengukur adalah manusia. Menurut Feldt & Brennan (1989: 107)
pengukuran dalam bidang pendidikan bersifat tidak langsung, hasilnya ditentukan
oleh kondisi fisik dan psikologis yang diukur dan yang mengukur. Hal ini disebabkan
karena kondisi fisik dan emosi seseorang selalu bervariasi dari waktu ke waktu.
Karena kesalahan pengukuran ini variatif, perlu diketahui tentang karakteristik dan
13
lebih hati-hati dalam proses penaksiran dari satu pengukuran/tes. Sebagai praktisi
pendidikan kita harus mengidentifikasi sumber kesalahan pengukuran dan
meminimalisir dampaknya. Beberapa faktor yang umum penyebab kesalahan
pengukuran namun pada dasarnya ada dua faktor utama yakni kesalahan sampling
konten dan sampling waktu.
Berikut Sumber kesalahan pengukuran menurut Willson, Livingston, dan

Reynold (2008) adalah sebagai berikut:
1. Kesalahan sampling konten
Kesalahan pengukuran ini disebabkan oleh kesalahan mengambil sampel item
tes dari domain konten tes (keseluruhan item tes yang memungkinkan). Sebagai
gambarannya, misal seorang guru matematika ingin mengukur kemampuan
perkalian bilangan puluhan siswa kelas dua SD A. Tentunya pilihan soal yang
dapat dipilih oleh guru matematika ini ada banyak sekali dari sekian kombinasi
angka puluhan, inilah yang dimaksud dengan domain tes. Selanjutnya guru
matematika ini memilih 25 butir soal untuk mengukur kemampuan siswanya, ini
yang dimaksud dengan sampel item. Kemungkinan pemilihan 25 soal oleh guru
tadi bisa jadi terjadi kesalahan yakni guru mengambil soal di luar konten muatan
soal yang dimaksud seperti mengambil soal perkalian satuan ataupun ratusan. Jika
kita memilih sampel item yang tepat dari domain konten, maka kesalahan
pengukuran akan semakin kecil. Kesalahan sampling ini merupakan kesalahan
yang paling sering terjadi, namun untungnya sumber kesalahannya relatif mudah
untuk dideteksi baik secara langsung, maupun dengan bantuan instrumen statistik.
Kesalahan sampling konten ini bisa juga dikenal dengan istilah kesalahan
sampling domain.
2. Kesalahan sampling waktu
Kesalahan ini disebabkan adanya fluktuasi hasil kinerja dari teste dari satu
14
kondisi waktu ke kondisi lain dan membatasi kemampuan kita untuk menafsirkan
hasil tes pada situasi yang berbeda. Para ahli pengukuran menyatakan bahwa
kesalahan ini merupakan ketaksatabilan temporer. Kondisi dapat digambarkan
misal seorang siswa yang diberikan tes matematika pada siang hari, namun
malam sebelumnya ia begadang sehingga tidak mampu mengerjakan soal yang
diberikan dengan baik. Ada beberapa sumber kesalahan dalam hal ini kesalahan
yang disebabkan oleh kondisi internal teste (kondisi fisik, kecemasan, penyakit,
dll) maupun kondisi lingkungan atau eksternal testee (cuaca, suhu, kebisingan,
dll). Para ahli telah mengembangkan metode estimasi kesalahan sampling waktu.
3. Sumber kesalahan lain.
Selain kedua sumber kesalahan tentunya ada beberapa kesalahan lain yang
umum terjadi pada pengukuran seperti kesalahan administratif dan kesalahan
penskoran. Kesalahan pemeriksaan dengan adanya penambahan skor pada siswa
tertentu, maupun kesalahan administrasi pada seorang siswa merupakan contoh
dari kondisi ini.
Sumber-sumber penyebab terjadinya kesalahan pengukuran sangat sulit untuk
dikendalikan, tetapi dapat diusahakan agar kesalahan pengukuran dapat
diminimalkan, sehingga perolehan skor dapat mencerminkan kemampuan peserta
tes yang sebenarnya (Djemari Mardapi, 1999: 15). Di antara sumber-sumber
kesalahan pengukuran itu, nampaknya yang paling mudah dikontrol adalah faktor
alat yang dipergunakan untuk mengukur. Oleh karena itu, dalam usaha
memperkecil kesalahan-kesalahan pengukuran, diperlukan alat ukur yang baik.
D. Kesimpulan
Suatu perangkat tes diaktakan valid apabila tes tersebut mampu mengukur apa
yang seharusnya diukur, dengan kata lain keakuratat dari hasil pengukuran.
Sedangkan reliabilitas itu merupakan keajegan dari sebuah tes dalam menilai apa
yang dinilai. Reliabilitas menggambarkan besarnya kesalahan pengukuran. maka tes
15
yang reliabel sangat diperlukan, namun belum cukup untuk mendapatkan hasil valid.
Artinya masih diperlukan syarat lain yang harus dipenuhi agar tes tersebut valid,
sebaliknya tes yang valid dapat dipastikan akan memberikan hasil yang reliabel
(Miller dkk, 2009:72)
Daftar Pustaka
American Educational Research Association, American Psychological Association,

& National Council on Measurement in Education. (1999). Standard for
educational and psychological testing. Washington, DC: American
Educational Research Association.
Allen, M. J & Yen, W. M. (1979). Introduction to measurement theory. Montery:

Brooks/Cole Publishing Company.
Braun, H. I., Jackson, D. N., & Wiley, D. N. (2002). The role of construcs in
psychological and educational measurement. London: Lawrence Erlbaum
Associates, Inc.,
Cronbach, L.J.. (1951). Coefficient alpha and the internal structure of test.
University of Illinois, 16, 297-334.
Djemari Mardapi. (1999). Estimasi kesalahan pengukuran dalam bidang

pendidikan dan implikasinya pada ujian nasional. Pidato Pengukuhan Guru
Besar Madya Ilmu Evaluasi Pendidikan Teknologi dan Kejuruan pada
Fakultas Teknik Universitas Negeri Yogyakarta.
16
Djemari Mardapi. (2000). Beberapa masalah evaluasi pada pendidikan biologi.

Makalah Seminar Lokakarya Pendidikan Biologi FMIPA, UNY.
Djemari Mardapi. (2004). Penyusunan tes hasil belajar. Yogyakarta: PPS

Yogyakarta.
Djemari Mardapi. (2016). Pengukuran, Penilaian dan Evaluasi Pendidikan.

Yogyakarta: Parama Publishing.
Ebel, R. L., & Frisbie, D. A. (1991). Essential of educational mesurement (5th ed.)
Los Angeles: SAGE Publications, Inc.
Feldt, L. S. & Brennan, R. L (1989). Reliability. Dalam Linn (1989) .

Educational measurement. London: Collier Macmillan Publisher.
Girden, E. R., & Kabacoff, R. I. (2011). Evaluating Research Articles Third

Edition. United Kingdom : SAGE Publications. Inc.
Johnson, R.L, Penny, J.A & Gordon, B. 2009. Assessing Performance. New York:
Guilford Press.
Mehrens, W.A, & Lehman, I.J. (1991). Measurement and evaluation in education
and psichology. New York: Holt, Rine Hart & Winsto, Inc.
Miller, M, D., Linn, R. L., & Gronlund, N. E. (2009). Measurement and

assessment in teaching (10th ed.). Ontario: Pearson.
17
Nitko, A. J & Brookhart, S. M. (2011) Educational assessment of atudents (6th

ed.). Boston: Pearson Education, Inc.
Reynolds, C.R., Livingston, R. B & Willson, V. (2010) Measurement and

assessment in education. Mexico City: Pearson Education, Inc.
Saifuddin Azwar. (2007). Reliabilitas dan validitas (edisi ke-3). Yogyakarta:

Pustaka Pelajar.
Saifuddin Azwar. (2015). Reliabilitas dan validitas. Yogyakarta: Pustaka Pelajar.

Standard
Willson, V; Livingston, R.B.; Reynold, C.R. (2008). Measurement and assessment in

education. Wasington, DC: Pearson.
Wright, R. J. (2008). Educational assessment test and measurements in the age of

accountability. Washington DC: SAGE Publications, Inc
18
19

Kelompok 2 - Pengertian Validitas Dan Reliabilitas

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Kelompok 2 - Pengertian Validitas Dan Reliabilitas

Diunggah oleh

Hak Cipta:

Format Tersedia

BERBAGAI DEFINISI VALIDITAS DAN

DEFINISI VALIDITAS DAN RELIABILITAS INSTRUMEN

Berdasarkan pengertian validitas menurut para ahli, maka dapat disimpulkan

validity), dan validitas berdasarkan kriteria (criterion-related validity). Salkind (2013:

Tabel 1 Tipe Validitas Menurut Salkind

Tabel Lanjuta Tipe Validitas Menurut Salkind

Lebih lanjut lagi dijelaskan mengenai jenis-jenis validitas sebagai berikut:

b Validitas Konstruk (Contruct Validity)

apa yang dirumuskan dalam kompetensi yang diharapkan. Untuk mengetahui

c Validitas Berdasarkan Kriteria (Criterion-Related Validity)

Berdasarkan pengertian beberapa ahli di atas, dapat disimpulkan bahwa

inkonsistensi hasil pengukuran terjadi apabila pengukuran dilakukan ulang pada

Berikut Sumber kesalahan pengukuran menurut Willson, Livingston, dan

American Educational Research Association, American Psychological Association,

Allen, M. J & Yen, W. M. (1979). Introduction to measurement theory. Montery:

Djemari Mardapi. (1999). Estimasi kesalahan pengukuran dalam bidang

Djemari Mardapi. (2000). Beberapa masalah evaluasi pada pendidikan biologi.

Djemari Mardapi. (2004). Penyusunan tes hasil belajar. Yogyakarta: PPS

Djemari Mardapi. (2016). Pengukuran, Penilaian dan Evaluasi Pendidikan.

Feldt, L. S. & Brennan, R. L (1989). Reliability. Dalam Linn (1989) .

Girden, E. R., & Kabacoff, R. I. (2011). Evaluating Research Articles Third

Miller, M, D., Linn, R. L., & Gronlund, N. E. (2009). Measurement and

Nitko, A. J & Brookhart, S. M. (2011) Educational assessment of atudents (6th

Reynolds, C.R., Livingston, R. B & Willson, V. (2010) Measurement and

Saifuddin Azwar. (2007). Reliabilitas dan validitas (edisi ke-3). Yogyakarta:

Saifuddin Azwar. (2015). Reliabilitas dan validitas. Yogyakarta: Pustaka Pelajar.

Willson, V; Livingston, R.B.; Reynold, C.R. (2008). Measurement and assessment in

Wright, R. J. (2008). Educational assessment test and measurements in the age of

Anda mungkin juga menyukai