Anda di halaman 1dari 28

Pengertian Validitas dan Macam-Macam Validitas

Validitas adalah salah satu ciri yang menandai tes hasil belajar yang baik. Untuk dapat
menentukan apakah suatu tes hasil belajar telah memiliki validitas atau daya ketepatan
pengukuran, dapat dilakukan dari dua segi, yaitu dari segi tes itu sendiri dan dari sesi itemnya.
Validitas sebuah tes menyangkut apa yang diukur tes dan seberapa baik tes itu bisa
diukur. Validitas sebuah tes memberi tahu tentang apa yang bisa kita simpulkan dari skor-skor
tes. Menilai validitas adalah penting bagi peneliti karena sebagian besar instrumen yang
digunakan dalam penyelidikan pendidikan dan psikologi dirancang untuk mengukur konstruksi
hipotesis.

Dalam hal ini validitas dikenal empat macam, yang diantaranya yaitu :
a. Validitas isi (Content Validity)
Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar
dengan materi atau isi pelajaran yang diberikan. Oleh karena materi yang diajarkan tertera dalam
kurikulum maka validitas isi ini sering disebut validitas kurikuler. Validitas isi yaitu validitas
yang dilirik dari segi isi tes itu sendiri sebagai alat pengukur hasil belajar. Validitas isi dari suatu
tes hasil belajar adalah validitas yang diperoleh setelah dilakukan penganalisisan, penelusuran/
pengkajian terhadap isi yang terkandung dalam tes hasil belajar.
b. Validitas konstruksi
Suatu tes hasil belajar dinyatakan sebagai tes yang telah memiliki validitas konstruksi apabila tes
hasil belajar tersebut ditinjau dari segi susunan, kerangka atau rekaannya telah dapat dengan
tepat mencerminkan suatu konstruksi dapat diartikan sebagai validitas yang ditilik dari segi
susunan, kerangka atau rekaannya. Sebuah tes memiliki validitas konstruksi apabila butir-butir
soal yang membangun tes tersebut mengukur setiap aspek berpikir seperti yang disebutkan pada
tujuan konstruksional khusus.
c. Validitas empiris
Validitas empiris adalah ketepatan mengukur yang didasarkan pada hasil evaluasi pada analisis
bersifat empiric dimana validitas ini bersumber atau diperoleh atas dasar pengamatan di
lapangan, validitas ini sesuai dengan pengalaman. Yang mana sesuai antara hasil tes dengan hasil
pengamatan. Untuk dapat menentukan apakah tes hasil belajar sudah memiliki validitas empiris
dari dua segi yaitu segi daya ketepatan meramalnya (predictive validity) dan daya ketepatan
bandingannya (concurrent validity)
d. Validitas prediksi (Predictive validity)
Memprediksi artinya meramal. Sebuah tes dikatakan memiliki validitas prediksi atau validitas
meramalkan apa yang akan terjadi pada masa yang akan dating. Sebagai alat pembanding
validitas prediksi adalah nilai-nilai yang diperoleh setelah peserta tes pelajaran di perguruan
tinggi.

2. Cara Menghitung Koefisien Validitas


Cara menentukan tingkat tingkat (indeks) validitas kriterium adalah dengan menghitung
koefisien korelasi antara alat evaluasi yang telah dilaksanakan yang diasumsikan telah
mencerminkan kemampuan siswa yang sebenarnya. Makin tinggi koefisien korelasinya makin
tinggi tinggi pula validitas alat evaluasi tersebut.
Sebuah tes dikatakan memiliki validitas jika hasilnya sesuai dengan kriterium, dalam arti
memiliki kesejajaran antara hasil tes tersebut dengan kriterium. Teknik yang digunakan untuk
mengetahui kesejajaran adalah teknik korelasi product moment yang dikemukakan oleh Pearson.
Rumus korelasi product moment ada dua macam, yaitu:
a. Korelasi product moment dengan simpangan
b. Korelasi product moment dengan angka kasar
Rumus korelasi product moment dengan simpangan adalah
r_xy = (∑xy)/ √(( ∑x2)/( ∑y2))
Dimana :
= koefisien antara variabel x dan y
= jumlah perkalian x dan y
= kuadrat x
= kuadrat y

Rumus koefisien product moment dengan angka kasar:


r_xy=(NΣxy-((∑x) ) (∑y))/√((NΣx2-(∑x)2 (NΣy2-(Σy)2) )

.
Cara Menghitung Koefisien Validitas Item
Validitas item dikatakan valid apabila mempunyai dukungan yangbesar terhadap skor
total. Sebuah item memiliki validitas yang tinggi jika skor pada item mempunyai kesjajaran
dengan skor total. Untuk soal-soal bentuk objektif skor untuk item bisa diberikan dengan 1 (bagi
item yang dijawab benar) dan 0 ( bagi item yang dijawab salah), sedangkan skor total selanjutnya
merupakan jumlah dari skor untuk semua item yang membangun soal tersebut.
Ada cara lain untuk menghitung validitas item. Slah satu cara yang terkenala adalah
menggunakan rumus :
rpbi =( (Mp-Mt) / SDt) x √p/q
Keterangan
rpbi = Koefisien korelasi biserial
Mp= rerata skor dari subjek yang menjawab betul bagi item yang di cari validitasnya
Mt= rerata skor tota
SDt= standar deviasi dari skor total
p = proporsi siswa yang menjawab benar
(p =banyak siswa yang benar / seluruh siswa)
q = proporsi siswa yang menjawab salah
(q=1-p)

1.2 Menginterprestasikan Sikap Nilai Koefisien Validitas


Koefisien orelasi selalu terdapat antara -1,00 hingga +1,00.. Namun karena dalam
menghitung sering dilakukan pembulatan angka-angka sangat mungkin diperoleh koefisien lebih
dari 1,00. Koefisien negatif menunjukan hubungan kebalikan sedangkan koefisien positif
menunjukan adanya interprestasi mengenai besarnya koefisien korelasi adalah sebagai berikut :
• Antara 0.800 – 1.00 = Sangat Tinggi
• Antara 0.600 – 0.800 = Tinggi
• Antara 0.400 – 0.600 = Cukup
• Antara 0.200 – 0.400 = Rendah
• Antara 0.000 – 0.200 = Sangat Rendah
Penafsiran harga koefisien korelasi ada dua cara yaitu :
1. Dengan melihat harga r dan di Interpretasikan misalnya korelasi tinggi, cukup dan sebagainya
2. Dengan berkolerasi ke table harga kritis r product moment sehingga dapat diketahui signifikan.
Begitu juga sebaliknya
Contoh interpretasi :
Dari table yang telah disediakan yaitu mengenai tabel persiapan ntuk mencari validitas tes
prestasi matematika yang telah diperlihatkan sebelumnya dapat disimpulkan bahwa besarnya
koefisien korelasi antara variable x dan variable y dinilai tinggi.

PEMBAHASAN

Instrument evaluasi dapat dibagi menjadi tiga kelompok, yaitu instrumen evaluasi hasil belajar
kognitif, instrumen evaluasi hasil belajar efektif, instrumen evaluasi hasil belajar psikomotor.
Instrumen evaluasi untuk ketiga hasil belajar tersebut perlu dianalisis sebelum dan sesudah
digunakan yang tujuannya agar dapat dihasilkan instrument evaluasi yang memiliki kualitas
tinggi. Pada uraian berikut akan dibahas teknik analisis kualitas instrument secara berurutan
mulai kualitas instrument evaluasi hasil belajar koknitif, instrument evaluasi hasil belajar afektif
dan instrument hasil belajar psikomotor.

1. Analisis Kualitas Instrumen Evaluasi Hasil Kognitif

Pada umumnya hasil belajar kognitif dinilai dengan tes. Tes dalam bentuk butir – butir soal
sebelum digunakan hendaknya dianalisis terlebih dahulu agar memenuhi syarat sebagai alat
evaluasi yang memiliki kualitas tinggi.

Cara menganalisis butir – butir tes tersebut dapat ditempuh melalui dua cara, yaitu:

1. Analisis Tes Secara Teoritik Atau Analisis Kualitatif

Analisis secara teoritis atau analisis kualitatif dapat dilakukan sebelum maupun setelah
dilaksanakan uji coba. Cara analisisnya adalah dengan cara mencermati butir – butir soal yang
telah disusun dilihat dari: kesesuaian dengan kompetensi dasar dan indikator yang diukur serta
pemenuhan persyaratan baik dari ranah materi, konstruksi dan bahasa. Butir – butir soal yang
akan di analisis dapat berupa butir soal bentuk uraian, butir soal bentuk melengkapi,dan butir
soal bentuk pilihan ganda (multiple choice).

1. Analisis Tes Secara Kuantitatif

Analisis ter secara kuantitatif diarahkan untuk menelaah tingkat validitas soal, reliabilitas, daya
pembeda, tingkat kesukaran, dan khusus untuk model atau tipe soal pilihan ganda perlu juga
ditelaah efektifitas fungsi distraktor.
a) Analisis validitas tes

Validitas (validity, kesahihan) berkaitan dengan permasalahan apakah tes yang


dimaksudkan untuk mengukur sesuatu itu memang dapat mengukur secara tepat
sesuatu yang akan dikur tersebut.[1] Secara singkat dapat dikatakan bahwa
validitas tes mempersoalkan apakah tes itu dapat mengukur apa yang akan diukur.
Misalnya, jika tes itu dimaksudkan untuk mengukur tingkat kognitif atau ingatan
tentang macam – macam rukun iman, memang secara tepat dapat untuk mengukur
kemampuan itu, bukan pengetahuan yang lain, misalnya penjelasan tentang
pengertian iman. Jika tes itu dimaksudkan untuk menanyakan kemampuan
menganalisis sebab – sebab suatu kaum diberi azab oleh Allah (kognitif tingkat
analisis), tes itu memang mampu untuk mengungkapkan kemampuan itu, dan
bukan kemampuan – kemampuan yang lain yang menyebabkan bias.

Analisia validitas tes dapat dilakukan dari dua segi, yaitu: dari segi tes sebagai
suatu totalitas dan dari segi itemnya, sebagai bagian tak terpisahkan dari tes secara
totalitas. Macam – macam analisis validitas tes dapat digambarkan sebagai berikut:

Validitas Isi

(Content Validity)

Validitas Teoritis

(Rasional) Validitas Konstruk

(Construct Validity)

Tes Totalitas Validitas Ramalan

(Predictive Validity)

Validitas Tes Validitas Empirik

Validitas Bandingan
Butir Soal (Concurrent Validity)

1) Analisis validitas tes secara totalitas

Analisis validitas tes secara totalitas maksudnya adalah analisis validitas tes secara keseluruhan.
Missal tes terdiri dari 50 butir soal, sehingga yang dianalisis adalah keseluruhan dari 50 butir
soal tersebut. Analisis validitas tes secara totalitas secara garis besar dapat dibedakan kadalam
dua kategori, yaitu validitas teoritis (rasional) dan validitas empirik. Validitas teoritis (rasional)
adalah validitas yang dalam pertimbangannya dilakukan dengan cara analisis rasional, sedangkan
validitas empiric adalah validitas yang dalam pertimbangannya dilakukan dengan cara
menganalisis data data empirik. Artinya untuk melakukan analisis jenis validitas empiric
memerlukan data – data dari lapangan yang merupakan hasil dari uji coba yang berwujud data
kuantitatif dan untuk keperluan analisis validitas itu diperlukan jasa statistik.

Jenis validitas yang termasuk kategori dalam validitas teoritis (rasional) adalah validitas isi
(content validity) dan validitas konstruk (construct validity), sedangkan yang termasuk kategori
dalam validitas empirik adalah validitas bandingan (concurrent validity) dan validitas ramalan
(predictive validity)

1. Validitas teoritis (rasional)


1. Validitas isi

Validitas isi adalah validitas yang mempertannyakan bagaimana kesesuaian antara butir – butir
soal dalam tes dengan deskripsi bahan yang diajarkan. Jadi sebuah soal dikatakan memiliki
validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi
pelajaran yang diberikan. Oleh karena materi yang diajarkan tertera dalam kurikulum maka
validitas isi ini sering juga disebut validitas kurikuler.[2]

Validitas isi dapat diusahakan terciptanya sejak saat penyusunan dengan cara memerinci materi
kurikulum atau materi buku pelajaran. Dalam menganalisisnya dilakukan dengan menggunakan
analisis rasional. Cara yang bisa ditempuh dalam penyusunan tes adalah dengan menyusun kisi –
kisi soal. Setelah kisi – kisi disusun, penulisan butir soal haruslah bardasarkan kisi – kisi yang
telah disusun tersebut. Pada kisi – kisi itu paling tidak harus terdapat aspek kompetensi dasar,
bahan atau diskripsi bahan, indikator, dan jumlah pertannyaan perindikator. Sebelum kisi – kisi
dijadikan pedoman dalam penyusunan butir – butir soal, terlebih dahulu haruslah ditelaah dan
dinyatakan baik. Setelah butir – butir pertannyaan disusun, maka butir – butir pertanyaan juga
harus ditelaah dengan menggunakan kriteri tertentu disamping disesuaikan dengan kisi – kisi.
Penelaahan harus dilakukan oleh orang yang berkompeten dalam bidang yang bersangkutan, atau
yang dikenal dengan istilah penilaian oleh ahlinya (exoert judgement).

1. Validitas konstruk

Validitas konstruk mempertanyakan apakah butir – butir soal dalam tes itu telah sesuai dengan
tingkatan kompetensi atau ranah yang ada yang sesuai dengan tuntutan dalam kurikulum. [3]
Analisis validitas konstruk, suatu tes dapat dilakukan dengan cara melakukan pencocokan antara
kemampuan berfikir yang tercantum dalam setiap rumusan indikator yang akan diukur. Dengan
demikian kegiatan analisis validitas konstruk ini dilakukan secara rasional, dengan berfikir kritis
atau menggunakan logika. Disamping itu, sebagaimana halnya, dalam validitas isi, cara analisis
dapat pula dilakukan dengan melakukan diskusi dengan orang yang ahli di bidang yang
bersangkutan.dengan kata lain uji validitas konstruk dilakukan dengan cara expert judgement.

Uji validitas konstruk juga bisa dilakukan lewat program computer, yaitu dengan menggunakan
analisis faktor. Jika cara ini yang dipakai, uji faliditas tersebut harus berdasarkan data – data
empiric. Hal ini berarti alat tes tersebut harus diuji cobakan terlebih dahulu, dan data – data hasil
uji coba itulah yang kemudian dianalisis dengan computer.

1. Validitas empirik
1. Validitas ramalan

Meramal artinya memprediksikan mengenai suatu hal yang akan terjadi pada masa yang akan
datang, yang saat ini belum terjadi. Sebuah tes dikatakan memiliki validitas ramalan atau
prediksi apabila memiliki kemampuan untuk meramalkan apa yang akan terjadi dimasa yang
akan datang.[4]

Analisis validitas ramalan tes tersebut dilakukan dengan cara mengkorelasikan antara nilai tes
tersebut dengan kriteri atau tolok ukur, misalnya, tes masuk ujian SLTA. Tes ujian masuk SLTA
memiliki validitas ramalan yang baik jika memiliki kesesuaian atau kesejajaran arah antara tes
yang sedang duselidiki atau di uji validitasnya, dengan criteria yang ada. Dengan kata lain
terdapat hubungan searah yang sangat erat antara tes yang sedang di uji validitasnya dengan
criteria yang telah ditentukan. Karena nilai – nilai tes hasil ujian seleksi itu berjalan searah atau
sejajar dengan nilai – nilai tes hasil belajar di SLTA, maka hubungan antara kedua variable
tersebut adalah termasuk kedalam kategori hubungan searah, yang dalam ilmu statistic dikenal
dengan istilah korelasi positif.

Cara yang biasa digunakan untuk mencari dalam rangka ujian validitas ramalan ini adalah
dengan menggunaka teknik analisis korelasional product moment dari Karl Pearson.[5]

Prosedur untuk melakukan uji validitas tes adalah sebagai berikut:

(1) Melakukan komputasi atau perhitungan metematis untuk mencari harga koefisien r Product
Moment dengan rumus:

Adapun langkah langkah perhitungannya adalah:

(a) Menyiapkan table perhitungan untuk mencari nilai 𝜮Y, 𝜮Y, , , dan 𝜮𝜲Y.

(b) Menghitung harga r Product Moment dengan rumus:

(2) Memberikan interprestasi terhadap harga koefisien product moment.


Ada dua cara dalam interprestasi ini, yaitu:

1. Melihat harga r hitung den kemudian dikonsultasikan dengan patokan berikut:

Nilai r Kategori
0,80 – 1,00 Sangat Tinggi

0,60 – 0,79 Tinggi

0,40 – 0,39 Cukup

0,20 – 0,38 Rendah

0,00 – 0,19 Sangat Rendah

1. Memilih harga r hitung dan kemudian di konsultasikan dengan harga r tabel Product
Moment dengan criteria apabila harga r hitung sama dengan atau lebih besar dengan
harga r tabel berarti ada korelasi antara variabel X dengan variabel Y yang berarti tes
yang kita analisis memiliki validitas. Untuk melihat harga r tabel perlu dicari terlebih
dahulu derajat kebabasan (degree of freedom) atau singkatan df dengan rumus: df= N –
nr, dimana N adalah banyaknya peserta tes (testee) dan nr adalah banyaknya variabel
yang dikorelasikan.
2. Validitas bandingan

Validitas bandingan disebut juga dengan istilah validitas sama saat, validitas ada sekarang atau
validitas pengalaman. Sebuah tes dikatakan memiliki validitas pengalaman jika hasilnya sesuai
dengan pengalaman. Dalam hal ini hasil tes dipasangkan dengan hasil pengalaman. Pengalaman
selalu berdasarkan pada hal yang telah lampau sehingga data pengalaman tersebut sekarang
sudah ada (ada sekarang, concurrent).[6]

Dalam rangka menguji validitas pengalaman atau bandingan, data hasil tes yang diperoleh
sekarang kita bandingkan dengan data yang mencerminkan pengalaman yang diperoleh masa
lampau itu. Jika hasil tes sekarang mempunyai hubungan searah dengan hasil tes berdasarkan
pengalaman yang lalu, maka tes tersebut dapat dikatakan telah memiliki validitas bandingan atau
pengalaman.

Cara melakukan analisis validitas bandingan atau pengamalan ini adalah sama seperti pada
analisis validitas ramalan yaitu dengan mengorelasikan hasil yang sekarang dengan hasil tes
yang terdahulu. Hasil tes yang sekarang menjadi variable X dan hasil tes yang dahulu menjadi
variable Y. teknik hasil uji korelasinya juga menggunakan hasil korelasi product moment.

2) Analisis Validitas Butir Soal

Yang dimaksud dengan validitas butir soal adalah ketepatan mengukur yang dimiliki oleh sebutir
soal, yang merupakan bagian tak terpisahkan dari tes sebagai suatu totalitas, dalam mengukur
apa yang seharusnya diukur lewat butir soal tersebut.[7]
Cara untuk menganalisis adalah dengan mengkorelasikan antara skor tiap – tiap soal yang
dicapai oleh masing – masing testee dengan skor total. Sebutir soal dapat dikatakan telah
memiliki validitas yang tinggi atau dapat dinyatakan valid jika skor – skor pada butir soal yang
bersangkutan memiliki kesesuaian atau kesejajaran arah dengan skor total atau dengan bahasa
statistik ada korelasi positif yang signifikan antara skor butir soal dengan skor totalnya. Skor
total disini berkedudukan sebagai variable terikat (dependent variable) sedangkan skor butir soal
berkedudukan sebagai variable bebasnya (independent variable). Jika demikian, maka untuk
sampai pada kesimpulan bahwa butir – butir soal yang ingin diketahui validitasnya, yaitu valid
ataukah tidak, kita dapat menggunakan teknik korelasi sebagai teknik analisisnya. Sebutir soal
dapat dikatakan valid apabila skor butir soal yang bersangkutan terbukti mempunyai korelasi
positif yang signifikan dengan skor totalnya.

Teknik korelasi yang dipandang tepat untuk digunakan dalam analisis validitas butir soal ini
adalah dengan rumus korelasi Point Bisserial. Hal ini melihat karena jenis data yang akan
dianalisis adalah data diskret murni atau data dikhotomik dan data kontinyu.

Indeks korelasi Point Bisserial dibrti lambing , rumus korelasinya adalah sebagai berikut:

Keterangan:

: koefisien korelasi point bisserial yang melambangkan kekuatan korelasi antara variabel I
dengan variabel II, yang dalam hal ini dianggap sebagai koefisien validitas butir soal.

: skor rata – rata hitung yang dimiliki testee, untuk butir soal yang bersangkutan telah dijawab
dengan betul.

: skor rata – rata dari skor total.

: deviasi standar dari skor total.

: proporsi testee yang menjawab betul terhadap butir soal yang di analisis validitasnya.

: proporsi testee yang menjawab salah terhadap butir soal yang di analisis validitasnya.

Langkah – langkah untuk melakukan analisis validitas butir soal adalah sebagai berikut:

(1) Menyiapkan tabel perhitungan korelasi poin bisserial.

(2) Mencari mean atau rata – rata hitung deri skor total ( dengan rumus:

(3) Mencari deviasi standar total (, dengan rumus:

(4) Mencari atau menghitung untuk butir soal yang dianalisis validitasnya.

(5) Menghitung korelasi point bisserialnya ().


(6) Member interprestasi. Untuk memberikan interprestasi kida dapat berkonsultasi dengan
harga r tabel Product Moment dengan terlebih dahulu mencari df (derajad kebebasan), yaitu
dengan cara df = N – nr.

b) Analisis reliabilitas tes

Salah satu syarat tes sebagai salah satu instrumen evaluasi adalah memiliki reliabilitas yang
tinggi. Tes yang memiliki reliable reabilitas tes atau keajegan, ketetapan berhungan dengan
masalah kepercayaan. Suatu tes akan menghasilkan kepercayaan yang tiggi apabila tes tersebut
dapat memberikan hasil yang tetap. Jika hasilnya berubah – ubah, perubahan yeng terjadi dapat
dikatakan tidak berarti.

Hubungan validitas dengan reliabilitas dapat dijelaskan sebagai berikut:

 Validitas itu penting, sedangkan reliabilitas itu perlu, karena reliabilitas itu menyokong
validitas.
 Tes yang valid umumnya reliabel, tetapi tes yang reliabel belum tentu valid.

Untuk memper oleh tes yang memiliki reliabilitas (keajegan) itu memang tidak mudah, karena
unsure kejiwaan manusia sendiri yang menjadi objek pengukuran tidak ajeg. Misalnya:
kemampuan hasil belajar, kecakapan, sikap dan sebagainya itu semua bisa berubah ubah dari
waktu ke waktu.

Hal hal yang mempengaruhi reliabilitas hasil tes:

 Hal – hal yang berhubungan dengan tes itu sendiri, seperti panjang tes dan kualitas butir –
butir tes. Semakin panjang dan semakin baik kualitasnya maka akan semakin tinggi
tingkat reliabilitasnya.
 Hal – hal yang berkaitan dengan testee (peserta tes). Tes yang dikenakan kepada
kelompok yang tidak terpilih atau ditentukan secara acak biasanya reliabilitasnya lebih
besar dibandingan yang dikenakan kepada kelompok testee yang terpilih seperti pada
kelompok anak yang pandai – pandai saja.

v Jenis Analisis Reliabilitas Tes

1. Analisis reliabilitas tes bentuk uraian (essay)

Analisis reliabilitas tes bentuk uraian umumnya menggunakan rumus Alpha dari Cronbach,
karena model scoring soal bentuk uraian ini bukan model dikotomik, kalau benar bernilai satu
dan jika salah bernilai 0, tetapi sekoringnya lebih bersifat kontinum (rentangan angka, misalnya
0 – 5 atau 0 – 10, dan sebagainya).

Adapun rumus Alphanya adalah:

Keterangan:
: koefisien reliabilitas tes.

: banyaknya butir soal yang dikeluarkan dalam tes.

1 : bilangan kostan (menjadi kesepakatan)

: jumlah varian skor dari tiap tiap butir soal.

: Varian total

Langkah – langkah untuk melakukan analisis:

1) Menjumlahkan masing – masing soal yang dicapai semua testee () dan mencari skor total
yang dicapai masing – masing testee () dan mengkuadratkan skor skor total tersebut ().

2) Menghitung jumlah kuadrat skor masing – masing butir soal (disingkat atau ).

3) Menghitung varian dari masing – masing butir soal (item).

4) Menghitung jumlah varian skor butir soal secara keseluruhan.

5) Menghitung varian total () dengan rumus:

6) Menghitung koefisien reliabilitas tes dengan menggunakan rumus Alpha di atas.

7) Memberikan interpretasi terhadap harga koefisien reabilitas tes, dengan menggunakan


patokan sebagai berikut:

1. Apabila sama dengan atau lebih besar dari 0,70 berarti tes hasil belajar yang sedang diuji
reliabilitasnya dinyatakan telah memiliki reliabilitas yang tinggi (reliable).
2. Apabila lebih kecil dari pada 0,70 berarti tes hasil belajar yang sedang diuji
raliabilitasnya dinyatakan belim memiliki reliabilitas yang tinggi (unreliable).

1. Analisis reliabilitas tes bentuk objektif

Penentuan reliabilitas tes bentuk objektif dapat dilakukan melalui salah satu dari pendekatan,
yaitu pendekatan tes ulang (tes – retest), pendekatan tes sejajar (alternate – forms), dan
pendekatan konsisten internal (internal consistency).

1. Pendekatan tes ulang

Pendekatan ini menunjukkan konsistensi pengukuran dari waktu ke waktu dan menghasilkan
koefisien reliabilitas yang sering disebut sebagai koefisien stabilitas. Prinsip penentuan
reliabilitas tes dengan mengenakan satu buah tes yang dilakukan dua kali dengan tenggang
waktu tertentu, terhadap sekelompok subjek yang sama.[8] Pndktan ini jga disebut dengan istilah
single test – double trial method.
Penentuan koefisien reliabilitas pada pendekatan ini dilakukan dengan jalan mengorelasikan skor
hasil pelaksanaan tes pertama dengan skor hasil pelaksanaan tes yang kedua. Teknik korelasi
yang dapat digunakan adalah teknik korelasi Product Moment dari Karl Pearson.

Kelemahan pendekatan tes ulang adalah kurang praktisnya pengenaan tes dua kali dan besarnya
kemungkinan terbawa efek bawaan (carry – effects) dari satu pengenaan tes ke pengenaan yang
kedua.

1. Pendekatan tes sejajar

Pendekatan tes sejajar hanya dapat dilakukan apabila tersedia dua bentuk tes yang dapat
dianggap memenuhi asumsi parallel. Salah satu indikator terpenuhinya asumsi parallel adalah
setaranya korelasi antara skor kedua instrumen tersebut dengan skor suatu ukuran lain.

Tentu saja untuk mendapatkan paralel kedua bentuk instrument harus disusun dengan tujuan
mengukur objek psikologis yang sama, berdasarkan blue print (pola rancangan) yang sama serta
spesifikasi yang sama pula.

Penentu koefisien reliabilitas pada pendekatan ini sama seperti pada pendekatan tes ulang, yaitu
dilakukan dengan cara mengkorelasikan skor hasil tes pertama dengan skor hasil tes yang kedua.
Teknik korelasi yang dapat digunakan adalah teknik korelasi Product Moment dari Karl Pearson.

Kelemahan utama pada pendekatan ini terletak pada sulitnya menyusun dua alat ukur yang
memenuhi persyaratan paralel atau sejajar. Di samping itu pendekatan ini juga tidak
menghilangkan sama sekali kemungkinan terjadinya efek bawaan.

1. Pendekatan konsistensi internal

Estimasi reliabilitas dengan pendekatan konsistensi internal didasarkan pada data sekali
penggunaan satu bentuk tes pada sekelompok subjek (single trial administration).

Penentuan koefisiensi reliabilitas dilakukan setelah keseluruhan instrumen yang telah dikenakan
pada subjek itu dibagi menjadi beberapa bagian. Suatu instrumen dapat dibagi menjadi dua, tiga,
atau empat bagian dan bahkan dapat dibagi menjadi sebanyak jumlah item – itemnya. Bentuk
dan sifat alat ukur serta banyaknya bagian yang dibuat akan menentukan teknik perhitungan
koefisien reliabilitasnya.

1. Analisis reliabilitas tes dengan menggunakan computer (program SPSS)

Langkah – langkah analisis dengan program SPSS adalah sebagai berikut:

1. Membuka program SPSS dengan langkah: klik start, klik program, klik SPSS 11.5 for
windows.
2. Memasukkan data (in put data) pada kolom – kolom yang tersedia dengan
mengetikkannya satu persatu, atau di copy paste lewat data yang telah masuk dalam
program excel.
3. Menghitung koefisiensi reliabilitas dengan langkah: klik analyze, klik scale, dan kli
reability analysis. Maka akan muncul suatu lembar kerja, lalu pindahkan variable yang
akan di analisis dari kolom di sebelah kiri dan kolom sebelah kanan dengan mengklik
tanda panah kecil. Selanjutnya pilih formula yang tepat sesuai dengan jenis data kita,
formula Alpha dan terakhir klik ok.
4. Maka kemudian akan muncul hasil dari koefisien relianilitas.
5. Memberikan inspretasi dengan cara yang sama dengan menggunakan hitungan manual
yaitu dikatakan telah reliabel jika hasil hitungannya sama dengan atau lebih besar dari
0,70. Hasil hitungan tersebut diperoleh dari koefisien reliabilitas Alpha sebesar 0,3405
dan berada di bawah 0,70. Maka dapat disimpulkan bahwa tes tersebut belum reliabilitas.

c) Analisis tingkat kesukaran soal

Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat
kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran
ini biasanya dinyatakan dalam bentuk proporsi yang besarnya berkisar 0,00 – 1,00. Semakin
besar indeks tingkat kesukaranyang diperoleh dari hasil perhitungan, maka semakin mudah soal
itu. Perhitungan indeks tingkat kesukaran ini dilakukan untuk setiap nomor butir soal. Pada
prinsipnya skor rata – rata yang diperoleh testee pada butir soal yang bersangkutan dinamakan
tingkat kesukaran butir soal.

Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya dikaitkan
dengan ujian semester digunakan butir soal yang memiliki tingkat kesukaran sedang. Sedangkan
untuk keperluan seleksi digunakan butir soal yang memiliki tingkat kesukaran tinggi atau sukar,
dan untuk keperluan diagnosis biasanya biasanya dipergunakan butir soal yang memiliki tingkat
kesukaran rendah atau mudah.

Rumus yang dipergunakan untuk menganalisis tingakat kesukaran soal objektif adalah sebagai
berikut:

ITK = indeks tingkat kesukaran soal

B = banyaknya siswa yang menjawab bwnar butir soal

N = banyak siswa yang mengikuti tes

Langkah – langkah analisisnya:

1. Menjumlah skor masing – masing butir soal yang dicapai oleh semua
2. Menghitung indeks tingkat kesukaran butir soal,dengan rumus:

TK

1. Memberikan interprestasi terhadap hasil perhutungan. Cara memberikan inter prestasi


adalah dengan mengkonsultasikan hasil perhitungan indeks tingkat kesukaran tersebut
dengan suatu oatokan atau criteria sebagai berikut:
Indeks Tingkat Kesukaran Kategori
0,00 – 0,30 Soal tergolong sukar

0,31 – 0,70 Soal tergolong sedang

0,71 – 1,00 Soal tergolong mudah

Sedangkan untuk menghitung tingkat kesukaran soal bentuk uraian dengan rumus berikut ini:

Tindak lanjut dari hasil analisis tinggkat kesukaran butir soal ini adalah sebagai berikut:

(a) Mencatat butir soal yang sudah baik (memiliki TK= cukup) dalam buku bank soal.

(b) Bagi soal yang terlalu sukar ada tiga kemungkinan, yaitu: didrop atau dibuang atau diteliti
ulang dimana letak yang membuat soal tersebut terlalu sukar.

(c) Untuk butir yang terlalu mudah juga ada tiga kemungkinan seperti yang dijelaskan pada
point b diatas.

Untuk mengetahui indeks daya pembeda soal bentuk objektif adalah dengan menggunakan
rumus berikut ini.

IDP =

Keterangan:

IDP : indeks daya pembeda soal

BA : jumlah jawaban benar pada kelompok atas

BB : jumlah jawaban benar pada kelompok bawah

N : banyaknya siswa yang mengikuti tes.

d) Analisis daya pembeda soal

Daya pembeda soal adalah kemampuan suatu soal untuk membedakan antra siswa yang
mampu/pandai menguasai materi yang ditanyakan dan siswa yang tidak mampu atau kurang
pandai belum menguasai materi yang ditanyakan. Daya pembeda soal dapat diketahui dengan
melihat besar kecilnya angka indeks daya pembeda. Indeks daya pembeda ini juga dinyatakan
dalam bentuk proporsi. Semakin tinggi indeks daya pembeda soal maka semakin mampu soal
yang bersangkutan membedakan siswa yang pandai dan siswa yang kurang pandai. Indeks daya
pembeda berkisar antara -1,00 sampai dengan 1,00. Semakin tnggi daya pembeda suatu soal
maka semakin kuat atau bail soal itu. Jika daya pembeda negative (<0) erarti lebih banyak
kelompok bawah (siswa yang tidak atau kurang mampu) yang menjawab benar soal itu
dibandingkan dengan kelompok atas (siswa yang mampu). Indeks daya pembeda soal tersebut
dapat digambarkan dalam sebuah garis kontinum.

Untuk mengetahui indeks daya pembeda soal bentuk objektif adalah dengan menggunakan
rumus berikut ini.

IDP =

Keterangan:

IDP : indeks daya pembeda soal

BA : jumlah jawaban benar pada kelompok atas

BB : jumlah jawaban benar pada kelompok bawah

N : banyaknya siswa yang mengikuti tes.

Soal yang tidak baik adalah soal yang ketika digunakan muncul tiga kemungkinan berikut:

1. Siswa yang pandai dan yang tidak pandai sama – sama menguasai dan sama – sama bisa
menjawab dwngan benar;
2. Siswa yang pandai dan yang tidak pandai sama – sama tidak dapat menjawab dengan
benar;
3. Siswa yang pandai tidak dapat menjawab dengan benar, sebaliknya siswa yang tidak
pandai justru dapat menjawab denan benar.

Langkah – langkah analisis:

1. Menjumlah skor total yang dicapai oleh masing – masing siswa (testee) dan skor total
setiap butir soal dengan sekaligus membagi testee menjadi dua kelompok adas dan
kelompok bawah.
2. Membagi para testee menjadi dua kelompok, yaitu kelompok atas (kelompok testee yang
memperoleh skor tinggi) dan kelompok bawah (kelompok testee yang memperoleh skor
rendah) dan selanjutnya membubuhkan kode pada testee, yang masuk kelompok atas
dengan kode A dan testeekolompok bawah dengan kode B. care pembagian kelompok ini
ada dua cara:
1. Untuk jumlah kecil yakni jumlah testee kurang dari 100, caranya adalah seluruh
testee dibagi menjadi dua bagian sama besar, 50% untuk kelompok atas dan 50%
untuk kelompok bawah. Untuk menentukan siapa saja yang masuk kelompok atas
dan yang mauk kelompok bawah terlebih dahulu para testee tersebut diurutkan
dari yang memperoleh skor tertinggi hingga skor terendah. Bila jumlah testee
ganjil, maka teste yang menduduki urutan tengah dapat diikutkan kelompok atas
sekaligus kelompok bawah.
2. Apabila jumlah testee lebih dari 100 (jumlah besar), maka kelompok atas cukup
diambil 27%nya mulai dari testee yang memperoleh skor tertinggi dan di ambil
pula kelompok bawah 27% nya juga dan diambil dari testee yang memperoleh
skor terendah.
3. Menghitung indek daya beda butir soal dengan rumus diatas.
4. Memberikan interpretasi terhadap hasil perhitungan. Cara member interpretasi
adalah dengan cara mengkonsultasikan hasil perhitungan indeks tingkat daya
pembeda tersebut dengan suatu patokan atau criteria sebagai berikut:

Indeks Daya Beda Klasifikasi Interpretasi


Tanda negative No discrimination Tidak ada daya beda

<0,20 Poor Daya beda lemah

0,20 – 0,39 Satisfactory Daya beda cukup

0,40 – 0,69 Good Daya beda baik

0,70 – 1,00 excellent Daya beda baik sekali

Untuk mengetahui daya beda mengetahui daya beda soal bentuk uraian adalah dengan
menggunakan rumus berikut ini.

IDP =

Langkah langkah analisis:

1) Membuat tabel perhitungan untuk menentukan kelompok atas dan kelompok bawah. Untuk
menentukan pembagian kelompok ini langsung mkelihat skor masing – masing testee pada butir
soal yang dianalisis, jadi tidak perlu melihat skor total yang dicapai masing – masing testee
untuk setiap butir.

2) Menghitung indek daya pembeda dengan terlebih dahulu menghitung mean (rata – rata
hitung) kelompok atas (MA) dan kelompok bawah (MB).

e) Analisis fungsi distraktor

Analisis fungsi distraktor dilakukan khusus untuk soal bentuk objektif model pilihan ganda
(multiple choice item). Didalam soal pilihan ganda dilengkapi dengan beberapa alternative
jawaban yang disebut dengan option (opsi). Opsi biasa berkisar antara 3 sampai dengan 5 buah.
Dari opsi tersebut terdapat salah satu jawaban yang benar dan itu yang disebut dengan kunci
jawaban, sedangkan sisanya merupakan jawaban salah yang disebut dengan distraktor
(pengecoh).

Analisis distraktor dimaksud untuk mengetahui apakah distraktor tersebut telah berfungsi secara
afektif atau tidak.

Suatu distraktor atau pengecoh dapat dikatakan berfungsi efektif apabila:


1. Paling tidak dipilih oleh 5% peserta tes.
2. Lebih banyak dipilih oleh kelompok bawah.

f) Analisis butir soal dengan program computer

Analisis butir soal dengan program koputer dapat dilakukan antara lain dengan menggunakan
program iteman.

Langkah – langkah melakukan program iteman dari pemasukan data ke dalam computer hingga
sosialisasi hasil.

1. Cara pemasukan data


1. Klik star, program, accessories dan pilih notpad.
2. Masukkan data ke file.
3. Simpan hasil pengetikan data dalam satu folder dengan program iteman. Contoh:
UIN1, dan keluar dari notepad.
4. Langkah analisis
1. Buka program iteman dengan cara buka window exsplore dan cari
program iteman dan klik dua kali.
2. Setelah muncul program microcat testing system dandibawahnya berturut
– turut aka nada perintah yang muncul, dan ikutilah.
3. Setelah semua perintah di ikut I dan selesai serta hasil dapat di lihat,
keluar dari program iteman.
4. Melihat hasil analisis

Bisa melalui program notepad atau lewat windows exsplor dan cari file out put lalu klik dua kali.

1. Membaca atau menafsirkan hasil analisis

1) Hasil analisis iteman terdiri dari item statistic dan alternative statistic.

2) Hasil lain analisis iteman adalah data – data statistic yang diperoleh dari pemasukan data.

1. Analisis Kualitas Instrumen Evaluasi Hasil Belajar Afektif

Analisis instrument penilaian afektif juga sama seperti halnya instrument penilaian kognitif dan
psikomotor, dalam arti dapat dilakukan analisis secara kualitatif dan kuantitatif (analisis
empiric). Perlu diketahui bahwa tidak semua mata pelajaran dievaluasi aspek psikomotornya
kalau memang dalam mata pelajaran yang bersangkutan tidak ada muatan kemampuan
psikomotornya. Cara melakukan analisis secara kualitatif untuk instrument penilaian psikomotor
ini sama dengan analisis instrument penilaian kognitif.

1. Analisis Kualitas Instrumen Evaluasi Hasil Belajar Psikomotorik

Analisis instrument hasil belajar psikomotor juga dapat dianalisis secarateoritik atau analisis
kualitatif dan analisis secara kuantitatif.
v Prosedur Standar Pengembangan Instrumen Penilaian Hasil Belajar bidang Psikomotor

Prosedur standar pengembangan instrumen pada bidang psikomotor pada hakikatnya hampir
sama dengan bidang kognitif. Prosedur standar tersebut yaitu (1) Identifikasi Tujuan dan
Kawasan Ukur (2) Mengkaji secara teoretik dan praktik performansi maksimal yang diharapkan
(3) Menentukan indikator-indikator penilaian, (4) menjabarkan indikator-indikator penilaian
menjadi instrumen penilaian yang terdiri dari lembar penilaian dan rubric (5) Uji keterbacaan
instrumen oleh pengguna, (6) uji coba pengadministrasian, dan (7) analisis data untuk
mengetahui indeks validitas dan reliabilitas data.

Identifikasi tujuan merupakan aspek penting dalam penyusunan suatu instrument pengukuran
dan penilaian. Tujuan dirumuskan berdasarkan maksud untuk apa instrument tersebut disusun.
Suatu instrument yang dimaksudkan untuk keperluan seleksi akan berbeda dengan instrument
untuk keperluan pencapaian hasil belajar.

Mengkaji secara teoretik dan praktik performansi maksimal yang diharapkan merupakan langkah
kedua yang penting dalam penyusunan instrumen bidang psikomotor. Pada tahap ini, berbagai
teori yang berkaitan dengan trait psikologis yang sedang dikembangkan instrumennya dikaji.
Dengan cara ini validitas konstruk instrument akan terpenuhi.

Langkah ketiga dalam pengembangan instrumen pengukuran dan penilaian bidang psikomotor
adalah merumuskan indikator-indikator penilaian. Indikator-indikator ini disusun berdasarkan
analisis trait atau atribut psikologis yang sedang dikembangkan instrumennya.

Langkah selanjutnya adalah menjabarkan indicator-indikator penilaian menjadi instrument


penilaian yang terdiri dari lembar penilaian dan rubric. Lembar penilaian berisi aspek-aspek yang
dinilai dan skala ukur. Sedangkan rubric berisi tentang pedoman pemberian sekor khususnya
pada hal-hal yang bersifat subyektif.

Uji keterbacaan instrumen dimaksudkan untuk mengetahui efektifitas fungsi aspek-aspek


penilaian dan kalimat-kalimat yang dipakai. Hal ini penting untuk dilakukan agar tidak terjadi
kesalahan persepsi penilaia terhadap apa yang dinilaianya.

Uji coba pengadministrasian adalah suatu uji coba untuk menggunakan instrument dalam situasi
nyata. Uji coba ini dilakukan pada subjek yang sesuai dengan sasaran penilaian seperti pada
tujuan penilaian.

Analisis data merupakan langkah terakhir dari pengembangan instrument. Melalui analisis data
tersebut dapat diketahui kehandalan dan validitas instrument yang sedang diukur.

v Syarat-Syarat Instrumen Penilaian yang Baik

Instrumen pengukuran yang baik adalah istrumen yang didesain secara hati-hati dan dievaluasi
secara empirik untuk memastikan keakuratan dan infromasi penggunaannya.[9] Menurut
pendapat ini, instrumen yang baik harus melalui dua tahapan. Tahapan pertama adalah tahap
desain yang terdiri dari empat criteria, yaitu (1) tujuan didefinisikan secara jelas, (2) materi yang
standard an spesifik, (3) prosedur pengadministrasian yang terstandarisasi, dan (4) aturan
pensekoran. Tahapan kedua adalah tahap evaluasi yang berupa tahap pengumpulan data dan
analisis data yang kemudian data tersebut dipergunakan untuk mengidentifikasi psychometric
property, yang ditunjukkan dengan analisis respon terhadap item-item tes. Dua hal penting dalam
psychometric propertys adalah reliability dan validity.

Konsep reliabilitas mengandung ide pokok seberapa jauh hasil suatu pengukuran dapat
dipercaya.[10] Istilah lain dari reliabilitas adalah keterpercayaan, keterandalan, keajegan,
kestabilan, konsistensi. Instrumen dikatakan reliable jika membuahkan hasil yang akurat dan
stabil.

Reliabilitas alat ukur berkiatan erat dengan masalah kesalahan pengukuran (error of
measurement), yaitu menunjuk pada seberapa jauh inkonsistensi hasil pengukuran terjadi apabila
pengukuran dilakukan ulang pada kelompok subjek yang sama.

Konsep reliabilitas dalam arti reliabilitas hasil ukur erat berkiatan dengan kesalahan dalam
pengambilan sampel (sampling error) yang mengacu pada inkonsistensi hasil ukur apabila
pengukuran dilakukan ulang pada kelompok individu yang berbeda. Tinggi rendahnya
reliabilitas ditunjukkan oleh angka indeks yang disebut koefisien reliabilitas. Secara teoretik
besarnya koefisien berkisar muali 0,0 sampai dengan 1,0. Koefisien reliabilitas dikatakan tinggi
apabila indeksnya 0,9 atau lebih, sedang = 0,8 sampai dengan 0,9 dan rendah di bawah 0,8.[11]

Ada beberapa tipe analisis reliabilitas yang dikenal, yaitu: (1) test-retest, (2) bentuk Paralel,
(3) Konsistensi Internal, (4) Skor Komposit, (5) Skor Perbedaan, dan (6) Hasil Rating (Azwar,
2000: 55-125).

Test-retest (tes ulang) adalah suatu pendekatan untuk mengetahui indeks reliabilitas dengan jalan
menyajikan instrumen kepada kelompok subjek yang sama sebanyak dua kali dengan
memberikan tenggang waktu tertetnu di antara kedua penyajian tersebut. Skor yang diperoleh
dari kedua penyajian tersebut kemudian dikorelasikan dengan teknik korelasi Product Moment
dari Pearson untuk memperoleh indeks reliabilitas tes yang diinginkan.

Bentuk Paralel adalah suatu pendekatan untuk mengetahui indeks reliabilitas dengan jalan
menyajikan sekaligus dua bentuk tes yang paralel satu sama lain kepada sekelompok subjek.
Dalam pelaksanaannya kedua perangkat tes tersebut bisa digabungkan terlebih dahulu baru
kemudian dipisahkan lagi pada waktu melakukan skoring. Skor yang diperoleh dari kedua
perangkat tes tersebut kemudian dikorelasikan dengan teknik korelasi Product Moment dari
Pearson untuk mendapatkan indeks reliabilitas.

Estimasi reliabilitas konsistensi internal dilakukan dengan cara menyajikan instrumen kepada
kelompok individu sebagai subjek sebanyak sekali. Respon yang diperoleh dari pengerjaan
instrumen tersebut kemudian diolah dengan teknik pembelahan tes. Di dalam pembalahan tes
selalu diupayakan agar setiap belahan tes homogen sehingga jumlah item, taraf kesukaran, dan
isi sebanding dan memenuhi ciri-ciri paralelisme. Banyak formula yang bisa digunakan untuk
mengestimasi reliabilitas instrumen dengan teknik pembelahan tes tersebut, yaitu: Formula
Spearman Brown, Rulon, Flanagan; Guttman, Mossier, Feldt, Horst, Cronbach’s Alpha, Kuder
Richardson, Kristof, dan Analisis Varians.[12]

Reliabilitas skor komposit diberlakukan apabila skor subjek pada tes tidak berasal dari satu
sumber saja, melainkan gabungan dari beberapa skor. Skor gabungan tersebut bisa berasal dari
komponen atau sub tesnya, atau dari tes yang lain. Setiap bagian tes mempunyai bobot masing-
masing yang ditunjukkan dengan seberapa besar sumbangannya terhadap skor akhir.

Reliabilitas skor perbedaan diberlakukan apabila skor subjek pada suatu tes merupakan selisih
antara skor dua komponen yang membentuk tes itu (Azwar, 2000: 103). Pada kasus ini terlebih
dahulu dicari indeks reliabilitas untuk setiap komponen serta indeks korelasi diantara kedua
komponen tersebut, baru setelah itu bisa dicari indeks reliabilitas skor perbedaan.

Reliabilitas hasil rating diberlakukan pada kasus-kasus dimana skor yang diperoleh merupakan
judgment subjektif terhadap aspek atau atribut tertentu yang dilakukan melalui pengamtan
sistematis secara langsung atau tidak langsung (Azwar, 2000: 105). Ada dua cara yang bisa
ditempuh untuk mengestimasi reliabilitas hasil rating, yaitu: pertama, dengan memberikan rating
ulang pada atribut yang sama, kemudian hasil dari kedua rating tersebut dikorelasikan dengan
teknik rank-order correlation. Kedua, pemberian rating yang dilakukan sekaligus oleh beberapa
orang raters yang berbeda dan independen satu dengan yang lain. Cara kedua ini sering banyak
dipergunakan dengan alasan lebih praktis serta menghindari faktor ingatan dari rater.

Validitas mengandung konsep pengertian sejuahmana tes mempu mengukur atribut yang
seharusnya diukur.[13] Berdasarkan pengertian ini validitas instrumen berkaitan erat dengan
rumusan tujuan yang telah ditetapkan sebelumnya. Suatu instrumen dikatakan mempunyai
validitas yang tinggi apabila mampu menjalankan fungsinya sehingga menghasilkan data yang
sesuai dengan tujuan dilakukannya pengukuran/penilaian. Di samping itu instrumen dikatakan
valid apabila mampu memberikan gambaran perbedaan sekecil-kecilnya di antara subjek yang
satu dengan yang lainnya.

Ada tiga tipe validitas, yaitu (1) content validity (validitas isi) (2) construct validity (validitas
konstruk), dan (3) criterian-related validity (validitas berdasar criteria.[14] Validitas isi adalah
tipe validitas yang diestimasi melalui analisis rasional terhadap isi suatu instrumen pengukuran.
Validitas isi tercermin dari sejauh mana butir-butir tes mencerminkan keseluruhan kawasan isi
objek yang hendak diukur. Estimasi validitas ini tidak melalui perhitungan statistik tetapi melalui
judgment subjektif dari para ahli. Validitas isi terbagi menjadi dua macam, yaitu validitas muka
dan validitas logic. Validitas muka diperoleh apabila suatu instrumen mengukur trait yang
relevan, artinya butir-butir tes/skala tersebut tidak menyimpang dari tujuan dilakukannya
pengukuran. Validitas logik atau validitas sampling mencakup definisi yang cermat dari domain
perilaku yang akan diukur dengan tes/skala dan desain logis dari item/butir instrumen untuk
mencakup keseluruhan kawasan domain yang diukur.

Validitas konstruk adalah tipe validitas yang ditunjukkan dengan sejauhmana tes/skala
mengungkap suatu trait atau konstruk teoretik yang hendak diukurnya.[15] Untuk memperoleh
validitas konstruk harus didahului analisis teoretik terhadap atribut yang hendak digali
informasinya.

Validitas berdasarkan kriteria adalah validitas yang diperoleh dengan jalan mengkorelasikan skor
tes dengan suatu kriteria tertentu. Kriteria yang dimaksudkan di sini adalah variabel perilaku
yang akan dipresiksikan atau ukuran lain yang relevan. Berdasarkan pengertian ini prosedur
validasi yang dipergunakan ada dua macam yaitu dengan cara mengkorelasikan skor tes/sekala
dengan skor tes/sekala lain yang relevan yang datanya bisa diperoleh secara bersamaan, biasa
disebut concurrent validity, dan mengkorelasikan skor tes/sekala dengan skor tes/sekala yang
diprediksikan pada waktu yang akan datang yang biasa disebut dengan prediktive validity.

Validitas prediktif instrumen merupakan salah satu tipe validitas yang penting dalam suatu
sistem seleksi. Suatu instrumen yang baik dapat dengan cermat memprediksikan performansi
calon siswa/mahasiswa di kemudian hari. Tinggi rendahnya validitas prediktif instrumen
diwujudkan dalam suatu indeks validitas prediktif yang tingginya berkisar antara 0,0 sampai
dengan 1,0.

Ada beberapa faktor yang mempengerahui tinggi rendahnya indeks validitas prediktif dalam
suatu sistem seleksi. Di antaranya adalah akibat terjadinya (1) restriksi sebaran, dan (2)
rendahnya indeks reliabilitas instrumen prediktor maupun kreteriumnya.

Restriksi sebaran adalah terjadinya penyempitan distribusi skor yang diakibatkan oleh semakin
sedikitnya anggota populasi yang diamati. Hal ini disebabkan karena tidak semua peserta yang
terlibat dalam suatu sistem seleksi diterima. Akibatnya populasi menjadi lebih homogen (varians
skor menjadi kecil). Akibat selanjutnya indeks validitas predektif menjadi rendah.

Tinggi rendahnya indeks validitas prediktif juga dipengaruhi oleh rendahnya indeks kehandalan
instrumen baik pada variabel prediktor maupun kriterium. Suatu instrumen sesungguhnya
mempunyai indeks validitas yang lebih tinggi dari pada validitas murni yang diperoleh pada
keadaan indeks kehandalan salah satu atau kedua instrumen (prediktor dan atau kriterium)
rendah.

3.Syarat-Syarat Evaluasi Pembelajaran yang Baik


Sebuah instrumen evaluasi hasil belajar hendaknya memenuhi syarat sebelum di gunakan
untuk mengevaluasi atau mengadakan penilaian agar terhindar dari kesalahan dan hasil yang tidak
valid (tidak sesuai kenyataan sebenarnya). Alat evaluasi yang kurang baik dapat mengakibatkan hasil
penilaian menjadi bias atau tidak sesuainya hasil penilaian dengan kenyataan yang sebenarnya,
seperti contoh anak yang pintar dinilai tidak mampu atau sebaliknya.
Jika terjadi demikian perlu ditanyakan apakah persyaratan instrumen yang digunakan menilai
sudah sesuai dengan kaidah-kaidah penyusunan instrumen.
Instrumen Evaluasi yang baik memiliki ciri-ciri dan harus memenuhi beberapa kaidah antara
lain :
* Validitas
* Reliabilitas
* Objectivitas
* Pratikabilitas
* Ekomonis
* Taraf Kesukaran
* Daya Pembeda
Validitas
Menurut Kamus Besar Bahasa Indonesia bahwa Validitas diartikan sebagai sifat benar,
menurut bukti yang ada, logika berfikir, atau kekuatan hokum. Menurut Diknas bahwa validitas adalah
kemampuan suatu alat ukur untuk mengukur sasaran ukurnya. Sedangkan menurut Wiki pedia
Indonesia diterjemahkan , kesahihan, kebenaran yang diperkuat oleh bukti atau data. Validitas
berasal dari kata validity yang mempunyai arti sejauh mana ketepatan dan kecermatan suatu alat
ukur dalam melakukan fungsi ukurnya.
Sisi lain dari pengertian validitas adalah aspek kecermatan pengukuran. Suatu alat ukur yang
valid tidak hanya mampu menghasilkan data yang tepat akan tetapi juga harus memberikan
gambaran yang cermat mengenai data tersebut. Dengan demikian kata valid sering diartikan dengan
tepat, benar, sahih, absah, sehingga kata valid dapat diartikan ketepatan, kebenaran, kesahihan, atau
keabsahan. Menurut Anas Sujiono apabila kata valid dikaitkan dengan fungsi tes sebagai alat
pengukur maka tes dikatakan valid adalah apabila tes tersebut dengan secara tepat, secara benar,
secara sahih, atau secara absah dapat mengukur apa yang seharusnya diukur, dengan kata lain tes
dapat dikatakan telah memiliki Validitas apabila tes tersebut dengan secara tepat, benar, sahih atau
absah telah dapat mengungkap atau mengukur apa yang seharus diungkap atau diukur lewat tes
tersebut. Suatu skala atau instrumen pengukur dapat dikatakan mempunyai validitas yang tinggi
apabila instrumen tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai
dengan maksud dilakukannya pengukuran tersebut. Sedangkan tes yang memiliki validitas rendah
akan menghasilkan data yang tidak relevan dengan tujuan pengukuran.
Dalam kaitannya dengan tes dan penilaian, Retno mengemukakan tiga pokok pengertian yang
bisa digunakan sebagai berikut :
a. Validitas berkenaan dengan hasil dari sutu alat tes atau alat evaluasi, dan tidak menyangkut alat itu
sendiri. Tes intelegensi sebagai alat untuk melakukan tes kecerdasan hasilnya valid , tapi kalau
digunakan untuk melakukan tes hasil belajar tidak valid.
b. Validitas adalah persoalan yang menyangkut tingkat (derajat), sehingga istilah yang digunakan adalah
derajat validitas suatu tes maka suatu tes ada yangh disebut validitasnya tinggi, sedang dan rendah.
c. Validitas selalu dibatasi pada pengkususannya dalam penggunaan dan tidak pernah dalam arti kualitas
yang umum. Suatu tes berhitung mungkin tinggi validitasnya untuk mengukur keterampilan
menjumlah angka, tetapi rendah validitasnya untuk mengukur berfikir matematis dan sedang
validitasnya untuk meramal keberhasilan siswa dalam pelajaran matematik yang akan datang.
Validitas adalah kesahihan pengukuran atau penilaian dalam penelitian. Dalam analisis isi,
validitas dilakukan dengan berbagai cara atau metode sebagai berikut.
1. Pengukuran produktivitas (productivity), yaitu derajat di mana suatu studi menunjukkan indikator yang
tepat yang berhubungan dengan variabel.
2. Predictive validity, yaitu derajat kemampuan pengukuran dengan peristiwa yang akan datang.
3. Construct validity, yaitu derajat kesesuaian teori dan konsep yang dipakai dengan alat pengukuran
yang dipakai dalam penelitian tersebut.
Macam-macam Validitas
Menurut Suharsimi ada dua jenis validitas yaitu validitas logis dan validitas empiris.
Sementara Retno validitas itu terbagi menjadi lima tipe yaitu validitas tampang (face validity),
validitas logis (logical validity), validitas vaktor (factorikal validity), Validitas isi (conten validity), dan
validitas empiris (empirical validity). Sedangkan menurut Anas ternik pengujian validitas hasil belajar
secara garis besar dapat dibagi dua, yaitu pengujian validitas tes secara rasional dan pengujian
validitas tes secara empirik.
Pada dasarnya para ahli pendidikan melihat pengujian validitas tes itu dapat dilihat dari:
1. Pengujian validitas tes secara rasional.
Istilah lain dari istilah validitas rasional adalah validitas logika, validitas ideal atau validitas
dassollen. Istilah validitas logika (logical validity) mengandung kata logis berasal dari kata logika yang
berarti penalaran. Dengan makna demikian bahwa validitas logis untuk sebuah instrumen yang
memenuhi persyaratan valid berdasarkan hasil penalaran, kondisi valid tersebut dipandang terpenuhi
karena instrumen bersangkutan sudah dirancang secara baik mengikuti teori dan ketentuan yang ada.
Dengan demikian validitas logis ini dikatakan benar apabila tes yang dilakukan sesuai denga
ketentuan, peraturan dan teori yang ada, sehingga suatu tes itu dapat dikatakan valid dapat dilihat
setelah instrumen soal tes tersebut telah selesai dibuat.
2. Pengujian Validitas Tes secara Empiris
Istilah “Validitas empiris” memuat kata “empiris” yang artinya “pengalaman” sebuah
instrumen dapat dikatakan memiliki validitas empiris apabila sudah diuji dari pengalaman. Yang
dimaksud dengan validitas empiris adalah ketepatan mengukur yang didasarkan pada hasil analisis
yang bersifat empirik. Sedangkan menurut Ebel bahwa Empirical Validity adalah validitas yang
berkenaan dengan hubungan antara skor dengan suatu kriteria. Kriteria tersebut adalah ukuran yang
bebas dan langsung dengan apa yang ingin diramalkan oleh pengukuran.

Faktor-faktor yang mempengaruhi Validitas


Menurut Retno ada beberapa hal yang mempengaruhi validitas alat pengukur sebagai berikut :
1. Faktor di dalam tes itu sendiri
2. Faktor dalam respon siswa, ini terjadi jika : Siswa mengalami gangguan emosional dalam
menjawab tes, Siswa hanya cendrung menerka-nerka dalam menjawab tes,
3. Faktor dalam mengadministrasi tes dan pembijian.
Sebuah Instrumen Evaluasi dikatakan baik manakala memiliki validitas yang tinggi. Yang
dimaksud Validitas disini adalah kemampuan instrumen tersebut mengukur apa yang seharusnya
diukur. Ada tiga Aspek yang hendak dievaluasi dalam evaluasi hasil belajar yaitu Aspek Kognitif,
Psikomotor dan Afektif.Tinggi Rendahnya validitas instrumen dapat di hitung dengan uji validitas dan
di nyatakan dengan koefisien validitas.
Reliabilitas
Instrumen dikatakan memiliki reliabilitas yang tinggi manakala instrumen tersebut dapat
menghasilkan hasil pengukuran yang ajeg. Keajegan/ketetapan disini tidak diartikan selalu sama
tetapi mengikuti perubahan secara ajeg. Jika keadaan seseorang si upik berada lebih rendah
dibandingkan orang lain misalnya si Badu, maka jika dilakukan pengukuran ulang hasilnya si upik juga
berada lebih rendah terhadap si badu. Tinggi rendahnya reliabilitas ini dapat di hitung dengan uji
reliabilitias dan dinyatakan dengan koefisien reliabilitas.

Objectivitas
Instrumen evaluasi hendaknya terhindar dari pengaruh-pengaruh subyektifitas pribadi dari si
evaluator dalam menetapkan hasilnya. Dalam menekan pengaruh subyektifitas yang tidak bisa
dihindari hendaknya evaluasi dilakukan mengacu kepada pedoman tertama menyangkut masalah
kontinuitas dan komprehensif.
Evaluasi harus dilakukan secara kontinu (terus-menerus). Dengan evaluasi yang berkali-kali
dilakukan maka evaluator akan memperoleh gambaran yang lebih jelas tentang keadaan Audience
yang dinilai. Evaluasi yang diadakan secara on the spot dan hanya satu atau dua kali, tidak akan
dapat memberikan hasil yang obyektif tentang keadaan audience yang di evaluasi. Faktor kebetulan
akan sangat mengganggu hasilnya.

Praktikabilitas
Sebuah intrumen evaluasi dikatakan memiliki praktikabilitas yang tinggi apabila bersifat
praktis mudah pengadministrasiannya dan memiliki ciri : Mudah dilaksanakan, tidak menuntut
peralatan yang banyak dan memberi kebebasan kepada audience mengerjakan yang dianggap mudah
terlebih dahulu. Mudah pemeriksaannya artinya dilengkapi pedoman skoring, kunci jawaban.
Dilengkapi petunjuk yang jelas sehingga dapat di laksanakan oleh orang lain.
Ekonomis
Pelaksanaan evaluasi menggunakan instrumen tersebut tidak membutuhkan biaya yang mahal
tenaga yang banyak dan waktu yang lama.

Taraf Kesukaran
Instrumen yang baik terdiri dari butir-butir instrumen yang tidak terlalu mudah dan tidak terlalu
sukar. Butir soal yang terlalu mudah tidak mampu merangsang audience mempertinggi usaha
memecahkannya sebaliknya kalau terlalu sukar membuat audiece putus asa dan tidak memiliki
semangat untuk mencoba lagi karena diluar jangkauannya. Di dalam isitlah evaluasi index kesukaran
ini diberi simbul p yang dinyatakan dengan “Proporsi”.
Daya Pembeda
Daya pembeda sebuah instrumen adalah kemampuan instrumen tersebut membedakan antara
audience yang pandai (berkemampuan tinggi) dengan audience yang tidak pandai (berkemampuan
rendah). Indek daya pembeda ini disingkat dengan D dan dinyatakan dengan Index Diskriminasi.
(Ulianta, Artikel Pendidikan).
Sependapat dengan syarat-syarat di atas, maka Sukardi (2008 : 8) mengemukakan bahwa,
suatu evaluasi memenuhi syarat-syarat sebelum diterapkan kepada siswa yang kemudian
direfleksikan dalam bentuk tingkah laku. Evaluasi yang baik, harus mempunyai syarat seperti berikut:
1) valid, 2) andal, 3) objektif , 4) seimbang, 5) membedakan, 6) norma, 7) fair, dan 8) praktis.
Sedangkan Wina Sanjaya (2008: 352-354), mengatakan bahwa syarat-syarat alat evaluasi
yang baik harus:
a. Memberikan motivasi
Memberikan penilaian evaluasi diarahkan untuk meninkatkan motivasi belajar bagi siswa melalui
upaya pemahaman akan kekuatan dan kelemahan yang dimiliki baik oleh guru maupun siswa. Siswa
perlu memahami makna dari hasil penilaian.

b. Validitas
Penilaian diarahkan bukan semata-mata untuk melengkapi syarat administrasi saja, akan tetapi
diarahkan untuk memperoleh informasi tentang ketercapaian kompetensi seperti yang terumuskanan
dalam kurikulum. Oleh sebab itu, penilaian tidak menyimpang dari kompetensi yang ingin dicapai.
Dengan kata lain penilaian harus menjamin validitas.

c. Adil
Setiap siswa memiliki kesempatan yang sama dalam proses pembelajaran tanpa memandang
perbedaan sosial-ekonomi, latar belakang budaya dan kemampuan. Dalam penilaian, siswa
disejajarkan untuk mendapatkan perlakuan yang sama.
d. Terbuka
Alat penilaian yang baik adalah alat penilaian yang dipahami baik oleh penilai maupun yang dinilai.
Siswa perlu memahami jenis atau prosedur penilaian yang akan dilakukan beserta kriteria penilaian.
Keterbukaan ini bukan hanya akan mendorong siswa untuk memperoleh hasil yang baik sehingga
motovasi belajara mereka akan bertambah juga, akan tetapi sekaligus mereka akan memahami posisi
mereka sendiri dalam pencapaian kompetensi.
e. Berkesinambungan
Penilaian tidak pernah mengenal waktu kapan penilaian seharusnya dilakukan. Penilaian dilakukan
secara terus-menerus dan berkesinambungan.
f. Bermakna
Penilaian tersusun dan terarah akan memberikan makna kepada semua pihak khususnya siswa untuk
mengetahui posisi mereka dalam memperoleh kompetensi dan memahami kesulitan yang dihadapi
dalam mencapai kompetensi. Dengan demikian, hasil penilaian itu juga bermakna bagi guru juga
termasuk bagi orang tua dalam memberika bimbingan kepada siswa dalam upaya memperoleh
kompetensi sesuai dengan target kurikulum.
g. Menyeluruh
Kurikulum diarahkan untuk perkembangan siswa secara utuh, baik perkembangan afektif, kognitif
maupun psikomotorik. Oleh sebab itu, guru dalam melaksanakan penilaian harus menggunakan
ragam penilaian, misalnya tes, penilaian produk, skala sikap, penampilan, dan sebagainya. Hal ini
sangat penting, sebab hasil penilaian harus memberikan informasi secara utuk tentang perkembangan
setiap aspek.
h. Edukatif
Penilaian kelas tidak semata-mata diarahkan untuk memperoleh gambaran kemampuan siswa dalam
pencapaian kompetensi melalui angka yang diperoleh, akan tetapi hasil penilaian harus memeberikan
umpan balik untuk memperbaiki proses pembelajaran, baik yang dilakukan oleh guru maupun siswa,
sehingga hasil belajar lebih optimal. Dengan demikian, proses penilaian tidak semata-mata tanggung
jawab guru akan tetapi juga merupakan tanggung jawab siswa. Artinya siswa harus ikut terlibat dalam
proses penilaian, sehingga mereka meyadari, bahwa penilaian adalah bagian dari proses pembelajara.

Pengujian Validitas Tes Secara Rasional

Tes hasil belajar yang setelah dilakukan penganalisaan secara rasional ternyata memiliki

daya ketepatan mengukur, disebut tes hasil belajar yang telah memiliki validitas logika (logical

validity). Validitas rasional adalah validitas yang diperoleh atas dasar hasil pemikiran, validitas

yang diperoleh dengan berpikir secara logis.

Validitas tes dapat dibedakan menjadi tiga macam berdasarkan tiga sudut pandang (dari arah

isi yang diukur, dari arah rekaan teoritis atau disebut contruct atribut yang diukur, dan dari arah

kriteria alat ukur), yaitu; 1). validitas isi (content validity), 2). validitas kontruksi (construct

validity), dan 3). validitas berdasar kriteria (criterion-related validity).

1) Validitas isi (content validity)

Validitas isi adalah validitas yang ditilik dari segi isi tes itu sendiri sebagai alat pengukur

hasil belajar peserta didik, isinya telah dapat mewakili secara representatif terhadap keseluruhan

materi atau bahan pelajaran yang seharusnya diteskan (diujikan). Jadi, validitas isi sebenarnya
identik dengan pembicaraan tentang populasi dan sampel. Sedangkan menurut sumarna

(2004:51) menyatakan bahwa validitas isi sering pula dinamakan validitas kurikulum yang

mengandung arti bahwa suatu alat ukur dipandang valid apabila sesuai dengan isi kurikulum

yang hendak diukur.

Kalau saja keseluruhan materi pelajaran yang telah diberikan kepada peserta didik atau

sudah diperintahkan untuk dipelajari oleh peserta didik kita anggap sebagai populasi, dan isi tes

hasil belajar dalam mata pelajaran yang sama kita anggap sebagai sampelnya, maka tes hasil

belajar dalam mata pelajaran tersebut dapat dikatakan telah memiliki validitas isi, apabila isi tes

tersebut (sebagai sampel), dapat menjadi wakil yang representatif (layak = memadai) bagi

seluruh materi pelajaran yang telah diajarkan atau telah diperintahkan untuk dipelajari (sebagai

populasi).

Upaya lain yang dapat ditempuh dalam rangka mengetahui validitas isi dari tes hasil belajar

adalah dengan jalan menyelenggarakan diskusi panel. Dalam forum diskusi tersebut, para pakar

yang dipandang memiliki keahlian yang ada hubungannya dengan mata pelajaran yang diujikan,

diminta pendapat dan rekomendasinya terhadap isi atau materi yang terkandung dalam tes hasil

belajar yang bersangkutan. Hasil-hasil diskusi itu selanjutnya dijadikan pedoman atau bahan

acuan untuk memperbaiki dan menyempurnakan isi atau materi hasil belajar tersebut. Jadi

kegiatan menganalisis validitas isi dapat dilakukan baik sesudah maupun sebelum tes hasil

belajar dilaksanakan.

2) Validitas Konstruksi (Construct Validity).

Allen & Yen dalam Azwar 1997:48, menyatakan bahwa Validitas konstruk adalah tipe

validitas yang menunjukkan sejauhmana suatu tes mengukur suatu konstruk teoretik atau trait
yang hendak diukurnya, konstruk dalam pengertian ini adalah berkaitan dengan aspek-aspek

psikologi seseorang khususnya aspek kognitif, afektif dan psikomotor.

Ada beberapa cara yang bisa digunakan untuk menguji validitas konstruk. Misalnya dengan

melakukan pencocokan antara aspek-aspek berpikir yang terkandung dalam tes hasil belajar

dengan aspek-aspek berpikir yang hendak diungkap oleh tujuan instruksional khusus. Pengujian

yang lebih sederhana tentang validitas konstruk adalah malalui pendekatan multi trait multi-

method (Saifuddin Azwar 2003: 176).

Pendekatan ini akan menghasilkan bukti validitas diskriminan yang ditunjukkan dengan

rendahnya korelasi antar skor yang mengukur trait yang berbeda bila digunakan metode yang

sama dan validitas konvergen yang ditunjukkan oleh tingginya korelasi skor-skor tes yang

mengukur trait yang sama dengan menggunakan metode yang berbeda.

Anda mungkin juga menyukai