19.36 |
By: Furing, Stefanus and Inany
Langkah 2 dan 3
Aspek yang diungkap
Ingatan Pemahaman Aplikasi Jumlah
Pengertian evaluasi (14%) 7
Fungsi evaluasi (21%) 10
Macam-macam cara evaluasi (36%) 18
Persyaratan evaluasi (29%) 15
Jumlah 50 butir soal
Tabel 2
Spesifikasi berkaitan dengan jumlah butir soal tes untuk tujuan belajar pada tingkat kognitif dan
kinerja psikomotorik.
Tugas: Mengukur nilai-nilai listrik dalam susunan seri
No Tujuan Pengetahuan Pemahaman Aplikasi Psikomotorik
1. Daftar simbol-simbol
yang digunakan
2
untuk komponen
dalam susunan listrik
2. Mengenal komponen-
komponen dari 3
susunan seri lengkap
3. Mengidentifikasi
susunan seri di 1 2
diagram skematis
4. Merakit sebuah
susunan seri pada
2
komponen yang
menggunakan papan
5. Mengatur dan
menyesuaikan
sebuah multimeter
1
untuk mengukur
masing-masing dari
tiga nilai listrik
6. Mengukur dan 3 3
menghitung
tegangan, arus dan
perlawanan di
susunan seri.
2. Reliabilitas
Reliabilitas mengacu pada tes kemampuan untuk mendapatkan hasil yang konsisten kapanpun
digunakan. Jika siswa-siswa yang sama, tanpa perubahan dalam persiapan mereka, mengambil tes
yang sama atau bentuk tes yang sama, pasti ada sedikit variasi dalam nilai. Arikunto (2002:59-60)
menyatakan bahwa reliabilitas diambil dari kata reliability dalam bahasa Inggris, berasal dari kata
asal reliable yang artinya dapat dipercaya. Sebuah tes dikatakan reliabel apabila hasil-hasil tes
tersebut menunjukkan ketepatan yaitu jika para siswa diberikan tes yang sama pada waktu yang
berlainan, maka setiap siswa akan tetap berada dalam urutan (ranking) yang sama dalam
kelompoknya. Beberapa hal yang dapat mempengaruhi reliabilitas tes:
Lebih banyak pertanyaan yang digunakan menghubungkan setiap tujuan pembelajaran, tes akan lebih
reliabel. Jika hanya satu pertanyaan yang bertanya tentang tujuan yang utama, hal itu dapat
menyulitkan untuk menetapkan apakah seorang siswa telah memperoleh pengetahuan atau menjawab
dengan benar. Arikunto (2002:87) menyatakan bahwa semakin panjang tes, maka reliabilitasnya
tinggi. Kualitas butir-butir soal ditentukan oleh:
a) Jelas tidaknya rumusan soal.
b) Baik tidaknya pengarahan soal kepada jawaban sehingga tidak menimbulkan salah jawab.
c) Petunjuknya jelas sehingga mudah dan cepat dikerjakan.
Tes harus diurus dalam cara yang standar. Jika lebih dari satu orang mengikuti ujian langsung,
pembelajaran yang serupa harus diberikan kepada setiap kelompok individu yang mengambil tes
selama periode waktu. Menurut Arikunto (2012:89) suatu tes yang dicobakan kepada kelompok yang
terdiri dari banyak siswa akan mencerminkan keragaman hasil yang menggambarkan besar-kecilnya
reliabilitas tes.
Setiap orang harus diuji dalam kondisi yang sama sehingga gangguan tidak memberikan pengaruh
perbedaan nilai.
Ujian harus memiliki waktu yang sama untuk semua siswa.
Mungkin faktor yang paling penting yang dapat mempengaruhi uji reliabilitas adalah metode
penskoran, terutama ketika menandai tes esai atau menilai kinerja pada skala peringkat. Meskipun
usaha menstandarkan berbedanya skor tes individu, kriteria dapat dilihat dalam berbagai cara, dan
variasi tidak dapat dihindari. Mengurangi kesubjektifitasan menskor, maka hasil tes akan menjadi
lebih realibel.
Hal-hal yang berhubungan dengan penyelenggaraan tes juga menentukan hasil tes (petunjuk yang
diberikan sebelum tes dimulai, pengawas yang tertib, suasana lingkungan dan tempat tes)
Ada beberapa metode yang berbeda untuk menilai reliabilitas:
Metode test-retest (Metode Tes Ulang)
Dalam menggunakan metode ini, pengetes hanya memiliki satu seri tes tetapi dicobakan dua kali.
Untuk tes yang banyak mengungkap pengetahuan (ingatan) dan pemahaman, cara ini kurang
mengena karena siswa masih ingat dnegan butir-butir soalnya. Oleh karena itu tenggang waktu
antara pemberian tes pertama dengan tes kedua harus diperhatikan.
Metode parallel forms (Metode Bentuk Paralel)
Metode ini dalam bahasa Indonesia disebut juga tes parallel atau tes ekuivalen yaitu dua buah tes
yang mempunyai kesamaan tujuan, tingkat kesukaran dan susunan tetapi butir-butir soalnya berbeda.
Pengetes harus menyiapkan dua buah tes dan masing-masing dicobakan pada kelompok siswa yang
sama.
Metode split-half (Metode Belah Dua)
Dalam menggunakan metode itu pengetes hanya menggunakan sebuah tes dan dicobakan satu
kali.Banyak pemakai metode ini salah membelah hasil tes pada waktu menganalisis, yaitu mereka
mengelompokkan hasil separuh subjek siswa dan separuh yang lain kemudian hasil kedua kelompok
ini dikorelasikan. Memakai metode ini yang benar harus ingat bahwa banyaknya butir soal harus
genap agar dapat dibelah. Ada dua cara membelah butir soal ini, yaitu:
1) Membelah atas butir-butir soal genap dan butir-butir soal yang ganjil (Belahan ganjil-genap)
2) Membelah atas butir-butir soal awal dan butir-butir soal akhir, yaitu separuh jiwa pada nomer awal
dan separuh pada nomer akhir (Belahan awal-akhir)
Ketika dihitung dengan rumus popular menggunakan formula seperti KR 20 dan koefisien
alfa, internal consistency reliabilitas sebanding dengan melakukan semua korelasi split-half yang
unik. Internal consistency yang tinggi berarti bahwa butir soal tes yang berbedam engukur
kemampuan atau sifat yang sama.
Pertanyaan terakhir untuk pertimbangan adalah hubungan antara validitas dan reliabilitas.
Apakah validitas memerlukan reliabilitas? Apakah reliabilitas memerlukan validitas? Jawaban atas dua
pertanyaan ini adalah ya dan tidak.
Agar tes menjadi valid, tes harus reliabel. Berpikir tentang hal ini: Bagaimana bisa tes
mengukur apa yang sebenarnya, jika skor bervariasi dari ujian ke ujian (tanpa ada perubahan apapun
dalam kondisi ujian atau Negara siswa)? Di sisi lain, bisa memiliki realibitas tanpa validitas. Misalnya,
seorang guru mungkin mencoba menilai kemampuan siswa untuk merancang pembelajaran dengan
memberi mereka 50 butir soal benar/salah yang menguji teori-teori pembelajaran. Nilai mungkin
tetap konsisten dari ujian satu ke ujian berikutnya, tetapi mereka sulit mencerminkan keterampilan
rancangan pembelajaran, hasil dari minat yang utama. Scarvia B. Anderson (dalam Arikunto, 2002)
menyatakan bahwa persyaratan tes adalah validitas dan reliabilitas. Validitas lebih penting dan
reliabilitas itu perlu untuk mendukung terbentuknya validitas. Sebuah tes mungkin reliabel tetapi tidak
valid. Sebaliknya, sebuah tes yang valid biasanya reliabel.
DAFTAR RUJUKAN
Kemp,J.E, Morrison, G.R., and Ross, S.M. 1994. Designing Effective Instruction. New York: Maxwell
Macmilan International.
Uji Validitas
Uji Validitas adalah Uji ketepatan atau ketelitian suatu alat ukur dalam
mengukur apa yang sedang ingin diukur. Dalam pengertian yang mudah
dipahami, uji validitas adalah uji yang bertujuan untuk menilai apakah
seperangkat alat ukur sudah tepat mengukur apa yang seharusnya diukur.
Saya ambil contoh mudahnya saja, jika anda ingin mengukur berat badan,
maka harus menggunakan timbangan. Sedangkan jika anda ingin mengukur
tinggi badan, maka harus menggunakan meteran. Nah, itulah yang dimaksud
dengan validitas. Jadi validitas dapat diartikan sebagai tingkat kesahihan alat
ukur ukur dalam mengukur apa yang seharusnya diukur.
Dalam pengujian alat ukur pengumpulan data penelitian, validitas itu ada dua
macam, yaitu validitas faktor dan validitas item. Validitas faktor diukur apabila
item yang disusun menggunakan lebih dari sebuah faktor (antara faktor yang
satu dengan faktor yang lain ada kesamaannya).
Pada artikel lainnya kita telah membahas banyak perihal uji validitas, salah
satunya adalah Tutorial Uji Validitas Instrumen dengan SPSS. Disini kami
akan coba menerangkan apa, bagaimana dan rumus perhitungan uji validitas.
Uji Validitas dilakukan untuk menilai apakah soal sudah valid atau tidak untuk
sebuah penelitian yang sesungguhnya.
Pada saat anda membaca paragraph awal artikel ini, anda jangan pergi
kemana-mana dulu, sebab yang anda cari pasti ada disini. Namun dalam
bahasan ini, kami lebih fokus kepada pengertian dan penjelasan tentang apa
sebenarnya uji validitas dan manfaatnya. Berikut kami sampai dulu singkat
saja perihal perbedaan antara uji validitas dan reliabilitas:
Uji Validitas dan Reliabilitas
Alat ukur yang seperti itu, haruslah memenuhi kriteria, yaitu valid dan reliabel.
Valid berarti sahih atau tepat apa yang diukur sedangkan reliabel adalah
handal, yaitu digunakan kapan saja dan dimana saja maka hasilnya tetaplah
sama.
Pada prakteknya, sebuah item soal dalam sebuah alat ukur haruslah valid
terlebih dahulu, baru kemudian diuji kehandalannnya. Jadi dapat dimaknai,
bahwa: soal yang valid belum tentu reliabel. Sedangkan soal yang reliabel,
maka pastilah sudah valid. Demikian kiranya perbedaan uji validitas dan
reliabilitas.
Bagi anda yang ingin mencari referensi uji validitas butir, silahkan baca artikel
kami yang berjudul: Tutorial Uji Validitas Instrumen dengan SPSS. Dalam
artikel tersebut dijelaskan langkah demi langkah atau step by step tutorial
melakukan analisis atau uji validitas butir, baik menggunakan pearson product
moment ataupun corrected item to total correlation.
Logika
Empirik.
Logika
Macam-Macam Logika:
Isi : untuk menguji apa tes ini representatif atau tidak (untuk sampel,
populasi untuk penelitian)
Konstruksi : diteliti dari segi susunan dan rekaan aspek: kognitif,
afektif, dan psikomotor.
Empirik
Macam-macam Empirik:
Ada beberapa teknik atau rumus uji validitas yang dapat anda gunakan.
Dibawah ini akan kami jelaskan beberapa diantaranya.
Teknik pertama dan populer yang digunakan adalah teknik Korelasi Product
Moment yang dikemukakan oleh Pearson.
Persiapan Untuk
Mencari Validitas
Tes dengan angka
kasar:
Bila dilihat
pada kedua
hitungan
diatas
terdapat
perbedaan
0,003 lebih
besar pada
simpangan ini wajar karena adanya pembulatan.
Misal:
IPA :2357432
Matematika : 4 5 6 8 5 4 3
Kondisi nilai Matematika sejajar dengan IPA karena naik dan turunnya
nilai Matematika mengikuti naik dan turunnya nilai IPA.
Bahasa Indonesia : 5 6 8 4 3 2
Matematika :875123
Tabel analisis item Untuk Perhitungan Uji Validitas Item atau validitas butir.
Untuk
menghitung
validitas
item nomor
6, dibuat
terlebih
dahulu tabel
Dimasukkan ke
Korelasi Product
Moment dengan
rumus angka kasar:
Contoh Hitung
Uji Validitas
Pearson
Produk
Momen
Koefisien
validitas
item nomor
6 adalah
Apabila item memili skor 1 dan 0 saja, bisa menggunakan Koefisien Korelasi
Biserial.
Responden No.3 memiliki skor total hanya 4, sedangkan No.2 dan No. 4
memiliki nilai yang sama yaitu 5.
Rumus:
Keterangan :
γpbi = koefisien
korelasi biserial
Mp = rerata skor dari subyek yang menjawab betul bagi item yang dicari
validitasnya
Perh
itung
an
Mp
dari
tiap
butir
soal
1 sd
10:
Menghitung korelasi rpbi
Seperti reliabilitas uji coba, konsistensi internal hanya bisa dinilai dengan
mengumpulkan dan menganalisis data. Salah satu pendekatannya adalah
melihat korelasi separuh. Ini melibatkan pemisahan barang menjadi dua
rangkaian, seperti bagian pertama dan kedua dari item atau item bernada
genap dan ganjil. Kemudian skor dihitung untuk setiap rangkaian item, dan
hubungan antara dua kelompok skor diperiksa. Sebagai contoh, Gambar 5.3
menunjukkan korelasi separuh antara beberapa nilai siswa universitas pada
item genap dan skor mereka pada item bernomor ganjil dari Skala Harga Diri
Rosenberg. R Pearson untuk data ini adalah +.88. Korelasi split-half sebesar
+80 atau lebih umumnya dianggap konsistensi internal yang baik. Gambar 5.3
Korelasi Setengah-Setengah Antara Beberapa Nilai Siswa pada Barang-
Barang Bernomor Genap dan Nilai Mereka pada Item Ganjil-Nomor dari Skala
Self-Esteem Rosenberg Gambar 5.3 Korelasi Setengah-Setengah Antara
Beberapa Nilai Siswa pada Barang-Barang Bernomor Genap dan Nilai
Mereka pada Item Ganjil-Nomor dari Skala Self-Esteem Rosenberg Mungkin
ukuran paling umum dari konsistensi internal yang digunakan oleh peneliti
dalam psikologi adalah statistik yang disebut Cronbach's α (huruf Yunani alfa).
Secara konseptual, α adalah mean dari semua korelasi split-half yang
mungkin untuk satu set item. Sebagai contoh, ada 252 cara untuk membagi
satu set dari 10 item menjadi dua set lima. Cronbach's α akan menjadi rata-
rata dari 252 split-half correlation. Perhatikan bahwa ini bukan bagaimana α
sebenarnya dihitung, tetapi itu adalah cara yang benar untuk menafsirkan
makna statistik ini. Sekali lagi, nilai +80 atau lebih besar umumnya diambil
untuk menunjukkan konsistensi internal yang baik. Keandalan antar Banyak
tindakan perilaku melibatkan penilaian yang signifikan dari pengamat atau
penilai. Keandalan antar-penilai adalah sejauh mana pengamat yang berbeda
konsisten dalam penilaian mereka. Misalnya, jika Anda tertarik untuk
mengukur kemampuan sosial siswa, Anda bisa membuat rekaman video
mereka saat mereka berinteraksi dengan siswa lain yang mereka temui untuk
pertama kalinya. Kemudian Anda bisa memiliki dua atau lebih pengamat
menonton video dan menilai tingkat keterampilan sosial setiap siswa. Sejauh
mana setiap peserta sebenarnya memiliki beberapa tingkat keterampilan
sosial yang dapat dideteksi oleh pengamat yang penuh perhatian, peringkat
pengamat yang berbeda harus sangat berkorelasi satu sama lain. Keandalan
antar-penilai juga akan diukur dalam studi boneka Bobo Bandura. Dalam hal
ini, peringkat pengamat tentang berapa banyak tindakan agresi yang
dilakukan seorang anak tertentu saat bermain dengan boneka Bobo
seharusnya memiliki korelasi yang sangat positif. Keandalan antaratri sering
dinilai menggunakan α Cronbach ketika penilaiannya bersifat kuantitatif atau
statistik analog yang disebut Cohen's κ (huruf Yunani kappa) saat mereka
kategoris. Keabsahan Validitas adalah sejauh mana skor dari suatu ukuran
mewakili variabel yang dimaksudkannya. Tapi bagaimana peneliti membuat
penilaian ini? Kami telah mempertimbangkan satu faktor yang mereka
perhitungkan-keandalannya. Ketika sebuah pengukuran memiliki reliabilitas
tes ulang yang baik dan konsistensi internal, peneliti harus lebih yakin bahwa
skor tersebut mewakili apa yang seharusnya mereka lakukan. Harus ada lebih
dari itu, karena ukuran bisa sangat diandalkan tetapi tidak memiliki validitas
apa pun. Sebagai contoh yang absurd, bayangkan seseorang yang percaya
bahwa panjang jari telunjuk orang mencerminkan harga diri mereka dan oleh
karena itu mencoba mengukur harga diri dengan memegang penggaris
hingga jari telunjuk orang-orang. Meskipun ukuran ini akan memiliki reliabilitas
tes-tes ulang yang sangat baik, itu sama sekali tidak memiliki validitas. Fakta
bahwa jari telunjuk satu orang lebih panjang sentimeter daripada orang lain
tidak akan menunjukkan apa-apa tentang mana yang memiliki harga diri yang
lebih tinggi. Diskusi tentang validitas biasanya membaginya menjadi beberapa
jenis "yang berbeda." Tetapi cara yang baik untuk menafsirkan jenis ini adalah
bahwa itu adalah jenis bukti lainnya-selain reliabilitas-yang harus
diperhitungkan saat menilai validitas suatu tindakan. Di sini kami
mempertimbangkan tiga jenis dasar: validitas wajah, validitas isi, dan validitas
kriteria. Validitas wajah Validitas wajah adalah sejauh mana metode
pengukuran muncul "di wajahnya" untuk mengukur konstruk yang menarik.
Kebanyakan orang akan mengharapkan kuesioner harga diri untuk
memasukkan barang-barang tentang apakah mereka memandang diri mereka
sebagai orang yang berharga dan apakah mereka menganggap mereka
memiliki kualitas bagus. Jadi kuesioner yang menyertakan jenis barang ini
akan memiliki keabsahan wajah yang baik. Metode penentuan harga self-
esteem jari-jari, di sisi lain, tampaknya tidak ada kaitannya dengan harga diri
dan karena itu memiliki validitas wajah yang buruk. Meskipun validitas wajah
dapat dinilai secara kuantitatif - misalnya, dengan memiliki sampel orang yang
besar mengukur suatu ukuran baik dalam hal apakah tampaknya mengukur
apa yang dimaksudkannya - biasanya dinilai secara informal.
Validitas wajah paling baik merupakan bukti yang sangat lemah bahwa
metode pengukuran mengukur apa yang seharusnya dilakukan. Salah satu
alasannya adalah bahwa hal itu didasarkan pada intuisi orang-orang tentang
perilaku manusia, yang seringkali salah. Ini juga kasus bahwa banyak ukuran
yang ditetapkan dalam psikologi bekerja cukup baik meskipun tidak memiliki
validitas wajah. Inventori Kepribadian Multiphasic Minnesota-2 (MMPI-2)
mengukur banyak karakteristik dan gangguan kepribadian dengan meminta
orang memutuskan apakah masing-masing dari 567 pernyataan berbeda
berlaku untuk mereka-di mana banyak pernyataan tidak memiliki hubungan
yang jelas dengan konstruk yang mereka ukur . Misalnya, item "Saya
menikmati cerita detektif atau misteri" dan "Pemandangan darah tidak
membuat saya takut atau membuat saya sakit" keduanya mengukur
penindasan agresi. Dalam hal ini, itu bukan jawaban literal peserta untuk
pertanyaan-pertanyaan yang menarik ini, tetapi lebih kepada apakah pola
tanggapan para peserta terhadap serangkaian pertanyaan sesuai dengan
individu yang cenderung untuk menekan agresi mereka. Validitas konten
Validitas isi adalah sejauh mana ukuran "mencakup" konstruk kepentingan.
Sebagai contoh, jika seorang peneliti secara konseptual mendefinisikan
kegelisahan tes sebagai melibatkan kedua aktivasi sistem saraf simpatik
(yang mengarah ke perasaan gugup) dan pikiran negatif, maka ukuran
kecemasan tesnya harus mencakup item tentang perasaan gugup dan pikiran
negatif. Atau pertimbangkan bahwa sikap biasanya didefinisikan sebagai
melibatkan pikiran, perasaan, dan tindakan terhadap sesuatu. Dengan definisi
konseptual ini, seseorang memiliki sikap positif terhadap olahraga sejauh
memikirkan pemikiran positif tentang berolahraga, merasa senang
berolahraga, dan benar-benar latihan. Jadi untuk memiliki validitas konten
yang baik, ukuran sikap orang-orang terhadap olahraga harus mencerminkan
ketiga aspek ini. Seperti keabsahan wajah, validitas isi biasanya tidak dinilai
secara kuantitatif. Sebaliknya, ini dinilai dengan hati-hati memeriksa metode
pengukuran terhadap definisi konseptual dari konstruk. Kriteria Validitas
Validitas kriteria adalah sejauh mana skor orang pada ukuran berkorelasi
dengan variabel lain (dikenal sebagai kriteria) yang diharapkan orang
berkorelasi dengannya. Misalnya, skor orang pada ukuran baru kecemasan
tes harus berkorelasi negatif dengan kinerja mereka dalam ujian sekolah yang
penting. Jika ditemukan bahwa nilai orang ternyata berkorelasi negatif dengan
kinerja ujian mereka, maka ini akan menjadi bukti bahwa skor ini benar-benar
mewakili kecemasan tes orang. Tetapi jika ditemukan bahwa orang mencetak
skor yang sama baiknya dalam ujian terlepas dari skor kecemasan tes
mereka, maka ini akan meragukan validitas ukurannya. Kriteria dapat berupa
variabel apa pun yang dipikirkan seseorang harus berkorelasi dengan
konstruk yang diukur, dan biasanya akan ada banyak dari mereka. Sebagai
contoh, seseorang akan memperkirakan bahwa skor kecemasan tes
berkorelasi negatif dengan kinerja ujian dan nilai pelajaran dan berkorelasi
positif dengan kegelisahan umum dan dengan tekanan darah selama ujian.
Atau bayangkan bahwa seorang peneliti mengembangkan ukuran baru
pengambilan risiko fisik. Nilai orang pada ukuran ini harus dikorelasikan
dengan partisipasi mereka dalam kegiatan "ekstrem" seperti snowboarding
dan panjat tebing, jumlah tiket ngebut yang mereka terima, dan bahkan
jumlah tulang patah yang mereka miliki selama ini. Bila kriteria diukur pada
saat yang sama dengan konstruk, validitas kriteria disebut sebagai validitas
konkuren; Namun, ketika kriteria diukur pada beberapa titik di masa depan
(setelah konstruk telah diukur), itu disebut sebagai validitas prediktif (karena
skor pada ukuran telah "memprediksi" hasil masa depan). Kriteria juga dapat
memasukkan ukuran lain dari konstruk yang sama. Misalnya, orang akan
mengharapkan langkah baru untuk menguji kecemasan atau pengambilan
risiko fisik berkorelasi positif dengan ukuran yang ada dari konstruksi yang
sama. Ini dikenal sebagai validitas konvergen. Menilai validitas konvergen
membutuhkan pengumpulan data menggunakan ukuran. Periset John
Cacioppo dan Richard Petty melakukan ini saat mereka membuat laporan
mereka sendiri untuk Skala Kognisi untuk mengukur seberapa banyak orang
menghargai dan terlibat dalam pemikiran (Cacioppo & Petty, 1982) [1]. Dalam
serangkaian penelitian, mereka menunjukkan bahwa nilai orang berkorelasi
positif dengan nilai mereka pada tes prestasi akademik standar, dan nilai
mereka berkorelasi negatif dengan nilai mereka pada ukuran dogmatisme
(yang merupakan kecenderungan untuk ketaatan). Pada tahun-tahun sejak
diciptakan, Need for Cognition Scale telah digunakan dalam ratusan
penelitian dan telah terbukti berkorelasi dengan beragam variabel lainnya,
termasuk keefektifan sebuah iklan, ketertarikan pada politik, dan keputusan
juri. (Petty, Briñol, Loersch, & McCaslin, 2009) [2].
Validitas Diskriminan Validitas diskriminan, di sisi lain, adalah sejauh mana
skor pada ukuran tidak berkorelasi dengan ukuran variabel yang secara
konseptual berbeda. Misalnya, harga diri adalah sikap umum terhadap diri
sendiri yang cukup stabil dari waktu ke waktu. Ini tidak sama dengan suasana
hati, yang adalah seberapa baik atau buruk yang dirasakan seseorang saat
ini. Jadi, skor orang pada ukuran baru harga diri tidak boleh sangat
berkorelasi dengan suasana hati mereka. Jika ukuran baru harga diri sangat
berkorelasi dengan ukuran mood, dapat dikatakan bahwa ukuran baru
tersebut tidak benar-benar mengukur harga diri; itu mengukur mood sebagai
gantinya. Ketika mereka menciptakan Need for Cognition Scale, Cacioppo
and Petty juga memberikan bukti validitas diskriminan dengan menunjukkan
bahwa nilai orang tidak berkorelasi dengan variabel lain. Misalnya, mereka
hanya menemukan korelasi yang lemah antara kebutuhan akan kognisi dan
ukuran gaya kognitif mereka - sejauh mana mereka cenderung berpikir secara
analitis dengan memecahkan gagasan menjadi bagian-bagian yang lebih kecil
atau secara holistik dalam kaitannya dengan "gambaran besarnya." Mereka
juga tidak menemukan korelasi antara kebutuhan orang akan kognisi dan
ukuran kecemasan tes mereka dan kecenderungan mereka untuk merespons
dengan cara yang diinginkan secara sosial. Semua korelasi rendah ini
memberikan bukti bahwa ukuran tersebut mencerminkan konstruksi yang
secara konseptual berbeda. Kunci takeaways Peneliti psikologi tidak hanya
menganggap bahwa tindakan mereka berhasil. Sebaliknya, mereka
melakukan penelitian untuk menunjukkan bahwa mereka bekerja. Jika
mereka tidak dapat menunjukkan bahwa mereka bekerja, mereka berhenti
menggunakannya. Ada dua kriteria yang berbeda dimana peneliti
mengevaluasi tindakan mereka: reliabilitas dan validitas. Reliabilitas adalah
konsistensi sepanjang waktu (reliabilitas test-retest), di seluruh item
(konsistensi internal), dan seluruh peneliti (interrater reliability). Validitas
adalah sejauh mana skor sebenarnya mewakili variabel yang
dimaksudkannya. Validitas adalah penghakiman berdasarkan berbagai jenis
bukti. Bukti yang relevan mencakup reliabilitas ukur, apakah itu mencakup
konstruk kepentingan, dan apakah skor yang dihasilkannya berkorelasi
dengan variabel lain, mereka diharapkan berkorelasi dan tidak berkorelasi
dengan variabel yang secara konseptual berbeda. Keandalan dan keabsahan
suatu ukuran tidak ditetapkan oleh studi tunggal manapun, melainkan oleh
pola hasil di beberapa penelitian. Penilaian reliabilitas dan validitas
merupakan proses yang berkelanjutan. Latihan Berlatihlah: Minta beberapa
teman untuk melengkapi Skala Harga Diri Rosenberg. Kemudian kaji
konsistensi internal dengan membuat scatterplot untuk menunjukkan korelasi
separuh-setengah (bahkan - item ganjil-ganjil). Hitung juga Pearson jika Anda
tahu caranya. Diskusi: Pikirkan kembali ujian kuliah terakhir yang Anda ambil
dan pikirkan ujian sebagai tindakan psikologis. Konstruksi apa yang menurut
Anda dimaksudkan untuk mengukur? Beri komentar pada wajah dan validitas
kontennya. Data apa yang bisa Anda kumpulkan untuk menilai reliabilitas dan
validitas kriteria? Cacioppo, J. T., & Petty, R. E. (1982). Kebutuhan kognisi.
Jurnal Kepribadian dan Psikologi Sosial, 42, 116-131. ↵ Petty, R. E, Briñol, P.,
Loersch, C., & McCaslin, M. J. (2009). Kebutuhan kognisi. Dalam M. R. Leary
& R. H. Hoyle (Eds.), Buku Pegangan tentang perbedaan individu dalam
perilaku sosial (hlm. 318-329). New York, NY: Guilford Press. ↵
Instrument evaluasi dapat dibagi menjadi tiga kelompok, yaitu instrumen evaluasi hasil belajar
kognitif, instrumen evaluasi hasil belajar efektif, instrumen evaluasi hasil belajar psikomotor.
Instrumen evaluasi untuk ketiga hasil belajar tersebut perlu dianalisis sebelum dan sesudah
digunakan yang tujuannya agar dapat dihasilkan instrument evaluasi yang memiliki kualitas tinggi.
Pada uraian berikut akan dibahas teknik analisis kualitas instrument secara berurutan mulai kualitas
instrument evaluasi hasil belajar koknitif, instrument evaluasi hasil belajar afektif dan instrument hasil
belajar psikomotor.
digunakan hendaknya dianalisis terlebih dahulu agar memenuhi syarat sebagai alat evaluasi yang
Cara menganalisis butir – butir tes tersebut dapat ditempuh melalui dua cara, yaitu:
Analisis secara teoritis atau analisis kualitatif dapat dilakukan sebelum maupun setelah dilaksanakan
uji coba. Cara analisisnya adalah dengan cara mencermati butir – butir soal yang telah disusun dilihat
dari: kesesuaian dengan kompetensi dasar dan indikator yang diukur serta pemenuhan persyaratan
baik dari ranah materi, konstruksi dan bahasa. Butir – butir soal yang akan di analisis dapat berupa
butir soal bentuk uraian, butir soal bentuk melengkapi,dan butir soal bentuk pilihan ganda (multiple
choice).
Analisis ter secara kuantitatif diarahkan untuk menelaah tingkat validitas soal, reliabilitas, daya
pembeda, tingkat kesukaran, dan khusus untuk model atau tipe soal pilihan ganda perlu juga ditelaah
Validitas (validity, kesahihan) berkaitan dengan permasalahan apakah tes yang dimaksudkan untuk
mengukur sesuatu itu memang dapat mengukur secara tepat sesuatu yang akan dikur tersebut.
[1]Secara singkat dapat dikatakan bahwa validitas tes mempersoalkan apakah tes itu dapat mengukur
apa yang akan diukur. Misalnya, jika tes itu dimaksudkan untuk mengukur tingkat kognitif atau
ingatan tentang macam – macam rukun iman, memang secara tepat dapat untuk mengukur
kemampuan itu, bukan pengetahuan yang lain, misalnya penjelasan tentang pengertian iman. Jika tes
itu dimaksudkan untuk menanyakan kemampuan menganalisis sebab – sebab suatu kaum diberi azab
oleh Allah (kognitif tingkat analisis), tes itu memang mampu untuk mengungkapkan kemampuan itu,
Analisia validitas tes dapat dilakukan dari dua segi, yaitu: dari segi tes sebagai suatu totalitas dan dari
segi itemnya, sebagai bagian tak terpisahkan dari tes secara totalitas. Macam – macam analisis
Validitas Isi
(Content Validity)
Validitas Teoritis
(Construct Validity)
(Predictive Validity)
Validitas Bandingan
Analisis validitas tes secara totalitas maksudnya adalah analisis validitas tes secara keseluruhan.
Missal tes terdiri dari 50 butir soal, sehingga yang dianalisis adalah keseluruhan dari 50 butir soal
tersebut. Analisis validitas tes secara totalitas secara garis besar dapat dibedakan kadalam dua
kategori, yaitu validitas teoritis (rasional) dan validitas empirik. Validitas teoritis (rasional) adalah
validitas yang dalam pertimbangannya dilakukan dengan cara analisis rasional, sedangkan validitas
empiric adalah validitas yang dalam pertimbangannya dilakukan dengan cara menganalisis data data
empirik. Artinya untuk melakukan analisis jenis validitas empiric memerlukan data – data dari
lapangan yang merupakan hasil dari uji coba yang berwujud data kuantitatif dan untuk keperluan
Jenis validitas yang termasuk kategori dalam validitas teoritis (rasional) adalah validitas isi (content
validity) dan validitas konstruk (construct validity), sedangkan yang termasuk kategori dalam validitas
empirik adalah validitas bandingan (concurrent validity) dan validitas ramalan (predictive validity)
1. Validitas teoritis (rasional)
1. Validitas isi
Validitas isi adalah validitas yang mempertannyakan bagaimana kesesuaian antara butir – butir soal
dalam tes dengan deskripsi bahan yang diajarkan. Jadi sebuah soal dikatakan memiliki validitas isi
apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang
diberikan. Oleh karena materi yang diajarkan tertera dalam kurikulum maka validitas isi ini sering
Validitas isi dapat diusahakan terciptanya sejak saat penyusunan dengan cara memerinci materi
kurikulum atau materi buku pelajaran. Dalam menganalisisnya dilakukan dengan menggunakan
analisis rasional. Cara yang bisa ditempuh dalam penyusunan tes adalah dengan menyusun kisi – kisi
soal. Setelah kisi – kisi disusun, penulisan butir soal haruslah bardasarkan kisi – kisi yang telah
disusun tersebut. Pada kisi – kisi itu paling tidak harus terdapat aspek kompetensi dasar, bahan atau
diskripsi bahan, indikator, dan jumlah pertannyaan perindikator. Sebelum kisi – kisi dijadikan
pedoman dalam penyusunan butir – butir soal, terlebih dahulu haruslah ditelaah dan dinyatakan baik.
Setelah butir – butir pertannyaan disusun, maka butir – butir pertanyaan juga harus ditelaah dengan
menggunakan kriteri tertentu disamping disesuaikan dengan kisi – kisi. Penelaahan harus dilakukan
oleh orang yang berkompeten dalam bidang yang bersangkutan, atau yang dikenal dengan istilah
1. Validitas konstruk
Validitas konstruk mempertanyakan apakah butir – butir soal dalam tes itu telah sesuai dengan
tingkatan kompetensi atau ranah yang ada yang sesuai dengan tuntutan dalam kurikulum. [3]
Analisis validitas konstruk, suatu tes dapat dilakukan dengan cara melakukan pencocokan antara
kemampuan berfikir yang tercantum dalam setiap rumusan indikator yang akan diukur. Dengan
demikian kegiatan analisis validitas konstruk ini dilakukan secara rasional, dengan berfikir kritis atau
menggunakan logika. Disamping itu, sebagaimana halnya, dalam validitas isi, cara analisis dapat pula
dilakukan dengan melakukan diskusi dengan orang yang ahli di bidang yang bersangkutan.dengan
kata lain uji validitas konstruk dilakukan dengan cara expert judgement.
Uji validitas konstruk juga bisa dilakukan lewat program computer, yaitu dengan menggunakan
analisis faktor. Jika cara ini yang dipakai, uji faliditas tersebut harus berdasarkan data – data empiric.
Hal ini berarti alat tes tersebut harus diuji cobakan terlebih dahulu, dan data – data hasil uji coba
1. Validitas empirik
1. Validitas ramalan
Meramal artinya memprediksikan mengenai suatu hal yang akan terjadi pada masa yang akan datang,
yang saat ini belum terjadi. Sebuah tes dikatakan memiliki validitas ramalan atau prediksi apabila
memiliki kemampuan untuk meramalkan apa yang akan terjadi dimasa yang akan datang.[4]
Analisis validitas ramalan tes tersebut dilakukan dengan cara mengkorelasikan antara nilai tes
tersebut dengan kriteri atau tolok ukur, misalnya, tes masuk ujian SLTA. Tes ujian masuk SLTA
memiliki validitas ramalan yang baik jika memiliki kesesuaian atau kesejajaran arah antara tes yang
sedang duselidiki atau di uji validitasnya, dengan criteria yang ada. Dengan kata lain terdapat
hubungan searah yang sangat erat antara tes yang sedang di uji validitasnya dengan criteria yang
telah ditentukan. Karena nilai – nilai tes hasil ujian seleksi itu berjalan searah atau sejajar dengan
nilai – nilai tes hasil belajar di SLTA, maka hubungan antara kedua variable tersebut adalah termasuk
kedalam kategori hubungan searah, yang dalam ilmu statistic dikenal dengan istilah korelasi positif.
Cara yang biasa digunakan untuk mencari dalam rangka ujian validitas ramalan ini adalah dengan
(1) Melakukan komputasi atau perhitungan metematis untuk mencari harga koefisien r Product
(a) Menyiapkan table perhitungan untuk mencari nilai �Y, �Y, , , dan ��Y.
Nilai r Kategori
1. Memilih harga r hitung dan kemudian di konsultasikan dengan harga r tabel Product Moment
dengan criteria apabila harga r hitung sama dengan atau lebih besar dengan harga r tabel
berarti ada korelasi antara variabel X dengan variabel Y yang berarti tes yang kita analisis
memiliki validitas. Untuk melihat harga r tabel perlu dicari terlebih dahulu derajat kebabasan
(degree of freedom) atau singkatan df dengan rumus: df= N – nr, dimana N adalah banyaknya
peserta tes (testee) dan nr adalah banyaknya variabel yang dikorelasikan.
2. Validitas bandingan
Validitas bandingan disebut juga dengan istilah validitas sama saat, validitas ada sekarang atau
validitas pengalaman. Sebuah tes dikatakan memiliki validitas pengalaman jika hasilnya sesuai
dengan pengalaman. Dalam hal ini hasil tes dipasangkan dengan hasil pengalaman. Pengalaman
selalu berdasarkan pada hal yang telah lampau sehingga data pengalaman tersebut sekarang sudah
Dalam rangka menguji validitas pengalaman atau bandingan, data hasil tes yang diperoleh sekarang
kita bandingkan dengan data yang mencerminkan pengalaman yang diperoleh masa lampau itu. Jika
hasil tes sekarang mempunyai hubungan searah dengan hasil tes berdasarkan pengalaman yang lalu,
maka tes tersebut dapat dikatakan telah memiliki validitas bandingan atau pengalaman.
Cara melakukan analisis validitas bandingan atau pengamalan ini adalah sama seperti pada analisis
validitas ramalan yaitu dengan mengorelasikan hasil yang sekarang dengan hasil tes yang terdahulu.
Hasil tes yang sekarang menjadi variable X dan hasil tes yang dahulu menjadi variable Y. teknik hasil
Yang dimaksud dengan validitas butir soal adalah ketepatan mengukur yang dimiliki oleh sebutir soal,
yang merupakan bagian tak terpisahkan dari tes sebagai suatu totalitas, dalam mengukur apa yang
Cara untuk menganalisis adalah dengan mengkorelasikan antara skor tiap – tiap soal yang dicapai
oleh masing – masing testee dengan skor total. Sebutir soal dapat dikatakan telah memiliki validitas
yang tinggi atau dapat dinyatakan valid jika skor – skor pada butir soal yang bersangkutan memiliki
kesesuaian atau kesejajaran arah dengan skor total atau dengan bahasa statistik ada korelasi positif
yang signifikan antara skor butir soal dengan skor totalnya. Skor total disini berkedudukan sebagai
variable terikat (dependent variable) sedangkan skor butir soal berkedudukan sebagai variable
bebasnya (independent variable). Jika demikian, maka untuk sampai pada kesimpulan bahwa butir –
butir soal yang ingin diketahui validitasnya, yaitu valid ataukah tidak, kita dapat menggunakan teknik
korelasi sebagai teknik analisisnya. Sebutir soal dapat dikatakan valid apabila skor butir soal yang
bersangkutan terbukti mempunyai korelasi positif yang signifikan dengan skor totalnya.
Teknik korelasi yang dipandang tepat untuk digunakan dalam analisis validitas butir soal ini adalah
dengan rumus korelasi Point Bisserial. Hal ini melihat karena jenis data yang akan dianalisis adalah
Indeks korelasi Point Bisserial dibrti lambing , rumus korelasinya adalah sebagai berikut:
Keterangan:
: koefisien korelasi point bisserial yang melambangkan kekuatan korelasi antara variabel I dengan
variabel II, yang dalam hal ini dianggap sebagai koefisien validitas butir soal.
: skor rata – rata hitung yang dimiliki testee, untuk butir soal yang bersangkutan telah dijawab
dengan betul.
: proporsi testee yang menjawab betul terhadap butir soal yang di analisis validitasnya.
: proporsi testee yang menjawab salah terhadap butir soal yang di analisis validitasnya.
Langkah – langkah untuk melakukan analisis validitas butir soal adalah sebagai berikut:
(4) Mencari atau menghitung untuk butir soal yang dianalisis validitasnya.
(6) Member interprestasi. Untuk memberikan interprestasi kida dapat berkonsultasi dengan harga r
tabel Product Moment dengan terlebih dahulu mencari df (derajad kebebasan), yaitu dengan cara df =
N – nr.
Salah satu syarat tes sebagai salah satu instrumen evaluasi adalah memiliki reliabilitas yang tinggi.
Tes yang memiliki reliable reabilitas tes atau keajegan, ketetapan berhungan dengan masalah
kepercayaan. Suatu tes akan menghasilkan kepercayaan yang tiggi apabila tes tersebut dapat
memberikan hasil yang tetap. Jika hasilnya berubah – ubah, perubahan yeng terjadi dapat dikatakan
tidak berarti.
Validitas itu penting, sedangkan reliabilitas itu perlu, karena reliabilitas itu menyokong
validitas.
Tes yang valid umumnya reliabel, tetapi tes yang reliabel belum tentu valid.
Untuk memper oleh tes yang memiliki reliabilitas (keajegan) itu memang tidak mudah, karena unsure
kejiwaan manusia sendiri yang menjadi objek pengukuran tidak ajeg. Misalnya: kemampuan hasil
belajar, kecakapan, sikap dan sebagainya itu semua bisa berubah ubah dari waktu ke waktu.
Hal – hal yang berhubungan dengan tes itu sendiri, seperti panjang tes dan kualitas butir –
butir tes. Semakin panjang dan semakin baik kualitasnya maka akan semakin tinggi tingkat
reliabilitasnya.
Hal – hal yang berkaitan dengan testee (peserta tes). Tes yang dikenakan kepada kelompok
yang tidak terpilih atau ditentukan secara acak biasanya reliabilitasnya lebih besar
dibandingan yang dikenakan kepada kelompok testee yang terpilih seperti pada kelompok
anak yang pandai – pandai saja.
v Jenis Analisis Reliabilitas Tes
Analisis reliabilitas tes bentuk uraian umumnya menggunakan rumus Alpha dari Cronbach, karena
model scoring soal bentuk uraian ini bukan model dikotomik, kalau benar bernilai satu dan jika salah
bernilai 0, tetapi sekoringnya lebih bersifat kontinum (rentangan angka, misalnya 0 – 5 atau 0 – 10,
dan sebagainya).
Keterangan:
: Varian total
1) Menjumlahkan masing – masing soal yang dicapai semua testee () dan mencari skor total yang
dicapai masing – masing testee () dan mengkuadratkan skor skor total tersebut ().
2) Menghitung jumlah kuadrat skor masing – masing butir soal (disingkat atau ).
7) Memberikan interpretasi terhadap harga koefisien reabilitas tes, dengan menggunakan patokan
sebagai berikut:
1. Apabila sama dengan atau lebih besar dari 0,70 berarti tes hasil belajar yang sedang diuji
reliabilitasnya dinyatakan telah memiliki reliabilitas yang tinggi (reliable).
2. Apabila lebih kecil dari pada 0,70 berarti tes hasil belajar yang sedang diuji raliabilitasnya
dinyatakan belim memiliki reliabilitas yang tinggi (unreliable).
1. Analisis reliabilitas tes bentuk objektif
Penentuan reliabilitas tes bentuk objektif dapat dilakukan melalui salah satu dari pendekatan, yaitu
pendekatan tes ulang (tes – retest), pendekatan tes sejajar (alternate – forms), dan pendekatan
Pendekatan ini menunjukkan konsistensi pengukuran dari waktu ke waktu dan menghasilkan koefisien
reliabilitas yang sering disebut sebagai koefisien stabilitas. Prinsip penentuan reliabilitas tes dengan
mengenakan satu buah tes yang dilakukan dua kali dengan tenggang waktu tertentu, terhadap
sekelompok subjek yang sama.[8] Pndktan ini jga disebut dengan istilah single test – double trial
method.
Penentuan koefisien reliabilitas pada pendekatan ini dilakukan dengan jalan mengorelasikan skor hasil
pelaksanaan tes pertama dengan skor hasil pelaksanaan tes yang kedua. Teknik korelasi yang dapat
Kelemahan pendekatan tes ulang adalah kurang praktisnya pengenaan tes dua kali dan besarnya
kemungkinan terbawa efek bawaan (carry – effects) dari satu pengenaan tes ke pengenaan yang
kedua.
Pendekatan tes sejajar hanya dapat dilakukan apabila tersedia dua bentuk tes yang dapat dianggap
memenuhi asumsi parallel. Salah satu indikator terpenuhinya asumsi parallel adalah setaranya
korelasi antara skor kedua instrumen tersebut dengan skor suatu ukuran lain.
Tentu saja untuk mendapatkan paralel kedua bentuk instrument harus disusun dengan tujuan
mengukur objek psikologis yang sama, berdasarkan blue print (pola rancangan) yang sama serta
dilakukan dengan cara mengkorelasikan skor hasil tes pertama dengan skor hasil tes yang kedua.
Teknik korelasi yang dapat digunakan adalah teknik korelasi Product Moment dari Karl Pearson.
Kelemahan utama pada pendekatan ini terletak pada sulitnya menyusun dua alat ukur yang
memenuhi persyaratan paralel atau sejajar. Di samping itu pendekatan ini juga tidak menghilangkan
Estimasi reliabilitas dengan pendekatan konsistensi internal didasarkan pada data sekali penggunaan
Penentuan koefisiensi reliabilitas dilakukan setelah keseluruhan instrumen yang telah dikenakan pada
subjek itu dibagi menjadi beberapa bagian. Suatu instrumen dapat dibagi menjadi dua, tiga, atau
empat bagian dan bahkan dapat dibagi menjadi sebanyak jumlah item – itemnya. Bentuk dan sifat
alat ukur serta banyaknya bagian yang dibuat akan menentukan teknik perhitungan koefisien
reliabilitasnya.
1. Membuka program SPSS dengan langkah: klik start, klik program, klik SPSS 11.5 for windows.
2. Memasukkan data (in put data) pada kolom – kolom yang tersedia dengan mengetikkannya
satu persatu, atau di copy paste lewat data yang telah masuk dalam program excel.
3. Menghitung koefisiensi reliabilitas dengan langkah: klik analyze, klik scale, dan kli reability
analysis. Maka akan muncul suatu lembar kerja, lalu pindahkan variable yang akan di analisis
dari kolom di sebelah kiri dan kolom sebelah kanan dengan mengklik tanda panah kecil.
Selanjutnya pilih formula yang tepat sesuai dengan jenis data kita, formula Alpha dan terakhir
klik ok.
4. Maka kemudian akan muncul hasil dari koefisien relianilitas.
5. Memberikan inspretasi dengan cara yang sama dengan menggunakan hitungan manual yaitu
dikatakan telah reliabel jika hasil hitungannya sama dengan atau lebih besar dari 0,70. Hasil
hitungan tersebut diperoleh dari koefisien reliabilitas Alpha sebesar 0,3405 dan berada di
bawah 0,70. Maka dapat disimpulkan bahwa tes tersebut belum reliabilitas.
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat kemampuan
tertentu yang biasanya dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran ini biasanya
dinyatakan dalam bentuk proporsi yang besarnya berkisar 0,00 – 1,00. Semakin besar indeks tingkat
kesukaranyang diperoleh dari hasil perhitungan, maka semakin mudah soal itu. Perhitungan indeks
tingkat kesukaran ini dilakukan untuk setiap nomor butir soal. Pada prinsipnya skor rata – rata yang
diperoleh testee pada butir soal yang bersangkutan dinamakan tingkat kesukaran butir soal.
Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya dikaitkan dengan
ujian semester digunakan butir soal yang memiliki tingkat kesukaran sedang. Sedangkan untuk
keperluan seleksi digunakan butir soal yang memiliki tingkat kesukaran tinggi atau sukar, dan untuk
keperluan diagnosis biasanya biasanya dipergunakan butir soal yang memiliki tingkat kesukaran
Rumus yang dipergunakan untuk menganalisis tingakat kesukaran soal objektif adalah sebagai
berikut:
1. Menjumlah skor masing – masing butir soal yang dicapai oleh semua
2. Menghitung indeks tingkat kesukaran butir soal,dengan rumus:
TK
1. Memberikan interprestasi terhadap hasil perhutungan. Cara memberikan inter prestasi adalah
dengan mengkonsultasikan hasil perhitungan indeks tingkat kesukaran tersebut dengan suatu
oatokan atau criteria sebagai berikut:
Sedangkan untuk menghitung tingkat kesukaran soal bentuk uraian dengan rumus berikut ini:
Tindak lanjut dari hasil analisis tinggkat kesukaran butir soal ini adalah sebagai berikut:
(a) Mencatat butir soal yang sudah baik (memiliki TK= cukup) dalam buku bank soal.
(b) Bagi soal yang terlalu sukar ada tiga kemungkinan, yaitu: didrop atau dibuang atau diteliti ulang
(c) Untuk butir yang terlalu mudah juga ada tiga kemungkinan seperti yang dijelaskan pada point b
diatas.
Untuk mengetahui indeks daya pembeda soal bentuk objektif adalah dengan menggunakan rumus
berikut ini.
IDP =
Keterangan:
Daya pembeda soal adalah kemampuan suatu soal untuk membedakan antra siswa yang
mampu/pandai menguasai materi yang ditanyakan dan siswa yang tidak mampu atau kurang pandai
belum menguasai materi yang ditanyakan. Daya pembeda soal dapat diketahui dengan melihat besar
kecilnya angka indeks daya pembeda. Indeks daya pembeda ini juga dinyatakan dalam bentuk
proporsi. Semakin tinggi indeks daya pembeda soal maka semakin mampu soal yang bersangkutan
membedakan siswa yang pandai dan siswa yang kurang pandai. Indeks daya pembeda berkisar antara
-1,00 sampai dengan 1,00. Semakin tnggi daya pembeda suatu soal maka semakin kuat atau bail soal
itu. Jika daya pembeda negative (<0) erarti lebih banyak kelompok bawah (siswa yang tidak atau
kurang mampu) yang menjawab benar soal itu dibandingkan dengan kelompok atas (siswa yang
mampu). Indeks daya pembeda soal tersebut dapat digambarkan dalam sebuah garis kontinum.
Untuk mengetahui indeks daya pembeda soal bentuk objektif adalah dengan menggunakan rumus
berikut ini.
IDP =
Keterangan:
Soal yang tidak baik adalah soal yang ketika digunakan muncul tiga kemungkinan berikut:
1. Siswa yang pandai dan yang tidak pandai sama – sama menguasai dan sama – sama bisa
menjawab dwngan benar;
2. Siswa yang pandai dan yang tidak pandai sama – sama tidak dapat menjawab dengan benar;
3. Siswa yang pandai tidak dapat menjawab dengan benar, sebaliknya siswa yang tidak pandai
justru dapat menjawab denan benar.
1. Menjumlah skor total yang dicapai oleh masing – masing siswa (testee) dan skor total setiap
butir soal dengan sekaligus membagi testee menjadi dua kelompok adas dan kelompok bawah.
2. Membagi para testee menjadi dua kelompok, yaitu kelompok atas (kelompok testee yang
memperoleh skor tinggi) dan kelompok bawah (kelompok testee yang memperoleh skor
rendah) dan selanjutnya membubuhkan kode pada testee, yang masuk kelompok atas dengan
kode A dan testeekolompok bawah dengan kode B. care pembagian kelompok ini ada dua
cara:
1. Untuk jumlah kecil yakni jumlah testee kurang dari 100, caranya adalah seluruh testee
dibagi menjadi dua bagian sama besar, 50% untuk kelompok atas dan 50% untuk
kelompok bawah. Untuk menentukan siapa saja yang masuk kelompok atas dan yang
mauk kelompok bawah terlebih dahulu para testee tersebut diurutkan dari yang
memperoleh skor tertinggi hingga skor terendah. Bila jumlah testee ganjil, maka teste
yang menduduki urutan tengah dapat diikutkan kelompok atas sekaligus kelompok bawah.
2. Apabila jumlah testee lebih dari 100 (jumlah besar), maka kelompok atas cukup diambil
27%nya mulai dari testee yang memperoleh skor tertinggi dan di ambil pula kelompok
bawah 27% nya juga dan diambil dari testee yang memperoleh skor terendah.
3. Menghitung indek daya beda butir soal dengan rumus diatas.
4. Memberikan interpretasi terhadap hasil perhitungan. Cara member interpretasi adalah
dengan cara mengkonsultasikan hasil perhitungan indeks tingkat daya pembeda tersebut
dengan suatu patokan atau criteria sebagai berikut:
Untuk mengetahui daya beda mengetahui daya beda soal bentuk uraian adalah dengan menggunakan
IDP =
1) Membuat tabel perhitungan untuk menentukan kelompok atas dan kelompok bawah. Untuk
menentukan pembagian kelompok ini langsung mkelihat skor masing – masing testee pada butir soal
yang dianalisis, jadi tidak perlu melihat skor total yang dicapai masing – masing testee untuk setiap
butir.
2) Menghitung indek daya pembeda dengan terlebih dahulu menghitung mean (rata – rata hitung)
choice item). Didalam soal pilihan ganda dilengkapi dengan beberapa alternative jawaban yang
disebut dengan option (opsi). Opsi biasa berkisar antara 3 sampai dengan 5 buah. Dari opsi tersebut
terdapat salah satu jawaban yang benar dan itu yang disebut dengan kunci jawaban, sedangkan
Analisis distraktor dimaksud untuk mengetahui apakah distraktor tersebut telah berfungsi secara
Analisis butir soal dengan program koputer dapat dilakukan antara lain dengan menggunakan
program iteman.
Langkah – langkah melakukan program iteman dari pemasukan data ke dalam computer hingga
sosialisasi hasil.
Bisa melalui program notepad atau lewat windows exsplor dan cari file out put lalu klik dua kali.
1) Hasil analisis iteman terdiri dari item statistic dan alternative statistic.
2) Hasil lain analisis iteman adalah data – data statistic yang diperoleh dari pemasukan data.
1. Analisis Kualitas Instrumen Evaluasi Hasil Belajar Afektif
Analisis instrument penilaian afektif juga sama seperti halnya instrument penilaian kognitif dan
psikomotor, dalam arti dapat dilakukan analisis secara kualitatif dan kuantitatif (analisis empiric).
Perlu diketahui bahwa tidak semua mata pelajaran dievaluasi aspek psikomotornya kalau memang
dalam mata pelajaran yang bersangkutan tidak ada muatan kemampuan psikomotornya. Cara
melakukan analisis secara kualitatif untuk instrument penilaian psikomotor ini sama dengan analisis
Analisis instrument hasil belajar psikomotor juga dapat dianalisis secarateoritik atau analisis kualitatif
Prosedur standar pengembangan instrumen pada bidang psikomotor pada hakikatnya hampir sama
dengan bidang kognitif. Prosedur standar tersebut yaitu (1) Identifikasi Tujuan dan Kawasan Ukur (2)
Mengkaji secara teoretik dan praktik performansi maksimal yang diharapkan (3) Menentukan
penilaian yang terdiri dari lembar penilaian dan rubric (5) Uji keterbacaan instrumen oleh pengguna,
(6) uji coba pengadministrasian, dan (7) analisis data untuk mengetahui indeks validitas dan
reliabilitas data.
Identifikasi tujuan merupakan aspek penting dalam penyusunan suatu instrument pengukuran dan
penilaian. Tujuan dirumuskan berdasarkan maksud untuk apa instrument tersebut disusun. Suatu
instrument yang dimaksudkan untuk keperluan seleksi akan berbeda dengan instrument untuk
Mengkaji secara teoretik dan praktik performansi maksimal yang diharapkan merupakan langkah
kedua yang penting dalam penyusunan instrumen bidang psikomotor. Pada tahap ini, berbagai teori
yang berkaitan dengan trait psikologis yang sedang dikembangkan instrumennya dikaji. Dengan cara
yang terdiri dari lembar penilaian dan rubric. Lembar penilaian berisi aspek-aspek yang dinilai dan
skala ukur. Sedangkan rubric berisi tentang pedoman pemberian sekor khususnya pada hal-hal yang
bersifat subyektif.
Uji keterbacaan instrumen dimaksudkan untuk mengetahui efektifitas fungsi aspek-aspek penilaian
dan kalimat-kalimat yang dipakai. Hal ini penting untuk dilakukan agar tidak terjadi kesalahan
Uji coba pengadministrasian adalah suatu uji coba untuk menggunakan instrument dalam situasi
nyata. Uji coba ini dilakukan pada subjek yang sesuai dengan sasaran penilaian seperti pada tujuan
penilaian.
Analisis data merupakan langkah terakhir dari pengembangan instrument. Melalui analisis data
tersebut dapat diketahui kehandalan dan validitas instrument yang sedang diukur.
Instrumen pengukuran yang baik adalah istrumen yang didesain secara hati-hati dan dievaluasi secara
empirik untuk memastikan keakuratan dan infromasi penggunaannya.[9] Menurut pendapat ini,
instrumen yang baik harus melalui dua tahapan. Tahapan pertama adalah tahap desain yang terdiri
dari empat criteria, yaitu (1) tujuan didefinisikan secara jelas, (2) materi yang standard an spesifik,
(3) prosedur pengadministrasian yang terstandarisasi, dan (4) aturan pensekoran. Tahapan kedua
adalah tahap evaluasi yang berupa tahap pengumpulan data dan analisis data yang kemudian data
analisis respon terhadap item-item tes. Dua hal penting dalam psychometric
Konsep reliabilitas mengandung ide pokok seberapa jauh hasil suatu pengukuran dapat dipercaya.
[10] Istilah lain dari reliabilitas adalah keterpercayaan, keterandalan, keajegan, kestabilan,
konsistensi. Instrumen dikatakan reliable jika membuahkan hasil yang akurat dan stabil.
Reliabilitas alat ukur berkiatan erat dengan masalah kesalahan pengukuran (error of
measurement),yaitu menunjuk pada seberapa jauh inkonsistensi hasil pengukuran terjadi apabila
Konsep reliabilitas dalam arti reliabilitas hasil ukur erat berkiatan dengan kesalahan dalam
pengambilan sampel (sampling error) yang mengacu pada inkonsistensi hasil ukur apabila pengukuran
dilakukan ulang pada kelompok individu yang berbeda. Tinggi rendahnya reliabilitas ditunjukkan oleh
angka indeks yang disebut koefisien reliabilitas. Secara teoretik besarnya koefisien berkisar muali 0,0
sampai dengan 1,0. Koefisien reliabilitas dikatakan tinggi apabila indeksnya 0,9 atau lebih, sedang =
Ada beberapa tipe analisis reliabilitas yang dikenal, yaitu: (1) test-retest, (2) bentuk Paralel, (3)
Konsistensi Internal, (4) Skor Komposit, (5) Skor Perbedaan, dan (6) Hasil Rating (Azwar, 2000: 55-
125).
Test-retest (tes ulang) adalah suatu pendekatan untuk mengetahui indeks reliabilitas dengan jalan
menyajikan instrumen kepada kelompok subjek yang sama sebanyak dua kali dengan memberikan
tenggang waktu tertetnu di antara kedua penyajian tersebut. Skor yang diperoleh dari kedua
penyajian tersebut kemudian dikorelasikan dengan teknik korelasi Product Moment dari Pearson untuk
Bentuk Paralel adalah suatu pendekatan untuk mengetahui indeks reliabilitas dengan jalan menyajikan
sekaligus dua bentuk tes yang paralel satu sama lain kepada sekelompok subjek. Dalam
pelaksanaannya kedua perangkat tes tersebut bisa digabungkan terlebih dahulu baru kemudian
dipisahkan lagi pada waktu melakukan skoring. Skor yang diperoleh dari kedua perangkat tes tersebut
kemudian dikorelasikan dengan teknik korelasi Product Moment dari Pearson untuk mendapatkan
indeks reliabilitas.
Estimasi reliabilitas konsistensi internal dilakukan dengan cara menyajikan instrumen kepada
kelompok individu sebagai subjek sebanyak sekali. Respon yang diperoleh dari pengerjaan instrumen
tersebut kemudian diolah dengan teknik pembelahan tes. Di dalam pembalahan tes selalu diupayakan
agar setiap belahan tes homogen sehingga jumlah item, taraf kesukaran, dan isi sebanding dan
memenuhi ciri-ciri paralelisme. Banyak formula yang bisa digunakan untuk mengestimasi reliabilitas
instrumen dengan teknik pembelahan tes tersebut, yaitu: Formula Spearman Brown, Rulon, Flanagan;
Guttman, Mossier, Feldt, Horst, Cronbach’s Alpha, Kuder Richardson, Kristof, dan Analisis Varians.[12]
Reliabilitas skor komposit diberlakukan apabila skor subjek pada tes tidak berasal dari satu sumber
saja, melainkan gabungan dari beberapa skor. Skor gabungan tersebut bisa berasal dari komponen
atau sub tesnya, atau dari tes yang lain. Setiap bagian tes mempunyai bobot masing-masing yang
Reliabilitas skor perbedaan diberlakukan apabila skor subjek pada suatu tes merupakan selisih antara
skor dua komponen yang membentuk tes itu (Azwar, 2000: 103). Pada kasus ini terlebih dahulu dicari
indeks reliabilitas untuk setiap komponen serta indeks korelasi diantara kedua komponen tersebut,
Reliabilitas hasil rating diberlakukan pada kasus-kasus dimana skor yang diperoleh
merupakan judgment subjektif terhadap aspek atau atribut tertentu yang dilakukan melalui
pengamtan sistematis secara langsung atau tidak langsung (Azwar, 2000: 105). Ada dua cara yang
bisa ditempuh untuk mengestimasi reliabilitas hasil rating, yaitu: pertama, dengan memberikan rating
ulang pada atribut yang sama, kemudian hasil dari kedua rating tersebut dikorelasikan dengan
teknik rank-order correlation. Kedua, pemberian rating yang dilakukan sekaligus oleh beberapa orang
raters yang berbeda dan independen satu dengan yang lain. Cara kedua ini sering banyak
dipergunakan dengan alasan lebih praktis serta menghindari faktor ingatan dari rater.
Validitas mengandung konsep pengertian sejuahmana tes mempu mengukur atribut yang seharusnya
diukur.[13] Berdasarkan pengertian ini validitas instrumen berkaitan erat dengan rumusan tujuan
yang telah ditetapkan sebelumnya. Suatu instrumen dikatakan mempunyai validitas yang tinggi
apabila mampu menjalankan fungsinya sehingga menghasilkan data yang sesuai dengan tujuan
memberikan gambaran perbedaan sekecil-kecilnya di antara subjek yang satu dengan yang lainnya.
Ada tiga tipe validitas, yaitu (1) content validity (validitas isi) (2) construct validity (validitas
konstruk), dan (3) criterian-related validity (validitas berdasar criteria.[14] Validitas isi adalah tipe
validitas yang diestimasi melalui analisis rasional terhadap isi suatu instrumen pengukuran. Validitas
isi tercermin dari sejauh mana butir-butir tes mencerminkan keseluruhan kawasan isi objek yang
hendak diukur. Estimasi validitas ini tidak melalui perhitungan statistik tetapi
melalui judgmentsubjektif dari para ahli. Validitas isi terbagi menjadi dua macam, yaitu validitas muka
dan validitas logic. Validitas muka diperoleh apabila suatu instrumen mengukur trait yang relevan,
artinya butir-butir tes/skala tersebut tidak menyimpang dari tujuan dilakukannya pengukuran.
Validitas logik atau validitas sampling mencakup definisi yang cermat dari domain perilaku yang akan
diukur dengan tes/skala dan desain logis dari item/butir instrumen untuk mencakup keseluruhan
Validitas konstruk adalah tipe validitas yang ditunjukkan dengan sejauhmana tes/skala mengungkap
suatu trait atau konstruk teoretik yang hendak diukurnya.[15] Untuk memperoleh validitas konstruk
harus didahului analisis teoretik terhadap atribut yang hendak digali informasinya.
Validitas berdasarkan kriteria adalah validitas yang diperoleh dengan jalan mengkorelasikan skor tes
dengan suatu kriteria tertentu. Kriteria yang dimaksudkan di sini adalah variabel perilaku yang akan
dipresiksikan atau ukuran lain yang relevan. Berdasarkan pengertian ini prosedur validasi yang
dipergunakan ada dua macam yaitu dengan cara mengkorelasikan skor tes/sekala dengan skor
tes/sekala lain yang relevan yang datanya bisa diperoleh secara bersamaan, biasa disebut concurrent
validity, dan mengkorelasikan skor tes/sekala dengan skor tes/sekala yang diprediksikan pada waktu
Validitas prediktif instrumen merupakan salah satu tipe validitas yang penting dalam suatu sistem
seleksi. Suatu instrumen yang baik dapat dengan cermat memprediksikan performansi calon
siswa/mahasiswa di kemudian hari. Tinggi rendahnya validitas prediktif instrumen diwujudkan dalam
suatu indeks validitas prediktif yang tingginya berkisar antara 0,0 sampai dengan 1,0.
Ada beberapa faktor yang mempengerahui tinggi rendahnya indeks validitas prediktif dalam suatu
sistem seleksi. Di antaranya adalah akibat terjadinya (1) restriksi sebaran, dan (2) rendahnya indeks
Restriksi sebaran adalah terjadinya penyempitan distribusi skor yang diakibatkan oleh semakin
sedikitnya anggota populasi yang diamati. Hal ini disebabkan karena tidak semua peserta yang
terlibat dalam suatu sistem seleksi diterima. Akibatnya populasi menjadi lebih homogen (varians skor
Tinggi rendahnya indeks validitas prediktif juga dipengaruhi oleh rendahnya indeks kehandalan
instrumen baik pada variabel prediktor maupun kriterium. Suatu instrumen sesungguhnya mempunyai
indeks validitas yang lebih tinggi dari pada validitas murni yang diperoleh pada keadaan indeks
kehandalan salah satu atau kedua instrumen (prediktor dan atau kriterium) rendah.
DAFTAR PUSTAKA
Sukiman, S. Ag., M. Pd. 2008.Pengembangan sistem Evaluasi PAI. Yogyakarta: UIN Sunan Kalijaga
Yogyakarta.
Prof. H. M. Sukardi, MS., Ph.d. 2009. Evaluasi pendidikan. Jakarta: Bumi Aksara.
Drs. M. Ngalim Purwanto,M. P. 2008. Prinsip – Prinsip Dan Teknik Evaluasi Pengajaran. Bandung: PT.
Remaja Rosdakarya.
Prof. Dr. Anas Sudijono. 2006. Evaluasi Pendidikan. Jakarta: PT. Raja Grafindo Persada.
eprints.uny.ac.id/874/2/Bab_2.rtf
Assessment.html
[7] Sukiman.2008.
[12] Freidenberg, 1995: 193-204; Allen and Yen, 1970: 78-88; Azwar, 2000: 68-98; Naga, 1992: 134-
152.
Valid Assessment.html.
1) Validitas Logis
Istilah “validitas logis” mengandung kata “logis” berasal dari kata “logika”, yang berarti penalaran.
Dengan makna demikian, maka validitas logis untuk sebuah instrumen menunjuk pada kondisi bagi
sebuah instrumen yang memenuhi persyaratan valid berdasarkan hasil penalaran. Berdasarkan
penjelasan tersebut, maka instrumen yang sudah disusun berdasarkan teori penyusunan instrumen,
secara logis sudah valid. Dari penjelasan tersebut, kita dapat memahami bahwa validitas logis dapat
dicapai apabila instrumen disusun mengikuti ketentuan yang ada. Dengan demikian, dapat disimpulkan
bahwa validitas logis tidak perlu diuji kondisinya tetapi langsung diperoleh sesudah instrumen tersebut
selelsai disusun.
Ada dua macam validitas logis yang dapat dicapai oleh sebuah instrumen, yaitu: validitas isi dan validitas
konstrak (construct validity). Validitas isi bagi sebuah instrumen menunjuk suatu kondisi sebuah
instrumen yang disusun berdasarkan isi materi pelajaran yang dievaluasi, dan validitas konstrak sebuah
instrumen menunuk suatu kondisi sebuah instrumen yang disusun berdasarkan konstrak – aspek-aspek
kejiwaan – yang seharusnya dievaluasi.
2) Validitas Empiris
Istilah “validitas empiris” memuat kata “empiris” yang artinya “pengalaman”. Sebuah instrumen dapat
dikatakan memiliki validitas empiris apabila sudah diuji dari pengalaman. Mendasarkan pada hal
tersebut dapat diketahui baha validitas empiris tidak dapat diperoleh hanya dengan menyusun
instrumen berdasarkan ketentuan seperti halnya validitas logis, tetapi harus dibuktikan melalui
pengalaman. Ada dua macam validitas empiris, yakni concurrent validity dan predictive validity.
Dari dua validitas diatas ada dua jenis validitas, yakni validitas logis yang ada dua macam, dan
validitas empiris, yang juga ada dua macam, maka secara keseluruhan kita mengenal adanya empat
validitas, yaitu:
a) Validitas isi (content validity), berkenaan dengan isi dan format dari instrumen. Apakah instrumen
tepat mengukur hal yang ingin diukur.
b) Validitas konstruk (construct validity), berkenaan dengan konstruk atau struktur dan karakteristik
psikologis aspek yang akan diukur dengan instrumen. Validitas tes dikatakan memiliki validitas konstruksi
apabila butir-butir soal yang membangun tes tersebut mengukur setiap aspek berpikir.
c) Validitas “ada sekarang” (concurrent validity), yang dikenal dengan validitas empiris. Sebuah tes
dikatakan memiliki validitas empiris, jika hasilnya sesuai dengan pengalaman.
d) Validitas prediksi (predictive validity). Memprediksi artinya meramal, dengan meramal selalu mengenai
hal yang akan datang, jadi sekarang belum terjadi. Sebuah tes dikatakan memiliki validitas prediksi atau
validitas ramalan, apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi pada masa
yang akan datang.
2. Reliabilitas
a. Pengertian Reliabilitas
Sejalan dengan uraian di atas, Suryabrata (2000:29) menyatakan bahwa reliabilitas alat ukur
menunjuk pada sejauh mana hasil pengukuran dengan menggunakan alat tersebut dapat dipercaya. Hal
ini ditunjukkan oleh taraf keajegan (konsistensi) skor yang diperoleh para subyek yang diukur dengan alat
ukur yang sama, atau diukur dengan alat yang setara pada kondisi yang berbeda
Reliabilitas berhubungan dengan masalah kepercayaan. Suatu tes dapat dikatakan mempunyai
taraf kepercayaan yang tinggi jika tes tersebut dapat memberikan hasil yang tetap. Maka pengertian
reliabilitas tes berhubungan dengan masalah ketetapan hasil tes, atau seandainya hasilnya berubah-
ubah, perubahan yang terjadi dapat dikatakan tidak berarti.
Reliabilitas berkenaan dengan tingkat keajegan atau ketetapan hasil pengukuran. Suatu instrumen
memiliki tingkat reliabilitas yang memadai, bila instrumen tersebut digunakan mengukur aspek yang
diukur beberapa hali hasilnya sama atau relatif sama. Minilai ada metode untuk menguji reliabilitas
suatu instrumen, pertama metode Tes – Retes, dan kedua metode Paruh. Dalam metode Tes – Retes
pengujian (uji coba) dilakukan dua atau tiga kali terhadap sampel yang sama. Hasilnya dihitung dengan
uji korelasimenggunakan rumus Product Moment dari Pearson. Bila korelasi atau r-nya signifikan, maka
instrumen tersebut memiliki reliabilitas yang memadai dan bisa digunakan untk pengukuran
selanjutanya. Dalam metode Paruh, pengukuran uji coba hanya dilakukan satu kali, skor dari nomor-
nomro butir pertanyaan (soal) ganjil dikorelasikan dengan skor tes dari butir-butir soal genap.
Penafsirannya sama dengan Tes – Retes.
Sehubungan dengan reliaibilitas ini, Scarvia B. Anderson (dalam Arikunto, Suharsimi 2009: 87)
menyatakan bahwa persyartan bagi tes, yaitu validitas dan reliabilitas ini penting. Dalam hal ini validitas
lebih penting dak reliabilitas ini perlu, karena menyokong terbentuknya validita. Sebuah tes mungkin
reliabel tetapi tidak valid, sebaliknya sebuah tes yang valid biasanya reliabel.
Estimasi reliabilitas tes psikologis ᄃ dapat dilakukan dengan menggunakan tiga pendekatan,
yaitu : (1) pendekatan tes ulang (retes), (2) pendekatan dengan tes paralel, dan (3) pendekatan satu kali
pengukuran yang disebut teknik belah dua.
a. Pendekatan Tes Ulang (Retes)
Pendekatan ini dilakukan dengan cara satu perangkat tes psikologis diberikan kepada sekelompok
subyek dua kali, dengan selang waktu tertentu, misalnya tiga minggu. Situasi testing pertama dengan
testing kedua harus betul-betul sama, untuk menghindari adanya pengaruh faktor lain. Reliabilitas tes
dicari dengan menghitung korelasi skor testing pertama dengan skor testing kedua, jadi rt-1=rt-2.
Secara teoritik, pendekatan ini nampaknya baik, namun di dalam praktik banyak mengalami
kelemahan, seperti kondisi subyek pada testing kedua tidak lagi sama dengan kondisi subyek pada
testing pertama karena terjadi proses belajar ᄃ dalam selang waktu testing pertama dengan testing
kedua, kemungkinan lain adalah adanya perubahan pengalaman, motivasi, dan sebagainya.
b. Pendekatan dengan Tes Paralel
Pendekatan ini dilakukan dengan cara membuat tes paralel yaitu tes A dan tes B (keduanya
dirancang ᄃ bentuk paralel). Kedua tes tersebut diberikan kepada sekelompok subyek, lalu hasilnya
dikorelasikan, jadi rt-A = rt-B. Suatu tes dinyatakan reliabel bila diperoleh koefisien korelasi yang
signifikan antara skor hasil tes A dengan skor hasil tes. Kelemahan reliabilitas ini terletak pada sulitnya
membuat dua tes yang paralel.
c. Pendekatan Satu Kali Pengukuran
Pendekatan satu kali pengukuran disebut pendekatan belah dua, yaitu seperangkat tes diberikan
kepada sekelompok subyek satu kali, lalu skor tes tesebut dibelah menjadi dua bagian, misalnya belahan
ganjil genap artinya skor tes bernomor ganjil dijadikan belahan pertama, dan skor tes bernomor genap
menjadi belahan kedua. Koefisien reliabilitas ditunjukkan pada signifikansi korelasi dua belahan skor tes
bernomor ganjil dan skor tes bernomor genap, setelah koefisien korelasi tersebut dikoreksi dengan
rumus Spearman Brown.
Berbagai teknik estimasi reliabilitas
1) Teknik Belah Dua
suatu tes diberikan kepada sekelompok subjek satu kali. lalu skor perolehan dibelah menjadi dua bagian
yang setara. cara untuk membuat agar kedua bagian itu setara biasanya soal-soal yang bernomor gasal
dijadikan satu kelompok, dan yang bernomor genap dijadikan kelompok yang lain. estimasi realibilitas
dicari dengan menghitung korelasi skor pada belahan pertama dengan skor pada belahan kedua.
spearman dan Brown mengusulkan rumus
2) Rumus Rulon
rumus rulon digunakan jika kedua belahan tes itu tidak setara sehingga tidak dapat melakukan estimasi
realibilitas dengan menggunakan teknik belah dua.
3) Rumus Flanagan
flanagan menganggap bahwa varian-varian pada perangkat-perangkat belahan tes yang merupakan
varian kekeliruan pengukuran.
4) Teknik Kr 20
kuder dan richardso (1973) mengajukan rumus-rumus yang kemudian populer dengan nama KR 20 dan
KR 21.
5) Teknik Kr 21
Rumus KR 21 hanya sedikit berbeda dari rumus KR 20
6) Teknik analisis Varian
7) koefisien alpha
Keberhasilan mengungkapkan hasil dan proses belajar siswa sebagaimana adalanya (objektivitas hasil
penilaian) sangat bergantung pada kualitas alat penilaiannya, selain pada cara pelaksanaannya. Suatu
alat penilaian dikatakan mempunyai kualitas yang baik apabila alat tersebut memiliki atau memenuhi
dua hal, yakni ketepatannya atau validitasnya dan ketetapan atau keajegannya atau reliabilitasnya.
Validitas berkenaan dengan ketetapan alat penilaian terhadap konsep yang dinilai sehingga betul-betul
menilai apa yang seharusnya dinilai. Validitas tidak berlaku universal sebab bergantung pada situasi dan
tujuan penilaian. Validitas mencakup dua syarat penting, yaitu harus mengetahui objek yang akan diukur
dan mengetahui satuan ukuran yang tepat untuk objek tersebut. Contohnya adalah aspek berbicara yaitu
kemampuan menceritakan pengalaman liburan siswa, maka yang diukur adalah bahasa yang digunakan
siswa untuk bercerita, keruntutan cerita siswa dalam bercerita, ukuran keras nyaringnya siswa dalam
bercerita, kelancaran siswa dalam bercerita, dan ekspresi siswa dalam bercerita. Jika aspek berbicara itu
yang dinilai adalah nilai kehidupan dari cerita yang diceritakan, maka penilaian itu tidak valid.
Ada empat jenis validitas yang sering digunakan, yakni validitas isi, validitas bangun pengertian,
validitas ramalan, dan validitas kesamaan. Berikut akan dijelaskan satu persatu mengenai empat jenis
validitas:
11. Validitas isi
Validitas isi berkenaan dengan kesanggupan alat penilaian dalam mengukur isi seharusnya,
artinya tes tersebut mampu mengungkapkan isi suatu konsep atau variabel yang hendak diukur. Misalnya
tes hasil belajar bidang studi IPS harus bisa mengungkapkan isi bidang studi tersebut. Hal ini bisa
dilakukan dengan cara menyusun tes yang bersumber dari kurikulum bidang studi yang hendak diukur.
Penilaian ini dilakukan dengan cara mengambil sebagian materi dalam bentuk tes. Sampel harus
dapat mencerminkan materi yang terkandung dalam seluruh materi bidang studi selama satu semester.
Cara yang ditempuh dalam menetapkan sampel tes adalah memilih konsep-konsep materi yang esensial.
Dari setiap konsep dikembangkan beberapa pertanyaan tes. Di sinilah pentingnya peranan kisi-kisi
sebagai alat untuk memenuhi validitas isi. Dalam hal tertentu untuk tes yang telah disusun sesuai dengan
kurikulum (materi dan tujuannya) agar memenuhi validitas isi, dapat pula dimintakan bantuan ahli
bidang studi untuk menelaah apakah konsep materi yang diajukan telah memadai atau tidak sebagai
sampel tes. Dengan demikian validitas isi tidak memerlukan uji coba dan analisis statistik atau dinyatakan
dalam bentuk angka-angka.
Contoh dari validitas isi adalah penulisan soal-soal untuk ujian akhir semester 1 Bahasa
Indonesia pada kelas X. Penulisan soal-soal tersebut harus sesuai dengan konsep-konsep materi yang
terdapat pada buku teks pelajaran yang digunakan dalam kegiatan belajar mengajar tersebut. Cara
menulis soal-soal tersebut dilakukan dengan mengambil sampel-sampel dari seluruh bab yang ada dalam
buku teks pelajaran.
22. Validitas konstruk
Validitas konstruk adalah kesanggupan alat penilaian untuk mengukur kemampuan siswa dalam
menguasai materi yang diukurnya. Kemampuan siswa yang termasuk konsep kemampuan, minat, sikap
dalam berbagai bidang kajian. Konsep-konsep tersebut masih abstrak sehingga memerlukan penjabaran
yang lebih spesifik agar mudah diukur. Ini berarti setiap konsep harus dikembangkan indikator-
indikatornya. Menetapkan indikator suatu konsep dapat dilakukan dengan dua cara, yakni (a)
menggunakan pemahaman atau logika berpikir atas dasar teori pengetahuan ilmiah dan (b)
menggunakan pengalaman empiris, yakni apa yang terjadi dalam kehidupan nyata. Contoh: Konsep
mengenai “wawancara” dilihat dari pengalamannya, indikator empirisnya adalah:
- Menyiapkan alat-alat untuk wawancara (buku tulis dan alat tulis/ kaset rekaman/ video rekaman),
- Memilih seseorang yang dapat diwawancarai,
- Membuat pertanyaan-pertanyaan yang akan diberikan, dan
- Melakukan wawancara tersebut.
Berikut adalah contoh lain dari konsep wawancara jika dilihat dari indikator yang teoritis:
- Menentukan topik yang akan dijadikan bahan wawancara,
- Menentukan narasumber yang akan diwawancarai,
- Menyusun pertanyaan-pertanyaan yang akan diajukan secara runtut,
- Menyiapkan alat wawancara,
- Melakukan wawancara tersebut dengan narasumber,
- Melaporkan hasil wawancara di selembar kertas dengan bahasa Indonesia yang baik dan benar secara
runtut.
Apabila hasil tes menunjukkan indikator-indikator yang berhubungan secara positif satu sama lain, maka
ukuran tersebut tidak memenuhi validitas konstruk.
Contoh lain adalah ketika guru akan menilai aspek menyimak, maka konstruknya adalah soal-soal
yang berhubungan dengan menyimak, seperti pertanyaan yang mendeskripsikan atau menjelaskan poin-
poin yang disimak. Jika menggunakan soal-soal objektif, maka penilaian tersebut tidak valid karna aspek
menyimak tidak bisa dinilai menggunakan soal objektif.
33. Validitas ramalan
Dalam validitas ini yang diutamakan bukan isi tes, melainkan kriterianya, apakah alat penilaian
tersebut dapat digunakan untuk meramalkan suatu ciri, perilaku tertentu, atau kriteria tertentu yang
diinginkan. Misalnya alat penilaian motivasi belajar, apakah dapat digunakan untuk meramal prestasi
belajar yang dicapai. Artinya, terdapat hubungan yang positif antara motivasi dengan prestasi. Motivasi
dapat digunakan untuk meramal prestasi bila skor-skor yang diperoleh dari ukuran motivasi berkorelasi
positif dengan skor prestasi.
Validitas mengandung ciri adanya relevansi dan keajegan atau ketetapan. Validitas ramalan ini
mengandung dua makna: validitas jangka pendek dan validitas jangka panjang. Validitas jangka pendek
berarti daya ramal alat penilaian tersebut hanya untuk masa yang tidak lama. Artinya, skor tersebut
berkorelasi pada waktu yang sama. Sedangkan validitas jangka pajang mengandung makna skor tersebut
akan berkorelasi dalam waktu ke depan. Agar korelasi tersebut ada, maka perlu dijelaskan hubungan
antara konsep dan variabel berdasarkan pengetahuan ilmiah. Selain itu, skor yang dikorelasikan harus
memenuhi linieritas.
44. Validitas kriteria
Validitas kriteria suatu tes artinya membuat tes yang memiliki kriteria yang sama dengan tes
sejenis yang telah ada (standar tes). Kriteria tersebut mencakup objek yang diukur serta waktu yang
dibutuhkan. Apabila hasil tes tersebut menunjukkan korelasi yang tinggi dengan standarnya, maka tes
tersebut dapat dikatakan valid. Contohnya adalah soal-soal try out ujian akhir sekolah dibakukan sesuai
dengan standar tes ujian akhir sekolah. Penulisan soalnya berdasarkan soal-soal ujian akhir sekolah
tahun sebelumnya juga menambahkan beberapa soal baru yang diprediksi akan keluar. Melalui beberapa
kali uji coba akan dianalisis tingkat kesuakaran dan daya pembedanya di samping diuji validitas dan
reliabilitasnya. Berdasarkan uji coba tersebut, soal-soal akan diperbaiki dan disempurnakan sehingga
menghasilkan tes yang mendekati standarnya.
Reliabilitas penilaian adalah ketetapan atau keajegan alat penilaian dalam menilai yang dinilai.
Artinya, kapanpun alat penilaian tersebut digunakan akan memberikan hasil yang relatif sama. Tes hasil
belajar dikatakan ajeg apabila hasil pengukuran saat ini menunjukkan kesamaan hasil pada saat yang
berlainan waktunya terhadap siswa yang sama. Indeks reliabilitas alat penilaian dapat dicari dengan
mengorelasikan skor-skor yang diperoleh dari hasil penilaian yang berulang-ulang pada waktu yang
berbeda atau dengan kelompok pertanyaan yang sepadan. Berikut berbagai macam prosedur dalam
melakukan reliabilitas penilaian:
11. Reliabilitas remidial
Reliabilitas remidial (tes ulang/ retest) adalah penggunaan alat penilaian terhadap subjek yang
sama, dilakukan dua kali dalam waktu yang berlainan. Jarak waktu antara tes pertama dengan tes kedua
sebaiknya tidak terlalu dekat juga tidak terlalu jauh. Jika terlalu dekat, hasilnya banyak dipengaruhi oleh
ingatan siswa tentang jawaban yang diberikan pada pengukuran yang pertama. Jika terlalu jauh, bisa
terjadi adanya perubahan pengetahuan dan pengalaman siswa sehingga mempengaruhi reliabilitasnya.
Contohnya adalah penilaian membaca cepat artikel biografi Presiden Susilo Bambang Yudoyono
selama 200 detik pada pertemuan minggu pertama. Penilaian ini menggunakan intrumen pertanyaan-
pertanyaan berdasarkan poin-poin penting yang terdapat dalam artikel biografi tersebut. Pada
pertemuan minggu kedua, guru dapat memberikan instrumen yang sama untuk menilai reliabilitas
membaca cepat siswa. Jika hasilnya relatif sama, maka alat penilaian tersebut ajeg (reliabel). Jika tidak,
maka terjadi kesalahan dalam alat penelitiannya.
22. Reliabilitas pecahan setara
Mengukur bentuk pecahan setara tidak dilakukan dengan pengulangan kepada subjek yang
sama, tetapi menggunakan hasil dari bentuk tes yang sebanding atau setara yang diberikan kepada
subjek yang sama pada waktu yang sama pula. Dengan demikian, diperlukan dua perangkat tes yang
disusun agar memiliki derajat yang setara baik dari segi isi, tingkat kesukaran, abilitas yang diukur, jumlah
pertanyaan, bentuk pertanyaan, maupun segi teknis lainnya. Yang berbeda hanyalah pertanyaannya.
Contoh dari penilaian reliabilitas pecahan setara adalah penilaian dalam aspek menyimak, yaitu
menyimak cerita rakyat dari Maluku dan Aceh. Pada sesi pertama, guru memberikan tugas pada siswa
untuk menyimak cerita rakyat Maluku, kemudian guru memberikan instrumen pertanyaan yang
mencakup unsur intrinsik dan eksrinsik cerita rakyat. Begitu pula pada sesi kedua dimana guru
menugaskan siswa untuk menyimak cerita rakyat dari Aceh. Setelah menyimak, siswa menjawab
pertanyaan-pertanyaan yang mencakup unsur intrinsik dan ekstrinsik cerita rakyat. Bila penyusunan
kesetaraan tes dapat dicapai seoptimal mungkin, maka reliabilitasnya terpeunhi dengan baik.
33. Reliabilitas belah dua
Reliabilitas belah dua ini mirip dengan reliabilitas pecahan setara, terutama dalam
pelaksanannya. Dalam prosedur tes ini diberikan kepada kelompok subjek cukup sekali. Prosedur ini
digunakan apabila tes mengandung atau terdiri dari banyak item yang realtif sukar, materi yang duji
cukup komperehensif sehingga memungkinkan penyusunan dua soal untuk satu permasalahan yang
sama.
Contoh dari penilaian reliabilias belah dua adalah penilaian dalam aspek menulis yaitu majas.
Guru memberikan instrumen pertanyaan kepada siswa sebanyak 30 pertanyaan mengenai berbagai
macam majas yang terdapat dalam Bahasa Indonesia. Setelah selesai dikerjakan, guru membagi
pertanyaan-pertanyaan tersebut menjadi dua bagian yang sebanding. Pertanyaan-pertanyaan tersebut
dapat dibagi dengn cara membedakan soal ganjil dan genap. Kemudian guru menilai pertanyaan-
pertanyaan tersebut pada kelompok ganjil dan genap. Nilai/ skor tersebut dikorelasikan untuk dicari
koefisien korelasinya. Jika ada korelasinya, maka intrumen tersebut dinilai reliabel.
44. Reliabilitas persamaan rasional
Reliabilitas persamaan rasional ini dilakukan dengan cara menghubungkan setiap butir dalam
satu tes dengan butir-butir lainnya.
Dalam melakukan analisis menentukan tingkat realibitas tes uraian secara keseluruhan juga dilakukan
analisis tiap butir soal, rumus yang digunakan:
Keterangan:
Sedangkan, untuk mencari nilai varians (item maupun total) dapat menggunakan persamaan berikut ini:
Nilai hasil analisis validitas kemudian dicocokkan dengan kriteria reliabilitas, berikut ini kriteria
validitas yang dikemukakan oleh Gerson, dkk.
Sebelumnya ada dua tulisan yang membahas tentang reliabilitas (baca: bagian 1 ᄃ danbagian 2 ᄃ),
pada tulisan kali ini kita akan membahas tentang cara menganalisis reliabilitas suatu instrumen, sebagai
contoh kasus kita mengambil contoh istrumen berupa tes objektif.
Cara analisis reliabilitas tes objektif dapat dilakukan dengan 2 cara, yaitu: Teknik Belah Dua dan Teknik
Non Belah Dua, dengan kasus instrumen tes objektif maka salah satu rumus yang dapat digunakan
adalah Rumus (Formula) Spearman-Brown. Dengan rumus:
Keterangan:
n adalah banyaknya subjek
X1 adalah data belahan pertama
X2 adalah data belahan kedua
Dengan menggunakan rumus tersebut kita akan memperoleh Reliabilitas Tes Objektif, selain dengan
menggunakan rumus di atas juga dapat nilai yang sama (Reliabilitas) dengan menggunakan fungsi
CORREL dari Microsoft Excel.
A. Formula Spearman-Brown
Sebagai contoh, diperoleh hasil uji coba tes objektif yang ingin dianalisis reliabilitasnya (lihat gambar)
Selanjutnya dihitung
dengan langkah-langkah
sebagai berikut:
1. Dikelo
mpokkan jumlah
jawaban benar tiap skor yang diperoleh siswa dengan berdasarkan soal ganjil dan genap (lihat
gambar di bawah ini)
Contoh: siswa 1
jumlah jawaban
benar dari soal
dengan nomor
ganjil =5 (nomor
1, 3, 7, 9, 11),
ganjil=6 (nomor
2, 4, 6, 8, 10, 12)
2. X1^2
(^: pangkat) atau
diperoleh X1^2=
5 x 5 = 25, dan seterusnya
3. X2^2 atau diperoleh X2^2= 6 x 6 = 36, dan seterusnya
4. X1X2 atau diperoleh X1 x X2= 5 x 6 = 30
5. Selanjutnya jumlah semua skor menurut kolom (lihat baris Jum.)
6. Skor yang diperoleh selanjutnya dimasukkan pada rumus Formula Spearman-Brown,
lihat gambar di
bawah ini
diperoleh hasil =
0,42
0,42 merupakan koefisien reliabilitas setengah dari bagian tes tersebut.
7. Untuk menghitung koefisien reliabitas semuanya dihitung dengan rumus:
1. Dikelompokkan jumlah jawaban benar tiap skor yang diperoleh siswa dengan
berdasarkan soal ganjil dan genap (lihat gambar di bawah ini)
Fokus penilaian pendidikan adalah keberhasilan belajar peserta didik dalam mencapai standar
kompetensi yang ditentukan. Pada tingkat mata pelajaran, kompetensi yang harus dicapai berupa
Standar Kompetensi (SK) mata pelajaran yang selanjutnya dijabarkan dalam Kompetensi Dasar (KD).
Untuk tingkat satuan pendidikan, kompetensi yang harus dicapai peserta didik adalah Standar
Kompetensi Lulusan (SKL).
Prinsip penilaian mengacu pada standar penilaian pendidikan jenjang pendidikan dasar dan menengah,
salah satunya yang paling utama adalah sahih dan reliabel. Sahih, berarti penilaian didasarkan pada data
yang mencerminkan kemampuan yang diukur. Oleh karena itu, instrumen yang digunakan perlu disusun
melalui prosedur sebagaimana dijelaskan dalam panduan agar memiliki bukti kesahihan dan keandalan.
Pada umumnya penyusun tes (baca: guru) dalam menyusun sebuah tes atau instrumen untuk
mengukur keberhasilan proses belajar siswa kurang memperhatikan prosedur penyusunan yang benar,
sehingga sering dijumpai alat ukur itu validitas dan reliabilitasnya kurang dapat dipertanggungjawabkan.
Ada beberapa alasan mengapa penyusun tes sebagai alat ukur kompetensi siswa sering tidak
mengikuti prosedur yang baik. Pertama, kurun waktu untuk menyusun tes relatif singkat, padahal tes itu
harus segera digunakan. Sebenarnya perlu waktu yang cukup lama untuk bisa menghasilkan tes yang
baik. Kedua, kompetensi guru untuk mampu menyusun tes yang baik masih dirasa terbatas.
Keterbatasan kompetensi ini mungkin lebih disebabkan kurangnya referensi yang dapat digunakan oleh
guru dalam mengembangkan tes yang baik. Ketiga, kurangnya pengalaman untuk menyusun tes.
Pengalaman merupakan ‘guru’ yang paling baik. Dengan pengalamannya, guru akan banyak belajar
bagaimana menyusun tes yang mempunyai validitas dan reliabilitas yang tinggi.
Validitas
Validitas berasal dari kata validity yang mempunyai arti sejauh mana ketepatan dan kecermatan
suatu alat ukur dalam melakukan fungsi ukurnya (Azwar 1986).Suatu skala atau instrumen pengukur
dapat dikatakan mempunyai validitas yang tinggi apabila instrumen tersebut menjalankan fungsi
ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut.
Sedangkan tes yang memiliki validitas rendah akan menghasilkan data yang tidak relevan dengan tujuan
pengukuran.
Validitas tes biasa juga disebut sebagai kesahihan suatu tes adalah mengacu pada kemampuan
suatu tes untuk mengukur karakteristik atau dimensi yang dimaksudkan untuk diukur. Sedangkan
reliabilitas atau biasa juga disebut sebagai kehandalan suatu tes mengacu pada derajat suatu tes yang
mampu mengukur berbagai atribut secara konsisten (Brennan, 2006). Konstruksi tes yang baik harus
memenuhi kedua syarat tersebut, sehingga tes itu mampu memberikan gambaran yang sebenarnya
terhadap kondisi testee(siswa) yang diuji.
Sifat valid diperlihatkan oleh tingginya validitas hasil ukur suatu tes. Suatu alat ukur yang tidak
valid akan memberikan informasi yang keliru mengenai keadaan subjek atau individu yang dikenai tes
itu. Apabila informasi yang keliru itu dengan sadar atau tidak dengan sadar digunakan sebagai dasar
pertimbangan dalam pengambilan suatu keputusan, maka keputusan itu tentu bukan merupakan suatu
keputusan yang tepat.
Pengertian validitas juga sangat erat berkaitan dengan tujuan pengukuran. Oleh karena itu, tidak
ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur biasanya hanya
merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian, anggapan valid seperti
dinyatakan dalam "alat ukur ini valid" adalah kurang lengkap. Pernyataan valid tersebut harus diikuti oleh
keterangan yang menunjuk kepada tujuan (yaitu valid untuk mengukur apa), serta valid bagi kelompok
subjek yang mana? Istilah validitas ternyata memiliki keragaman kategori. Ebel (dalam Nazir 1988)
membagi validitas menjadi concurrent validity, construct validity, face validity, factorial validity, empirical
validity, intrinsic validity, predictive validity, content validity, dan curricular validity.
Concurrent Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan kinerja.
( Construct Validity adalah validitas yang berkenaan dengan kualitas aspek psikologis apa yang diukur oleh
suatu pengukuran serta terdapat evaluasi bahwa suatu konstruk tertentu dapat dapat menyebabkan
kinerja yang baik dalam pengukuran.
( Face Validity adalah validitas yang berhubungan apa yang nampak dalam mengukur sesuatu dan bukan
terhadap apa yang seharusnya hendak diukur.
Factorial Validity dari sebuah alat ukur adalah korelasi antara alat ukur dengan faktor-faktor yang yang
bersamaan dalam suatu kelompok atau ukuran-ukuran perilaku lainnya, dimana validitas ini diperoleh
dengan menggunakan teknik analisis faktor.
Empirical Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan suatu kriteria.
Kriteria tersebut adalah ukuran yang bebas dan langsung dengan apa yang ingin diramalkan oleh
pengukuran.
Intrinsic Validity adalah validitas yang berkenaan dengan penggunaan teknik uji coba untuk memperoleh
bukti kuantitatif dan objektif untuk mendukung bahwa suatu alat ukur benar-benar mengukur apa yang
seharusnya diukur.
Predictive Validity adalah validitas yang berkenaan dengan hubungan antara skor suatu alat ukur dengan
kinerja seseorang di masa mendatang.
Content Validity adalah validitas yang berkenaan dengan baik buruknya sampling dari suatu populasi.
Curricular Validity adalah validitas yang ditentukan dengan cara menilik isi dari pengukuran dan menilai
seberapa jauh pengukuran tersebut merupakan alat ukur yang benar-benar mengukur aspek-aspek
sesuai dengan tujuan instruksional.
Sementara itu, Kerlinger (1990) membagi validitas menjadi tiga yaitu content validity (validitas
isi), construct validity (validitas konstruk), dancriterion-related validity (validitas berdasar kriteria).
Semua jenis kesahihan harus diperhatikan untuk semua jenis tes, hanya penekanan yang berbeda. Tes
psikologi menekankan pada konstruksi tes, tes pencapaian belajar menekankan pada kesahihan isi,
sedangkan tes seleksi menekankan pada kesahihan kriteria, terutama pada kesahihan prediktif.
Pada pembahasan ini, akan dititik beratkan pada validitas ini, karena akan berbicara tentang tes
hasil belajar. Validitas isi merupakan validitas yang diperhitumgkan melalui pengujian terhadap isi alat
ukur dengan analisis rasional. Pertanyaan yang dicari jawabannya dalam validasi ini adalah "sejauhmana
item-item dalam suatu alat ukur mencakup keseluruhan kawasan isi objek yang hendak diukur oleh alat
ukur yang bersangkutan?" atau berhubungan dengan representasi dari keseluruhan kawasan.
Pengertian "mencakup keseluruhan kawasan isi" tidak saja menunjukkan bahwa alat ukur
tersebut harus komprehensif isinya akan tetapi harus pula memuat hanya isi yang relevan dan tidak
keluar dari batasan tujuan ukur.
Walaupun isi atau kandungannya komprehensif tetapi bila suatu alat ukur mengikutsertakan pula
item-item yang tidak relevan dan berkaitan dengan hal-hal di luar tujuan ukurnya, maka validitas alat
ukur tersebut tidak dapat dikatakan memenuhi ciri validitas yang sesungguhnya.
Apakah validitas isi sebagaimana dimaksudkan itu telah dicapai oleh alat ukur, sebanyak
tergantung pada penilaian subjektif individu. Dikarenakan estimasi validitas ini tidak melibatkan
komputasi statistik, melainkan hanya dengan analisis rasional maka tidak diharapkan bahwa setiap orang
akan sependapat dan sepaham dengan sejauhmana validitas isi suatu alat ukur telah tercapai.
Selanjutnya, validitas isi ini terbagi lagi menjadi dua tipe, yaitu face validity (validitas
muka) dan logical validity (validitas logis). Face Validity (Validitas Muka). Validitas muka adalah tipe
validitas yang paling rendah signifikasinya karena hanya didasarkan pada penilaian selintas mengenai isi
alat ukur. Apabila isi alat ukur telah tampak sesuai dengan apa yang ingin diukur maka dapat dikatakan
validitas muka telah terpenuhi.
Dengan alasan kepraktisan, banyak alat ukur yang pemakaiannya terbatas hanya mengandalkan
validitas muka. Alat ukur atau instrumen psikologi pada umumnya tidak dapat menggantungkan
kualitasnya hanya pada validitas muka. Pada alat ukur psikologis yang fungsi pengukurannya memiliki
sifat menentukan, seperti alat ukur untuk seleksi karyawan atau alat ukur pengungkap kepribadian
(asesmen), dituntut untuk dapat membuktikan validitasnya yang kuat.
Logical Validity (Validitas Logis). Validitas logis disebut juga sebagai validitas sampling (sampling
validity). Validitas tipe ini menunjuk pada sejauhmana isi alat ukur merupakan representasi dari aspek
yang hendak diukur. Untuk memperoleh validitas logis yang tinggi suatu alat ukur harus dirancang
sedemikian rupa sehingga benar-benar berisi hanya item yang relevan dan perlu menjadi bagian alat
ukur secara keseluruhan. Suatu objek ukur yang hendak diungkap oleh alat ukur hendaknya harus
dibatasi lebih dahulu kawasan perilakunya secara seksama dan konkrit. Batasan perilaku yang kurang
jelas akan menyebabkan terikatnya item-item yang tidak relevan dan tertinggalnya bagian penting dari
objek ukur yang seharusnya masuk sebagai bagian dari alat ukur yang bersangkuatan. Validitas logis
memang sangat penting peranannya dalam penyusunan tes prestasi dan penyusunan skala, yaitu dengan
memanfaatkan blue-print atau tabel spesifikasi.
Bila skor pada tes diberi lambang x dan skor pada kriterianya mempunyai lambang y maka
koefisien antara tes dan kriteria itu adalah rxyinilah yang digunakan untuk menyatakan tinggi-rendahnya
validitas suatu alat ukur.
Pengukuran validitas sebenarnya dilakukan untuk mengetahui seberapa besar (dalam arti
kuantitatif) suatu aspek psikologis terdapat dalam diri seseorang, yang dinyatakan oleh skor pada
instrumen pengukur yang bersangkutan.
Koefisien validitas pun hanya punya makna apabila apalagi mempunyai harga yang positif.
Walaupun semakin tinggi mendekati angka 1 berarti suatu tes semakin valid hasil ukurnya, namun dalam
kenyataanya suatu koefisien validitas tidak akan pernah mencapai angka maksimal atau mendekati angka
1. Bahkan suatu koefisien validitas yang tinggi adalah lebih sulit untuk dicapai daripada koefisien
reliabilitas. Tidak semua pendekatan dan estimasi terhadap validitas tes akan menghasilkan suatu
koefisien. Koefisien validitas diperoleh hanya dari komputasi statistika secara empiris antara skor tes
dengan skor kriteria yang besarnya disimbolkan oleh rxy tersebut. Pada pendekatan-pendekatan tertentu
tidak dihasilkan suatu koefisien akan tetapi diperoleh indikasi validitas yang lain.
Menurut Suryabrata (2000), bahwa untuk mengetahui validitas isi dari sebuah instrumen dapat
digunakan validasi dari pendapat ahli (profesional judgment). Koefisien validasi isi dapat dilakukan secara
kualitatif dan kuantitatif oleh beberapa orang pakar (Gregory, 2000 dalam Koyan, 2002). Untuk
menetukan koefisien validitas isi, hasil penilaian dari kedua pakar dimasukkan ke dalam tabulasi silang 2
X 2 yang terdiri dari kolom A, B, C, dan D. Kolom A adalah sel yang menunjukkan ketidaksetujuan kedua
penilai. Kolom B dan C adalah sel yang menunjukkan perbedaan pandangan antara penilai pertama dan
kedua (penilai pertama setuju penilai kedua tidak setuju, atau sebaliknya). Kolom D adalah sel yang
menunjukkan persetujuan antara kedua penilai. Validitas isi adalah banyaknya butir soal pada kolom D
dibagi dengan banyaknya butir soal kolom A + B + C + D.
Setelah butir soal divalidasi oleh dua penilai, selanjutnya dianalisis dengan menggunakan
perhitungan menurut Gregory seperti pada tabel berikut.
Judges Judges I
Sangat Relevan C (- +) D (+ +)
Dari tabel di atas dapat dicari validitas konten ( Content Validity) dengan menggunakan rumus
Gregory :
VC =
Sebagai dasar penilaian terhadap isi sebuah tes, maka berikut diuraikan kaidah penulisan soal.
Aspek Materi
2. Pengecoh berfungsi.
3. Setiap soal harus mempunyai satu jawaban yang benar atau yang paling benar.
Aspek Konstruksi
1. Pokok soal harus dirumuskan secara jelas dan tegas.
2. Rumusan pokok soal dan pilihan jawaban harus merupakan pernyataan yang diperlukan
saja.
3. Pokok soal jangan memberi petunjuk ke arah jawaban benar.
4. Pokok soal jangan mengandung pernyataan negatif ganda.
5. Pilihan jawaban harus homogen dan logis ditinjau dari segi materi.
6. Panjang rumusan pilihan jawaban harus relatif sama.
7. Pilihan jawaban jangan mengandung pernyataan, “Semua pilihan jawaban di atas salah”.
8. Pilihan jawaban yang berbentuk angka atau waktu harus disusun berdasarkan urutan
besar kecilnya nilai angka tersebut, atau kronologis waktunya.
9. Gambar, grafik, tabel, diagram, dan sejenisnya yang terdapat pada soal harus jelas dan
berfungsi.
10. Butir soal jangan bergantung pada jawaban soal sebelumnya. Ketergantungan pada soal sebelumnya
Aspek Bahasa
1. Setiap soal harus menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia.
2. Menggunakan bahasa yang komunikatif, sehingga mudah dimengerti.
3. Jangan menggunakan bahasa yang berlaku setempat.
4. Pilihan jawaban jangan mengulang kata atau frase yang bukan merupakan satu kesatuan
pengertian.
Dalam hal pengukuran ilmu sosial, validitas yang ideal tidaklah mudah untuk dapat
dicapai. Pengukuran aspek-aspek psikologis dan sosial mengandung lebih banyak sumber kesalahan
(error) daripada pengukuran aspek fisik. Kita tidak pernah dapat yakin bahwa validitas instrinsik telah
terpenuhi dikarenakan kita tidak dapat membuktikannya secara empiris dengan langsung.
Pengertian validitas alat ukur tidaklah berlaku umum untuk semua tujuan ukur. Suatu alat ukur
menghasilkan ukuran yang valid hanya bagi satu tujuan ukur tertentu saja. Tidak ada alat ukur yang
dapat menghasilkan ukuran yang valid bagi berbagai tujuan ukur. Oleh karena itu, pernyataan seperti
"alat ukur ini valid" belumlah lengkap apabila tidak diikuti oleh keterangan yang menunjukkan kepada
tujuannya, yaitu valid untuk apa dan valid bagi siapa. Itulah yang ditekankan oleh Cronbach (dalam
Azwar 1986) bahwa dalam proses validasi sebenarnya kita tidak bertujuan untuk melakukan validasi alat
ukur akan tetapi melakukan validasi terhadap interpretasi data yang diperoleh oleh prosedur tertentu.
Dengan demikian, walaupun kita terbiasa melekatkan predikat valid bagi suatu alat ukur akan
tetapi hendaklah selalu kita pahami bahwa sebenarnya validitas menyangkut masalah hasil ukur bukan
masalah alat ukurnya sendiri. Sebutan validitas alat ukur hendaklah diartikan sebagi validitas hasil
pengukuran yang diperoleh oleh alat ukur tersebut.
Atas alasan tersebut di atas, maka uji validitas perlu dilakukan dengan uji coba langsung kepada
testee. Setelah uji empiric dilakukan, maka hasilnya dilakukan analisis butir meliputi uji validitas.
Validitas butir dicari dengan mengkorelasikan skor butir dengan skor total. Rumus yang
digunakan adalah korelasi produk moment dengan rumus :
Keterangan :
X = Skor butir
Y = Skor total
Kriteria yang digunakan adalah dengan membandingkan harga rxydengan harga tabel kritik
r product moment, dengan ketentuan rxy dikatakan valid apabila rxy › rtabel pada ts = 0,05. Namun
dalam analisi menggunakan program microsoft excel telah tersedia fungsi korelasi. Sehingga dalam uji ini
digunakan rumus korelasi pada program microsoft excel.
Reliabilitas
Suatu alat ukur dikatakan reliabel jika alat ukur tersebut menunjukkan sejauh mana hasil
pengukuran dengan alat tersebut dapat dipercaya. Hal ini ditunjukkan oleh taraf keajegan (konsistensi)
skor yang diperoleh oleh para subjek yang diukur dengan alat yang sama, atau diukur dengan alat yang
setara pada kondisi yang berbeda. Dalam artinya yang paling luas, realiabilitas alat ukur menunjuk
kepada sejauh mana perbedaan-perbedaan skor perolehan itu mencerminkan perbedaan-perbedaan
atribut yang sebenarnya.
Reliabilitas alat ukur yang juga menunjukkan derajat kekeliruan pengukuran tak dapat ditentukan
dengan pasti, malainkan hanya dapat diestimasi. Ada tiga pendekatan dalam mengestimasi relibilitas alat
ukur itu, yaitu:
1. Pendekatan tes ulang / Test-Retest Method: Suatu perangkat tes diberikan kepada
sekelompok subjek 2x, dengan selang waktu tertentu, misalkan 2 minggu. Reliabilitas tes dicari
dengan menghitung korelasi antara skor pada testing 1 dan skor pada testing 2. Pendekatan ini
secara teori baik, namun didalam praktek mengandung kelemahan, yaitu bahwa kondisi subjek
pada testing 2 tidak lagi sama dengan kondisi subjek pada testing 1, karena terjadinya proses
belajar, pengalaman, perubahan motivasi, dll. Oleh karena itu pendekatan ini sudah sangat
jarang dipakai. Pendekatan ini sangat sesuai kalau yang dijadikan objek pengukuran adalah
ketrampilan, terutama ketrampilan fisik.
2. Pendekatan dengan tes paralel / Parallel Form Method: Dua perangkat tes yang paralel,
misalnya perangkat A dan B diberikan kepada sekelompok subjek. Reliabilitas tes dicari dengan
menghitung korelasi antara skor pada perangkat A dan skor pada perangkat B. Keterbatasan
utama pendekatan ini terletak pada sulitnya menyusun 2 perangkat tes yang paralel. Pendekatan
inipun sudah jarang digunakan.
3. Pendekatan pengukuran satu kali / Single Trial Method: Seperangkat tes diberikan
kepada sekelompok subjek satu kali, lalu dengan cara tertentu dihitung estimasi reliabilitas tes
tersebut. Pendekatan pengukuran satu kali ini menghasilkan informasi mengenai keajegan
(konsistensi) internal alat ukur. Pendekatan pengukuran satu kali ini dapat menghindarkan diri
dari kesulitan yang timbul dari pendekatan dengan pengukuran ulang maupun pendekatan tes
paralel, oleh karena itu pendekatan ini banyak digunakan. Yang menggunakan pendekatan
pengukuran satu kali:
1. Spearman-Brown: Jumlah butir dibelah menjadi 2 dan dicari nilai rxx-nya. Jumlah butir dapat dibelah
kiri dan kanan, angka ganjil dan genap maupun dengan cara random / acak. Bila nilai rxx-nya > 0.8 maka
dianggap reliabel.
2. Rulon: Menghitung dengan melihat selisih belahan satu dengan belahan yang lain, bukan dilihat dari
belahannya. Bila nilai rxx-nya > 0.8 maka dianggap reliabel.
3. Alpha Cronbach: Alpha membagi jumlah butir dengan berapapun asal sama rata, tidak seperti
Spearman-Brown dan Rulon yang tidak dapat membagi dua angka ganjil menjadi sama rata seperti
misalnya angka 15, Alpha bisa membagi menjadi: 5, 5 dan 5. Bila nilai Alpha-nya > 0.8 maka dianggap
reliabel.
4. Anava Hoyt: Membagi jumlah butir sebesar jumlah butirnya, jadi dapat dibagi berapapun, tidak seperti
Alpha yang tidak dapat membagi jumlah butir yang nilainya imajiner, misalnya 19. Tapi Alpha akhirnya
mengeluarkan rumus baru yang dapat membagi jumlah butir sebesar jumlah butirnya juga. Dan Anava
Hoyt dan Alpha yang paling banyak digunakan dalam perhitungan reliabilitas sampai saat ini. Bila nilai rtt-
nya > 0.8 maka dianggap reliabel.
5. KR20: Kuder Richardson mengeluarkan rumus perbaikan tetapi KR20 juga jarang dipakai karena KR20
hanya dapat digunakan pada data dikotomi (pilihan ya dan tidak / 0 dan 1) tidak seperti diatas, yang bisa
menghitung data dikotomi dan kontinu. Bila nilai KR20-nya > 0.8 maka dianggap reliabel.
Tapi ada pendapat lain yang mengatakan bahwa suatu suatu alat tes bukan dilihat dari rtt-nya
tapi dilihat dari seberapa besar penyimpangan dari alat ukur tersebut (Standart Error Measurement /
SEM / SE). Semakin kecil nilai penyimpangannya maka alat ukur tersebut semakin baik.
Dengan adanya kemajuan teknologi dan adanya program-program komputer yang menangani
tentang statistik, kita tidak perlu lagi menghitung secara manual, kita bisa menggunakan program SPSS
atau menggunakan program SPS.
Reliabilitas menyangkut derajat konsistensi atau kesepakatan antara dua perangkat skor yang
diturunkan secara indipenden sehingga dapat diungkap dengan istilah koefisien korelasi. Dalam uji
empiric ini digunakan koefisien alfa hasil penurunan rumus yang dilakukan oleh Cronbach yakni
Dimana :
Pustaka
Brenan, Robert L. 2006. Educational Measurement. Washington: American Council on Education Praeger.
Djemari Mardapi. 2003. Konstruksi Tes dan Analisis Butir. Bahan lokakarya Metodologi Interaksi
Pembelajaran. Unpublished.
http://violetatniyamani.blogspot.com/2007/09/teori-validitas.html ᄃ
Kumaidi. 2008. Konstruksi Instrumen. Bahan Kuliah Pascasarjana UNY. Unpublished.
Fernandes, H.J.X. 1984, Testing and Measurenment. Jakarta : National Education Planning, Evaluation and
Curriculum Development
Koyan, I Wayan. 2004. Konsep Dasar dan Teknik Evaluasi Hasil Belajar. Singaraja : IKIP Negeri Singaraja