Anda di halaman 1dari 19

RESUME VALIDITAS DAN RELIABILITAS

SEPTI ARIYANI NIM.1513071030

JURUSAN PENDIDIKAN IPA


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PENDIDIKAN GANESHA
2017
BAB IV VALIDITAS DAN RELIABILITAS TES
Capaian
Kemampuan Akhir yang Diharapkan*
Pembelajaran
B5, A1,2,3, 4.1 Menjelaskan validitas isi
4,5,6,8,9 4.2 Menjelaskan validitas konstruk
4.3 Memilih metode validasi tes
Keterangan: * Dikutip dari SAP/RPS; **lihat capaian mata kuliah Asesmen dan Evaluasi
Pemelajaran.
A. Reliabilitas dan Validitas Pengukuran
Reliabilitas merupakan penerjemahan dari kata reability. Suatu pengukuran yang mampu
menghasilkan data yang memiliki tingkat reabilitas tinggi disebut sebagai pengukuran yang
reliebel. Walaupun istilah reliabilitas mempunyai berbagai nama lain, seperti konsistensi,
keterandalan, keterpercayaan, kestabilan, keajegan, dan sebagainya. Namun, gagasan pokok
yang terkandung dalam konsep reliabilitas adalah sejaunmana hasil suatu proses pengukura
dapat dipercaya.
Hasil suatu pengukuran akan dapat dipercaya hanya apabila dalam beberapa kali
pelaksanaan pengukuran terhadap kelompok subjek yang sama diperoleh hasil yang relative
sama, selama aspek yang diukur dalam diri subjek memang belum berubah. Dalam hal ini,
relative sama berarti tetap adanya toleransi terhadap perbedaan-perbedaan kecil yang
biasnaya terjadi diantara hasil beberapa kali pengukuran. bila perbedaan yang terjadi sangat
besar dari waktu ke waktu maka hasil pengukuran tersebut tidak dapat dipercaya dan
dikatakan sebagai tidak reliebel. pengukuran yang hasilnya tidak reliebel tentu tidak dapat
dikatakan akurat karena konsistensi menjadi syarat bagi akuransi.
Pengertian reliabilitas alat ukur dan reliabilitas hasil ukur, oleh sebagian orang, dianggap
sama saja dan sering dipertukarkan. Sebenarnya, perbedaan makna kedua istilah itu perlu
diperhatikan.Konsep reliabilitas dalam arti reliabilitas alat ukur erat berkaitan dengan
masalah eror pengukuran (error of measurement). Eror pengukuran sendiri menunjuk pada
sejauhmana inkonsistensi hasil ukur terjadi apabila pengukuran dilakukan ulang pada
kelompok subjek yang sama. Konsep reliabilitas dalam arti reliabilitas hasil ukur erat
berkaitan dengan eror dalam pengambilan sampel subjek yang mengacu kepada inkosistensi
hasil ukur apabila pengukuran dilakukan ulang pada kelompok sampel subjek yang berbeda
dari suatu populais yang sama. Berkaitan dengan hal itu Thompson mengatakan bahwa hal
yang lebih penting untuk dipahami adalah bahwa estimasi terhadap reliabilitas merupakan
fungsi dari skor yang diperoleh melalui tes, bukanlah fungsi dari tesnya itu sendiri
(Thompson, 1999 dalam Azwar).
Oleh karena itu, instrument ukur dalam kegiatan riset atau penelitian yangs ebelumnya
telah diestimasi reliabilitasnya pada sampel subjek lain, komputasi koefisien reliabilitas hasil
ukur bagi data subjek penelitian tersebut masih tetap perlu dilakukan. Dengan menghitung
ulang koefisien reliabilitas alat ukur pada kelompok subjek penelitian, akan diperolehh
estimasi terhadap tingkat keterpercayaan data hasil pengukuran alat tersebut bagi kelompok
subjek yang sedang diteliti dan, lebih jauh lagi, kita dapat memperoleh informasi mengenai
kecermatan data sebagai estimasi skor yang sebenarnya dimiliki oleh subjek penelitian.
B. Validitas
Validitas berasal dari kata validity yang mempunyai arti sejauhmana akurasi suatu tes
atau skala dalam menjalankan fungsi pengukurannya. Pengukuran dikatakan mempunyai
validitas yang tinggi apabila menghasilkan data yang secara akurat memberikan gambaran
mengenai variable yang diukur seperti dikehendaki oleh tujuan peng8kuran tersebut. Akurat
dalam hal ini berarti tepat dan cermat sehingga apabila tes menghasilkan data yang tidak
eleven dengan tujuan pengukuran maka dikatakan sebagai pengukuran yang memiliki
validitas rendah.
Di sisni terkandung pengertian bahwa valid-tidaknya suatu pengukuran tergantung pada
kemampuan alat ukur tersebut dalam mencapai tujuan pengukuran yang dikehendaki dengan
tepat. Suatu tes yang dirancang untuk mengungkap atribut A dan kemudian memang
menghasilkan informasi mengenai atribut A, dikatakan sebagai alat ukur yang hasilnya valid.
Sebaliknya, suatu tes yang dirancang untuk mengukur atribut A akan tetapi menghasilkan
data mengenai atribut A atau bahkan B, dikatakan sebagai alat ukur yang fungsinya tidak
valid untuk mengukur atribut A tapi valid untuk mengukur atribut A atau B.
Sisi lain yang terkandung dalam penegrtian validitas adalah aspek kecermatan
pengukuran. Suatu hasil ukur yang disebut valid, tidak sekedar merupakan data yang tepat
menggambarkan aspek yang diukur akan tetapi juga memberikan gambaran yang cermat
mengenai variable yang diukur. Cermat berarti bahwa pengukuran itu mampu memberikan
gambaran dan makna terhadap perbedan angka yang sekecil-kecilnya yang diperoleh oleh
individu yang berbeda. Sebagai suatu contoh, dalam bidang pengukuran aspek fisik, untuk
dapat mengetahui berat sebuah cincin emas maka harus digunakan alat penimbang berat
emas agar hasil pengukurannya valid, yaitu memberikan gambaran berat yang tepat dan
cermat. Sebuah alat penimbang badan memnag juga tepat untuk mengukur variable berat
akan tetapi tidaklah cukup cermat guna menimbang berat cincin emas dikarenakan perbedaan
berat yang sangat kecil (tapi penting) pada berat emas itu tidak akan terlihat pada alat ukur
berat badan yang tidak memberikan gambaran perbedaan berat sampai pada satuan
milligram.
Demikian pula halnya untuk mengetahui waktu tempuh yang diperlukan dalam
perjalanan dari satu kota ke kota lainnya maka sebuah jam tangan biasa akan dianggap cukup
cermat untuk menghitung waktu dalam satuan jam dan menit sehingga akan menghasilkan
pengukuran waktu yang valid. Akan tetapi, jam tangan yang sama tentu tidak dapat
memberikan hasil ukur yang valid mengenai waktu yang diperlukan oleh seorang atllit pelari
cepat untuk menempuh jarak 100 meter, dikarenakan dalam hal itu diperlukan alat ukur lain
yang harus dapat memberikan perbedaan satuan waktu terkecil sampai kepada pecahan etik.
Menggunakan alat ukur yang bertujuan untuk mengukur suatu aspek tertentu akan tetapi
tidak dapat memberikan hasil ukur yang cermat dan teliti tentu akan menimbulkan berbagai
kesalahan. Kesalahan itu dapat berupa hasil yang terlalu tinggi atau terlalu rendah.
Keragaman kesalahan ini dala statistika disebut sebagai varians kesalahan atau error
variance. Tes akan menghasilkan data kuantitatif yang valid apabila varians eror
pengukurannya kecil (disebabkan eror pengukurannya kecil) sehingga angka yang
dihasilkannya dapatt dipercaya sebagai angka yang sebenarnya atau angka yang mendekati
keadaan sebenarnya.
C. Teknik Pengujian Validitas Tes Hasil Belajar

Penganalisisan terhadap tes hasil belajar sebagai suatu totalitas dapat dilakukan dengan dua
cara : Pertama, penganalisisan yang dilakukan dengan jalan berfikir secara rasional atau
penganalisisan dengan menggunakan logika ( logical analysis ). Kedua, penganalisisan yang
dilakukan dengan mendasarkan diri kepada kenyataan empiris, dimana penganalisisan
dilaksanakan dengan menggunakan empirical analysis(Anas Sudijono:2009)

a. Pengujian Validitas Tes secara Rasional


Validitas rasional adalah validitas yang diproleh atas dasar hasil pemikiran,
validitas yang diproleh dengan berfikir secara logis. Dengan demikian maka suatu tes
hasil belajar dapat dikatakan telah memiliki validitas Rasional, apabila setelah dilakukan
penganalisisan secara rasional ternyata bahwa tes hasil belajar itu memang ( secara
rasional ) dengan tepat telah dapat mengukur apa yang seharusnya di ukur. Untuk dapat
menentukan apakah tes hasil belajar sudah memiliki validitas rasional apakah belum
dapat dilakukan mulai dari dua segi :

1. Validitas Isi

Validitas isi suatu tes hasil belajar adalah validitas yang diperoleh setelah
dilakukan penganalisisan, penelusuran atau pengujian terhadap isi yang terkandung
dalam tes hasil belajar tersebut. Jadi validitas isi adalah validitas yang dilihat dari
segi tes itu sendiri sebagi alat pengukur hasil belajar. Sebuah tes dikatakan memiliki
validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau
isi pembelajaran yang berikan.

2. Validitas Konstruksi

Secara etimologi konstuksi mengandung arti susunan, kerangka atau rekaan.


Adapun secara terminologi, suatu tes hasil belajar dapat diajarkan sebagai tes yang
telah memiliki validitas konstruksi, apabila tes tersebut ditinjau dari segi susunan,
kerangka atau kerangkaann nya telah dapat dengan secara tepat mencerrminkan
suatu konstruksi daalam teori psikologi. Sebuah tes dikatakan memiliki validitas
kontruksi apabila butir-butir soal yang membangun tes tersebut mengukur setiap
aspek berfikir seprti yang disebutkan dalam tujuan Intraksional Khusus (Arikunto :
2011). Validitas kontruksi dari suatu tes hasil belajar dapat dilakukan
penganalisisannya dengan jalan melakukan pencocokan terhadap aspek-aspek
berfikir yang terkandung dalam tes hasil belajar tersebut.

b. Pengujian Validitas Tes Secara Empirik

Jenis ini diperoleh dengan memperhatikan hubungan yang ada antara alat (ujian)
yang sedang dipelajari dengan pengukuran atau kenyataan-kenyataan yang lain. Bahan-
bahan pembanding ini mungkin diperoleh bersamaan waktunya dengan waktu
penyelenggaraan ujian yang dimaksud mungkin juga tidak. Untuk validitas jenis empirik
ini akan dibicarakan tiga kenyataan validitas yaitu : validitas pengukuran setara
(congruent validity), validitas pengukuran serentak (concurrent validity) dan validitas
ramalan (predictive validity).

1. Validitas pengukuran Setara (congruent validity)


Jenis kevalidan ini menunjukkan kenyataan yang diperoleh dengan
mengkorelasikan hasil suatu ujian dengan pengukuran yang setara (mengukur fungsi
yang sama). Demikianlah, mengkorelasikan hasil sebuah tes intelegensi yang baru
dengan hasil tes intelegensi yang sudah ada akan memberikan kenyataan validitas
jenis ini.
2. Validitas Pengukuran Serentak
Validitas ini lebih umum dikenal dengan validitas empiris. Sebuah tes dikatakan
memiliki validitas empiris jika hasilnya sesuai dengan pengalaman. Jika istilah
sesuai tentu ada dua hal yang dipasangkan. Dalam hal ini hasil tes dipasangkan
dengan hasil pengalaman. Pengalaman selalu mengenai hal yang telah lampau
sehingga data pengalaman tersebut sekarang sudah ada (ada sekarang, concurrent).
Dalam membandingkan hasil sebuah tes maka diperlukan suatu kriterium atau alat
banding. Maka hasil tes merupakan sesuatu yang dibandingkan.
Jenis validitas pengukuran serentak ini menunjukkan kenyataan yang
diperhitungkan dengan mengkorelasikan hasil ujian yang dimaksud dengan suatu
ukuran lain yang pengukurannya dilaksanakan bersamaan waktu dengan pelaksanaan
ujian itu. Jika suatu tes yang memeriksa sosialibilitas misalnya, dikorelasikan dengan
kedudukan sosialibilitas mahasiswa yang di tes itu menurut teman-temannya yang
terdekat, maka hasilnya akan memperlihatkan kenyataan validitas jenis ini. Misalnya
seorang guru ingin mengetahui apakah tes sumatif yang disusun sudah valid atau
belum. Untuk ini diperlukan sebuah kriterium mas lalu yang sekarang datanya dia
memiliki misalnya nilai ulangan harian atau nilai ulangan sumatif yang lalu.
3. Validitas Ramalan (predictive validity)
Memprediksi artinya meramal, dan meramal selalu mengenai hal yang akan
dating jadi sekarang belum terjadi. Sebuah tes dikatakan memiliki validitas prediksi
atau validitas ramalan apabila mempunyai kemampuan untuk meramalkan apa yang
akan terjadi pada masa yang akan dating. Jenis validitas ini menunjukkan kenyataan
jika ujian yang dimaksud dihubungkan dengan kriteria-kriteria tentang hasil karya
atau kesuksesan di masa depan. Demikianlah jika suatu tes bakat skolastik diberikan
pada siswa-siswa SMU dikorelasikan dengan prestasi mereka di perguruan tinggi,
maka kenyataan yang diperoleh itu akan menunjukkan validitas ramalan. Misalnya
tes masuk Perguruan Tinggi adalah sebuah tes yang diperkirakan mampu meramalkan
keberhasilan peserta tes dalam mengikuti kuliah di masa yang akan dating. Calon
yang tersaring berdasarkan hasil tes diharapkan mencerminkan tinggi-rendahnya
kemampuan mengetahui kuliah. Jika nilai tesnya tinggi tentu menajmin
keberhasilannya kelak. Sebaliknya seorang calon dikatakan tidak lulus tes karena
memiliki nilai tes yang rendah diperkirakan akan tidak mampu mengikuti perkuliahan
yang akan dating. Sebagai alat pembanding validitas prediksi adalah nilai-nilai yang
diperoleh setelah peserta tes mengikuti pelajaran di Perguruan Tinggi. Jika ternyata
siapa yang memiliki nilai tes lebih tinggi gagal dalam ujian semester I dibandingkan
dengan yang dahulu nilai tesnya lebih rendah maka tes masuk yang dimaksud tidak
memiliki validitas prediksi.
D. Metode-metode Estimasi
1. Metode Tes Ulang
Metode ini dilakukan dengan menyajikan satu tespada satu kelompok subjek dua
kali dengan tenggang wajtu yang cukup diantara kedua penyajian tersebut.
Asumsi yang menjadi dasar dalam metode ini adalah bahwa satu tes yang reliebel
tentu akan menghasilkan skor tampak yang relative sama apabila dikenakan dua kali
pada waktu yang berbeda. Semakin besar variasi perbedaan skor subjek antara kedua
penyajian tersebut berarti semakin sulit untuk mempercayai bahwa tes itu memberikan
hasil ukur yang konsisten.
Dengan demikian, reliabilitas pengukuran diperlihatkan oleh koefisien korelasi
linier antara distribusi skor subjek pada pemberian tes yang pertama dan distribusi
skor subjek pada pemberian tes yang kedua kalinya. Koefisien korelasi yang
memperlihatkan keeratan variasi skor diantara dua kali pemberian tes tersebut
merupakan koefisien reliabilita hasil ukur tes yang bersangkutan.
Dalam estimasi reliabilitas yang menggunakan metode tes-ulang harus diwaspadai
kemungkinan adanya perubahan kondisi subjek sejalan dengan berbedanya waktu
diantara kedua penyajian tes. Perubahan kondisi subjek yang terjadi tidak ada kesemua
subjek dan tidak searah sedikit banyak aka nada pengaruhnya terhadap koefisien
reliabilitas yang diperoleh. Sebagai contoh, apabila dalam mengerjakan tes yang
pertama kali subjek tidak bersungguh-sungguh, dalam keadaan lelah, atau memang
sedang tidak siap, atau kemudian ia menjadi lebih bersungguh-sungguh dalam
mengerjakan tes tersebut untuk kedua kalinya maka skor subjek pada kedua pemberian
tes akan banyak berbeda. Kalau hal itu terjadi pada sebagian subjek dan perubahan
skor itu efeknya tidak searah bagi semua subjek maka reliabilitas yang diperlihatkan
oleh koefisien korelasi antara kedua pemberian tes tidak akan tinggi. Tentu saja
koefien tersebut tidak akan merupakan estimasi yang benar terhadap reliabilitas tes
akan tetapi merupakan estimasi yang lebih rendah daripada semestinya. itulah salah
satu contoh kasus terjadinya efek biasanya seringkali menjadi maslaah serius dalam
metode reliabilitas tes ulang.
Dalam bentuk lain, efek bawaan terjadi dikarenakan masih teringatnya subjek akan
jawaban yang diberikannya pada waktu pertama kali tes disajikan, dan kemudian pada
waktu tes tersebut disajikan kembali subjek hanya sekedar mengulangi saja jawaban
yang pernah ia berikan. Kalau hal tersebut terjadi pada sebagian besar individu maka
dapat mengakibatkan kemiripan distribusi skor subjek pada kedua penyajian tes dan
korelasinya akan menjadi tinggi lebih dari yang seharusnya. Koefisien tersebut tidak
mencerminkan reliabilitas pengukuran yang benar karena tingginya korelasi lebih
disebabkan pengulangan jawaban yang diberikan oleh subjek saja.
Efek bawaan dapat terjadi juga sebagai akibat dari semacam latihan yang dialami
subjek pada waktu dikenai tes pertama kali. Dalam hal ini performans subjek dalam
mengerjakan tes yang kedua kali dapat menjadi lebih baik dikarenakan telah memiliki
pengalaman sebelumnya dalam mengerjakan tes yang sama. Hal ini benar teruatama
pada tes yang mengukur aspek kemampuan, baik kemampuan actual maupun
kemampuan potensial.
Di smping itu, terdapat pula kemungkinan timbulnya efek rejeksi atau reaksi
penolakan dalam diri subjek, yang dinyatakan dalam bentuk perilaku pengerjaan tes
dengan tidak bersungguh-sungguh. Hal ini dapat terjadi pada waktu subjek dikenai tes
untuk kedua kalinya dan menyadari bahwa soal tes tersebut serupa dengan yang telah
diberikan sebelumnya dan timbul anggapan dalam diri subjek bahwa dirinya hanya
digunakan sebagai percobaan atau subjek mengira bahwa hasil tes yang terdahulu
tidak ditangani dengan serius sehingga pengambilan data perlu diulang. Kemungkinan
terjadinya penolakan ini besar pada penyajian tes yang mengukur aspek afektif.
Memang biasanya tidak mudah untuk menentukan berapa lama tenggang waktu
yang perlu disediakan di antara dua kali pemberian tes dalam prosedur pengulangan
tes seperti ini. Bila tenggang waktu terlalu singkat, sangat mungkin terjadinya efek
bawaan sedangkan bila tenggang waktunya terlalu panjang sangat mungkin terjadi
perubahan yang signifikan pada aspek psikologis yang diukur dalam diri indivisu.
Lamanya tenggang waktu tersebut mungkin pula akan menyebabkan perubahan
suasana hati, motivasi, dan juga sikap subjek terhadap pengetesan.
Oleh karena itu, metode tes ulang lebih cocok untuk digunakan sebagai prosedur
estimasi reliabilitas bagi skor tes yang mengukur aspek psikologis yang relative stabil
dan tidak mudah berubah.
2. Metode bentuk-paralel
Dalam metode bentuk parallel, tes yang akan diestimasi reliabilitasnya harus
tersedia paralelnya, yaitu tes lain yang sama tujuan ukurnya dan setara isi aitemnya
baik secara kualitas maupun kuantitasnya. Dengan sedeerhana, dapat dikatakan bahwa
harus tersedia dua atau tes yang kembar.
Sederhananya, dua tes yang parallel satu sama lain hanya ada secara teoritik, tidak
berarti benar-benar parallel secara empiric. Dari segi praktis, dua tes yang telah
memenuhi syarat-syarat dan asumsi tertentu dapat dianggap parallel. Walaupun
banyak diantara ahli pengukuran yang menaruh keberatan terhadap penggunaan istilah
bentuk parallel dan lebih menyukai istilah alternate-forms.
Untuk membuat tes menjadi parallel satu sam alain, penyusunannya haruslah
berangkat dari satu kisi-kisi dan satu spesifikasi yang sama. Spesifikasi ini meliputi
antara lain tujuan ukur, batasan objek ukur atau domain ukur dan operasionalisasinya,
indicator keperilakuannya, banyaknya aitem, format aitem, sampai kepada parameter-
parameter aitemnya. Secara empiric, kemudian dua tes yang parallel itu haruslah
menghasilkan mean skor dan varians yang setara dan koefisien korelasi dengan suatu
variable ketiga yang juga setara. Hanya itulah bukti statistic terpenuhinya sifat parallel
di antara dua buah tes yang dapat diperoleh secara empiric. Untuk membuktikan
langsung bahwa kedua tes menghasilkan varians skor murni yang setara, sebagaimana
diisyaratkan oleh Teori Skor-murni Klasik, tidak mungkin untuk dilakukan.
Bial kedua tes telah dapat dinyatakan sebagai paralel, maka prosedur estimasi
reliabilitasnya dilakukan dengan mengenakan sua tes tersebut bersamaan pada
sekelompok subjek sehingga dari masing-masing tes diperoleh distribusi skor-tampak
dari seluruh objek. Hasil komputasi korelasi antara kedua distribusi skor-tampak
tersebut merupakan koefisien yang menunjukkan sejauhmana kedua distribusi skor itu
bervariasi bersama. Variasi bersama itu tercermin dalam kedudukan relative skor
setiap subjek pada kedua tes. Semakin sama kedudukan relative setiap subjek pada
kedua tes semakin tinggi kecocokan hasil ukurnya. Dikarenakan kedua tes tersebut
telah dinyatakan parallel maka kesamaan kedudukan itu mengandung arti kesamaan
skor-tampak pada kedua tes.
Dua tes yang parallel yang menghasilkan skor-tampak berkorelasi tinggi satu sama
lain disebut tes yang reliebel dan koefisien korelasinya merupakan koefisien
reliabilitas skor tes yang bersangkutan. Sebaliknya, bial dua tes yang telah dianggap
parallel ternyata tidak dapat menghasilkan skor yang berkorelasi tinggi satu sama lain
berarti skor tes tersebut tidak cukup reliebel dan hasil ukurnya tidak dapat dipercaya.
Walaupun metode estimasi reliabilitas bentuk-paralel dapat menghilangkan
maslaah penentuan tenggang waktu yang tepat, yang menjadi problem dalam metode
tes-ulang, akan tetapi metode ini tidak dapat menghilangkan sama sekali kemungkinan
terjadinya efek bawaan. Hal tersebut adalah benar terutama bila kedua tes yang
parallel tersebut diberika berturut-turut satu segera setelah yang lainnya. Sesingkat-
singkatnya waktu antara pengenaan tes yang satu dengan tes paralelnya tetap saja
memungkinkan terjadinya peningkatan erformans subjek pada tes yang diebrikan
kemudian sebab pengalaman mengerjakan tes yang pertama berlaku sebagai suatu
latihan bagi subjek. Selain itu, factor kelelahan setelah mengerjakan tes yang pertama
dapat pula memberikan efek lain terhadap hasil kerja subjek pada tes yang ke dua.
Untuk mengatasi kelemahan tersebut, salah satu cara yang dapat ditempuh adalah
menyatukan terlebih dahulu semua aitem dari dua tes yang parallel tersebut
sedemikian rupa sehingga menjadi seakan hanya satu tes. Penyatuan itu dilakukan
dengan memberikan nomor gasal bagi semua aitem pada tes yang pertama dan
memberikan nomor genap bagi semua aitem dari tes paralelnya, kemudian semua
aitem disajikan dalam susunan sesuai nomor urutnya.
Setelah penyajian tes selesai, aitem dipisahkan kembali. Aitem-aitem bernomor
gasal kembali sebagai tes pertama dan aitem-aitem bernomor genap sebagai tes yang
ke dua.
Sebetulnya kelemahan utama dalam metode ini terletak pada sulitnya menyusun
dua tes yang parallel itu sendiri. Sedangkan menusun satu tes saja yang memenuhi
syarat kualitas yang baik bukanlah hal yang mudah apalagi untuk menyusun dua tes
yang setara.
3. Metode penyajian tunggal
Metode penyajian tunggal dalam estimasi reliabilitas pengukuran dilakukan dengn
menggunakan satu bentuk tes yang dikenakan hanya sekali saja pada satu kelompok
subjek. Dengan menyajikan satu tes hanya satu kali, maka permasalahan yang
mungkin timbul pada kedua metode estimasi reliabilitas terdahulu dapat dihindari.
Metode estimasi reliabilitas melalui penyajian tunggal bertujuan untuk melihat
konsistensi antar-aitem atau antar-bagian dalam tes, sehingga komputasi koefisien
reliabilitas dilakukan bukan terhadap skor tes tapi terhadap skor aitem dalam tes atau
terhadap skor bagian-bagian tes. Untuk itu, aitem-aitem dipisahkan menjadi paling
tidak dua kelompok. Pengelompokan itu disebut sebagai pembelahan dan setiap
kelompok disebut sebagai bagian atau belahan tes.
Tes yang akan diestimasi reliabilitasnya dapat dibelah menjadi dua bagian, tiga,
empat, bahkan dapat dibelah menjadi belahan-belahan yang jumlahnya sebanyak
jumlah aitemnya sehingga setiap belahan berisi hanya satu aitem saja. Bila suatu tes
dibelah menjadi belahan-belahan yang masing-masing berisi lebih daripada satu aitem
saja, adalah sangat penting untuk menjadikan banyaknya aitem dalam masing-masing
belahan sama sehingga kesemua belahan itu seimbang. Keseimbangan belahan-
belahan itu tidak saja menyangkut banyaknya aitem akantetapi hendaknya juga
meliputi aspek isi dan karakteristik aitem-aitemnya.
Untuk melihat kecocokan atau koordansi di antara belahan-belahan tes dilakukan
komputasi berbagai statistik melalui analisi korelasi, analisi varians dan kovarians di
antara aitem dan belahan tes, dan lain-lainnya. Bermacam teknik komputasi koefisien
reliabilitas dengan metode konsistensi internal telah lama dikembangkan. Walaupun
dasar-dasar konsepsionalnya tidak berubah tetapi berbagai teknik hitung guna
menghasilkan estimasi reliabilitas yang semakin cermat telah pula dirumuskan.
Tidaklah heran, karenanya metode konsistensi internal menyediakan pilihan cara
komputasi yang lebih banyak dan dapat disesuaikan dengan asumsi-asumsi yang harus
dipenuhi oleh setiap formula komputasinya.
E. Analisis Butir Soal
1. Tingkat Analisis Soal Tes (Item Analisis)
Pada analisis butir, butir akan dilihat karakteristiknya dan dipilih butir-butir yang
baik. butir yang baik adalah butir-butir yang karakteristiknya memenuhi syarat
sebagaimana kriteria karakteristik butir yang baik (Anas:2007).
Adapun cara untuk memperbaiki proses belajar- mengajar yang paling efektif ialah
dengan jalan mengevaluasi tes hasil belajar yang diperoleh dari proses belajar- mengajar
itu sendiri. Dengan kata lain, hasil tes itu di olah sedemikian rupa sehingga dari hasil
pengolahan itu dapat diketahui komponen-komponen manakah dari proses mengajar itu
yang masih lemah.
Pengolahan tes hasil belajar dalam rangka memperoleh proses belajar mengajar
dapat dilakukan dengan berbagai cara, antara lain:
1. Dengan membuat analisis soal ( item analysis )
2. Dengan menghitung validitas dan keandalan tes
Menurut Thorndike dan Hagen (1977), analisis terhadap soal-soal tes yang telah
dijawab oleh murid- murid mempunyai dua tujuan penting. Pertama, jawaban- jawaban
soal itu merupakan informasi diagnostik untuk meneliti pelajaran dari kelas itu dan
kegagalan- kegagalan belajar, serta selanjutnya untuk membimbing ke arah cara yang
lebih baik.
Kedua, jawaban- jawaban terhadap soal yang terpisah dan perbaikan ( review )
soal- soal yang didasarkan atas jawaban jawaban itu merupakan basis bagi persiapan
tes- tes yang lebih baik untuk tahun berikutnya. Jadi tujuan khusus dari items analisis
ialah mencari soal tes mana yang baik dan mana yang tidak baik, dengan membuat
analisis soal, sedikitnya dapat mengetahui dari tiga segi yang dapat diperoleh dari tiap
soal, yaitu:
a. Dari segi derajat kesukaran itemnya
b. Dari segi daya pembeda itemnya
c. Dari segi fungsi distraktornya.
2. Tingkat Analisis Kesukaran
Suatu tes tidak boleh terlalu mudah, dan juga tidak boleh terlalu sukar. Sebuah
item yang terlalu mudah sehingga dapat dijawab dengan benar oleh semua siswa
bukanlah merupakan item yang baik . begitu pula item yang terlalu sukar sehingga tidak
dapat dijawab oleh semua siswa juga bukan merupakan item yang baik. Jadi item yang baik
adalah item yang mempunyai derajat kesukaran tertentu.
Menurut Witherington dalam bukunya berjudul psychological Education,
mengatakan bahwa sudah atau belum memadainya derajat kesukaran item tes hasil belajar
dapat diketahui dari besar kecilnya angka yang melambangkan tingkat kesulitan dari item
tersebut. Angka yang dapat memberikan petunjuk mengenai tingkat kesukaran item itu
dikenal dengan istilah difficulty index ( angka index kesukaran item), yang dalam dunia
evaluasi hasil belajar umumnya dilambangkan dengan huruf P, yaitu singkatan dari kata
proportion( proporsi =proposa). Dan angka indek kesukaran item itu besarnya berkisar
antara 0,00 sampai dengan 1,00. Artinya, angka indek kesukaran itu paling rendah adalah
0,00 dan paling tinggi adalah 1,00. Angka indek kesukaran sebesar 0,00 ( P= 0,00)
merupakan petunjuk bagi tester bahwa butir item tersebut termasuk dalam katagori item
yang terlalu sukar, sebab di sini seluruh testee tidak dapat menjawab item dengan betul (
yang dapat menjawab dengan betul =0). Sebaliknya, apabila angka indek kesukaran item
itu adalah 1,00 ( P= 1,00) hal ini mengandung makna bahwa butir item yang bersangkutan
adalah termasuk dalam katagori item yang terlalu mudah, sebab di sini seluruh testee dapat
menjawab dengan betul butir item yang bersangkutan ( yang dapat menjawab dengan butir
= 100%= 100= 1,00
Menurut ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan sebagai berikut:
Soal dengan P 0,00 sampai 0,30 adalah soal sukar
Soal dengan P 0,30 sampai 0,70 adalah soal sedang
Soal dengan P 0,70 sampai 1,00 adalah soal mudah

3. Teknik Analisis Daya Pembeda Item

Daya pembeda (item discriminination) adalah untuk menentukan dapat tidaknya


suatu soal membedakan kelompok dalam aspek yang diukur sesuai dengan perbedaan
yang ada dalam kelomppok itu. Indeks yang digunakan dalam membedakan antara
peserta tes yang berkemampuan tinggi dengan peserta tes yang berkemampuan rendah.
Indeks ini menunjukkan kesesuaian antara fungsi soal dengan fungsi tes secara
keseluruhan.
Mengetahui daya pembeda item itu penting sekali, sebab salah satu dasar yang
dipegang untuk menyusun butir-butir item tes hasil belajar adalah adanya anggapan,
bahwa kemampuan antara siswa yang satu dengan siswa yang lain itu berbeda-beda, dan
bahwa butir-butir tes hasil belajar itu haruslah mampu memberikan hasil tes yang
mencerminkan adanya perbedaan-perbedaan kemampuan yang terdapat di kalangan siswa
tersebut.
Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi,
disingkat D. Seperti halnya indeks kesukaran, indeks diskriminasi (daya pembeda) ini
berkisar antara 0,00 sampai 1,00. Hanya bedanya, indeks kesukaran tidak mengenal tanda
negatif (-), tetapi pada indeks diskriminasi ada tanda negative.
Daya pembeda item itu dapat diketahui melalui atau dengan melihat besar kecilnya
angka indeks diskriminasi item. Angka indeks diskriminasi item adalah sebuah angka
yang menunjukkan besar kecilnya daya pembeda yang dimiliki oleh sebutir item. Daya
pembeda pada dasarnya dihitung atas dasar pembagian siswa ke dalam dua kelompok,
yaitu kelompok atas yakni kelompok yang tergolong pandai, dan kelompok bawah, yaitu
kelompok siswa yang tergolong bodoh. Dalam hubungan ini, jika sebutir item memiliki
angka indeks diskriminasi item dengan tanda positif, hal ini merupakanmpetunjuk bahwa
butir item tersebut telah memiliki daya pembeda, dalam arti bahwa siswa yang termasuk
kategori pandai lebih banyak yang dapat menjawab dengan betul terhadap butir item yang
bersangkutan, sedangkan siswa yang termasuk kategori bodoh lebih banyak yang
menjawab salah.
Jika sebutir item angka indeks diskriminasinya = 0,00 (nihil), maka hal ini
menunjukkan bahwa butir item yang bersangkutan tidak memiliki daya pembeda sama
sekali, dalam arti bahwa jumlah siswa kelompok atas yang jawabannya betul (atau salah)
sama dengan jumlah siswa kelompok bawah yang jawabannya betul. Jadi diantara kedua
kelompok siswa tersebut tidak ada perbedaannya sama sekali, atau perbedaannya sama
dengan nol.
Adapun apabila angka indeks diskriminasi item dari sebutir item bertanda negatif,
maka pengertian yang terkandung didalamnya adalah, bahwa butir item yang
bersangkutan lebih banyak dijawab betul oleh siswa kelompok bawah ketimbang siswa
kelompok atas. Dengan demikian ada tiga titik pada daya pembeda yaitu:
atas.1[12] Dengan demikian ada tiga titik pada daya pembeda yaitu:

Adapun klasifikasi daya pembeda adalah:


Besarnya angka
indeks diskriminasi Klasifikasi interpretasi
item (D)
Butir item yang bersangkutan
daya pembedanya lemah sekali,
Kurang dari 0,20 Poor (jelek)
dianggap tidak memiliki daya
pembeda yang baik
Butir item yang bersangkutan
0,20 0.40 Satisfactory (cukup) telah memiliki daya pembeda
yang cukup (sedang)
Butir item yang bersangkutan
0,40 0,70 Good (baik) telah memiliki daya pembeda
yang baik
Butir item yang bersangkutan
Excellent (sangat
0,70 1,00 telah memiliki daya pembeda
baik)
yang baik sekali

Butir item yang bersangkutan


Bertanda negatif - daya pembedanya negatif (jelek
sekali)

4. Teknik Analisis Fungsi Distraktor (Pengecoh)


Pada saat membicarakan tentang objektif bentuk multiple choice item telah
dikemukakan bahwa pada tes objektif bentuk multiple choice item tesebut untuk
setiap butir item yang dikeluarkan dalam tes hasil belajar telah dilengkapi dengan
beberapa kemungkinan jawab, atau yang sering dikenal dengan istilah option atau
alternatif.
Option atau alternatif itu jumlahnya berkisar antara tiga sampai dengan lima
buah, dan dari kemungkinan-kemungkinan jawab yang terpasang pada setiap butir
item itu, salah satu diantaranya adalah merupakan jawaban betul, sedangkan sisanya
adalah merupakan jawaban salah. Jawaban-jawaban salah itulah yang biasa dikenal
dengan istilah distraktor (pengecoh).
Tujuan utama dari pemasangan distraktor pada setiap butir item itu adalah, agar
dari sekian banyak testee yang mengikuti tes hasil belajar ada yang tertarik untuk
memilihnya, sebab mereka menyangka bahwa distraktor yang mereka pilih itu
merupakan jawaban betul. Jadi mereka terkecoh, menganggap bahwa distraktor yang
terpasang pada item itu sebagai kunci jawaban item, padahal bukan. Semakin banyak
testee yang terkecoh, maka dapat dinyatakan bahwa distraktor yang dipasang itu
makin dapat menjalankan fungsinya dengan sebaik-baiknya. Sebaliknya, apabila
distraktor yang dipasang pada setiap butir item itu tidak laku(maksudnya: tidak ada
seoangpun dari sekian banyak testee yang merasa tertarik untuk memilih distraktor
tersebut sebagai jawaban betul), maka hal ini mengandung makna bahwa distraktor
tersebut tidak menjalankan fungsinya dengan baik. Dengan kata lain, distraktor baru
dapat dikatakan telah dapat menjalankan fungsinya dengan baik, apabila distraktor
tersebut telah memiliki daya tarik demikian rupa, sehingga para testee (khususnya
yang termasuk kategori kemampuan rendah) merasa bimbang, dan ragu-ragu
sehingga pada akhirnya mereka menjadi terkecoh untuk memilih distraktor sebagai
jawaban betul, sebab mereka mengira bahwa yang mereka pilih itu kunci jawaban
item, padahal bukan.
Menganalisis fungsi distraktor sering dikenal dengan istilah lain, yaitu:
menganalisis pola penyebaran jawaban item. Adapun yang dimaksud pola penyebaran
item ialah suatu pola yang dapat menggambarkan bagaimana testee menentukan
pilihan jawabnya terhadap kemungkinan-kemungkinan jawab yang telah dipasangkan
pada setiap butir item.
Suatu kemungkinan dapat terjadi, yaitu bahwa dari keseluruhan alternatif yang
dipasang pada butir item tertentu, samasekali tidak dipilih oleh testee. Dengan kata
lain, testee menyatakan blangko. Pernyataan blangko ini sering dikenal dengan
istilah Oniet dfan biasa diberi lambang dengan huruf O. Sesuatu distraktor dapat
diperlakukan dengan tiga cara:
a. Diterima, karena sudah baik
b. Ditolak, karena tidak baik
c. Ditulis kembali, karena kurang baik
Kekurangannya mungkin hanya terletak pada rumusan kalimatnya sehingga
hanya perlu ditulis kembali, dengan perubahan seperlunya. Menulis soal adalah suatu
pekerjaan sulit, sehingga apabila masih dapat diperbaiki saja, tidak dibuang. Suatu
distraktor dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5% pengikut
tes.
DAFTAR RUJUKAN
Azwar, Saifuddin.2012. Reliabilitas dan Validitas. Yogyakarta:Penerbit Pustaka
Belajar
Arikunto, Suharsimi.2011.Dasar-dasar Evaluasi Pendidikan (Edisi
Revisi).Jakarta:Bumi Aksara
Sanusi, Rahayu. Diakses dari
http://repository.usu.ac.id/bitstream/123456789/18868/1/ikm-okt2005-9%20(6).pdf.
Pada tanggal 20 Maret 2017
Sudijono,Anas.2007.Pengantar Evaluasi Pendidikan.Jakarta:PT Raja Grafindo
Persada

Anda mungkin juga menyukai