Anda di halaman 1dari 22

Instrumen Tes dan Mengukur Kualitasnya

Instrumen Tes
A.
Pengertian Instumen Tes
Untuk mengumpulkan data penelitian tentang penilain hasil belajar atau
prestasi belajar bisa dilakukan dengan memakai instrumen tes. Kata tes secara harfiah
berasal dari istilah Perancis kuno yaitu testum, yang mempunyai arti piring yang
berfungsi menyisihkan logam - logam mulia yang nilainya sangat tinggi seperti
emas. Sedangkan, di dalam bahasa Inggris testum ini dikenal dengan test yang
kemudian diterjemahkan dalam bahasa Indonesia yang berarti tes, percobaan atau
ujian, dan kata ini di dalam bahasa Arab sama artinya dengan imtihan.
Secara teoritis, test merupakan suatu alat atau prosedur yang dipakai dalam
rangka kegiatan pengukuran dan penilaian. Tes merupakan bagian tersempit dari
penilaian. Menurut Dejamri (2008:67), tes merupakan salah satu cara untuk
menaksirkan besarnya kemampuan seseoarng secara tidak langsung, yaitu melalui
respons seseorang terhadap stimulus atau pertanyaan. Tes juga dapat diartikan sebagai
jumlah pertanyaan yang harus diberikan tanggapan dengan tujuan untuk mengukur
tingkat kemampuan seseorang atau mengungkap aspek tertentu dari orang yang
dikenai tes. Tester merupakan orang yang melakukan tes, pembuat tes atau
eksperimentor merupakan orang yang melakukan percobaan dengan menggunakan
tes, sedangkan testee merupakan orang yang dikenai tes atau yang sedang dikenai
percobaan

(Dimyati

dan

Mudjiono,1999:209).

Tes juga dapat diartikan berupa sejumlah pertanyaan yang diberikan kepada
seseorang untuk diberi respon atau dijawab. Sedangkan, pengukuran mempunyai
pengertian lebih luas lagi bila dibandingkan dengan tes. Adapun evaluasi, merupakan
suatu proses pengumpulan informasi guna membuat sebuah penilaian terhadap
sesuatu, yang selanjutnya dipakai sebagai bahan pertimbangan dalam mengambil
suatu keputusan (Farida, 2008189-190).

B.

Langkah Langkah Menyusun Instrumen Tes


Terdapat beberapa langkah yang harus dilakukan sebelum menyusun sebuah tes,
supaya tes yang diberikan tidak berbeda dengan tujuan pelaksanaan tes. Menurut
Dimyati dan Mudjiono (1999,210-216) prosedur yang perlu ditempuh dalam

menyusun instrumen penilaian tes, yaitu sebagai berikut:


1) Menentukan bentuk tes yang hendak disusun.
2) Membuat kisi-kisi butir soal, merupakan kegiatan yang dilakukan evaluator
dalam membuat suatu tabel yang di dalamnya memuat mengenai perincian
aspek isi dan aspek perilaku beserta proporsi atau imbangan yang
diinginkannya. Kisi-kisi butir soal atau tabel spesifikasi terdiri atas ruang
lingkup isi pelajaran, proporsi jumlah item dan tiap - tiap sub isi pelajaran,
aspek intelektual dan bentuk soal. Berikut ini contoh kisi-kisi butir soal :
Kisi-kisi
Bidang studi/mata pelajaran :
Kelas/semester

Waktu (menit)

Aspek Intelektual
Dan Bentuk Soal
Pokok isi pelajaran

Jumlah

Pengetahuan
A

Pemahaman
E

Bentuk

Soal
ASPEK
INTELEKTUAL
Persentase Aspek
Bentuk Soal
A: Bentuk soal benar salah
B: Bentuk soal pilihan ganda
C: Bentuk soal menjodohkan
D: Bentuk soal melengkapi atau jawaban singkat
E: Bentuk soal esai

Dst
E

Jumlah
Soal

(%)

3) Menuliskan butir soal, merupakan kegiatan yang dilaksanakan oleh evaluator


sesudah membuat kisi-kisi soal. Berdasarkan pada kisi - kisi soal inilah evaluator
menuliskan butir soal dengan memperhatikan hal - hal sebagai berikut:
a. Bahasa yang digunakan sederhana dan mudah dipahami.
b. Petunjuk pengerjaan butir soal, walaupun sudah diberikan petunjuk umum.
c. Tidak mengandung penafsiran ganda atau membingungkan.
d. Berdasarkan kaidah bahasa Indonesia dalam penulisan soal tes hasil belajar.
4) Melakukan penataan soal, merupakan kegiatan terakhir dari proses penyususnan
instrumen tes berupa pengelompokan butir - butir soal berdasarkan pada bentuk
soal dan sekaligus melengkapi petunjuk pengerjaan soal tersebut.
C.
Macam macam bentuk Tes
1) Tes objektif
Tes Objektif merupakan bentuk tes yang mengadung kemungkinan
jawaban atau respon yang harus dipilih peserta tes. Kemungkinan jawaban
atau respon sudah disediakan oleh penyusun butir soal. Peserta tes hanya
memilih alternatif jawaban yang telah disediakan. Dengan demikian
pemeriksaan atau penskoran jawaban/respon peserta tes sepenuhnya

1)
2)
3)
4)

dilakukan secara objektif oleh korektor.


Tes Objektif mempunyai beberapa kelebihan sebagai berikut:
Lebih representatif mewakili isi dan luas bahan.
Lebih mudah dan cepat pemeriksaanya atau penskorannya.
Penskoran dapat diserahkan pada orang lain
Tidak ada unsur subjektif, baik dari guru maupun dari responden
Tes objektif juga mempunyai kelemahan, yaitu :
1) Memerlukan persiapan yang lebih sulit, karena butir soalnya lebih banyak
dan harus diteliti untuk menghindari kelemahan soal.
2) Butir soal cenderung hanya mengungkap ingatan dan pengenalan kembali
saja, dan relatif sukar untuk mengukur kemampuan tingkat tinggi seperti
sintesis dan kreativitas.
3) Banyak kesempatan bagi responden untuk untung-untungan atau
berspekulasi.
4) Kerjasama antar responden saat mengerjakan soal tes lebih terbuka.
Eko Putro (2012:61) menyebutkan bahwa secara umum terdapat tida tipe tes

objektif, yaitu: benar salah (true false), menjodohkan (matching), dan pilihan ganda
(multiple choice).

a) Tes benar salah, merupakan tpie tes yang butir-butir soalnya terdiri dari
pernyataan yang disertai alternatif jawaban yang benar dan salah, peserta
tes diharuskan mempertimbangkan suatu pernyataan tersebut sebagai
pernyataan

yang

benar

atau

salah.

Contoh: Kabupaten Banyumas terletak di Provinsi Jawa Tengah

B-S

Kaidah dalam penulisan butir soal benar-salah yang diperhatikan meliputi:


a. Menghindari pernyataan berarti ganda.
b. Meyakinkan sepenuhnya bahasa butir soal bisa dipastikan benar atau
c.
d.
e.
f.
g.

salah.
Hindari menulis butir soal yang memperdayakan.
Hindari pernyataan negatif.
Menggunakan suatu bentuk yang tepat.
Hindari jawaban benar yang berpola.
Hindari penggunaan kata-kata kunci, seperti: pada umumnya, semua

dan yang lain.


b) Tes pilihan ganda, merupakan bentuk tes yang butir - butir soalnya selalu
terdiri atas dua komponen utama yaitu sistem yang menghadapkan siswa
kepada sebuah pertanyaan tak lengkap atau satu pertanyaan langsung dan
dua atau lebih pilihan jawaban yang mana satu diantaranya lebih benar dan
sisanya

salah.

Berikut ini adalah kaidah penulisan tes pilihan ganda seperti yang perlu
diperhatikan:
a) Pokok soal yang merupakan permasalahan harus dirumuskan secara
jelas.
b) Untuk satu soal hanya terdapat 1 jawaban yang benar atau paling
benar.
c) Perumusan pokok soal dan alternatif jawaban sebaiknya merupakan
pernyataan yang diperlukan saja.
d) Pada pokok soal, hindari perumusan pernyataan yang bersifat negatif.
e) Alternatif jawaban (option) hendaknya logis, dan pengecoh
(distractors) harus berfungsi atau menarik.
f) Diusahakan supaya tidak ada petujuk menuju jawaban yang benar.
g) Diusahakan supaya tidak menggunakan pilihan jawaban yang terakhir
bunyinya semua pilihan jawaban di atas benar atau semua pilihan
jawaban di atas salah.
h) Diusahakan supaya pilihan jawaban sifatnya homogen, baik dari segi
isi maupun panjang pendeknya pernyataan jawaban.

i) Dalam merakit soal diusahakan supaya jawaban yang benar (kunci


jawaban) letaknya tersebar di antara a,b,c dan yang lain ditentukan
secara acak, sehingga tidak terjadi pola jawaban tertentu.
j) Jika pilihan jawaban berbentuk angka, hendaknya disusun secara
berurutan mulai dari angka yang terkecil di atas dan yang terbesar di
bawah.
k) Pada pokok soal sebaiknya tidak menggunakan ungkapan atau katakata yang bersifat tidak tentu, seperti seringkali, kadang-kadang, pada
umumnya, dan yang sejenis.
l) Diusahakan supaya jawaban butir soal yang 1 tidak bergantung dari
jawaban butir soal yang lain.
c) Tes menjodohkan, merupakan bentuk tes yang butir-butir soalnya terdiri
atas kalimat pernyataan yang masih belum sempurna yang mana peserta
tes atau responden diminta untuk melengkapi kalimat pada titik yang
disediakan. Butir soal tipe menjodohkan ditulis dalam 2 kolom atau
kelompok. Kelompok pertama di sebelah kiri adalah pertanyaan atau
pernyataan yang disebut dengan premis. Kelompok kedua di sebelah kanan
adalah kelompok jawaban. Tugas responden adalah mencari dan
menjodohkan jawaban-jawaban, sehingga sesuai atau cocok dengan
pernyataan

atau

pertanyaan.

Berikut ini kaidah penulisan soal menjodohkan yang perlu diperhatikan:


1) Meyakinkan bahwa antara premis dan pilihan yang dijodohkan keduanya
homogen.
2) Dasar-dasar untuk menjodohkan setiap premis dan pilihan dibuat secara
jelas.
3) Menggunakan bentuk yang cocok.
4) Tes melengkapi, merupakan bentuk tes yang butir-butir soalnya terdiri atas kalimat
pernyataan yang masih belum sempurna dimana siswa diminta untuk melengkapi
kalimat tersebut dengan 1 atau beberapa kata pada titik-titik yang disediakan.
Penulisan bentuk soal melengkapi sebagai berikut:
1. Meyakini bahwa pertanyaan dapat dijawab dengan kata atau penggalan
2.
3.
4.
5.

kalimat yang mudah atau khusus, dan hanya ada satu jawaban yang benar.
Menggunakan bentuk yang cocok.
Jangan memutus-mutus butir soal melengkapi.
Menghindari pemberian petunjuk ke arah jawaban yang benar.
Menunjukkan
bagaimana
seharusnya
jawaban
yang
benar.

2) Subyektif

Pada umumnya tes subyektif berbentuk essay atau uraian. Tes essay, merupakan
bentuk tes yang jawabannya berupa uraian kalimat yang relatif panjang. Tes bentuk
uraian adalah butir soal yang mengandung pertanyaan atau tugas yang jawaban atau
pengerjaan soal tersebut harus dilakukan dengan cara mengekspresikan pikiran
peserta tes (Asmawi Zaenul dan Noehi Nasution, 2005:37). Menurut Suharsimi
(2008,162), ciri-ciri pertanyaan tes uraian didahului dengan kata-kata seperti uraikan,
jelaskan, mengapa, bagaimana dan sebagainya.
Menurut Eko Putro (2012, 83-84) terdapat dua macam tes essay yaitu
Extended response atau Uraian Bebas, dan Restricted response atau Uraian terbatas.
(1) Tes Uraian Bebas, merupakan bentuk tes uraian yang memberikan kebebasan kepada
peserta tes untuk mengorganisasikan dan mengekspresikan pikiran dan gagasannya
dalam menjawab soal tes. Bentuk soal seperti ini baik sekali untuk mengukur hail
belajar pada tingkatan aplikasi, analisis, evaluasi dan kreativitas.
(2) Tes Uraian Terbatas, merupakan bentuk tes uraian yang memberikan batasan-batasan
tertentu kepada peserta tes dalam menjawab soal tes. Batasan itu meliputi kontesk
jawaban yang diharapkan oleh peneliti, jumlah butir jawaban yang dikerjakan,
keluasan uraian jawaban dan luas jawaban yang diminta. Butir Soal soal jenis uraian
ini sebaiknya dipakai untuk mengukur hasil belajar tingkat pemahaman, aplikasi dan
analisis.
Berikut ini adalah kaidah penulisan tes essay seperti yang perlu diperhatikan:
(a) Hendaknya butir soal meliputi ide-ide pokok dari materi yang diujikan,
dan kalau mungkin disusun soal yang sifatnya komprehensif yang mampu
mewakili materi pokok dalam mata pelajaran yang diujikan.
(b) Sebaiknya butir soal tidak mengambil kalimat yang disalin langsung dari
buku atau catatan.
(c) Pada saat menyusun butir soal sudah dilengkapi dengan kunci jawaban
serta pedoman penskoran dalam rangka meningkatkan realibilitas butir
soal.
(d) Hendaknya ada variasi pertanyaan diantaranya jelaskan, mangapa,
bagimana, uraikan, bandingkan,supaya lebih diketahui tingkat penguasaan
responden terhadap bahan ujian.
(e) Hendaknya rumusan butir soal mudah dipahami oleh peserta tes.
(f) Hindari penggunaan kata yang mempunyai makna ganda.

Pendekatan lisan tidak jarang juga digunakan oleh guru kelas untuk
mengevaluasi siswanya. Pertanyaan lisan bisa memberikan umpan balik secara
langsung kepada guru maupun kepada siswa. Manfaat umum dari tes lisan yaitu
memberi kesempatan pendekatan yang lebih akrab untuk guru terhadap siswanya
dan sebaliknya. Hal ini sangat baik dalam rangka untuk keperluan diagnostik.
Pendekatan lisan bertujuan untuk mengungkapkan sebanyak - banyaknya
pengetahuan dan pemahaman siswa tentang materi atau bahan yang diujikan.
2.2.
A.

Validitas
Pengertian
Menurut Azwar (1986) Validitas berasal dari kata validity yang mempunyai
arti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi
ukurnya. Suatu skala atau instrumen pengukur dapat dikatakan mempunyai validitas
yang tinggi apabila instrumen tersebut menjalankan fungsi ukurnya, atau memberikan
hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Sedangkan
tes yang memiliki validitas rendah akan menghasilkan data yang tidak relevan dengan
tujuan pengukuran.
Terkandung di sini pengertian bahwa ketepatan validitas pada suatu alat ukur
tergantung pada kemampuan alat ukur tersebut mencapai tujuan pengukuran yang
dikehendaki dengan tepat. Suatu tes yang dimaksudkan untuk mengukur variabel A
dan kemudian memberikan hasil pengukuran mengenai variabel A, dikatakan sebagai
alat ukur yang memiliki validitas tinggi. Suatu tes yang dimaksudkan mengukur
variabel A akan tetapi menghasilkan data mengenai variabel A atau bahkan B,
dikatakan sebagai alat ukur yang memiliki validitas rendah untuk mengukur variabel
A dan tinggi validitasnya untuk mengukur variabel A atau B (Azwar 1986).
Sisi lain dari pengertian validitas adalah aspek kecermatan pengukuran. Suatu
alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi
juga harus memberikan gambaran yang cermat mengenai data tersebut.
Cermat berarti bahwa pengukuran itu dapat memberikan gambran mengenai
perbedaan yang sekecil-kecilnya mengenai perbedaan yang satu dengan yang lain.
Sebagai contoh, dalam bidang pengukuran aspek fisik, bila kita hendak mengetahui
berat sebuah cincin emas maka kita harus menggunakan alat penimbang berat emas
agar hasil penimbangannya valid, yaitu tepat dan cermat. Sebuah alat penimbang
badan memang mengukur berat, akan tetapi tidaklah cukup cermat guna menimbang
berat cincin emas karena perbedaan berat yang sangat kecil pada berat emas itu tidak
akan terlihat pada alat ukur berat badan.

Menggunakan alat ukur yang dimaksudkan untuk mengukur suatu aspek tertentu
akan tetapi tidak dapat memberikan hasil ukur yang cermat dan teliti akan
menimbulkan kesalahan atau eror. Alat ukur yang valid akan memiliki tingkat
kesalahan yang kecil sehingga angka yang dihasilkannya dapat dipercaya sebagai
angka yang sebenarnya atau angka yang mendekati keadaan yang sebenarnya (Azwar
1986).
Pengertian validitas juga sangat erat berkaitan dengan tujuan pengukuran. Oleh
karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran.
Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang
spesifik. Dengan demikian, anggapan valid seperti dinyatakan dalam alat ukur ini
valid adalah kurang lengkap. Pernyataan valid tersebut harus diikuti oleh keterangan
yang menunjuk kepada tujuan (yaitu valid untuk mengukur apa), serta valid bagi
kelompok subjek yang mana? (Azwar 1986)
Pengertian validitas menurut Walizer (1987) adalah tingkaat kesesuaian antara
suatu batasan konseptual yang diberikan dengan bantuan operasional yang telah
dikembangkan.
Menurut Aritonang R. (2007) validitas suatu instrumen berkaitan dengan
kemampuan instrument itu untuk mengukur atu mengungkap karakteristik dari
variabel yang dimaksudkan untuk diukur. Instrumen yang dimaksudkan untuk
mengukur sikap konsumen terhadap suatu iklan, misalnya, harus dapat menghasilkan
skor sikap yang memang menunjukkan sikap konsumen terhadap iklan tersebut. Jadi,
jangan sampai hasil yang diperoleh adalah skor yang menunjukkan minat konsumen
terhadap iklan itu.
Validitas suatu instrumen banyak dijelaskan dalam konteks penelitian sosial yang
variabelnya tidak dapat diamati secara langsung, seperti sikap, minat, persepsi,
motivasi, dan lain sebagainya. Untuk mengukur variabel yang demikian sulit, untuk
mengembangkan instrumen yang memiliki validitas yang tinggi karena karakteristik
yang akan diukur dari variabel yang demikian tidak dapat diobservasi secara
langsung, tetapi hanya melalui indikator (petunjuk tak langsung) tertentu. (Aritonang
R. 2007)
Menurut Masri Singarimbun, validitas menunjukkan sejauh mana suatu alat
pengukur itu mengukur apa yang ingin diukur. Bila seseorang ingin mengukur berat
suatu benda, maka dia harus menggunakan timbangan. Timbangan adalah alat
pengukur yang valid bila dipakai untuk mengukur berat, karena timbangan memang
mengukur berat. Bila panjang sesuatu benda yang ingin diukur, maka dia harus

menggunakan meteran. Meteran adalah alat pengukur yang valid bila digunakan untuk
mengukur panjang, karena memang meteran mengukur panjang. Tetapi timbangan
bukanlah alat pengukur yang valid bilamana digunakan untuk mengukur panjang.
Sekiranya penelliti menggunakan kuesioner di dalam pengumpulan data
penelitian, maka kuesioner yang disusunnya harus mengukur apa yang ingin
diukurnya. Setelah kuesioner tersebut tersusun dan teruji validitasnya, dalam praktek
belum tentu data yang dikumpulkan adalah data yang valid. Banyak hal-hal lain yang
akan

mengurangi

validitas

data;

misalnya

apakah

si

pewawancara

yang

mengumpulkan data betul-betul mengikuti petunjuk yang telah ditetapkan dalam


kuesioner. (Masri Singarimbun)
Menurut Suharsimi Arikunto, validitas adalah keadaan yang menggambarkan
tingkat instrumen bersangkutan yang mampu mengukur apa yang akan diukur.
Menurut Soetarlinah Sukadji, validitas adalah derajat yang menyatakan suatu tes
mengukur apa yang seharusnya diukur. Validitas suatu tes tidak begitu saja melekat
pada tes itu sendiri, tapi tergantung penggunaan dan subyeknya.

B.

Jenis Jenis Validitas


Ebel (dalam Nazirz 1988) membagi validitas menjadi :
a. Concurrent Validity adalah validitas yang berkenaan dengan hubungan antara
skor dengan kinerja.
b. Construct Validity adalah validitas yang berkenaan dengan kualitas aspek
psikologis apa yang diukur oleh suatu pengukuran serta terdapat evaluasi
bahwa suatu konstruk tertentu dapat menyebabkan kinerja yang baik dalam
pengukuran.
c. Face Validity adalah validitas yang berhuubungan apa yang nampak dalam
mengukur sesuatu dan bukan terhadap apa yang seharusnya hendak diukur.
d. Factorial Validity dari sebuah alat ukur adalah korelasi antara alat ukur
dengan faktor-faktor yang bersamaan dalam suatu kelompok atau ukuranukuran perilaku lainnya, di mana validitas ini diperoleh dengan
menggunakan teknik analisis faktor.
e. Empirical Validity adalah validitas yang berkenaan dengan hubungan antara
skor dengan suatu kriteria. Kriteria tersebut adalah ukuran yang bebas dan
langsung dengan apa yang ingin diramalkan oleh pengukuran.
f. Intrinsic Validity adalah validitas yang berkenaan dengan penggunaan teknik
uji coba untuk memperoleh bukti kuantitatif dan objektif untuk mendukung
bhwa suatu alat ukur benar-benar mengukur apa yang seharusny diukur.
g. Predictive Validity adalah validitas yang berkenaan dengan hubungan antara
skor suatu alat ukur dengan kinerj seorang di msa mendatang.
h. Content Validity adalah validitas yang berkenaan dengan baik buruknya
sampling dari suatu populasi.
i. Curricular Validity adalah validitas yang ditentukan dengan cara menilik isi
dari pengukuran dan menilai seberapa jauh pungukuran tersebut merupakan
alat ukur yang benar-benar mengukur aspek-aspek sesuai dengan tujuan

instruksional.
Sementara itu, Kerlinger (1990) membagi validitas menjadi tiga yaitu:
Content validity (Validitas isi) adalah validitas yang diperhitungkan melalui
pengujian terhadap isi alat ukur dengan analisis rasional. Pertanyaan yang dicari
jawabannya dalam validitas ini adalah sejauh mana item-item dalam suatu alat
ukur mencakup keseluruhan kawasan isi objek yang hendak diukur oleh alat ukur
yang bersangkutan? atau berhubungan dengan representasi dari keseluruhan
kawasan.

Validitas isi suatu instrumen berkaitan dengan kesesuaian antara karakteristik dari
variaabel yang dirumuskan pada definisi konseptual dan operasionalnya. Apabila
semua karakteristik variabel yang dirumuskan pada definisi konseptualnya dapat
diungkap melalui butir-butir suatu instrument, maka instrument itu dinyatakan
memiliki validitas isi yang baik. Sayangnya, hal itu mungkin tidak akan pernah
tercapai karena sulitnya untuk mendefinisikan keseluruhan karakteristik itu. Selain
itu, dari seluruh karakteristik yang dirumuskan pada definisi konseptual suatu variabel
seringkali sulit untuk mengembangkan butir-butir yang valid untuk mengungkap atau
mengukurnya.
Validitas isi dapat dianalisis dengan cara memperhatikan penampakan luar dari
instrument dan dengan menganalisis kesesuaian butir-butirnya dengan karakteristik
yang dirumuskan pada definisi konseptual variabel yang diukur. Validitas yang
dianalisis dengan memperhatikan penampilan luar instrument itu disebut validitas
tampang (face validity). Validitas tampang dievaluasi dengan membaca dan
menyelidiki butir-butir instrument serta sekaligus membandingkannya dengan definisi
konseptual mengenai variabel yang akan diukur. Validitas yang dianalisis dengan
memperhatikan

kerepresentativan

butir-butir

instrument

disebut

validitas

penyampelan (sampling validity) atau kuikulum (curriculum validity). Validitas


tampang maupun penyampelan disebut juga sebagai validitas teoritis karena
penganalisisannya lazim dilakukan tanpa didasarkan pada data empiris. Alat yang
digunakan untuk menganalisis validitas itu adalah logika dari orang yang
menganalisisnya.
Menurut Saifuddin Azwar, validitas isi merupakan validitas yang diestimasi lewat
pengujian terhadap isi tes dengan analisis rasional atau lewat professional judgement.
Pertanyaan yang dicari jawabannya dalam validitas ini adalah sejauh mana item-item
dalam tes mencakup keseluruhan kawasan ini (dengan catatan tidak keluar dari
batasan tujuan ukur) objek yang hendak diukur atau sejauh mana isi tes
mencerminkan ciri atribut yang hendak diukur.
Selanjutnya, validitas isi terbagi lagi menjadi dua tipe (Saifuddin Azwar), yaitu:
a. Face Validity (Validitas Muka) adalah tipe validitas yang paling rendah
signifikansinya karena hanya didasarkan pada penilaian selintas mengenai isi

alat ukur. Apabila isi alat ukur telah tampak sesuai dengan apa yang ingin
diukur maka dapat dikatakan maka validitas muka telah terpenuhi.
b. Logical Validity (Validitas Logis) disebut juga sebagai Validitas Sampling
(Sampling Validity) adalah validitas yang menunjuk pada sejauh mana isi alat
ukur merupakan representasi dari aspek yang hendak diukur. Validitas logis
sangat penting peranannya dalam penyusunan prestasi dan penyusunan skala,
yaitu dengan memanfaatkan blue-print atu table spesifikasi.
c. Construct validity (Validitas konstruk) adalah tipe validitas yang menunjukkan
sejauh mana alat ukur mengungkap suatu trait atau konstruk teoritis yang
hendak diukurnya. (Allen & Yen, dalam Azwar 1986). Pengujian validitas
konstruk merupakan prosesyang terus berlanjut sejalan dengan perkembangan
konsep mengenai trait yang diukur. Menurut Saifuddin Azwar, validitas
konstruk adalah seberapa besar derajat tes mengukur hipotesis yang
dikehendaki untuk diukur. Konstruk adalah perangai yang tidak dapat diamati,
yang menjelaskan perilaku. Menguji validitas konstruk mencakup uji hipotesis
yang dideduksi dari suatu teori yang mengajukan konstruk tersebut.
d. Criterion-related validity (Validitas berdasar kriteria). Validitas

ini

menghendaki tersedianya criteria eksternal yang dapat dijadikan dasar


pengujian skor alat ukur. Suatu kriteria adalah variabel perilaku yang akan
diprediksi oleh skor alat ukur.
Dilihat dari segi waktu untuk memperoleh skor kriterianya, prosedur validasi
berdasar kriteria menghasilkan dua macam validitas (Saifuddinn Azwar), yaitu:
a. Validitas Prediktif. Validitas Prediktif sangat penting artinya bila alat ukur
dimaksudkan untuk berfungsi sebagai predictor bagi kinerja di masa yang
akan datang. Contoh situasi yang menghendaki adanya prediksi kinerja ini
antara lain adalah dalam bimbingan karir; seleksi mahasiswa baru,
penempatan karyawan, dan semacamnya. Menurut Saifuddin Azwar,
validitas prediktif adalah seberapa besar derajat tes berhasil memprediksi
kesuksesan seseorang pada situasi yang akan datang. Validitas prediktif
ditentukan dengan mengungkapkan hubungan antara skor tes dengan hasil
tes atau ukuran lain kesuksesan dalam satu situasi sasaran.
b. Validitas Konkuren. Apabila skor alat ukur dan skor kriterianya dapat
diperoleh dalam waktu yang sama, maka korelasi antara kedua skor
termaksud merupakan koefisien validitas konkuren. Menurut Saifuddin

Azwar, validitas ini menunjukkan seberapa besar derajat skor tes


berkorelasi dengan skor yang diperoleh dari tes lain yang sudah mantap,
bila disajikan pada saat yang sama, atau dibandingkan dengan criteria lain
C.

yang valid yang diperoleh pada saat yang sama.


Koefesien Validitas
Cara mencari koefesien validitas dapat digunakan 3 macam, yaitu dengan
menggunkan rumus korelasi produk moment memakai simpangan, korelasi
produk moment memakai angka kasar (raw score), Korelasi metode rank (rank
method correlation).
Koefesien korelasi di lambangkan dengan
1 r xy 1

interval
Nilai

r xy =1

sedangkan

r xy . Nilai

r xy

ada pada

(Sudjana, 1982:354) bila persamaan regresinya linear.

berarti terdapat hubungan linier sempurna tak langsung,

untuk nilai

r xy=1

berarti terdapat hubungan linier sempurna

langsung. Untuk nilai r xy =0 berarti tidak terdapat hubungan linier.


Interpretasi yang lebih rinci mengenai

r xy

tersebut dibagi ke dalam

kategori-kategori seperti, berikut ini (Guilford, J.P ., 1956: 145).


0,90 r xy 1,00 korelasi sangat tinggi,
0,70 r xy 0,90 korelasi tinggi,
0,40 r xy 0,70 korelasi sedang,
0,20 r xy 0,40 korelasi rendah, dan
r xy 0,2 korelasi sangat rendah.
Nilai
menjadi:

r xy

diartikan sebagain koefesien validitas, sehingga kriteriumnya

0,90 r xy 1,00 validitas sangat tinggi (sangat baik) ,


0,70 r xy 0,90 validitas tinggi (baik),
0,40 r xy 0,70 validitas sedang (cukup),
0,20 r xy 0,40 validitas rendah (kurang),

0,00 r xy 0,20 validitas sangat rendah, dan


r xy 0,00 tidak valid.
a. Korelasi produk moment memakai simpangan.
Rumus korelasi produk moment memakai simpangan adalah:
xy
r xy =
( x 2 ) ( y 2 )
Dengan:
r xy = koefesien korelasi antara variabel x dan variabel y
x=

x.

simpangan terhadap rata-rata dari setiap data pada kelompok variabel

y= simpangan terhadap rata-rata dari setiap data pada kelompok variabel

y
b. Korelasi produk moment memakai angka kasar (raw score).
Rumus korelasi produk moment memakai angka kasar (raw score) adalah:
r xy =

N XY ( X )( Y )

( N X ( X ) )( N Y ( X ) )

Dengan

N=banyak subyek (testi )

c. Korelasi metode rank (rank method correlation)


Rumus korelasi produk moment memakai rank (Spearman-Brown) adalah:
6 d2
r xy =1
N ( N 21 )
Dengan d=selisih rank antara X dan Y
3. Faktor Faktor yang Mempengaruhi Validitas
a. Petunjuk yang tidak jelas.
b. Perbendaharaan kata dan sruktur kalimat yang sukar.
c. Penyusunan soal yang kurang baik.
d. Derajat kesukaran soal yang tidak cocok.
e. Materi tes tidak representative.
f. Pengaturan soal yang kurang tepat.
g. Pola jawaban yang dapat diidentifikasi.
2.3.
Reliabilitas
2.1.1. Pengertian
Walizer (1987) menyebutkan pengertian Reliability (Reliabilitas) adalah
keajegan pengukuran. Menurut John M. Echols dan Hasan Shadily (2003: 475)
reliabilitas adalah hal yang dapat dipercaya. Popham (1995: 21) menyatakan bahwa
reliabilitas adalah "...the degree of which test score are free from error measurement"

Menurut Masri Singarimbun, realibilitas adalah indeks yang menunjukkan


sejauh mana suatu alat ukur dapat dipercaya atau dapat diandalkan. Bila suatu alat
pengukur dipakai dua kali untuk mengukur gejala yang sama dan hasil pengukuran
yang diperoleh relative konsisten, maka alat pengukur tersebut reliable. Dengan kata
lain, realibitas menunjukkan konsistensi suatu alat pengukur di dalam pengukur gejala
yang sama.
Menurut Brennan (2001: 295) reliabilitas merupakan karakteristik skor, bukan
tentang tes ataupun bentuk tes. Menurut Sumadi Suryabrata (2004: 28) reliabilitas
menunjukkan sejauhmana hasil pengukuran dengan alat tersebut dapat dipercaya.
Hasil pengukuran harus reliabel dalam artian harus memiliki tingkat konsistensi dan
kemantapan.
Dalam pandangan Aiken (1987: 42) sebuah tes dikatakan reliabel jika skor
yang diperoleh oleh peserta relatif sama meskipun dilakukan pengukuran berulangulang.
Dengan demikian, keandalan sebuah alat ukur dapat dilihat dari dua petunjuk
yaitu kesalahan baku pengukuran dan koefisien reliabilitas. Kedua statistik tersebut
masing-masing memiliki kelebihan dan keterbatasan (Feldt & Brennan, 1989: 105)
Reliabilitas, atau keandalan, adalah konsistensi dari serangkaian pengukuran atau
serangkaian alat ukur. Hal tersebut bisa berupa pengukuran dari alat ukur yang sama
(tes dengan tes ulang) akan memberikan hasil yang sama, atau untuk pengukuran
yang lebih subjektif, apakah dua orang penilai memberikan skor yang mirip
(reliabilitas antar penilai). Reliabilitas tidak sama dengan validitas. Artinya
pengukuran yang dapat diandalkan akan mengukur secara konsisten, tapi belum tentu
mengukur apa yang seharusnya diukur.
Dalam penelitian, reliabilitas adalah sejauh mana pengukuran dari suatu tes
tetap konsisten setelah dilakukan berulang-ulang terhadap subjek dan dalam kondisi
yang sama. Penelitian dianggap dapat diandalkan bila memberikan hasil yang
konsisten untuk pengukuran yang sama. Tidak bisa diandalkan bila pengukuran yang
berulang itu memberikan hasil yang berbeda-beda.
Pengukuran reliabilitas dapat dilakukan dengan menggunakan berbagai alat
statistik (Feldt & Brennan, 1989: 105)
Berdasarkan sejarah, reliabilitas sebuah instrumen dapat dihitung melalui dua
cara yaitu kesalahan baku pengukuran dan koefisien reliabilitas (Feldt & Brennan:
105). Kedua statistik di atas memiliki keterbatasannya masing-masing. Kesalahan
pengukuran merupakan rangkuman inkonsistensi peserta tes dalam unit-unit skala

skor sedangkan koefisien reliabilitas merupakan kuantifikasi reliabilitas dengan


merangkumkonsistensi (atau inkonsistensi) diantara beberapa kesalahan pengukuran.
Dalam kerangka teori tes klasik, suatu tes dapat dikatakan memiliki reliabilitas
yang tinggi apabila skor tampak tes tersebut berkorelasi tinggi dengan skor murninya
sendiri. Interpretasi lainnya adalah seberapa tinggi korelasi antara skor tampak pada
dua tes yang pararel. (Saifuddin Azwar, 2006: 29). Reliabilitas menurut Ross E. Traub
(1994: 38) yang disimbolkan oleh dapat didefinisikan sebagai rasio antara varian skor
murni dan varian skor tampak .
Reliabilitas alat ukur tidak dapat diketahui dengan pasti tetapi dapat
diperkirakan. Dalam mengestimasi reliabilitas alat ukur, ada tiga cara yang sering
digunakan yaitu (1) pendekatan tes ulang, (2) pendekatan dengan tes pararel dan (3)
pendekatan

satu

kali

pengukuran.

Pendekatan tes ulang merupakan pemberian perangkat tes yang sama terhadap
sekelompok subjek sebanyak dua kali dengan selang waktu yang berbeda. Asumsinya
adalah bahwa skor yang dihasilkan oleh tes yang sama akan menghasilkan skor
tampak yang relatif sama. Estimasi dengan pendekatan tes ulang akan menghasilkan
koefisien stabilitas. Untuk memperoleh koefisien reliabilitas melalui pendekatan tes
ulang dapat dilakukan dengan menghitung koefisien korelasi linear antara distribusi
skor subyek pada pemberian tes pertama dengan skor subyek pada pemberian tes
kedua. Pendekatan tes ulang sangat sesuai untuk mengukur ketrampilan terutama
ketrampilan fisik.
Dengan demikian, korelasi sebesar 0,954 menggambarkan bahwa reliabilitas
tes cukup tinggi. Salah satu kelemahan mendasar dari teknik test-retest adalah carryover effect. Masalah ini disebabkan oleh adanya kemungkinan pada test yang kedua
dipengaruhi oleh test pertama. Misalnya, jika peserta tes masih ingat dengan soal-soal
dan bahkan jawaban ketika dilakukan test pertama. Hal ini dapat meningkatkan
korelasi serta overestimasi terhadap PXX. Ross E. Traub (1994: 38)
2.1.2. Teknik Menghitung Reliabilitas
Analisis data untuk pendekatan tes tunggal bisa dibagi ke dalam dua macam teknik,
yaitu Teknik Belah-Dua (Split-Half Technique) dan Teknik Non Belah-Dua (Non
Split-Half Tehnique).
1. Teknik Belah-Dua
Dalam menentukan reliabilitas suatu perangkat (set) tes (evaluasi) dengan
menggunakan teknik belah-dua, dilakukan dengan jalan membelah alat evaluasi
tersebut menjadi dua bagian yang sama (relative sama), sehingga masing-masing

testi memiliki dua mcam skor. Teknik belah-dua ini bisa dilakukan dengan dua cara,
yaitu pembelahan menurut nomor (soal) ganjil dan nomor genap atau disingkat
metode Ganjil-Genap. Cara lain adalah dengan pembelahan menurut nomor urut
yang disebutkan dengan Metode Awal-Akhir.
Koefesien reliabilitas yang menyatakan derajat keterandalan alat evaluasi,
dinyatakan dengan

r 11 . Tolak ukur untuk menginterpretasikan derajar reliabilitaas

alat evaluasi dapat digunakan tolak ukur yang dibuat oleh J.P. Guilford (1965;145)
sebagai berikut ini:
r 11 0,20 derajat relibilitas sangat rendah.
0,20 r 11 0,40 derajar relibilitas rendah.
0,40 r 11 0,70 derajar relibilitas sedang.
0,70 r 11 0,90 derajar relibilitas tinggi.
0,90 r 11 1,00 derajar relibilitas sangat tinggi.
Untuk menentukan koefesien reliabilitas suatu alat evaluasi dengan teknik
belah dua, ada tiga macam teknik perhitungan, yaitu Formula Spearman-Brown,
Formula Flanagan, Formula Rulon.
a. Formula Spearman-Brown
Prinsip penggunaan

ormula

Spearman-Brown

adalah

dengan

menghitung koefesien korelasi diantara kedua belah sebagai koefesien


reliabilitas bagian (setengah) dari alat evaluasi tersebut, yaitu dinotasikan
dengan

r 11
22

r 11 =
22

.
n x 1 x 2( x 1)( x 2)

( n x

2
1

( x 1 )

)( n x ( x ) )
2

Dengan:
n= banyak subjek
x 1= kelompok data belahan pertama, dan
x 2= kelompok data belahan kedua.
Untuk menghitung koefesien reliabilitas alat evaluasi keseluruhan (satu
perangkat), Spearman-Brown menggunakan rumus

2 r 11
r 11 =

22

1+r 11
22

b. Formula Flanagan
2

r 11 =2 1

s1 + s2
s t2

Dengan:
r 11 = keofesien reliabilitas seluruh alat tes,
2

s 1 = varians belahan pertama


2

s 2 = varians belahan kedua, dan


s t2= varians total
c. Formula Rulon
sd 2

( )

r 11 = 1

st 2

Dengan:
s d2 = varians selisih skor subyek pada belahan kedua
2

s t = varians total
2. Teknik Non Belah-Dua
Pakar yang mengemukakan teknik non belah-dua ini adalah Kuder dan
Richardson. Mereka mengemukakan cara untuk menghitung koefesien reliabilitas
tanpa membelah alat evaluasi menjadi dua bagian, tetapi membagi alat evaluasi
menurut banyaknya butir soal yang disajikan, yaitu dengan cara menganalisis
masing-masing butir soal. Dari rumus-rumus yang telah dicobanya, ada dua buah
rumus yang paling mendekati tingkat kecermatan yang ideal, yaitu rumus ke-20
dan rumus ke-21 yang disingkat dengan KR-20 dan KR-21.
Asumsi untuk penggunaan rumus Kuder-Richardson adalah:
1) Butir-butir soal evaluasi harus homogen (setara), dan
2) Jenis evaluasi (tes) harus merupakan power test dan bukan speed
test.
Rumus KR-20 adalah:

( )(

r 11 =

n
n1

s t pi q i
s t2

Dengan:
n= banyak butir soal
pi= proporsi banyak subyek yang menjawab benar pada butir soal ke-i
qi =

proporsi banyak subyek yang menjawab salah pada butir soal ke-I, jadi

qi =1 pi
s t2= varians skor total
Rumus KR-21 adalah:
x ( n x )
n
r 11 =
1 t 2 t
n1
nst

( )(

Dengan:
n= banyak butir soal
x t= rerata skor total
2

s t = varians skor total


Cara lain untuk menghitung koefesien reliabilitas untuk teknik non belahdua adalah dengan Analisis Varians yang dikemukakan oleh Hyot (disingkat
Anava Hyot).
Rumus Anava yang dikemukakan oleh Hyot adalah sebagai berikut ini:
KR
r 11 =1 ixs
KR s
Dengan:
r 11 = koefesien reliabilitas alat evaluasi,
KR ixs= kuadrat rerata (mean square) interaksi antara item dengan subyek, atau
disebut pula kuadrat rerata dari galat (error),
KR s= kuadrat rerata antar subyek.

Selanjutnya, rumus yang digunakan untuk mencari koefesien reliabilitas


bentuk uraian dikenal dengan rumus Alpha, yaitu seperti di bawah ini:

si2
n

r 11 =
1 2
n1
st

( )(

Dengan:
n= banyak butir soal (item)
2

s i = varians skor setiap item, dan


2

s t = varians skor total


2.3.

Daya Pembeda
Pengertian Daya Pembeda (DP) dari sebuah butir soal menyatakan seberapa

jauh kemampuan butir soal tersebut mampu membedakan antara testi yang
mengetahui jawabannya dengan benar dengan testi yang tidak dapat menjawab soal
tersebut (atau testi yang menjawab salah). Dengan perkataan lain, daya pembeda
sebuah butir soal adalah kemampuan butir soal itu untuk membedakan antara testi
(siswa) yang pandai atau berkemampuan tinggi dengan siswa yang berkemampuan
rendah.
Rumus untuk menentukan daya pembeda adalah seperti di bawah ini:
DP=

JB A JBB
JS A

atau

DP=

JB A JBB
JS B

Dengan:
JB A= jumlah siswa kelompok atas yang menjawab soal itu dengan benar,
atau jumlah benar untuk kelompok atas.
JB B= jumlah siswa kelompok bawah yang menjawab soal itu dengan
benar, atau jumlah benar untuk kelompok bawah.
JS A = jumlah siswa kelompok atas.
JS B = jumlah siswa kelompok bawah.
2.4.

Indeks Kesukaran
Derajat kesekaran suatu butir soal dinyatakan dengan bilangan yang disebut

Indeks Kesukaran (Difficulty Index).


Rumus untuk menentukan indeks kesukaran butir soal, yaitu:

IK=

JB A + JB B
JS A + JS B

Karena

JS B =JS B =27

dari jumlah subyek dalam populasi, rumus tersebut

diatas dapat diuabah menjadi:


JB + JB B
IK= A
2 JS A
atau

IK=

JB A + JB B
2 JS B
Dengan:
IK= Indeks Kesukaran
JB A= jumlah siswa kelompok atas yang menjawab soal itu dengan benar,
atau jumlah benar untuk kelompok atas.
JB B= jumlah siswa kelompok bawah yang menjawab soal itu dengan benar,
atau jumlah benar untuk kelompok bawah.
JS A = jumlah siswa kelompok atas.
JS B = jumlah siswa kelompok bawah.
Klasifikasi indeks kesukaran yang paling banyak digunakan adalah:
IK=0,00 soal terlalu sukar,
0,00 IK 0,30 soal sukar,
0,30 r xy 0,70 soal sedang,

0,70 r xy 1,00 soal mudah,


IK=1,00

soal terlalu mudah.

REFERENSI
JICA. (2003). Evaluasi Pembelajaran Matematika. Bandung: Jurusan Pendidikan
Matematika FPMIPA UPI
Sutama, dan Anik Ghufron.(2011).Evaluasi Pembelajaran Matematika.Jakarta. Universitas
Terbuka
Tim Pengembangan MKDP. (2011). Kurikulum dan Pembelajaran. Jakarta: Kharisma Putera
Utama Offset.
Timtoni, Ayu Arfiana. 2015. Mengestimasi Reliabilitas Instrumen.
http://aynatimtoni.blogspot.co.id/2015/11/mengestimasi-reliabilitas-instrumen.html.
diakses pada tanggal 10 Oktober 2016
Zahrudin, H. Mamun. (2015). Validitas dan Reliabilitas
http://evaluasipembelajaranelghazy.blogspot.co.id/2015/09/validitas-danreliabilitas.html. diakses pada tanggal 10 Oktober 2016

Anda mungkin juga menyukai