Anda di halaman 1dari 40

VALIDITAS DAN RELIABILITAS

MAKALAH

Disusun Untuk Memenuhi Tugas Matakuliah Penilaian Pembelajaran Matematika

Dosen Pengampu:
Dr. Chairil Faif Pasani, M. Si.
Juhairiah, M. Pd.
Indah Budiarti, M.Pd.

Disusun oleh : Kelompok 6


1. Baihaki (1710118110005)
2. Litasari Ananda Saputri (1710118320018)
3. Nor Amalia Soleha (1710118320029)
4. Syifa Herlina (1710118220028)
5. Wafa Islamiyah (1710118220031)

PROGRAM STUDI PENDIDIKAN MATEMATIKA


JURUSAN PENDIDIKAN MATEMATIKA DAN IPA
FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN
UNIVERSITAS LAMBUNG MANGKURAT
2019
KATA PENGANTAR
Puji syukur kami panjatkan kehadirat Allah SWT yang telah memberikan
rahmat serta karunia-Nya kepada kami sehingga kami berhasil menyelesaikan
makalah ini yang berjudul “VALIDITAS DAN RELIABILITAS”.
Makalah ini berisikan tentang informasi bagaimana mengukur validitas
dan mencari reliabilitas dalam tes. Diharapkan makalah ini dapat memberikan
informasi kepada kita semua.
Kami menyadari bahwa makalah ini masih jauh dari sempurna, oleh
karena itu kritik dan saran dari semua pihak yang bersifat membangun selalu kami
harapkan demi kesempurnaan makalah ini. Akhir kata, kami sampaikan terima
kasih kepada semua pihak yang telah berperan serta dalam penyusunan makalah
ini dari awal sampai akhir. Semoga Allah SWT senantiasa meridhai segala usaha
kita.

Banjarmasin, Februari 2019


Tim Penyusun

ii
DAFTAR ISI

KATA PENGANTAR ............................................................................................ ii


DAFTAR ISI .......................................................................................................... iii
BAB I PENDAHULUAN ....................................................................................... 1
A. LATAR BELAKANG ................................................................................. 1
B. RUMUSAN MASALAH ............................................................................. 2
C. TUJUAN ...................................................................................................... 2
D. MANFAAT .................................................................................................. 2
BAB II PEMBAHASAN ........................................................................................ 3
A. VALIDITAS ................................................................................................ 3
B. RELIABILITAS ......................................................................................... 27
BAB III PENUTUP .............................................................................................. 36
A. KESIMPULAN .......................................................................................... 36
B. SARAN ...................................................................................................... 36
DAFTAR PUSTAKA ........................................................................................... 37

iii
BAB I
PENDAHULUAN
A. LATAR BELAKANG
Analisis kualitas instrumen evaluasi atau istilah lainnya kualitas alat
evaluasi merupakan hal penting dalam melakukan evaluasi karena kita merasa
bahwa instrumen atau alat ukur yang dibuat ada banyak kelemahannya dari
beberapa sisi. Kelemahan itu bisa terjadi karena alat untuk mengevaluasi
tidak tepat untuk mengevaluasi, berbobot, sedang, dan sukar pada siswa.
Kualitas alat evaluasi dimunculkan kepermukaan ketika seorang guru
melakukan tes selesai proses pembelajaran selama 4 bulan kemudian hasilnya
dicermati dan ternyata tidak sesuai dengan apa yang diharapkan yakni
ditunjukkan dibawah rata-rata yang ingin dicapai guru. (Hamzah, 2014).
Ada cara dengan mengumpulkan rencana pembelajaran selama 4
bulan dilihat dan dianalisis tujuan pembelajaran yang ditulis tidak terlalu
tinggi, sesuai dengan tingkat perkembangan siswa. Dilihat dari sisi lain yaitu
proses pelaksanaan pembelajaran yang dilakukan guru, berjalan dengan baik
sesuai dengan acuan rencana pembelajaran seperti memilih metode,
pendekatan, strategi dan media yang baik untuk mendukung proses
pembelajaran.
Ada hubungan timbal balik antara tujuan pembelajaran, proses
pembelajaran, dan penilaian hasil belajar. Bila kedua hal yakni tujuan dan
proses pembelajaran tidak bermasalah maka persoalan yang ada dengan hasil
belajar rendah tidak sesuai dengan apa yang diharapkan adalah alat penilaian.
Menguji instrumen dalam hal ini perlu sekali, di samping kesesuaian
instrumen yang dibuat dengan objek yang akan diuji dikatakan juga bahwa
perlu diuji kualitas instrumen untuk dapat dipakai pada lain kesempatan dan
objek lain dalam satuan pendidikan yang sama. Kadangkala kita menemui
instrumen seperti tes soal matematika yang tidak dapat dipakai untuk menguji
objek sekolah yang berbeda walaupun sama satuan pendidikannya. Kualitas
instrumen evaluasi yang rendah menjadikan produk lulusan yang tidak baik.
Keberhasilan mengungkapkan hasil dan proses belajar siswa
sebagaimana adanya (objektivitas hasil penilaian) sangat bergantung pada

1
2

kualitas alat penilaiannya di samping pada cara pelaksanaannya. Suatu alat


penilaian dikatakan mempunyai kualitas yang baik apabila alat tersebut
memiliki atau memenuhi dua hal, yakni ketepatan atau validitasnya dan
ketetapan atau keajegannya atau realibilitasnya.
B. RUMUSAN MASALAH
Rumusan masalah dari makalah ini, yaitu:
1. Apa yang dimaksud dengan validitas?
2. Apa saja macam-macam validitas?
3. Apa teknik-teknik validitas tes?
4. Bagaimana cara mengetahui validitas alat ukur?
5. Apa arti reliabilitas bagi sebuah tes?
6. Bagaimana cara-cara mencari besarnya reliabilitas?
C. TUJUAN
Tujuan dari makalah ini, yaitu:
1. Untuk mengetahui apa yang dimaksud dengan validitas.
2. Untuk mengetahui macam-macam validitas.
3. Untuk mengetahui teknik-teknik validitas tes.
4. Untuk menjelaskan bagaimana cara mengetahui validitas alat ukur.
5. Untuk mengetahui apa arti reliabilitas bagi sebuah tes.
6. Untuk menjelaskan bagaimana cara-cara mencari besarnya reliabilitas.
D. MANFAAT
Manfaat penulisan makalah ini adalah:
1. Memahami tentang validitas dan reliabilitas.
2. Memberikan informasi tentang macam-macam validitas.
3. Memberikan informasi tentang teknik-teknik validitas tes.
4. Memberikan informasi tentang tata cara mengetahui validitas dan
mencari besarnya reliabilitas.
5. Sebagai salah satu refrensi mengenai validitas dan reliabilitas untuk suatu
penelitian.
BAB II
PEMBAHASAN
A. VALIDITAS
1. Pengertian Validitas
Validitas berasal dari kata validity yang berarti sejauh mana
ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi
ukurnya. Scarvia B. Anderson dkk (Majid, 2014) menyatakan: "A test is
valid it measures what it purpose to measure - suatu tes dikatakan valid
apabila tes tersebut mengukur apa yang hendak diukur." Valid berarti
sahih, artinya keabsahan instrumen itu tidak diragukan lagi. Suatu tes
atau nontes dari alat ukur atau instrumen pengukuran dikatakan memiliki
validitas yang tinggi apabila alat tersebut menjalankan fungsi umumya
atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya
pengukuran itu. Hasil ukur dari pengukuran merupakan besaran yang
mencerminkan secara tepat dan fakta atau keadaan sesungguhnya dari
apa yang diukur. Misalkan guru memberi tes tentang penalaran kritis
seorang siswa berkaitan dengan soal konsep matematika, maka skor yang
diperoleh dari hasil mengukur kemampuan siswa dalam indikator
penalaran kritis terhadap soal matematika, bukan skor yang berkaitan
dengan kemampuan penerapan konsep matematika, atau kemampuan
menyelesaikan soal cerita dalam matematika.
Validitas instrumen mempermasalahkan apakah instrumen atau
tes tersebut benar-benar mengukur apa yang hendak diukur. Cureton
(Majid, 2014) mengatakan: "The essential question of test validity is how
well a test does the job it it employed to do." Maksudnya Seberapa jauh
suatu tes mampu mengungkapkan dengan tepat ciri atau keadaan yang
sesungguhnya dari objek ukur akan tergantung dari tingkat validitas tes
yang bersangkutan. Menurut Gay (Majid, 2014) suatu instrumen
dikatakan valid jika instrumen yang digunakan dapat mengukur apa yang
hendak diukur. Seorang guru atau pendidik hendaknya melakukan tes
terhadap siswanya Apakah mereka dapat menguasai pengetahuan yang
diajarkan. Agar memperoleh hasil yang baik maka guru tersebut perlu

3
4

mengembangkan tes yang sesuai dengan tujuan yang hendak dicapai


kemudian memanfaatkannya untuk mengukur peserta didik. Oleh karena
guru mengetahui seluk beluk siswa yang diajarkannya, maka ia dapat
membuat tes yang cocok dengan tujuan pengajaran yang telah ditetapkan
persoalan sekarang apakah tes tersebut dapat mengukur pada siswa yang
lain dalam mata pelajaran yang sama dan guru yang berbeda. (Hamzah,
2014).
Ada suatu sikap yang dibangun pada peneliti atau guru bahwa
soal yang dibuat belum tentu sempurna dan perlu diuji keabsahannya,
karena bisa saja ada beberapa soal tes yang dibuat invalid sehingga akan
bias hasilnya ketika diminta siswa untuk menyelesaikannya. Suatu
instrumen pengukuran dikatakan memiliki validitas yang tinggi apabila
alat tersebut menjalankan fungsi ukurnya atau memberikan hasil ukur
yang sesuai dengan maksud dilakukannya pengukuran. Hasil ukur dari
pengukuran tersebut merupakan besaran yang mencerminkan secara tepat
fakta atau keadaan sesungguhnya dari apa yang diukur. Dengan demikian
alat ukur yang valid untuk tujuan tertentu ialah alat ukur yang mampu
mengukur apa yang hendak diukur. (Hamzah, 2014).
Cronbach (Neuman, 2015) menyatakan bahwa suatu alat ukur
yang valid untuk tujuan tertentu atau pengambilan keputusan tertentu
mungkin tidak valid untuk tujuan atau pengambilan keputusan lain.
Validitas suatu tes atau alat ukur harus dikaitkan dengan tujuan, agar soal
tes atau non tes yang disusun terarah berangkat dari tujuan pembelajaran
yang ditentukan. Untuk itu perlu dipahami keberadaan indikator
kompetensi suatu pokok bahasan atau subpokok bahasan.
Berdasarkan pengertian di atas tentang validitas dapatlah
disimpulkan definisi validitas adalah derajat yang menunjukkan sejauh
mana ketepatan dan kecermatan suatu alat ukur tes atau non tes dalam
melakukan fungsi ukurnya benar-benar mengukur apa yang hendak
diukur. Alat ukur itu hanya valid untuk suatu tujuan, tidak universal.
Contoh seorang guru membuat tes matematika yang valid untuk satuan
pendidikan SMA belum tentu valid untuk SMK, walaupun pokok
5

bahasanya sama misalkan statistik. Derajat validitas hanya berlaku untuk


suatu kelompok tertentu yang memang telah direncanakan pemakaiannya
oleh si pembuat instrumen.
Ketentuan penting dalam evaluasi adalah bahwa hasilnya harus
sesuai dengan keadaan yang dievaluasi. Mengevaluasi dapat
diumpamakan sebagai pekerjaan memotret. Gambar potret atau foto
dikatakan baik apabila sesuai dengan aslinya. Gambar pemotretan hasil
evaluasi tersebut di dalam kegiatan evaluasi dikenal dengan data
evaluasi. Data evaluasi yang baik sesuai dengan kenyataan disebut data
valid. Agar dapat diperoleh data yang valid, instrumen atau alat untuk
mengevaluasinya harus valid. Jika pernyataan tersebut dibalik, instrumen
evauasi dituntut untuk valid karena diinginkan dapat diperoleh data yang
valid. Dengan kata lain, instrumen evaluasi dipersyaratkan valid agar
hasil yang diperoleh dari kegiatan evaluasi valid. (Hamzah, 2014).
Tujuan validitas dalam pembelajaran yaitu untuk mengetahui
sejauh mana ketepatan atau kecermatan suatu instrumen pengukuran
dalam melakukan fungsi ukurnya yaitu agar data yang diperoleh bisa
relevan atau sesuai dengan tujuan diadakannya pengukuran tersebut.
(Neuman, 2015).
2. Macam-macam Validitas
Sebenarnya validitas bukan ditekankan pada tes itu sendiri tetapi
pada hasil pengetesan atau skornya. Secara garis besar ada dua macam
validitas, yaitu validitas logis dan validitas empiris. (Pasani &
Danaryanti, 2016).
a. Validitas Logis
Istilah “validitas logis” mengandung kata “logis” berasal
dari kata “logika” atau validitas logis sering juga disebut sebagai
analisis kualitatif yaitu berupa penalaran atau penelaahan. Dengan
makna demikian maka validitas logis untuk sebuah instrumen yang
memenuhi persyaratan valid berdasarkan hasil penalaran. Kondisi
valid tersebut dipandang terpenuhi karena instrumen yang
6

bersangkutan sudah dirancang secara baik, mengikuti teori dan


ketentuan yang ada.
Sebagaimana pelaksanaan tugas lain misalnya membuat
sebuah karangan, jika penulisan sudah mengikuti aturan mengarang,
tentu secara logis karangannya sudah baik. Berdasarkan penjelasan
tersebut maka instrumen yang sudah disusun berdasarkan teori
penyusunan instrumen secara logis sudah valid. Dari penjelasan
tersebut dapat dipahami bahwa validitas logis dapat dicapai apabila
instrumen disusun mengikuti ketentuan yang ada, yaitu kesesuaian
butir soal buatan guru dari aspek materi. Kualitas soal dari aspek
materi meliputi:
a) Soal harus sesuai dengan indikator.
b) Pilihan jawaban harus homogen dan logis ditinjau dari segi
materi.
c) Setiap soal harus mempunyai satu jawaban yang benar atau
paling benar..
d) pengecoh harus berfungsi. Kesesuaian butir soal buatan guru
dari aspek materi pada materi protista dapat dilihat pada tabel
berikut.
Materi
Keanekaragaman
Aspek yang Protista
No Hayati
ditelaah (Materi)
Tidak Tidak
Sesuai Sesuai
Sesuai Sesuai
Soal sesuai
1 20 - 15 5
dengan indikator
Pilihan jawaban
2 homogen dan 20 - 20 -
logis
Hanya ada satu
3 20 - 20 -
kunci jawaban
Pengecoh
4 20 - 20 -
berfungsi
Hasil analisis data pada tabel 4.3 menunjukkan bahwa 20 soal sudah
sesuai dengan indikator pada materi protista. 20 soal memiliki
pilihan jawaban yang homogen dan logis, 20 soal buatan guru
7

masing-masing hanya memiliki satu kunci jawaban dan dari 20 soal


buatan guru masing-masing pengecohnya berfungsi.
Dengan demikian, dapat disimpulkan bahwa validitas logis
tidak perlu diuji kondisinya tetapi langsung diperoleh sesudah
instrumen tersebut selesai disusun. Ada dua validitas logis yang
dapat dicapai oleh sebuah insrumen, yaitu validitas isi dan validitas
konstruk (construct validity).
1) Validitas Isi (content validity)
Validitas isi (content validity) suatu tes
mempermasalahkan seberapa jauh suatu tes mengukur tingkat
penguasaan terhadap isi suatu materi tertentu yang seharusnya
dikuasai sesuai dengan tujuan pengajaran. Dalam pengertian
validitas isi mengacu pada seberapa banyak materi tes tersebut
dapat mengukur keseluruhan bahan atau materi yang telah
diajarkan merupakan tuntutan yang harus dipenuhi oleh tes
hasil belajar. Validitas isi menurut Sukardi (Majid, 2014)
adalah derajat dimana sebuah tes mengukur cakupan substansi
yang ingin di ukur. Tes yang mempunyai validitas isi yang
baik ialah tes yang benar-benar mengukur penguasaan materi
yang seharusnya dikuasai sesuai dengan konten pengajaran
yang tercantum dalam garis-garis besar program pengajaran.
Validitas isi menurut Gregory (Majid, 2014)
menunjukkan sejauh mana pertanyaan, tugas atau butir dalam
suatu tes atau instrumen maupun mewakili secara keseluruhan
dan proporsional perilaku sampel yang dikenal tes tersebut.
Menurut Suharsimi Arikunto (Majid, 2014) sebuah tes
dikatakan memiliki validitas isi apabila mengukur tujuan
pembelajaran tertentu yang sejajar dengan materi atau isi
pembelajaran yang diberikan. Oleh karena materi yang
diajarkan dalam kurikulum maka validitas isi ini dikatakan
validitas kurikuler.
8

Validitas isi dapat diusahakan tercapainya sejak saat


penyusunan dengan cara memerinci atau materi buku
pelajaran. Tes mencerminkan keseluruhan konten atau materi
yang diujikan atau yang seharusnya dikuasai secara
proporsional untuk mengetahui apakah tes itu valid atau tidak
harus dilakukan melalui penelaahan kisi-kisi tes untuk
memastikan bahwa soal-soal tes itu sudah mewakili atau
mencerminkan keseluruhan konten atau materi yang
seharusnya dikuasai secara proporsional. Oleh karena itu,
validitas isi suatu tes tidak mempunyai besaran tertentu yang
dihitung secara statistika, tetapi dipahami bahwa tes itu sudah
valid berdasarkan telaah kisi-kisi tes.
Memperbaiki validitas suatu tes maka isi suatu tes
harus diusahakan agar mencakup suatu pokok atau sub pokok
bahasan yang hendak diukur. Kriteria untuk menentukan
proporsi masing-masing pokok atau subpokok bahasan yang
tercakup dalam suatu tes ialah berdasarkan banyaknya isi
(materi) masing-masing pokok atau subpokok bahasan yang
harus dilihat yang dapat dilihat dari jumlah halaman isi materi
dan jumlah jam pertemuan untuk masing-masing pokok
bahasan atau subpokok bahasan seperti tercantum dalam
kurikulum atau garis-garis besar program pengajaran. Selain
itu penentuan proporsi tersebut dapat berdasarkan pendapat
(judgement) para ahli dalam bidang yang bersangkutan.
Dengan demikian, dapat dikatakan suatu tes akan mempunyai
validitas isi yang baik jika tes tersebut terdiri dari item-item
yang mewakili semua materi yang hendak diukur.
Namun, tes hasil belajar tidak mungkin dapat
mengungkapkan semua materi yang ada dalam bidang studi
tertentu sekalipun hanya untuk satu semester. Oleh sebab itu,
harus diambil sebagian dari materi dalam bentuk sampel tes.
Sampel harus dapat mencerminkan materi yang terkandung
9

dalam seluruh materi bidang studi. Cara yang ditempuh dalam


menetapkan sampel tes adalah memilih konsep-konsep materi
yang esensial. Misalnya menetapkan sejumlah konsep dari
setiap pokok bahasan yang ada. Dari setiap konsep
dikembangkan beberapa pertanyaan tes.
2) Validitas Konstruksi (construct validity)
Validitas konstruk (construct validity) adalah validitas
yang mempermasalahkan seberapa jauh item-item mampu
mengukur apa yang benar-benar hendak diukur sesuai dengan
konsep khusus atau dimensi konseptual yang telah ditetapkan.
Validitas konstruk biasanya digunakan untuk instrumen-
instrumen yang dimaksudkan mengukur variabel-variabel
konsep baik dan sifatnya performansi tipikal seperti instrumen
untuk mengukur sikap, minat, konsep diri, kontrol fokus, gaya
kepemimpinan, motivasi berprestasi, dan sebagainya maupun
sifatnya performasi maksimum seperti instrumen untuk
mengukur bakat, intelegensi, kecerdasan emosional, dan
sebagainya.
Perumusan konstruk harus dilakukan berdasarkan
sintesis dan teori-teori mengenai konsep variabel yang hendak
diukur melalui proses analisi dan komparasi yang logis dan
cermat. Dimensi dan indikator dijabarkan dari konstruk yang
telah dirumuskan dengan memperhatikan hal-hal: Sebuah tes
dikatakan memiliki validitas konstruksi apabila butir-butir soal
yang membangun tes tersebut mengukur setiap aspek berpikir
seperti yang disebutkan dalam tujuan instruksional khusus.
Dengan kata lain jika butir-butir soal mengukur aspek berpikir
tersebut sudah sesuai dengan aspek berpikir yang menjadi
tujuan instruksional.
Sebagai contoh jika rumusan Tujuan Instruksional
Khusus (TIK): “Siswa dapat membandingkan antara efek
biologis dan efek psikologis”, maka butir soal pada tes
10

merupakan perintah agar siswa membedakan dua efek tersebut.


Konstruksi dalam pengertian ini bukanlah “susunan” seperti
yang sering dijumpai dalam teknik, tetapi merupakan rekaan
psikologis yaitu suatu rekaan yang dibuat oleh para ahli ilmu
jiwa yang dengan suatu cara tertentu “memerinci” isi jiwa atas
beberapa aspek seperti ingatan (pengetahuan), pemahaman,
aplikasi dan seterusnya. Dalam hal ini, mereka menganggap
seolah-olah jiwa dapat dibagi-bagi, tetapi sebenarnya tidak
demikian. Pembagian ini hanya merupakan tindakan sementara
untuk mempermudah mempelajari.
Seperti halnya validitas isi, validitas konstruksi dapat
diketahui dengan cara memerinci dan memasangkan setiap
butir soal dengan setiap aspek dalam TIK. Pengerjaannya
dilakukan berdasarkan logika bukan pengalaman.
b. Validitas Empiris
Istilah “validitas empiris” memuat kata “empiris” yang
artinya “pengalaman”. Sebuah instrumen dapat dikatakan memiliki
validitas empiris apabila sudah diuji dari pengalaman. Analisis soal
secara kuantitatif menekankan pada analisis karakteristik internal tes
melalui data yang diperoleh secara empiris. Karakteristik internal
secara kuantitatif dimaksudkan meliputi parameter soal tingkat
kesukaran, daya pembeda dan kualitas pengecoh.
a) Tingkat Kesukaran
Analisis tingkat kesukaran dimaksudkan untuk
mengetahui apakah soal tersebut tergolong mudah atau sukar.
Tingkat kesukaran adalah bilangan yang menunjukan sukar atau
mudahnya sesuatu soal (Arikunto, 2001). Cara menentukan
tingkat kesukaran suatu butir tes, yaitu:
 Untuk menghitung tingkat kesukaran tiap butir soal
digunakan persamaan:
𝐵
𝑃=
𝐽𝑥
11

Keterangan:
P = indeks kesukaran,
B = banyaknya siswa yang menjawab soal dengan benar,
dan
𝐽𝑥 = jumlah seluruh siswa peserta tes.
Indeks kesukaran diklasifikasikan seperti tabel berikut:
P−P Klasifikasi
0,00 − 0,29 Soal sukar
0,30 − 0,69 Soal sedang
0,70 − 1,00 Soal mudah
 Rumus lain yang digunakan untuk menentukan tingkat
kesukaran soal uraian sama dengan soal pilihan ganda yaitu:
𝑆𝐴 + 𝑆𝐵
𝑇𝑘 = × 100%
𝐼𝐴 + 𝐼𝐵
Keterangan:
𝑇𝑘 = Indeks tingkat kesukaran butir soal
𝑆𝐴 = jumlah skor kelompok atas
𝑆𝐵 = jumlah skor kelompok bawah
𝐼𝐴 = jumlah skor ideal kelompok atas
𝐼𝐵 = jumlah skor ideal kelompok bawah
Setelah indeks tingkat kesukaran diperoleh, maka harga
indeks kesukaran tersebut diinterpretasikan pada kriteria
sesuai tabel berikut:
Indeks Tingkat
Kriteria
Kesukaran
0 – 15 % Sangat sukar, sebaiknya dibuang
16 % – 30 % Sukar
31 % – 70 % Sedang
71 % – 85 % Mudah
Sangat mudah, sebaiknya di
86 % – 100 %
buang
12

b) Daya Pembeda
Daya pembeda soal adalah kemampuan suatu soal
untuk membedakan antara siswa yang berkemampuan tinggi
dengan siswa yang berkemampuan rendah (Arikunto, 2001).
Cara menentukan daya pembeda butir tes, yaitu:
 Daya pembeda butir soal dihitung dengan menggunakan
persamaan:
𝐵𝐴 𝐵𝐵
𝐷𝑃 = −
𝐽𝐴 𝐽𝐵
Keterangan :
𝐷𝑃 = Indeks daya pembeda,
𝐵𝐴 = banyaknya peserta tes kelompok atas yang menjawab
soal dengan benar,
𝐵𝐵 = banyaknya peserta tes kelompok bawah yang
menjawab soal dengan benar,
𝐽𝐴 = banyaknya peserta tes kelompok atas, dan
𝐽𝐵 = banyaknya peserta tes kelompok bawah
Kriteria indeks daya pembeda adalah sebagai berikut.
DP Kualifikasi
0,00 – 0,19 Jelek
0,20 – 0,39 Cukup
0,40 – 0,69 Baik
0,70 – 1,00 Baik sekali
Negatif Tidak baik, harus dibuang

 Untuk mengetahui keberartian daya pembeda soal


dilakukan dengan statistik uji-t, dengan persamaan berikut.
𝑋𝑎 − 𝑋𝑏
𝑡=
𝑆𝑎2 𝑆𝑎2

𝑁𝑎 + 𝑁𝑏
Keterangan :
𝑡 = Indeks Daya Pembeda (DP) antara kemampuan
kelompok atas dengan kemampuan kelompok bawah,
13

𝑋𝑎 = skor rata-rata tiap item tes kelompok atas,


𝑋𝑏 = skor rata-rata tiap item tes kelompok bawah,
𝑆𝑎 = standar deviasi tiap item tes kelompok atas,
𝑆𝑏 = standar deviasi tiap item tes kelompok bawah,
𝑁𝑎 = jumlah siswa kelompok atas, dan
𝑁𝑏 = jumlah siswa kelompok bawah.
Harga t hitung yang dihasilkan dibandingkan dengan
dengan harga t tabel dengan 𝑑𝑘 = (𝑁𝑎 − 1) + (𝑁𝑏 − 1)
pada taraf kepercayaan 95%. Jika t hitung > t tabel maka
daya pembeda untuk soal tersebut adalah signifikan.
 Persamaan lain yang dapat digunakan untuk menentukan
daya pembeda yaitu :
𝑆𝐴 − 𝑆𝐵
𝐷𝑃 = × 100%
𝐼𝐴
Keterangan:
𝐷𝑃 = Indeks daya pembeda satu butir soal tertentu
𝑆𝐴 = Jumlah skor kelompok atas pada butir soal yang diolah
𝑆𝐵 = Jumlah skor kelompok bawah pada butir soal yang
diolah
𝐼𝐴 = Jumlah skor maksimum salah satu kelompok pada
butir soal yang diolah
Setelah indeks daya pembeda diketahui, maka harga
tersebut diinterpretasikan pada kriteria daya pembeda sesuai
dengan tabel berikut (To, 1996).
Indeks Daya Pembeda Kriteria Daya Pembeda
Negatif – 9% Sangat buruk, harus dibuang
10 % – 19 % Buruk, sebaiknya dibuang
20 % – 29 % Agak baik atau cukup
30 % – 49 % Baik
50 % ke atas Sangat Baik
14

c) Kualitas pengecoh
Instrumen evaluasi yang berbentuk tes dan objektif,
selain harus memenuhi syarat-syarat yang telah disebutkan
terdahulu, harus mempunyai distraktor yang efektif. Distraktor
atau pengecoh adalah opsi-opsi yang bukan merupakan kunci
jawaban (jawaban benar).
Butir soal yang baik pengecohnya akan dipilih secara
merata oleh peserta didik yang menjawab salah. Sebaliknya,
butir soal yang kurang baik, pengecohnya akan dipilih secara
tidak merata. Pengecoh dianggap baik bila jumlah peserta didik
yang memilih pengecoh itu sama atau mendekati jumlah ideal
(To, 1996). Indeks pengecoh dihitung dengan rumus:
𝑃
𝐼𝑃 = × 100%
(𝑁 − 𝐵)(𝑛 − 1)
Keterangan:
IP = indeks pengecoh
P = jumlah peserta didik yang memilih pengecoh
N = jumlah peserta didik yang ikut tes
B = jumlah peserta didik yang menjawab benar pada setiap soal
n = jumlah alternatif jawaban
1 = bilangan tetap
Catatan: Jika semua peserta didik menjawab benar pada butir
soal tertentu (sesuai kunci jawaban), maka IP = 0 yang berarti
soal tersebut jelek. Dengan demikian pengecoh tidak berfungsi.
Contoh: 50 orang peserta didik dites dengan 10 soal bentuk
pilihan ganda. Tiap soal memiliki alternatif jawaban (a, b, c, d,
e). Kunci jawaban (jawaban yang benar) no. 8 adalah c. Setelah
soal no.8 diperiksa untuk semua peserta didik, ternyata dari 50
orang peserta didik, 20 peserta didik menjawab benar dan 30
peserta didik menjawab salah. Idealnya, pengecoh dipilih secara
merata. Berikut ini adalah contoh soal no.8.
15

Alternatif jawaban A B C D E

Distribusi jawaban
7 8 20 7 8
peserta didik

IP 93% 107% ** 93% 107%

Kualitas pengecoh ++ ++ ++ ++ ++
Keterangan:
** = kunci jawaban
++ = sangat baik
+ = baik
● = kurang baik
_ = jelek
_ _ = sangat jelek
Pada contoh diatas, IP butir a, b, c, d, dan e adalah 93%, 107%,
93%, dan 107%. Semuanya dekat dengan angka 100%, sehingga
digolongkan sangat baik sebab semua pengecoh itu berfungsi.
Jika pilihan jawaban peserta didik menumpuk pada satu
alternatif jawaban, misalnya seperti berikut:
Alternatif jawaban A B C D E
Distribusi jawaban peserta
20 2 20 8 0
didik
IP 267% 27% ** 107% 0%
Kualitas pengecoh _ _ ** ++ _
Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik,
pengecoh (e) dan (b) tidak berfungsi, pengecoh (a)
menyesatkan, maka pengecoh (a) dan (e) perlu diganti karena
termasuk jelek, dan pengecoh (b) perlu direvisi karena kurang
baik. adapun kualitas pengecoh berdasar indeks pengecoh
adalah:
Sangat baik IP = 76% - 125%
Baik IP = 51% - 75% atau 126% - 150%
Kurang baik IP = 26% - 50% atau 151% - 175%
16

Jelek IP = 0% - 25% atau 176% - 200%


Sangat jelek IP = lebih dari 200%
Salah satu tujuan dilakukannya analisis adalah untuk
meningkatkan kualitas soal, yaitu apakah suatu soal dapat diterima
karena telah didukung oleh data statistik yang memadai, diperbaiki
karena terbukti secara empiris tidak berfungsi sama sekali.
Sebagai contoh sehari-hari, seseorang dapat diakui jujur
oleh masyarakat apabila dalam pengalaman dibuktikan bahwa orang
tersebut memang jujur. Contoh lain, seseorang dapat dikatakan
kreatif apabila dari pengalaman dibuktikan bahwa orang tersebut
sudah banyak menghasilkan ide-ide baru yang diakui berbeda dari
hal-hal yang sudah ada. Dari penjelasan dan contoh-contoh tersebut
diketahui bahwa validitas empiris tidak dapat diperoleh hanya
dengan menyusun instrumen berdasarkan ketentuan seperti halnya
validitas logis, tetapi harus dibuktikan berdasarkan pengalaman. Ada
dua validitas empiris untuk menguji bahwa sebuah instrumen
memang valid, yaitu validitas konkuren dan validitas prediksi.
1) Validitas konkuren (Concurrent Validity)
Validitas ini lebih umum dikenal dengan validitas
empiris. Sebuah tes dikatakan memiliki validitas empiris jika
hasilnya sesuai dengan pengalaman. Jika ada istilah “sesuai”
tentu ada dua hal yang dipasangkan. Dalam hal ini hasil tes
dipasangkan dengan hasil pengalaman. Pengalaman selalu
mengenai hal yang telah lampau sehingga data pengalaman
tersebut sekarang sudah ada (ada sekarang, concurrent).
Dalam membandingkan hasil sebuah tes maka
diperlukan suatu kriterium atau alat banding. Maka hasil tes
merupakan sesuatu yang dibandingkan. Sebagai contoh,
misalnya seorang guru ingin mengetaui apakah tes sumatif
yang disusun sudah valid atau belum. Untuk ini diperlukan
sebuah kriterium masa lalu yang sekarang datanya dimiliki.
Misalnya nilai ulangan harian atau ulangan sumatif yang lalu.
17

2) Validitas Prediksi (Predictive Validity)


Memprediksi artinya meramal, dengan meramal selalu
mengenai hal yang akan datang jadi sekarang belum terjadi.
Sebuah tes dikatakan memiliki validitas prediksi atau validitas
ramalan apabila mempunyai kemampuan untuk meramalkan
apa yang akan terjadi pada masa yang akan datang.
Misalnya tes masuk perguruan tinggi adalah sebuah
tes yang diperkirakan mampu meramalkan keberhasilan
peserta tes dalam mengikuti kuliah di masa yang akan datang.
Calon yang tersaring berdasarkan hasil tes diharapkan
mencerminkan tinggi rendahnya kemampuan mengikuti kuliah.
Jika nilai tesnya tinggi tentu menjamin keberhasilan kelak.
Sebaiknya seorang calon dikatakan tidak lulus tes karena
memiliki nilai tes yang rendah jadi diperkirakan akan tidak
mampu mengikuti perkuliahan yang akan datang.
Sebagai alat pembanding validitas prediksi adalah
nilai-nilai yang diperoleh setelah peserta tes mengikuti
pelajaran di perguruan tinggi. Jika ternyata siapa yang
memiliki nilai tes lebih tinggi gagal dalam ujian semester 1
dibandingkan dengan yang dahulu nilai tesnya lebih rendah
maka tes masuk yang dimaksud tidak memiliki validitas
prediksi.
3. Teknik-teknik Validitas Tes
Terdapat dua teknik validitas, yaitu validitas tes acuan Normatif
(TAN) dan validitas tes acuan patokan (TAP). (Pasani & Danaryanti,
2016)
a. Validitas Tes Acuan Normatif
Tes acuan normatif (TAN) adalah penilaian yang
membandingkan hasil belajar siswa terhadap hasil dalam
kelompoknya. Tujuan penggunaan TAN biasanya lebih umum dan
komprehensif serta meliputi suatu bidang isi dan tugas belajar yang
besar.
18

1) Validitas Isi
Merupakan derajat di mana suatu tes mengukur
bidang-bidang isi pelajaran yang hendak diukur. Hal ini sangat
penting bagi tes hasil belajar. Validitas isi mempersyaratkan
adanya validitas butir soal dan sampel isi pelajaran. Esensi
validitas isi berkaitan dengan sampel dan menjadi penting
apabila ingin menggambarkan kinerja siswa terhadap suatu
ranah tugas tertentu.
Validitas isi ditentukan oleh penilaian (judgement)
para pakar. Tidak ada rumus untuk menghitungnya dan tidak
ada cara untuk mengungkapnya secara kuantitatif. Para pakar
mengkaji seluruh butir soal dan membuat penilaian tentang
beberapa baik butir soal itu mencerminkan bidang yang
diujikan.
2) Validitas Konstruk
Merupakan derajat di mana suatu tes mampu
mengukur konstruk hipotetik yang hendak diukur. Tahapan
validitas konstruk yaitu mengidentifikasi konstruk yang
diperkirakan untuk menghitung kinerja tes, menarik hipotesis
berkenaan dengan kinerja tes dari teori masing – masing
kontruk, menguji hipotesis berdasarkan logika dan data
empirik.
3) Validitas Konkuren
Merupakan derajat di mana skor suatu tes berkaitan
dengan skor tes lainnya, yakni tes yang telah sahih kemudian
diujian pada waktu yang bersamaan dengan tes yang baru
dibuat.
4) Validitas Peramalan
Merupakan derajat di mana suatu tes dapat
meramalkan seberapa baik siswa akan melaksanakan tugas di
dalam situasi mendatang. Validitas peramalan ditentukan
19

dengan cara merumuskan hubungan antara skor tes dengan


ukuran keberhasilan pada situasi yang diinginkan.
b. Validitas Tes Acuan Patokan
Tujuan utama TAP untuk mengukur hasil belajar pada satu
tujuan pembelajaran atau lebih, sehingga validitas isi akan menjadi
perhatian utama di dalam menentukan realibilitasnya.
1) Validitas Isi
Validitas isi pada TAP berkaitan dengan derajat
kemampuan tes mengukur pencapaian tujuan pembelajaran.
Seperti halnya dengan TAN, pada TAP juga berkaitan dengan
validitas butir soal dan validitas sampel tujuan pembelajaran.
Validitas isi juga disebut sebagai validitas deskriptif.
2) Validitas Peramalan
Validitas peramalan pada TAP mempertanyakan
kemampuan tes meramalkan kinerja siswa di masa depan.
Validitas ini juga disebut sebagai validitas fungsional. Dengan
demikian salah satu fungsi tes adalah untuk membuat
peramalan di masa datang. Apabila tes itu baik, maka dapat
dikatakan bahwa tes tersebut memiliki validitas fungsional.
4. Cara Mengetahui Validitas Alat Ukur
Ada tiga cara untuk mengetahui validitas alat ukur, yaitu dengan
mengukur validitas soal, validitas butir soal atau item, dan validitas
faktor. (Pasani & Danaryanti, 2016)
1) Validitas Soal Secara Keseluruhan
Sekali lagi diulangi bahwa sebuah tes dikatakan memiliki
validitas jika hasilnya sesuai dengan kriterium dalam arti memiliki
arti kesejajaran antara hasil tes tersebut dengan kriterium. Teknik
yang digunakan untuk mengetahui kesejajaran adalah teknik
korelasi product moment yang dikemukan oleh Pearson. Rumus
korelasi product moment ada dua macam, yaitu:
a. Korelasi product moment dengan simpangan
∑XY
rXY = (∑X2 )(∑Y2 )
20

Keterangan:
rXY = koefisien korelasi antara variabel X dan variabel Y, dua
variabel yang dikorelasikan (x= X – 𝑥̅ ), x = perbedaan skor
X dengan skor reratanya; ( y= Y – 𝑦̅ ), y = perbedaan skor Y
dengan skor reratanya.
∑XY = jumlah perkalian X dan Y
∑X 2 = kuadrat dari X
∑Y 2 = kuadrat dari Y
b. Korelasi product moment dengan angka kasar
N∑XY−(∑X)(∑Y)
rXY =
√(N∑X2 −(∑X)2 ))(N∑Y2 −(∑Y)2 ))

Keterangan:
N = banyaknya peserta tes
X = skor butir soal
Y = skor total
rXY = koefisien korelasi antara variabel X dan variabel Y, dua
variabel yang dikorelasikan
Untuk mengetahui valid atau tidaknya soal, maka hasil
perhitungan rXY dikorelasikan dengan rtabel . Jika rXY >
rtabel , maka butir soal dikatakan valid, begitupun sebaliknya.
(Hamzah, 2014)
Contoh perhitungan validitas soal tes matematika
Kepada siswa kelas VII SMP Sukses dilakukan tes
matematika untuk diuji validitasnya. Sebelumnya ada hasil tes
ulangan harian matematika. hasil tes matematika yang akan diuji
validitasnya dengan simbol “X” dan nilai tes ulangan harian
dengan symbol “Y”. datanya sebagai berikut:
No Nama X Y
1 Nanda 6 5.9
2 Amel 6.5 6.3
3 Helen 6 7
4 Wafa 7 6.8
21

5 Ibai 7 6.5
6 Asyraf 7.5 7.2
7 Ganda 5.5 5.3
8 Cika 6 6
9 Isti 7 5.1
10 Cevi 6.5 7.7
Jumlah 65 63.8
∑𝑋
𝑋̅ = 𝑁
65
𝑋̅ = 10 = 6.5
∑𝑌
𝑌̅ = 𝑁
63.8
𝑌̅ = 10 = 6.38

Harga x dan y dapat dicari dengan menggunakan rumus berikut:


𝑥 = 𝑋 − 𝑋̅
𝑦 = 𝑌 − 𝑌̅
Kemudian cari nilai kuadratnya. Lihat tabel berikut.
No Nama X Y X Y x2 y2 xy
1 Nanda 6 5.9 -0.5 -0.5 0.25 0.25 0.25
2 Amel 6.5 6.3 0.0 -0.1 0.00 0.01 0.00
3 Helen 6 7 -0.5 0.6 0.25 0.36 -0.36
4 Wafa 7 6.8 0.5 0.4 0.25 0.16 0.20
5 Ibai 7 6.5 0.0 0.1 0.00 0.01 0.00
6 Asyraf 7.5 7.2 1.0 0.8 1.00 0.64 0.80
7 Ganda 5.5 5.3 -1.0 -1.1 1.00 1.21 1.10
8 Cika 6 6 -0.5 -0.4 0.25 0.16 0.20
9 Isti 7 5.1 0.5 -1.3 0.25 1.69 -0.65
10 Cevi 6.5 7.7 0.0 1.3 0.00 1.69 0.00
Jumlah 65 63.8 3.25 6.18 1.54
Misalkan untuk Helen
∑𝑥𝑦
𝑟𝑥𝑦 =
√(∑𝑥 2 )(∑𝑦 2 )
1.54
𝑟𝑥𝑦 =
√(3.25)(6.18)

𝑟𝑥𝑦 = 0,34 (Kategori Rendah)


22

Analogi dengan rumus yang berbeda dapat dihitung


dengan harga koefisien korelasi yang hasilnya tidak jauh berbeda
dapat ditoleransi. Koefisien korelasi ada antara 0.00 – 1.00. Kita
dapat melakukan interpretasi dari koefisien korelasi yang diperoleh
sebagai berikut:
0.00 – 0.20 kategori rendah sekali
0.20 – 0.40 kategori rendah
0.40 – 0.60 kategori cukup
0.60 – 0.80 kategori baik
0.80 – 1.00 kategori sangat baik
Penafsiran harga koefisien korelasi yang diperoleh ada dua cara
yaitu:
1. dengan melihat harga r dan diinterpretasikan seperti tinggi,
cukup, dan rendah;
2. dengan berkonsultasi tabel kritis r product moment sehingga
dapat diketahui signifikan atau tidaknya korelasi tersebut.
2) Validitas Butir Soal atau Item
Apa yang sudah dibicarakan di atas adalah validitas soal
secara keseluruhan tes. Di samping mencari validitas soal perlu
juga dicari validitas item. Jika seorang peneliti atau seorang guru
mengetahui bahwa validitas soal tes misalnya terlalu rendah atau
rendah saja, maka selanjutnya ingin mengetahui butir-butir tes
manakah yang menyebabkan soal secara keseluruhan tersebut jelek
karena memiliki validitas rendah. Untuk keperluan inilah dicari
validitas butir soal saja.
Pengertian umum untuk validitas item adalah sebuah item
dikatakan valid apabila mempunyai dukungan yang besar terhadap
skor total. Skor pada item menyebabkan skor total menjadi tinggi
atau rendah. Dengan kata lain, dapat dikemukakan bahwa sebuah
item meiliki validitas yang tinggi jika skor pada item mempunyai
kesejajaran dengan skor total. (Pasani & Danaryanti, 2016)
Contoh Validitas Butir Soal atau Item
23

Hasil tes matematika tingkat SMA dari 8 siswa diperoleh


data tentang butir soal yang dapat dijawab dan tidak oleh siswa
serta skor total masing-masing siswa. Jenis soal pilihan ganda.
Perhatikan tabel berikut.
Butir soal / item (X) Skor
No Nama Total
1 2 3 4 5 6 7 8 9 10
(Y)
1 Alam 1 0 1 0 1 1 1 1 1 1 8
2 Badrul 0 0 1 0 1 0 0 1 1 1 5
3 Cecep 1 1 0 0 0 1 0 1 0 1 3
4 Dadang 1 1 0 0 1 1 0 0 1 0 5
5 Elan 1 1 1 1 1 1 0 0 0 0 6
6 Farida 0 0 1 0 1 0 1 0 0 0 4
7 Gayus 1 1 1 1 1 1 1 0 0 0 7
8 Hanafi 1 1 0 1 1 1 1 1 1 1 8
Ditanya: Validitas soal atau item tes matematika nomor 6?
Jawab:
Pada soal-soal yang berbentuk objektif seperti pilihan
ganda maka ada bagian item yang dijawab benar 1 dan item yang
dijawab salah dengan nilai 0. Perhitungan secara cepat dapat
digunakan calculator scientific seperti tipe casio fX 110, 120, atau
140, dimana harga-harga yang dicari ada rumusnya. Selain itu
dapat menggunakan Excel atau program SPSS. Data soal no. 6
seperti pada tabel di bawah ini.
No. Nama X Y
1 Alam 1 8
2 Badrul 0 5
3 Cecep 1 3
4 Dadang 1 5
5 Elan 1 6
6 Farida 0 4
7 Gayus 1 7
8 Hanafi 1 8
24

Rumus yang dipakai ada dua macam yakni rumus korelasi


point biserial dan korelasi product moment Spearman.
𝑋𝑖−𝑋𝑡 𝑝𝑖
𝑟𝑝𝑏𝑖𝑠 = √𝑞𝑖
𝑆𝑡

Bentuk lain dari rumus di atas yaitu:


𝑀𝑝−𝑀𝑡 𝑝
𝑟𝑝𝑏𝑖𝑠 = √𝑞
𝑆𝑡

Catatan:
𝑟𝑝𝑏𝑖𝑠 = koefisien korelasi biserial
𝑀𝑝 = rerata skor dari subjek yang menjawab benar bagi item yang
dicari validitasnya
𝑆𝑡 = standar deviasi dari skor total
𝑝𝑖 = proporsi siswa yang menjawab benar
𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑠𝑖𝑠𝑤𝑎 𝑦𝑎𝑛𝑔 𝑚𝑒𝑛𝑗𝑎𝑤𝑎𝑏 𝑏𝑒𝑛𝑎𝑟
𝑝= (𝑗𝑢𝑚𝑙𝑎ℎ 𝑠𝑒𝑙𝑢𝑟𝑢ℎ 𝑠𝑖𝑠𝑤𝑎)

𝑞𝑖 = proporsi siswa yang menjawab salah


𝑞 =1−𝑝
Menghitung nilai dari komponen rumus koefisien korelasi biserial
adalah:
8+3+5+6+7+8
𝑀𝑝 = = 6,17
6
8+5+3+5+6+4+7+8
𝑀𝑡 = = 5,75
8

𝑆𝑡 = 1,7139 (menggunakan kalkulator dapat dihitung harga


standar deviasi)
6
𝑝 = 8 = 0,75

𝑞 = 1 − 0,75 = 0,25
6,17−5,75 0,75
𝑟𝑝𝑏𝑖𝑠 = √0,25 = 0,4244
1,7139

Dengan cara yang sama dapat dihitung dan ditetapkan


validitas item yang lainnya. Dari koefisien korelasi yang diperoleh
dapat dibandingkan dengan tabel korelasi, melihat besar n yang
ada.
25

3) Validitas Faktor
Selain validitas soal secara keseluruhan dan validitas butir
atau item, masih ada lagi yang perlu diketahui validitasnya, yaitu
faktor-faktor atau bagian keseluruhan materi. Setiap keseluruhan
materi pelajaran terdiri dari pokok-pokok bahasan atau mungkin
sekelompok pokok bahasan yang merupakan satu kesatuan.
Contoh:
Guru akan mengevaluasi penguasaan siswa untuk tiga
pokok bahasan, yaitu: aljabar, geometri, dan trigonometri. Untuk
keperluan ini guru tersebut membuat 30 butir soal, untuk aljabar 8
butir soal, untuk geometri 12 butir soal, dan untuk trigonometri 10
butir soal.
Apabila guru ingin mengetahui validitas faktor, maka ada
tiga faktor dalam soal ini. Seperti halnya pengertian validitas butir,
pengertian validitas faktor adalah butir-butir soal dalam faktor
dikatakan valid apabila mempunyai dukungan yang besar terhadap
soal-soal secara keseluruhan. Sebagai tanda bahwa butir-butir
faktor tersebut mempunyai dukungan yang besar terhadap seuruh
soal, yakni apabila jumlah skor untuk butir-butir faktor tersebut
menunjukkan adanya kesejajaran dengan skor total. (Pasani &
Danaryanti, 2016)
Sudah dijelaskan bahwa butir-butir soal faktor dikatakan
valid apabila menunjukkan kesejajaran skor dengan skor total. Cara
mengetahui kesejajaran tersebut digunakan juga rumus korelasi
product moment. Misalnya kita akan mengetahui validitas faktor 1,
yakni soal-soal untuk materi aljabar, kita membuat daftar untuk
menyejajarkan kedua skor tersebut sebagai berikut:

Skor
Nama Skor total
faktor 1 X2 Y2 XY
Subjek (Y)
(X)
Amir 6 19 36 361 114
26

Hasan 7 25 49 625 175


Ninda 4 17 16 289 68
Warih 3 12 9 144 36
Irzal 8 29 64 841 232
Gandi 6 23 36 529 138
Santo 5 19 25 361 95
Tini 7 26 49 676 182
Yanti 5 16 25 256 80
Hamid 4 15 16 225 60
Dedi 7 26 49 676 182
Desi 8 30 64 900 240
Wahyu 5 20 25 400 100
Jumah …….. …….. …… ……. …….

Data yang tertera di dalam tabel tersebut digunakan untuk


menentukan besarnya validitas faktor 1, langkah selanjutnya adalah
menjumlahkan setiap kolom, kemudian dimasukkan ke dalam
rumus korelasi product moment. Harga r yang diperoleh
menunjukkan indeks validitas faktor 1. Untuk faktor 2 dan faktor 3
caranya sama, hanya skor faktornya saja yang diganti.
27

B. RELIABILITAS
Arti reliabilitas bagi sebuah teks. Sudah diterangkan dalam
persyaratan tes, bahwa reliabilitas berhubungan dengan masalah kepercayaan.
Suatu tes dapat dikatakan mempunyai taraf kepercayaan yang tinggi jika tes
tersebut dapat memberikan hasil yang tetap. Maka pengertian reliabilitas tes,
berhubungan dengan masalah ketetapan hasil tes. Atau seandainya hasilnya
berubah-ubah, perubahan yang terjadi dapat dikatakan tidak berarti.
Reliabilitas berasal dari kata reability berarti sejauh mana hasil suatu
pengukuran dapat dipercaya. suatu hasil pengukuran hanya dapat dipercaya
apabila dalam beberapa kali telaksanaan pengukuran terhadap kelompok yang
sama diperoleh hasil pengukuran relatip sama selama aspek yang diukur
dalam diri subjek masih belum berubah. Konsep realibilitas dalam arti
reliabilitas alat ukur berkaitan erat dengan masalah error pengukuran yang
menunjukkan sejauh mana inskonsistensi hasil pengukuran terjadi apabila
dilakukan ulang terhadap kelompok subjek yang sama. Sedangkan konsep
reliabilitas dalam arti reliabilitas dalam arti hasil ukur berkaitan dengan error
dalam pengambilan sampel yang mengacu pada inkonsistensi hasil ukur
apabila pengukuran dilakukan ulang dalam kelompok yang berbeda (Pasani
& Danaryanti, 2016).
Konsep tentang reliabilitas ini tidak akan sulit dimengerti apabila
pembaca telah memahami konsep validitas. Turunan bahwa instrumen
evaluasi harus valid menyangkut harapan diperolehnya data yang valid,
sesuai dengan kenyataan. Dalam hal reliabilitas ini tuntunannya tidak jauh
berbeda. Jika validitas terkait dengan ketepatan objek yang tidak lain adalah
tidak menyimpangnya data dan kenyataan, artinya bahwa data tersebut benar,
maka konsep reliabilitas terkait dengan pemotretan berkali-kali. Instrumen
yang baik adalah instrumen yang dapat dengan tetap memberikan data yang
sesuai dengan kenyataan.
Sering ditangkap kurang tepat bagi pembaca adalah adanya pendapat
bahwa “ajeg” atau “tetap” diartikan sebagai “sama”. Dalam pembicaraan
evaluasi ini tidak demikian. Ajeg atau tetap tidak selalu harus sama, tetapi
mengikuti perubahan secara ajeg. Jika keadaan si A mula-mula berada lebih
28

rendah dibandingkan dengan B, maka jika diadakan pengukuran ulang, si A


juga berada lebih rendah dari B, itulah yang dikatakan ajeg atau tetap, yaitu
sama dalam kedudukan siswa di antara anggota kelompok yang lain. Tentu
saja tidak dituntut semuanya tetap. Hasil pengukuran dikatakan memadai
apabila mempunyai reliabilitas yang tinggi jika hasil pengukuran pertama
hampir sama dengan hasil pengukuran kedua, begitu pula sebaliknya hasil
pengukuran yang mepunyai reliabilitas rendah bila hasil pengukuran pertama
jauh berada pada hasil pengukuran kedua. Besarnya ketetapan itulah
menunjukkan tingginya reliabilitas instrumen. (Neuman, 2015)
Sehubungan dengan reliabilitas ini, Scarvia B. Anderson dkk (Pasani
& Danaryanti, 2016) menyatakan bahwa persyaratan bagi tes, yaitu validitas
dan reliabilitas ini penting. Dalam hal ini validitas lebih penting, dan
reliabilitas itu perlu, karena menyokong terbentuknya validitas. Sebuah tes
mungkin reliable tetapi tidak valid. Sebaliknya sebuah tes yang valid biasanya
reliable. A reliable measure in one that provides consistant and stable
indication of the characteristic being investigated.
Untuk dapat memperoleh gambaran yang ajeg memang sulit karena
unsur kewajiban manusia itu sendiri tidak ajeg. Misalnya kemampuan,
kecakapan, sikap dan sebagainya berubah-ubah dari waktu ke waktu.
Beberapa hal yang sedikit banyak mempengaruhi hasil tes banyak sekali.
Namun, secara garis besar dapat dikelompokkan menjadi tiga hal:
1) Hal yang berhubungan dengan tes itu sendiri, yaitu panjang tes dari
kualitas butir-butir soalnya.
Tes yang terdiri dari banyak butir, tentu saja lebih valid
dibandingkan dengan tes yang hanya terdiri dari beberapa butir soal.
Tinggi rendahnya validitas menunjukkan tinggi rendahnya reliabilitas
tes. Dengan demikian maka semakin panjang tes maka reliabilitasnya
semakin tinggi. Dalam menghitung besarnya reliabilitas berhubung
dengan penambahan banyaknya butir soal dalam tes ini ada sebuah
rumus yang diberikan oleh Spearman dan Brown sehingga terkenal
dengan rumus Spearman-Brown.
Rumusnya adalah:
29

𝑛𝑟
rnn = 1+(𝑛−1)𝑟

ket :
rnn = Besarnya koefisien reliabilitas sesudah tes tersebut ditambah
butir soal baru
n = Berapa kali butir-butir soal itu ditambah
r = Besarnya koefisien reliabilitas sebelum butir-butir soalnya
ditambah
Contoh:
Suatu tes terdiri atas 40 butir soal, mempunyai koefisien reliabilitas
0,70. Kemudian butir – butir soal itu ditambah menjadi 60 butir soal.
Maka koefisien reliabilitas baru adalah:
nr 1,5 x 0,70
rnn= 1+(n−1)r = 1+(1,5−1)0,70 = 0,79

Dengan demikian maka penambahan sebanyak 20 butir soal


dari 40 butir, memperbesar koefisien reliabilitas sebesar 0,09. Akan
tetapi penambahan butir – butir soal tes adakalanya tidak berarti bahkan
adakalanya merugikan. (Pasani & Danaryanti, 2016). Hal ini
disebabkan karena:
a. Sampai pada suatu batas tertentu, penambahan banyaknya butir
soal sudah tidak menambah tinggi reliabilitas tes.
b. Penambahan tingginya reliabilitas tes tidak sebanding nilainya
dengan waktu, biaya dan tenaga yang dikeluarkan untuk itu.
Misalnya seorang guru sudah cukup membuat 100 soal bentuk
objektif dan 10 soal bentuk esai sudah cukup mempunyai
validitas isi dan tingkah laku. Guru tersebut ingin menambah
butir-butir soal sehingga menjadi 200 dan 20 dengan
menambahkan soal-soal yang paralel. Tentu saja hal ini hanya
akan menambah waktu, biaya dan tenaga saja tanpa ada
keuntungan apa – apa. Kualitas butir soal ditentukan oleh :
 Jelas tidaknya rumusan soal.
 Baik-tidaknya pengarahan soal kepada jawaban sehingga
tidak menimbulkan salah jawab.
30

 Petunjuknya jelas sehingga mudah dan cepat dikerjakan.


2) Hal yang berhubungan dengan tercoba (testi)
Suatu tes yang dicobakan kepada kelompok yang terdiri dari
banyak siswa akan mencerminkan keragaman hasil yang
menggambarkan besar garis kecilnya reliabilitas tes. Tes yang
dicobakan kepada bukan kelompok terpilih, akan menunjukan relibilitas
yang lebih besar daripada yang dicobakan pada kelompok tertentu yang
diambil secara dipilih.
3) Hal yang berhubungan dengan penyelenggaraan tes
Sudah disebutkan bahwa faktor penyelenggaraan tes yang
bersifat administratif sangat menentukan hasil tes.
Contoh:
a. Petunjuk yang diberikan sebelum tes dimulai akan memberikan
ketenangan kepada para tes-tes dalam mengerjakan tes, dan dalam
penyelenggaraan tidak akan banyak terdapat pertanyaan.
Ketenangan itu tentu saja akan berpengaruh kepada hasi tes.
b. Pengawas yang tertib akan mempengaruhi hasil yang diberikan
oleh siswa terhadap tes. Bagi siswa-siswa tentu adanya
pengawasan yang terlalu ketat meyebabkan rasa jengkel dan tidak
dapat dengan leluasa mengerjakan tes.
c. Suasana lingkungan dan tempat tes (duduk tidak teratur, susunan
disekelilingnya ramai dan sebagainya) akan mempengaruhi hasil
tes.
Adanya hal-hal yang mempengaruhi hasil tes ini semua, secara
tidak langsung akan mempengaruhi reliabilitas soal tes.
1. Cara–cara mencari besarnya reliabilitas
Sekali lagi reliabilitas adalah ketetapan suatu tes apabila
diteskan kepada subjek yang sama. Untuk mengetahui ketetapan
ini pada dasarnya dilihat kesejajaran hasil. Seperti halnya
beberapa teknik juga menggunakan rumus korelasi poduct
moment untuk mengetahui validitas, kesejajaran hasil dalam
reliabilitas tes.
31

Kreteria yang digunakan untuk mengetahui ketetapan


ada yang diluar tes (consistency eternal) dan pada tes itu sendiri
(consistency internal).
1) Metode bentuk paralel (equivalent)
Tes peralel atau tes equivalent adalah 2 buah tes yang
mempunyai kesamaan tujuan, tingkat kesukaran dan susunan,
tetapi butir-butir soalnya berbeda. Dalam istilah bahasa Inggris
disebut alternative-form method (parallel forms).
Dengan bentuk paralel ini 2 buah tes yang parallel
misalnya tes matematika seri A yang akan dicari reliabilitasnya
dan seri B di teskan kepada sekelompok siswa yang sama,
kemudian hasilnya dikorelasikan. Koefisien korelasi dari
kedua hasil tes inilah yang menunjukan koefisien reliabilitas
tes seri A. Jika koefisiennya tinggi maka tes tersebut sudah
dapat dipercaya dan dapat digunakan sebagai alat pengetes
yang terandalkan.
Dalam menggunakan tes metode tes paralel ini
pengetes harus menyiapkan 2 buah tes dan masing-masing
dicobakan pada kelompok siswa yang sama. Oleh karena itu,
ada orang meyebutkan sebagai doubletest-double-trial method.
Penggunaan metode ini baik karena siswa dihadapkan kepada
2 macam tes sehingga tidak ada faktor “masih ingat soalnya”
yang dalam evaluasi disebut adanya practice-effect dan carry
over effect, artinya ada faktor yang dibawa oleh pengikut tes
karena sudah mengerjakan soal tersebut.
Kelemahan dari metode ini adalah bahwa pengetes
pekerjaan berat karena harus menyusun 2 seri tes. Lagi pula
harus tersedia waktu yang lama untuk mencobakan 2 kali tes.
2) Metode tes ulang (test-retest method)
Metode tes ulang dilakukan orang untuk menghindari
penyusunan 2 seri tes. Dalam menggunakan teknik atau
metode ini pengetes hanya memiliki 1 seri tetapi dicobakan 2
32

kali. Oleh karena tesnya hanya 1 dan dicobakan 2 kali, maka


metode ini dapat disebut dengan single-test-double-
trialmethod. Kemudian hasil dari kedua kali tes tersebut
dihitung korelasinya.
Untuk tes yang banyak mengungkap pengetahuan
(ingatan) dan pemahaman, cara ini kurang mengena karena
tercoba akan masih ingat akan butir-butir debu. Oleh karena
itu, tenggang waktu antara pemberian tes pertama dengan
kedua menjadi permasalahan tersendiri. Jika tenggang waktu
terlalu sempit, siswa masih banyak ingat materi. Sebaliknya
kalau tenggang waktu terlalu lama, maka faktor-faktor atau
kondisi tes sudah akan berbeda dan siswa sendiri barangkali
sudah mempelajari sesuatu. Tentu saja faktor-faktor ini akan
berpengaruh pula terhadap reliabilitas.
Pada umumnya hasil tes yang kedua cenderung lebih
baik daripada hasil tes yang pertama. Hal ini tidak mengapa
karena pengetes harus sadar akan adanya practice effect dan
carry over effect. Yang penting adanya kesejahteraan hasil atau
ketetapan hasil yang ditunjukkan oleh koefisien relasi yang
tinggi.
Contoh:

TesPertama Tes Kedua


Siswa
Skor Ranking Skor Ranking
A 15 3 20 3
B 20 1 25 1
C 9 5 15 5
D 18 2 23 2
E 12 4 18 4

Walaupun tampak skornya naik, akan tetapi


kenaikannya di alami oleh semua siswa. Metode ini juga
disebut self-correlation method (korelasi diri sendiri) karena
mengkorelasikan hasil dari tes yang sama.
33

3) Metode belah dua (split half method)


Kelemahan metode dua-tes dua kali percobaan dan
satu tes dua kali percobaan diatasi dengan metode ketiga ini
yaitu metode belah dua. Dalam menggunakan metode ini
pengetes hanya menggunakan sebuah tes dan dicobakan satu
kali. Oleh karena itu, disebut jua single-test-single-trial
method.
Berbeda dengan metode pertama dan kedua setelah
ditemukan korelasi langsung ditafsirkan itulah koefisien
reliabilitas, maka dengan ketiga metode ini tidak dapat
demikian. Pada waktu membelah dua dan mengkorelasikan
dua belahan, baru diketahui reliabilitas separo tes. Untuk
mengetahui reliabilitas seluruh tes harus digunakan Spearman-
Brown sebagai berikut:
Rumus:
2𝑟1⁄21⁄2
r11 = (1+𝑟1⁄21⁄2)

ket:
r1/2 1/2 = korelasi antara skor – skor setiap belahan test
r11 = koefisien reliabiltas yang telah disesuaikan.
Contoh :
Korelasi antar belahan tes = 0,60
2 𝑥 0,60
Maka reliabilitas tes = 1+0,60

Banyak pemakai metode ini salah membelah hasil tes


pada waktu menganalisis, yang mereka lakukan adalah
mengelompokkan hasil separo subjek peserta tes dan separo
yang lain kemudian hasil kedua kelompok ini dikorelasikan.
Benar adalah membelah item atau butir soal. Tidak akan keliru
kiranya bagi pemakai metode ini harus ingat bahwa banyaknya
butir soal harus genap agar dapat dibelah.
Ada dua cara membelah butir soal ini, yaitu:
membelah atas item-item genap dan item-item ganjil yang
34

selanjutnya disebut belahan ganjil genap dan membelah atas


item-item awal dan item-item akhirnya itu separo jumlah pada
nomor-nomor awal dan separo pada nomor-nomor akhir yang
selanjutnya disebut belahan awal-akhir.
Contoh mencari reliabilitas yang menggunakan
metode belah dua (split half method)
Perkembangan metode belah dua dapat diperhatikan tabel
berikut.
1, 2,
3, 4, 1, 2, 6, 7,
Butir soal / item (X) Skor 5, 6, 3, 4, 8, 9,
N
Nama Tota 7, 8, 5 10
o
l (Y) 9 10
1 gj gn awa akhi
1 2 3 4 5 6 7 8 9
0 l p l r
1 Alam 1 0 1 0 1 1 1 1 1 1 8 5 3 3 5
2 Badrul 0 0 1 0 1 0 0 1 1 1 5 3 2 2 3
3 Cecep 1 1 0 0 0 1 0 1 0 1 3 1 4 2 3
Dadan
4 1 1 0 0 1 1 0 0 1 0 5 3 2 3 2
g
5 Elan 1 1 1 1 1 1 0 0 0 0 6 3 3 5 1
6 Farida 0 0 1 0 1 0 1 0 0 0 4 3 0 2 1
7 Gayus 1 1 1 1 1 1 1 0 0 0 7 4 3 5 2
8 Hanafi 1 1 0 1 1 1 1 1 1 1 8 4 5 4 5
Skor total diketahui bila kita hitung jumlah skor butir
soal ganjil maka skor butir soal genap dengan mudah didapat.
Demikian pula dengan diketahuinya skor butir soal awal, maka
skor butir soal akhir akan diperoleh.
Perhitungan selanjutnya untuk mencari koefisien
korelasi metode pembelahan ganjil genap dengan rumus
korelasi produk momen. Digunakan kalkulator scientific untuk
mendapatkan data berikut.
35

ganjil genap
No Nama XY 𝑿𝟐 𝒀𝟐
(X) (Y)

1 Alam 5 3 15 25 9

2 Badrul 3 2 6 9 4
3 Cecep 1 4 4 1 16
4 Dadang 3 2 6 9 4
5 Elan 3 3 9 9 9
6 Farida 3 0 0 9 0
7 Gayus 4 3 12 16 9
8 Hanafi 4 5 20 16 25
Jumlah 26 22 72 94 76
𝑟𝑥𝑦 = 0.5773. Harga tersebut baru menunjukkan reliabilitas
separuh tes. Istilahnya 𝑟1⁄ 1 = 0.5773.
2 ⁄2
2𝑟1⁄ 1 1.1546
2 ⁄2
𝑟11 = = = 0.7320
1 + 𝑟1⁄ 1 1.5773
2 ⁄2

Koefisien realiabilitasnya = 0.7320 (baik)


BAB III
PENUTUP
A. KESIMPULAN
Keberhasilan mengungkapkan hasil dan proses belajar siswa
sebagaimana adanya sangat ber bergantung pada kualitas alat penilaian atau
instrumennya di samping pada cara pelaksanaannya. Suatu alat penilaian
dikatakan mempunyai kualitas yang baik apabila alat tersebut memiliki atau
memenuhi dua hal, yakni validitas dan reliabilitasnya. validitas adalah derajat
yang menunjukkan sejauh mana ketepatan dan kecermatan suatu alat ukur tes
atau non tes dalam melakukan fungsi ukurnya benar-benar mengukur apa
yang hendak diukur. Alat ukur itu hanya valid untuk suatu tujuan, tidak
universal. Sedangkan Reliabilitas berasal dari kata reability berarti sejauh
mana hasil suatu pengukuran dapat dipercaya. suatu hasil pengukuran hanya
dapat dipercaya apabila dalam beberapa kali telaksanaan pengukuran
terhadap kelompok yang sama diperoleh hasil pengukuran relatif sama selama
aspek yang diukur dalam diri subjek masih belum berubah.
B. SARAN
Bagi pembaca hendaknya bisa memahami dan menghayati tentang
validitas dan reliabilitas. Dengan adanya makalah ini semoga bisa menjadi
salah satu refrensi mengenai validitas dan reliabilitas untuk suatu penelitian.
Bagi pembaca juga diharapkan dapat memberikan kritik dan saran
yang membangun demi sempurnanya makalah bagi perbaikan dan
penyempurnaan makalah ini. Semoga makalah ini bisa memberikan sedikit
informasi yang bermanfat.

36
DAFTAR PUSTAKA

Arikunto, S. (2001). Dasar-dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara.

Hamzah, A. (2014). Evaluasi Pembelajaran Matematika. Depok: PT Rajagrafindo


Persada.

Majid, A. (2014). Penilaian Autentik Proses dan Hasil Belajar. Bandung: PT


Remaja Rosdakarya.

Neuman, W. L. (2015). Metodologi Penelitian Sosial: Pendekatan Kualitatif dan


Kuantitatif. Jakarta Barat: PT Indeks Permata Puri Media.

Pasani, C. F., & Danaryanti, A. (2016). Bahan Ajar Penilaian Pembelajaran


Matematika. Banjarmasin: ULM.

To, K. (1996). Mengenal Analisis Tes. Bandung: FIP IKIP Bandung.

37

Anda mungkin juga menyukai