Anda di halaman 1dari 33

UGAS MAKALAH

Mata Kuliah : Evaluasi Pendidikan

Materi :Analisis Kualitas Tes dan Butir Soal

Dosen : Bapak Lambok Simamora, Dr

Disusun Oleh :

Kelompok 7

1. Akbar Susilo (20207270029)


2. Asep Agung (20207270029)
3. Khosyi Syauqi Abqori Luthfi (20207270192)
4. Nuniek Ambarwati (20207270072)
5. Siti Jumriah (20207270001)
6. Zulya Lova Diana (20207270051)

Kelas : S2 MIPA 1 A (Ekstensi A)

PROGRAM STUDI MATEMATIKA DAN ILMU PENGETAHUAN ALAM


FAKULTAS PASCASARJANA
UNIVERSITAS INDRAPRASTA PGRI
JAKARTA
2021
KATA PENGANTAR

Puji dan syukur kami panjatkan kepada Allah SWT yang telah
memberikan rahmat dan hidayah-Nya sehingga kami dapat menyelesaikan tugas
makalah ini. Makalah ini disusun untuk memenuhi tugas kelompok pada mata
kuliah Evaluasi Pendidikan. Makalah yang disusun ini berjudul “ Analisis
Kualitas Tes dan Butir Soal”.
Kami mengucapkan terima kasih kepada Bapak Lambok Simamora, Dr,
selaku dosen yang membimbing mata kuliah Evaluasi Pendidikan, tidak lupa juga
kepada teman-teman dan semua pihak yang telah membantu kami dalam
menyelesaikan makalah ini.
Kami menyadari bahwa  dalam penyusunan makalah ini masih banyak
kekurangan. Untuk itu kami mengharapkan saran dan kritik yang bersifat
membangun demi kesempurnaan makalah ini. Semoga makalah ini dapat
bermanfaat bagi semua pihak. Terima kasih.

Jakarta, November 2021

Penulis

ii
DAFTAR ISI

Halaman judul................................................................................................i

Kata Pengantar...............................................................................................ii

Daftar Isi..........................................................................................................iii

BAB I PENDAHULUAN...........................................................................1

A. Latar Belakang Masalah..........................................................1

B. Rumusan Masalah.....................................................................2

C. Tujuan Pembahasan Masalah..................................................2

D. Batasan Masalah.......................................................................2

BAB II PEMBAHASAN.............................................................................3

A. Pengertian Analisis Butir Soal.................................................3

B. Pengertian,Tujuan,dan Manfaat Analisis butir soal..............3

C. Jenis-Jenis Analisis ...................................................................4

BAB III PENUTUP

A. Kesimpulan................................................................................28

DAFTAR PUSTAKA......................................................................................29

iii
BAB I
PENDAHULUAN

A. Latar Belakang
Salah satu upaya dalam meningkatkan kualitas proses dan hasil belajar sebagai
bagian dari peningkatan kualitas pendidikan dapat dilakukan melalui sistem penilaian.
Dalam penilaian proses dan hasil belajar siswa di sekolah, guru memberikan suatu evaluasi
untuk mengetahui sejauh mana penguasaan materi yang telah dikuasai oleh siswa selama
proses belajar mengajar mengenai materi yang disampaikan.
Dalam melaksanakan kegiatan evaluasi, berhasil atau tidaknya sangat ditentukan oleh
tepat atau tidaknya pelaksanaan ujian. Untuk melaksanakan ujian ini memerlukan alat-alat.
Bagi ujian tertulis maka alatnya adalah butir-butir soal tertulis. Bagi ujian lisan maka alatnya
adalah butir soal tertulis yang disediakan bagi setiap testi, atau sekurang-kurangnya pokok
pertanyaan yang sudah tertulis dan dipersiapkan sebelumnya. Bagi ujian praktek, maka
alatnya adalah lembar pengamatan yang berisi segi-segi yang diamati beserta rentang skor
masing-masing.
Idealnya sebelum suatu tes dipergunakan maka tes tersebut harus memenuhi syarat-
syarat sebagi tes yang baik, maka tes yang bersangkutan perlu diuji cobakan. Namun
sebelum diuji cobakan tes tersebut harus memperlihatkan indokator-indikator sebagai tes
yang baik. Dalam hal ini dilakukan suatu analisis butir soal.
Analisis butir soal adalah pengkajian pertanyaan tes agar diperoleh perangkat
pertanyaan yang memiliki kualitas memadai. Analisis yang dilakukan atas dasar uji coba
dinamakan analisis empiris. Sedangkan analisis berdasarkan karakteristik yang tampak pada
tes tersebut tanpa uji coba dinamakan analisis rasional, karena semata-mata dilakukan atas
dasar pertimbangan rasio.
Ada beberapa analisis butir soal, yakni analisis tingkat kesukaran soal dan analisis daya
pembeda disamping validitas dan reabilitas. Menganalisis tingkat kesukaran soal artinya
mengakaji soal dari segi kesulitannya sehingga dapat diperoleh soal mana yang termasuk
mudah, sedang dan sukar. Sedang menganalisis daya pembeda artinya mengkaji soal tes dari
segi kesanggupan tes tersebut dalam membedakan siswa yang termasuk kategori kuat/tinggi
prestasinya. Sedangkan validitas dan reabilitas mengkaji kesulitan dan keajegan pertanyaan
tes.

1
B. Rumusan Masalah
Apa pengertian dari analisis kualitas tes dan butir soal, jenis-jenis, serta teknik
penyelesaiannya.

C. Tujuan Masalah
Untuk mengetahui tentang anasisis kualias tes dan butir soal, jenis-jenis, serta Teknik
penyelesainnya.

D. Batasan Masalah
Makalah ini hanya membahas tentang anasisis kualias tes dan butir soal, jenis-jenis, serta
Teknik penyelesainnya.

2
BAB II
PEMBAHASAN

A. Pengertian Analisis Butir Soal


Analisis butir soal yang dalam bahasa inggris disebut item analiysis dilakukan
terhadap empirik.Maksudnya, analisis itu baru dapat dilakukan apabila suatu tes telah
dilaksanakan dan hasil jawaban terhadap butir-butir soal telah kita peroleh. nalisis
kualitas tes merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat
kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang menjadi bagian
dari tes tersebut. Tes sebagai alat evaluasi diharapkan menghasilkan nilai yang objektif
dan akurat. Jika tes yang digunakan guru kurang baik, maka hasil yang diperolehpun
tentunya kurang baik.
Hal ini dapat merugikan peserta didik itu sendiri. Artinya, hasil yang diperoleh
peserta didik menjadi tidak objektif dan tidak adil. Oleh sebab itu, tes yang digunakan
guru harus memiliki kualitas yang lebih baik dilihat dari berbagai segi. Tes hendaknya
disusun sesuai dengan prinsip dan prosedur penyusunan tes. Setelah digunakan perlu
diketahui apakah tes tersebutberkualitas baik atau kurang baik. Untuk mengetahui
apakah suatu tes yang digunakan termasuk baik atau kurang baik, maka perlu dilakukan
analisis kualitas tes.

B. Pengertian,Tujuan,dan Manfaat Analisis butir soal.


Analisis butir soal adalah suatu kegiatan analisis untuk menentukan tingkat
kebaikan butir-butir soal yang terdapat dalam suatu tes sehingga informasi yang
dihasilkan dapat kita pergunakan untuk memperbaiki butir soal dan tes tersebut.
Tujuan analisis butir soal yaitu untuk mengadakan identifikasi soal-soal yang
baik,kurang baik dan soal yang buruk. Sehingga dapat petunjuk untuk mendapatkan
perbaikan.
Manfaat yang dapat diberikan apabila dilakukan analisis terhadap butir
soal,sebagai berikut :
- Untuk mengetahui soal yang dianalisis telah berfungsi sebagaimana yang
diharapkan.
- Untuk mengetahui tingkat kesukaran soal.

3
- Untuk mengetahui apakah tanggapan-tanggapan soal yang dianalisis sudah baik
susunannya.
- Untuk mengetahui apakah soal yang dianalisis sudah betul/baik konstruksinya.
- Untuk bahan masukan menyusun program remedial teaching.
- sUntuk meningkatakan keterampilan guru dalam merencanakan dan mengolah hasil
tes.
C. Jenis-Jenis Analisis
Ada dua jenis analisis butir soal yang dapat pendidik laksanakan, yaitu :
1. Analisis secara kualitatif
Prosedur peningkatan secara judgement, terkait dengan isi dan bentuk soal.
Diantaranya
a. Teknik moderator merupakan teknik berdiskusi yang di dalamnya terdapat satu
orang sebagai penengah. Berdasarkan teknik ini, setiap butir soal didiskusikan secara
bersama-sama dengan beberapa ahli dan dimoderatori oleh satu orang.
- Kelebihan : Setiap butir soal dapat dituntaskan secara bersama-sama, perbaikannya
seperti apa.
- Kelemahan : Teknik ini adalah memerlukan waktu lama untuk rnendiskusikan setiap
satu butir soal.
b. Teknik panel merupakan suatu teknik menelaah butir soal yang setiap butir soalnya
ditelaah berdasarkan kaidah penulisan butir soal. Para penelaah dipersilakan
memperbaiki langsung pada teks soal dan memberikan komentarnya serta
memberikan nilai pada setiap butir soalnya yang kriterianya adalah: baik, diperbaiki,
atau diganti.
2. Analisis secara kuantitatif
Prosedur peningkatan secara empirik, terkait dengan ciri-ciri statistiknya.
Penelaahan butir soal didasarkan pada data empirik dari butir soal terkait yang telah
diujikan.berdasarkan beberapa pendekatan analisis kuantitatif diantarnya :
a. Klasik
Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi
dari jawaban peserta didik guna meningkatkan mutu butir soal yang bersangkutan
dengan menggunakan teori tes klasik.
- Kelebihan : mudah , murah, sederhana, familier digunakan guru-guru, dapat
menggunakan data sampel kecil.
- Kelemahan :

4
(1) Tingkat kemampuan dalam teori klasik adalah “true score”. Jika tes sulit artinya
tingkat kemampuan peserta didik mudah. Jika tes mudah artinya tingkat kemampuan
peserta didik tinggi.
(2) Tingkat kesukaran soal didefinisikan sebagai proporsi peserta didik dalam grup yang
menjawab benar soal. Mudah/sulitnya butir soal tergantung pada kemampuan peserta
didik yang dites dan kemampuan tes yang diberikan.
(3) Daya pembeda, reliabilitas, dan validitas soal/tes didefinisikan berdasarkan grup
peserta didik.
b. Modern
Penelaahan butir soal dengan menggunakan Item Response Theory (IRT) atau
teori jawaban butir soal. Teori ini merupakan suatu teori yang menggunakan fungsi
matematika untuk menghubungkan antara peluang menjawab benar suatu soal dengan
kemampuan siswa. IRT merupakan hubungan antara probabilitas jawaban suatu butir
soal yang benar dan kemampuan siswa atau tingkatan/level prestasi siswa.
- Kelebihan :
(1) asumsi banyak soal yang diukur pada trait yang sama, perkiraan tingkat
kemampuan peserta didik adalah independen;
(2) asumsi pada populasi tingkat kesukaran, daya pembeda merupakan independen
sampel yang menggambarkan untuk tujuan kalibrasi soal;
(3) statistik yang digunakan untuk menghitung tingkat kemampuan siswa
diperkirakan dapat terlaksana
- Kelemahan : prosesnya cukup rumit dan sulit
Penghitungan dalam penelaahan butir soal secara kuantitatif dapat menggunakan
bantuan kalkulator scientific atau program komputer.Program yang sudah dikenal
secara umum adalah EXCEL, SPSS (Statitistical Program for Social Science), atau
program khusus seperti ITEMAN (analisis secara klasik), RASCAL, ASCAL,
BILOG (analisis secara item respon teori atau IRT), FACETS (analisis model Rasch
untuk data kualitatif).Dalam analisis butir soal secara kuantitatif ada empat yang
perlu dianalisis pada setiap soal yang telah dikerjakan siswa yaitu:
1) Analisis Tingkat Kesukaran Soal
Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar.
Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi usaha
memecahkan. Sebaliknya soal yang terlalu sukar akan menyebabkan siswa menjadi

5
putus asa dan tidak mempunyai semangat untuk mencoba lagi karena di luar
jangkauannya.
Dalam menentukan kriteria soal, apakah soal tersebut termasuk mudah, sedang,
atau sukar adalah berdasarkan pertimbangan – pertimbangan tertentu. Pertimbangan
tersebut antara lain adalah:
- Aspek yang di ukur dalam pernyataan tersebut.
- Sifat materi yang di ujikan atau ditanyakan.
- Isi bahan yang di tanyakan sesuai dengan bidang keilmuannya, baik
luasnya maupun kedalamannya.
Cara melakukan analisis untuk menentukan tingkat kesukaran soal adalah sebagai
berikut :
a) Menentukan indeks kesukaran (difficulty index), yaitu bilangan yang menunjukan
sukar dan mudahnya sesuatu soal. Dalam dunia evaluasi belajar umumnya
dilambangkan dengan huruf P (proporstion). (0,0) adalah sukar dan (1,0) adalah
mudah.
Rumus mencari indeks kesukaran soal :
P= B/Js x 100 %
Dengan:
P=Indeks kesukaran
B= banyaknya siswa yang menjawab soal itu dengan betul
Js= jumlah seluruh siswa peserta tes
b) Menentukan tingkat kesukaran, adalah ukuran yang menunjukan derajat kesulitan
soal untuk diselesaikan oleh siswa dan mengetahui soal-soal yang termasuk
mudah, sedang dan sukar.
Rumus mencari tingkat kesukaran soal
i).Tk=JB/JJ x 100 %
Dengan: TK= Tingkat kesukaran
JB= Jumlah jawaban yang benar
JJ= Jumlah jawaban keseluruhan
ii).F=(PH+PL)/2
Dengan: F =Tingkat kesukaran
PH = Prosentase pada kelompok tinggi
PL = Prosentase pada kelompok renda
Contoh soal :

6
kita misalkan murid yang mengikuti tes yang kita berikan adalah sebanyak 50
orang .lembar jawababn murid-murid tersebut kita susun dari skor tertinggi
paling atas sampai dengan skor terendah paling bawah.
Kita ambil 27% dari mereka yang mendapatkan skor tertinggi.Dalam hal ini 27%
X 50 orang sama dengan 13,5 orang kita bulatkan menjadi 14 orang.begitu pula
kita ambil 27% dari mereka yang mendapatkan skor terendah.jumlahnya tentu
sama dengan kelompok atas ,yaitu 14 orang juga.
Misalkan data yang diperoleh adalah sebagi berikut :
Untuk item no.1,dari kelompok bawah salah 9 orang dan dari kelompok atas
salah 2 orang.
Untuk item no.2,dari kelompok bawah salah 8 orang dan dari kelompok atas
salah 85orang.
Untuk item no.3,dari kelompok bawah salah 14 orang dan dari kelompok atas
salah 8 orang.
Untuk item no.4,dari kelompok bawah salah 6 orang dan dari kelompok atas
tidak ada yang salah.
Untuk item no.5,dari kelompok bawah salah 13 orang dan dari kelompok atas
salah 11 orang.
Untuk item no.6,dari kelompok bawah salah 2 orang dan dari kelompok atas
salah 3 orang.
Berdasarkan data tersebut ,maka dapat dibuat tabel sebagai berikut :
No.item PL PH PL +PH PL-PH
1 9 2 11 7
2 8 5 13 3
3 14 8 23 6
46066
5 13 11 24 2
6 2 3 5 -1
DST
Dari tabel tersebut,maka tingkat kesukaran untuk masing-masing item dapat
dicari sebagi berikut :
Untuk item no.1.
Tk=JB/JJ x 100 %
= 11 x 100%= 39%

7
28
Untuk item no.2
Tk=JB/JJ x 100 %
=13 x 100 % = 46%
28
Untuk item no.3
Tk=JB/JJ x 100 %
=23 x 100 % = 82%
28
Untuk item no.4
Tk=JB/JJ x 100 %
= 6 x 100 % = 21%
28
Untuk item no.5
Tk=JB/JJ x 100 %
= 24 x 100 % = 86%
28
Untuk item no.6
Tk=JB/JJ x 100 %
= 5 x 100 % = 18%
28
Derajat kesukaran yang baik adalah derajat kesukaran yang bergerak 25%
sampai 75%.item yang mempunyai derajat kesukaran dibawah 25% berarti
bahwa itemtersebut terlalu mudah .sebaliknya item yang mempunyai derajat
kesukaran 75% ,berarti bahwa item tersebut terlalu sukar.

Kriteria indeks kesukaran soal adalah sebagai berikut.


Kriteria yang digunakan adalah makin kecil indeks yang diperoleh, makin sulit
soal tersebut. Sebaliknya, makin besar indeks yang diperoleh makin mudah soal
tersebut.
0,00-0,30 Soal sukar
0,31-0,70 Soal sedang
0,71-0,90 Soal mudah

8
2) Analisis Daya Pembeda
Daya pembeda adalah mengkaji soal-soal tes dari segi kesanggupan tes tersebut
dalam membedakan siswa yang termasuk ke dalam kategori rendah dan kategori
tinggi prestasinya. Tujuan daya pembeda yaitu untuk mengetahui kesanggupan soal
dalam membedakan siswa yang tergolong mampu (tinggi prestasinya) dengan siswa
yang tergolong kurang atau lemah prestasinya.
Cara melakukan analisis daya pembeda adalah sebagai berikut:
a) Daya pembeda soal ditunjukan indeks diskriminasi (D) yang dihitung dengan
menggunakan rumus: D=PH-PL
Dengan: D = Daya Pembeda
PH= Prosentase pada kelompok tinggi
PL = Prosentase pada kelompok rendah
b). Cara lain menghitung daya pembeda
DP=(PL-pH)/n
Dengan :
DP = Indeks DP atau daya pembeda yang di cari
PH = Prosentase pada kelompok tinggi
PL = Prosentase pada kelompok renda
n=jumlah kelompok atas atau kelompok bawah
Mengambil dari tabel dari soal tingkat kesukaran tadi bisa dilihat juga daya pembeda
No.item PL PH PL +PH PL-PH
1 9 2 11 7
2 8 5 13 3
3 14 8 23 6
46066
5 13 11 24 2
6 2 3 5 -1
DST
Untuk item no.1
DP=(PL-pH)/n
Dp = 9-2 = 0,50
14
Untuk item no.2
DP=(PL-pH)/n

9
Dp = 8-5 = 0,21
14
Untuk item no.3
DP=(PL-pH)/n
Dp = 14-8 = 0,43
14
Untuk item no.4
DP=(PL-pH)/n
Dp = 6-0 = 0,43
14
Untuk item no.5
DP=(PL-pH)/n
Dp = 13-11 = 0,14
14
Untuk item no.6
DP=(PL-pH)/n
Dp = 2-3 = -0,07
14
b) Klasifikasi daya pembeda adalah sebagai berikut:
0,00-0,20 Buruk
0,21-0,40 Cukup
0,41-0,70 Baik
0,71-1,00 Baik sekali
3) Analisis Validitas
Sebelum Anda menggunakan suatu tes, Anda hendaknya mengukur terlebih
dahulu derajat validitasnya berdasarkan kriteria tertentu. Dengan kata lain, untuk
melihat apakah tes tersebut valid (sahih), Anda harus membandingkan skor peserta
didik yang didapat dalam tes dengan skor yang dianggap sebagai nilai baku. Misalnya,
nilai ujian akhir semester peserta didik dalam salah satu mata pelajaran dibandingkan
dengan nilai ujian akhir semester pada mata pelajaran yang lain. Semakin mendekati
kedua skor tersebut, maka semakin soal ujian akhir tadi dapat dikatakan valid.
Validitas suatu tes erat kaitannya dengan tujuan penggunaan tes tersebut. Namun
demikian, tidak ada validitas yang berlaku secara umum. Artinya, jika suatu tes dapat
memberikan informasi yang sesuai dan dapat digunakan untuk mencapai tujuan

10
tertentu, maka tes itu valid untuk tujuan tersebut. Ada dua unsur penting dalam
validitas ini. Pertama, validitas menunjukkan suatu derajat, ada yang sempurna, ada
yang sedang, dan ada pula yang rendah. Kedua, validitas selalu dihubungkan dengan
suatu putusan atau tujuan yang spesifik. Sebagaimana pendapal R.L. Thorndike dan
H.P. Hagen (1977: 56) bahwa “validity is always in relation to a specific decision or
use”. Sementara itu, Gronlund (1985 : 79-81) mengemukan ada tiga faktor yang
mempengaruhi validitas hasil tes, yaitu “faktor instrumen evaluasi, faktor administrasi
evaluasi dan penskoran, dan faktor dari jawaban peserta didik”.
a) Faktor instrumen evaluasi
Mengembangkan instrumen evaluasi memang tidaklah mudah, apalagi jika
seorang evaluator tidak atau kurang memahami prosedur dan teknik evaluasi itu
sendiri. Jika instrumen evaluasi kurang baik, maka dapat berakibat hasil evaluasi
menjadi kurang baik. Untuk itu, dalam mengembangkan instrument evaluasi,
seorang evaluator harusmemperhatikanhal-hal yangmempengaruhi validitas
instrumen dan berkaitan dengan prosedur penyusunan instrumen, seperti silabus,
kisi-kisi soal, petunjuk mengerjakan soal dan pengisian lembar jawaban, kunci
jawaban, penggunaan kalimat efektif, bentuk alternative jawaban, tingkat
kesukaran, daya pembeda, dan sebagainya.
b) Faktor administrasi evaluasi dan penskoran
Dalam administrasi evaluasi dan penskoran, banyak sekali terjadi penyimpangan
atau kekeliruan, seperti : alokasi waktu untuk pengerjaan soal yang tidak
proporsional, memberikan bantuan kepada peserta didik dengan berbagai cara,
peserta didik saling menyontek ketika ujian, kesalahan penskoran, termasuk
kondisi fisik dan psikis peserta didik yang kurang menguntungkan.
c) Faktor jawaban dari peserta didik
Dalam praktiknya, faktor jawaban peserta didik justru lebih banyak berpengaruh
daripada dua faktor sebelumnya. Faktor ini meliputi kecenderungan peserta didik
untuk menjawab secara cepat tetapi tidak tepat, keinginan melakukan coba-coba,
dan penggunaan gaya bahasa tertentu dalam menjawab soal bentuk uraian.
Selanjutnya, Kerlinger (1986) mengemukakan “validitas instrumen tidak cukup
ditentukan oleh derajat ketepatan instrumen untuk mengukur apa yang seharusnya
diukur, tetapi perlu juga dilihat dari tiga kriteria yang lain, yaitu appropriatness,
meaningfullness, dan usefullness”. Appropriatness menunjukkan kelayakan dari tes
sebagai suatu instrumen, yaitu seberapa jauh instrument dapat menjangkau

11
keragaman aspek perilaku peserta didik. Meaningfullness menunjukkan kemampuan
instrumen dalam memberikan keseimbangan soalsoal pengukurannya berdasar
tingkat kepentingan dari setiap fenomena. Usefullness to inferences menunjukkan
sensitif tidaknya instrumen dalam menangkap fenomena perilaku dan tingkat
ketelitian yang ditunjukkan dalam membuat kesimpulan. Dalam literatur modern
tentang evaluasi, banyak dikemukakan tentang jenisjenis validitas, antara lain :
validitas permukaan (face validity), validitas isi (content validity), validitas empiris
(empirical validity), dan validitas konstruk(construct validity), dan validitas faktor
(factorial validity).
a) Validitas permukaan
Validitas ini menggunakan kriteria yang sangat sederhana, karena hanya melihat
dari sisi muka atau tampang dari instrumen itu sendiri. Artinya, jika suatu tes
secara sepintas telah dianggap baik untuk mengungkap fenomena yang akan
diukur, maka tes tersebut sudah dapat dikatakan memenuhi syarat validitas
permukaan, sehingga tidak perlu lagi adanya judgement yang
Mendalam
b) Validitas isi
Validitas isi sering digunakan dalam pengukuran hasil belajar. Tujuan utamanya
adalah untuk mengetahui hinggamana peserta didik menguasai rnateri pelajaran
yang telah disampaikan, dan perubahan-perubahan psikologis apa yang timbul
pada diri peserta didik tersebut setelah mengalami proses pembelajaran tertentu.
Jika dilihat dari segi kegunaannya dalam penilaian hasil belajar, validitas isi ini
sering disebut juga validitas kurikuler dan validitas perumusan. Validitas kurikuler
berkenaan dengan pertanyaan apakah materi tes relevan dengan kurikulum yang
sudah ditentukan. Pertanyaan ini timbul karena sering terjadi materi tes tidak
mencakup keseluruhan aspek-aspek Analisis Kualitas Tes dan Butir Soal yang
akan diukur, baik aspek kognitif, afektif, maupun psikomotorik, tetapi hanya
pengetahuan yang bersifat fakta-fakta pelajaran tertentu. Diharapkan dengan
validitas kurikuler ini timbul ketelitian yang jelas dan totalitas dengan menjelajahi
semua aspek yang tercakup dalam kisikisi dan Rencana Pelaksanaan Pembelajara
(RPP) yang bersangkutan. Validitas kurikuler ini dapat dilakukan dengan beberapa
cara, antara lain mencocokkan materi tes dengan silabus dan kisi-kisi, melakukan
diskusi dengan sesama pendidik, atau mencermati kembali substansi dari konsep
yang akan diukur. Validitas perumusan berkenaan dengan pertanyaan apakah

12
aspek-aspek dalam soal-soal itu betul-betul tercakup dalam perumusan tentang apa
yang hendak diukur. Di samping itu, validitas isi dapat juga disebut validitas
rasional atau validitas logis. Sebagaimana dikemukakan oleh R.L. Thorndike dan
H.P. Hagen (1977: 58) bahwa “scientific analysis is essentially a rational and
judgmental one, this is sometimes spoken of as rational or logical validity”.
Pernyataan ini memang ada benarnya, karena pengujian validitas harus dilakukan
secara rasional dan logis, sehingga suatu tes hasil belajar dapat memiliki validitas
yang sempurna.
c) Validitas Empiris
Validitas ini biasanya menggunakan teknik statistik, yaitu analisis korelasi. Hal ini
disebabkan validitas empiris mencari hubungan antara skor tes dengan suatu
kriteria tertentu yang merupakan suatu tolok ukur di luar tes yang bersangkutan.
Namun, kriteria itu harus relevan dengan apa yang akan diukur. Validitas empiris
disebut juga validitas yang dihubungkan dengan kriteria (criterion-related validity)
atau validitas statistik (statistical validity). Ada tiga macam validitas empiris, yaitu:
1. Validitas prediktif (predictive validity)
2. Validitas kongkuren (concurrent validity)
3. Validitas sejenis (congruent validity)
Validitas prediktif ialah jika kriteria standar yang digunakan adalah un- tuk
meramalkan prestasi belajar murid di masa yang akan datang. Dengan kata lain,
validitas prediktif bermaksud melihat hinggamana suatu tes dapat memprakirakan
perilaku peserta didik pada masa yang akan datang. Sedangkan validitas konkuren
ialah jika kriteria standarnya berlainan. Misalnya, skor tes dalam matapelajaran Al-
Qur’an-Hadits dikorelasikan dengan skor tes Bahasa Arab. Sebaliknya, jika kriteria
standarnya sejenis, maka validitas tersebut disebut validitas sejenis. Misalnya,
Bahasa Arab dengan Bahasa Arab. Dalam mengukur validitas suatu tes hendaknya
yang menjadi kriteria sudah betul-betul valid, sehingga dapat diandalkan
keampuhannya dan Analisis Kualitas Tes dan Butir Soal dapat dianggap sebagai
tes standar. Sebaliknya, bila kriterianya tidak valid, maka tes-tes lain yang akan
divalidasi menjadi kurang atau tidak meyakinkan. Suatu tes akan mempunyai
koefisien validitas yang tinggi jika tes itu betul-betul dapat mengukur apa yang
hendak diukur dari peserta didik tertentu. Ada beberapa hal yang harus
diperhatikan dalam menginterpretasikan koefisien validitas, antara lain data
mengenai karakteritik sampel validitas, prosedur-prosedur dalam pengukuran

13
validitas, dan pola kriteria khusus yang dikorelasikan dengan hasil tes itu.
Sehubungan dengan kriteria khusus, Anastasi dalam Conny Semiawan Stamboel
(1986 : 50), mengemukakan ada delapan kriteria sebagai bahan bandingan untuk
merumuskan apa yang hendak diselidiki oleh suatu tes, yaitu “diferensiasi umur,
kemajuan akademis, kriteria dalam pelaksanaan latihan khusus, kriteria dalam
pelaksanaan kerja, penilaian, kelompok yang dipertentangkan, korelasi dengan tes
lain, dan konsistensi internal”.
1. Diferensiasi umur
Kriteria yang paling utama dalam validitas tes intelegensi adalah umur.
Kebanyakan tes intelegensi, baik yang dipakai di madrasah maupun tes pra-
madrasah, senantiasa dibandingkan dengan umur kronologis untuk menentukan
apakah angka bertambah dengan bertambahnya umur. Jika suatu tes dianggap
valid, maka nilai tes bagi peserta didik akan naik dengan bertambahnya umur.
Namun, anggapan ini tidak berlaku bagi perkembangan semua fungsi dalam
hubungannya dengan bertambahnya umur secara konsisten (ini terbukti dari
beberapa tes kepribadian). Suatu hal yang juga perlu dicermati adalah corak
kondisi lingkungan tempat tes itu dibakukan. Kriteria peningkatan umur tidak
bersifat universal tetapi tidak dapat juga dikatakan bahwa ini berlaku bagi
corak masing-masing kebudayaan.
2. Kemajuan akademis
Pada umumnya tes intelegensi divalidkan dengan kemajuan akademis. Juga
sering dikatakan bahwa makin lama seseorang belajar di madrasah, makin
tinggi pendidikannya, makin tinggi pula kemajuan akademisnya. Padahal,
setiap jenis dan jenjang pendidikan itu bersifat selektif. Bagi peserta didik yang
tak sanggup meneruskan, biasanya termasuk dropout. Namun demikian, banyak
pula faktor non-intelektual yang ikut mempengaruhi keberhasilan pendidikan
seorang peserta didik. Dengan kata lain, berhasil tidaknya pendidikan
seseorang tidak hanya dilihat dari faktor intelektual tetapi juga faktor non-
intelektual. Untuk memperoleh gambaran yang komprehensif dan holistik
tentang hal ini perlu diadakan penyelidikan yang lebih jauh.
3. Kriteria dalam pelaksanaan latihan khusus
Corak kriteria dalam pengembangan tes bakat khusus didasarkan atas prestasi
dalam latihan tertentu secara khusus. Beberapa tes bakat profesi (profesional
aptitude test) telah divalidkan dengan tes hasil belajar dalambidang-bidang

14
tersebut. Misalnya, tes untuk memasuki profesi kedokteran, hukum, dan
sebagainya. Ada beberapa tes untuk memasuki profesi tertentu yang disebut
tailor-made test, yaitu tes yang telah dibuat khusus untuk keperluan tersebut,
seperti tes penerbangan.
4. Kriteria dalam pelaksanaan kerja
Dalam validitas tes kepribadian dan validitas tes bakat khusus banyak
digunakan kriteria yang didasarkan atas kinerja dalam pelaksanaan kerja (on
the job performance). Mengingat masing-masing pekerjaan memiliki kekhasan
sendiri dan berbeda-beda tingkat, bentuk, maupun coraknya, maka untuk
masing-masing pekerjaan diciptakan tes yang terkenal dengan istilah tailor-
made test.
5. Penilaian
Pengertian penilaian disini adalah teknik untuk memperoleh informasi tentang
kemajuan belajar peserta didik di madrasah. Selain itu, juga mencakup
pekerjaan yang memerlukan latihan khusus ataupun sukses dalam penilaian
pribadi oleh seorang pengamat terhadap berbagai fungsi psikologis. Misalnya,
kondisi-kondisi, orijinalitas, kepemimpinan, atau kejujuran. Jika kondisi-
kondisi pengenalan dalam situasi tempat kemampuan yang khusus itu
dinyatakan, maka perlu disertai skala penilaian yang dipersiapkan secara teliti.
6. Kelompok yang dipertentangkan
Konsep validitas melalui kelompok yang dipertentangkan menyelidiki
pengaruh kehidupan sehari-hari yang tak disengaja. Kriteria ini didasarkan atas
kelebihan suatu kelompok tertentu dihadapkan kepada kelompok yang lain
dalam mejalankan suatu tes tertentu. Misalnya, suatu tes bakat musik
dicobakan dalam suatu sekolah musik maupun dalam suatu madrasah. Kriteria
itu didasarkan atas faktor yang menyolok, yang diperoleh dari hasil nilai kedua
kelompok tersebut dalam menjalankan tes itu.
7. Korelasi dengan tes lain
Korelasi antara tes baru dengan tes lama merupakan perbandingan kriteria
dalam menyelidiki perilaku yang sama. Dalam hal ini suatu tes verbal tertulis
bisa dibandingkan dengan tes individual atau tes kelompok. Untuk mengukur
apakah suatu tes yang baru memiliki validitas dan Analisis Kualitas Tes dan
Butir Soal bebas dari pengaruh faktor lain, maka dipergunakan tes jenis lain

15
dalam membandingkannya. Jadi, kadang-kadang tes kepribadian dikorelasikan
dengan tes internal atau tes hasil belajar.
8. Konsistensi internal
Kriteria konsistensi internal adalah skor total yang diperoleh peserta didik
dalam suatu tes. Kriteria ini terutama digunakan dalam bidang tes kepribadian.
Kadang-kadang untuk keperluan ini juga digunakan percobaan tes dengan dua
kelompok, yaitu antarakelompok berhasil dankelompok kurang berhasil. Skor
setiap soal tes dari kelompok yang berhasil dibandingkan dengan skor setiap
soal tes dari kelompok yang kurang berhasil. Soalsoal yang gagal menunjukkan
perbedaan antara kelompok yang berhasil dengan kelompok yang kurang
berhasil harus diperbaiki, atau dibuang. Kriteria konsistensi internal ini
menghasilkan indeks homoginitas soal, tetapi tidak dapat dianggap sepenuhnya
sebagai pengganti validitas.
Untuk menguji validitas empiris dapat dihitung dengan korelasi productmoment,
korelasi perbedaan peringkat, dan diagram pencar.
1. Korelasi product-moment dengan angka simpangan
a. Korelasi product-moment dengan angka simpangan

xy
Rumus rxy =
 x 2

Keterangan : r  korelasi


= koefisien y  2

 x y = jumlah produk x dan y


Contoh :
10 orang peserta didik kelas 11 Madrasah Aliyah mendapat nilai dalam mata
pelajaran Bahasa Arab dan Bahasa Inggris seperti berikut :
Tabel 8.1
Nilai 10 Orang Peserta Didik Kelas 11 MA Dalam Mata Pelajaran Bahasa Arab
dan Bahasa Inggris
No Nama B. Arab B.Inggri
. s
1. A. 5 6
2. B. 7 8
3. C. 8 7
4. D. 5 5
5. E. 6 7
16
6. F. 7 7
7. G. 4 5
8. H. 5 7
9. I. 8 8
10. J. 6 6

Langkah-langkah penyelesaian :
1. Buat tabel persiapan seperti berikut :

No. X Y x y x y xy
2 2

2. Masukkan nilai masing-masing mata pelajaran, dimana nilai Bahasa Arab


sebagai variabel X dan nilai Bahasa Inggris sebagai variabel Y.
3. Jumlahkan semua nilai yang ada dalam variabel X dan variabel Y, kemudian
hitung rata-rata X dan rata-rata Y.
4. Cari nilai pada kolom x dengan jalan nilai tiap-tiap peserta didik dalam kolom
X dikurangi dengan rata-rata X.
5. Cari nilai pada kolom y dengan jalan nilai tiap-tiap pesert didik dalam kolom Y
dikurangi dengan rata-rata Y.
6. Cari nilai pada kolom x2 dengan jalan menguadratkan masing-masing nilai
dalam kolom x.
7. Cari nilai pada kolom y2 dengan jalan menguadratkan masing-masing nilai
dalam kolom y.
8. Cari nilai pada kolom xy dengan jalan mengalikan tiap-tiap nilai dalam kolom
x dengan nilai-nilai dalam kolom y.
Berdasarkan langkah-langkah di atas dapat dihitung koefisien korelasi sebagai
berikut :
Tabel 8.2
Perhitungan Korelasi Product-Moment dengan Angka Simpangan
Nilai Nilai
No. B.Ara B.Inggri X Y 2 xy
x y2
b s
(X) (Y)
1 5 6 -1,1 - 0,6 1,21 0,36 0,66
2 7 8 0,9 1,4 0,81 1,96 1,26
3 8 7 1,9 0,4 3,61 0,16 0,76
17
Nilai Nilai
No. B.Ara B.Inggri X Y 2 xy
x y2
b s
(X) (Y)
4 5 5 - 1,1 - 1,6 1,21 2,56 1,76
5 6 7 - 0,1 0,4 0,01 0,16 -0,04
6 7 7 0,9 0,4 0,81 0,16 0,36
7 4 5 - 2,1 - 1,6 4,41 2,56 3,36
8 5 7 - 1,1 0,4 1,21 0,16 -0,44
9 8 8 1.9 1,4 3,61 1,96 2,66
10 6 6 - 0,1 - 0,6 0,01 0,36 0,06
 61 66 16,9 10,4 10,4

Χ 6,1 6,6

Rumus lain korelasi product-moment, yaitu :

Di samping itu, Anda juga dapat menggunakan rumus korelasi productmoment


dengan angka kasar sebagai berikut :

Contoh : data diambil dari data tabel 8.1

18
Tabel 8.3
Teknik Korelasi Product-Moment dengan Angka Kasar
No X Y XY
X2 Y2
01 5 6 25 36 30
02 7 8 49 64 56
03 8 7 64 49 56
04 5 5 25 25 25
05 6 7 36 49 42
06 7 7 49 49 49
07 4 5 16 25 20
08 5 7 25 49 35
09 8 8 64 64 64
10 6 6 36 36 36
∑ 61 66 389 446 413

b. Korelasi perbedaan peringkat (rank differences correlation)

Keterangan :
r = koefisien korelasi 1 dan 6 = bilangan tetap
D = perbedaan antara dua peringkat (rank)
n = jumlah sampel
Contoh : data diambil dari tabel 8.1 Langkah-langkah penyelesaiannya :
1) Cari peringkat dari tiap-tiap mata pelajaran dengan jalan mengurutkan nilai-nilai
dari yang terbesar sampai yang terkecil.
2) Jika terdapat nilai yang sama, misalnya ada dua nilai yang sama, maka kita
jumlahkan nilai peringkat pertama dengan nilai peringkat kedua, kemudian
19
dibagi dua. Dengan demikian, kedua orang tersebut memperoleh peringkat yang
sama. Semakin besar nilai yang diperoleh, semakin tinggi kedudukan peringkat
dalam kelompoknya.
3) Cari perbedaan peringkat dengan jalan mengurangkan peringkat mata pelajaran
Bahasa Arab dengan peringkat mata pelajaran Bahasa Inggris.
4) Perbedaan peringkat yang diperoleh kemudian dikuadratkan.
Berdasarkan langkah-langkah di atas, maka akan diperoleh perhitungan sebagai
berikut :

Tabel 8.4
Perhitungan Korelasi Perbedaan Peringkat

No X Y R Ry D D
. x 2
1 5 8 8 7,5 0,5 0,25
2 7 8 3,5 1,5 2 4
3 8 7 1,5 4,5 -3 9
4 5 5 8 9,5 -1,5 2,25
5 6 7 5,5 4,5 1 1
6 7 7 3,5 4,5 -1 1
7 4 5 10 9,5 0,5 0,25
8 5 7 8 4,5 3,5 12,25
9 8 8 1,5 1,5 0 0
10 6 6 5,5 7,5 -2 4
34

c. Teknik diagram pencar (scatter diagram) Korelasi ini dapat digunakan apabila
data kedua variabel berbentuk nominal

MATEMATIKA

20
40 - 49 50 - 59 60 - 69 70 - 79 80 - 89 90 - 99 Jlh
90 – 99 2 4 4 10
80 – 89 1 4 6 5 16
70 – 79 5 10 8 1 24
60 – 69 1 4 9 5 2 21
50 – 59 3 6 6 2 17
40 – 49 3 5 4 12
Jumlah 7 15 25 23 20 10 100

MATEMATIKA

x 2
FxU
X 44,5 54,5 64,5 74,5 84,5 94,5

fUxUy
fxUx
U
Y x -2 -1 0 1 2 3

fx
U
y
94,5 2 2 4 4 10 20 40 44
84,5 1 1 4 6 5 16 16 16 31
74,5 0 5 10 8 1 0 0 0
64,5 -1 1 4 9 5 2 21 -21 21 -3
54,5 -2 3 6 6 2 17 - 34 68 20
44,5 -3 3 5 4 12 -36 108 33
F 7 15 25 23 20 10 100 -55 253 125
x
FxUx -14 -15 0 23 40 30 64
fxUx2 28 15 0 23 80 90 236

FuxUy 32 31 0 -1 24 39 125

= 0,77
Dalam statistika, koefisien korelasi dinotasikan dengan “r”. Besarnya koefisien
korelasi tidak akan lebih kecil atau sama dengan -1.00 atau tidak akan lebih besar
atau sama dengan + 1.00. Hal ini dapat dinyatakan dengan :

-1.00  r  + 1.00
r = + 1.00, artinya korelasi sempurna positif r = - 1.00, artinya korelasi sempurna
negatif
Untuk menafsirkan koefisien korelasi dapat menggunakan kriteria sebagai berikut

21
0,81 – 1,00 = sangat tinggi
0,61 – 0,80 = tinggi
0,41 – 0,60 = cukup
0,21 – 0,40 = rendah
0,00 – 0,20 = sangat rendah
d) Validitas konstruk
Konstruk adalah konsep yang dapat diobservasi (observable) dan dapat diukur
(measurable). Validitas konstruk sering juga disebut validitas logis (logical
validity). Validitas konstruk berkenaan dengan pertanyaan hinggamana suatu tes
betul-betul dapat mengobservasi dan mengukur fungsi psikologis yang merupakan
deskripsi perilaku peserta didik yang akan diukur oleh tes tersebut. Validitas
konstruk banyak dikenal dan digunakan dalam tes- tes psikologis untuk mengukur
gejala perilaku yang abstrak, seperti kesetiakawanan, kematangan emosi, sikap,
motivasi, minat, dan sebagainya.
Untuk menguji validitas konstruk dapat dilakukan dengan berbagai sumber,
antara lain validitas isi, validitas prediktif, dan validitas konkuren. N.E. Gronlund
(1985) mengemukakan “It is a matter of accumulating evidence from many
different sources. We may use content validity, predictive validity, and concurrent
validity as partial evidence to support construct validity, but none of them alone is
sufficient”. Analisis statistika yang digunakan dalam validitas konstruk antara lain
dengan analisis faktor (factor analysis), sehingga dapat diketahui :
a. Aspek-aspek apa saja yang diukur oleh setiap butir soal.
b. Berapa besar suatu butir soal berisi faktor-faktor tertentu.
c. Faktor-faktor apa yang diukur oleh suatu butirsoal. Produk analisis faktor ini
dapat menganalisis dan mempertimbangkan apakah suatu tes betul-betul dapat
mengukur fungsi psikologis yang me- rupakan deskripsi perilaku peserta didik
yang hendak diukur oleh tes yang bersangkutan.
e) Validitas faktor
Dalam evaluasi atau penilaian sering digunakan skala pengukuran tentang
suatu variabel yang terdiri atas beberapa faktor. Faktor-faktor tersebut diperoleh
berdasarkan dimensi/indikator dari variabel yang diukur sesuai dengan apa
yang terungkap dalam konstruksi teoritisnya. Meskipun variabel terdiri atas
beberapa faktor, tetapi prinsip homoginitas untuk keseluruhan faktor harus tetap
dipertahankan, sehingga tidak terjadi tumpang tindih antara satu faktor dengan

22
faktor yang lain. Dengan demikian, kriterium yang digunakan dalam validitas
faktor ini dapat diketahui dengan menghitung homoginitas skor setiap faktor
dengan total skor, dan antara skor dari faktor yang satu dengan skor dari faktor
yang lain.
4) Analisis Reabilitas
1. Arti Reliabilitas Bagi Sebuah Tes
Reliabilitas berhubungan dengan kepercayaan yang juga sangat erat
hubungannya dengan ketetapan hasil tes. Konsep ini tidak akan sulit dimengerti
apabila telah memahami konsep validitas. Jika validitas terkait dengan ketepatan
objek, maka konsep reliabilitas terkait dengan data-data yang telah berkali-kali
diambil. Instrumen yang baik adalah instrumen yang dapat dengan ajeg(tetap)
memberikan data yang sesuai dengan kenyataan. Dalam pembicaraan evaluasi
ini, “ajeg” atau “tetap” tidak harus selalu “sama”. Tetapi mengikuti perubahan
secara ajeg. Sehubungan dengan reliabilitas ini, Scarvia B. Anderson dkk,
menyatakan bahwa validitas dan reliabilitas ini penting untuk persyaratan bagi
tes. Sebuah tes mungkin reliabel, tetapi tidak valid. Namun sebaliknya, sebuah
tes yang valid biasanya reliabel. Dalam hal ini validitas lebih penting dan
reliabilitas ini perlu karna menyokong terbentuknya validitas. Beberapa hal yang
mempengaruhi hasil tes secara garis besar dapat dikelompokkan menjadi 3:
a. Hal yang berhubungan dengan tes itu sendiri, yaitu panjang tes dan kualitas
butir-butir soalnya. Tes yang terdiri dari banyak butir tentu saja lebih valid
dibandingkan dengan tes yang hanya terdiri dari beberapa butir soal. Maka
semakin panjang tes, reliabilitasnya semakin tinggi.Berikut rumus Spearman-
Brown yang digunakan untuk menghitung besarnya reliabilitas berhubungan
dengan penambahan banyaknya butir
soal dalam tes:

dimana:
rnn = besarnya koefisien reliabilitas sesudah tes tersebut ditambah
butir soal baru. n = berapa kali butir-butir soal tersebut ditambah.
r = besarnya koefisien reliabilitas sebelum butir-butir soal ditambah.

23
Kualitas butir-butir soal ditentukan oleh:
- Jelas tidaknya rumusan soal.
- Baik tidaknya pengarahan soal kepada jawaban sehingga tidak
menimbulkan salah jawab.
- Petunjuknya jelas sehingga mudah dan cepat dikerjakan
b. Hal yang berhubungan dengan tercoba(testee)Suatu tes yang dicobakan
kepada kelompok yang terdiri dari banyak siswa akan mencerminkan
keragaman hasil yang menggambarkan besar kecilnya reliabilitas tes
c. Hal yang berhubungan dengan penyelenggaraan tes Faktoe penyelenggaraan
tes yang bersifat administratif sangat menentukan hasil tes. Misalnya
petunjuk yang diberikan sebelum tes dimulai, sehingga tidak menimbulkan
banyak pertanyaan dari yang dicoba.
2. Cara-cara mencari besarnya Reliabilitas
Ada dua hal yang digunakan untuk mengetahui ketetapan , yaitu yang berada di
luar tes (consistency external) dan pada tes itu sendiri (consistency internal).
a. Metode bentuk paralel (equivalent)
Yaitu dua buah tes yang mempunyai kesamaan tujuan, tingkat kesukaran,
susunan, tetapi butir-butir soalnya berbeda. Dua tes terbut dicobakan kepada
kelompok siswa yang sama, setelah itu baru hasil dari kedua tes tersebut
dikorelasikan. Adapun kelemahan dari metode ini yaitu pekerjaan pengetes
menjadi berat karena harus menyusun dua seri tes dan juga harus tersedianya
waktu yang lama untuk mencobakan dua kali tes tersebut.
b. Metode tes ulang (test-retest method)
Metode ini dilakukan untuk menghindari penyusunan dua seri tes. Pengetes
hanya memiliki satu seri tes tetapi dicobakan dua kali. Cara ini kurang
mengena jika tes digunakan untuk mengungkap pengetahuan(ingatan) dan
pemahaman, karena tercoba akan masih ingat butir-butir soalnya. Tenggang
waktu tentu saja menjadi faktor yang berpengaruh terhadap reliabilitas.
Metode ini juga disebut korelasi diri sendiri karena mengkorelasikan hasil dari
tes yang sama.
c. Metode belah dua atau split-half method
Metode ini mengatasi kelemahan-kelemahan penggunaan metode bentuk
paralel dan metode tes ulang. Dalam metode ini, pengetes hanya menggunakan
sebuah tes dan dicobakan satu kali. Untuk mengetahui reliabilitas seluruh tes,
digunakan rumus Spearman-Brown berikut:

24
di mana:
r1/2 ½ = korelasi antara skor-skor setiap belahan tes. r11 = koefisien
rliabilitas yang sudah disesuaikan.
Banyaknya butir soal dalam tes yang menggunakan metode ini harus genap.
Ada dua cara membelah butir soal ini:

- Membelas atas item-item genap dan item-item ganjil yang selanjutnya


disebut belahan ganjil-genap.
- Membelah atas item-item awal dan item-item akhir yaitu setengah jumlah
pada nomor-nomor awal dan setengah pada nomor-nomor akhir yang
selanjutnya disebut belahan awal-akhir.
Berikut beberapa rumus selain rumus ganjil-genap dan awal-akhir yang dapat
digunakan untuk mencari reliabilitas dalam suatu tes:
a) Rumus Flanagan :

di mana:
r11 = reliabilitas tes

r11 = reliabilitas tes


S1 = varians belahan pertama (1) yang dalam hal ini varians skor item
ganjil.
S2 = varians belahan kedua (2) yaitu varians skor item genap.
St = varians total yaitu varians skor total.
b) Rumus Rulon :

25
di mana:
Sd = varians beda (varians difference)
d = difference yaitu perbedaan antara skor belaha pertama(awal) dengan
skor belahan kedua(akhir).

c) Rumus K.R 20 :

di mana:
r11= reliabilitas tes secara keseluruhan.
p= proporsi subjek yang menjawab item dengan benar.
q= proporsi subjek yang menjawab item dengan salah ( q = 1-p )
∑pq = jumlah hasil perkalian antara p dan q. n= banyaknya item.
s= standar devisi dari tes (standar devisi adalah akar varians).
d) Rumus K.R 21 :

Dimana :

M = Mean atau rata-rata skor nilai.


e) Rumus K.R 20 :

Keterangan:
r11 = Reliabilitas
seluruh soal. Vr =
Varians responden.
Vs = Varians sisa.
Mencari Reliabilitas Tes Bentuk Uraian
Penjelasan yang sudah diuraikan diatas merupakan cara mencari
reliabilitas tes bentuk objektif, yaitu yang terdiri dari butir-butir soal

26
yang dinilai hanya “benar” atauy “salah”. Untuk keperluan mencari
reliabilitas soal keseluruhan perlu juga dilakukan analisis butir soal
seperti halnya soal bentuk objektif. Adapun skor untuk masing-masing
butir soal dicantumkan pada kolom item menurut apa adanya. Rumus
yang diggunakan adalah rumus Alpha sebagai berikut:

dimana:

27
BAB III
PENUTUP

A. Kesimpulan
Analisis butir soal bertujuan untuk memperoleh kualitas soal yang baik sehingga dapat
memperoleh gambaran tentang prestasi siswa yang sebenarnya. Ada beberapa cara
melalukan analisis butir soal: Analisis tingkat kesukaran soal untuk dapat membedakan
soal kategori mudah, sedang dan sukar. Analisis daya pembeda mengkaji apakah soal
mempunyai kemampuan dalam membedakan siswa termasuk kategori mempunyai
kemampuan tinggi atau rendah. Analisis validitas mengkaji kesahihan alat ukur (soal)
dalam menilai apa yang seharusnya diukur atau mengkaji ketepatan soal sebagai alat ukur.
Analisis reliabilitas mengkaji keajegan atau ketetapan hasil tes manakala tes tersebut
diujikan kepada siswa yang sama lebih dari satu kali.

28
DAFTAR PUSTAKA
Arifin, Zainal, (2011), Evaluasi Pembelajaran : Prinsip-TeknikProsedur, Cetakan Ke-3,
Bandung : PT.Remaja Rosdakarya.

Arifin, Zainal, (2006), Konsep GuruTentang Evaluasi dan Aplikasinya Dalam Proses
Pembelajaran PAI, Tesis, Bandung : Universitas Pendidikan Indonesia.

Anastasi, A., (1976) Psychological Testing, New York : The Macmillan Company, Inc.

Dimyati dan Mudjiono (1994) Belajar dan Pembelajaran, Jakarta : P3MTK-Ditjen Dikti-
Depdikbud.

Gronlund, N.E. (1985) Measurement and Evaluation in Teaching, Fifth Edition, New York : Mc
Millan Publishing Co., Inc.

Kerlinger, Fred.N., (1986) Foundation of Behaviour Research, Halt-Rinehart and Winston, Inc.

Stamboel, C. S., (1986) Prinsip dan Teknik Pengukuran dan Penilaian di Dalam Dunia
Pendidikan, Cetakan Ke-2, Jakarta : Mutiara Sumber Widya.

Thorndike, R.L., and Hagen, H.P.,(1977)MeasurementandEvaluationin Psychology and


Education, New York : John

29
1

Anda mungkin juga menyukai