Anda di halaman 1dari 27

BAB I

PENDAHULUAN

A. Latar Belakang
Dalam dunia pendidikan, guru memegang peran yang sangat penting
terhadap keberhasilan siswa. Secara garis besar, tugas utama seorang guru yakni
merencanakan pembelajaran, melaksanakan pembelajaran dan menilai proses
serta hasil pembelajaran. Penilaian proses maupun hasil pembelajaran yang
dilakukan untuk mengetahui kemampuan siswa dan untuk mengetahui tingkat
keberhasilan pembelajaran sering dikenal dengan istilah evaluasi. Evaluasi adalah
kegiatan atau proses untuk menilai sesuatu dan untuk dapat menentukan nilai dari
sesuatu yang sedang dinilai tersebut, dilakukanlah pengukuran (Sudijono, 2015).
Wujud dari pengukuran tersebut adalah pengujian yang dalam dunia pendidikan
dikenal dengan istilah tes.
Evaluasi memiliki arti penting dalam kegiatan belajar mengajar yang
dilaksanakan oleh seorang guru. Diantara tujuan dari evaluasi adalah untuk
menilai ketercapaian tujuan pendidikan oleh anak didik, sarana untuk mengetahui
apa yang telah anak didik ketahui dalam kegiatan belajar mengajar, dan
memotivasi anak didik. Untuk mengevaluasi hasil belajar dan proses belajar
siswa, seorang guru menggunakan berbagai macam alat atau instrumen evaluasi
seperti tes tertulis, tes lisan, ceklis-observasi, angket-wawancara, dan
dokumentasi.
Keberhasilan mengungkap hasil dan proses belajar ini sebagaimana
adanya (objektivitas hasil penilaian) sangat bergantung pada kualitas alat
penilainya, di samping itu juga yang tidak kalah pentingnya tergantung pada cara
pelaksanaannya. Suatu alat penilaian dikatakan mempunyai kualitas yang baik
apabila alat tersebut memiliki atau memenuhi dua hal, yaitu validitas (ketepatan)
dan reliabilitas (ketetapan atau keajegan) alat tes terjamin kualitasnya. Alat tes
yang bagaimana dan seperti apa yang dikatakan memiliki validitas dan reliabilias
ini (Sudaryono, 2012). Penganalisisan terhadap butir-butir soal tes hasil belajar
agar memiliki kualitas yang tinggi dapat dilakukan dari tiga segi yaitu dari segi

1
2

tingkat kesukaran itemnya, dari segi daya pembeda itemnya dan dari segi fungsi
distraktornya atau fungsi pengecoh (Sudijono, 2015).
Salah satu teknik yang digunakan untuk melakukan evaluasi terhadap hasil
belajar siswa yaitu dengan tes. Tes adalah cara atau prosedur yang perlu ditempuh
dalam rangka pengukuran dan penilaian di bidang pendidikan, yang berbentuk
pemberian tugas atau serangkaian tugas berupa pertanyaan-pertanyaan yang harus
dijawab atau perintah-perintah yang harus dikerjakan oleh testee, sehingga dapat
dihasilkan nilai yang melambangkan tingkah laku atau prestasi testee (Sudijono,
2015).
Soal tes yang berkualitas tersusun atas butir-butir soal yang berkualitas
pula. Agar dapat mengetahui kualitas suatu soal tes, maka perlu dilakukan analisis
terhadap kualitas soal. Analisis kualitas soal merupakan suatu tahap yang harus
ditempuh untuk mengetahui derajat kualitas suatu soal tes, baik secara
keseluruhan maupun butir soal yang menjadi bagian dari soal tes tersebut. Analisis
kualitas soal yang dimaksudkan adalah analisis yang ditinjau dari masing-masing
aspek Validitas, Reliabilitas, Tingkat Kesukaran dan Efektivitas Pengecoh.
Analisis Validitas dan Reliabilitas dapat digunakan untuk mengetahui kualitas soal
secara keseluruhan, sedangkan analisis Tingkat Kesukaran, Daya Pembeda dan
Efektivitas Pengecoh digunakan untuk mengetahui kualitas butir soal. Analisis
Tingkat Kesukaran maupun Daya Pembeda dapat digunakan untuk mengukur
kualitas butir soal objektif dan uraian.
Salah satu tujuan dilakukannya analisis terhadap kualitas soal adalah untuk
meningkatkan kualitas soal, yaitu apakah suatu soal telah dapat diterima, perlu
diperbaiki karena memiliki beberapa kelemahan atau tidak digunakan sama sekali
karena tidak berfungsi [ CITATION Sum09 \l 1057 ].

B. Masalah atau Topik Bahasan


Berdasarkan latar belakang di atas ditetapkan masalah atau topik bahasan
sebagai berikut,
1. Bagaimana cara menentukan validitas dan rehabilitas?
2. Bagaimana cara menghitung keefektifan pengecoh?
3. Bagaimana cara menghitung tingkat kesukaran soal?
3

4. Bagaimana cara menyusul butir soal?


5. Bagaimana cara menentukan validitas dan reliabilitas penilaiaan non tes?

C. Tujuan Penulisan Makalah


Berdasarkan rumusan masalah tersebut, tujuan penulisan makalah ini
adalah sebagai berikut.
1. Untuk mengetahui cara menentukan validitas dan rehabilitas;
2. Untuk mengetahui cara menghitung keefektifan pengecoh;
3. Untuk mengetahui cara menghitung tingkat kesukaran soal;
4. Untuk mengetahui cara menyusul butir soal;
5. Untuk mengetahui cara menentukan validitas dan reliabilitas penilaiaan non
tes;
4

BAB II
PEMBAHASAN

A. Menentukan Validitas dan Reliabilitas Butir Soal


1. Validitas
Validitas berasal dari kata validity yang mempunyai arti sejauh mana
ketepatan dan kecermatan suatu alat ukur dalam melakukam fungsi ukurannya
[ CITATION Dja08 \l 1057 ]. Sedangkan menurut Sitinjak & Sugiarto (2006),
validitas berhubungan dengan suatu peubah mengukur apa yang seharusnya
diukur. Validitas dalam penelitian menyatakan derajat ketepatan alat ukur
penelitian terhadap isi sebenarnya yang diukur.
Suatu tes dapat dikatakan memiliki validitas yang tinggi jika tes tersebut
menjalankan fungsi ukurnya, atau memberikan hasil ukur yang tepat dan akurat
sesuai dengan maksud dikenakannya tes tersebut. Suatu tes menghasilkan data
yang tidak relevan dengan tujuan diadakannya pengukuran dikatakan sebagai tes
yang memiliki validitas rendah. Sisi lain dari pengertian validitas adalah aspek
kecermatan pengukuran. Suatu alat ukur yang valid dapat menjalankan fungsi
ukurnya dengan tepat, juga memiliki kecermatan tinggi. Arti kecermatan disini
adalah dapat mendeteksi perbedaan-perbedaan kecil yang ada pada atribut yang
diukurnya.
Konsep validitas menurut Djaali & Muljono (2008) dapat dibedakan atas
tiga macam, yaitu validitas isi (content validity), validitas konstruk (construct
validity) dan validitas empiris atau validitas kriteria. Validitas empiris dapat
dibedakan lagi atas dua macam yaitu validitas kongkruen (concruent validity) dan
validitas prediktif (predictive validity).
a. Validitas Isi
Validitas isi adalah validitas yang fokus kepada elemen-elemen apa yang
ada dalam alat ukur [ CITATION Coa10 \l 1057 ], sehingga analisis rasional
adalah proses utama yang dilakukan dalam analisis validitas isi [ CITATION
Azw05 \l 1057 ]. Secara umum definisi validitas isi adalah sejauhmana elemen-
elemen instrumen asesmen relevan dan mewakili konstruk alat ukur yang

4
5

ditergetkan untuk tujuan tertentu [ CITATION Hay95 \l 1057 ]. Validitas isi adalah
penjelasan tentang suatu alat ukur secara substantif atau disebut validitas
substantif yang fokus kepada konseptualisasi dan sejauhmana konsep-konsep
sebelumnya yang ditampilkan dalam kajian literatur [ CITATION Cla95 \l 1057 ].
Untuk mengetahui apakah tes valid atau tidak harus dilakukan melalui
penelaahan kisi-kisi tes untuk memastikan bahwa soal-soal tes itu sudah meakili
atau mencerminkan keseluruhan konten atau materi yang seharusnya dikuasai
secara proporsional. Oleh karena itu, validitas isi tes tidak mempunyai besaran
tertentu yang dihitung secara statistika, tetap dipahami bahwa tes sudah valid
berdasarkan telaah kisi-kisi tes. Menurut Wiersman dan Jurs (dalam Djaali &
Muljono, 2008) validitas isi lebih mendasarkan pada analisis logika jadi tidak
merupakan suatu koefisien validitas yang dihitung secara statistika.
Untuk memperbaiki validitas suatu tes, maka isi suatu tes harus
diusahakan agar mencakup semua pokok bahasan yang hendak diukur. Kriteria
untuk masing-masing pokok bahasan yang ada dalam suatu tes didasarkan
banyaknya isi masing-masing pokok bahasan yang dapat dilihat dari jumlah
halaman isi dan jumlah jam pertemuan untuk masing-masing pokok bahasan
seperti yang tercantum dalam kurikulum [ CITATION Dja08 \l 1057 ].
Selain itu, penentuan proporsi dapat pula didasarkan pendapat para ahli
dalam bidang yang bersangkutan. Jadi suatu tes akan mempunyai validitas isi
yang baik jika tes tersebut terdiri dari item-item yang mewakili semua materi yang
hendak diukur. Salah satu cara yang biasa dilakukan untuk memperbaiki validitas
isi suatu tes ialah dengan menggunakan blue-print untuk menentukan kisi-kisi tes
[ CITATION Dja08 \l 1057 ].
b. Validitas Konstruk.
Validitas konstruk adalah sebuah gambaran yang menunjukkan
sejauhmana alat ukur itu menunjukkan hasil yang sesuai dengan teori (Azwar,
2005). Proses pengujian validitas konstruk adalah menghubungkan alat ukur itu
dengan alat ukur lain yang memiliki kesamaan konsep atau dengan alat ukur-alat
ukur lain yang secara teoritis berkaitan dengannya (Murphy & Davidshofer,
1991). Menurut Arikunto (2012) sebuah tes dikatakan memiliki validitas
konstruksi apabila butir-butir soal yang membangun tes tersebut mengukur setiap
6

aspek berfikir seperti disebutkan dalam tujuan instruksional khusus. Dengan kata
lain jika butir-butir soal mengukur aspek berpikir tersebut sudah sesuai dengan
aspek berpikir yang menjadi tujuan instruksional.
Validitas konstruk biasa digunakan untuk instrumen-instrumen yang
dimaksudkan mengukur variabel-variabel konsep. Menetukan validitas konstruk
suatu instrumen harus dilakukan proses penelaahan teoritis dari suatu konsep dari
variabel yang hendak diukur, mulai dari perumusan, konstruk, penentuan dimensi
dan indikator sampai pada penjabaran dan penulisan butir-butir item instrumen.
Perumusan konstrul harus didasarkan sintesis dari teori-teori mengenai konsep
variabel yang hendak diukur melalui proses analisis dan komparasi yang logik dan
cermat [ CITATION Dja08 \l 1057 ]. Menyimak proses telaah teoritis seperti telah
dikemukakan, maka proses validasi konstruk sebuah instrumen harus dilakukan
melalui penelaahan atau justifikasi pakar atau melalui penilaian sekelompok panel
yang terdiri dari orang-orang yang menguasai substansi atau konten dari variabel
yang hendak diukur.
c. Validitas Empris atau Kriteria
Validitas kriteria adalah mengaitkan alat ukur dengan alat ukur lain
sebagai kriteria, apakah alat ukur ukur itu bisa dijelaskan hasil korelasinya dengan
dengan kriterianya berdasarkan teori yang ada [ CITATION Dev10 \l 1057 ].
Validitas empiris sama dengan validitas kriteria yang berarti bahwa validitas
ditentukan berdasarkan kriteria, baik kriteria internal maupun kriteria eksternal.
Kriteria internal adalah tes atau instrumen itu sendiri yang menjadi
kriteria, sedangkan kriteria eksternal adalah hasil ukur instrumen atau tes lain di
luar instrumen itu sendiri yang menjadi kriteria. Ukuran lain yang sudah dianggap
baku atau dapat dipercaya dapat pula dijadikan sebagai kriteria eksternal. Validitas
yang ditentukan berdasarkan kriteria internal disebut validitas internal, sedangkan
validitas yang ditentukan berdasarkan kriteria eksternal disebut validitas eksternal
[ CITATION Dja08 \l 1057 ].
1) Validitas Internal
Validitas internal merupakan validitas yang diukur dengan besaran yang
menggunakan instrumen sebagai suatu kesatuan (keseluruhan butir) sebagai
kriteria untuk menentukan validitas item atau butir dari instrumen itu. Dengan
7

demikian validitas internal mempermasalahkan validitas butir atau item suatu


instrumen dengan menggunakan hasil ukur instrumen tersebut sebagai suatu
kesatuan dan sebagai kriteria, sehingga biasa disebut juga validitas butir.
Pengujian validitas butir instrumen atau soal tes dilakukan dengan
menghitung koefesien korelasi antara skor butir instrumen atau soal tes dengan
skor total instrumen atau tes. Butir atau soal yang dianggap valid adalah butir
instrumen atau soal tes yang skornya mempunyai koefesien korelasi yang
signifikan dengan skor total instrumen atau tes.
2) Validitas Eksternal
Kriteria eksternal dapat berupa hasil ukur instrumen yang sudah baku atau
instrumen yang dianggap baku dapat pula berupa hasil ukur lain yang sudah
tersedia dan dapat dipercaya sebagai ukuran dari suatu konsep atau varaibel yang
hendak diukur. Validitas eksternal diperlihatkan oleh suatu besaran yang
merupakan hasil perhitungan statistika. Jika kita menggunakan hasil ukur
instrumen yang sudah baku sebagai kriteria eksternal, maka besaran validitas
eksternal dari instrumen yang kita kembangkan didapat dengan jalan
mengkorelasikan skor hasil ukur instrumen yang dikembangkan dengan skor hasil
ukur instrumen baku yang dijadikan kriteria. Makin tinggi koefesien korelasi yang
didapat, maka validitas instrumen yang dikembangkan juga makin baik. Kriteria
yang digunakan untuk menguji validitas eksternal adalah nilai table r (r-tabel).
Jika koefesien korelasi antara skor hasil ukur instrumen yang
dikembangkan dengan skor hasil ukurinstrumen baku lebih besar dari pada r-tabel,
maka instrumen yang dikembangkan dapat valid berdasarkan kriteria eksternal
yang dipilih (hasil ukur instrumen baku). Jadi keputusan uji validitas dalam hal ini
adalah mengenai valid atau tidaknya instrumen sebagai suatu kesatuan, bukan
valid atau tidaknya butir instrumen seperti pada validitas internal.
Ditinjau dari kriteria eksternal yang dipilih, validitas eksternal dapat
dibedakan atas dua macam yaitu:
1. Validitas prediktif apabila kriteria eksternal yang digunakan adalah
adalah ukuran atau penampilan masa yang akan datang.
8

2. Validitas kongkuren apabila kriteria eksternal yang digunakan adalah


ukuran atau penampilan saat ini atau saat yang bersamaan dengan
pelaksanaan pengukuran.
2. Reliabilitas
Reliabilitas berasal dari kata reliability yang berarti keajegan pengukuran [
CITATION Wal87 \l 1057 ]. Reliabilitas merupakan derajat konsistensi suatu
instrument. Suatu tes dapat dikatan reliabel apabila selalu memberikan hasil yang
sama bila diteskan pada kelompok yang sama pada kesempatan yang berbeda.
Menurut Suryabrata (2004) reliabilitas menunjukkan sejauhmana hasil
pengukuran dengan alat tersebut dapat dipercaya. Hasil pengukuran harus reliabel
dalam artian harus memiliki tingkat konsistensi dan kemantapan.
Reliabilitas merupakan pengukuran dari alat ukur yang sama (tes dengan
tes ulang) akan memberikan hasil yang sama, atau untuk pengukuran yang lebih
subjektif, apakah dua orang penilai memberikan skor yang mirip (reliabilitas antar
penilai). Reliabilitas tidak sama dengan validitas. Artinya pengukuran yang dapat
diandalkan akan mengukur secara konsisten, tapi belum tentu mengukur apa yang
seharusnya diukur. Djaali & Muljono (2008) membedakan reliabilitas menjadi dua
macam, yakni Reliabilitas Konsistensi Tanggapan dan Reliabilitas Konsistensi
Gabungan.
a. Reliabilitas Konsistensi Tanggapan
Reliabilitas ini mempersoalkan apakah tanggapan responden atau objek
terhadap tes tersebut sudah baik atau konsisten. Jika hasil pengukuran kedua
menunjukkan ketidak konsistenan maka hal ini akan menunjukkan bahwa hasil
ukur tes atau instrumen tersebut tidak dapat dipercaya atau tidak reliabel serta
tidak dapat digunakan sebagai ukuran untuk mengungkapkan ciri atau keadaan
sesungguhnya dari objek pengukuran [ CITATION Dja08 \l 1057 ]. Menurut
Djaali & Muljono ada tiga mekanisme untuk memeriksa reliabilitas tanggapan
responden terhadap tes yaitu:
1) Teknik test-retest
Teknik test-retest ialah pengetesan dua kali dengan menggunakan suatu tes
yang sama pada waktu yang berbeda. Metode ini melibatkan dua kali penggunaan
tes yang sama terhadap kelompok yang sama dengan interval waktu tertentu.
9

Suatu hal yang perlu diperhatikan adalah interval waktu untuk memberikan tes
kedua (re-tes), sebaiknya jangan terlalu dekat sebab dihawatirkan siswa masih
dapat mengingat soal yang diberikan pada tes pertama. Oleh karena itu peneliti
hendaknya membuat soal yang tidak mudah diingat oleh siswa, mungkin tes
obyektif mungkin lebih “sulit” diingat dibandingkan dengan tes essay yang
jumlah soalnya relatif lebih sedikit dibandingkan dengan tes obyektif. Memang
tidak ada patokan berapa lama interval waktu untuk melakukan tes dan re-tes,
akan tetapi biasanya antara dua sampai empat minggu. Setelah diperoleh nilai tes
yang dipandang sebagai nilai X dan re-tes yang dipandang sebagai nilai Y,
selanjutnya koefisien reliabilitas dihitung dengan menggunakan teknik korelasi
product moment atau korelasi Pearson untuk menunjukkan korelasi (hubungan)
antara dua set nilai yang diperoleh tersebut. Tinggi rendahnya indeks korelasi
inilah yang menunjukkan derajat reliabilitas instrumen yang digunakan.
2) Teknik belah dua
Teknik belah dua ialah pengetesan (pengukuran) yang dilakukan dengan
dua kelompok item yang setara pada saat yang sama. Prosedur bagi dua ini
meliputi penilaian terhadap satu set soal yang dibagi dua (biasanya soal dengan
nomor ganjil dan nomor genap atau awal dan akhir) dikerjakan secara terpisah
oleh setiap orang. Selanjutnya dihitung koefisien korelasi untuk kedua belahan
soal tersebut. Koefisien korelasi yang diperoleh menunjukan derajat korelasi
terhadap kedua kedua belahan soal, dan oleh karena itu menggambarkan
konsistensi internal dari tes tersebut. Dengan teknik belah dua ganjil-genap
peneliti harus mengelompokkan nilai butir bernomor ganjil sebagai belahan
pertama (X) dan kelompok nilai butir bernomor genap sebagai belahan kedua (Y).
Selanjutnya carilah rXY yaitu korelasi nilai skor belahan pertama dan kedua
dengan menggunakan rumus Spearman – Brown.
3) Bentuk ekivalen
Pengetesan (pengukuran) dilakukan dengan menggunakan dua tes yang
dibuat setara kemudian diberikan kepada responden atau obyek tes dalam waktu
yang bersamaan. Apabila metode ini digunakan, maka dua buah tes (instrumen)
yang terpisah satu sama lain, namun ekuivalen (juga disebut tes pilihan atau tes
paralel) dikenakan pada kelompok individu yang sama pada periode waktu yang
10

sama dalam arti tidak harus menunggu waktu beberapa hari atau minggu.
Meskipun pertanyaan-pertanyaan antara kedua instrumen tersebut berbeda, akan
tetapi keduanya harus memiliki isi (kontent) yang sama dan mengukur sesuatu
yang sama pula atau identik. Setelah diperoleh nilai tes untuk instrumen pertama
yang dipandang sebagai nilai X dan instrumen kedua yang dipandang sebagai nilai
Y, selanjutnya koefisien reliabilitas dihitung dengan menggunakan teknik korelasi
product moment atau korelasi Pearson. Tingginya nilai koefisien korelasi yang
diperoleh, menunjukkan bukti yang kuat mengenai reliabilitas bahwa kedua
instrumen tersebut mengukur sesuatu yang sama.
Metode ini memungkinkan untuk menggabungkan antara metode tes-retes
dan metode paralel (bentuk ekuivalen). Instrumen yang dibuat untuk tes paralel,
diberikan dua kali terhadap kelompok individu yang sama, hanya dengan interval
waktu yang berbeda sebagaimana dilakukan pada metode tes-retes. Koefisien
reliabilitas yang tinggi akan menunjukkan bahwa dua bentuk instrumen tersebut
tidak hanya mengukur dua jenis performance yang sama, akan tetapi juga
memiliki konsistensi sepanjang waktu.
b. Reliabilitas Konsistensi Gabungan
Reliabilitas ini berkaitan dengan kemantapan atau konsistensi antara item-
item suatu tes. Bila terhadap bagian obyek ukur yang sama, hasil ukur melalui
item yang satu kontradiksi atau tidak konsisten dengan hasil ukur melalui item
yang lain maka pengukuran dengan tes (alat ukur) sebagai suatu kesatuan itu tidak
dapat dipercaya [ CITATION Dja08 \l 1057 ]. Koefesien reliabilitas konsistensi
gabungan item dapat dihitung dengan menggunakan:
1) Rumus Kuder-Richardson, yang dikenal dengan nama KR-20 dan KR-21.
2) Rumus koefisien Alpha atau Alpha Cronbach.
3) Rumus reliabilitas Hoyt, yang menggunakan analisis varian.

B. Menghitung Keefektifan Pengecoh


Sebuah pengecoh dikatakan telah dapat menjalankan fungsinya dengan
baik apabila pengecoh tersebut mempunyai daya tarik sedemikian rupa sehingga
siswa yang kurang menguasai konsep merasa bimbang dan pada akhirnya mereka
terkecoh untuk memilih pengecoh sebagai jawaban benar [ CITATION Ana15 \l
11

1057 ]. Pengecoh dinyatakan telah dapat menjalankan fungsinya dengan baik


apabila pengecoh tersebut sekurang-kurangnya sudah dipilih oleh 5% dari seluruh
peserta tes atau 34 apabila mempunyai daya tarik yang besar bagi pengikut-
pengikut tes yang kurang memahami konsep atau kurang menguasai bahan
(kelompok bawah). Untuk menentukan angka pedoman efektifitas pengecoh dapat
dilakukan dengan cara perkalian antara 5% X Jumlah peserta didik [ CITATION
Ari12 \l 1057 ]. Efektivitas Pengecoh dapat dilihat dengan menghitung indeks
pengecoh. Rumus untuk menghitung indeks pengecoh yaitu sebagai berikut:

Keterangan :
IP = indeks pengecoh
P = jumlah peserta didik yang memilih pengecoh
N = jumlah peserta didik yang ikut tes
B = jumlah peserta didik yang menjawab benar pada setiap soal
n = jumlah alternatif jawaban (opsi)
1 = bilangan tetap
Kriteria Efektivitas Pengecoh berdasarkan angka indeks pengecoh sebagai
berikut:
Tabel 2.1 Kriteria Efektivitas Pengecoh
Indeks Pengecoh Kualitas
76% - 125% Sangat baik
51% - 75% atau 126% - 150% Baik
26% - 50% atau 151% - 175% Kurang baik
0% - 25% atau 176% - 200% Jelek
Lebih dari 200% Sangat jelek
Sumber : Arifin (2010)
Pada soal bentuk pilihan-ganda ada alternatif jawaban (opsi) yang
merupakan pengecoh, jadi pengecoh disini adalah jawaban dari soal yang bisa
mengecoh jawaban yang sebenarnya. Option atau alternatif itu jumlahnya berkisar
antara tuga sampai dengan lima buah, dan dari kemungkinan-kemungkinan jawab
yang terpasang pada setiap butri item itu, salah satu di antaranya adalah
merupakan jawaban betul (= kunci jawaban); sedangkan sisanya adalah
merupakaan jawaban salah. Jawaban-jawaban salah itulah yang biasa dikenal
dengan istilah pengecoh atau pengecoh [ CITATION Ana15 \l 1057 ].
12

Untuk menentukan Efektivitas Pengecoh setiap butir soal digunakan skala


dengan rentang antara sangat baik sampai sangat tidak baik [ CITATION Rah16 \l
1057 ].
1. Efektivitas pengecoh butir soal dikatakan sangat baik apabila keempat
pengecoh berfungsi.
2. Efektivitas pengecoh butir soal dikatakan baik apabila tiga pengecoh
berfungsi.
3. Efektivitas pengecoh butir soal dikatakan kurang baik apabila dua pengecoh
berfungsi.
4. Efektivitas pengecoh butir soal dikatakan tidak baik apabila hanya satu
pengecoh berfungsi.
5. Efektivitas pengecoh butir soal dikatakan sangat tidak baik apabila semua
pengecoh tidak berfungsi.
Butir soal yang baik, pengecohnya akan dipilih secara merata oleh peserta
didik yang menjawab salah. Sebaliknya, butir soal yang yang kurang baik,
pengecohnya akan dipilih secara tidak merata. Pengecoh dianggap bila jumlah
peserta didik yang memilih pengecoh itu sama atau mendekati jumlah ideal. Jika
semua peserta didik menjawab benar pada butir soal tertentu (sesuai kunci
jawaban), maka IP = 0 yang berarti soal tersebut jelek. Dengan demikian,
pengecoh tidak berfungsi.
Contoh :
50 orang peserta didik di tes dengan 10 soal untuk pilihan-ganda. Tiap soal
memilki 5 alternatif jawaban (a, b, c, d, dan e). Kunci jawaban (jawaban yang
benar) soal nomor 8 adalah c. Setelah nomor 8 diperiksa untuk peserta didik,
ternyata dari 50 orang peserta didik. 20 peserta didik menjawab benar dan 30
peserta didik menjawab salah. Idealnya, pengecoh dipilih secara merata, artinya
semua pengecoh secara merata ikut menyesatkan peserta didik. Perhatikan contoh
soal nomor 8 berikut ini:
Tabel 2.2 Contoh Keefektifitasan Pengecoh yang Baik
Alternatif Jawaban a b c d e
Distribusi jawaban peserta didik 7 8 20 7 8
IP 93% 107% ** 93% 107%
Kualitas Pengecoh ++ ++ ** ++ ++
Sumber : Penulis
13

Keterangan:
** : kunci jawaban
++ : sangat baik
+ : baik
- : kurang baik
_ : jelek
_ _ : sangat jelek
Pada contoh di atas, IP butir a, b, c, d, dan e adalah 93%, 107%, 93% dan
107%. Semuanya dekat dengan angka 100%, sehingga digolongkan sangat baik
sebab semua pengecoh itu berfungsi. Jika pilihan jawaban peserta didik
menumpuk pada suatu alternatif jawaban, misalnya seperti berikut :
Tabel 2.3 Contoh Keefektifitasan Pengecoh yang Tidak Baik
Alternatif Jawaban a b c d e
Distribusi jawaban peserta didik 20 2 20 8 0
IP 267% 27% ** 107% 0%
Kualitas Pengecoh ++ - ** ++ -
Sumber : Penulis
Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik, pengecoh
(e) dan (b) tidak berfungsi, pengecoh (a) menyesatkan, maka pengecoh (a) dan (e)
perlu diganti karena termasuk jelek, dan pengecoh (b) perlu direvisi karena kurang
baik.

C. Menghitung Tingkat Kesukaran


Soal yang baik adalah soal yang tidak terlalu mudah atau terlalu sukar.
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada
tingkat kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks.
Indeks tingkat kesukaran ini pada umumnya dinyatakan dalam bentuk proporsi
yang besarnya berkisar 0,00 - 1,00 [ CITATION Aik85 \l 1057 ]. Semakin besar
indeks tingkat kesukaran yang diperoleh dari hasil hitungan, berarti semakin
mudah soal itu. Suatu soal memiliki TK= 0,00 artinya bahwa tidak ada siswa yang
menjawab benar dan bila memiliki TK= 1,00 artinya bahwa siswa menjawab
benar.
14

Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu kegunaan bagi


guru dan kegunaan bagi pengujian dan pengajaran [ CITATION Sud14 \l 1057 ].
Kegunaan bagi guru diantaranya adalah sebagai berikut :
1. Sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi
masukan kepada peserta didik tentang hasil belajar mereka.
2. Memperoleh informasi tentang penekanan kurikulum atau mencurigai
terhadap butir soal yang bias.
Adapun kegunaan bagi pengujian dan pengajaran adalah sebagai berikut :
1. Pengenalan konsep yang diperlukan untuk diajarkan ulang

2. Tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah

3. Memberi masukan kepada siswa

4. Tanda-tanda kemungkinan adanya butir soal yang bias


Tingkat kesukaran butir soal juga dapat digunakan untuk mempredikst alat
ukur itu sendiri (soal) dan kemampuan peserta didik dalam memahami materi
yang diajarkan guru. Misalnya satu butir soal termasuk kategori mudah, maka
prediksi terhadap informasi ini adalah seperti berikut [ CITATION Hal97 \l
1057 ].
1. Pengecoh butir soal itu tidak berfungsi.
2. Sebagian besar siswa menjawab benar butir soal itu; artinya bahwa sebagian
besar siswa telah memahami materi yang ditanyakan.
Bila suatu butir soal termasuk kategori sukar, maka prediksi terhadap
informasi ini adalah seperti berikut.
1. Butir soal itu "mungkin" salah kunci jawaban.
2. Butir soal itu mempunyai 2 atau lebih jawaban yang benar.
3. Materi yang ditanyakan belum diajarkan atau belum tuntas pembelajarannya,
sehingga kompetensi minimum yang harus dikuasai siswa belum tercapai.
4. Materi yang diukur tidak cocok ditanyakan dengan menggunakan bentuk soal
yang diberikan (misalnya meringkas cerita atau mengarang ditanyakan dalam
bentuk pilihan ganda).
5. Pernyataan atau kalimat soal terlalu kompleks dan panjang.
15

Menurut [CITATION Ari101 \l 1057 ], dalam menganalisis tingkat


kesukaran soal dibedakan menjadi dua jenis soal, yaitu:
1. Soal Bentuk Objektif
Langkah-langkah yang harus ditempuh terlebih dahulu sebelum
menghitung tingkat kesukaran soal sebagai berikut.
a. Menyusun lembar jawaban peserta didik dari skor tertinggi sampai dengan skor
terendah.
b. Mengambil 27% lembar jawaban dari atas yang disebut dengan kelompok atas
(higher group), dan 27% lembar jawaban dari bawah yang disebut kelompok
bawah (lower group). Sisanya sebanyak 46% disisihkan.
c. Membuat tabel untuk mengetahui jawaban (benar atau salah) dari setiap peserta
didik, baik untuk kelompok atas maupun kelompok bawah. Jika jawaban
peserta didik benar diberi angka 1, jika jawaban peserta didik salah diberi
angka 0.
Untuk menghitung tingkat kesukaran soal bentuk objektif dapat digunakan
dengan rumus berikut.

Keterangan:
Tk : Indeks tingkat kesukaran butir soal
SA : jumlah skor kelompok atas
SB : jumlah skor kelompok bawah
IA : jumlah skor ideal kelompok atas
IB : jumlah skor ideal kelompok bawah
Untuk menafsirkan tingkat kesukaran soalnya dapat digunakan kriteria
sebagai berikut [CITATION Ari101 \l 1057 ].
a. Jika jumlah peserta didik yang gagal mencapai 27% termasuk mudah.
b. Jika jumlah peserta didik yang gagal antara 28% sampai dengan 72%
termasuk sedang.
c. Jika jumlah peserta didik yang gagal 73% ke atas termasuk sukar.
16

Sedangkan menurut Arikunto (2012) untuk menghitung indeks kesukaran


butir soal untuk bentuk soal objektif dapat menggunakan rumus yang lebih
sederhana lagi, yakni sebagai berikut:
B
P=
JS
Keterangan:
P = Indeks kesukaran
B = Banyaknya peserta didik yang menjawab soal itu dengan betul
JS = Jumlah seluruh peserta didik peserta tes.
Tabel 2.4 Interprestasi Tingkat Kesukaran
Tingkat Kesukaran (TK) Interprestasi atau Penafsiran TK
0.00 – 0.29 Sukar
0.30 – 0.69 Sedang
0.70 – 1.00 Mudah
Sumber : Sudjana (2014)
Contoh Analisis Tingkat Kesukaran Soal Bentuk Objektif
36 peserta didik SMP mengikuti Ujian Akhir Semester dalam mata pelajaran Ilmu
Pengetahuan Umum. Berdasarkan hasil ujian tersebut kemudian disusun lembar
jawaban peserta didik dari yang mendapat skor tertinggi sampai dengan skor
terendah. Selanjutnya, diambil 27% dari skor tertinggi yaitu 27% x 36 peserta
didik = 9,72 = 10 peserta didik (dibulatkan) dan 27% dari skor terendah yaitu 27%
x 36 peserta didik = 9,72 = 10 peserta didik (dibulatkan). Setelah diketahui jumlah
sampel kelompok atas dan kelompok bawah, kemudian membuat tabel untuk
mengetahui jawaban (benar atau salah) dari setiap peserta didik dalam kelompok
tersebut.
Tabel 2.5
Jawaban Benar-Salah dari Kelompok Atas
No. Soal
Peserta 1 2 3 4 5 6 7 8 9 10
Didik
Ulwi 1 1 1 1 1 1 1 1 0 1
Umi 1 1 1 1 0 1 1 1 1 1
Kamal 1 1 1 1 1 1 1 1 1 0
Nadia 0 1 1 1 1 1 0 1 0 1
Alfa 1 1 0 1 1 1 1 1 0 1
Ulum 1 1 1 1 1 1 1 1 1 1
Utari 0 0 0 1 0 1 1 0 0 0
Aslih 0 0 0 1 1 0 0 0 1 0
Nafis 0 1 1 0 0 0 0 0 1 1
Darin 1 1 1 1 1 1 1 0 1 1
17

Sumber : Penulis
Tabel 2.6
Jawaban Benar-Salah dari Kelompok Bawah
No. Soal
1 2 3 4 5 6 7 8 9 10
Peserta Didik
Rahayu 1 1 1 1 1 1 1 0 1 0
Eko 0 0 1 0 0 0 1 1 1 0
Laila 1 0 0 0 1 1 0 1 0 1
Ulfa 0 0 1 0 0 0 1 1 1 0
Arin 0 1 0 0 1 1 0 1 1 1
Zuhriyah 1 1 1 1 1 1 1 0 0 1
Ali 1 1 0 0 0 1 0 0 0 0
Riza 0 0 0 1 0 1 0 1 1 0
Anis 0 0 0 0 0 0 1 0 0 1
Atania 0 0 0 1 0 1 0 1 0 1
Sumber : Penulis

Jadi, dapat dihitung tingkat kesukaran setiap soal menggunakan rumus 1


sebagai berikut.
10 5
1. TK = ×100 =50 6. TK = ×100 =25
20 20
8 8
2. TK = ×100 =40 7. TK = ×100 =40
20 20
9 8
3. TK = ×100 =45 8. TK = ×100 =40
20 20
7 9
4. TK = ×100 =35 9. TK = ×100 =45
20 20
9 8
5. TK = ×100 =45 10. TK = ×100 =40
20 20
Berdasarkan perhitungan tersebut, maka dapat diketahui klasifikasi tingkat
kesukaran soal yang didasarkan pada criteria penafsiran tingkat kesukaran soal
pada pembahasan sebelumnya.
Tabel 2.7 Klasifikasi Soal Berdasarkan Proporsi Tingkat Kesukaran
Tingkat Kesukaran Soal Nomor Soal Jumlah
Mudah P 27% 6 1 (10%)
Sedang P 28-72% 1,2,3,4,5,7,8,9,10 9 (90%)
Sukar P 73% 0 0
Sumber : Penulis
Untuk memperoleh prestasi belajar yang baik, sebaiknya proporsi antara
tingkatan kesukaran soal tersebar secara normal. Penyusunan suatu soal dilakukan
dengan mempertimbangkan tingkat kesukaran soal, sehingga hasil yang dicapai
peserta didik dapat menggambarkan prestasi yang sesungguhnya. Perhitungan
proporsi antara tingkat kesukaran dapat diatur sebagai berikut.
a. Soal sukar 25%, soal sedang 50%, soal mudah 25%, atau
18

b. Soal sukar 20%, soal sedang 60%, soal mudah 20%, atau
c. Soal sukar 15%, soal sedang 70%, soal mudah 15%.
2. Soal Bentuk Uraian
Cara menghitung tingkat kesukaran untuk soal bentuk uraian adalah
menghitung beberapa persen peserta didik yang gagal menjawab benar atau ada
dibawah batas lulus (passing grade) untuk tiap-tiap soal. Contoh analisis tingkat
kesukaran soal bentuk uraian adalah sebagai berikut :
33 orang peserta didik di tes dengan lima soal bentuk uraian. Skor maksimum
ditentukan 10 dan skor minimum 0. Jumlah peserta didik yang memperoleh nilai
0-5 = 10 orang (berarti gagal), nilai 6 = 12 orang, dan nilai 7-10 = 11 orang.
10
Jadi, tingkat kesukaran (TK) = ×100 =30,3
33
Tingkat kesukaran 30,3 berada di antara 28 dan 72, berarti soal tersebut termasuk
sedang. Catatan: batas lulus ideal = 6 (skala 0-10).

D. Menyusun Kartu Soal


Menurut Depdiknas (2008) agar soal yang disiapkan oleh setiap guru
menghasilkan bahan ulangan/ujian yang sahih dan handal, maka harus dilakukan
langkah‐langkah berikut, yaitu:
1. menentukan tujuan tes,
2. menentukan kompetensi yang akan diujikan,
3. menentukan materi yang diujikan,
4. menetapkan penyebaran butir soal berdasarkan kompetensi, materi, dan
bentuk penilaiannya (tes tertulis: bentuk pilihan ganda, uraian; dan tes
praktik),
5. menyusun kisi‐kisinya,
6. menulis butir soal,
7. memvalidasi butir soal atau menelaah secara kualitatif,
8. merakit soal menjadi perangkat tes,
9. menyusun pedoman penskorannya,
10. uji coba butir soal,
11. analisis butir soal secara kuantitatif dari data empirik hasil uji coba, dan
12. perbaikan soal berdasarkan hasil analisis.
19

Salah satu langkah yang harus dilakukan untuk memperoleh bahan


ulangan yang baik adalah menulis butir soal. Penulisan butir soal tes tertulis
merupakan suatu kegiatan yang sangat penting dalam penyiapan bahan
ulangan/ujian. Setiap butir soal yang ditulis harus berdasarkan rumusan indikator
soal yang sudah disusun dalam kisi-kisi dan berdasarkan kaidah penulisan soal
bentuk obyektif dan kaidah penulisan soal uraian.
Penggunaan bentuk soal yang tepat dalam tes tertulis, sangat
tergantung pada perilaku/kompetensi yang akan diukur. Ada kompetensi yang
lebih tepat diukur/ditanyakan dengan menggunakan tes tertulis dengan
bentuk soal uraian, ada pula kompetensi yang lebih tepat diukur
denganmenggunakan tes tertulis dengan bentuk soal objektif. Bentuk tes
tertulis pilihan ganda maupun uraian memiliki kelebihan dan kelemahan.

1. Penulisan Soal Bentuk Uraian


Menulis soal bentuk uraian diperlukan ketepatan dan kelengkapan dalam
merumuskannya. Ketepatan yang dimaksud adalah bahwa materi yang ditanyakan
tepat diujikan dengan bentuk uraian, yaitu menuntut peserta didik untuk
mengorganisasikan gagasan dengan cara mengemukakan atau mengekspresikan
gagasan secara tertulis dengan menggunakan kata-katanya sendiri. Adapun
kelengkapan yang dimaksud adalah kelengkapan perilaku yang diukur yang
digunakan untuk menetapkan aspek yang dinilai dalam pedoman penskorannya.
Hal yang paling sulit dalam penulisan soal bentuk uraian adalah menyusun
pedoman penskorannya. Penulis soal harus dapat merumuskan setepat-tepatnya
pedoman penskorannya karena kelemahan bentuk soal uraian terletak pada tingkat
subyektivitas penskorannya. Berdasarkan metode penskorannya, bentuk uraian
diklasifikasikan menjadi dua, yaitu uraian objektif dan uraian non objektif.
Bentuk uraian objektif adalah suatu soal atau pertanyaan yang menuntut
sehimpunan jawaban dengan pengertian/konsep tertentu, sehingga penskorannya
dapat dilakukan secara objektif. Artinya perilaku yang diukur dapat diskor secara
dikotomus (benar-salah atau 1-0). Bentuk uraian non-objektif adalah suatu soal
yang menuntut sehimpunan jawaban dengan pengertian/konsep menurut pendapat
20

masing-masing peserta didik, sehingga penskorannya sukar untuk dilakukan


secara objektif. Untuk mengurangi tingkat kesubjektifan dalam pemberian skor
ini, maka dalam menentukan perilaku yang diukur dibuatkan skala. Contoh
misalnya perilaku yang diukur adalah "kesesuaian isi dengan tuntutan
pertanyaan", maka skala yang disusun disesuaikan dengan tingkatan kemampuan
peserta didik yang akan diuji. Misal, disusun skala seperti berikut[CITATION
Dep08 \l 1057 ].

Gambar 2.1
Contoh penyusunan skala

Agar soal yang disusun bermutu baik, maka penulis soal


harusmemperhatikan kaidah penulisannya. Untuk memudahkan pengelolaan,
perbaikan, dan pengembangan soal, maka soal ditulis didalam format kartu soal
Setiap satu soal dan pedoman penskorannya ditulis di dalam satu format. Contoh
format soal bentuk uraian adalah seperti berikut ini.
21

Gambar 2.2
Format Kartu Soal Uraian

Gambar 23
Format Kartu Soal dan Pedoman Pennskoran Soal Uraian

2. Penulisan Soal Bentuk Pilihan Ganda


22

Menulis soal bentuk pilihan ganda sangat diperlukan keterampilandan


ketelitian. Hal yang paling sulit dilakukan dalam menulis soal bentuk pilihan
ganda adalah menuliskan pengecohnya. Pengecoh yang baik adalah pengecoh
yang tingkat kerumitan atau tingkat kesederhanaan, serta panjang pendeknya
relatif sama dengan kunci jawaban. Oleh karena itu, untuk memudahkan dalam
penulisan soal bentuk pilihan ganda, maka dalam penulisannya perlu mengikuti
langkah-langkah berikut, langkah pertama adalah menuliskan pokok soalnya,
langkah kedua menuliskan kunci jawabannya, langkah ketigamenuliskan
pengecohnya.
Untuk memudahkan pengelolaan, perbaikan, dan perkembangan soal,
maka soal ditulis di dalam format kartu soal. Setiap satu soal ditulis di dalam satu
format. Adapun formatnya seperti berikut.

Gambar 2.4
Format Kartu Soal Pilihan Ganda
23

Gambar 2.5
Format Kartu Soal dan Pedoman Penskoran Pilihan Ganda

Soal bentuk pilihan ganda merupakan soal yang telah disediakan


pilihan jawabannya. Peserta didik yang mengerjakan soal hanya memilih satu
jawaban yang benar dari pilihan jawaban yangdisediakan. Soalnya mencakup: (1)
dasar pertanyaan/stimulus (bila ada), (2) pokok soal (stem), (3) pilihan jawaban
yang terdiri atas: kunci jawaban dan pengecoh.

Gambar 2.6
Contoh Soal Pilihan Ganda
24

E. Menentukan Validitas dan Reliabilitas Penilaian Non Tes


Pengukuran penilaian hasil belajar menggunakan instrumen non tes untuk
mengevaluasi hasil belajar aspek afektif dan keterampilan motorik. Bentuk
penilaian yang menggunakan alat ukur/instrumen non tes yaitu: penilaian unjuk
kerja/performance, penilaian proyek/produk, penilaian potofolio, dan penilaian
sikap. Alat penilaian yang tergolong teknik non-tes antara lain: a)
kuesioner/angket, b) wawancara (interview), 3) daftar cocok (check-list), 4)
pengamatan/observasi, 5) penugasan, 6) portofolio, 7) jurnal, 8) inventori, 9)
penilaian diri (self-assessment), dan 9) penilaian oleh teman sejawat (peer
assessment)
Instrumen nontes yang dikembangkan hendaknya memenuhi kriteria
kualitas instrumen seperti reliabilitas, validitas, daya pembeda. Karena instrumen
nontes tidak menilai benar tidaknya jawaban responden, maka tidak perlu
mengukur tingkat kesukaran soal seperti pada instrumen tes (Rusilowati, 2013).

1. Validitas
Kevalidan instrumen nontes yang dikembangkan dapat dilihat dari
validitas isi dan konstruk teori yang mendasarinya. Ketepatan dalam menentukan
definisi konseptual, definisi operasional, dan penetapan aspek serta indikator yang
direncanakan. Faktor yang melemahkan validitas:
a. Identifikasi kawasan ukur tidak cukup jelas;
b. Operasionalisasi konsep (perumusan indikator) tidak tepat;
c. Penulisan butir tidak mengikuti kaidah;
d. Administrasi skala yang tidak hati-hati (kondisi subjek, kondisi testing);
e. Pemberian skor tidak cermat;
f. Interpretasi yang keliru;
2. Reliabilitas
Teknik penentuan reliabilitas dapat menggunakan test-retest, tes paralel,
tes belah dua. Rumus yang dapat digunakan antara lain: korelasi product moment,
Sperman Brown, Alpha, dll. Reliabilitas instrumen ditentukan dari besarnya
koefisien korelasi. Koefisien reliabilitas mencerminkan hubungan skor skala yang
25

diperoleh (X) dengan skor sesungguhnya (skor murni). Koefisien reliabilitas


sebesar 0,9 memiliki arti perbedaan yang tampak pada skala mampu
mencerminkan 90% dari variansi skor murni

BAB III
PENUTUP
A. Simpulan
Penentuan kualitas butir soal ditinjau dari validitas butir, tingkat
kesukaran, dan efektivitas pengecoh adalah sebagai berikut:
1. Butir soal dikatakan memiliki kualitas baik apabila:
a. Ditinjau dari validitas, butir soal dikatakan valid apabila rpbi lebih besar atau
sama dengan rtabel pada taraf signifikansi 5% sesuai dengan jumlah peserta
tes.
b. Ditinjau dari tingkat kesukaran, butir soal yang baik adalah butir soal yang
termasuk memiliki Tingkat Kesukaran sedang dengan indeks kesukaran 0,31-
0,70.
c. Ditinjau dari efektivitas pengecoh, butir soal dikatakan baik apabila termasuk
kategori baik atau memiliki 3 pengecoh yang berfungsi dan kategori sangat
baik atau memiliki 4 pengecoh berfungsi.
26

2. Butir soal dikatakan memiliki kualitas yang kurang baik apabila hanya
memenuhi tiga dari keempat kriteria butir soal yang baik.
3. Butir soal dikatakan memiliki kualitas yang tidak baik apabila hanya
memenuhi dua atau kurang dari dua kriteris dari keempat kriteria butir soal
yang baik.

B. Saran
Sebagai calon pendidik maupun pendidik, sangat penting
untuk memahami dan mengeti bagaimana penentuan jenis perilaku yang diukur,
bagaimana penyusunan kisi-kisi yang sesuai dengan pedoman maupun petunjuk
yang diatur oleh Kementrian Pendidikan Republik Indonesia. Sehingga akan
diperoleh soal-soal yang sesuai dengan kompetensi yang diujikan dan hasil yang
dapat menunjukkan kompetensi dari peserta didik tersebut.

DAFTAR RUJUKAN
25
Aiken, L. R. (1985). Three Coefficients foe Analyzing The Reliability, and
Validity of Ratings. Educational and Psychological Measurement, 131-
142.
Arifin, Z. (2012). Evaluasi Pembelajaran. Bandung: PT.Remaja Rosdakarya.
Arikunto, S. (2012). Dasar-Dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara.
Azwar, S. (2005). Dasar-dasar Psikometri. Yogyakarta: Pustaka Pelajar.
Clark, L. A. (1995). Constructing Validity: Basic Issues in Objective Scale
Development. Psychological Assesment, 309-319.
Coaley, K. (2010). An Introduction to Psychological Assessment and. London:
Sage.
Depdiknas. (2008). Panduan Penulisan Butir Soal. Jakarta: Departemen
Pendidikan Nasional.
Devellis, R. F. (2010). Scale Development. London: Sage Publication.
Djaali, & Muljono, P. (2008). Pengukuran dalam Bidang Pendidikan. Jakarta: PT
Gramedia Widiasarana Indonesia.
Haladyna. (1997). Writing Test Items to Evaluate Higher Order Thinking. Boston:
Allyn and Bacon.
27

Haynes, S., Richard, D., & Kubany, E. (1995). Content Validity in Psychological
Assessment: A Functional Approach to Concepts and Methods.
Psychological Assesment, 238-247.
Murphy, , K. R., & Davidshofer, C. O. (1991). Psychological Testing: Principles
and Applications. New Jersey: Prentence Hall.
Rahayu, R., & Djazari, M. (2016). Analisis Kualitas Soal Pra Ujian Nasional Mata
Peajaran Ekonomi Akuntansi. Jurnal Pendidikan Akuntansi Indonesia, 85-
94.
Rusilowati, A. (2013). Pengembangan Instrumen Non Tes. Seminar Nasional
Evaluasi Pendidikan Tahun 2013.
Sitinjak, & Sugiarto. (2006). LISREL. Yogyakarta: Graha Ilmu.
Sudaryono. (2012). Dasar-dasar Evaluasi Pembelajaran. Yogyakarta: Graha
Ilmu.
Sudijono, A. (2015). Pengantar Evaluasi Pendidikan. Jakarta: PT Raja Grafindo
Persada.
Sudjana, N. (2014). Penilaian Hasil Proses Belajar Mengajar. Bandung: PT
Remaja Rosdakarya.
Surapranata, S. (2009). Analisis, Validitas, Reliabilitas dan Interpretasi Hasil Tes
Implementasi Kurikulum 2004. Bandung: PT Remaja Rosdakarya.
To, K. (1996). Mengenal Analisis Tes (Pengantar ke Program ANATES) .
Bandung: IKIP BAndung.
Walizer, M. H., & Wienir, P. L. (1987). Metode dan Analisis Penelitian. Jakarta:
Erlangga.

Anda mungkin juga menyukai