PENDAHULUAN
A. Latar Belakang
Dalam dunia pendidikan, guru memegang peran yang sangat penting
terhadap keberhasilan siswa. Secara garis besar, tugas utama seorang guru yakni
merencanakan pembelajaran, melaksanakan pembelajaran dan menilai proses
serta hasil pembelajaran. Penilaian proses maupun hasil pembelajaran yang
dilakukan untuk mengetahui kemampuan siswa dan untuk mengetahui tingkat
keberhasilan pembelajaran sering dikenal dengan istilah evaluasi. Evaluasi adalah
kegiatan atau proses untuk menilai sesuatu dan untuk dapat menentukan nilai dari
sesuatu yang sedang dinilai tersebut, dilakukanlah pengukuran (Sudijono, 2015).
Wujud dari pengukuran tersebut adalah pengujian yang dalam dunia pendidikan
dikenal dengan istilah tes.
Evaluasi memiliki arti penting dalam kegiatan belajar mengajar yang
dilaksanakan oleh seorang guru. Diantara tujuan dari evaluasi adalah untuk
menilai ketercapaian tujuan pendidikan oleh anak didik, sarana untuk mengetahui
apa yang telah anak didik ketahui dalam kegiatan belajar mengajar, dan
memotivasi anak didik. Untuk mengevaluasi hasil belajar dan proses belajar
siswa, seorang guru menggunakan berbagai macam alat atau instrumen evaluasi
seperti tes tertulis, tes lisan, ceklis-observasi, angket-wawancara, dan
dokumentasi.
Keberhasilan mengungkap hasil dan proses belajar ini sebagaimana
adanya (objektivitas hasil penilaian) sangat bergantung pada kualitas alat
penilainya, di samping itu juga yang tidak kalah pentingnya tergantung pada cara
pelaksanaannya. Suatu alat penilaian dikatakan mempunyai kualitas yang baik
apabila alat tersebut memiliki atau memenuhi dua hal, yaitu validitas (ketepatan)
dan reliabilitas (ketetapan atau keajegan) alat tes terjamin kualitasnya. Alat tes
yang bagaimana dan seperti apa yang dikatakan memiliki validitas dan reliabilias
ini (Sudaryono, 2012). Penganalisisan terhadap butir-butir soal tes hasil belajar
agar memiliki kualitas yang tinggi dapat dilakukan dari tiga segi yaitu dari segi
1
2
tingkat kesukaran itemnya, dari segi daya pembeda itemnya dan dari segi fungsi
distraktornya atau fungsi pengecoh (Sudijono, 2015).
Salah satu teknik yang digunakan untuk melakukan evaluasi terhadap hasil
belajar siswa yaitu dengan tes. Tes adalah cara atau prosedur yang perlu ditempuh
dalam rangka pengukuran dan penilaian di bidang pendidikan, yang berbentuk
pemberian tugas atau serangkaian tugas berupa pertanyaan-pertanyaan yang harus
dijawab atau perintah-perintah yang harus dikerjakan oleh testee, sehingga dapat
dihasilkan nilai yang melambangkan tingkah laku atau prestasi testee (Sudijono,
2015).
Soal tes yang berkualitas tersusun atas butir-butir soal yang berkualitas
pula. Agar dapat mengetahui kualitas suatu soal tes, maka perlu dilakukan analisis
terhadap kualitas soal. Analisis kualitas soal merupakan suatu tahap yang harus
ditempuh untuk mengetahui derajat kualitas suatu soal tes, baik secara
keseluruhan maupun butir soal yang menjadi bagian dari soal tes tersebut. Analisis
kualitas soal yang dimaksudkan adalah analisis yang ditinjau dari masing-masing
aspek Validitas, Reliabilitas, Tingkat Kesukaran dan Efektivitas Pengecoh.
Analisis Validitas dan Reliabilitas dapat digunakan untuk mengetahui kualitas soal
secara keseluruhan, sedangkan analisis Tingkat Kesukaran, Daya Pembeda dan
Efektivitas Pengecoh digunakan untuk mengetahui kualitas butir soal. Analisis
Tingkat Kesukaran maupun Daya Pembeda dapat digunakan untuk mengukur
kualitas butir soal objektif dan uraian.
Salah satu tujuan dilakukannya analisis terhadap kualitas soal adalah untuk
meningkatkan kualitas soal, yaitu apakah suatu soal telah dapat diterima, perlu
diperbaiki karena memiliki beberapa kelemahan atau tidak digunakan sama sekali
karena tidak berfungsi [ CITATION Sum09 \l 1057 ].
BAB II
PEMBAHASAN
4
5
ditergetkan untuk tujuan tertentu [ CITATION Hay95 \l 1057 ]. Validitas isi adalah
penjelasan tentang suatu alat ukur secara substantif atau disebut validitas
substantif yang fokus kepada konseptualisasi dan sejauhmana konsep-konsep
sebelumnya yang ditampilkan dalam kajian literatur [ CITATION Cla95 \l 1057 ].
Untuk mengetahui apakah tes valid atau tidak harus dilakukan melalui
penelaahan kisi-kisi tes untuk memastikan bahwa soal-soal tes itu sudah meakili
atau mencerminkan keseluruhan konten atau materi yang seharusnya dikuasai
secara proporsional. Oleh karena itu, validitas isi tes tidak mempunyai besaran
tertentu yang dihitung secara statistika, tetap dipahami bahwa tes sudah valid
berdasarkan telaah kisi-kisi tes. Menurut Wiersman dan Jurs (dalam Djaali &
Muljono, 2008) validitas isi lebih mendasarkan pada analisis logika jadi tidak
merupakan suatu koefisien validitas yang dihitung secara statistika.
Untuk memperbaiki validitas suatu tes, maka isi suatu tes harus
diusahakan agar mencakup semua pokok bahasan yang hendak diukur. Kriteria
untuk masing-masing pokok bahasan yang ada dalam suatu tes didasarkan
banyaknya isi masing-masing pokok bahasan yang dapat dilihat dari jumlah
halaman isi dan jumlah jam pertemuan untuk masing-masing pokok bahasan
seperti yang tercantum dalam kurikulum [ CITATION Dja08 \l 1057 ].
Selain itu, penentuan proporsi dapat pula didasarkan pendapat para ahli
dalam bidang yang bersangkutan. Jadi suatu tes akan mempunyai validitas isi
yang baik jika tes tersebut terdiri dari item-item yang mewakili semua materi yang
hendak diukur. Salah satu cara yang biasa dilakukan untuk memperbaiki validitas
isi suatu tes ialah dengan menggunakan blue-print untuk menentukan kisi-kisi tes
[ CITATION Dja08 \l 1057 ].
b. Validitas Konstruk.
Validitas konstruk adalah sebuah gambaran yang menunjukkan
sejauhmana alat ukur itu menunjukkan hasil yang sesuai dengan teori (Azwar,
2005). Proses pengujian validitas konstruk adalah menghubungkan alat ukur itu
dengan alat ukur lain yang memiliki kesamaan konsep atau dengan alat ukur-alat
ukur lain yang secara teoritis berkaitan dengannya (Murphy & Davidshofer,
1991). Menurut Arikunto (2012) sebuah tes dikatakan memiliki validitas
konstruksi apabila butir-butir soal yang membangun tes tersebut mengukur setiap
6
aspek berfikir seperti disebutkan dalam tujuan instruksional khusus. Dengan kata
lain jika butir-butir soal mengukur aspek berpikir tersebut sudah sesuai dengan
aspek berpikir yang menjadi tujuan instruksional.
Validitas konstruk biasa digunakan untuk instrumen-instrumen yang
dimaksudkan mengukur variabel-variabel konsep. Menetukan validitas konstruk
suatu instrumen harus dilakukan proses penelaahan teoritis dari suatu konsep dari
variabel yang hendak diukur, mulai dari perumusan, konstruk, penentuan dimensi
dan indikator sampai pada penjabaran dan penulisan butir-butir item instrumen.
Perumusan konstrul harus didasarkan sintesis dari teori-teori mengenai konsep
variabel yang hendak diukur melalui proses analisis dan komparasi yang logik dan
cermat [ CITATION Dja08 \l 1057 ]. Menyimak proses telaah teoritis seperti telah
dikemukakan, maka proses validasi konstruk sebuah instrumen harus dilakukan
melalui penelaahan atau justifikasi pakar atau melalui penilaian sekelompok panel
yang terdiri dari orang-orang yang menguasai substansi atau konten dari variabel
yang hendak diukur.
c. Validitas Empris atau Kriteria
Validitas kriteria adalah mengaitkan alat ukur dengan alat ukur lain
sebagai kriteria, apakah alat ukur ukur itu bisa dijelaskan hasil korelasinya dengan
dengan kriterianya berdasarkan teori yang ada [ CITATION Dev10 \l 1057 ].
Validitas empiris sama dengan validitas kriteria yang berarti bahwa validitas
ditentukan berdasarkan kriteria, baik kriteria internal maupun kriteria eksternal.
Kriteria internal adalah tes atau instrumen itu sendiri yang menjadi
kriteria, sedangkan kriteria eksternal adalah hasil ukur instrumen atau tes lain di
luar instrumen itu sendiri yang menjadi kriteria. Ukuran lain yang sudah dianggap
baku atau dapat dipercaya dapat pula dijadikan sebagai kriteria eksternal. Validitas
yang ditentukan berdasarkan kriteria internal disebut validitas internal, sedangkan
validitas yang ditentukan berdasarkan kriteria eksternal disebut validitas eksternal
[ CITATION Dja08 \l 1057 ].
1) Validitas Internal
Validitas internal merupakan validitas yang diukur dengan besaran yang
menggunakan instrumen sebagai suatu kesatuan (keseluruhan butir) sebagai
kriteria untuk menentukan validitas item atau butir dari instrumen itu. Dengan
7
Suatu hal yang perlu diperhatikan adalah interval waktu untuk memberikan tes
kedua (re-tes), sebaiknya jangan terlalu dekat sebab dihawatirkan siswa masih
dapat mengingat soal yang diberikan pada tes pertama. Oleh karena itu peneliti
hendaknya membuat soal yang tidak mudah diingat oleh siswa, mungkin tes
obyektif mungkin lebih “sulit” diingat dibandingkan dengan tes essay yang
jumlah soalnya relatif lebih sedikit dibandingkan dengan tes obyektif. Memang
tidak ada patokan berapa lama interval waktu untuk melakukan tes dan re-tes,
akan tetapi biasanya antara dua sampai empat minggu. Setelah diperoleh nilai tes
yang dipandang sebagai nilai X dan re-tes yang dipandang sebagai nilai Y,
selanjutnya koefisien reliabilitas dihitung dengan menggunakan teknik korelasi
product moment atau korelasi Pearson untuk menunjukkan korelasi (hubungan)
antara dua set nilai yang diperoleh tersebut. Tinggi rendahnya indeks korelasi
inilah yang menunjukkan derajat reliabilitas instrumen yang digunakan.
2) Teknik belah dua
Teknik belah dua ialah pengetesan (pengukuran) yang dilakukan dengan
dua kelompok item yang setara pada saat yang sama. Prosedur bagi dua ini
meliputi penilaian terhadap satu set soal yang dibagi dua (biasanya soal dengan
nomor ganjil dan nomor genap atau awal dan akhir) dikerjakan secara terpisah
oleh setiap orang. Selanjutnya dihitung koefisien korelasi untuk kedua belahan
soal tersebut. Koefisien korelasi yang diperoleh menunjukan derajat korelasi
terhadap kedua kedua belahan soal, dan oleh karena itu menggambarkan
konsistensi internal dari tes tersebut. Dengan teknik belah dua ganjil-genap
peneliti harus mengelompokkan nilai butir bernomor ganjil sebagai belahan
pertama (X) dan kelompok nilai butir bernomor genap sebagai belahan kedua (Y).
Selanjutnya carilah rXY yaitu korelasi nilai skor belahan pertama dan kedua
dengan menggunakan rumus Spearman – Brown.
3) Bentuk ekivalen
Pengetesan (pengukuran) dilakukan dengan menggunakan dua tes yang
dibuat setara kemudian diberikan kepada responden atau obyek tes dalam waktu
yang bersamaan. Apabila metode ini digunakan, maka dua buah tes (instrumen)
yang terpisah satu sama lain, namun ekuivalen (juga disebut tes pilihan atau tes
paralel) dikenakan pada kelompok individu yang sama pada periode waktu yang
10
sama dalam arti tidak harus menunggu waktu beberapa hari atau minggu.
Meskipun pertanyaan-pertanyaan antara kedua instrumen tersebut berbeda, akan
tetapi keduanya harus memiliki isi (kontent) yang sama dan mengukur sesuatu
yang sama pula atau identik. Setelah diperoleh nilai tes untuk instrumen pertama
yang dipandang sebagai nilai X dan instrumen kedua yang dipandang sebagai nilai
Y, selanjutnya koefisien reliabilitas dihitung dengan menggunakan teknik korelasi
product moment atau korelasi Pearson. Tingginya nilai koefisien korelasi yang
diperoleh, menunjukkan bukti yang kuat mengenai reliabilitas bahwa kedua
instrumen tersebut mengukur sesuatu yang sama.
Metode ini memungkinkan untuk menggabungkan antara metode tes-retes
dan metode paralel (bentuk ekuivalen). Instrumen yang dibuat untuk tes paralel,
diberikan dua kali terhadap kelompok individu yang sama, hanya dengan interval
waktu yang berbeda sebagaimana dilakukan pada metode tes-retes. Koefisien
reliabilitas yang tinggi akan menunjukkan bahwa dua bentuk instrumen tersebut
tidak hanya mengukur dua jenis performance yang sama, akan tetapi juga
memiliki konsistensi sepanjang waktu.
b. Reliabilitas Konsistensi Gabungan
Reliabilitas ini berkaitan dengan kemantapan atau konsistensi antara item-
item suatu tes. Bila terhadap bagian obyek ukur yang sama, hasil ukur melalui
item yang satu kontradiksi atau tidak konsisten dengan hasil ukur melalui item
yang lain maka pengukuran dengan tes (alat ukur) sebagai suatu kesatuan itu tidak
dapat dipercaya [ CITATION Dja08 \l 1057 ]. Koefesien reliabilitas konsistensi
gabungan item dapat dihitung dengan menggunakan:
1) Rumus Kuder-Richardson, yang dikenal dengan nama KR-20 dan KR-21.
2) Rumus koefisien Alpha atau Alpha Cronbach.
3) Rumus reliabilitas Hoyt, yang menggunakan analisis varian.
Keterangan :
IP = indeks pengecoh
P = jumlah peserta didik yang memilih pengecoh
N = jumlah peserta didik yang ikut tes
B = jumlah peserta didik yang menjawab benar pada setiap soal
n = jumlah alternatif jawaban (opsi)
1 = bilangan tetap
Kriteria Efektivitas Pengecoh berdasarkan angka indeks pengecoh sebagai
berikut:
Tabel 2.1 Kriteria Efektivitas Pengecoh
Indeks Pengecoh Kualitas
76% - 125% Sangat baik
51% - 75% atau 126% - 150% Baik
26% - 50% atau 151% - 175% Kurang baik
0% - 25% atau 176% - 200% Jelek
Lebih dari 200% Sangat jelek
Sumber : Arifin (2010)
Pada soal bentuk pilihan-ganda ada alternatif jawaban (opsi) yang
merupakan pengecoh, jadi pengecoh disini adalah jawaban dari soal yang bisa
mengecoh jawaban yang sebenarnya. Option atau alternatif itu jumlahnya berkisar
antara tuga sampai dengan lima buah, dan dari kemungkinan-kemungkinan jawab
yang terpasang pada setiap butri item itu, salah satu di antaranya adalah
merupakan jawaban betul (= kunci jawaban); sedangkan sisanya adalah
merupakaan jawaban salah. Jawaban-jawaban salah itulah yang biasa dikenal
dengan istilah pengecoh atau pengecoh [ CITATION Ana15 \l 1057 ].
12
Keterangan:
** : kunci jawaban
++ : sangat baik
+ : baik
- : kurang baik
_ : jelek
_ _ : sangat jelek
Pada contoh di atas, IP butir a, b, c, d, dan e adalah 93%, 107%, 93% dan
107%. Semuanya dekat dengan angka 100%, sehingga digolongkan sangat baik
sebab semua pengecoh itu berfungsi. Jika pilihan jawaban peserta didik
menumpuk pada suatu alternatif jawaban, misalnya seperti berikut :
Tabel 2.3 Contoh Keefektifitasan Pengecoh yang Tidak Baik
Alternatif Jawaban a b c d e
Distribusi jawaban peserta didik 20 2 20 8 0
IP 267% 27% ** 107% 0%
Kualitas Pengecoh ++ - ** ++ -
Sumber : Penulis
Dengan demikian, dapat ditafsirkan pengecoh (d) yang terbaik, pengecoh
(e) dan (b) tidak berfungsi, pengecoh (a) menyesatkan, maka pengecoh (a) dan (e)
perlu diganti karena termasuk jelek, dan pengecoh (b) perlu direvisi karena kurang
baik.
Keterangan:
Tk : Indeks tingkat kesukaran butir soal
SA : jumlah skor kelompok atas
SB : jumlah skor kelompok bawah
IA : jumlah skor ideal kelompok atas
IB : jumlah skor ideal kelompok bawah
Untuk menafsirkan tingkat kesukaran soalnya dapat digunakan kriteria
sebagai berikut [CITATION Ari101 \l 1057 ].
a. Jika jumlah peserta didik yang gagal mencapai 27% termasuk mudah.
b. Jika jumlah peserta didik yang gagal antara 28% sampai dengan 72%
termasuk sedang.
c. Jika jumlah peserta didik yang gagal 73% ke atas termasuk sukar.
16
Sumber : Penulis
Tabel 2.6
Jawaban Benar-Salah dari Kelompok Bawah
No. Soal
1 2 3 4 5 6 7 8 9 10
Peserta Didik
Rahayu 1 1 1 1 1 1 1 0 1 0
Eko 0 0 1 0 0 0 1 1 1 0
Laila 1 0 0 0 1 1 0 1 0 1
Ulfa 0 0 1 0 0 0 1 1 1 0
Arin 0 1 0 0 1 1 0 1 1 1
Zuhriyah 1 1 1 1 1 1 1 0 0 1
Ali 1 1 0 0 0 1 0 0 0 0
Riza 0 0 0 1 0 1 0 1 1 0
Anis 0 0 0 0 0 0 1 0 0 1
Atania 0 0 0 1 0 1 0 1 0 1
Sumber : Penulis
b. Soal sukar 20%, soal sedang 60%, soal mudah 20%, atau
c. Soal sukar 15%, soal sedang 70%, soal mudah 15%.
2. Soal Bentuk Uraian
Cara menghitung tingkat kesukaran untuk soal bentuk uraian adalah
menghitung beberapa persen peserta didik yang gagal menjawab benar atau ada
dibawah batas lulus (passing grade) untuk tiap-tiap soal. Contoh analisis tingkat
kesukaran soal bentuk uraian adalah sebagai berikut :
33 orang peserta didik di tes dengan lima soal bentuk uraian. Skor maksimum
ditentukan 10 dan skor minimum 0. Jumlah peserta didik yang memperoleh nilai
0-5 = 10 orang (berarti gagal), nilai 6 = 12 orang, dan nilai 7-10 = 11 orang.
10
Jadi, tingkat kesukaran (TK) = ×100 =30,3
33
Tingkat kesukaran 30,3 berada di antara 28 dan 72, berarti soal tersebut termasuk
sedang. Catatan: batas lulus ideal = 6 (skala 0-10).
Gambar 2.1
Contoh penyusunan skala
Gambar 2.2
Format Kartu Soal Uraian
Gambar 23
Format Kartu Soal dan Pedoman Pennskoran Soal Uraian
Gambar 2.4
Format Kartu Soal Pilihan Ganda
23
Gambar 2.5
Format Kartu Soal dan Pedoman Penskoran Pilihan Ganda
Gambar 2.6
Contoh Soal Pilihan Ganda
24
1. Validitas
Kevalidan instrumen nontes yang dikembangkan dapat dilihat dari
validitas isi dan konstruk teori yang mendasarinya. Ketepatan dalam menentukan
definisi konseptual, definisi operasional, dan penetapan aspek serta indikator yang
direncanakan. Faktor yang melemahkan validitas:
a. Identifikasi kawasan ukur tidak cukup jelas;
b. Operasionalisasi konsep (perumusan indikator) tidak tepat;
c. Penulisan butir tidak mengikuti kaidah;
d. Administrasi skala yang tidak hati-hati (kondisi subjek, kondisi testing);
e. Pemberian skor tidak cermat;
f. Interpretasi yang keliru;
2. Reliabilitas
Teknik penentuan reliabilitas dapat menggunakan test-retest, tes paralel,
tes belah dua. Rumus yang dapat digunakan antara lain: korelasi product moment,
Sperman Brown, Alpha, dll. Reliabilitas instrumen ditentukan dari besarnya
koefisien korelasi. Koefisien reliabilitas mencerminkan hubungan skor skala yang
25
BAB III
PENUTUP
A. Simpulan
Penentuan kualitas butir soal ditinjau dari validitas butir, tingkat
kesukaran, dan efektivitas pengecoh adalah sebagai berikut:
1. Butir soal dikatakan memiliki kualitas baik apabila:
a. Ditinjau dari validitas, butir soal dikatakan valid apabila rpbi lebih besar atau
sama dengan rtabel pada taraf signifikansi 5% sesuai dengan jumlah peserta
tes.
b. Ditinjau dari tingkat kesukaran, butir soal yang baik adalah butir soal yang
termasuk memiliki Tingkat Kesukaran sedang dengan indeks kesukaran 0,31-
0,70.
c. Ditinjau dari efektivitas pengecoh, butir soal dikatakan baik apabila termasuk
kategori baik atau memiliki 3 pengecoh yang berfungsi dan kategori sangat
baik atau memiliki 4 pengecoh berfungsi.
26
2. Butir soal dikatakan memiliki kualitas yang kurang baik apabila hanya
memenuhi tiga dari keempat kriteria butir soal yang baik.
3. Butir soal dikatakan memiliki kualitas yang tidak baik apabila hanya
memenuhi dua atau kurang dari dua kriteris dari keempat kriteria butir soal
yang baik.
B. Saran
Sebagai calon pendidik maupun pendidik, sangat penting
untuk memahami dan mengeti bagaimana penentuan jenis perilaku yang diukur,
bagaimana penyusunan kisi-kisi yang sesuai dengan pedoman maupun petunjuk
yang diatur oleh Kementrian Pendidikan Republik Indonesia. Sehingga akan
diperoleh soal-soal yang sesuai dengan kompetensi yang diujikan dan hasil yang
dapat menunjukkan kompetensi dari peserta didik tersebut.
DAFTAR RUJUKAN
25
Aiken, L. R. (1985). Three Coefficients foe Analyzing The Reliability, and
Validity of Ratings. Educational and Psychological Measurement, 131-
142.
Arifin, Z. (2012). Evaluasi Pembelajaran. Bandung: PT.Remaja Rosdakarya.
Arikunto, S. (2012). Dasar-Dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara.
Azwar, S. (2005). Dasar-dasar Psikometri. Yogyakarta: Pustaka Pelajar.
Clark, L. A. (1995). Constructing Validity: Basic Issues in Objective Scale
Development. Psychological Assesment, 309-319.
Coaley, K. (2010). An Introduction to Psychological Assessment and. London:
Sage.
Depdiknas. (2008). Panduan Penulisan Butir Soal. Jakarta: Departemen
Pendidikan Nasional.
Devellis, R. F. (2010). Scale Development. London: Sage Publication.
Djaali, & Muljono, P. (2008). Pengukuran dalam Bidang Pendidikan. Jakarta: PT
Gramedia Widiasarana Indonesia.
Haladyna. (1997). Writing Test Items to Evaluate Higher Order Thinking. Boston:
Allyn and Bacon.
27
Haynes, S., Richard, D., & Kubany, E. (1995). Content Validity in Psychological
Assessment: A Functional Approach to Concepts and Methods.
Psychological Assesment, 238-247.
Murphy, , K. R., & Davidshofer, C. O. (1991). Psychological Testing: Principles
and Applications. New Jersey: Prentence Hall.
Rahayu, R., & Djazari, M. (2016). Analisis Kualitas Soal Pra Ujian Nasional Mata
Peajaran Ekonomi Akuntansi. Jurnal Pendidikan Akuntansi Indonesia, 85-
94.
Rusilowati, A. (2013). Pengembangan Instrumen Non Tes. Seminar Nasional
Evaluasi Pendidikan Tahun 2013.
Sitinjak, & Sugiarto. (2006). LISREL. Yogyakarta: Graha Ilmu.
Sudaryono. (2012). Dasar-dasar Evaluasi Pembelajaran. Yogyakarta: Graha
Ilmu.
Sudijono, A. (2015). Pengantar Evaluasi Pendidikan. Jakarta: PT Raja Grafindo
Persada.
Sudjana, N. (2014). Penilaian Hasil Proses Belajar Mengajar. Bandung: PT
Remaja Rosdakarya.
Surapranata, S. (2009). Analisis, Validitas, Reliabilitas dan Interpretasi Hasil Tes
Implementasi Kurikulum 2004. Bandung: PT Remaja Rosdakarya.
To, K. (1996). Mengenal Analisis Tes (Pengantar ke Program ANATES) .
Bandung: IKIP BAndung.
Walizer, M. H., & Wienir, P. L. (1987). Metode dan Analisis Penelitian. Jakarta:
Erlangga.