Instrumen Tes
A.
Pengertian Instumen Tes
Untuk mengumpulkan data penelitian tentang penilain hasil belajar atau
prestasi belajar bisa dilakukan dengan memakai instrumen tes. Kata tes secara harfiah
berasal dari istilah Perancis kuno yaitu testum, yang mempunyai arti piring yang
berfungsi menyisihkan logam - logam mulia yang nilainya sangat tinggi seperti
emas. Sedangkan, di dalam bahasa Inggris testum ini dikenal dengan test yang
kemudian diterjemahkan dalam bahasa Indonesia yang berarti tes, percobaan atau
ujian, dan kata ini di dalam bahasa Arab sama artinya dengan imtihan.
Secara teoritis, test merupakan suatu alat atau prosedur yang dipakai dalam
rangka kegiatan pengukuran dan penilaian. Tes merupakan bagian tersempit dari
penilaian. Menurut Dejamri (2008:67), tes merupakan salah satu cara untuk
menaksirkan besarnya kemampuan seseoarng secara tidak langsung, yaitu melalui
respons seseorang terhadap stimulus atau pertanyaan. Tes juga dapat diartikan sebagai
jumlah pertanyaan yang harus diberikan tanggapan dengan tujuan untuk mengukur
tingkat kemampuan seseorang atau mengungkap aspek tertentu dari orang yang
dikenai tes. Tester merupakan orang yang melakukan tes, pembuat tes atau
eksperimentor merupakan orang yang melakukan percobaan dengan menggunakan
tes, sedangkan testee merupakan orang yang dikenai tes atau yang sedang dikenai
percobaan
(Dimyati
dan
Mudjiono,1999:209).
Tes juga dapat diartikan berupa sejumlah pertanyaan yang diberikan kepada
seseorang untuk diberi respon atau dijawab. Sedangkan, pengukuran mempunyai
pengertian lebih luas lagi bila dibandingkan dengan tes. Adapun evaluasi, merupakan
suatu proses pengumpulan informasi guna membuat sebuah penilaian terhadap
sesuatu, yang selanjutnya dipakai sebagai bahan pertimbangan dalam mengambil
suatu keputusan (Farida, 2008189-190).
B.
Waktu (menit)
Aspek Intelektual
Dan Bentuk Soal
Pokok isi pelajaran
Jumlah
Pengetahuan
A
Pemahaman
E
Bentuk
Soal
ASPEK
INTELEKTUAL
Persentase Aspek
Bentuk Soal
A: Bentuk soal benar salah
B: Bentuk soal pilihan ganda
C: Bentuk soal menjodohkan
D: Bentuk soal melengkapi atau jawaban singkat
E: Bentuk soal esai
Dst
E
Jumlah
Soal
(%)
1)
2)
3)
4)
objektif, yaitu: benar salah (true false), menjodohkan (matching), dan pilihan ganda
(multiple choice).
a) Tes benar salah, merupakan tpie tes yang butir-butir soalnya terdiri dari
pernyataan yang disertai alternatif jawaban yang benar dan salah, peserta
tes diharuskan mempertimbangkan suatu pernyataan tersebut sebagai
pernyataan
yang
benar
atau
salah.
B-S
salah.
Hindari menulis butir soal yang memperdayakan.
Hindari pernyataan negatif.
Menggunakan suatu bentuk yang tepat.
Hindari jawaban benar yang berpola.
Hindari penggunaan kata-kata kunci, seperti: pada umumnya, semua
salah.
Berikut ini adalah kaidah penulisan tes pilihan ganda seperti yang perlu
diperhatikan:
a) Pokok soal yang merupakan permasalahan harus dirumuskan secara
jelas.
b) Untuk satu soal hanya terdapat 1 jawaban yang benar atau paling
benar.
c) Perumusan pokok soal dan alternatif jawaban sebaiknya merupakan
pernyataan yang diperlukan saja.
d) Pada pokok soal, hindari perumusan pernyataan yang bersifat negatif.
e) Alternatif jawaban (option) hendaknya logis, dan pengecoh
(distractors) harus berfungsi atau menarik.
f) Diusahakan supaya tidak ada petujuk menuju jawaban yang benar.
g) Diusahakan supaya tidak menggunakan pilihan jawaban yang terakhir
bunyinya semua pilihan jawaban di atas benar atau semua pilihan
jawaban di atas salah.
h) Diusahakan supaya pilihan jawaban sifatnya homogen, baik dari segi
isi maupun panjang pendeknya pernyataan jawaban.
atau
pertanyaan.
kalimat yang mudah atau khusus, dan hanya ada satu jawaban yang benar.
Menggunakan bentuk yang cocok.
Jangan memutus-mutus butir soal melengkapi.
Menghindari pemberian petunjuk ke arah jawaban yang benar.
Menunjukkan
bagaimana
seharusnya
jawaban
yang
benar.
2) Subyektif
Pada umumnya tes subyektif berbentuk essay atau uraian. Tes essay, merupakan
bentuk tes yang jawabannya berupa uraian kalimat yang relatif panjang. Tes bentuk
uraian adalah butir soal yang mengandung pertanyaan atau tugas yang jawaban atau
pengerjaan soal tersebut harus dilakukan dengan cara mengekspresikan pikiran
peserta tes (Asmawi Zaenul dan Noehi Nasution, 2005:37). Menurut Suharsimi
(2008,162), ciri-ciri pertanyaan tes uraian didahului dengan kata-kata seperti uraikan,
jelaskan, mengapa, bagaimana dan sebagainya.
Menurut Eko Putro (2012, 83-84) terdapat dua macam tes essay yaitu
Extended response atau Uraian Bebas, dan Restricted response atau Uraian terbatas.
(1) Tes Uraian Bebas, merupakan bentuk tes uraian yang memberikan kebebasan kepada
peserta tes untuk mengorganisasikan dan mengekspresikan pikiran dan gagasannya
dalam menjawab soal tes. Bentuk soal seperti ini baik sekali untuk mengukur hail
belajar pada tingkatan aplikasi, analisis, evaluasi dan kreativitas.
(2) Tes Uraian Terbatas, merupakan bentuk tes uraian yang memberikan batasan-batasan
tertentu kepada peserta tes dalam menjawab soal tes. Batasan itu meliputi kontesk
jawaban yang diharapkan oleh peneliti, jumlah butir jawaban yang dikerjakan,
keluasan uraian jawaban dan luas jawaban yang diminta. Butir Soal soal jenis uraian
ini sebaiknya dipakai untuk mengukur hasil belajar tingkat pemahaman, aplikasi dan
analisis.
Berikut ini adalah kaidah penulisan tes essay seperti yang perlu diperhatikan:
(a) Hendaknya butir soal meliputi ide-ide pokok dari materi yang diujikan,
dan kalau mungkin disusun soal yang sifatnya komprehensif yang mampu
mewakili materi pokok dalam mata pelajaran yang diujikan.
(b) Sebaiknya butir soal tidak mengambil kalimat yang disalin langsung dari
buku atau catatan.
(c) Pada saat menyusun butir soal sudah dilengkapi dengan kunci jawaban
serta pedoman penskoran dalam rangka meningkatkan realibilitas butir
soal.
(d) Hendaknya ada variasi pertanyaan diantaranya jelaskan, mangapa,
bagimana, uraikan, bandingkan,supaya lebih diketahui tingkat penguasaan
responden terhadap bahan ujian.
(e) Hendaknya rumusan butir soal mudah dipahami oleh peserta tes.
(f) Hindari penggunaan kata yang mempunyai makna ganda.
Pendekatan lisan tidak jarang juga digunakan oleh guru kelas untuk
mengevaluasi siswanya. Pertanyaan lisan bisa memberikan umpan balik secara
langsung kepada guru maupun kepada siswa. Manfaat umum dari tes lisan yaitu
memberi kesempatan pendekatan yang lebih akrab untuk guru terhadap siswanya
dan sebaliknya. Hal ini sangat baik dalam rangka untuk keperluan diagnostik.
Pendekatan lisan bertujuan untuk mengungkapkan sebanyak - banyaknya
pengetahuan dan pemahaman siswa tentang materi atau bahan yang diujikan.
2.2.
A.
Validitas
Pengertian
Menurut Azwar (1986) Validitas berasal dari kata validity yang mempunyai
arti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi
ukurnya. Suatu skala atau instrumen pengukur dapat dikatakan mempunyai validitas
yang tinggi apabila instrumen tersebut menjalankan fungsi ukurnya, atau memberikan
hasil ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut. Sedangkan
tes yang memiliki validitas rendah akan menghasilkan data yang tidak relevan dengan
tujuan pengukuran.
Terkandung di sini pengertian bahwa ketepatan validitas pada suatu alat ukur
tergantung pada kemampuan alat ukur tersebut mencapai tujuan pengukuran yang
dikehendaki dengan tepat. Suatu tes yang dimaksudkan untuk mengukur variabel A
dan kemudian memberikan hasil pengukuran mengenai variabel A, dikatakan sebagai
alat ukur yang memiliki validitas tinggi. Suatu tes yang dimaksudkan mengukur
variabel A akan tetapi menghasilkan data mengenai variabel A atau bahkan B,
dikatakan sebagai alat ukur yang memiliki validitas rendah untuk mengukur variabel
A dan tinggi validitasnya untuk mengukur variabel A atau B (Azwar 1986).
Sisi lain dari pengertian validitas adalah aspek kecermatan pengukuran. Suatu
alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi
juga harus memberikan gambaran yang cermat mengenai data tersebut.
Cermat berarti bahwa pengukuran itu dapat memberikan gambran mengenai
perbedaan yang sekecil-kecilnya mengenai perbedaan yang satu dengan yang lain.
Sebagai contoh, dalam bidang pengukuran aspek fisik, bila kita hendak mengetahui
berat sebuah cincin emas maka kita harus menggunakan alat penimbang berat emas
agar hasil penimbangannya valid, yaitu tepat dan cermat. Sebuah alat penimbang
badan memang mengukur berat, akan tetapi tidaklah cukup cermat guna menimbang
berat cincin emas karena perbedaan berat yang sangat kecil pada berat emas itu tidak
akan terlihat pada alat ukur berat badan.
Menggunakan alat ukur yang dimaksudkan untuk mengukur suatu aspek tertentu
akan tetapi tidak dapat memberikan hasil ukur yang cermat dan teliti akan
menimbulkan kesalahan atau eror. Alat ukur yang valid akan memiliki tingkat
kesalahan yang kecil sehingga angka yang dihasilkannya dapat dipercaya sebagai
angka yang sebenarnya atau angka yang mendekati keadaan yang sebenarnya (Azwar
1986).
Pengertian validitas juga sangat erat berkaitan dengan tujuan pengukuran. Oleh
karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran.
Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang
spesifik. Dengan demikian, anggapan valid seperti dinyatakan dalam alat ukur ini
valid adalah kurang lengkap. Pernyataan valid tersebut harus diikuti oleh keterangan
yang menunjuk kepada tujuan (yaitu valid untuk mengukur apa), serta valid bagi
kelompok subjek yang mana? (Azwar 1986)
Pengertian validitas menurut Walizer (1987) adalah tingkaat kesesuaian antara
suatu batasan konseptual yang diberikan dengan bantuan operasional yang telah
dikembangkan.
Menurut Aritonang R. (2007) validitas suatu instrumen berkaitan dengan
kemampuan instrument itu untuk mengukur atu mengungkap karakteristik dari
variabel yang dimaksudkan untuk diukur. Instrumen yang dimaksudkan untuk
mengukur sikap konsumen terhadap suatu iklan, misalnya, harus dapat menghasilkan
skor sikap yang memang menunjukkan sikap konsumen terhadap iklan tersebut. Jadi,
jangan sampai hasil yang diperoleh adalah skor yang menunjukkan minat konsumen
terhadap iklan itu.
Validitas suatu instrumen banyak dijelaskan dalam konteks penelitian sosial yang
variabelnya tidak dapat diamati secara langsung, seperti sikap, minat, persepsi,
motivasi, dan lain sebagainya. Untuk mengukur variabel yang demikian sulit, untuk
mengembangkan instrumen yang memiliki validitas yang tinggi karena karakteristik
yang akan diukur dari variabel yang demikian tidak dapat diobservasi secara
langsung, tetapi hanya melalui indikator (petunjuk tak langsung) tertentu. (Aritonang
R. 2007)
Menurut Masri Singarimbun, validitas menunjukkan sejauh mana suatu alat
pengukur itu mengukur apa yang ingin diukur. Bila seseorang ingin mengukur berat
suatu benda, maka dia harus menggunakan timbangan. Timbangan adalah alat
pengukur yang valid bila dipakai untuk mengukur berat, karena timbangan memang
mengukur berat. Bila panjang sesuatu benda yang ingin diukur, maka dia harus
menggunakan meteran. Meteran adalah alat pengukur yang valid bila digunakan untuk
mengukur panjang, karena memang meteran mengukur panjang. Tetapi timbangan
bukanlah alat pengukur yang valid bilamana digunakan untuk mengukur panjang.
Sekiranya penelliti menggunakan kuesioner di dalam pengumpulan data
penelitian, maka kuesioner yang disusunnya harus mengukur apa yang ingin
diukurnya. Setelah kuesioner tersebut tersusun dan teruji validitasnya, dalam praktek
belum tentu data yang dikumpulkan adalah data yang valid. Banyak hal-hal lain yang
akan
mengurangi
validitas
data;
misalnya
apakah
si
pewawancara
yang
B.
instruksional.
Sementara itu, Kerlinger (1990) membagi validitas menjadi tiga yaitu:
Content validity (Validitas isi) adalah validitas yang diperhitungkan melalui
pengujian terhadap isi alat ukur dengan analisis rasional. Pertanyaan yang dicari
jawabannya dalam validitas ini adalah sejauh mana item-item dalam suatu alat
ukur mencakup keseluruhan kawasan isi objek yang hendak diukur oleh alat ukur
yang bersangkutan? atau berhubungan dengan representasi dari keseluruhan
kawasan.
Validitas isi suatu instrumen berkaitan dengan kesesuaian antara karakteristik dari
variaabel yang dirumuskan pada definisi konseptual dan operasionalnya. Apabila
semua karakteristik variabel yang dirumuskan pada definisi konseptualnya dapat
diungkap melalui butir-butir suatu instrument, maka instrument itu dinyatakan
memiliki validitas isi yang baik. Sayangnya, hal itu mungkin tidak akan pernah
tercapai karena sulitnya untuk mendefinisikan keseluruhan karakteristik itu. Selain
itu, dari seluruh karakteristik yang dirumuskan pada definisi konseptual suatu variabel
seringkali sulit untuk mengembangkan butir-butir yang valid untuk mengungkap atau
mengukurnya.
Validitas isi dapat dianalisis dengan cara memperhatikan penampakan luar dari
instrument dan dengan menganalisis kesesuaian butir-butirnya dengan karakteristik
yang dirumuskan pada definisi konseptual variabel yang diukur. Validitas yang
dianalisis dengan memperhatikan penampilan luar instrument itu disebut validitas
tampang (face validity). Validitas tampang dievaluasi dengan membaca dan
menyelidiki butir-butir instrument serta sekaligus membandingkannya dengan definisi
konseptual mengenai variabel yang akan diukur. Validitas yang dianalisis dengan
memperhatikan
kerepresentativan
butir-butir
instrument
disebut
validitas
alat ukur. Apabila isi alat ukur telah tampak sesuai dengan apa yang ingin
diukur maka dapat dikatakan maka validitas muka telah terpenuhi.
b. Logical Validity (Validitas Logis) disebut juga sebagai Validitas Sampling
(Sampling Validity) adalah validitas yang menunjuk pada sejauh mana isi alat
ukur merupakan representasi dari aspek yang hendak diukur. Validitas logis
sangat penting peranannya dalam penyusunan prestasi dan penyusunan skala,
yaitu dengan memanfaatkan blue-print atu table spesifikasi.
c. Construct validity (Validitas konstruk) adalah tipe validitas yang menunjukkan
sejauh mana alat ukur mengungkap suatu trait atau konstruk teoritis yang
hendak diukurnya. (Allen & Yen, dalam Azwar 1986). Pengujian validitas
konstruk merupakan prosesyang terus berlanjut sejalan dengan perkembangan
konsep mengenai trait yang diukur. Menurut Saifuddin Azwar, validitas
konstruk adalah seberapa besar derajat tes mengukur hipotesis yang
dikehendaki untuk diukur. Konstruk adalah perangai yang tidak dapat diamati,
yang menjelaskan perilaku. Menguji validitas konstruk mencakup uji hipotesis
yang dideduksi dari suatu teori yang mengajukan konstruk tersebut.
d. Criterion-related validity (Validitas berdasar kriteria). Validitas
ini
interval
Nilai
r xy =1
sedangkan
r xy . Nilai
r xy
ada pada
untuk nilai
r xy=1
r xy
r xy
x.
y
b. Korelasi produk moment memakai angka kasar (raw score).
Rumus korelasi produk moment memakai angka kasar (raw score) adalah:
r xy =
N XY ( X )( Y )
( N X ( X ) )( N Y ( X ) )
Dengan
satu
kali
pengukuran.
Pendekatan tes ulang merupakan pemberian perangkat tes yang sama terhadap
sekelompok subjek sebanyak dua kali dengan selang waktu yang berbeda. Asumsinya
adalah bahwa skor yang dihasilkan oleh tes yang sama akan menghasilkan skor
tampak yang relatif sama. Estimasi dengan pendekatan tes ulang akan menghasilkan
koefisien stabilitas. Untuk memperoleh koefisien reliabilitas melalui pendekatan tes
ulang dapat dilakukan dengan menghitung koefisien korelasi linear antara distribusi
skor subyek pada pemberian tes pertama dengan skor subyek pada pemberian tes
kedua. Pendekatan tes ulang sangat sesuai untuk mengukur ketrampilan terutama
ketrampilan fisik.
Dengan demikian, korelasi sebesar 0,954 menggambarkan bahwa reliabilitas
tes cukup tinggi. Salah satu kelemahan mendasar dari teknik test-retest adalah carryover effect. Masalah ini disebabkan oleh adanya kemungkinan pada test yang kedua
dipengaruhi oleh test pertama. Misalnya, jika peserta tes masih ingat dengan soal-soal
dan bahkan jawaban ketika dilakukan test pertama. Hal ini dapat meningkatkan
korelasi serta overestimasi terhadap PXX. Ross E. Traub (1994: 38)
2.1.2. Teknik Menghitung Reliabilitas
Analisis data untuk pendekatan tes tunggal bisa dibagi ke dalam dua macam teknik,
yaitu Teknik Belah-Dua (Split-Half Technique) dan Teknik Non Belah-Dua (Non
Split-Half Tehnique).
1. Teknik Belah-Dua
Dalam menentukan reliabilitas suatu perangkat (set) tes (evaluasi) dengan
menggunakan teknik belah-dua, dilakukan dengan jalan membelah alat evaluasi
tersebut menjadi dua bagian yang sama (relative sama), sehingga masing-masing
testi memiliki dua mcam skor. Teknik belah-dua ini bisa dilakukan dengan dua cara,
yaitu pembelahan menurut nomor (soal) ganjil dan nomor genap atau disingkat
metode Ganjil-Genap. Cara lain adalah dengan pembelahan menurut nomor urut
yang disebutkan dengan Metode Awal-Akhir.
Koefesien reliabilitas yang menyatakan derajat keterandalan alat evaluasi,
dinyatakan dengan
alat evaluasi dapat digunakan tolak ukur yang dibuat oleh J.P. Guilford (1965;145)
sebagai berikut ini:
r 11 0,20 derajat relibilitas sangat rendah.
0,20 r 11 0,40 derajar relibilitas rendah.
0,40 r 11 0,70 derajar relibilitas sedang.
0,70 r 11 0,90 derajar relibilitas tinggi.
0,90 r 11 1,00 derajar relibilitas sangat tinggi.
Untuk menentukan koefesien reliabilitas suatu alat evaluasi dengan teknik
belah dua, ada tiga macam teknik perhitungan, yaitu Formula Spearman-Brown,
Formula Flanagan, Formula Rulon.
a. Formula Spearman-Brown
Prinsip penggunaan
ormula
Spearman-Brown
adalah
dengan
r 11
22
r 11 =
22
.
n x 1 x 2( x 1)( x 2)
( n x
2
1
( x 1 )
)( n x ( x ) )
2
Dengan:
n= banyak subjek
x 1= kelompok data belahan pertama, dan
x 2= kelompok data belahan kedua.
Untuk menghitung koefesien reliabilitas alat evaluasi keseluruhan (satu
perangkat), Spearman-Brown menggunakan rumus
2 r 11
r 11 =
22
1+r 11
22
b. Formula Flanagan
2
r 11 =2 1
s1 + s2
s t2
Dengan:
r 11 = keofesien reliabilitas seluruh alat tes,
2
( )
r 11 = 1
st 2
Dengan:
s d2 = varians selisih skor subyek pada belahan kedua
2
s t = varians total
2. Teknik Non Belah-Dua
Pakar yang mengemukakan teknik non belah-dua ini adalah Kuder dan
Richardson. Mereka mengemukakan cara untuk menghitung koefesien reliabilitas
tanpa membelah alat evaluasi menjadi dua bagian, tetapi membagi alat evaluasi
menurut banyaknya butir soal yang disajikan, yaitu dengan cara menganalisis
masing-masing butir soal. Dari rumus-rumus yang telah dicobanya, ada dua buah
rumus yang paling mendekati tingkat kecermatan yang ideal, yaitu rumus ke-20
dan rumus ke-21 yang disingkat dengan KR-20 dan KR-21.
Asumsi untuk penggunaan rumus Kuder-Richardson adalah:
1) Butir-butir soal evaluasi harus homogen (setara), dan
2) Jenis evaluasi (tes) harus merupakan power test dan bukan speed
test.
Rumus KR-20 adalah:
( )(
r 11 =
n
n1
s t pi q i
s t2
Dengan:
n= banyak butir soal
pi= proporsi banyak subyek yang menjawab benar pada butir soal ke-i
qi =
proporsi banyak subyek yang menjawab salah pada butir soal ke-I, jadi
qi =1 pi
s t2= varians skor total
Rumus KR-21 adalah:
x ( n x )
n
r 11 =
1 t 2 t
n1
nst
( )(
Dengan:
n= banyak butir soal
x t= rerata skor total
2
si2
n
r 11 =
1 2
n1
st
( )(
Dengan:
n= banyak butir soal (item)
2
Daya Pembeda
Pengertian Daya Pembeda (DP) dari sebuah butir soal menyatakan seberapa
jauh kemampuan butir soal tersebut mampu membedakan antara testi yang
mengetahui jawabannya dengan benar dengan testi yang tidak dapat menjawab soal
tersebut (atau testi yang menjawab salah). Dengan perkataan lain, daya pembeda
sebuah butir soal adalah kemampuan butir soal itu untuk membedakan antara testi
(siswa) yang pandai atau berkemampuan tinggi dengan siswa yang berkemampuan
rendah.
Rumus untuk menentukan daya pembeda adalah seperti di bawah ini:
DP=
JB A JBB
JS A
atau
DP=
JB A JBB
JS B
Dengan:
JB A= jumlah siswa kelompok atas yang menjawab soal itu dengan benar,
atau jumlah benar untuk kelompok atas.
JB B= jumlah siswa kelompok bawah yang menjawab soal itu dengan
benar, atau jumlah benar untuk kelompok bawah.
JS A = jumlah siswa kelompok atas.
JS B = jumlah siswa kelompok bawah.
2.4.
Indeks Kesukaran
Derajat kesekaran suatu butir soal dinyatakan dengan bilangan yang disebut
IK=
JB A + JB B
JS A + JS B
Karena
JS B =JS B =27
IK=
JB A + JB B
2 JS B
Dengan:
IK= Indeks Kesukaran
JB A= jumlah siswa kelompok atas yang menjawab soal itu dengan benar,
atau jumlah benar untuk kelompok atas.
JB B= jumlah siswa kelompok bawah yang menjawab soal itu dengan benar,
atau jumlah benar untuk kelompok bawah.
JS A = jumlah siswa kelompok atas.
JS B = jumlah siswa kelompok bawah.
Klasifikasi indeks kesukaran yang paling banyak digunakan adalah:
IK=0,00 soal terlalu sukar,
0,00 IK 0,30 soal sukar,
0,30 r xy 0,70 soal sedang,
REFERENSI
JICA. (2003). Evaluasi Pembelajaran Matematika. Bandung: Jurusan Pendidikan
Matematika FPMIPA UPI
Sutama, dan Anik Ghufron.(2011).Evaluasi Pembelajaran Matematika.Jakarta. Universitas
Terbuka
Tim Pengembangan MKDP. (2011). Kurikulum dan Pembelajaran. Jakarta: Kharisma Putera
Utama Offset.
Timtoni, Ayu Arfiana. 2015. Mengestimasi Reliabilitas Instrumen.
http://aynatimtoni.blogspot.co.id/2015/11/mengestimasi-reliabilitas-instrumen.html.
diakses pada tanggal 10 Oktober 2016
Zahrudin, H. Mamun. (2015). Validitas dan Reliabilitas
http://evaluasipembelajaranelghazy.blogspot.co.id/2015/09/validitas-danreliabilitas.html. diakses pada tanggal 10 Oktober 2016