Puji syukur penyusun ucapkan kepada Tuhan Yang Maha Esa, berkat rahmat dan
karunianya, penyusun dapat menyelesaikan makalah ini dengan judul “Makalah Tes” guna untuk
memenuhi tugas mata kuliah evaluasi pembelajaran matematika.
Penyusun mengucapkan terimakasih kepada semua pihak yang telah berperan dalam
membantu penyusun menyelesaikan makalah ini, khususnya ibu ……… selaku dosen
pembimbing mata kuliah Bimbingan Konseling yang telah membimbing dan mengarahkan
penyusun dalam penyelesaian makalah ini.
Penyusun menyadari bahwa isi makalah ini masih terdapat kekurangan, untuk itu kritik
dan saran penyusun harapkan kepada pembaca demi kesempurnaan makalah ini. Akhir kata
penyusun mengucapkan terimakasih.
Kelompok 9
DAFTAR ISI
KATA PENGANTAR..................................................................................................................ii
DAFTAR ISI...............................................................................................................................iii
BAB I PENDAHULUAN.............................................................................................................1
A. Latar Belakang.............................................................................................................1
B. Rumusan Masalah........................................................................................................1
C. Tujuan Penulisan..........................................................................................................1
D. Manfaat Penulisan........................................................................................................2
BAB II PEMBAHASAN..............................................................................................................3
A. Pengertian Tes......................................................................................................3
B. Jenis-jenis Tes......................................................................................................6
C. Validitas Tes....................................................................................................10
D. Reabilitas Tes..................................................................11
E. Indeks Kesukaran.........................................................................................................13
A. Kesimpulan.................................................................................................................14
B. Saran...........................................................................................................................14
DAFTAR PUSTAKA.................................................................................................................16
BAB I
PENDAHULUAN
A. Latar Belakang
Analisis kualitas instrumen evaluasi atau istilah lainnya kualitas alat evaluasi merupakan
hal penting dalam melakukan evaluasi karena kita merasa bahwa instrumen atau alat ukur yang
dibuat ada banyak kelemahannya dari beberapa sisi. Kelemahan itu bisa terjadi karena alat untuk
mengevaluasi tidak tepat untuk mengevaluasi, berbobot mudah, sedang, dan sukar bagi siswa.
Soal yang terlalu sukar untuk menilai peserta didik menyebabkan harapan dalam pembelajaran
tidak tercapai. Demikian pula halnya dengan instrumen yang terlalu mudah untuk dijawab,
menyebabkan kesukaran dalam mengkategorisasikan mana siswa yang pintar dan yang tidak
pintar. Kualitas alat evaluasi dimunculkan ke permukaan ketika seorang guru melakukan tes
selesai proses pembelajaran selama empat bulan kemudian hasilnya dicermati dan ternyata tidak
sesuai dengan apa yang diharapkan yakni menunjukkan apa di bawah rerata yang dicapai guru.
Di manakah letak kesalahannya? Apakah ada di guru atau di siswa?
Kalau kesalahan ada pada guru maka menjadi persoalan baru adalah bagaimana metode
mengajar yang dilakukan guru? Bagaimanakah keadaan alat evaluasi itu?
Ada cara dengan mengumpulkan rencana pelaksanaan pembelajaran selama empat bulan
dilihat dan dianalisis tujuan pembelajaran yang ditulis tidak terlalu tinggi, sesuai dangan tingkat
perkembangan siswa. Dilihat dari sisi lain yaitu proses pelaksanaan pembelajaran yang dilakukan
guru, berjalan dengan baik sesuai dengan acuan rencana pelaksanaan pembelajaran seperti
memilih metode, pendekatan, startegi, dan media yang baik untuk mendukung proses
pembelajaran.
Ada hubungan timbal balik antara tujuan pembelajaran, proses pembelajaran dan
penilaian hasil belajar. Bila kedua hal yakni tujuan dan proses pembelajaran tidak bermasalah
maka persoalan yang ada dengan nilai hasil belajar rendah tidak sesuai dengan yang diharapkan,
adalah alat penilaian. Dipertanyakan alat kualitas penilaian apakah sudah baik atu belum untuk
mengukur tujuan pembelajaran dan indikator kompetensi yang telah ditentukan?
Menguji instrumen dalam hal ini perlu sekali, di samping kesesuaian instrumen yang
dibuat dengan objekyang akan diuji diakatakan juga bahwaperlu diuji kualitas instrumen untuk
dapat dipakai pada lain kesempatan dan objek lain dalam satuan pendidikan yang sama.
Kadangkala kita menemui instrumen seperti tes soal matematika yang tidak dapat diapakai
untukmenguji objek sekolah yang berbeda walaupun sama satuan pendidikannya. Kualitas
instrumen evaluasi yang rendah menyebabkan produk lulusan yang tidak baik.
Beberapa manfaat dan kepentingan lain perlunya kualitas instrumen evaluasi yang baik
antara lain untuk:
1. membentuk bank soal standar
2. menentukan grade tingkat mutu lembaga pendidikan
3. memudahkan mengambil data lapangan yang berkualitas.
Dalam menganalisis kualitas instrumen evaluasi dilakukan uji validitas, uji realibiltas,
daya beda instrumen dan tingkat kesukaran instrumen.
B. Rumusan Masalah
C. Tujuan Penulisan
1. Untuk mengetahui apa itu tes.
2. Untuk mengetahui jenis-jenis tes.
3. Untuk mengetahui pengertian validitas tes
4. Untuk mengetahui pengertian reliabilitas tes
5. Untuk mengetahui cara menentukan daya beda
6. Untuk mengetahui pengertian indeks kesukaran.
D. Manfaat Penulisan
Manfaat yang dapat diperoleh dari penulisan makalah ini mencakup beberapa yang terkait
diantaranya sebagai berikut :
1. Bagi Mahasiswa
Makalah ini dapat digunakan sebagai bahan referensi atau masukan tentang kualitas alat
penilaian. Kualitas alat penilaian ini sangat bermanfaat bagi mahasiswa sebagai calon guru.
Sebagai bahan bacaan yang bermanfaat untuk menambah pengetahuan tentang evaluasi
pembelajaran bahas, serta untuk menambahkan peran aktif masyarakat dalam pendidikan.
BAB II
PEMBAHASAN
1. Pengertian Tes
Tes secara sederhana dapat diartikan sebagai himpunan pertanyaan yang harus dijawab,
pernyataan-pernyataan yang harus dipilih/ditanggapi, atau tugas-tugas yang harus dilakukan oleh
peserta tes dengan tujuan untuk mengukur suatu aspek tertentu dari peserta tes. Dalam kaitan
dengan pembelajaran aspek tersebut adalah indikator pencapaian kompetensi. Tes berasal dari
bahasa Perancis yaitu “testum” yang berarti piring untuk menyisihkan logam mulia dari material
lain seperti pasir, batu, tanah, dan sebagainya. Kemudian diadopsi dalam psikologi dan
pendidikan untuk menjelaskan sebuah instrumen yang dikembangkan untuk dapat melihat dan
mengukur dan menemukan peserta Tes yang memenuhi criteria tertentu. Cronbach(dalam Azwar,
2005) mendefinisikan tes sebagai “a systematic procedure for observing a person’s behavior and
describing it with the aid of a numerical scale or category system”. Sedangkan Menurut Ebster’s
Collegiate (dalam Arikunto, 1995), tes adalah serangkaian pertanyaan atau latihan atau alat lain
yang digunakan untuk mengukur keterampilan, pengetahuan, intelegensia, kemampuan atau
bakat yang dimiliki oleh individu atau kelompok.
a. tes yang mengukur intelegensia umum yang dirancang untuk mengukur kemampuan
umum seseorang dalam suatu tugas
b. tes yang mengukur kemampuan khusus atau tes bakat yang dibuat untuk mengungkap
kemampuan potensial dalam bidang tertentu
c. tes yang ditujukan untuk mengukur prestasi yang digunakan untuk mengungkapkan
kemampuan aktual sebagai hasil belajar
d. tes yang mengungkap aspek kepribadian (personality assesment) yang bertujuan
mengungkap karakteristik individual subjek dalam aspek yang diukur.
Untuk mengumpulkan data penelitian tentang hasil belajar atau prestasi belajar bisa
dilakukan dengan memakai instrumen tes. Kata tes secara harfiah berasal dari istilah Perancis
kuno yaitu testum, yang mempunyai arti “piring yang berfungsi menyisihkan logam - logam
mulia yang nilainya sangat tinggi seperti emas”. Sedangkan, di dalam bahasa Inggris testum ini
dikenal dengan test yang kemudian diterjemahkan dalam bahasa Indonesia yang berarti tes,
percobaan atau ujian, dan kata ini di dalam bahasa Arab sama artinya dengan imtihan.
Secara teoritis, test merupakan suatu alat atau prosedur yang dipakai dalam rangka
kegiatan pengukuran dan penilaian. Tes merupakan bagian tersempit dari penilaian. Menurut
Dejamri (2008:67), tes ,erupakan salah satu cara untuk menaksirkan besarnya kemampuan
seseoarng secaratidak langsung, yaitu melalui respons seseorang terhadap stimulus atau
pertanyaan. Tes juga dapat diartikan sebagai jumlah pertanyaan yang harus diberikan tanggapan
dengan tujuan untuk mengukur tingkat kemampuan seseorang atau mengungkap aspek tertentu
dari orang yang dikenai tes. Tester merupakan orang yang melakukan tes, pembuat tes atau
eksperimentor merupakan orang yang melakukan percobaan dengan menggunakan tes,
sedangkan testee merupakan orang yang dikenai tes atau yang sedang dikenai percobaan
(Dimyati dan Mudjiono,1999:209).
Tes juga dapat diartikan berupa sejumlah pertanyaan yang diberikan kepada seseorang
untuk diberi respon atau dijawab. Sedangkan, pengukuran mempunyai pengertian lebih luas lagi
bila dibandingkan dengan tes. Adapun evaluasi, merupakan suatu proses pengumpulan informasi
guna membuat sebuah penilaian terhadap sesuatu, yang selanjutnya dipakai sebagai bahan
pertimbangan dalam mengambil suatu keputusan (Farida, 2008189-190).
Kebaikan soal bentuk pilihan-ganda, antara lain: (1) cara penilaian dapat dilakukan dengan
mudah, cepat, dan objektif, (2) dapat mencakup ruang lingkup bahan/materi yang luas, (3)
mampu mengungkap tingkat kognitif rendah sampai tinggi, dan (4) dapat digunakan berulang
kali.
Sedangkan kelemahannya antara lain: (1) proses penyusunan soal benar-benar membutuhkan
waktu yang lama, (2) memberi peluang siswa untuk menebak jawaban, dan (3) kurang mampu
meningkatkan daya nalar siswa.
2. Tes Lisan
Tes lisan yakni tes yang pelaksanaannya dilakukan dengan mengadakan tanya jawab
secara langsung antara pendidik dan peserta didik. Tes ini memiliki kelebihan dan kelemahan.
Kelebihannya antara sebagai berikut.
1.) Dapat menilai kemampuan dan tingkat pengetahuan yang dimiliki peserta didik, sikap, serta
kepribadiannya karena dilakukan secara berhadapan langsung.
2.) Bagi peserta didik yang kemampuan berpikirnya relatif lambat sehingga sering mengalami
kesukaran dalam memahami pernyataan soal, tes bentuk ini dapat menolong sebab peserta didik
dapat menanyakan langsung kejelasan pertanyaan yang dimaksud.
3.) Hasil tes dapat langsung diketahui peserta didik.
Sedangkan kelemahan dari tes lisan adalah sebagai berikut.
1.) Subjektivitas guru sering mencemari hasil tes
2.) Waktu pelaksanaan yang diperlukan relatif cukup lama.
3. Tes Perbuatan
Tes perbuatan yakni tes yang penugasannya disampaikan dalam bentuk lisan atau tertulis
dan pelaksanaan tugasnya dinyatakan dengan perbuatan atau unjuk kerja. Penilaian tes perbuatan
dilakukan sejak peserta didik melakukan persiapan, melaksanakan tugas, sampai dengan hasil
yang dicapainya.
Untuk menilai tes perbuatan pada umumnya diperlukan sebuah format pengamatan, yang
bentuknya dibuat sedemikian rupa agar pendidik dapat menuliskan angka-angka yang
diperolehnya pada tempat yang sudah disediakan. Bentuk formatnya dapat disesuaikan menurut
keperluan. Untuk tes perbuatan yang sifatnya individual, sebaiknya menggunakan format
pengamatan individual. Untuk tes perbuatan yang dilaksanakan secara kelompok digunakan
format tertentu yang sudah disesuaikan untuk keperluan pengamatan kelompok.3
3. Validitas Tes
Validitas berasal dari kata validity yang berarti sejauh mana ketepatan dan kecermatan
suatu alat ukur dalam melakukan fungsi ukurnya. Menurut Scarvia B. Anderson dkk suatu tes
dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur. Valid berarti shahih,
artinya keabsahan instrumen itu tidak diragukan lagi. Suatu tes atau nontes dari alat ukur atau
instrmen pengukuran diikatakan memiliki valiidtas yang tngg apabla alat tersebut menjalankan
fungsi ukurnya atau memberikan hasil ukur yang sesuai dengan maksud dilakukannya
pengukuran itu. Hasil ukur dari pengukuran merupakan besaran yang mencerminkan secara tepat
dan fakta atau keadaan yang sesungguhnya dari apa yang diukur. Diberikan tes kepada
sekelompok orang misalkan berhubungan dengan kemampuan mekanik terhadap mobil, maka
skor yang diperoleh berhubungan dengan kemampuan seseorang dalam mengendarai dan
memperbaiki mobil bukan kemampuan seseorang berkenaan dengan pengetahuan tentang mobil
seperti macam-macam mobil, jenis mobil yang baik, dan sebagainya. Contoh lain misalkan
gurumemberi tes tentang penalaran kritis seorang siswa berkaitan dengan soal konsep
matematika, bukan skor yang berkaitan dengan kemampuan penerapan konsep matematika
ataukemampuan menyelesaikan soal cerita dalam matematika.
Validitas suatu instrumen tes secara umum dibagi dua yaitu validitas teori dan validitas
empirik. Pembagan lain dari macam validitas menjadiempat bagian yaitu validitas isi, konstruk,
konkuren, dan prediksi. Validitas konkuren dan validitas prediksi masuk dalam validitas empirik.
Pembagian lain dari validitas adalah validitas logik dan validitas empirik.
1. Validitas teori
Validitas teoritik atau validitas logik adalah validitas alat evaluasi yang dilakukan
berdasarkan pertimbangan (judgement) teoritik atau logika yang dilakukan oleh para ahli atau
orang yang dianggap ahli. Validitas teori ini pula terbagi atas dua yaitu:
Validitas isi adalah suatu tes yang mempermasalahkan seberapa jauh suatu tes mengukur
tingkat penguasaan terhadap isi suatu materi tertentu yang seharusnya dikuasai sesuai dengan
tujuan pengajaran. Dalam pengertian lain validitas isi mengacu pada seberapa banyak materi tes
tersebut dapat mengukur keseluruhan bahan atau materi yang telah diajarkan, merupakan
tuntutan yang harus dipenuhi oleh tes hasil belajar. Validitas isi menurut Sukari adalah derajat di
mana sebuah tes mengukur cakupan substansi yang ingin diukur. Tes yang mempunyai validitas
isi yang baik ialah tes yang benar-benar mengukur penguasan materi yang seharusnya dikuasai
sesuai dengan konten pengajaran yang tercantum dalam garis-garis besar program pengajaran,
tugas atau butir dalam suatu tes atau instrumen mampu mewakili secara keseluruhan dan
proporsional perilaku sampel yang dikenal tes tersebut. Menurut Suharsini Arikunto “sebuah tes
dikatakan memiliki validitas isi apabila mengukur tujuan pembelajaran tertentu yang sejajar
dengan materi atau isi pembelajaran yang diberikan. Oleh karena itu materi yang diajarkan
tertera dalam kurikulum maka validitas isi ini dikatakan validitas kurikuler. Validitas isi dapat
diusahakan tercapainya sejak saat penyusunan dengan cara memerinci atau materi buku pelajaran.
Tes mencerminkan keseluruhan konten atau materi yang diujikan atau yang seharusnya dikuasai
secara proporsional. Untuk menhgetahui apakah tes itu valid atau tidak harus dilakukan melalui
penelaahan kisi-kisi tes untuk memastikan bahwa soal-soal tes itu sudah mewakili atau
mencerminkan keseluruhan konten atau materi yang seharusnya dikuasai secara proporsional.
Oleh karena itu, validitas isi suau tes tidak mempunyai besaran tertentu yang dihitung secara
statistika, tetapi dipahami bahwa tes itu sudah valid berdasarkan telaah kisi-kisi tes.
Wierma dan Jurs (1991) menyatakan bahwa validitas isi sebenarnya mendasarkan pada
analisis logika jadi tidak merupakan suatu koefisien validitas yang dihitung secara statistika.
Untuk memperbaiki validitas suatu tes maka isi suatu tes harus diusahakan agar mencakup suatu
pokok atau subpokok bahasan yang hendak diukur. Kriteria untuk menentukan proporsi masing-
masing pokok atau subpokok bahasan yang tercakup dalam suatu tes ialah berdasarkan pada
banyaknya isi atau materi masing-masing pokok bahasan atau subpokok bahasan seperti
tercantum dalam kurikulum atau garis-garis besar program pengajaran. Selain itu penentuan
proporsi tersebut dapat pula didasarkan pendapat para ahli dalam bidang yang bersangkutan.
Dengan demikian, dapat dikatakan suatu tes akan mempunyai validitas isi yang baik jika tes
tersebut terdiri dari item-item yang mewakili semua materi yang hendakdiukur. Salah satu cara
yang biasa dilakukan untuk memperbaiki validitas isi suatu tes ialah dengan menggunakan blue
print untuk menentukan kisi-kisi tes.
Validitas konstruk adalah validitas yang mempermasalahkan seberapa jauh item-item tes
mampu mengukur apa yang benar-benar hendak diukur sesuai dengan konsep khusus atau
definisi konseptual yang telah diterapkan. Validitas konstruk biasanya digunakan untuk
instrumen-instrumen yang dimaksudkan untuk mengukur variabel-variabel konsep baik yang
sifatnya performansi tipikal seperti instrumen untuk mengukur sikap, minat, konsep diri, fokus
kontrol, gaya kepemimpinan, motivasi berprestasi, dan sebagainya maupun yang sifatnya
performansi maksimum seperti instrumen untuk mengukur bakat, intelegensi, kecerdasan
emosional, dan sebagainya. Untuk menentukan validitas konstruk suatu instrumen harus
dilakukan proses penelaahan teoritis dari suatu konsep dari variabel yang hendak diukur, mulai
dari perumusan konstruk, penentuan dimensi dan indikator, sampai kepada penjabaran dan
penulisan butir-butir item instrumen. Perumusan konstruk harus dilakukan berdasarkan sintesis
dari teori-teori mengenai konsep variabel yang hendak diukur melalui proses analisis dan
komparasi yang logik dan cermat. Dimensi dan indikator dijabarkan dari konstruk yang telah
dirumuskan dengan memperhatikan hal-hal:
1. Seberapa jauh indikatoor tersebut merupakan indikator yang tepat dan konstruk yang telah
dirumuskan.
2. Indikator-indikator dari suatu konstruk harus homogen, konsisten, dan konvergen untuk
mengukur konstruk dari variabel yang hendak diukur.
2. Validitas Empiris
Validitas empiris sama dengan validitas kriteria yang berarti bahwa validitas ditentukan
berdasarkan kriteria baik kriteria internal maupun kriteria eksternal. Kriteria internal adalah tes
atau instrumen itu sendiri yang menjadi kriteria, sedangkan kriteria eksternal adalah hasil ukur
instrumen atau tes lain diluar instrumen itu sendiri yang menjadi kriteria. Ukuran lain yang
dianggap sudah baku atau dapat dipercaya dapat pula dijadikan sebagai kriteria eksternal.
Validitas yang ditentukan berdasarkan kriteria internal disebut validitas internal sedangkan
validitas yang ditentukan berdasarkan kriteria eksternal disebut validitas eksternal. Validitas
eksternal dapat dijadikan menjadi dua macam yaitu
1. Validitas konkuren
Validitas konkuren atau “ada sekarang” lebih dikenal dengan validitas empiris, dimana
suatu tes dikatakan memeiliki validitas “ada sekarang” jika hasilnya sesuai dengan pengalaman.
Kata sesuai mempunyai konotasi ada dua hal yang dipasangkan dalam hal ini hasil tes
dipasangkan dengan hasil pengalaman. Pengalaman selalu mengenai hasil yang telah lampau
sehingga data pengalaman tersebut sekarang sudah ada. Misalkan seorang guru matematika ingin
tes sumatif yang disusun sudah valid atau belum untuk itu diperlukan suatu kriteria masa lalu
yang sekarang datanya dimiliki misalkan nilai ulangan harian atau nilai ulangan sumatif.
2. Validitas prediksi
Validitas prediksi adalah tes yang mempunyai kemampuan meramalkan apa yang akan
terjadi pada masa yang akan datang. Misalkan tes masuk perguruan tinggi diamana ada tes
potensi akademik, tes matematika, tes ipa dan lain-lain, diperkirakan mampu meramal
keberhasilan peserta tes dalam mengikuti kuliah dimasa yang akan datang. Calon yang disaring
berdasarkan hasil tes diharapkan mencerminkan tinggi rendah kemampuan mengikuti
perkuliahan. Jika nilai tesnya tinggi tentu menjamin keberhasilannya dalam bidang akademik,
demikian sebaliknya. Sebagai alat pembanding validitas prediksi adalah nilai-nilai yang
diperoleh peserta tes mengikuti pelajaran di perguruan tinggi. Jika ternyata siapa yang memiliki
nilai tes yang lebih tinggi gagal dalam ujian semester dibandingkan dengan mahasiswa yang
dahulu nilai tesnya lebih rendah maka tes masuk yang dimaksud itu tidak memiliki validitas
prediksi.
4. Reliabilitas Tes
Realibitas berasal darikata reliability berarti sejauh mana hasil suatu pengukuran dapat
dipercaya. Suatu hasil pengukuran hanya dapat dipercaya apabila dalam beberapa kali
pelaksanaan pengukuran terhadap kelompok yang sama diperoleh hasil pengukuran yang relative
sama selama aspek yang diukur dalam diri subjek memang belum berubah. Konsep realibitas
dalam arti realibitas alat ukur berkaitan erat dengan masalah eror pengukuran terjadi apabila
dilakukan pengukuran ulang terhaap kelompok subjek yang sama. Sedangkan konsep relibitas
dalam arti reliabilitas hasil ukur bherkaitan erat dengan error dalam pengambilan sampel yang
mengacu pada kelompok yang berbeda.
Salah satu syarat agar hasil ukur suatu tes dapat dipercaya ialah tes tersebut harus
mempunyai reliabilitas yang memadai. Hasil pengukuran dikatakan mempunyai reliabilitas yang
tinggi jika hasil pengukuran pertama hamper sama dengan hasil pengukuran kedua, begitu pula
sebaliknya hasil pengukuran mempunyai reliabilitas yang rendah bila hasil pengukuran pertama
jauh berbeda dengan hasil pengukuran kedua. Bila kita mempunyai tes matematika dan ingin
mengetahui reliabilitas tes tersebut termasuk tinggi atau rendah dapat kita lakukan dengan cara
mengujikan set tes tersebut pada kelas yang sama sebanyak dua kali dengan selisih waktu tidak
boleh terlalu lama dan tidak boleh terlalu dekat. Tenggang waktunya tidak boleh terlalu lama di
khawatirkan adanya penambahan pengetahuan selama selang waktu kedua pengukuran ini
menyebabkan hasilnya bias. Persyaratan tidak boleh terlalu dekat dikhwatirkan soal tes pada
pengukuran pertama masih kuat dalam ingatan siswa ketika ia menjawab pengukuran kedua.
Dikatakan reliabilitasnya tinggi bila skor tes yang diperoleh siswa mendekati sama antara
pengukuran pertama dan pengukuran kedua. Skor yang sama berarti ajeg/ tetap / mantap atau
realibitasnya tinggi.
Realibitas tes dapat ditingkatkan dengan menambahkan butir soal kedalam butir soal
tersebut. Setiap penambahan butir soal belum tentu dapat meningkatkan kualitas reliabilitas, bisa
meningkatkan bila penambahan butir soal adalah homogen dengan butir soal yang sudah ada.
Homogen yang dimaksud disini adalah butir soal yang mengukur hal yang sama dengan butir
soal yang sudah ada. Rumus mencari kofisien reliabilitas yang baru adalah :
rₓₓ= Jrₓₓ/1+(J-1)rᵧᵧ
Ada beberapa hal yang mempengaruhi hasil tes yaitu panjang tes dan kualitas butir soal,
berhubungan dengan tercoba, berhubungan dengan penyelenggara , metode tes ulang, metode
belah dua
Kita juga harus mengukur reliabilitas instrumen penelitian. Reliabilitas adalah ketepatan
atau keajegan hasil yang diperoleh dari suatu pengukuran ( Gronlund dan Linn, 1990).
Cara mencari besarnya reliabilitas dapat dilakukan dengan teknik menggunakan rumus
korelasi product moment untuk mengetahui validitas, kesejajaran hasil dalam reliabilitas tes.
1. Menetukan nilai varians skor tiap tiap soal. Misal nomor 1: = 2,60110
5. Menetukan nilai
6. Berdasarkan kriteria reliabilitas, nilai = 0,82355 berada di antara interval nilai 0,80-1,00
maka tes uraian tersebut memiliki tingkat reliabilitas tinggi.
Mencari besar kofisien reliabilitas dengan metode bentuk paralel atau tes paralel atau tes
ekuivalen adalah dua buah tes yang mempunyai kesamaan tujuan ,tingkat kesukaran dan susunan,
tetapi butur-butir soalnya berbeda dengan istilah alternative form method ( paralel from ). Dua
buah tes yang paralel missal tes matematika seri A yang akan sama, dan hasilnya dikorelasikan,
mantap/ ajeg, dapat digunakan sebagai alat pengetasan yang terandal. Dengan demikian pengetes
harus mennyiapkan dua perangkat tes masing-masing dicobakan pada kelompok yang sama.
Metode tes paralel dikenal juga dengan nama double test double trial method. Karena siswa
dihadapkan pada dua tes maka tidak ada faktor masih ingat soalnya yang dalam evaluasi disebut
practice effect dan carry over effect artinya ada faktor yang dibawa oleh testee karena sudah
mengerjakan soal tersebut.
Metode tes ualang adalah pengetes hanya memiliki satu tes, tetapi dicobakan dua kali.
Istilahnya single tes double trial method. Kemudian hasil dari kedua kali tes itu dihitung
korelasinya. Ada tes yang banyak mengungkap pengetahuan atau ingatan dan pemahaman.
Menggunakan cara ini tidak tepat karena tercoba akan masih ingat tentang butir-butir soalnya.
Solusi masalah ini tenggang waktu tes pertama dan tes kedua tidak terlalu sempit dan tidak
terlalu lama. Hanya pengalaman yang akan menentukan secara tepat tenggang waktu ini. Selain
itu pada kenyataannya hasil yang kedua cenderung lebih baik dari pada hasil tes ;pertamaa
karena adanya practice effect atau over effect . Kepetingan kita dalam mencari nilai reliabilitas
dengan metede ini adalah kesejajaran hasil atau ketetapan hasil yang ditunjukkan oleh koefisien
korelasi yang tinggi .
Mencari reliabilitas dengan metode belah dua yakni pengetes hanya menggunakan sebuah tes
dan di cobahkan satu kali sehingga didapat dikofisien korelasi setelah membelah dua dan
mengkorelasikan duabelahan itu. Kemudiaan baru diketahui separuh belahan tes.
Macam pembelahan yaitu pembelahan ganjil genap dan pembelahan awal akhir yaitu 1, 3, 5, 7, 9,
11, 13, 15, 17, 19 dan kelompok genap yaitu 2, 4, 6, 8, 10, 12, 14, 16, 18, dan 20. Pembelahan
awal akhir misalkan butir soal awal adalah 1, 2, 3, 4, 5, 6, 7, 8, 9 dan 10 kemudian butir soal
yang terakhir adalah 11, 12, 13, 14, 15, 16, 17, 18, 19, dan 20 banyaknya butir soal harus genap
misal 20 soal 30 , 36, dan seharusnya, sehingga pembelahannya sama.
Perhitungan tingkat kesukaran soal adalah pengukuran seberapa besar derajat kesukaran
suatu soal. Jika suatu soal memiliki tingkat kesukaran seimbang (proporsional), maka dapat
dikatakan bahwa soal tersebut baik. Satu soal tes hendaknya tidak terlalu sukar dan tidak terlalu
mudah.
Untuk menghitung tingkat kesukaran soal bentuk objektif dapat digunakan dengan dua cara
yaitu :
TK={(WL+WH)/(nL+nH)}X100%
Keterangan :
sebelum menggunakan rumus diatas, harus ditempuh terlebih dahulu langkah-langkah sebagai
berikut.
· Menyusun lembar jawaban peserta didik dari skor tertinggi sampai skor terendah.
· Mengambil 27% lembar jawaban dari atas yang selanjutnya disebut kelompok atas
(higher group), dan 27% lembar jawaban dari bawah yang selanjutnya disebut kelompok bawah
(lower group). Sisa sebanyak 46% disisihkan.
· Membuat tabel untuk mengetahui jawaban (benar atau salah) dari setiap peserta didik,
baik untuk kelompok atas maupun kelompok bawah. Jika jawaban peserta didik benar, diberi
tanda + (plus), sebaliknya jika jawaban peserta didik salah diberi tanda – (minus).
Cara menghitung tingkat kesukaran untuk soal bentuk uraian adalah menghitung berapa persen
peserta didik yang gagal menjawab benar atau ada dibawah batas lulus (passing grade) untuk
tiap-tiap soal. Untuk menafsirkan tingkat kesukaran soalnya dapat digunakan kriteria sebagai
berikut :
1. Jika jumlah peserta didik yang gagal mencapai 27%, termasuk mudah.
2. Jika jumlah peserta didik yang gagal antara 28% sampai dengan 72%, termasuk sedang.
3. Jika jumlah peserta didik yang gagal 72% keatas, termasuk sukar.
Contoh :
33 orang peserta didik dites dengan 5 soal bentuk uraian. Skor maksimum ditentukan 10 dan skor
minimum 0. Jumlah peserta didik yang memperoleh nilai 0-5 = 10 orang (berarti gagal), nilai 6 =
12 orang, dan nilai 7 – 10 = 11 orang.
Tingkat kesukaran 30,3 berada diantara 28 dan 72, berarti soal tersebut termasuk sedang.
Catatan : Batas lulus ideal = 6 (skala 0-10).
Yang dimaksud Daya Pembeda suatu soal tes ialah bagaimana kemampuan soal itu
untuk membedakan siswa-siswa yang termasuk kelompok pandai (upper group) dengan siswa-
siswa yang termasuk kelompok kurang (lower group). Daya pembeda suatu soal tes dapat
dihitung dengan menggunakan rumus seperti berikut:
DP=(WL-WH) / n
Keterangan:
DP : Daya Pembeda
Contoh:
Untuk mendapatkan gambar yang lebih jelas mengenai langkah-langkah yang ditempuh dalam
mencari Indeks kesukaran dan daya pembeda suatu item, di bawah ini akan dikemukakan sebuah
contoh.
a. Kita misalkan murid yang mengikuti tes yang kita berikan adalah sebanyak 50 orang.
Lembar jawaban murid-murid tersebut kita susun dari skor tertinggi paling atas sampai dengan
skor rendah yang terbawah.
b. Kita ambil 27% dari mereka yang mendapatkan skor tertinggi. Dalam hal ini, 27% x 50
orang sama dengan 13,5 orang kita bulatkan menjadi 14 orang. Begitu pula kita ambil 27% dari
mereka yang mendapatkan skor yang terendah. Jumlahnya tentu sama dengan kelompok atas,
yaitu 14 orang.
· Untuk item no.1, dari kelompok bawah salah 9 orang dan dari kelompok atas salah 2 orang.
· Untuk item no.2, dari kelompok bawah salah 8 orang dan dari kelompok atas salah 5 orang.
· Untuk item no.3, dari kelompok bawah salah 14 orang dan dari kelompok atas salah 5 orang.
· Untuk item no.4, dari kelompok bawah salah 6 orang dan dari kelompok atas tidak ada yang
salah.
· Untuk item no.5, dari kelompok bawah salah 13 orang dan dari kelompok atas salah 10
orang.
· Untuk item no.6, dari kelompok bawah salah 2 orang dan dari kelompok atas salah 3 orang.
e. Berdasarkan tabel diatas, maka indeks kesukaran untuk masing-masing item dapat dicari
sebagai berikut:
DP=7/14=0,5
DP=6/14=0,43
DP=6/14=0,43
DP=2/14=0,14
DP=-1/14=-0,07
Daya Pembeda yang ideal adalah daya pembeda 0,40 ke atas. Namun untuk ulangan-ulangan
harian, masih dapat ditolerir daya pembeda
BAB III
PENUTUP
A. Kesimpulan
.
Daftar Pustaka
Asmawi Zaenul dan Noehi Nasution. 2005. Penilaian Hasil Belajar. Jakarta:DIKTI
Yusuf Tayibnapis, Farida. 2008. Evaluasi Program Dan Instrumen Evaluasi Untuk Program
Pendidikan Dan Penelitian. Jakarta: Rineka Cipta.
Djemari Mardapi. 2003. Konstruksi Tes dan Analisis Butir. Bahan lokakarya Metodologi
Interaksi Pembelajaran. Unpublished.
http://violetatniyamani.blogspot.com/2007/09/teori-validitas.html
Fernandes, H.J.X. 1984, Testing and Measurenment. Jakarta : National Education Planning,
Evaluation and Curriculum Development
Koyan, I Wayan. 2004. Konsep Dasar dan Teknik Evaluasi Hasil Belajar. Singaraja : IKIP
Negeri Singaraja