Article Text Psychology

TES SEBAGAI ALAT UKUR PRESTASI AKADEMIK
Suharman
Sekolah Tinggi Agama Islam Negeri Teungku Dirundeng Meulaboh
Email: suharmanalhamid@gmail.com
Abstrak
Proses belajar mengajar yang dilakukan harus selalu melalui proses akhir yaitu
evaluasi agar hasil yang ingin dicapai menjadi lebih baik. Salah satu teknik evaluasi
yang sering digunakan oleh lembaga pendidikan adalah tes prestasi. Tes prestasi adalah
tes yang disusun secara terencana untuk mengungkap performansi maksimal subjek
dalam menguasai bahan-bahan atau materi yang telah diajarkan. Dalam menyusun
instrumen tes untuk tes prestasi, Intrumen tes harus melalui Validitas dan Reliabilitas
Tes. Sehingga tes yang akan disusun bisa sepadan dengan kemampuan seseorang yang
akan diberikan tes. Instrumen tes yang disusun tidak boleh terlalu jauh di bawah atau
di atas kemampuan peserta tes, dan tingkat kesukaran item-item soal sebaiknya berada
pada kategori sedang. Dalam kajian mengenai tes terdapat dua pendekatan yang dapat
digunakan yaitu pendekatan secara klasik (Classical Test Theory/CTT) dan pendekatan
secara modern yang berdasarkan pada Item Response Theory (IRT).
Kata Kunci: Penilaian, Tes, CTT, IRT
Abstract
Teaching and learning process carried out must always go through the final process of
evaluation, so that the results to be achieved are better. One of evaluation technique that
is often used by educational institutions is achievement tests. Achievement tests are tests
that are arranged in a planned manner to reveal the subject’s maximum performance in
mastering the material or material that has been taught. In compiling test instruments for
achievement tests, the test instrument must go through the Validity and Reliability Test.
So the, test that will be prepared can be commensurate with the ability of someone who
will be given a test. The test instruments that are prepared should not be too far below or
above the ability of the test participants, and the level of difficulty of the items should be
in the medium category. In the study of the test there are two approaches that can be used,
namely the classical approach (CTT) and the modern approach based on Item Response
Theory (IRT).
Keywords : Evaluation, Tests, CTT, IRT
Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 93

A. Pendahuluan untuk mengukur aspek-aspek perilaku
manusia, seperti aspek pengetahuan
Proses belajar mengajar yang
(kognitif), sikap (afektif), maupun
dilakukan harus selalu diperbaiki agar hasil
aspek keterampilan (psikomotorik).
yang ingin dicapai menjadi lebih baik.
Bidang kognitif diukur melalui uji tes,
Salah satu upaya dalam meningkatkan
bidang afektif diukur melalui kuesioner,
kualitas proses hasil dan prestasi akademik
wawancara, dan pengamatan, serta bidang
sebagai bagian dari peningkatan kualitas
psikomotor diukur melalui perbuatan dan
pendidikan adalah melalui sistem penilaian.
pengamatan. (Naga, 1992).
Salah satu teknik penilaian yang
Tes merupakan alat atau prosedur
sering digunakan oleh lembaga pendidikan
yang digunakan untuk mengetahui
adalah tes. Sumardi Suryabrata dalam
atau mengukur sesuatu dalam suasana,
Chabib Toha (2003), menyatakan bahwa
dengan cara dan aturan-aturan yng sudah
tes merupakan pertanyaan-pertanyaan yang
ditentukan (Arikunto, 2008). Tidak
harus dijawab dan atau perintah-perintah
jauh berbeda dengan Arikunto, Chaplin
yang harus dijalankan, yang mendasarkan
(2005) menyatakan bahwa tes adalah
harus bagaimana testee menjawab
satu perangkat pertanyaan yang sudah
pertanyaan atau melakukan perintah-
dibakukan, yang dikenakan pada seseorang
perintah itu, penyelidik mengambil
dengan tujuan untuk mengukur perolehan
kesimpulan dengan cara membandingkan
atau bakat pada suatu bidang tertentu.
dengan standar atau testee lainnya.
Selanjutnya Depdiknas (2003)
Dalam melaksanakan penilaian,
mendefinisikan bahwa tes adalah
penilai harus memahami berbagai kegiatan
himpunan pertanyaan yang harus dijawab
teknis dalam menentukan metode dan
atau pernyataan-pernyataan yang harus
format penilaian yang dapat digunakan
dipilih dan ditanggapi, atau tugas-tugas
untuk mendapatkan informasi yang
yang harus dilakukan oleh orang yang
dibutuhkan. Informasi tersebut diperlukan
dites dengan tujuan untuk mengukur suatu
dalam menafsir dan menetapkan keputusan
aspek (perilaku) tertentu dari orang yang
untuk kepentingan pendidikan. Penilai
di tes. Tes tersebut memenuhi empat aspek
membutuhkan ketrampilan dalam
yaitu kegunaan, mungkin dikerjakan, legal
mengidentifikasi dan memahami berbagai
atau sah, dan ketelitian. Tes itu merupakan
macam perspektif penilaian, baik penilaian
hasil perakitan item-item soal yang telah
kontekstual dan proses maupun penilaian
dibakukan melalui proses analisis item,
hasil. Karena peniliaian merupakan pusat
serta diadministrasikan, diskor, dan
kontrol keberhasilan program pendidikan.
diinterpretasikan secara baku.
Beberapa pendapat para ahli
B. Pengertian Tes
lainnya tentang pengertian tes seperti
Tes pada umumnya dimaksudkan yang disampaikan oleh Azwar (2007)
94 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
diantaranya, Anne Anastasi (2006) yang perilaku yang diukur.
mengatakan bahwa tes pada dasarnya 3. Tes mengukur prilaku. Artinya
merupakan suatu pengukuran yang objektif aitem-aitem dalam tes menghendaki
dan standar terhadap sampel prilaku. agar subjek menunjukkan apa
Frederick G. Brown (1976) menyebutkan yang diketahui atau apa yang telah
pengertian tes sebagai prosedur yang dipelajari subjek dengan cara
sistematik guna mengukur sampel prilaku menjawab pertanyaan-pertanyaan
seseorang. Sedangkan Lee J. Cronbach atau mengerjakan tugas-tugas yang
dalam buku Essentials of psychological dikehendaki oleh tes.
Testing (1970) menyatakan pengertian Suatu tes dikatakan baik manakala
tes yaitu, “...a systematic procedure mampu memberikan hasil ukur yang cermat
for observing a person”s behavior and dan akurat. Oleh karena itu Suryabrata,
describing it with the aid of a numerical (2006), mengemukakan syarat-syarat
scale or a catagory system”. tes yang baik adalah : (1) tes harus valid,
Dari beberapa batasan mengenai artinya tes tersebut hanya mengukur satu
tes tersebut di atas, Azwar (2007) menarik aspek saja atau satu domain saja sehingga
beberapa kesimpulan mengenai pengertian tepat mengukur apa yang hendak di ukur,
tes. (2) tes harus reliabel, yaitu ajek atau
1. Tes adalah prosedur yang sistematik. konsisten, (3) tes harus standar, artinya
Maksudnya (a) aitem-aitem dalam setiap peserta tes (testee) harus mendapat
tes disusun menurut cara dan aturan perlakuan yang sama baik mengenai materi
tertentu, (b) prosedur administrasi tes, penyelenggaraan, pemberian skor, dan
tes dan pemberian angka (scoring) interpretasi hasil tes sehingga seorang
terhadap hasilnya harus jelas dan testee yang mendapat skor tertentu di suatu
dspesifikasikan secara terperinci, tempat akan mendapat skor yang sama di
dan (c) setiap orang yang mengambil tempat lain, (4) tes harus objektif, yaitu
tes harus mendapatkan aitem-aitem penilaian yang dilakukan oleh pemberi
yang sama dalam kondisi yang tes (tester) yang satu dengan yang lain
sebanding. akan sama untuk satu testee, (5) tes harus
2. Tes berisi sampel prilaku. Artinya bersifat diskriminatif, artinya tes harus
(a) betapapun panjangnya suatu tes, dapat mengungkapkan perbedaan suatu
aitem yang ada di dalamnya tidak gejala yang terdapat pada setiap individu.
akan dapat mencakup seluruh isi Lebih lanjut Hayat & Setiadi (1998)
materi yang mungkin di tanyakan, menyatakan bahwa Tes yang baik dapat
dan (b) kelayakan suatu tes didefinisikan sebagai sekumpulan item-
tergantung dari sejauhmana aitem- item yang berkualitas (valid) yang telah
aitem dalam tes itu mewakili secara dikalibrasi dan dipilih untuk membentuk
representatif kawasan (domain) satu instrumen pengukuran.

Berdasarkan bentuknya, tes dapat dalam penskorannya, cepat, objektif dan
diklasifikasikan ke dalam 2 (dua) bentuk, dapat mencakup ruang lingkup materi yang
yaitu: luas dalam suatu tes untuk suatu jenjang
1. Objektif yang meliputi, (a) pilihan pendidikan. Bentuk tes pilihan ganda ini
ganda, (b) bentuk item dua pilihan juga sangat tepat digunakan untuk ujian
jawaban (benar-salah, ya-tidak), dengan jumlah pesertanya sangat banyak
dan (c) tes menjodohkan. atau yang sifatnya massal, sedangkan
2. Non-Objektif yang meliputi: (a) hasilnya harus segera diumumkan.
isian atau melengkapi, (b) jawaban Namun demikian tes pilihan ganda ini,
singkat atau pendek, dan (c) item memiliki beberapa kelemahan diantaranya,
uraian, (Depdiknas, 2003). memerlukan waktu yang relatif lama dalam
Berbagai bentuk tes tersebut pembuatan soal, sulit membuat distraktor
di atas mempunyai keunggulan dan yang homogen dan berfungsi, dan terdapat
kelemahannya masing-masing. Misalnya peluang untuk menebak kunci jawaban
bentuk tes uraian, bentuk tes ini memiliki (guessing).
keunggulan berupa dapat mengukur Terlepas dari berbagai
kemampuan siswa (peserta didik) dalam kelemahannya, tes bentuk pilihan ganda
hal menyajikan jawaban terurai secara ini telah banyak digunakan di hampir
bebas, mengorganisasikan pikirannya, seluruh pelosok Indonesia, bahkan untuk
mengemukakan pendapatnya, dan Ujian Akhir Nasional dan Ujian Seleksi
mengekspresikan gagasan-gagasan dengan Penerimaan mahasiswa baru di semua
menggunakan kata-kata atau kalimatnya Perguruan Tinggi yang pelaksanaannya
sendiri. Disamping keunggulannya tersebut, dikelola oleh Pemerintah.
bentuk tes uraian juga memiliki beberapa
kelemahan diantaranya, jumlah materi C. Tes Prestasi
atau pokok bahasan yang dapat ditanyakan
Tes prestasi adalah tes yang disusun
relatif terbatas, waktu untuk memeriksa
secara terencana untuk mengungkap
jawaban siswa cukup lama, penskorannya
performansi maksimal subjek dalam
relatif subjektif, dan tingkat reliabilitasnya
menguasai bahan-bahan atau materi yang
relatif lebih rendah dibanding dengan item
telah diajarkan. Dalam kegiatan pendidikan
bentuk pilihan ganda, karena reliabilitas
formal di kelas, tes prestasi belajar dapat
pada item bentuk uraian sangat bergantung
berbentuk ulangan-ulangan harian, tes
pada penskoran tes.
formatif, tes sumatif, bahkan ebtanas
Berbeda halnya dengan tes
dan ujian-ujian masuk perguruan tinggi,
uraian, bentuk tes pilihan ganda memiliki
(Azwar, 2007).
beberapa keunggulan lain, yaitu dapat
Tes prestasi belajar dapat dibagi
mengukur berbagai jenjang kognitif (dari
menjadi dua jenis, yaitu tes kemampuan
ingatan sampai dengan evaluasi), mudah
(power test) dan tes kecepatan (speed ini memberi gambaran bahwa instrumen
test). Perbedaan tes kemampuan dan tes yang disusun tidak boleh terlalu jauh
tes kecepatan adalah : (1) Prinsip dari di bawah atau di atas kemampuan peserta
power test adalah tidak adanya batasan tes, dan tingkat kesukaran item-item soal
waktu dalam mengerjakan tes. Jika sebaiknya berada pada kategori sedang.
waktu pengerjaan tes tidak dibatasi, maka Sehingga dengan demikian instrumen tes
hasil tes benar-benar mengungkapkan yang disusun nantinya dapat berfungsi
kemampuan seseorang secara maksimal dengan baik.
atau menyeluruh. Pembatasan waktu Adapun fungsi tes prestasi belajar
dalam mengerjakan tes, kemungkinan seperti yang disampaikan Ebel (1991),
akan menyebabkan orang menjadi tidak adalah sebagai berikut : (a) Fungsi utama
dapat menunjukkan kemampuan yang tes prestasi adalah untuk mengukur
dimilikinya secara maksimal, sehingga keberhasilan siswa dalam belajar, (b) Tes
skor yang dihasilkan tidak menunjukkan juga dapat membantu guru dan instruktur
seluruh kemampuan yang sebenarnya dalam membuat nilai yang akurat dan
dari peserta tes tersebut. (2) Pada speed bermakna, (c) Tes prestasi belajar
test yang diukur ialah kecepatan di dalam juga berfungsi untuk memotivasi dan
memikirkan atau mengerjakan suatu tes mengarahkan siswa dalam belajar. Siswa
atau tugas. Tes tersebut biasanya relatif (peserta didik) akan cendrung belajar lebih
mudah, sehingga yang diukur benar-benar giat bila mereka dihadapkan pada waktu-
kecepatan bekerja atau berpikir seseorang. waktu dimana ujian akan berlangsung.
(Puspendik, 2006). Dengan kata lain, mereka akan belajar
Dalam menyusun instrumen tes lebih serius pada materi-materi yang
untuk tes prestasi, hal pertama yang harus menurut pemikiran mereka akan diujikan
diperhatikan adalah bagaimana instrumen pada saat berlangsungnya tes.
tes yang akan disusun tersebut bisa
sepadan dengan kemampuan seseorang D. Validitas dan Reliabilitas Tes
yang akan di berikan tes. Untuk hal ini,
1. Validitas Tes
Hayat (2000), menyatakan bahwa pada tes
Validitas sebuah tes
prestasi belajar sebuah tes dengan jumlah
memberitahukan kepada kita tentang apa
item yang banyak dan seluruh itemnya
yang bisa disimpulkan dari skor-skor tes.
bertaraf kesukaran sedang (on-target) bagi
Dalam kaitan ini kita seharusnya waspada
orang yang menempuh tes, akan mendapat
menerima tes sebagai indeks dari apa
informasi yang lebih teliti mengenai orang
yang diukur. (Anastasi & Urbina, 2006).
yang diukur jika dibandingkan dengan
Validitas menurut Cronbach adalah sebagai
tes yang itemnya sedikit dan tingkat
proses dimana pembuat tes atau pengguna
kesukarannya tidak matching dengan
tes mengumpulkan bukti-bukti untuk
kemampuan peserta tes (off-target). Hal

mendukung jenis kesimpulan yang akan x2
kuadrat dari x
diambil dari skor tes, (Crocker & Algina, y2
kuadrat dari y
1986). Pada tahun 1954, The American
Suatu tes dikatakan memiliki Psychological Association (APA)
validitas yang tinggi apabila tes tersebut melalui Technical Recommendation
dapat memberikan hasil ukur yang tepat dan for Psychological Test and Diagnostic
akurat sesuai dengan maksud dikenakannya Techniques merumuskan empat macam
tes tersebut. Sebaliknya bila hasil ukur validitas, yaitu validitas isi (content
validity), validitas konstruk (construct
yang diperoleh dari tes tersebut tidak sesuai
dengan tujuan dilaksanakannya, maka validity), validitas prediksi (predictive
tes tersebut dikatakan tidak mempunyai validity) dan validitas konkuren (concurrent
validitas yang tinggi. validity).
Hasil estimasi validitas suatu Keempat macam validitas ini
pengukuran dinyatakan secara empirik selanjutnya dijabarkan oleh Arikunto
oleh suatu koefisien yang disebut dengan (2008) dengan menyebutnya sebagai empat
koefisien validitas. Koefisien validitas face validity, yaitu validitas isi, validitas
dapat dinyatakan oleh korelasi antara konstruk, validitas “ada sekarang”, dan
distribusi skor tes yang bersangkutan validitas prediksi:
dengan distribusi skor suatu kriteria. a. Validitas Isi (content validity)
Kriteria ini dapat berupa skor tes lain yang Sebuah tes dikatakan memiliki
mempunyai fungsi ukur sama dan dapat validitas isi apabila mengukur tujuan
pula berupa ukuran- ukuran lain yang khusus tertentu yang sejajar dengan materi
relevan, (Azwar, 2007). atau isi pelajaran yang diberikan. Oleh
Bila skor tes diberi simbul X karena materi yang diajarkan tertera dalam
dan skor kriteria diberi simbul Y, maka kurikulum maka validitas isi ini sering juga
koefisien validitasnya, yaitu rry . Dan salah
disebut dengan validitas kurikuler.
satu tekhnik yang dapat digunakan untuk Validitas isi dapat diusakan
mengukur validitas tes adalah dengan tercapai sejak saat penyusunan dengan cara
menggunakan korelasi product-moment merinci materi kurikulum atau materi buku
dengan simpangan yang dikemukan oleh pelajaran.
Pearson sebagai berikut : b. Validitas Konstruksi (construct
validity)
rry =
∑ X
Y
Sebuah tes dikatakan memiliki

(
∑ ∑x 2
)(y 2
) (2.1) validitas konstruksi apabila item-item yang
Dimana : membangun tes tersebut mengukur setiap
rry Koefisien korelasi antara variabel x aspek berpikir seperti yang disebutkan
dan variabel y. dalam Tujuan Instruksional Khusus
∑ XY jumlah perkalian antara x dan y (sekarang disebut indikator). Dengan kata
lain jika item-item soal mengukur aspek 2) Muatan faktor standar
berpikir tersebut sudah sesuai dengan aspek (standardized loading factors)
berpikir yang menjadi tujuan instruksional lebih besar atau sama dengan
(indikator). 0.70, (standardized ³ 0.70),
Seperti halnya validitas isi, validitas (Wijanto, 2008).
konstruksi dapat diketahui dengan cara c. Validitas “ada sekarang”
merinci dan memasangkan setiap item (concurrent validity)
soal dengan setiap aspek dalam Tujuan Validitas ini lebih umum dikenal
Instruksional Khusus (indikator). dengan validitas emperis. Sebuah tes
Apabila hal tersebut di atas tidak dikatakan memiliki validitas emperis
dapat dilakukan, maka cara yang paling jika hasilnya sesuai dengan pengalaman.
sederhana adalah dengan melalukan Jika ada kata “sesuai” tentu ada dua hal
analisis faktor konfirmatori. Analisis ini yang dipasangkan. Dalam hal ini hasil tes
dilakukan untuk mengetahui validitas dipasangkan dengan hasil pengalaman.
kontruk sebuah tes, sehingga tes yang Pengalaman selalu mengenai hal yang telah
dibagun benar-benar mengukur suatu lampau sehingga data pengalaman tersebut
aspek yang hendak diukur. Analisis faktor sekarang sudah ada, makanya validitas
konfirmatori dapat dilakukan dengan ini disebut validitas “ada sekarang” atau
bantuan program LISREL. concurrent).
Dalam analisis dengan program Dalam membandingkan hasil
LISREL, kriteria yang digunakan untuk sebuah tes maka diperlukan suatu
dapat mengetahui nilai validitas konstruk kriterium atau alat banding. Maka hasil tes
adalah pada besar kecilnya loading factors merupakan sesuatu yang dibandingkan.
yang diperoleh oleh setiap item pada saat d. Validitas prediksi (predictive
dilakukan pengukuran. validity)
Para ahli pengukuran Memprediksi artinya meramal,
mengungkapkan beberapa batasan nilai dengan meramal selalu mengenai hal
loading factors yang dapat digunakan yang akan datang, jadi sekarang belum
untuk menentukan valididtas kostruk suatu terjadi. Sebuah tes dikatakan memiliki
tes diantaranya, Rigdon dan Ferguson, validitas prediksi atau validitas ramalan
1991, serta Doll, Xia Torkzadeh, 1994, apabila mempunyai kemampuan untuk
yang menyatakan bahwa validitas konstruk meramalkan apa yang akan terjadi pada
yang baik adalah yang memiliki : masa yang akan datang.
1) Nilai t muatan faktor (loading Validitas prediksi sangat penting
factors) lebih besar atau sama artinya bila tes yang dimaksudkan berfungsi
dengan nilai kritis ( t-values ³ sebagai prediktor untuk memprediksi
1.96 atau untuk praktisnya ³ suatu keberhasilan di masa yang akan
2.00). datang. Sebagai contoh berdasarkan hasil

tes seleksi penerimaan mahasiswa baru, 1982). Sehingga keberadaan SAT sebagai
peserta tes yaitu calon mahasiswa yang tes seleksi sering dikritik. Demikian pula
memiliki nilai tinggi pada tes seleksi halnya dengan GRE (Graduate Record
diperkirakan akan berhasil dengan baik of Examination) dan tes-tes seleksi
ketika mereka belajar di perguruan tinggi sejenisnya yang sering dikritik karena nilai
tersebut. Jika perkiraan ini tepat, maka tes prediksinya yang rendah terhadap indeks
seleksi tersebut dapat dikatakan memiliki prestasi mahasiswa pada perguruan tinggi
validitas prediksi yang baik. Sebaliknya profesional (Nunnaly & Bernstein, 1994).
jika perkiraan tersebut tidak tepat, maka Namun demikian, terlepas dari
tes seleksi yang dilaksanakan sebelumnya tinggi rendahnya koefisien validitas
tidak memiliki validitas prediksi yang baik. prediksi, SAT atau Tes Bakat Skolastik
Validitas prediksi dapat ditentukan (TBS) dan tes seleksi penerimaan lainnya
dengan mengetahui hubungan antara skor tetap digunakan di hampir seluruh
tes sebagai prediktor dengan hasil prestasi perguruan tinggi di Indonesia. Dan
belajar atau ukuran keberhasilan lainnya. besarnya nilai koefisien validitas prediksi
Hasil prestasi belajar dan keberhasilan lain yang dianggap memuaskan adalah jika
ini berfungsi sebagai skor kriteria. Koefisien melebihi dari angka 0,30 (Azwar, 2000).
korelasi antara skor tes dan skor kriteria
merupakan petunjuk mengenai saling 2. Reliabilitas Tes
adanya hubungan antara skor keduanya dan Reliabilitas adalah kestabilan skor
dapat disebut dengan koefisien validitas yang diperoleh orang yang sama ketika
prediksi. Apabila koefisien yang diperoleh diuji ulang dengan tes yang sama pada
ini adalah dari suatu penelitian dengan situasi yang berbeda atau dari pengukuran
kelompok sampel yang representatif, ke pengukuran lainnya, (Puspendik, 2003).
maka tes yang telah teruji validitasnya akan Selanjutnya Anastasi & Urbina (2006)
mempunyai fungsi prediksi yang sangat mengemukakan bahwa realibilitas merujuk
berguna dalam memprediksi hasil prestasi pada konsistensi skor yang dicapai oleh
belajar peserta tes pada masa akan datang. orang yang sama ketika mereka diuji-ulang
Besarnya nilai koefisien validitas dengan tes yang sama pada kesempatan
prediksi skor tes terhadap skor kriteria berbeda, atau dengan seperangkat item-
yang dianggap baik dalam memprediksi item ekuivalen (equivalent items) yang
hingga saat ini masih terjadi perdebatan berbeda, atau dalam kondisi pengujian
dikalangan pengembang tes. Sebagai yang berbeda.
contoh, Scholastic Aptitude Test (SAT) yang Reliabilitas alat ukur menurut
dikembangkan oleh College Board atau Suryabrata (2006) menunjukkan sejauh
badan perguruan tinggi di Amerika Serikat mana hasil pengukuran dengan alat
memiliki koefisien validitas prediksi hanya ukur tersebut dapat dipercaya. Hal
sebesar 0.37, (Nairn dalam Weitzman, ini ditunjukkan oleh taraf keajegan
(konsistensi) skor yang diperoleh oleh para dilakukan dengan beberapa pendekatan
subjek yang diukur dengan alat yang sama, umum, diantaranya metode tes-ulang
atau diukur dengan alat yang setara pada (test-retest method), metode tes sejajar
kondisi yang berbeda. (equivalent method), metode konsistensi
Gambaran yang benar-benar ajeg internal (internal consistency method),
pada sebuah instrumen tes memang sangat dan metode belah-dua (split-half method).
sulit untuk diperoleh karena unsur kejiwaan Sebagian para ahli berpendapat bahwa
manusia itu sendiri. Manusia (sebagai pendekatan split-half merupakan bagian
peserta tes) mempunyai kemampuan, dari pendekatan internal concsstency.
kecakapan, sikap dan lain sebagainya yang a. Metode tes ulang (test-retest
cenderung tidak tetap (berubah-rubah) method)
dari waktu ke waktu. Di samping itu ada Metode ini menunjukkan
beberapa faktor ekternal lain yang dapat konsistensi pengukuran dari waktu
mempengaruhi keajegan (reliabilitas) tes ke waktu dan menghasilkan koefisien
seperti yang dikemukan oleh Gulford reliabilitas yang sering disebut koefisien
dalam Arvyaty (2005) adalah, (1) Jumlah stabilitas. Prinsip estimasinya adalah
item dalam suatu tes, semakin banyak item dengan menggunakan suatu instrument
semakin reliabel tes, (2) Waktu untuk pengukur dua kali dengan tenggang waktu
mengerjakan tes, semakin lama semakin tertentu terhadap sekelompok subjek yang
reliabel tes, (3) ketergantungan suatu item sama.
dengan item yang lainnya dalam suatu Kelemahan metode ini adalah
tes akan mengurangi tingkat reliabilitas kurang praktisnya pengenaan tes dua kali
tes, (4) semakin objektif penskoran dan besarnya kemungkinan terjadi efek
hasil tes, semakin reliabel suatu tes, (5) bawaan (carry-over-effects) dari pengenaan
kemungkinan menebak dalam menjawab tes pertama ke kedua. (Azwar, 2007).
item-item pada tes, (6) semakin homogen b. Metode bentuk paralel (equivalent
materi tes semakin reliabel suatu tes. method)
Tinggi rendahnya reliabilitas, Pada metode tes ini digunakan dua
secara emperik ditunjukkan oleh suatu buah tes yang mempunyai kesamaan tujuan,
angka yang disebut koefisien reliabilitas. tingkat kesukaran dan susunan, tetapi item-
Pada awalnya, tinggi rendahnya reliabilitas item soalnya berbeda. Kelemahan dalam
dicerminkan oleh tinggi rendahnya korelasi menggunakan metode ini adalah pengetes
antara dua distribusi skor dari dua alat memiliki beban yang berat karena harus
ukur yang paralel yang dikenakan pada membuat dua instrumen tes yang setara.
sekelompok individu yang sama (Azwar, c. Metode belah dua (split-half
2007). method)
Selanjutnya untuk melakukan Pada metode ini, ada dua cara untuk
estimasi reliabilitas suatu tes dapat membelah item soal yaitu: (a) membelah

item menjadi item-item genap dan ganjil d. Konsistensi intenal (internal
selanjutnya disebut belahan ganjil-genap, consistency)
dan (b) membelah atas item-item awal dan Estimasi reliabilitas dengan
item-item akhir yaitu separo jumlah pada pendekatan konsistensi internal didasarkan
nomor-nomr awal dan separo pada nomor- pada data dari sekali pengenaan satu bentuk
nomor akhir yang selanjutnya disebut alat ukur pada sekelompok subjek (single
belahan awal-akhir (Arikunto, 2008). trial administrartion) Azwar (2007).
Tabel 2. 1 Metode Penentuan Reliabilitas
Bentuk reliabilitas Prosedur untuk memperoleh

Test-retest method Tes yang sama disajikan 2 kali kepada
product moment dan korelasi intra peserta tes yang sama dalam waktu
kelas yang berbeda dan kemudian hasilnya
dikorelasikan.
equivalent method Dua tes yang sama (paralel) disajikan
product moment dan korelasi intra pada peserta tes yang sama dalam waktu
kelas yang relatif tidak lama, kemudian hasilnya
dikorelasikan.
Split-half method Tes yang dibelah dua disajikan kepada
persamaan split-half dan peserta tes kemudian hasilnya dikorelasikan
persamaan Spearman-Brown antara dua belahan tersebut
Internal Consistency Tes diberikan sekali, lalu digunakan
- Koefisien Alpja persamaan.
- Kuder-Richardson (KR-20) Tes diberikan sekali, lalu digunakan
- Kuder-Richardson (KR-21) persamaan.
Tes diberikan sekali, lalu digunakan
persamaan.
Sumber: Surapranata (2006)
Secara statistik banyak perssamaan 1) Alpha-Cronbach

(rumus) yang dapat digunakan untuk
k  ∑ si 
2
menghitung besarnya koefisien atau indeks α= 1 − 2 

k − 1  s
reliabilitas suatu tes. Dan rumus umum t  (2.2)
yang paling sering di pakai adalah rumus dimana:
Alpha Cronbach, Kuder-Richardson KR- α koefisien reliabilitas;
20 dan KR-21, yaitu: k jumlah item tes;
2
si varians skor setiap item;
2
st varians skor total.
2) Kuder-Richardson-20 (KR-20) dikembangkan oleh Kuder-Richardson,
formula Spearman-Brown, formula error
k  st − ∑ pi qi 
2
ρ=   standar dalam pengukuran dan lain-lain.

k − 1  st2 
(2.3) Bahkan hampir keseluruhan formula
dimana : reliabilitas dan validitas yang kita kenal
ρ koefisien reliabilitas; sekarang ini dikembangkan atas konsep
k jumlah item tes; teori tes klasik (Azwar, 2007).
pi proporsi subyek menjawab benar Sampai saat ini, teori tes
item i; dan qi = 1 − pi ; klasik masih banyak di gunakan untuk
2
st varians skor total. menganalisis data-data penelitian yang
sifatnya sederhana karena teori tes klasik
3) Kuder-Richardson-21 (KR-21) memiliki beberapa kelebihan di antaranya:
(1) murah atau tidak membutuhkan
k  M (k − M ) 
ρ= 1 −  banyak biaya, (2) mudah dilaksanakan,
k −1  k st2 
(2.4) (3) sederhana, (4) familier, dan (5) sampel
dimana : yang dibutuhkan dalam jumlah kecil,
ρ koefisien reliabilitas; Safari (2005).
k jumlah item tes; Dalam perkembangannya teori
M mean skor total; tes klasik ini juga didasari pada beberapa
st2 varians skor total. asumsi. Menurut Suryabrata dalam
Budiyono (2005), ada tujuh asumsi pada
E. Teori Tes Klasik dan Modern teori tes klasik, yaitu: (1) skor yang
diperoleh peserta tes terdiri dari skor
Dalam kajian mengenai tes terdapat
sebenarnya (true score) dan kesalahan
dua pendekatan yang dapat digunakan
pengukuran, (2) nilai harapan skor yang
yaitu pendekatan secara klasik (Classical
diperoleh sama dengan skor sebenarnya,
Test Theory/CTT) dan pendekatan secara
(3) skor yang sebenarnya dan kesalahan
modern yang berdasarkan pada Item
pengukuran tidak berkorelasi, (4) kesalahan
Response Theory (IRT)
pengukuran pada dua tes yang mengukur
1. Teori Tes Klasik (Classical Test
kemampuan yang sama tidak berkorelasi,
Theory atau CTT)
(5) pada dua tes yang mengukur kemampuan
Sejak beberapa dekade lalu, teori
yang sama, kesalahan pengukuran pada
tes klasik (classical test theory) telah
tes pertama tidak berkorelasi dengan skor
mendominasi dan banyak berjasa dalam
sebenarnya pada tes kedua, (6) dua tes yang
dunia pengukuran. Di antara konsep-
menghasilkan skor yang memenuhi kelima
konsep yang berdasarkan teori tes
asumsi pertama disebut parallel tests jika
klasik yang sangat terkenal dan sangat
skor sebenarnya dan variasi kesalahan
berguna adalah formula-formula yang
pengukuran yang diperoleh peserta tes

sama, dan (7) dua tes yang menghasilkan kemampuan kelompok sampel
skor yang memenuhi kelima asumsi cenderung seragam.
pertama disebut essentially t-equivalent 3) Asumsi kesetaraan (disamakan)
test jika selisih skor sebenarnya yang terhadap error pengukuran bagi
diperoleh peserta tes pada tes pertama dan subyek-subyek yang dikenai
tes kedua merupakan bilangan konstan. tes. Sedangkan subyek ada yang
Sayangnya, dari beberapa konsisten dan ada yang tidak
kelebihan dan asumsi-asumsi yang telah konsisten dalam menjawab item-
di jelaskan di atas, ternyata dalam teori item item.
tes klasik terdapat beberapa keterbatasan 4) Pada dasarnya pengujian tes melalui
yang kemudian menjadi permasalahan metode tes paralel, sulit untuk
dalam pengembangan tes. Sebagai contoh, dilaksanakan bahkan dipastikan
indeks kesukaran dan indeks daya beda tidak ada tes paralel yang benar-
(indeks diskriminasi) dalam teori tes klasik benar setara.
merupakan karakteristik item yang sangat Adapun pendekatan yang
bergantung pada kelompok sampel (group- digunakan dalam teori tes klasik yaitu
dependent). Item akan nampak mudah dengan cara menghitung tingkat kesukaran
bila kelompok yang dikenai tes rata-rata (proportion correct), indeks daya beda
berkemampuan tinggi, sebaliknya bila item (point biserial) , dan kehandalan
kelompok yang dikenai tes berkemampuan atau keberfungsian distraktor (proportion
rendah maka item tersebut akan kelihatan endorsing).
sulit serta memiliki tingkat kesukaran yang a. Tingkat Kesukaran Item
tinggi. Pada analisis item secara klasik,
Secara rinci terdapat 4 keterbatasan tingkat kesukaran (p) dapat diperoleh
teori tes klasik seperti yang dikemukakan dengan beberapa cara antara lain, (1) skala
oleh Hambleton, Swaminathan & Rogers kesukaran linier; (2) skala bivariat; (3)
(1991) sebagai berikut: indeks Davis; dan (4) proporsi menjawab
1) Indeks kesukaran item item benar. Namun demikian cara yang paling
dan indeks daya beda item mudah dan paling umum digunakan adalah
(discriminating power index) skala rata-rata atau proporsi menjawab
bergantung pada kelompok sample benar atau proportion correct (p), yaitu
(group dependent). jumlah peserta tes yang menjawab benar
2) Koefisien reliabilitas dan pada item yang dianalisis dibandingkan
validitas menjadi tinggi bila taraf dengan peserta tes seluruhnya, (Hayat,
kemampuan kelompok sampel Surapranata, & Suprananto, 1999).
heterogen (bervariasi tinggi). Persamaan yang digunakan untuk
Sebaliknya koefisien reliabilitas menentukan tingkat kesukaran dengan
dan validitas menjadi rendah bila proporsi menjawab benar adalah :
tingkat kesukaran mendekati 0 atau 1
p=
∑ x maka item item tersebut dikategorikan
Sm N
(2.5) ekstrim. Item item yang ekstrim mudah
Dimana : dan ekstrim sulit tidak memberikan
p proporsi menjawab benar / tingkat informasi yang berguna bagi sebagian
kesuakaran; besar peserta tes. Oleh sebab itu, item item
Σx banyaknya peserta tes yang seperti ini kemungkinan distribusi jawaban
menjawab benar; pada alternatif jawaban ada yang tidak
Sm skor maksimum; memenuhi syarat (Hayat et.al, 1999).
N jumlah peserta tes. b. Daya Beda Item
Sebenarnya dalam teori tes klasik, Daya beda item atau daya pembeda
tingkat kesukaran item dapat dikatakan item adalah kemampuan sesuatu item
sebagai tingkat kemudahan karena untuk membedakan antara siswa yang
semakin tinggi indeks tingkat kesukaran berkemampuan tinggi (pandai) dengan
yang diperoleh oleh satu item/soal maka siswa yang berkemampuan rendah
item tersebut semakin mudah, begitu juga (Arikunto, 2008). Dan lebih rinci lagi
sebaliknya item yang memiliki indeks Crocker & Algina dalam bukunya
tingkat kesukaran makin rendah maka item Introduction To Classical & Modern
tersebut semakin sulit. Besarnya tingkat Test Theory (1986) menyebutkan bahwa
kesukaran berkisar antara 0 sampai dengan secara umum daya pembeda item
1. merupakan kemampuan suatu item dalam
Tingkat kesukaran biasanya membedakan kelompok aspek yang diukur
dibedakan menjadi tiga kategori. Item yang sesuai dengan perbedaan yang ada dalam
memiliki p < 0.3 biasanya disebut dengan kelompok itu. Parameter daya beda item
item sukar. Item yang memiliki p > 0.7 disebut sebagai indeks daya beda yang
biasanya disebut dengan item mudah. Dan hanya dapat diaplikasikan pada item yang
item yang memiliki p antara 0.3 sampai bersifat dikotomus.
dengan 0.7 biasanya disebut sebagai item Angka yang menunjukkan besarnya
sedang, seperti tampak pada tabel dibawah daya beda disebut indeks diskriminasi
ini: disingkat dengan D. Dan besarnya angka
Tabel 2. 2 Kriteria Tingkat Kesukaran yang menunjukkan daya beda item berkisar
Kriteria Tingkat antara -1 sampai dengan +1. Tanda negatif
Kategori Item
Kesukaran (p) menunjukkan bahwa peserta tes yang
p > 0.7 Mudah berkemampuan rendah dapat menjawab
0.30 < p < 0.70 Sedang
benar item tersebut sedangkan peserta tes
p > 0.30 Sukar
yang berkemampuan tinggi menjawab
Sumber : Hayat, et.al., 1999.
salah. Dengan demikian dapat disebutkan
Item item yang memiliki indeks
bahwa daya beda item sama dengan

validitas item. kebanyakan kasus jumlah peserta tes
Adapaun Indeks daya beda item kelompok atas sama dengan jumlah peserta
yang termasuk sudah dapat membedakan tes kelompok bawah, (Surapranata. 2006).
kelompok yang berkemampuan tinggi Sehingga perhitungan daya pembeda dapat
dengan kelompok yang berkemampuan dinyatakan dengan persamaan:
rendah adalah di atas 0.30 (Surapranata,
2006). Item yang memiliki validitas di atas D=
∑ A − ∑ B
nA nB
0.30 merupakan item yang baik (Nunnally (2.6)
dalam Surapranata, 2006). Pendapat yang D indeks daya pembeda;
sama juga dikemukakan oleh Nitko (1983), ΣA jumlah peserta tes yang menjawab
item yang diterima adalah item yang benar pada kelompok atas;
memiliki indeks daya beda di atas 0.30, ΣB jumlah peserta tes yang menjawab
direvisi apabila memiliki indeks daya beda benar pada kelompok bawah;
berada antara 0.10 sampai dengan 0.29, nA jumlah peserta tes kelompok atas
sedangkan item yang memiliki indeks daya nB jumlah peserta tes kelompok bawah
beda di bawah 0.10 akan ditolak. Sementara
Fernandes sedikit memberi kelonggaran Sementara daya pembeda item
dengan menyatakan bahwa item yang dengan indeks korelasi dapat dijelaskan
memiliki indeks daya beda di atas 0.20 sebagai berikut:
sudah cukup baik untuk membedakan 1) Korelasi Point biserial
kelompok yang berkemampuan tinggi Korelasi point biserial maupun
dengan kelompok yang berkemampuan korelasi biserial adalah korelasi product
rendah, ( Kartowagiran, 2004). moment yang diterapkan pada data,
Ada dua cara yang paling umum variabel-variabel yang dikorelasikan
digunakan untuk menentukan besarnya sifatnya masing-masing berbeda satu-
daya beda item, antara lain dengan: sama lain. Variabel item bersifat dikotomi
1) indeks diskriminasi; sedangkan variabel skor total atau sub
2) indeks korelasi; skor total bersifat kontinum. Variabel item
Untuk menghitung besarnya dinamakan dikotomi karena skor-skor yang
daya pembeda item dengan indeks terdapat pada item hanya ada satu dan nol.
diskriminasi dapat ditentukan dengan Seperti halnya pada bentuk item pilihan
membagi kelompok responden menjadi ganda, item yang benar diberi angka 1
dua kelompok, yaitu kelompok atas dan dan yang salah diberi angka 0. Variabel
kelompok bawah. Variasi pembagian skor total atau sub skor total peserta tes
kelompok atas dan kelompok bawah bersifat kontinum atau non dikotomi yang
berdasarkan perolehan skor total dapat diperoleh dari jumlah jawaban yang benar
dilakukan dengan tiga variasi, yakni 50%- (Hayat at al, 1999).
50%, 33%-33%, atau 27%-27%. Dalam Korelasi point biserial ditentukan
dengan menggunakan persamaan : dengan kriteria dan taraf kesukaran.
c. Kehandalan Distraktor
M p − Mt p Yang dimaksud dengan kehandalan
rpbis =
St q (keberfungsian) distraktor disini adalah
(2.8)
distribusi peserta tes dalam menentukan
rpbis koefisien korelasi point biserial; pilihan jawaban pada item bentuk pilihan
Mp mean skor pada tes dari peserta tes ganda. Tes bentuk pilihan ganda terdiri
yang memiliki jawaban benar pada dari item yang berisi permasalahan yang
item item; ditanyakan dan kemungkinan pilihan
Mt mean skor total; jawaban (penyebaran pilihan jawaban).
St standar deviasi pada skor total; Dan dari sekian banyak pilihan jawaban
p proporsi peserta tes yang hanya terdapat satu jawaban yang paling
jawabannya benar pada item item; benar yang disebut dengan kunci jawaban
q proporsi jawaban salah peserta tes sedangkan selebihnya adalah pilihan
= 1 – p. jawaban yang tidak benar yang disebut
distraktor (pengecoh).
2) Korelasi Biserial Distraktor yang baik adalah
Korelasi biserial dapat ditentukan distraktor yang memiliki homogenitas
dengan persamaan: dengan kunci jawaban. Sebaliknya
distraktor akan menjadi kurang baik apabila
M p − Mt p pilihan jawaban selain kunci atau distraktor
rbis =
St y tidak memiliki homogenitas dengan
(2.9)
kunci jawaban. Kehandalan distraktor
rpbis koefisien korelasi point biserial;
juga berfungsi sebagai pengidentifikasian
Mp mean skor pada tes dari peserta tes
peserta tes yang berkemampuan tinggi dan
yang memiliki jawaban benar pada
peserta tes yang berkemampuan rendah.
item item;
Distraktor akan berfungsi apabila
Mt mean skor total;
dipilih secara merata oleh peserta tes.
St standar deviasi pada skor total;
Dengan kata lain dapat disebutkan bahwa
p proporsi peserta tes yang
proporsi peserta tes yang menjawab pilihan
jawabannya benar pada item item;
jawaban tertentu, baik kunci jawaban
y ordinat p atau nilai y dalam
maupun distraktor menyebar pada seluruh
distribusi normal.
pilihan jawaban. Penyebaran pilihan
jawaban berkisar antara 0 sampai dengan
Nilai korelasi point biserial selalu
1. Sehingga suatu pilihan jawaban selain
lebih rendah jika dibandingkan dengan nilai
kunci dikatakan berfungsi dengan baik
korelasi biserial. Koefisien point biserial
apabila dipilih paling sedikit oleh 2.5 %
merupakan kombinasi hubungan antar item
≥ 0.025 ) peserta tes. (Zulaiha, 2008).

Kehandalan distruktor atau yang mempunyai ciri-ciri dan sifat-sifat
penyebaran pilihan jawaban dapat sebagai berikut : (1) karakteristik item
diperoleh melalui perhitungan dengan tidak tergantung kepada kelompok peserta
menggunakan rumus sederhana, yaitu : tes yang dikenai item tersebut, (2) skor
yang menyatakan kemampuan peserta
Jpj tidak tergantung kepada tes, (3) model
Ppj =
n dinyatakan dalam tingkatan (level) item,
(2.10) tidak dalam tingkatan tes, (4) model tidak
Dimana : memerlukan tes paralel untuk menghitung
Ppj penyebaran jawaban untuk pilihan koofisien reliabilitas, dan (5) model
jawaban tertentu; menyediakan ukuran yang tepat untuk
Jpj banyak siswa yang memilih pilihan setiap skor kemampuan, (Hambleton,
jawaban tertentu; et.al., 1991).
n banyaknya peserta tes. Item Respon Theory (IRT) juga
Persamaan lain yang dapat merupakan model pengukuran yang
digunakan untuk menunjukkan indeks mempunyai dua postulat, yaitu: (1)
daya beda item pada pilihan jawaban performansi peserta tes pada suatu
(alternatif) adalah dengan menggunakan item dapat diprediksi oleh sekumpulan
persamaan koefisien point-biserial dan faktor yang disebut traits, latent trait
biserial korelasi product moment Pearson. atau abilities (kemampuan), dan (2)
Apabila indeks korelasi point biserial hubungan antara performansi peserta
maupun biserial yang diperoleh pada tes pada suatu item dan sekumpulan
pilihan jawaban selain kunci (distraktor) traits dapat digambarkan dalam sebuah
semakin negatif (< 0) , maka sudah dapat fungsi monoton naik yang disebut fungsi
dikatakan distraktor sudah berfungsi karakteristik item (item characteristic
dengan baik. Dan apabila tidak ada satu function) atau kurva karakteristik item
orang pun dari peserta tes yang menjawab (item characteristic curve) (Hambleton,
pilihan jawaban item tersebut, maka nilai et.al. 1991). Fungsi karakteristik item ini
distraktornya adalah -9.000. Nilai -9.000 adalah menggambarkan bahwa semakin
tersebut menunjukkan bahwa statistik item meningkat level kemampuan seseorang,
atas pilihan jawaban tidak dapat dihitung. semakin meningkat pula peluangnya
2. Teori Tes Modern (Item Response menjawab benar item tertentu.
Theory atau IRT) Dalam teori tes modern juga
Item Respon Theory (IRT) terdapat beberapa asumsi seperti yang
bertujuan untuk mengatasi kelemahan- dikemukakan oleh Hambleton, et.al.
kelemahan yang terdapat pada teori tes (1991); dan Naga, (1992).
klasik. Untuk itu para ahli pengukuran Asusmsi-asumsi tersebut antara
kemudian menyusun model alternatif lain :
a. Unidimensionalitas dan faktor lain yang mempengaruhi). Akan
IRT mengisyaratkan asumsi tetapi model 4 parameter dalam analisis
unidimensionalitas yang berarti bahwa teori tes modern belum banyak digunakan.
setiap item hanya mengukur satu ciri Sementara Hambleton, et.al,
laten peserta (kemampuan). Secara (1991) dalam bukunya Fundamentals of
praktik asumsi ini sukar untuk dipenuhi Item Response Theory membagi model
sepenuhnya, sebab ada beberapa faktor parameter logitik menjadi tiga model yaitu:
lain dapat memengaruhi hasil suatu tes. a. Model satu parameter (1PL atau
Sebenarnya unidimensionalitas dalam teori model rasch),
tes modern ini adalah adanya faktor yang yaitu model yang hanya
paling dominan memengaruhi hasil suatu menganalisis pada parameter tingkat
tes. Dan faktor itu adalah kemampuan kesukaran item (threshold/b). Model IRT
peserta tes. ini murupakan model yang paling sering
b. Independensi lokal digunakan. Formula untuk model 1 PL ini
Independensi dapat diartikan adalah :
bahwa setiap item yang ada dalam suatu
e (θ −bi )
tes tidak saling berkorelasi satu sama lain Pi (θ ) =

akibat respon peserta tes. Dengan kata 1 + e (θ −bi )
(2.11)
lain, kemampuan yang dinyatakan dalam
model ini adalah satu-satunya faktor yang Dimana :
memengaruhi respons peserta tes pada i 1, 2..., n;
item-item soal tertentu. Pi(θ) kemungkinan sampel
c. Fungsi karakteristik item. menjawab secara tepat
Fungsi karakteristik item dengan kemampuan
menyatakan hubungan sebenarnya antara menjawab benar pada item
variabel yang tak terobservasi (yaitu tersebut
kemampuan) dengan variabel terobservasi bi parameter tingkat
(yaitu respons item). kesukaran
Model teori tes modern atau Item n jumlah item tes
Respon Theory (IRT) oleh safari (2005) e bilangan transedental yang
dikategorikan dalam 4 model, yaitu, (1) bernilai 2.718
model 1 parameter atau rasch model Parameter bi untuk sebuah
(tingkat kesukaran item/threshold), item merupakan suatu titik pada skala
(2) model 2 parameter (threshold dan kemampuan dimana probablitas menjawab
daya beda item/slope) dan , (3) model 3 benar peserta tes sebesar 0.5. Parametar
parameter (threshold, slope, dan faktor bi diperoleh melalui titik potong kurva
menebak/asymptote), dan (4) model 4 probabilitas peserta tes yang menjawab
parameter (threshold, slope, asymptote, benar dan kurva probabilitas peserta tes

yang menjawab salah, dimana titik potong D=1,7 untuk logistik 1PL dan D=1 untuk
tersebut berada pada level probabilitas Rasch
sebesar 0.5 (50%). Pada model dua parameter (2PL)
Dalam kaitannya dengan skala logistik ini elemen yang bertambah selain
kemampuan, pada Item karakteristik kurva D adalah ai, yaitu parameter diskriminasi/
(ICC) dapat digambarkan bahwa semakin daya beda item (slope). Parameter ai
tinggi nilai parameter bi, semakin besar merupakan proporsi terhadap garis
kemampuan yang diperlukan oleh peserta singgung slope pada titik 0 = bi . Item yang
tes untuk mendapatkan 50% kesempatan mempunyai daya beda tinggi adalah item
menjawab benar item tersebut. yang lebih dapat membedakan kemampuan
Rentang indeks tingkat kesukaran peserta tes dibandingkan dengan item yang
item (bi) yang ideal adalah antara -2 sampai mempunyai daya beda kecil. Landai atau
dengan 2, dimana pada rentang tersebut curamnya Item Karakteristik Kurva (ICC)
nilai tingkat kemampuan kelompok peserta sangat bergantung pada daya beda item
tes telah ditransformasikan sehingga nilai tersebut dalam membedakan kemampuan
rata-rata (mean) menjadi 0 dan standar peserta tes. Item yang mempunyai daya
deviasi 1. Nilai bi yang mendekati -2 beda kecil akan memiliki ICC yang landai,
menggambarkan bahwa item tersebut sebaliknya item dengan daya beda tinggi
sangat mudah, dan sebaliknya bila nilai akan memiliki ICC yang curam.
bi mendekati ke angka 2, maka tingkat Rentang indeks daya beda item
kesukaran item tersebut dapat dikatakan pada model 2PL ini adalah -∞ sampai
sukar/sulit untuk dijawab oleh kelompok dengan +∞, akan tetapi item yang dikatakan
peserta tes. mempunyai daya beda yang baik adalah
b. Model dua parameter (2PL), item yang memiliki indeks daya beda
yaitu model yang digunakan untuk (slope) antara 0 sampai dengan 2.
menganalisis data yang menitikberatkan c. Model tiga parameter (3PL),
pada parameter tingkat kesukaran yaitu model yang digunakan
(threshold/b) dan daya beda item (slope/a). untuk melakukan analisis data yang
Item karakteristik kurva (ICC) untuk model menitikberatkan pada parameter tingkat
2 parameter logistik ini dapat diperoleh kesukaran item (threshold/b), daya beda
dengan persamaan: item (slope/a), dan faktor menebak
(asymptote/c) :
e Da i (θ −bi ) Rumus untuk model tiga parameter
Pi (θ ) = logistik adalah:
1 + e Da i (θ −bi )
(2.12) e Da i (θ −bi )
dimana : Pi (θ ) = ci + (1 − ci )
1 + e Da i (θ −bi )
i , , Pi(θ), bi, n, dan e telah didefinisikan di (2.13)
atas. Dimana i , D, Pi(θ), bi, n, e, dan ai telah
didefinisikan sebelumnya. Parameter yang penelitian ini penulis menjelaskan tentang
bertambah pada model ini adalah ci yang analisis regresi sederhana dikarenakan
biasa disebut faktor guessing atau pseudo- data penelitian ini hanya terdiri dari satu
chance level, dan dalam istilah lain dapat independen variabel.
disebut dengan asymptote. Nilai asymptote Analisis regresi sederhana
akan mempengaruhi probabilitas peserta merupakan salah satu bagian dari tekhnik
tes dalam menjawab benar satu item. analisis regresi parametrik yang dapat
Asymptote yang tinggi akan menyebabkan memberikan dasar untuk memprediksi
semakin tinggi pula probabilitas peserta tes besarnya variasi serta menganalisis varian,
untuk menjawab benar item tersebut. (Triton, 2006).
Tujuan dilakukan analisis regresi
F. Analisis Regresi Sederhana adalah untuk, 1) menentukan persamaan
garis regresi berdasarkan nilai konstanta
Analisis regresi dikembangkan
dan koefisien regresi yang dihasilkan, 2)
untuk mengkaji dan mengukur hubungan
mencari korelasi bersama-sama antara
antar dua variabel atau lebih. Dalam
variabel independen dengan variabel
analisis regresi dikembangkan persamaan
dependen, 3) mengitung besarnya variasi
estimasi untuk mendeskripsikan pola atau
pada variabel dependen yang dapat
fungsi hubungan antar variabel. Sesuai
dijelaskan oleh variabel independen, dan
dengan namanya, persamaan regresi itu
4) menguji signifikansi pengaruh variabel
digunakan untuk mengestimasi nilai dari
independen terhadap variabel dependen
suatu variabel berdasarkan nilai variabel
melalui uji F atau uji t.
lainnya. Variabel yang diestimasi itu
Bentuk hubungan antara variabel
disebut variabel dependen. Sedangkan
independen dengan variabel dependen
variabel yang diperkirakan mempengaruhi
dapat digambarkan dalam satu garis yang
variabel dependen itu disebut variabel
disebut garis regresi. Garis regresi dapat
independen, (Reksoatmodjo, 2007).
berbentuk garis lurus (linier) atau garis
Analisis regresi terdiri dari analisis
melengkung (non linier). Hubungan linier
regresi sederhana dan analisis regresi
digambarkan oleh kesamaan perubahan
berganda. Analisis regresi sederhana
variasi yang tetap baik penurunan atau
(simple regression analysis) adalah
peningkatan yang terjadi pada variabel
analisis regresi yang menggunakan hanya
dependen dan variabel independen.
satu variabel independen (independent
Sementara hubungan non liner kebalikan
variabel) dan satu variabel dependen
dari hubungan linier, yaitu perubahan
(dependent variabel). Sedangkan analisis
peningkatan atau penurunan variasi yang
regresi berganda (multi regression analysis)
terjadi tidak konsisten.
menggunakan lebih dari satu variabel
Sehubungan dengan kemungkinan
independen. Namun demikian pada
bentuk garis hasil analisis regresi ini,

regresi linier maupun regresi non linier, ketika variabel X naik 1 poin, (Gravetter, F.
maka sebelum melakukan analisis J., & Wallnau L. B., 2007)
regresi sebaiknya dilakukan uji linearitas Untuk mengetahui bentuk korelasi
hubungan antara variabel independen dan antara variabel X dan variabel Y sesuai
variabel dependen sehingga analisis regresi dengan tujuan regresi dapat dicari dengan
yang dipilih akan sesuai. teknik korelasi product moment Pearson,
Secara umum, persamaan garis dengan rumus umumnya adalah :
regresi antara variabel independen (X) dan
variabel dependen (Y) dapat digambarkan
dengan formula : R xy =
∑ xy
∑ ∑
x
(2.17)
2
(y 2
)( )
Y = b0 + b1 X
(2.14) Dimana nilai xy, x2, dan y2 diperoleh melalui
persamaan:
dimana :
Y kriterium; (∑ X )(∑ Y )
∑ xy = ∑ X
Y −
N
X prediktor; (2.18)
b0 konstanta regresi atau harga yang
(∑ X ) 2
∑x 2
=∑X2 −
N
memotong sumbu Y; dan (2.19)
b1 koefisien regresi atau sering disebut dan
slope. (∑ Y ) 2
Untuk dapat mengetahui seberapa

∑ y 2 = ∑Y 2 −
N
(2.20)
besar variasi yang diberikan oleh X terhadap
Y, terlebih dahulu harus diketahui besaran Dalam kaitannya dengan regresi,
nilai b0 dan b1, dimana nilai keduanya dapat nilai hasil korelasi antara variabel Y
perolah dengan menggunakan persamaan dan variabel X dapat dinamakan dengan
sebagai berikut : validitas prediksi. Mengenai validitas
prediksi telah penulis jelaskan sebelumnya
∑ Y ∑ X − ∑ X ∑ XY
b0 =
2
pada bagian validitas dan reliabilitas.
N ∑ X − (∑ X ) 2 2
(2.15) Selanjutnya mencari koefisien
dan determinasi ( R 2 ) dengan menggunakan
persamaan sebagai berikut :
N∑ X
Y − ∑ X ∑Y
b1 =
N ∑ X 2 − (∑ X )
∑ ( y − yˆ )
2 2
(2.16) 2
R =

∑ ( y − y) 2
(2.21)
Pada persamaan regresi ini nilai b1
disebut dengan slope. Slope menentukan
seberapa besar variabel Y akan berubah Koefisien determinasi ( R2 )
digunakan untuk menentukan besarnya kegiatan pendidikan formal di kelas, tes
variasi yang terjadi pada variabel dependen
prestasi belajar dapat berbentuk ulangan-
Y yang sering disebut kriterium atau ulangan harian, tes formatif, tes sumatif
kriteria berdasarkan data yang terdapat dan beberapa bentuk tes lainnya.
pada variabel independen X yang disebut Dalam menyusun instrumen tes
prediktor. untuk tes prestasi, yang harus diperhatikan
Terakhir adalah menguji
adalah bagaimana instrumen tes bisa
signifikansi pengaruh variabel independen
sepadan dengan kemampuan seseorang
terhadap variabel dependen melalui uji yang akan di berikan tes. Tes prestasi
F, sehingga diperoleh persamaan sebagai belajar merupakan sebuah tes dengan
berikut: jumlah item yang banyak dan seluruh
itemnya bertaraf kesukaran sedang (on-
target) bagi orang yang menempuh tes. Hal
b 2 x∑ ( X − X )
F= ini memberi gambaran bahwa instrumen
S e2
(2.22) tes yang disusun tidak boleh terlalu jauh
di bawah atau di atas kemampuan peserta
Dimana nilai a, b dan Se diperoleh dari tes, dan tingkat kesukaran item-item soal
persamaan-persaman di bawah ini : sebaiknya berada pada kategori sedang.
Sehingga dengan demikian instrumen tes
yang disusun nantinya dapat berfungsi
a = Y + b1 X dengan baik.
(2.23)
dan Daftar Pustaka
A., & Urbina, S. (2006). Tes
b=
∑ XY − n. X .Y ) Anastasi,Psikologi. Edisi Ketujuh, (Imam, R.
∑ X 2 − n. X 2
(2.24) H. S. Penerjemah) Jakarta : Indeks
serta Arikunto, S. (2008). Dasar-dasar Evaluasi
Pendidikan, Edisi Revisi, Jakarta :
Se =
∑ Y 2 − a.∑ Y −b.∑ XY
Bumi Aksara.
n−2
(2.25) Arvyaty. (2005). Komparasi Bentuk Tes
ditinjau dari Tingkat Kesukaran
Item, Daya Beda item, dan
G. Kesimpulan Reliabilitas Tes, Tesis Pascasarjana,
tidak diterbitkan, Universitas
Tes prestasi merupakan tes Negeri Jakarta.
yang disusun secara terencana untuk
Azwar, S. (2000). Reliabilitas dan Validitas,
mengungkap performansi maksimal
Yokyakarta : Pustaka Pelajar.
subjek dalam menguasai bahan-bahan
atau materi yang telah diajarkan. Dalam Azwar, S. 2007). Tes Prestasi, Fungsi

dan Pengembangan Pengukuran (1999). Manual Item and Test
Prestasi Belajar, edisi II, Cetakan analysis (ITEMAN) Pedoman
VI, Yogyakarta : Pustaka Pelajar. Penggunaan ”ITEMAN”. Jakarta :
Pusat Penelitian dan Pengembangan
Budiyono. (2005). Perbandingan Metode Pendidikan Nasional, Puspendik.
Mantel-Haenszel, SIBTEST, Regresi
Logistik, dan Perbedaan Peluang Kartowagiran, B. (2004). Perbandingan
dalam Mendeteksi Keberbedaan Berbagai Metode Untuk Mendeteksi
Fungsi Item, Yogyakarta : UNY Bias Item, Jogyakarta ; Fakultas
(disertasi) Psikologi UGM.
Chaplin, J.P. (2005). Kamus Lengkap Naga, S. D. (1992). Pengantar Teori Sekor
Psikologi, Jakarta : PT. Raja pada Pengukuran Pendidikan,
Jakarta: Gunadarma
Grafindo Persada
Nunnaly, J.C., & Ira, H. B. (1994).
Crocker, L. & Algina, J. (1986).
Psychometric Theory.3rd ed. New
Introduction to Classical and
York, McGraw-Hill, Inc
Modern Test Theory, New York :
Holt, Rinehart and Winston, Inc. Pusat Penilaian Pendidikan Balitbang
Depdiknas. (2006). Urgensi Ujian
Departemen Pendidikan Nasional,
Nasional, Jakarta.
Direktorat Jenderal Pendidikan
Dasar dan Menengah, Direktorat Reksoatmodjo, T. N. (2007). Statistika
untuk Psikologi dan Pendidikan,
Tenaga Kependidikan. (2003). Bandung; Refika Aditama
Sistem Penilaian Kelas SD, SMP,
SMA dan SMK, Jakarta : Pengarang. Safari. (2005). Teknik Analisis Item Item
Instrumen Tes dan Non-Tes, Jakarta
Ebel, R. L. & Frisbie, D.A. (1991). Essentials ; Depdiknas
of Educational Measurement, New
Jersey : Prentice Hall. Surapranata, S. (2006). Analisis, Validitas,
Reliabilitas dan Interpretasi
Hambleton, R. K., Swaminathan, H., & Hasil Tes, Bandung ; PT.Remaja
Rogers, H. J. (1991). Fundamentals Rosdakarya.
of Item Response Theory,
California. ; Sage Publication Inc. Suryabrata, S. (2006). Pengembangan
Alat Ukur Psikologis, Yogyakarta :
Hayat, B. (2000). Pengantar Model Rasch Andi.
(Kalibrasi item), Jakarta : Pusat
Penelitian Pendidikan Balitbang Triton, (2006). SPSS 13.0 Terapan, Riset
Depdiknas.. Statistik Parametrik, Yogyakarta :
Andi.
Hayat, B., & Setiadi, H. (1998). Mendesain
Instrumen tes Dengan Model Rasch, Weitzman, R. A. (1982). The Prediction
Jakarta ; Pusat Penelitian dan of College Achievement by the
Pengembangan Sistem Pengujian, Scholastic Aptitude Test and the
Balitbang Dikbud. High School Record. Journal of
Educational Measurement, Vol. 19,
Hayat, B., Surapranata, S,. & Suprananto. No. 3. (Autumn, 1982).
Wijanto, H.S. (2008). Structural Equation Zulaiha, R. (2008). Analisis Item Secara
Modeling dengan Lisrel 8.8 Konsep Manual, Jakarta : Pusat Penilaian
& Tutorial. Yogyakarta : Graha Pendidikan.
Ilmu.

Article Text Psychology

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Article Text Psychology

Diunggah oleh

Hak Cipta:

Format Tersedia

TES SEBAGAI ALAT UKUR PRESTASI AKADEMIK

Kata Kunci: Penilaian, Tes, CTT, IRT

Keywords : Evaluation, Tests, CTT, IRT

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 93

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 95

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 97

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 99

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 101

Tabel 2. 1 Metode Penentuan Reliabilitas

Bentuk reliabilitas Prosedur untuk memperoleh

Sumber: Surapranata (2006)

Secara statistik banyak perssamaan 1) Alpha-Cronbach

menghitung besarnya koefisien atau indeks α= 1 − 2 

ρ=   standar dalam pengukuran dan lain-lain.

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 103

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 105

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 107

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 109

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 111

Untuk dapat mengetahui seberapa

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 113

Suharman: Tes Sebagai Alat Ukur Prestasi Akademik | 115

Anda mungkin juga menyukai