Disusun oleh:
Sinta Wulanningrum(15302241031)
Pendidikan Fisika A
Dengan memanjatkan puji syukur kehadirat Allah SWT yang senantiasa selalu
memberikan berkat dan rahmatnya sehingga kami dapat menyelesaikan makalah Teori
Respon Butir yang akan membahas materi tentang “ Teori Tes Klasik” ini yang Insya Allah
dapat memberikan informasi yang berharga bagi para pembaca.
Demikian makalah ini dibuat, mohon maaf yang sebesar besarnya atas kesalahan baik
berupa kata kata maupun dalam pengetikan dalam makalah ini.
PENDAHULUAN
A. LATAR BELAKANG
Dewasa ini ada dua macam teori tentang pengukuran, yakni Teori Tes Klasik dan
Teori Tes Modern (Suryabrata, 2005), Teori Tes Klasik disebut juga dengan Classical
True-Score Theory, dinamakan Teori Tes Klasik karena unsur-unsur teori ini sudah
dikembangkan dan diaplikasikan sejak lama, namun tetap bertahan hingga sekarang.
Tes Modern disebut juga dengan Latent-Trait Theory karena teori ini berasumsi
bahwa performansi subjek dalam mengerjakan suatu tes dapat diprediksi dari
kemampuannya yang bersifat laten atau menetap. Teori Tes Modern juga sering disebut
dengan Item Response Theory, artinya respon subjek terhadap suatu aitem menunjukkan
kemampuan kognitifnya.
Teori tes klasik (TTK) atau classical test theory (CTT) telah berkembang secara luas
dan menjadi aliran utama di kalangan ahli psikologi dan pendidikan, serta bidang kajian
perilaku (behavioral) yang lain, selama 20 dekade (Embretson & Reise, 2000) . TTK
memiliki kelemahan karena bersifat examinee sample dependent dan item
sample dependent (Fan, 1998; Hambleton & Swaminathan, 1985; Hambleton,
Swaminathan, & Rogers, 1991; Hambleton, Robin, & Xing, 2000; Lord, 1980) .
Kelemahan tersebut memicu teori baru yang lebih memadai, yaitu teori tes modern, yang
dikenal juga sebagai teori respon aitem (TRA) atau item response theory (IRT) dan
dikenal pula dengan nama latent traits theory (LTT).
Berdasarkan beberapa data di atas serta dikaitkan dengan permasalahan yang kami
akan jelajahi, maka penulisan ini akan difokuskan pada pembahasan tentang “Teori Tes
Klasik” agar dapat lebih memahami apa itu sebenarnya Teori Tes Klasik serta lebih
memahami bagaimana penggunaannya serta kelemahanya.
B. RUMUSAN MASALAH
1. Apakah yang dimaksud teori tes klasik ?
2. Apa saja asumsi-asumsi dalam teori tes klasik?
3. Apa saja karakteristik tes menurut teori tes klasik?
4. Apa saja kelebihan dan kelemahan dari teori tes klasik?
C. TUJUAN
1. Untuk mengetahui pengertian dari teori tes klasik.
2. Untuk mengetahui asumsi-asumsi dalam teori tes klasik.
3. Untuk mengetahui karakteristik tes menurut teori tes klasik.
4. Untuk mengetahui kelebihan dan kelemahan dari teori tes klasik
BAB II
PEMBAHASAN
Teori Tes klasik berkembang sedikit demi sedikit melalui unsur-unsur yang kemudian
secara akumulatif merupakan bangunan teori yang utuh. Inti Teori Tes Klasik adalah
asumsi-asumsi yang dirumuskan secara sistematis serta dalam jangka waktu yang lama.
Skor tampak disimbolkan dengan huruf X merupakan nilai performansi individu pada alat
tes yang dinyatakan dalam bentuk angka, skor murni yang dilambangkan dengan huruf T
merupakan performansi individu sesungguhnya yang tidak pernah dapat kita ketahui
besarnya karena tidak dapat diungkap secara lansung oleh alat tes, dan eror pengukuran
yang diberi simbol huruf E (Azwar, 2005).
Pemakaian teori tes klasik dalam kontruksi dan interpetasi skor telah berjalan
beberapa dekade lamanya. Menurut Mardapi (1998) teori tes klasik menggunakan model
pengukuran yang sangat sederhana, yakni skor yang tampak terdiri dari skor sebenarnya
dan skor kesalahan. Orang cenderung memberi skor lebih atau kurang terhadap subjek
yang menempuh tes termasuk pada kesalahan spesifik. Selain itu kesalahan spesifik ini
bisa disebabkan estimasi kemampuan dari suatu alat ukur yang cenderung lebih besar dari
kemampuan sebenarnya atau sebaliknya.
Kesalahan acak bisa terjadi disebabkan kondisi subjek yang diukur. Pada saat
pengukuran berlangsung kemungkinan kondisi subjek tidak sama dengan keadaan
normalnya. Kondisi subjek yang diukur yang dipengaruhi faktor seperti rasa lelah, susah,
senang, sakit, cemas dan sejenisnya selalu berubah-ubah menurut waktu termasuk dalam
kesalahan acak.
Hubungan antara Skor Tampak (X), Skor Murni (T) dan Kesalahan Pengukuran (E)
dapat ditulis dalam persamaan:
X=T+E
B. ASUMSI-ASUMSI TEORI TES KLASIK
Allen & Yen (dalam Azwar, 2005) menguraikan asumsi-asumsi teori klasik sebagai
berikut:
a. Asumsi 1
X = T + E (1)
Asumsi ini menjelaskan bahwa sifat aditif berlaku pada hubungan antara skor tampak,
skor muni, dan eror. Skor tampak (X) merupakan jumlah skor murni (T) dan eror (E), jadi
besar skor tampak akan tergantung oleh besarnya eror pengukuran, sedangkan besarnya
skor murni individu pada setiap pengukuran yang sama diasumsikan selalu tetap.
Contoh : Skor murni si Galih dalam tes IQ=110, dalam Tes 1 diperoleh X=112 (maka
E=+2) dan dalam tes 2 diperoleh X=108 (maka E=-2)
b. Asumsi 2:
ε(X) = T (2)
Asumsi ini menyatakan bahwa skor murni merupakan nilai harapan dari skor
tampaknya, jadi T merupakan harga rata-rata distribusi teoretik skor tampak apabila orang
yang sama dikenai tes yang sama berulang kali dengan asumsi pengulangan tes itu
dilakukan tidak terbatas banyaknya dan setiap pengulangan tes adalah tidak bergantung
satu sama lain.
c. Asumsi 3:
ρet = 0 (3)
Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes, distribusi eror
pengukuran dan distribusi skor murni tidak berkorelasi. Implikasinya, skor murni yang
tinggi tidak selalu berarti mengandung eror yang selalu positif ataupun selalu negatif.
Contoh : Galih memperoleh tes 1 dimana T=120, X=122 (E=+2), dengan tes 2 dimana
X=118 (E=-2).
d. Asumsi 4:
ρe1e2= 0 (4)
Bila E1 melambangkan eror pada pengukuran atau tes pertama dan E2 melambangkan
eror pada tes yang kedua maka asumsi ini menyatakan bahwa eror pengukuran pada dua
tes yang berbeda, yaitu E1 dan E2 tidak berkorelasi satu sama lain. Contoh : Pada tes 1,
Galih memperoleh (E=+6), tidak berarti pada tes 2 Galih akan mendapat skor (E) yang
lebih besar dari tes 1.
e. Asumsi 5
ρe1t2= 0 (5)
Asumsi ini menyatakan bahwa eror pada suatu tes (E1) tidak berkorelasi dengan skor
murni pada tes lain (T2). Asumsi ini tidak dapat bertahan apabila tes yang kedua
mengukur aspek yang mempengaruhi eror pada pengukuran yang pertama.
Selain dua asumsi yang telah disebutkan, dalam buku Suryabrata (2005) menuliskan dua
asumsi sebagai berikut:
f. Asumsi 6
Asumsi ini menyatakan jika ada dua tes yang dimaksudkan untuk mengukur atribut
yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan
jika untuk setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama, kedua
tes tersebut disebut sebagai tes yang paralel. Contoh : Setiap orang yang dites di UNY
memperoleh skor 80, kemudian di tes di tes di UGM pasti memperoleh nilai skor 100,
maka kedua tes disebut Ekuivalen.
g. Asumsi 7
Asumsi ini menyatakan jika ada dua tes yang dimaksudkan untuk mengukur atribut
yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan
jika untuk setiap populasi subjek T1 = T2 + C, dengan C sebagai suatu bilangan konstan,
maka kedua tes tersebut dapat disebut sebagai tes yang setara (equivalent test). Contoh :
Setiap orang yang dites di UNY memperoleh skor 80, kemudian di tes di tes di UGM
pasti memperoleh nilai skor 100, maka kedua tes disebut Ekuivalen.
1). Reliabilitas
Allen & Yen (1979: 62) menyatakan bahwa tes dikatakan reliabel jika skor
amatan mempunyai korelasi yang tinggi dengan skor yang sebenarnya.
Selanjutnya dinyatakan bahwa reliabilitas merupakan koefisien korelasi antara
dua skor amatan yang diperoleh dari hasil pengukuran menggunakan tes yang
paralel. Dengan demikian, pengertian yang dapat diperoleh dari pernyatan
tersebut adalah suatu tes itu reliabel jika hasil pengukuran mendekati keadaan
peserta tes yang sebenarnya.
Berdasarkan uraian di atas, maka dalam pembuatan alat ukur dalam dunia
pendidikan harus dilakukan secermat mungkin dan disesuaikan dengan kaidah-
kaidah yang telah ditentukan oleh ahli-ahli pengukuran di bidang pendidikan.
Untuk melihat reliabilitas suatu alat ukur, yang berupa suatu indeks reliabilitas,
dapat dilakukan penelaahan secara statistik. Nlai ini biasa dinamakan dengan
koefisien reliabilitas (reliability coefficient).
Untuk menentukan nilai reliabilitas suatu tes (butir soal berbentuk pilihan
ganda (multiple choice)) dapat digunakan formula sebagai berikut .
Dengan
σ2 : varians.
Mehrens & Lehmann (1973: 104) menyatakan bahwa meskipun tidak ada
perjanjian secara umum, tetapi secara luas dapat diterima bahwa untuk tes yang
digunakan untuk membuat keputusan pada siswa secara perorangan harus
memiliki koefisien reliabilitas minimal sebesar 0,85. Dengan demikian, pada
penelitian ini, tes seleksi digunakan untuk menentukan keputusan pada siswa
secara perorangan, sehingga indeks koefisien reliabilitasnya diharapkan minimal
sebesar 0,85.
2). Validitas
Ada dua macam validitas isi , yaitu validitas kenampakan dan validitas
logika (Syaifudin Azwar, 2000: 45-47). Validitas isi berarti sejauh mana suatu
perangkat tes mencerminkan keseluruhan kemampuan yang hendak diukur
(Syaifudin Azwar, 2000: 45), yang berupa analisis rasional terhadap domain yang
hendak diukur. Validitas kenampakan didasarkan pada pertanyaan apakah suatu
butir-butir dalam perangkat tes mengukur aspek yang relevan dengan domainnya.
Validitas logika berkaitan dengan keseksamaan batasan pada domain yang hendak
diukur, dan merupakan jawaban apakah keseluruhan butir merupakan sampel
representatif dari keseluruhan butir yang mungkin dibuat.
Tingkat kesukaran suatu butir soal, yang disimbolkan dendan pi, merupakan
salah satu parameter butir soal yang sangat berguna dalam penganalisian suatu tes. Hal
ini disebabkan karena dengan melihat parameter butir ini, akan diketahui seberapa
baiknya kualitas suatu butir soal. Jika pi mendekati 0, maka soal tersebut terlalu sukar,
sedangkan jika pi mendekati 1, maka soal tersebut terlalu mudah, sehingga perlu
dibuang. Hal ini disebabkan karena butir tersebut tidak dapat membedakan
kemampuan seorang siswa dengan siswa lainnya.
Allen dan Yen (1979 : 122) menyatakan bahwa secara umum indeks kesukaran
suatu butir sebaiknya terletak pada interval 0,3 – 0,7. Pada interval ini, informasi
tentang kemampuan siswa akan diperoleh secara maksimal. Dalam merancang indeks
kesukaran suatu perangkat tes, perlu dipertimbangkan tujuan penyusunan perangkat tes
tersebut. Untuk menentukan indeks kesukaran dari suatu butir pada perangkat tes
pilihan ganda, digunakan persamaan sebagai berikut :
Dengan
Pada suatu butir soal, indeks daya beda dikatakan baik jika lebih besar atau sama
dengan 0,3. Indeks daya pembeda suatu butir yang kecil nilainya akan
menyebabkan butir tersebut tidak dapat membedakan siswa yang kemampuannya
tinggi dan siswa yang kemampuannya rendah. Pada analisis tes dengan Content-
Referenced Measures, indeks daya pembeda butir tidak terlalu perlu menjadi
perhatian, asalkan tidak negatif (Ebel & Frisbie, 1986; Frisbie, 2005). Jika
nilainya kecil, menunjukkan bahwa kemencengan distribusi skor dari populasi,
yang juga mengakibatkan validitas tes menjadi rendah.
Setiap tes pilihan ganda memiliki satu pertanyaan serta beberapa pilihan
jawaban. Diantara pilihan jawaban yang ada, hanya satu yang benar. Selain jawaban
yang benar tersebut, adalah jawaban yang salah. Jawaban yang salah itulah yang dikenal
dengan distractor (pengecoh). Dengan demikian, efektifitas distraktor adalah seberapa
baik pilihan yang salah tersebut dapat mengecoh peserta tes yang memang tidak
mengetahui kunci jawaban yang tersedia. Semakin banyak peserta tes yang memilih
distraktor tersebut, maka distaktor itu dapat menjalankan fungsinya dengan baik.
Meskipun penggunaan teori tes klasik relatif mudah dalam menganalisis butir,
tapi teori ini memiliki beberapa kelemahan mendasar. Kelemahan utama teori tes klasik
sebagaimana diungkapkanSumadi Suryabrata adalah keterikatan alat ukur teori tersebut
pada sampel (sample bound). Kemampuan kelompok siswa yang mengikuti tes sangat
mempengaruhi nilai statistik. sehingga nilai statistiknya akan berbeda jika tes diberikan
kepada kelompok yang lain.
Selain itu, perkiraan kemampuan peserta tergantung pada butir soal. Jika indeks
kesukaran rendah maka estimasi kemampuan seseorang akan tinggi dan sebaliknya.
Perkiraan kesalahan pengukuran tidak mencakup perorangan tetapi kelompok secara
bersama-sama. Hal ini dikarenakan respon setiap peserta tes terhadap soal tidak bisa
dijelaskan oleh teori tes klasik.
dengan σx merupakan simpangan baku dari skor total dan ρxx’ merupakan koefisien
reliabilitas.
1. Kebanyakan statistik yang digunakan dalam model tes klasik seperti tingkat
kesukaran dan daya pembeda soal sangat tergantung pada sampel yang
dipergunakan dalam analisis. Rerata tingkat kemampuan, rentang, dan
sebaran kemampuan siswa yang dijadikan sampel dalam analisis sangat
mempengaruhi nilai statistik yang diperoleh. Sebagai contoh, tingkat
kesukaran soal akan tinggi apabila sampel yang akan digunakan mempunyai
kemampuan lebih tinggi dari rerata kemampuan siswa dalam poulasinya.
Daya pemeda soal akan tinggi apabila tingkat kemampuan sampel bervariasi
atau mempunyai rentang kemampuan yang besar. Demikian pula dengan
reliabilitas tes.
2. Skor siswa yang diperoleh dari suatu tes sangat terbatas pada tes yang
digunakan. Kesimpulan hasil tes tidak dapat digeneralisasikan di luar tes
yang digunakan. Skor perolehan seseorang sangat tergantung pada pemilihan
tes yang digunakan bukan pada kemampuan peserta tes tersebut. Karena
keterbatasan penggunaan skor tes, teori tes klasikal tidak mempunyai
dasar untuk mempelajari perkembangan kemampuan siswa dari waktu ke
waktu, kecuali jika siswa tersebut menempuh tes yang sama dari waktu ke
waktu.
3. Keajegan/reliabilitas tes dalam konteks teori tes klasik didasarkan pada
kesejajaran perangkat tes sangat sukar untuk dipenuhi. pada praktiknya, sulit
sekali memperoleh dua perangkat tes yang benar-benar sejajar. Jika
prosedur tes retes digunakan, sampel yang diambil sangat tidak mungkin
berperilaku sama pada saat tes dikerjakan untuk yang kedua kalinya.
A. KESIMPULAN
1. Teori Tes Klasik adalah asumsi-asumsi yang dirumuskan secara sistematis serta
dalam jangka waktu yang lama. Teori tes klasik menggunakan model pengukuran
yang sangat sederhana, yakni skor yang tampak terdiri dari skor sebenarnya dan
skor kesalahan
2. Menurut Allen & Yen (dalam Azwar, 2005) asumsi-asumsi teori tes klasik terdiri
dari asumsi 1, asumsi 2, asumsi 3, asumsi 4, asumsi 5, asumsi 6, dan asumsi 7.
Asumsi 1 menjelaskan bahwa sifat aditif berlaku pada hubungan antara skor
tampak, skor muni, dan eror. Asumsi 2 menyatakan bahwa skor murni merupakan
nilai harapan dari skor tampaknya. Asumsi 3 menyatakan bahwa bagi populasi
subjek yang dikenai tes, distribusi eror pengukuran dan distribusi skor murni tidak
berkorelasi. Asumsi 4 menyatakan bahwa eror pengukuran pada dua tes yang
berbeda, yaitu E1 dan E2 tidak berkorelasi satu sama lain. Asumsi 5 menyatakan
bahwa eror pada suatu tes (E1) tidak berkorelasi dengan skor murni pada tes lain
(T2). Asumsi 6 menyatakan jika ada dua tes yang dimaksudkan untuk mengukur
atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1
sampai 5, dan jika untuk setiap populasi subjek T = T’ serta varians eror kedua tes
tersebut sama, kedua tes tersebut disebut sebagai tes yang paralel. Sedangkan
asumsi 7 menyatakan jika ada dua tes yang dimaksudkan untuk mengukur atribut
yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5,
dan jika untuk setiap populasi subjek T1 = T2 + C.
3. Karakteristik tes menurut Teori Tes Klasik adalah adanya reliabilitas, validitas,
tingkat kesukaran, daya pembeda, efektivitas distraktor, dan kesalahan
pengukuran. Kriteria dari karakteristik ini digunakan untuk menentukan kualitas
tes.
4. Terdapat beberapa kelebihan dari teori tes klasik diantaranya mudah dalam
penerapannya serta model yang cukup berguna, dapat mendeskripsikan
bagaimana kesalahan dalam pengukuran yang dapat mempengaruhi skor
amatan, asumsi-asumsi yang dirumuskan secara sistematis serta dalam
jangka waktu yang lama. Sedangkan kelemahan dari teori tes klasik
diantaranya skor siswa yang diperoleh dari suatu tes sangat terbatas pada tes
yang digunakan, tidak memberikan landasan untuk menentukan bagaimana
respons seseorang peserta tes apabila diberikan butir tertentu, indeks kesalahan
baku pengukuran dipraasumsikan sama untuk setiap peserta tes,
keajegan/reliabilitas tes dalam konteks teori tes klasik didasarkan pada
kesejajaran perangkat tes sangat sukar untuk dipenuhi. pada praktiknya, sulit
sekali memperoleh dua perangkat tes yang benar-benar sejajar.
DAFTAR PUSTAKA
Anas Sudijono. 2005. Pengantar evaluasi pendidikan. Jakarta: Raja Grafindo Persada.
Crocker, L. 1992. Item analysis. Dalam Alkin M.C. (Eds.), Encyclopedia of educational
research.
Hayat, B. 1997. Manual Item and Test Analysis (Iteman): Pedoman Penggunaan Iteman.
Jakarta: Depdibud Balitbang Publitbang Sisjan.
Saifuddin Azwar. 2003. Tes Prestasi: Fungsi dan Pengembangan Pengukuran Prestasi
Belajar. Yogyakarta: Pustaka Pelajar.