Anda di halaman 1dari 17

MAKALAH TEORI RESPON BUTIR

TEORI TES KLASIK


Makalah ini disusun untuk memenuhi tugas Mata Kuliah Teori Respon Butir
Dosen Pengampu: Dr. Edi Istiyono, M.Si

Disusun oleh:

Ayu Tri Astuti (15302241027)

Sinta Wulanningrum(15302241031)

Pendidikan Fisika A

JURUSAN PENDIDIKAN FISIKA


FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS NEGERI YOGYAKARTA
YOGYAKARTA
2018
KATA PENGANTAR

Assalamualaikum Wr. Wb.

Dengan memanjatkan puji syukur kehadirat Allah SWT yang senantiasa selalu
memberikan berkat dan rahmatnya sehingga kami dapat menyelesaikan makalah Teori
Respon Butir yang akan membahas materi tentang “ Teori Tes Klasik” ini yang Insya Allah
dapat memberikan informasi yang berharga bagi para pembaca.

Didalam makalah ini terdapat beberapa hal yang akan disampaikan


berupa pembahasan tetang Teori Tes Klasik. Kami bertrimakasih kepada pihak – pihak yang
telah membantu lancar nya pembuatan makalah ini yang tidak dapat kami sampaikan satu
persatu.

Demikian makalah ini dibuat, mohon maaf yang sebesar besarnya atas kesalahan baik
berupa kata kata maupun dalam pengetikan dalam makalah ini.

Wassalamualaikum Wr. Wb.

Yogyakarta, 12 Februari 2018


BAB I

PENDAHULUAN

A. LATAR BELAKANG

Dewasa ini ada dua macam teori tentang pengukuran, yakni Teori Tes Klasik dan
Teori Tes Modern (Suryabrata, 2005), Teori Tes Klasik disebut juga dengan Classical
True-Score Theory, dinamakan Teori Tes Klasik karena unsur-unsur teori ini sudah
dikembangkan dan diaplikasikan sejak lama, namun tetap bertahan hingga sekarang.

Tes Modern disebut juga dengan Latent-Trait Theory karena teori ini berasumsi
bahwa performansi subjek dalam mengerjakan suatu tes dapat diprediksi dari
kemampuannya yang bersifat laten atau menetap. Teori Tes Modern juga sering disebut
dengan Item Response Theory, artinya respon subjek terhadap suatu aitem menunjukkan
kemampuan kognitifnya.

Teori tes klasik (TTK) atau classical test theory (CTT) telah berkembang secara luas
dan menjadi aliran utama di kalangan ahli psikologi dan pendidikan, serta bidang kajian
perilaku (behavioral) yang lain, selama 20 dekade (Embretson & Reise, 2000) . TTK
memiliki kelemahan karena bersifat examinee sample dependent dan item
sample dependent (Fan, 1998; Hambleton & Swaminathan, 1985; Hambleton,
Swaminathan, & Rogers, 1991; Hambleton, Robin, & Xing, 2000; Lord, 1980) .
Kelemahan tersebut memicu teori baru yang lebih memadai, yaitu teori tes modern, yang
dikenal juga sebagai teori respon aitem (TRA) atau item response theory (IRT) dan
dikenal pula dengan nama latent traits theory (LTT).

Berdasarkan beberapa data di atas serta dikaitkan dengan permasalahan yang kami
akan jelajahi, maka penulisan ini akan difokuskan pada pembahasan tentang “Teori Tes
Klasik” agar dapat lebih memahami apa itu sebenarnya Teori Tes Klasik serta lebih
memahami bagaimana penggunaannya serta kelemahanya.
B. RUMUSAN MASALAH
1. Apakah yang dimaksud teori tes klasik ?
2. Apa saja asumsi-asumsi dalam teori tes klasik?
3. Apa saja karakteristik tes menurut teori tes klasik?
4. Apa saja kelebihan dan kelemahan dari teori tes klasik?

C. TUJUAN
1. Untuk mengetahui pengertian dari teori tes klasik.
2. Untuk mengetahui asumsi-asumsi dalam teori tes klasik.
3. Untuk mengetahui karakteristik tes menurut teori tes klasik.
4. Untuk mengetahui kelebihan dan kelemahan dari teori tes klasik
BAB II

PEMBAHASAN

A. PENGERTIAN TEORI TES KLASIK

Teori Tes klasik berkembang sedikit demi sedikit melalui unsur-unsur yang kemudian
secara akumulatif merupakan bangunan teori yang utuh. Inti Teori Tes Klasik adalah
asumsi-asumsi yang dirumuskan secara sistematis serta dalam jangka waktu yang lama.
Skor tampak disimbolkan dengan huruf X merupakan nilai performansi individu pada alat
tes yang dinyatakan dalam bentuk angka, skor murni yang dilambangkan dengan huruf T
merupakan performansi individu sesungguhnya yang tidak pernah dapat kita ketahui
besarnya karena tidak dapat diungkap secara lansung oleh alat tes, dan eror pengukuran
yang diberi simbol huruf E (Azwar, 2005).

Pemakaian teori tes klasik dalam kontruksi dan interpetasi skor telah berjalan
beberapa dekade lamanya. Menurut Mardapi (1998) teori tes klasik menggunakan model
pengukuran yang sangat sederhana, yakni skor yang tampak terdiri dari skor sebenarnya
dan skor kesalahan. Orang cenderung memberi skor lebih atau kurang terhadap subjek
yang menempuh tes termasuk pada kesalahan spesifik. Selain itu kesalahan spesifik ini
bisa disebabkan estimasi kemampuan dari suatu alat ukur yang cenderung lebih besar dari
kemampuan sebenarnya atau sebaliknya.

Kesalahan acak bisa terjadi disebabkan kondisi subjek yang diukur. Pada saat
pengukuran berlangsung kemungkinan kondisi subjek tidak sama dengan keadaan
normalnya. Kondisi subjek yang diukur yang dipengaruhi faktor seperti rasa lelah, susah,
senang, sakit, cemas dan sejenisnya selalu berubah-ubah menurut waktu termasuk dalam
kesalahan acak.

Hubungan antara Skor Tampak (X), Skor Murni (T) dan Kesalahan Pengukuran (E)
dapat ditulis dalam persamaan:

X=T+E
B. ASUMSI-ASUMSI TEORI TES KLASIK

Allen & Yen (dalam Azwar, 2005) menguraikan asumsi-asumsi teori klasik sebagai
berikut:

a. Asumsi 1

X = T + E (1)

Asumsi ini menjelaskan bahwa sifat aditif berlaku pada hubungan antara skor tampak,
skor muni, dan eror. Skor tampak (X) merupakan jumlah skor murni (T) dan eror (E), jadi
besar skor tampak akan tergantung oleh besarnya eror pengukuran, sedangkan besarnya
skor murni individu pada setiap pengukuran yang sama diasumsikan selalu tetap.

Contoh : Skor murni si Galih dalam tes IQ=110, dalam Tes 1 diperoleh X=112 (maka
E=+2) dan dalam tes 2 diperoleh X=108 (maka E=-2)

b. Asumsi 2:

ε(X) = T (2)

Asumsi ini menyatakan bahwa skor murni merupakan nilai harapan dari skor
tampaknya, jadi T merupakan harga rata-rata distribusi teoretik skor tampak apabila orang
yang sama dikenai tes yang sama berulang kali dengan asumsi pengulangan tes itu
dilakukan tidak terbatas banyaknya dan setiap pengulangan tes adalah tidak bergantung
satu sama lain.

c. Asumsi 3:

ρet = 0 (3)

Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes, distribusi eror
pengukuran dan distribusi skor murni tidak berkorelasi. Implikasinya, skor murni yang
tinggi tidak selalu berarti mengandung eror yang selalu positif ataupun selalu negatif.

Contoh : Galih memperoleh tes 1 dimana T=120, X=122 (E=+2), dengan tes 2 dimana
X=118 (E=-2).

d. Asumsi 4:

ρe1e2= 0 (4)

Bila E1 melambangkan eror pada pengukuran atau tes pertama dan E2 melambangkan
eror pada tes yang kedua maka asumsi ini menyatakan bahwa eror pengukuran pada dua
tes yang berbeda, yaitu E1 dan E2 tidak berkorelasi satu sama lain. Contoh : Pada tes 1,
Galih memperoleh (E=+6), tidak berarti pada tes 2 Galih akan mendapat skor (E) yang
lebih besar dari tes 1.

e. Asumsi 5

ρe1t2= 0 (5)

Asumsi ini menyatakan bahwa eror pada suatu tes (E1) tidak berkorelasi dengan skor
murni pada tes lain (T2). Asumsi ini tidak dapat bertahan apabila tes yang kedua
mengukur aspek yang mempengaruhi eror pada pengukuran yang pertama.

Selain dua asumsi yang telah disebutkan, dalam buku Suryabrata (2005) menuliskan dua
asumsi sebagai berikut:

f. Asumsi 6

Asumsi ini menyatakan jika ada dua tes yang dimaksudkan untuk mengukur atribut
yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan
jika untuk setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama, kedua
tes tersebut disebut sebagai tes yang paralel. Contoh : Setiap orang yang dites di UNY
memperoleh skor 80, kemudian di tes di tes di UGM pasti memperoleh nilai skor 100,
maka kedua tes disebut Ekuivalen.

g. Asumsi 7

Asumsi ini menyatakan jika ada dua tes yang dimaksudkan untuk mengukur atribut
yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan
jika untuk setiap populasi subjek T1 = T2 + C, dengan C sebagai suatu bilangan konstan,
maka kedua tes tersebut dapat disebut sebagai tes yang setara (equivalent test). Contoh :
Setiap orang yang dites di UNY memperoleh skor 80, kemudian di tes di tes di UGM
pasti memperoleh nilai skor 100, maka kedua tes disebut Ekuivalen.

Asumsi-asumsi teori klasik sebagaimana disebutkan di atas memungkinkan untuk


dikembangkan dalam rangka pengembangan berbagai formula yang berguna dalam
melakukan pengukuran psikologis. Indeks daya beda, indeks kesukaran, efektivitas
distraktor, reliabilitas dan validitas adalah formula penting yang disarikan dari teori tes
klasik.

C. KARAKTERISTIK TES MENURUT TEORI TES KLASIK


Asumsi-asumsi pada teori tes klasik ini dijadikan dasar untuk mengembangkan
formula-formula dalam menentukan validitas dan reliabilitas tes.

Validitas dan reliabilitas pada perangkat tes digunakan untuk menentukan


kualitas tes. Kriteria lain yang dapat digunakan untuk menentukan kualitas tes
adalah indeks kesukaran dan daya pembeda.

1). Reliabilitas

Mehrens & Lehmann (1973: 102) menyatakan bahwa reliabilitas


merupakan derajat keajegan (consistency) di antara dua buah hasil pengukuran
pada objek yang sama. Definisi ini dapat diilustrasikan dengan seseorang yang
diukur tinggi badannya akan diperoleh hasil yang tidak berubah walaupun
menggunakan alat pengukur yang berbeda dan skala yang berbeda. Dalam
kaitannya dengan dunia pendidikan, prestasi atau kemampuan seorang siswa
dikatakan reliabel jika dilakukan pengukuran, hasil pengukuran akan sama
informasinya, walaupun penguji berbeda, korektornya berbeda atau butir soal
yang berbeda tetapi memiliki karakteristik yang sama.

Allen & Yen (1979: 62) menyatakan bahwa tes dikatakan reliabel jika skor
amatan mempunyai korelasi yang tinggi dengan skor yang sebenarnya.
Selanjutnya dinyatakan bahwa reliabilitas merupakan koefisien korelasi antara
dua skor amatan yang diperoleh dari hasil pengukuran menggunakan tes yang
paralel. Dengan demikian, pengertian yang dapat diperoleh dari pernyatan
tersebut adalah suatu tes itu reliabel jika hasil pengukuran mendekati keadaan
peserta tes yang sebenarnya.

Dalam pendidikan, pengukuran tidak dapat langsung dilakukan pada ciri


atau karakter yang akan diukur. Ciri atau karakter ini bersifat abstrak. Hal ini
menyebabkan sulitnya memperoleh alat ukur yang stabil untuk mengukur
karakteristik seseorang (Mehrens & Lehmann, 1973: 103).

Berdasarkan uraian di atas, maka dalam pembuatan alat ukur dalam dunia
pendidikan harus dilakukan secermat mungkin dan disesuaikan dengan kaidah-
kaidah yang telah ditentukan oleh ahli-ahli pengukuran di bidang pendidikan.
Untuk melihat reliabilitas suatu alat ukur, yang berupa suatu indeks reliabilitas,
dapat dilakukan penelaahan secara statistik. Nlai ini biasa dinamakan dengan
koefisien reliabilitas (reliability coefficient).
Untuk menentukan nilai reliabilitas suatu tes (butir soal berbentuk pilihan
ganda (multiple choice)) dapat digunakan formula sebagai berikut .


Dengan

R : banyaknya butir soal,

σ2 : varians.

Mehrens & Lehmann (1973: 104) menyatakan bahwa meskipun tidak ada
perjanjian secara umum, tetapi secara luas dapat diterima bahwa untuk tes yang
digunakan untuk membuat keputusan pada siswa secara perorangan harus
memiliki koefisien reliabilitas minimal sebesar 0,85. Dengan demikian, pada
penelitian ini, tes seleksi digunakan untuk menentukan keputusan pada siswa
secara perorangan, sehingga indeks koefisien reliabilitasnya diharapkan minimal
sebesar 0,85.

2). Validitas

Validitas suatu perangkat tes dapat diartikan merupakan kemampuan suatu


tes untuk mengukur apa yang seharusnya diukur (Allen & Yen, 1979: 97;
Syaifudin Azwar, 2000: 45; Kerlinger, 1986). Ada tiga tipe validitas, yaitu
validitas isi, validitas konstruk dan validitas kriteria (Allen & Yen, 1979: 97;
Syaifudin Azwar, 2000: 45 ; Kerlinger, 1986 : 731).

Ada dua macam validitas isi , yaitu validitas kenampakan dan validitas
logika (Syaifudin Azwar, 2000: 45-47). Validitas isi berarti sejauh mana suatu
perangkat tes mencerminkan keseluruhan kemampuan yang hendak diukur
(Syaifudin Azwar, 2000: 45), yang berupa analisis rasional terhadap domain yang
hendak diukur. Validitas kenampakan didasarkan pada pertanyaan apakah suatu
butir-butir dalam perangkat tes mengukur aspek yang relevan dengan domainnya.
Validitas logika berkaitan dengan keseksamaan batasan pada domain yang hendak
diukur, dan merupakan jawaban apakah keseluruhan butir merupakan sampel
representatif dari keseluruhan butir yang mungkin dibuat.

Validitas konstruk adalah validitas yang mempermasalahkan seberapa jauh


item-item tes mampu mengukur apa yang hendak diukur sesuai dengan konsep
khusus atau definisi konseptual yang telah ditetapkan. Validitas kriteria, disebut
juga validitas prediktif, merupakan kesahihan suatu perangkat tes dalam membuat
prediksi, dapat meramalkan keberhasilan siswa pada masa yang akan datang.
Validitas prediktif suatu perangkat tes dapat diketahui dari korelasi antara
perangkat tes dengan kriteria tertentu yang dikehendaki, yang disebut dengan
variabel kriteria (Allen & Yen, 1979 : 97; Syaifudin Azwar, 2000: 51).

3). Tingkat Kesukaran

Tingkat kesukaran suatu butir soal, yang disimbolkan dendan pi, merupakan
salah satu parameter butir soal yang sangat berguna dalam penganalisian suatu tes. Hal
ini disebabkan karena dengan melihat parameter butir ini, akan diketahui seberapa
baiknya kualitas suatu butir soal. Jika pi mendekati 0, maka soal tersebut terlalu sukar,
sedangkan jika pi mendekati 1, maka soal tersebut terlalu mudah, sehingga perlu
dibuang. Hal ini disebabkan karena butir tersebut tidak dapat membedakan
kemampuan seorang siswa dengan siswa lainnya.

Allen dan Yen (1979 : 122) menyatakan bahwa secara umum indeks kesukaran
suatu butir sebaiknya terletak pada interval 0,3 – 0,7. Pada interval ini, informasi
tentang kemampuan siswa akan diperoleh secara maksimal. Dalam merancang indeks
kesukaran suatu perangkat tes, perlu dipertimbangkan tujuan penyusunan perangkat tes
tersebut. Untuk menentukan indeks kesukaran dari suatu butir pada perangkat tes
pilihan ganda, digunakan persamaan sebagai berikut :

Dengan

p = proporsi menjawab benar pada butir soal tertentu

∑B = banyaknya peserta tes yang menjawab


benar

N = jumlah peserta tes yang menjawab

4). Daya Pembeda

Untuk menentukan daya pembeda, dapat digunakan indeks diskriminasi,


indeks korelasi biserial, indeks korelasi point biserial, dan indeks keselarasan.
Pada analisis butir dalam penelitian ini, hanya digunakan indeks korelasi point
biserial. Koefisien korelasinya untuk suatu butir tes ditentukan dengan rumus:

dengan rpbis = koefisien korelasi point biserial, Xi merupakan variabel kontinu,


XI¯merupakan rerata skor X untuk peserta tes yang menjawab benar butir tersebut, X
merupakan rerata skor X¯ , sx merupakan standar deviasi dari skor X , dan p1 merupakan
proporsi peserta tes yang menjawab benar butir tersebut.

Pada suatu butir soal, indeks daya beda dikatakan baik jika lebih besar atau sama
dengan 0,3. Indeks daya pembeda suatu butir yang kecil nilainya akan
menyebabkan butir tersebut tidak dapat membedakan siswa yang kemampuannya
tinggi dan siswa yang kemampuannya rendah. Pada analisis tes dengan Content-
Referenced Measures, indeks daya pembeda butir tidak terlalu perlu menjadi
perhatian, asalkan tidak negatif (Ebel & Frisbie, 1986; Frisbie, 2005). Jika
nilainya kecil, menunjukkan bahwa kemencengan distribusi skor dari populasi,
yang juga mengakibatkan validitas tes menjadi rendah.

5). Efektivitas Distraktor

Setiap tes pilihan ganda memiliki satu pertanyaan serta beberapa pilihan
jawaban. Diantara pilihan jawaban yang ada, hanya satu yang benar. Selain jawaban
yang benar tersebut, adalah jawaban yang salah. Jawaban yang salah itulah yang dikenal
dengan distractor (pengecoh). Dengan demikian, efektifitas distraktor adalah seberapa
baik pilihan yang salah tersebut dapat mengecoh peserta tes yang memang tidak
mengetahui kunci jawaban yang tersedia. Semakin banyak peserta tes yang memilih
distraktor tersebut, maka distaktor itu dapat menjalankan fungsinya dengan baik.

Cara menganalisis fungsi distraktor dapat dilakukan dengan menganalisis pola


penyebaran jawaban butir. Pola penyebaran jawaban sebagaimana dikatakan sudijono
adalah suatu pola yang dapat menggambarkan bagaimana peserta tes dapat menentukan
pilihan jawabannya terhadap kemungkinan-kemungkinan jawaban yang telah
dipasangkan pada setiap butir.
Menurut Fernandes (1984: 29) distraktor dikatakan baik jika dipilih oleh
minimal 2% dari seluruh peserta. Distraktor yang tidak memenuhi kriteria tersebut
sebaiknya diganti dengan distraktor lain yang mungkin lebih menarik minat peserta tes
untuk memilihnya.

Meskipun penggunaan teori tes klasik relatif mudah dalam menganalisis butir,
tapi teori ini memiliki beberapa kelemahan mendasar. Kelemahan utama teori tes klasik
sebagaimana diungkapkanSumadi Suryabrata adalah keterikatan alat ukur teori tersebut
pada sampel (sample bound). Kemampuan kelompok siswa yang mengikuti tes sangat
mempengaruhi nilai statistik. sehingga nilai statistiknya akan berbeda jika tes diberikan
kepada kelompok yang lain.

Selain itu, perkiraan kemampuan peserta tergantung pada butir soal. Jika indeks
kesukaran rendah maka estimasi kemampuan seseorang akan tinggi dan sebaliknya.
Perkiraan kesalahan pengukuran tidak mencakup perorangan tetapi kelompok secara
bersama-sama. Hal ini dikarenakan respon setiap peserta tes terhadap soal tidak bisa
dijelaskan oleh teori tes klasik.

Dalam proses pembelajaran hal-hal tersebut akan menimbulkan berbagai macam


kesukaran terutama untuk melihat kemampuan peserta tes secara perorangan. Oleh
karena itulah ada upaya untuk membebaskan alat ukur dari keterikatan terhadap sampel
(sample-free). Berangkat dari hal itulah maka para ahli kemudian menyusun teori baru
yang bermaksud untuk melengkapi dan memperbaiki kelemahan-kelemahan yang ada
dalam teori tes klasik. Teori ini kemudian dikenal dengan Item Response Theory (IRT)
atau teori respon butir.

6). Kesalahan Pengukuran

Kesalahan Baku Pengukuran (Standard Error of Measurement, SEM) dapat


digunakan untuk mamahami kesalahan yang bersifat acak/random yang
mempengaruhi skor peserta tes dalam pelaksanaan tes. Kesalahan pengukuran,
yang disimbulkan dengan σE , dapat dihitung dengan rumus pada persaman
berikut, yang diturunkan dari rumus reliabilitas (Allen & Yen, 1979 : 73).

dengan σx merupakan simpangan baku dari skor total dan ρxx’ merupakan koefisien
reliabilitas.

D. KELEBIHAN DAN KELEMAHAN TEORI TES KLASIK

Kelebihan Teori Tes Klasik

Teori tes klasik memiliki beberapa kelebihan mendasar. Adapun kelebihan


dari teori tes klasik sebagai berikut :

1. Mudah dalam penerapannya serta model yang cukup berguna

2. Dapat mendeskripsikan bagaimana kesalahan dalam pengukuran yang dapat


mempengaruhi skor amatan

3. Asumsi-asumsi yang dirumuskan secara sistematis serta dalam jangka


waktu yang lama.

Kelemahan Teori Tes Klasik

Teori tes klasik memiliki beberapa kelemahan mendasar. Adapun


kelemahan dari teori tes klasik sebagai berikut :

1. Kebanyakan statistik yang digunakan dalam model tes klasik seperti tingkat
kesukaran dan daya pembeda soal sangat tergantung pada sampel yang
dipergunakan dalam analisis. Rerata tingkat kemampuan, rentang, dan
sebaran kemampuan siswa yang dijadikan sampel dalam analisis sangat
mempengaruhi nilai statistik yang diperoleh. Sebagai contoh, tingkat
kesukaran soal akan tinggi apabila sampel yang akan digunakan mempunyai
kemampuan lebih tinggi dari rerata kemampuan siswa dalam poulasinya.
Daya pemeda soal akan tinggi apabila tingkat kemampuan sampel bervariasi
atau mempunyai rentang kemampuan yang besar. Demikian pula dengan
reliabilitas tes.

2. Skor siswa yang diperoleh dari suatu tes sangat terbatas pada tes yang
digunakan. Kesimpulan hasil tes tidak dapat digeneralisasikan di luar tes
yang digunakan. Skor perolehan seseorang sangat tergantung pada pemilihan
tes yang digunakan bukan pada kemampuan peserta tes tersebut. Karena
keterbatasan penggunaan skor tes, teori tes klasikal tidak mempunyai
dasar untuk mempelajari perkembangan kemampuan siswa dari waktu ke
waktu, kecuali jika siswa tersebut menempuh tes yang sama dari waktu ke
waktu.
3. Keajegan/reliabilitas tes dalam konteks teori tes klasik didasarkan pada
kesejajaran perangkat tes sangat sukar untuk dipenuhi. pada praktiknya, sulit
sekali memperoleh dua perangkat tes yang benar-benar sejajar. Jika
prosedur tes retes digunakan, sampel yang diambil sangat tidak mungkin
berperilaku sama pada saat tes dikerjakan untuk yang kedua kalinya.

4. Tidak memberikan landasan untuk menentukan bagaimana respons seseorang


peserta tes apabila diberikan butir tertentu. Tidak adanya informasi ini tidak
memungkinkan melakukan desain tes yang bervariasi sesuai dengan kemampuan
peserta tes (adaptive or tailored testing).

5. Indeks kesalahan baku pengukuran dipraasumsikan sama untuk setiap


peserta tes. Padahal seseorang peserta tes mungkin berperilaku lebih
konsisten dalam menjawab soal dibandingkan peserta tes lainnya.
Demikian pula sebaliknya, banyak sekali kesalahan individual. Kesalahan
pengukuran sebenarnya merupakan perilaku peserta tes yang bersifat
perorangan dan bukan perilaku tes.

Adapun prosedur-prosedur yang berkaitan dengan teori tes klasik seperti


pengujian bias butir soal dan penyetaraan tes tidak bersifat praktis dan sukar
untuk dilakukan. Demikian pula halnya dengan penyetaraan yang sifatnya
vertikal. Untuk mengatasi hal itu, digunakanlah pendekatan teori lain yang
disebut denga teori respons butir.
BAB III
PENUTUP

A. KESIMPULAN
1. Teori Tes Klasik adalah asumsi-asumsi yang dirumuskan secara sistematis serta
dalam jangka waktu yang lama. Teori tes klasik menggunakan model pengukuran
yang sangat sederhana, yakni skor yang tampak terdiri dari skor sebenarnya dan
skor kesalahan
2. Menurut Allen & Yen (dalam Azwar, 2005) asumsi-asumsi teori tes klasik terdiri
dari asumsi 1, asumsi 2, asumsi 3, asumsi 4, asumsi 5, asumsi 6, dan asumsi 7.
Asumsi 1 menjelaskan bahwa sifat aditif berlaku pada hubungan antara skor
tampak, skor muni, dan eror. Asumsi 2 menyatakan bahwa skor murni merupakan
nilai harapan dari skor tampaknya. Asumsi 3 menyatakan bahwa bagi populasi
subjek yang dikenai tes, distribusi eror pengukuran dan distribusi skor murni tidak
berkorelasi. Asumsi 4 menyatakan bahwa eror pengukuran pada dua tes yang
berbeda, yaitu E1 dan E2 tidak berkorelasi satu sama lain. Asumsi 5 menyatakan
bahwa eror pada suatu tes (E1) tidak berkorelasi dengan skor murni pada tes lain
(T2). Asumsi 6 menyatakan jika ada dua tes yang dimaksudkan untuk mengukur
atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1
sampai 5, dan jika untuk setiap populasi subjek T = T’ serta varians eror kedua tes
tersebut sama, kedua tes tersebut disebut sebagai tes yang paralel. Sedangkan
asumsi 7 menyatakan jika ada dua tes yang dimaksudkan untuk mengukur atribut
yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5,
dan jika untuk setiap populasi subjek T1 = T2 + C.

3. Karakteristik tes menurut Teori Tes Klasik adalah adanya reliabilitas, validitas,
tingkat kesukaran, daya pembeda, efektivitas distraktor, dan kesalahan
pengukuran. Kriteria dari karakteristik ini digunakan untuk menentukan kualitas
tes.

4. Terdapat beberapa kelebihan dari teori tes klasik diantaranya mudah dalam
penerapannya serta model yang cukup berguna, dapat mendeskripsikan
bagaimana kesalahan dalam pengukuran yang dapat mempengaruhi skor
amatan, asumsi-asumsi yang dirumuskan secara sistematis serta dalam
jangka waktu yang lama. Sedangkan kelemahan dari teori tes klasik
diantaranya skor siswa yang diperoleh dari suatu tes sangat terbatas pada tes
yang digunakan, tidak memberikan landasan untuk menentukan bagaimana
respons seseorang peserta tes apabila diberikan butir tertentu, indeks kesalahan
baku pengukuran dipraasumsikan sama untuk setiap peserta tes,
keajegan/reliabilitas tes dalam konteks teori tes klasik didasarkan pada
kesejajaran perangkat tes sangat sukar untuk dipenuhi. pada praktiknya, sulit
sekali memperoleh dua perangkat tes yang benar-benar sejajar.
DAFTAR PUSTAKA

Allen, M. J. & Yen, W. M. (1979). Introduction to measurement theory. Monterey, CA:


Brooks/Cole Publishing Company.

Anas Sudijono. 2005. Pengantar evaluasi pendidikan. Jakarta: Raja Grafindo Persada.

Azwar, S. 1999. Reliabilitas dan Validitas. Yogyakarta: Pustaka Pelajar.

Bachman, L. F. 1990. Fundamental Considerations in Language Testing .Oxford:


Oxford University Press.

Crocker, L. 1992. Item analysis. Dalam Alkin M.C. (Eds.), Encyclopedia of educational
research.

(pp. 652-657). New York: Macmillan Library reference USA.

Djemari Mardapi. 2005. Pengembangan instrumen penelitian pendidikan. Yogyakarta:


Program

Pascasarjana Universitas Negeri Yogyakarta.

Ebel, R. L. 1979. Essential of Educational Measurements. London: Prentice-Hall Inc,


Englewood Cliffs.

Feldt, L. S. & Brennan, R. L. 1989. “Reliability” dalam Linn R. L. (Eds.), Educational


Measurement

Third Edition. (pp. 105-146). New York: McMillan.

Fernandes, H. J. X. 1984. Testing and measurement. Jakarta: National Education


Planning,Evaluation and Development.

Hayat, B. 1997. Manual Item and Test Analysis (Iteman): Pedoman Penggunaan Iteman.
Jakarta: Depdibud Balitbang Publitbang Sisjan.

Naga, D. S. 1992. Pengantar Teori Sekor pada Pengukuran Pendidikan.Jakarta:


Gunadarma

Saifuddin Azwar. 2003. Tes Prestasi: Fungsi dan Pengembangan Pengukuran Prestasi
Belajar. Yogyakarta: Pustaka Pelajar.

Anda mungkin juga menyukai