Ali Ridho
Fakultas Psikologi UIN Malang
ABSTRACT
The aim of this research study was to evaluate and compared psychometrics
characteristics of achievement based on classical test theory (CTT) and item
response theory (IRT) especially based on one (1PL), two (2PL), and three (3PL)
parameters models. The data for the research consist of Senior High School
students’ responses to the Mathematics National Exit Examination Academic Year
2003/2004 in Yogyakarta. The subjects were 7000 (3500 male and 3 500 female
students). The test has 40 multiple choice test items and is criterion referenced. By
comparing the indices from CTT and IRT, the overall conclusion from this
evaluation is that 2PL model is preferable to use when evaluating the test.
Keywords: classical test theory, item response theory, multiple choice test
Teori tes klasik (TTK) atau classical test theory (CTT) telah berkembang secara luas
dan menjadi aliran utama di kalangan ahli psikologi dan pendidikan, serta bidang kajian
perilaku (behavioral) yang lain, selama 20 dekade (Embretson & Reise, 2000) . TTK
memiliki kelemahan karena bersifat examinee sample dependent dan item sample
dependent (Fan, 1998; Hambleton & Swaminathan, 1985; Hambleton, Swaminathan, &
Rogers, 1991; Hambleton, Robin, & Xing, 2000; Lord, 1980). Kelemahan tersebut
memicu teori baru yang lebih memadai, yaitu teori tes modern, yang dikenal juga
sebagai teori respon aitem (TRA) atau item response theory (IRT) dan dikenal pula
dengan nama latent traits theory (LTT).
TRA memiliki beberapa kelebihan dibandingkan TTK. Secara terperinci Embretson
& Reise (2000) mengemukakan 10 kelebihan TRA dibanding TTK, yaitu: (1)
simpangan baku pengukuran atau standard error of measurement (SEM) memiliki nilai
yang berbeda-beda antar skor (atau pola-pola respon), tetapi bersifat umum antar
populasi; (2) tes yang lebih pendek bisa jadi lebih reliabel dibanding tes yang lebih
panjang; (3) perbandingan skor -skor tes antar berbagai form at akan optimal jika tingkat
kesulitan tes bervariasi antar pes erta; (4) estimasi-estimasi yang tidak bias bisa
diperoleh dari sampel yang tidak representatif; (5) skor tes memiliki arti manakala
dibandingkan dengan karakteristik aitem -aitem; (6) skala yang bersifat interval dicapai
dengan menggunakan model pengukuran yang lebih logis; (7) tes dengan format aitem
campuran dapat menghasilkan skor tes yang optimal; (8) skor -skor yang berubah dapat
dibandingkan secara berarti jika tingkat skor awal berbeda; (9) hasil faktor analisis pada
data skor kasar aitem menghasilkan sebuah full information factor analysis ; dan (10)
sifat-sifat aitem sebagai stimulus dapat secara langsung berhubungan den gan sifat-sifat
psikometriknya.
1
Manfaat lain yang diperoleh dari TRA adalah efektivitasnya saat diterapkan pada
administrasi berbasis komputer yang lebih dikenal dengan computerized adaptive
testing (CAT) untuk tes-tes yang mengungkap kemampuan (McLeod, Lewis, &
Thissen, 2003). Hal ini akan meningkatkan efektifitas waktu tes serta pengontrolan
terhadap minimalisasi eror untuk tiap-tiap testee, kondisional terhadap kemampuan
masing-masing (Xing & Hambleton, 2004).
Berbeda dengan TTK yang memfokuskan pada informasi pada level tes, TRA
terutama memfokuskan pada informasi pada level aitem sehingga diharapkan dapat
menutupi kekurangan yang te rdapat pada TTK. Penerapan model IRT didasarkan atas
beberapa asumsi berupa postulat , yaitu: (1) kinerja seorang peserta pada suatu aitem
dapat diprediksikan oleh seperangkat faktor yang disebut traits, latent traits, atau
kemampuan; dan (2) hubungan antara kinerja peserta pada suatu aitem dan seperangkat
kemampuan (abilitas) laten yang mendasarinya dapat digambarkan oleh suatu fungsi
yang menarik secara monotonik yang disebut item characteristic Ffunction atau item
characteristic curve (ICC) (Hambleton, Swaminathan, & Rogers, 1991; Harvey &
Hammer, 1999; Suryabrata, 2000) . Jadi ICC adalah penggambaran dalam bentuk kurva
yang menjelaskan hubungan antara latent traits dan kinerja subjek pada sebuah aitem .
Hambleton & Swaminathan (1985) menyatakan bahwa asumsi-asumsi yang
mendasari TRA adalah unidimensi, independensi lokal, dan invariansi parameter.
Sementara itu, Embretson & Reise (2000) menyebutkan bahwa asumsi yang paling
pokok adalah: (1) masing-masing item memiliki bentuk kurva karakteristik aitem atau
item characteristic curves (ICC) tertentu; dan (2) independensi lokal.
TRA adalah analisis aitem berdasarkan model. Ada 3 model dalam TRA yang
terkenal, yaitu model: satu -parameter (1PL), dua-paramenter (2PL), dan tiga -parameter
(3PL). Model matematik 3PL ada lah:
e ai ( bi )
Pi ( ) ci (1 ci )
1 e ai ( bi )
Dimana i adalah aitem ke-i, ci = faktor tebakan semu (pseudo guessing) aitem i, ai =
daya beda aitem i, bi = tingkat kesukaran aitem i, dan θ adalah traits-level (dalam hal ini
kemampuan) examinee atau para peserta tes. Jika ci diasumsikan 0 (ci = 0 untuk semua
i), maka model 3PL menjadi 2PL:
e ai ( bi )
Pi ( )
1 e ai ( bi )
Sementara, jika daya beda untuk semua aitem dalam model 2PL ditetapkan sama (ai = a
untuk semua i) , maka model tersebut menjadi model 1PL:
e a ( bi )
Pi ( )
1 e a ( bi )
2
keunggulan TRA atas TTK. Sejauh pengamatan penulis, para ahli pengukuran psikologi
dan pendidikan serta institusi yang terkait dengan tes dan hal yang terkait dengan
pengembangan administrasinya, belum memberikan perhatian yang serius dalam
menyadari dan menyambut gelombang perkembangan teori pengukuran. Oleh sebab itu,
penulis tergerak untuk meneliti dan memaparkan analisis psikometrik tes berdasarkan
metode TTK dan TRA serta hubungan antar konsep dalam kedua metode tersebut.
Studi yang mengkhususkan pada analisis perbandingan psikometrik berdasarkan
TTK dan TRA belum banyak dilakukan di Indonesia. St udi yang berhasil penulis
temukan adalah: Using Classical Test Theory in Combination With Item Response
Theory (Bechger, Maris, Verstralen, & Beguin, 2003) , Item Response Theory and
Classical Test Theory: An Empirical Comparison of Their Item/Response Pers on
Statistics (Fan, 1998), Item Response Theory (Harvey & Hammer, 1999) , A Monte
Carlo Comparison of Item and Person Statistics Based on Item Response Theory Versus
Classical Test Theory (McDonald & Paunonen, 2002) , dan Some relationships between
the information function of IRT and the signal/noise ratio and reliability coefficient of
classical test theory (Nicewander, 1993).
Tujuan penelitian ini adalah untuk mengungkap secara empirik karakteristik Tes
UAN Matematika SMA tahun pelajaran 2003/2004 berdasark an pendekatan TRA,
yaitu: (1) invariansi traits level peserta θ berdasar model 1PL, 2PL dan 3PL, (2)
invariansi parameter aitem pada model 1PL, 2PL dan 3PL, serta (3) membandingkan
hasil pendekatan metode TTK dan TRA.
Manfaat penelitian ini adalah: (1) memberikan masukan bagi ilmuwan dan praktisi
psikometri tentang bukti invariansi yang dapat ditegakkan dalam analisis hasil tes yang
mengukur kinerja maksimum (dalam hal ini UAN), dan (2) diharapkan hasil ini mampu
menggugah para ilmuwan dan praktisi dalam menggunakan TRA sebagai pendekatan
analisis hasil tes sebagai pe lengkap analisis hasil tes menggunakan TTK.
METODE PENELITIAN
Subjek Penelitian
Subjek penelitian ini adalah siswa SMA yang mengikuti UAN Matematika SMA
tahun pelajaran 2003/2004 di Daerah Istimewa Yogyakarta. Jumlah su bjek adalah 7000
orang (3500 laki-laki dan 3500 perempuan). Pengambilan subjek yang b esar ini terkait
dengan daya (power) statistik yang akan dihasilkan terkait dengan estimasi parameter
aitem dan latent traits (Stone, 2003). Stone (2003) menyebutkan bahwa daya atau
power statistik dalam uji kecocokan model atau goodness of fit (GOF) dalam model
TRA tidak akan terpengaruh oleh ukuran sampel, asal seluruh aitem fit dengan model.
Akan tetapi, jika terdapat satu saja aitem yang tidak fit dengan model, dalam re plikasi
100 kali, daya statistik akan bertambah dengan berubahnya ukuran sampel dari 500
menjadi 2000. Makin besar ukuran sampel, makin besar pula daya statistik yang dapat
diperoleh. Untuk itu penulis mengambil sampel dengan ukuran 7000 orang (masing-
3
masing 3500 laki-laki dan 3500 perempuan). Untuk mengestimasi parameter
kemampuan (traits-level) dan parameter aitem, digunakan 7000 data respon tersebut.
Data penelitian ini adalah data sekunder berupa hasil respon siswa terhadap
perangkat tes UAN Matematika SMA tahun pelajaran 2003/2004 di Daerah Istimewa
Yogyakarta yang diperoleh dari scanning Lembar Jawaban Komputer (LJK) siswa.
4
terestimasi ˆ ≥ 0) dan kalibrasi aitem berdasarkan kelompok rendah ( teta
terestimasi ˆ < 0).
Berdasarkan pendekatan TTK yang diterapkan, mean skor yang diperoleh adalah
18.628 dengan standar deviasi 6.910 , range: 3-39. Reliabilitas berdasarkan Alpha adalah
0.844 dengan standard error of measurement SEM = 2.733. Tingkat kesukaran aitem p
berkisar dari 0.152 (aitem 37) sampai dengan 0.928 (aitem 23). Sementara itu, korelasi
point biserial rpbis berkisar dari 0.011 (aitem 37) sampai dengan 0.543 (aitem 9).
1.0
23
0.9 13
1
0.8 2 3 17
0.7 9
12
11
0.6 38 20
29
0.5 39 15 30
p
336
22 8 26
0.4 28 25
16 35 19 34 31 18
0.3
40 36 27 4 5 10
0.2 14
32
0.1 37
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
rpbis
Gambar 1. Korelasi point biserial rpbis diplot dengan nilai p (40 aitem)
Untuk memahami lebih dalam, dibuat scatter plot antara korelasi point biserial rpbis
dan proporsi menjawab benar aitem p. Diagram tersebut dituangkan dalam Gambar .
Sumbu horizontal menggambarkan rpbis yang menunjukkan bagaimana variasi aitem -
aitem dalam membedakan antar kemampuan para peserta tes. Jika diperhatikan lebih
dalam, aitem nomor 37 dan 32 merupakan aitem yang bermasalah. Keduanya
merupakan aitem yang sukar ( p37 = 0.152; p32 = 0.163), namun memiliki daya beda
yang rendah (rpbis(37) = 0.011; rpbis(32) = 0.059). Oleh karena itu, kedua aitem tersebut
tidak diikutkan pada analisis selanjutnya. Hal ini dengan mengingat bahwa kedua aitem
tersebut bersifat problematik sehingga menimbulkan permasalahan dalam proses
5
kalibrasi melalui pendekatan TRA. Informasi yang lebih detil tentang karakteristik
aitem berdasarkan TTK dituangkan dalam Tabel.
Dieliminirnya aitem nomor 32 dan 37, menjadikan nilai-nilai p dan rpbis model lebih
rasional. Perhatikanlah Tabel 1 yang menuangkan korelasi point biserial rpbis dengan
nilai p pada 38 aitem. Sekarang mean skor = 18.312; standar deviasi = 6.903; skor
minimal 2 dan maksimal 38. Reliabilitasnya pun meningkat menjadi 0.850 dengan SEM
= 2.673. Sedangkan rentang nilai kore lasi point biserial rpbis adalah 0.21 (aitem 40)
sampai dengan 0.545 (aitem 9). Nilai p terentang dari 0.234 (aitem 40) sampai dengan
0.928 (aitem 23). Informasi yang lebih lengkap dituangkan dalam Tabel 1.
1.0 23
0.9 1 13
0.8 2 3 17
0.7 12 9
11
0.6 36
29 24 20
37 15 30
0.5
p
32 6
8 26
28 25 33
0.4 16 18
34 21 31
0.3 38 35 27 4 5 10
14
0.2
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7
rpbis
Gambar 2. Korelasi point biserial rpbis diplot dengan nilai p (38 aitem)
Gambar 2. juga menunjukkan bahwa tidak ada hubungan antara daya beda dan
tingkat kesukaran aitem. Kondisi ini mengarahka n pada satu keputusan bahwa kedua
parameter tersebut memiliki peluang yang besar untuk dilibatkan dalam model yang
dipilih. Dengan kata lain, model 2PL atau 3PL adalah alternatif pilihan yang lebih
rasional yang dapat digunakan dibandingkan model 1PL. Seba ran daya beda aitem lebih
jelas diamati dalam histogram yang memuat distribusi daya beda aitem pada Gambar .
6
Tabel 1. Nilai p dan rpbis untuk 38 aitem
Aitem p rpbis Aitem p rpbis Aitem p rpbis
1 0.830 0.349 14 0.244 0.396 27 0.334 0.331
2 0.744 0.354 15 0.480 0.441 28 0.381 0.258
3 0.749 0.427 16 0.325 0.223 29 0.542 0.462
4 0.313 0.377 17 0.756 0.470 30 0.472 0.489
5 0.321 0.416 18 0.326 0.464 31 0.354 0.414
6 0.422 0.380 19 0.347 0.381 33 0.440 0.340
7 0.388 0.440 20 0.558 0.499 34 0.377 0.405
8 0.470 0.452 21 0.380 0.405 35 0.310 0.265
9 0.653 0.545 22 0.399 0.400 36 0.307 0.256
10 0.240 0.464 23 0.928 0.278 38 0.569 0.274
11 0.679 0.429 24 0.548 0.482 39 0.481 0.384
12 0.704 0.437 25 0.360 0.372 40 0.234 0.210
13 0.854 0.365 26 0.493 0.493
7 Mean = 0.39018
Std. Dev. = 0.082328
6 N = 38
5
Frekuensi
0
0.0 0.1 0.2 0.3 0.4 0.5 0.6
rpbis
Gambar 3. Sebaran daya beda 38 aitem
15
10
0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
Gambar 4. Sebaran nilai p pada 38 aitem berdasar 10% peserta skor terendah
7
Secara visual, tampak bahwa pada Gambar 4 histogram lebih bersifat juling ke
kanan atau dengan kata lain frekuensi tinggi dimiliki oleh aite m-aitem dengan nilai-p
yang rendah (sebelah kiri). Kondisi seperti ini mengisyaratkan bahwa sebagian besar
para peserta dengan kemampuan rendah memiliki probabilitas menjawab benar dengan
cara menebak, yaitu berkisar pada seputar nilai satu per banyaknya o psional jawaban (<
1/5 = 0.2). Dengan demikian, dugaan awal yang dapat ditarik berdasarkan fakta ini,
yaitu model 2PL saja tidak cukup memadai untuk diterapkan, lebih baik menerapkan
model 3PL.
Tes UAN pada dasarnya didesain sebagai tes yang bersifat criterion referenced,
artinya lulus tidaknya para peserta ditentukan oleh suatu kriteria skor. Tes UAN juga
dapat dikategorikan sebagai power test dimana waktu yang dialokasikan untuk
menyelesaikan tes sudah cukup memadai. Walaupun dengan waktu yang cukup, bukan
berarti para peserta telah memberikan respon dengan tanpa menebak dalam memilih
jawaban benar. Selan itu, meskipun juga Tes UAN Matematika adalah power test di
mana aspek kecepatan dalam menyelesaikan soal bukanlah salah satu aspek yang
dipertimbangkan, akan tetapi dengan melihat kenyataan bahwa para peserta dengan
kemampuan sangat rendah pun punya peluang yang memadai (sekitar 0.2) untuk
menjawab benar dengan cara menebak maka dapat dikatakan bahwa model 3PL
menjadi pilihan yang lebih rasional dibandingk an model 2PL. Informasi tentang sebaran
nilai-p yang dihasilkan oleh para peserta yang berkemampuan rendah, secara lengkap
disajikan dalam Tabel 2.
TRA adalah teori pengukuran berdasarkan model. Oleh karena itu perlu diadakan uji
terhadap model yang diajukan. Untuk menguji dugaan awal tentang dipilihnya model
3PL, dilakukan uji kecocokan model. Dilihat dari uji kecocokan seluruh d ata respon
8
para peserta tes dengan model yang dipilih, model 3PL ternyata lebih mampu
memberikan penjelasan secara lebih informatif dibanding dengan model 2PL. Artinya
parameter peluang tebakan semu c—sebagai informasi tambahan setelah parameter
daya beda a dan tingkat kesukaran b—memberikan kontribusi signifikan dalam
menjelaskan data pola respon yang dimiliki para peserta tes. Secara statistik, hal ini
terbukti dengan hasil uji kecocokan data atau goodness of fit dalam Tabel 3.
6 6.09
5
Eigenvalue
2 1.60
1 5 9 13 17 21 25 29 33 37
Nomor Komponen
Meski hanya 31.207%, jika diperhatikan lebih jauh, faktor pertama yang memiliki
nilai eigenvalue sebesar 6.095 mampu menjelaskan varian sebesar 16.093%, paling
dominan dibandingkan faktor yang lain. Dalam istilah lain dapat juga dikataka n terdapat
satu faktor dominan yang mendasari para peserta memberikan respon pada aitem -aitem
tes. Dominansi faktor pertama ini mampu memberi dukungan tentang bukti
unidimensionalitas data respon yang dimiliki, di mana terdapat sebuah latent traits yang
mendasari perilaku para peserta tes. Latent traits ini dapat disebut sebagai kemampuan
matematika. Besarnya varian yang dapat dijelaskan masing -masing faktor tersebut
tertuang dalam Tabel 4.
Independensi Lokal
9
Independensi lokal berarti respon peserta terhadap sebuah aitem dan aitem yang lain
bersifat independen setelah latent traits dikontrol (Hambleton, Swaminathan, & Rogers,
1991; Karabatsos & Sheu, 2004) . Latent traits yang dimaksud di sini ada lah
kemampuan matematika. Dominansi satu faktor yang ada berdasarkan analisis faktor
telah mengarahkan pada terpenuhinya bukti bahwa data yang dimiliki bersifat
unidimensional, hanya terdapat satu faktor yang mempengaruhi para peserta untuk
berperilaku. Berdasarkan fakta ini, dapat disebutkan juga bahwa karena data yang
dimiliki bersifat unidimensional, maka respon yang diberikan para peserta tes bersifat
independen, kondisional terhadap kemampuan mereka masing -masing. Jika
kemampuan para peserta tes sudah diketahui, maka perilaku respon terhadap satu aitem
tidak berpengaruh terhadap perilaku respon terhadap aitem yang lain.
Teta Hat 1
1 1
0 0
-1 -1
-2 R Sq Linear = -2
R Sq Linear =
0.999 0.994
-3 -3
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
Teta Hat 2 Teta Hat 2
(a) (b)
3
Keterangan:
2
Teta Hat 1: Estimasi kemampuan (ˆ)
Teta Hat 1
1
berdasarkan 10 aitem tersukar
0
-1
Teta Hat 2: Estimasi kemampuan (ˆ)
-2 R Sq Linear = berdasarkan 10 aitem termudah
0.956
-3
-3 -2 -1 0 1 2 3
Teta Hat 2
(c)
Gambar 6. Scatter plot dan Garis Regresi antara Estimasi Kemampuan berdasarkan 10 aitem
termudah dan 10 aitem tersukar pada Model: (a) 1PL , (b) 2PL, dan (c) 3PL
10
Invariansi estimasi kemampuan berarti estimasi kemampuan tidak akan terpengaruh
oleh kelompok aitem mana yang digunakan. Untuk menyelidiki invariansi estimasi
kemampuan peserta tes, aitem-aitem dibagi menjadi dua, yaitu: satu kelompok 10 aitem
termudah, dan satu kelompok 10 aitem yang tersukar. Pengelompokan ini didasarkan
pada tingkat kesukaran aitem pada masing -masing model (1PL, 2PL, dan 3PL).
Estimasi kemampuan para peserta ber dasarkan kedua kelompok aitem tes tersebut
kemudian diplot satu sama lain. Hasilnya dapat dilihat pada Error! Reference source
not found.. Dengan melihat gambar tersebut, tampak bahwa estimasi kemampuan
bersifat invarian berdasarkan aitem-aitem mudah atuapun aitem -aitem sukar.
3
b 1PL kelompok tinggi
-1
-2
R Sq Linear =
-3 0.978
-3 -2 -1 0 1 2 3
Gambar 7. Scatter plot dan Garis Regresi Estimasi b Model 1PL dengan mengontr ol a
11
2.0
1.8
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
a 2PL kelompok rendah
Gambar 8. Scatter plot dan Garis Regresi Estimasi a Model 2PL dengan mengontrol b
3
b 2PL kelompok tinggi
-1
-2
R Sq Linear =
-3 0.979
-3 -2 -1 0 1 2 3
b 2PL kelompok rendah
Gambar 9. Scatter plot dan Garis Regresi Estimasi b Model 2PL dengan mengontrol a
1.8
1.6
a 3PL kelompok tinggi
1.4
1.2
1.0
0.8
0.6
0.4
0.2 R Sq Linear =
0.0 0.743
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8
a 3PL kelompok rendah
Gambar 10. Scatter plot dan Garis Regresi Estimasi a Model 3PL dengan mengontrol b dan c
12
3
-1
-2
R Sq Linear =
-3 0.983
-3 -2 -1 0 1 2 3
b 3PL kelompok rendah
Gambar 11. Scatter plot dan Garis Regresi Estimasi b Model 3PL dengan mengontrol a dan c
0.4
c 3PL kelompok tinggi
0.3
0.2
0.1
R Sq Linear =
0.763
0.0
13
Dengan mendasarkan pada pertimbangan tersebut serta mengingat sampel yang
digunakan adalah sampel yang besar (7000 peserta), maka model yang paling tepat
adalah model 3PL di mana di dalamnya mengandung parameter peluang tebakan semu c
sehingga terdapat parameter yang mampu menjelaskan probabilitas menjawab benar
dengan cara menebak.
(P'i (q))2
I i (q) =
Pi (q) + (1 - Pi (q))
Sebagai akumulasi keseluruhan fungsi informasi aitem, maka akan diperoleh fungsi
informasi tes atau test information (TI), yang secara matematis formulanya adalah:
T I (q) = å I i (q)
sedangkan SEM dapat dihitung untuk tiap -tiap kemampuan, θ, dengan formula
1
SE (q) =
T I (q)
Perbandingan IF dan SEM yang mampu ditunjukkan oleh masing -masing model
pada data respon para peserta tes UAN tertuang dalam Gambar 13 dan Gambar 14.
Melalui gambar tersebut tampaklah bahwa dapat diurutkan puncak IF dari rendah
menuju tinggi adalah: IF model 2PL, IF model 1PL, dan IF model 3PL. Melihat
kenyataan seperti ini, model 2PL ternyata mampu memberikan informasi lebih tinggi
dibanding model 1PL dan 3PL. Artinya, model 2PL dapat memberikan informasi yang
lebih baik tentang hubungan antara pola respon para peserta tes dengan keseluruhan
karakteristik masing-masing aitem. Hal ini pada gilirannya juga berimplikasi pada
kepresisian estimasi kemampuan para peserta tes di mana makin tinggi IF maka makin
presisi sebuah model dalam mengestimasi kemampuan para peserta.
14
25
2PL
20
1PL
Informasi
15
3PL
10
0
3 2 1 0 1 2 3
Kemampuan
Gambar 13. Fungsi Informasi berdasarkan Model 1PL, 2PL, dan 3PL
0.8
0.7
0.6
0.5
3PL
SEM
0.4
1PL
0.3
0.2 2PL
0.1
0
3 2 1 0 1 2 3
Kemampuan
Gambar 14. Fungsi Standard Error of Measurement (SEM) berdasarkan Model 1PL, 2PL, dan 3PL
Tingkat presisi yang tinggi ini dapat dilihat pula dengan melandaskan pada SEM.
Lihatlah Gambar 14, fungsi SEM model 2PL memiliki puncak terendah dibanding dua
model yang lain sehingga dapat dikatakan bahwa model 2PL adalah model yang paling
presisi dalam mengestimasi kemampuan para peserta tes.
IF merupakan salah satu kunci dalam mengambil keputusan tentang model mana
yang digunakan, karena berdasarkan IF pula dapat diplot sebuah fung si SEM. SEM
inilah yang menentukan tingkat presisi hasil estimasi kemampuan para peserta tes.
Mengingat tujuan akhir tes kemampuan aktual (dalam hal ini UAN) adalah menentukan
perbedaan antar peserta, maka dapat disimpulkan model 2PL adalah model yang pali ng
tepat. Oleh karena itu, pada pembahasan selanjutnya, model TRA yang digunakan
adalah model 2PL.
15
1 1.185 -1.598 14 .919 1.485 27 1.436 1.204
2 .929 -1.308 15 1.185 .133 28 .919 1.202
3 1.322 -1.042 16 .929 2.127 29 1.111 -.159
4 .794 1.176 17 1.322 -.945 30 1.200 .141
5 .925 1.004 18 .794 .857 31 .891 .827
6 .773 .502 19 .925 .953 33 .625 .446
7 .973 .596 20 .773 -.206 34 .846 .723
8 1.026 .167 21 .973 .713 35 .471 1.779
9 1.820 -.507 22 1.026 .605 36 .445 1.965
10 1.200 1.274 23 1.820 -2.154 38 .465 -.590
11 1.187 -.772 24 1.200 -.181 39 .779 .147
12 1.269 -.863 25 1.187 .910 40 .372 3.288
13 1.436 -1.580 26 1.269 .063
Parameter tingkat kesukaran dalam TRA yang ditunjukkan dengan b, mengacu pada
titik di sepanjang skala kemampuan dimana probabilitas menjawab benar adalah 0.5.
Sementara pada TTK, parameter tingkat kesukaran ditunjukkan dengan proporsi
menjawab benar p yang lebih mudah dimaknai sebagai tingkat kemudahan. Oleh karena
itu, secara teoritik korelasi b dan p akan bersifat negatif. Gambar 15 menampilkan
hubungan korelasi negatif tersebut dimana terlihat bahwa rbp2 = 0.89 atau rbp = -0.943.
2
b 2PL
-2
R Sq Linear =
0.89
-4
Gambar 15. Scatter plot dan Garis Regresi antara b-2PL dan p
Parameter daya beda dalam TRA ditunjukkan dengan a, yang pada dasarnya
merupakan ukuran kemiringan item characteristic curve (ICC) pada masing-masing
aitem. Dalam TTK daya beda aitem ditunjukkan oleh korelasi point biserial rpbis, yaitu
korelasi aitem-total atau tepatnya korelasi antara variabel dikotomi (aitem) dan variabel
kuantitatif (skor total). Secara teoritik, hubungan antara a dan rpbis adalah linier positif.
Gambar 16 menunjukkan eksisnya hubungan tersebut, dimana r(2a )( pbis ) = .549 atau
r( a )( pbis ) = 0.741.
16
2.0
1.5
a 2PL
1.0
0.5
R Sq Linear =
0.549
0.0
SIMPULAN
17
Invariansi estimasi parameter -parameter aitem pada ketiga model di atas
menunjukkan bahwa estimasi param eter aitem tidak tergantung sampel, dan estimasi
kemampuan tidak tergantung pada aitem. Manfaat adanya sifat invarian yang dimiliki
TRA tersebut akan tampak nyata manakala sebuah tes digunakan secara berulang kali
pada kelompok sampel yang berbeda -beda.
Kriteria ketiga yaitu kecocokan data dengan model yang dipilih. Tabel 35 yang
merangkum uji Goodness of Fit (GOF) dengan cara membandingkan ketiga model,
mengarahkan peneliti untuk lebih menentukan model 3PL sebagai p ilihan.
Akhirnya, information function (IF) dan SEM ketiga model dibandingkan.
Keduanya tertuang pada Gambar 13 dan Gambar 14. Secara umum dapat dilihat bahwa
model 2PL lebih mampu memberikan informasi dibandingkan model 1PL dan 3PL.
SEM 2PL secara umum juga lebih rendah. Oleh karena itu, 2PL merupakan preferensi
dibanding 1PL dan 3PL.
Mengingat tujuan terpenting sebuah tes adalah mengukur perbedaan para peserta tes
dengan eror yang seminimal mungkin, maka IF dan SEM layak untuk dijadikan
pertimbangan paling utama dalam menentukan sebuah model yang dipilih. Berdasarkan
IF dan SEM yang dihasilkan masing -masing model maka dapat disimpulkan bahwa
model 2PL adalah model yang pal ing tepat digunakan dalam menjelaskan data respon
para peserta UAN Matematika.
Bagian akhir penelitian ini adalah membandingkan TTK dan TRA. Dari
pembandingan tersebut dapat disimpulkan bahwa hasil estimasi kedua pendekatan
tersebut sesuai dengan teori (Crocker & Algina, 1986). Daya beda aitem berkorelasi
secara linier positif (Gambar 16), sedangkan tingkat kesukaran berkorelasi secara linier
negatif (Gambar 15).
DAFTAR PUSTAKA
Baker, F. B. (2001). The Basics of Item Response Theory. New York: ERIC
Clearinghouse on Assessment and Evaluation.
Bechger, T. M., Maris, G., Verstralen, H. H., & Beguin, A. A. (2003). Using Classical
Test Theory in Combination With Item Response T heory. Applied Psychological
Measurement, 27 (5), 319–334.
Crocker, L. M., & Algina, J. (1986). Introduction to Classical and Modern Test Theory.
New York: Holt, Rinehart and Winston Inc.
Embretson, S. E., & Reise, S. P. (2000). Item Response Theory for Ps ychologist. NJ:
Lawrence Erlbaum Associates Inc.
Fan, X. (1998). Item Response Theory and Classical Test Theory: An Empirical
Comparison of Their Item/Response Person Statistics. Educational and
Psychological Measurement, 58 (3), 357-381.
Hambleton, R. K., & Swaminathan, H. (1985). Item Response Theory: Principles and
Application. Boston, MA: Kluwer Inc.
Hambleton, R. K., Robin, F., & Xing, D. (2000). Item Response Models for the
Analysis of Educational and Psychological Test Data. Dalam H. E. Tinsley, & S. D.
Brown, Handbook of applied multivariate statistics and mathematical modeling
(hal. 553-581). San Diego, CA: Academic Press.
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item
Response Theory. CA: Sage Publication Inc.
18
Harvey, R. J., & Hammer, A. L. (1999). Item Response Theory. The Counseling
Psychologist, 27 (3), 353-383.
Karabatsos, G., & Sheu, C.F. (2004). Order-Constrained Bayes Inference for
Dichotomous Models of Unidimensional Nonparametric IRT. Applied
Psychological Measurement, 28 (2), 110–125.
Lord, F. M. (1980). Application of Item Response Theory to Practical Testing
Problems. Hillsdale, New Jersey: Lawrence Erlbaum Associates Publishers.
McDonald, P., & Paunonen, S. V. (2002). A Monte Carlo Comparison of Item and
Person Statistics Based on Item Response Theory Versus Classical Test Theory.
Educational and Psychological Measurement, 62 (6), 921-943.
McLeod, L., Lewis, C., & Thissen, D. (2003). A Bayesian Method for the Detection of
Item Preknowledge in Computer ized Adaptive Testing. Applied Psychological
Measurement, 27 (2), 121–137.
Nicewander, W. A. (1993). Some relationships between the information function of IRT
and the signal/noise ratio and reliability coefficient of classical test theory.
Psychometrika, 58, 139-141.
Ridho, A. (2005). Keberfungsian Item Tes UAN Matematika SMA Tahun Pelajaran
2003/2004 di Propinsi DIY. Yogyakarta: Sekolah Pascasarjana Universitas Gadjah
Mada. Tesis. Tidak Diterbitkan.
Risnawita, R. S. (2004). Karakteristik Butir Soal Tes Ma suk Seleksi SLTPN 8 di
Kotamadya Jogjakarta Tahun Ajaran 2001/2002 Berdasar Teori Respon Butir
Model Logistik Tiga Parameter. Yogyakarta: Program Pascasarjana Universitas
Gadjah Mada. Tesis. Tidak Diterbitkan.
Stone, C. A. (2003). Empirical Power and Type I Error Rates for An IRT Fit Statistic
That Considers the Precision of Ability Estimates. Educational and Psychological
Measurement, 63 (4), 566-583.
Suryabrata, S. (2000). Pengembangan Alat Ukur Psikologi. Yogyakarta: Andi.
Thissen, D. (2003). MULTILOG. Dalam M. du Toit, IRT from SSI: BILOG-MG,
MULTILOG, PARSCALE, TESTFACT (hal. 345-409). North Lincoln: Scientific
Software International.
Veerkamp, W. J., & Berger, M. P. (1999). Optimal Item Discrimination and Maximum
Information for Logistic IRT Models. Applied Psychological Measurement, 23 (1),
31–40.
Xing, D., & Hambleton, R. K. (2004). Impact of Test Design, Item Quality, and Item
Bank Size on the Psychometric Properties of Computer -Based Credentialing
Examinations. Educational and Psychological Measurem ent, 64 (1), 5-21.
19
Lampiran
1-7
8 - 14
15 - 21
22 - 28
29 - 35
36 - 38
20