Anda di halaman 1dari 29

Perbandingan Parameter Butir antara Hasil Analisis

Butir Berbasis Teori Skor Murni Klasik dan Rasch

Contents
BAB 1......................................................................................................2
A. LATAR BELAKANG.........................................................................2
B. TUJUAN PENELITIAN.....................................................................8
C. MANFAAT PENELITIAN..................................................................8
1. Manfaat teoritis.........................................................................8
2. Manfaat praktis.........................................................................9
BAB 2....................................................................................................10
A. Teori Tes Klasik...........................................................................10
1. Properti Tes Klasik..................................................................11
B. Rasch Model................................................................................13
1. Konsep pengukuran Rasch.....................................................17
C. Prosedur Analisis Butir.............................................................19
1. Seleksi Butir menggunakan Teori Tes Klasik......................20
2. Seleksi Butir menggunakan Rasch Model...........................22
D. Hipotesis......................................................................................27
BAB III...................................................................................................28
A. Variabel Penelitian......................................................................28
B. Instrumen.....................................................................................28
C. Cara Analisis................................................................................29

BAB 1
PENDAHULUAN
A. LATAR BELAKANG
Dewasa ini penggunaan tes psikologi memiliki dampak terhadap
berbagai aspek kehidupan manusia. Setiap jenjang perkembangan
manusia membutuhkan peran dari tes psikologi baik untuk keperluan
asesmen, seleksi, hingga rekrutmen. Seringkali hasil dari tes psikologi
tersebut dapat mempengaruhi nasib hidup seseorang sehingga tes
harus dibuat sebaik mungkin baik dalam penyusunan, penyajian,
maupun prosedur analisis untuk mengevaluasinya. Ada beberapa
prosedur dalam menganalisis atau mengevaluasi kualitas tes. Dua
pendekatan yang paling populer adalah tes klasik dan Rasch yang
nantinya akan diulas sedikit di bagian lain bab ini. Berdasarkan teori dan
prosedur pengukuran, kedua pendekatan memiliki landasan yang
berbeda. Oleh karena didasari pada landasan berbeda maka
dimungkinkan hasil analisis dari kedua pendekatan tersebut berbeda.
Salah satu keluaran yang berbeda adalah parameter butir, misalnya
daya beda dan tingkat kesukaran butir.
Pendekatan teori tes klasik menghasilkan parameter butir yang
meliputi tiga hal, yaitu taraf kesukaran butir, daya beda butir, dan
efektivitas distraktor. Taraf kesukaran butir adalah peluang menjawab
benar suatu butir pada tingkat kemampuan tertentu yang dinyatakan
dalam bentuk indeks. Semakin tinggi nilai indeks kesukaran butir
menunjukkan bahwa butir semakin mudah. Daya beda butir adalah
kemampuan suatu butir dalam membedakan subjek dengan
kemampuan tinggi dan rendah. Butir yang baik adalah butir yang
mampu membedakan subjek dengan kemampuan tinggi atau rendah
secara akurat. Efektivitas distraktor adalah seberapa besar pilihanpilihan bukan jawaban berfungsi secara efektif dipilih oleh subjek
dengan kemampuan rendah dan tidak dipilih oleh mayoritas subjek
dengan kemampuan tinggi.
Pengukuran dengan pendekatan model Rasch menghasilkan
parameter butir yang meliputi empat hal, yaitu ketepatan butir dengan
model, fungsi informasi butir, taraf kesukaran butir, dan korelasi skor
butir dan skor Rasch (point measure correlation). Ketepatan butir
dengan model mengacu pada kesensitifan pola respon jawaban. Hal
yang biasa digunakan dalam menentukan apakah butir fit atau tidak
dengan model didasarkan pada 2 aspek, yaitu infit (informationweighted fit) dan outfit (outlier-sensitive fit). Fungsi informasi butir
menunjukkan sejauh mana butir mampu memberikan informasi
pengukuran, sementara taraf kesukaran butir dan point measure
correlation Rasch pada dasarnya sama dengan asumsi pada teori tes
klasik, hanya saja skor yang digunakan dalam pendekatan model Rasch
menggunakan nilai measure sementara pada teori tes klasik
menggunakan skor total.
2

Parameter-parameter tersebut yang akan dipertimbangkan


peneliti dalam melakukan analisis butir soal. Butir dengan parameter
bagus memiliki kualitas yang bagus pula. Kesimpulan mengenai kualitas
butir akan membawa pada keputusan mengenai dapat atau tidaknya
butir dipakai, apakah harus dibuang, diperbaiki, atau tetap
dipertahankan. Sebuah tes yang berisi butir-butir berkualitas tinggi
walaupun dalam jumlah yang sedikit akan jauh lebih berguna
dibandingkan dengan tes yang berisi butir melimpah namun kualitas
butirnya rendah. Butir-butir dengan kualitas rendah tidak saja akan
menurunkan fungsi tes, tetapi memberikan hasil pengukuran yang
menyesatkan (Azwar, 2013).
Proses penyusunan tes secara teoritik harus berisi sebanyakbanyaknya butir yang independen. Independen dapat diartikan bahwa
setiap butir tidak terikat satu sama lain (Azwar, 2013). Butir-butir
tersebut kemudian dianalisis dan dilakukan seleksi berdasarkan
parameternya sehingga butir-butir yang tersisa adalah butir dengan
kualitas bagus. Kualitas alat ukur dapat diketahui dengan melakukan
analisis terhadap butir-butir soalnya. Saat ini terdapat dua jenis model
analisis yang umum digunakan, yaitu model teori tes klasik (classical
test theory-CTT) dan teori tes modern (item response theory-IRT) yang
termasuk di dalamnya adalah analisis dengan menggunakan
pendekatan Model Rasch. Semua metode pengukuran instrumen
psikologi bertujuan untuk mengevaluasi dan memastikan bahwa
pengukuran yang dilakukan memiliki kualitas. Dalam hal ini, kualitas tes
dapat dilihat dari besar kecilnya properti psikometris pada tiap-tiap butir
dan pada tes secara umum. Masing-masing metode memiliki
karakteristik dan konsep dasar yang berbeda.
Teori tes klasik (CTT) adalah pendekatan yang paling banyak
digunakan dalam pengukuran psikologi selama abad 20 (Embretson &
Reise, 2000). Pada abad tersebut sekitar 95% penelitian psikologi
menggunakan CTT (Ziniel, 2011). CTT memiliki konsep dasar yang
sederhana, yaitu skor yang diamati adalah penjumlahan skor tampak
dan error pengukuran. Teori ini menekankan pada skor tampak yang
menjadi acuan untuk menunjukkan atribut individu. Atas dasar skor
mentah tersebut, berbagai analisis dan interpretasi bisa dihasilkan
seperti tingkat kesulitan butir soal, indeks diskriminasi, korelasi antara
butir dengan total, dan efektivitas distraktor (Azwar, 2013).
Meskipun CTT banyak digunakan dalam penelitian dan tes
psikologi hingga saat ini, namun model ini memiliki banyak kelemahan.
Kelemahan dari teori tes klasik ini antara lain pengukuran sangat
tergantung pada jumlah sampel (sample-dependent), skor total pada
dasarnya tidak linear, tes berbeda yang mengukur hal yang sama
hasilnya tidak dapat dibandingkan, dibutuhkan banyak butir untuk
mendapatkan pengukuran yang berkualitas, dan menganggap setara
eror pengukuran pada semua skor. CTT telah dikritik karena beberapa
alasan, misalnya Fischer (dalam Ziniel, 2011) menyatakan bahwa CTT
tidak melibatkan eror sistematis seperti pengaruh pelatihan dan
transfer effect. Kejadian ini secara sistematis mempengaruhi
performansi tes pada seseorang dan dengan demikian mendistorsi
3

kemampuan alat tes dalam mengukur. Lebih lanjut, Stumpf (dalam


Ziniel, 2011) mempertanyakan stabilitas skor murni (true score) pada
pengukuran pertama, kedua, dan seterusnya. Terdapat kepatutan sosial
(social desirability) yang dapat mempengaruhi perbedaan true score
abilitas seseorang dan itu tidak tercover oleh perhitungan CTT. Pada
kasus yang lebih lanjut, CTT tidak dapat melakukan pengukuran yang
akurat pada individu yang memiliki tingkat kemampuan ekstrem.
(Fisher, 1974 dalam Ziniel, 2011).
Disisi lain CTT memiliki keterbatasan dalam hal standarisasi skor
yang dapat dipakai untuk membandingkan individu. Ketika tes berbeda
yang berusaha mengukur hal yang sama diberikan kepada kelompok
individu yang berbeda, hasil tes dan individu tidak dapat dibandingkan.
Meskipun berbagai proses penyetaraan telah dilakukan untuk
menyamakan asumsi mengenai distribusi abilitas, namun hanya sedikit
teori yang dapat membenarkan proses tersebut. (Alagumalai, Curtis, &
Hungi, 2005). Sebagai contoh ujian mata pelajaran sejarah pokok
bahasan sejarah perkembangan kerajaan Majapahit pada dua SMA yang
berbeda dengan jenis pertanyaan yang berbeda, hasil skor mentah yang
didapat individu pada tes yang berbeda tersebut tidak dapat
dibandingkan. Hal ini dikarenakan raw score yang didapat dari
penjumlahan skor total tidak dapat dibandingkan. Meskipun z-score
digunakan sebagai standarisasi tes pada teori klasik, namun asumsi
yang digunakan adalah pada populasi yang sama. Idealnya material tes,
situasi pengukuran, sesi pengetesan dan metode skoring dapat
dibandingkan untuk memenuhi standarisasi yang optimal. Adanya
standarisasi memungkinkan kemampuan seseorang dapat ditempatkan
pada suatu kontinum yang setara dan dapat dibandingkan dengan
orang lain (Alagumalai, Curtis, & Hungi, 2005).
Keterbatasan lain dalam penggunaan CTT untuk mengevaluasi
alat ukur yaitu adanya asumsi paralel. Asumsi ini dapat terpenuhi
apabila tes memiliki skor murni dan varians eror yang sama. Keberatan
terhadap asumsi ini adalah kurangnya dukungan yang dapat
memperkuat landasannya. Hal ini dikarenakan pada tes yang sulit, eror
pengukuran bagi subjek yang memiliki abilitas rendah akan berbeda
dengan eror pada subjek yang memiliki abilitas sedang dan tinggi.
Secara teoritis, eror yang dihasilkan proses pengukuran itu bervariasi
karena adanya perbedaan individual. Dalam tataran praktek, definisi tes
paralel sebagaimana dimaksudkan oleh teori klasik sangatlah sulit untuk
dipenuhi (Azwar, 1993).
Wright (dalam Alagumalai, Curtis, & Hungi, 2005) berpendapat
bahwa konsep tradisional pada pengukuran reliabilitas tidak tepat
karena mengasumsikan kesamaan sampel dan tes. Kecondongan data
empirik telah diabaikan dalam menghitung koefisien reliabilitas.
Schumaker (dalam Alagumalai, Curtis, & Hungi, 2005) menyatakan
bahwa koefisien reliabilitas tidak selalu seperti yang diharapkan karena
sangat tergantung pada sampel dan skor yang bersifat non-linear. Selain
itu dibutuhkan banyak butir untuk mendapatkan hasil pengukuran yang
berkualitas. Hal ini dikarenakan persamaan-persamaan yang dipakai
4

dalam CTT mengasumsikan pengukuran yang banyak dan tak terbatas


(Crocker & Aigina, 2008).
Alat ukur yang berkualitas harus memiliki reliabilitas dan validitas
yang baik serta tidak tergantung pada subjek atau kelompok yang
diukur. Reliabilitas mengacu pada keterpercayaan atau konsistensi hasil
ukur yang mengandung makna seberapa tinggi kecermatan
pengukuran. Alat ukur yang baik menghasilkan skor yang cermat
dengan error pengukuran kecil. Reliabilitas dapat dikatakan tinggi
apabila skor koefisiennya mendekati angka 1,00 dari skala 0-1 (Azwar,
2013). Sementara itu validitas adalah seberapa jauh alat ukur mengukur
atribut yang seharusnya diukur. Hal ini berarti alat ukur yang digunakan
dapat mengukur dengan tepat sesuai dengan tujuan yang telah
ditetapkan. Terdapat tiga jenis validitas yang dapat digunakan, yaitu
validitas isi, validitas konstruk, dan validitas kriteria (Sumintono &
Widhiarso, 2013).
Dalam konteks pengukuran modern, statistik butir yang
diharapkan (expected) adalah tidak tergantung pada kelompok
subjeknya. Skor tes dapat menggambarkan kemampuan subjek dan
tidak tergantung pada komposisi taraf kesukaran butir-butir tes. Dengan
kata lain, tes dengan soal-soal mudah, tes dengan soal sulit, subjek
dengan abilitas rendah, maupun subjek dengan abilitas tinggi akan
menghasilkan parameter butir yang sama. Untuk memenuhi hal ini,
diperlukan sebuah model tes yang dapat memberikan dasar pencocokan
antara butir tes dengan level kemampuan. Model tes tersebut memiliki
dasar asumsi yang kuat dan tidak memerlukan asumsi paralel dalam
pengujian reliabilitasnya (Azwar S. , 1993). Dengan adanya model, maka
hubungan antara skor tes dengan kemampuan individu dapat dilihat
dalam satu kerangka yang lebih komprehensif. Keinginan tersebut dapat
dipenuhi oleh teori pengukuran modern yang disebut sebagai teori
respons butir (item response theory (IRT) yang termasuk didalamnya
adalah analisis dengan menggunakan pendekatan Model Rasch.
Model Rasch sebagai salah satu parameter logistik dalam IRT
menggunakan pendekatan probabilistik dalam memandang atribut
sebuah objek ukur. Model ini tidak menggunakan skor total sebagai
sumber data dalam melakukan analisis seperti CTT, melainkan
mengubah data frekuensi menjadi angka peluang. Setelah mendapatkan
angka peluang (probabilitas) misalkan 80:20, angka tersebut kemudian
dikalibrasikan. Kalibrasi merupakan penyetaraan metrik ukur sehingga
subjek dan aitem ditempatkan dalam metrik yang sama. Penyetaraan ini
mengonversi angka peluang menggunakan logaritma yang biasa
disebut dengan logarithm odd unit atau logit. Nilai logit yang didapat
telah mengubah data yang semula ordinal menjadi interval setara
sehingga dapat dilakukan berbagai operasi aritmatika. Berdasarkan nilai
logit tersebut kemudian semua analisis seperti uji beda dan uji korelasi
dapat dilakukan (Sumintono & Widhiarso, 2013).
Model Rasch bertujuan mengembangkan pengukuran objektif
yang tidak tergantung pada subjeknya (sample dependent). Model
Rasch telah memenuhi lima syarat pengukuran objektif, yaitu
5

menghasilkan pengukuran yang linear, mampu mengatasi data yang


hilang, mampu memberikan estimasi yang tepat, mampu mendeteksi
misfit (ketidaktepatan model), dan parameter objek yang diukur
terpisah dengan instrumen ukurnya (independen) (Sumintono &
Widhiarso, 2013).
Perbedaan estimasi dan cara pengukuran pada metode klasik dan
modern berpotensi menghasilkan jumlah butir terseleksi yang berbeda.
Hal tersebut akan berpengaruh terhadap skor akhir. Perbedaan skor
akhir memungkinkan subjek masuk kategori tertentu pada suatu tes
serta dapat menentukan apakah subjek diterima atau tidak (misalkan
pada seleksi dan rekrutmen). Oleh karena itu diperlukan estimasi yang
akurat dalam melakukan pengukuran abilitas individu yang sifatnya
laten.
Berdasarkan paparan di atas penggunaan dua pendekatan yang
berbeda berdampak pada informasi mengenai parameter butir yang
berbeda. Misalnya, jumlah butir yang berkualitas (memiliki properti
psikometris bagus) berbeda. Penelitian ini menguji sejauh mana
perbedaan hasil seleksi butir antara pendekatan yang menggunakan
teori tes klasik dan analisis berbasis model Rasch. Penelitian yang
membandingkan CTT dan IRT telah banyak dilakukan, seperti Fan
(1998), MacDonald & Paunonen (2002), Prieto, et.al (2003), Probst
(2003), Champlain (2010), dan Sussman, et.al (2012). Namun penelitian
sejenis masih sangat jarang dilakukan di Indonesia. Beberapa
diantaranya Effendi (1998), Meladi (1999), dan Suwarto (2011).
Penelitian di atas memiliki beberapa keterbatasan, seperti penelitian
dilakukan bukan di Indonesia dan jumlah subjek yang sedikit. Penelitian
ini memiliki kelebihan dalam hal jumlah subjek dan norma alat tes yang
digunakan sesuai dengan norma Indonesia.
B. TUJUAN PENELITIAN
Tujuan penelitian ini adalah untuk mengetahui perbedaan hasil
seleksi butir dengan menggunakan Teori Skor Murni Klasik (CTT) dan
Model Rasch.
C. MANFAAT PENELITIAN
Penelitian ini diharapkan dapat memberikan manfaat secara
teoritis dan praktis
1. Manfaat teoritis
a. Menambah sumbangan literatur psikometri khususnya IRT
dalam bahasa Indonesia yang masih jarang.
b. Mengenalkan pendekatan objektif Rasch measurement yang
masih jarang diterapkan di Indonesia.
2.Manfaat praktis
Hasil penelitian ini diharapkan menjadi pertimbangan
penyusun tes dalam memilih model analisis aitem yang tepat.
6

BAB 2
TINJAUAN PUSTAKA
Teori Tes Klasik
Salah satu pendekatan yang paling sering digunakan dalam
pengukuran psikologi adalah pendekatan teori tes klasik atau teori skor
murni klasik atau classical test theory (CTT). Teori ini dikembangkan
oleh Charles Spearman tahun 1904 dan masih terus digunakan hingga
saat ini. Spearman mengembangkan CTT dengan menggabungkan
konsep eror dan korelasi (Salkind, 2007). CTT merupakan teori
psikometri yang populer serta banyak digunakan pada berbagai disiplin
ilmu (psikologi, pendidikan, dan ilmu sosial lainnya). Hayat (dalam
Sodik, 2012) menyatakan bahwa teori tes klasik populer digunakan
karena memiliki banyak kelebihan yaitu murah, dapat dilaksanakan
dengan cepat, sederhana, familier, dan dapat menggunakan data dari
beberapa peserta atau dengan sampel kecil.
Performansi individu yang diungkap oleh suatu skala pengukuran
dinyatakan dalam bentuk angka yang disebut skor. Skor tersebut
merepresentasikan suatu atribut laten subjek pengukuran. Skor
kuantitatif yang diperoleh secara langsung merupakan skor tampak atau
biasa disimbolkan dengan X. Menurut Spearman setiap tes memiliki eror
(e) yang menyertai setiap hasil pengukuran dalam mengukur sifat
manusia. (Azwar, 2013). Skor murni ( ) dan error (e) keduanya adalah
variabel laten, namun tujuan pengujian adalah untuk menarik
kesimpulan mengenai skor murni individu. Mengingat bahwa skor yang
diamati (x) telah diketahui, eror pengukuran mesti diasumsikan untuk
memperkirakan skor murni ( ) (Alagumalai, Curtis, & Hungi, 2005).
1. Properti Skor Murni dan Eror
a. Variabel
Asumsi dasar dari CTT adalah skor tes yang diamati (X) terdiri atas
penjumlahan true score ( ) dan error (e).
Xi=

+ei (1)

didefinisikan sebagai rata-rata dari jumlah tak terbatas atas skor


yang diamati dibawah kondisi pengujian yang sama. e (error) berisi
semua pengaruh yang tidak sistematis dan tidak dapat dikontrol. Rerata
dari e pada pengujian tak hingga terhadap seseorang, populasi atau
subjek adalah 0. Pengukuran berulang kali dengan frekuensi tak
terbatas akan menghasilkan rata-rata skor tampak sama dengan skor
murni. (X)= (Azwar, 2013).
b. Varians
Berdasarkan asumsi tersebut, keragaman (variance) dari skor
mentah adalah hasil penjumlahan antara varians skor murni dan eror.
8

2x = 2 + 2e

(2)

c. Properti lain
Persamaan ketiga (3) menyatakan bahwa distribusi skor murni
tidak berkorelasi dengan distribusi eror pengukuran meskipun
perbedaan skor mentah antar tes dilibatkan. Berdasarkan asumsi ini
dapat disimpulkan bahwa skor tampak yang tinggi tidak selalu memiliki
eror yang tinggi ataupun sebaliknya.
Cov(i, ej) = 0

(3)

Persamaan keempat (4) menyatakan bahwa nilai yang


diharapkan (expected value) dari variabel kesalahan (eror) adalah nol.
sedangkan Persamaan kelima (5) menunjukkan bahwa nilai yang
diharapkan dari variabel kesalahan (eror) adalah nol dalam setiap unit
pengamatan pada individu u.
(ei) = 0
(ei |U) = 0

(4)
(5)

Pada persamaan keenam (6) ekspektasi bersyarat dari eror juga


nol untuk setiap pemetaan U. Artinya, nilai yang diharapkan dari eror
adalah nol di setiap subpopulasi unit pengamatan (Steyer, 2001).
[ei |(U)] = 0
(6)
2. Asumsi Reliabilitas
Meskipun skor murni dan eror pengukuran telah didefinisikan
sebagai konsep inti CTT, namun secara umum mustahil untuk
mempraktikkan konsep skor murni dan eror dalam aplikasi empiris. Hal
yang dapat dilakukan adalah mengestimasi varians dari skor murni dan
eror pada sampel random. Varians dari eror pegukuran dapat dianggap
sebagai derajat tidak reliabel (unreliability) suatu tes. Norma untuk
mengukur derajat tidak reliabel (unreliability) adalah varians eror (2e)
dibagi varians skor mentah (2x). Oleh karena itu derajat reliabilitas tes
() dapat didefinisikan sebagai rasio antara varians skor murni ( )
dan skor tampak (x) (Steyer, 2001)
= 2 / 2 x

(1)

Koefisien reliabilitas memiliki nilai antara nol hingga 1. Koefisien


reliabilitas merupakan informasi mengenai seberapa jauh pengukuran
memiliki keandalan dalam mengukur. Dalam penelitian awal CTT,
reliabilitas tes diidefinisikan sebagai korelasi dengan tes itu sendiri.
Definisi ini dianggap metaforis karena variabel selalu berkorelasi
9

sempurna dengan dirinya sendiri. Oleh karena itu untuk mendefinisikan


reliabilitas adalah dengan mengkorelasikan dengan tes paralel yaitu
dengan menggunakan dua buah ujian yang memiliki konsep dan
kualitas yang sama (Steyer, 2001). Korelasi antara hasil kedua tes
tersebut menunjukkan nilai reliabilitas ujian. Nilai reliabilitas yang
banyak digunakan untuk CTT adalah koefisien Alpha Cronbach.
Hubungan ini tergantung pada asumsi bahwa eror didistribusikan secara
acak dan memiliki rerata=0 dan tidak berkorelasi dengan dan x.
(Alagumalai, Curtis, & Hungi, 2005). Reliabilitas sangat berguna untuk
membandingkan instrumen yang berbeda jika diterapkan dalam
populasi yang sama. Reliabilitas dapat berfungsi mengevaluasi kualitas
instrumen pengukuran.
3. Model dalam CTT
Definisi skor murni dan eror pada CTT harus dilengkapi dengan
penyusunan model jika parameter teoritis seperti reliabilitas dihitung
dengan melibatkan parameter estimasi seperti rerata, varians, kovarian,
dan korelasi skor tes,
Berikut adalah asumsi-asumsi pokok dalam penyusunan model
pada CTT,
a1. -equivalence
i = j
a2. Essential -equivalence i = j + ij, ij IR
a3. -Congenerity
i = ij0 + ij1, ij0, ij1 IR, ij1 > 0
b. Uncorrelated errors Cov(ei, ej) = 0, i j
c. Equal error variances
Var(ei) = Var(ej)
Asumsi a1-a3 adalah asumsi yang menyatakan bahwa dua tes Xi
dan Xj mengukur atribut yang sama. Asumsi tersebut sangat penting
untuk menyimpulkan derajat reliabilitas pada dua pengukuran dengan
atribut yang sama dan dari orang yang sama. -equivalence (a1)
mengartikan bahwa skor murni dari kedua pengukuran adalah identik.
Asumsi Essential -equivalence (a2) mengartikan bahwa kedua skor
murni mungkin berbeda karena adanya penambahan konstanta.
Sementara menurut Asumsi -Congenerity (a3), dua tes mengukur
atribut yang sama dalam arti bahwa variabel skor mereka yang
sebenarnya adalah fungsi linear satu sama lain, Dua asumsi lain (b dan
c) merupakan asumsi yang melibatkan eror pengukuran. Uncorrelated
errors (b) mengasumsikan eror pengukuran akan berbeda berdasarkan
skor tes dan tidak berkorelasi. Sementara equal error variances (c)
mengasumsikan kesetaraan eror (Steyer, 2001).
Penyusunan model dalam CTT menggabungkan asumsi-asumsi
diatas. Terdapat 3 model yang dapat didefinisikan, yaitu tes paralel,
ekuivalen tau (Essentially -equivalent tests), dan konjenerik
(Congeneric tests). Model tes paralel didefinisikan oleh asumsi (a1), (b),
dan (c). Dua tes disebut paralel apabila skor murni dari setiap subjek
adalah sama pada kedua tes (asumsi a1) dan pada setiap populasi
subjek yang diberikan tes memiliki varians eror yang sama (asumsi c)
10

(Azwar, 2013). Singkatnya, model tes paralel mengandaikan (a) eror


tersebar secara acak, (b) eror yang tidak berkorelasi satu dengan yang
lain (asumsi b), (c) eror tidak berkorelasi dengan skor murni, (d) variable
laten yang mempengaruhi semua butir setara, dan (e) besaran eror
untuk semua butir adalah sama (Salkind, 2007). Model tes ekuivalen tau
didefinisikan oleh asumsi (a2), dan (b). Model tes ini lebih bebas
(restrictive) dibandingkan dengan model tes paralel. Pada model ini skor
murni antara dua tes Xi dan Xj akan sama besar kecuali jika
ditambahkan suatu konstanta yang mengenai salah satu tes (asumsi a2)
dan jika eror tidak saling berkorelasi (asumsi b). Sementara model tes
konjenerik didefinisikan oleh asumsi (a3) dan (b). Model ini
mengasumsikan perbedaan nilai lambda dan varians eror (asumsi c).
Dua tes pada model ini disebut konjenerik apabila skor murni dari kedua
tes membentuk fungsi linear positif (asumsi a3) (Steyer, 2001).

Model Rasch
IRT memiliki tiga macam model unidimensional, yaitu model
logistik satu, dua, dan tiga parameter. Model Rasch merupakan model
satu parameter logistik dari IRT. Permodelan Rasch muncul dari analisis
yang dilakukan oleh Dr. Georg Rasch, seorang matematikawan asal
Denmark. Rasch memberikan dua buah tes pada siswa kelas 4,5 dan 6
sekolah dasar dan mendapatkan hasil bahwa siswa kelas 6 melakukan
sedikit kesalahan menjawab dibandingkan siswa kelas 4 dan 5 pada soal
yang sama. Kemudian dia menggambarkan grafik untuk menampilkan
hasil dari kedua tes tersebut dan mendapati bahwa galat (error) dari
suatu tes berhubungan dengan galat pada tes yang lain,
perbandingannya ternyata sama pada ketiga kelas yang diuji tersebut.
Hal ini berarti derajat kesulitan antara kedua tes sudah didapatkan. Jika
hal ini dibandingkan, didapati bahwa peluang untuk menjawab soal
dengan betul sama ketika kemampuan siswa dibandingkan dengan
tingkat kesulitan soal (Sumintono & Widhiarso, 2013). Hal itu kemudian
membawa Georg Rasch pada kesimpulan bahwa, Seseorang yang
memiliki abilitas lebih tinggi daripada orang lain akan memiliki
probabilitas yang lebih besar untuk menyelesaikan soal dengan benar.
Hal serupa berlaku pada butir. butir yang memiliki tingkat kesulitan lebih
tinggi daripada butir lain memiliki arti bahwa probabilitas untuk
menyelesaikan butir tersebut lebih rendah daripada butir yang lain.
(Rasch, 1960 dalam Bond & Fox, 2015).
Model Rasch berbeda dengan CTT dalam banyak hal. Pertama,
pengungkapan level butir dan instrumen pada model Rasch berbeda
pada model CTT yang hanya mengungkap instrumennya saja. Kedua,
memfokuskan model probabilitas pada subjek yang diamati, berbeda
dengan model CTT yang hanya menghitung nilai respons. Jika pada
model CTT nilai skor yang diamati (x) dinyatakan dalam term dan e,
maka pada permodelan Rasch bentuk hubungannya adalah probabilitas
respons pada butir i, xi, difungsikan sebagai fungsi lokasi responden ()
11

dan lokasi butir (). Dalam pengaplikasiannya pada tes prestasi, lokasi
responden biasanya disebut sebagai tingkat abilitas responden, dan
lokasi item disebut sebagai tingkat kesulitan item (Wilson, 2005).
Salah satu fitur penting dalam permodelan Rasch adalah tabel
ekspektasi probabilitas respons yang dirancang untuk menjawab
pertanyaan: Ketika seseorang dengan abilitas tertentu dihadapkan pada
item dengan tingkat kesulitan tertentu, bagaimana kemungkinan orang
ini menjawab item dengan benar? Jawabannya adalah: Probabilitas
kesuksesan seseorang dalam menjawab soal tergantung pada
perbandingan antara abilitas orang itu dengan tingkat kesulitan soal.

Tabel 2.1. Tabel probabilitas menjawab benar berdasarkan kemampuan dan tingkat kesulitan
soal (Bond & Fox, 2015)

Tabel 2.1 di atas menunjukkan bahwa seseorang dengan


kemampuan tinggi memiliki probabilitas yang lebih tinggi untuk
menjawab butir dengan benar. Sebaliknya, seseorang dengan
kemampuan rendah memiliki probabilitas yang lebih rendah untuk
menjawab butir dengan benar. Subjek S memiliki probabilitas untuk
menjawab butir v dengan benar sebesar 0,726 lebih besar dibandingkan
subjek Y (0,199).
Hal serupa berlaku pada butir. Butir yang sulit memiliki
probabilitas yang lebih kecil untuk dijawab dengan benar. Butir mudah
memiliki probabilitas besar untuk dijawab benar. Butir r memiliki
probabilitas dijawab benar oleh subjek W sebesar 0,149 lebih kecil jika
dibandingkan butir x (0,603). Model Rasch menggabungkan metode
untuk
mengurutkan
seseorang
berdasarkan
abilitasnya
serta
mengurutkan
butir
berdasarkan
tingkat
kesulitannya.
Prinsip
permodelan Rasch adalah level interval pengukurannya dapat
diturunkan ketika level suatu atribut meningkat bersamaan dengan
meningkatnya nilai dari atribut lainnya (Bond & Fox, 2015).
Rasch (dalam Rost, 2001) juga memperkenalkan objektivitas
spesifik yang menunjukkan sifat utama model pengukuran yaitu
12

i
ii
iii
iv
v

menjamin bahwa ukuran suatu jenis objek adalah independen dari objek
lain yang terlibat dalam prosedur pengukuran. Persyaratan ini mutlak
untuk pengukuran dalam bidang fisika. Sebagai contoh, berat paket
akan sama ketika diukur (ditimbang) di rumah maupun di kantor pos.
Hal ini tidak selamanya berlaku pada pengukuran psikologis. Tingkat
kecerdasan seseorang diukur dengan tes intelegensi mungkin akan
berbeda berdasarkan tesnya.
Rasch menuntut pengukuran yang objektivitas dan spesifik,
artinya pengukuran terhadap abilitas individu mestinya independen dan
tidak tergantung pada butir yang digunakan. Independensi semacam ini
bagaimanapun hanya dapat dicapai jika populasi butir telah
terdefinisikan dengan baik dan homogen dengan sifat yang diukur.
Sejatinya model Rasch merupakan permodelan khusus pada
pengukuran linear. Hal yang membuat Rasch menjadi spesial adalah
jika dibandingkan dengan berbagai model dalam IRT mengenai estimasi
parameter, model Rasch tidak tergantung pada sampel yang digunakan.
Parameter tingkat kesulitan butir i terbebas dari jenis testee, tidak
tergantung pada sampel atau subjek yang digunakan. Estimasi setiap
tingkat kesulitan parameter i adalah sama (Rasch, Kubinger, &
Yanagida, 2011).
Pengukuran Rasch menggunakan algoritma yang mampu
mengurutkan secara terstruktur antara responden dari abilitas tinggi ke
rendah, yang secara bersamaan juga mengurutkan soal dari yang
mudah sampai sulit, maka adanya ketidaktepatan atau inkonsistensi
jawaban dari responden (misfit) maupun pola yang di luar kebiasaan
(outlier) akan mudah dideteksi, demikian juga untuk pola respon yang
diterima satu soal tertentu. Pengukuran abilitas responden dan tingkat
kesukaran butir secara terstruktur juga membuat model Rasch dapat
melakukan prediksi bila terdapat data yang hilang. (Sumintono, 2014).
Berdasarkan uraian di atas, maka model Rasch memenuhi lima
syarat pengukuran objektif menurut Wright & Mok (2004) yaitu:
Menghasilkan pengukuran yang linear
Mengatasi data yang hilang
Memberikan estimasi yang tepat
Mampu mendeteksi missfit (ketidaktepatan model)
Parameter objek yang diukur dengan instrumen ukur terpisah
(independen)
1. Konsep pengukuran Rasch
Konsep pengukuran Rasch berdasarkan pada probabilitas. Jika
pada teori tes klasik data yang digunakan adalah skor total, maka pada
model Rasch data yang digunakan adalah skor peluang (P), yaitu rasio
antara jawaban benar dan jumlah soal yang diujikan. Angka peluang
tersebut kemudian diubah menjadi nilai odds ratio dengan memasukkan
persamaan berikut,
Odds Ratio = P / (1-P) (1)

13

Lalu dengan memasukkan fungsi logaritma, nilai logit dapat


ditentukan dalam persamaan berikut (Sumintono & Widhiarso, 2013),
Logit = Log (P / (1-P)) (2)
Sebagai contoh pada tabel 2.2. Setiap jawaban benar pada butir
(i) diberi nilai 1 dan jawaban salah pada butir (i) diberi nilai 0. Untuk
mengetahui abilitas individu (A) maka ditentukan terlebih dahulu nilai
probabilistiknya berdasarkan jumlah jawaban benar dibagi dengan
jumlah soal (4/5=0,8). Angka ini kemudian diubah menjadi nilai odds
ratio dengan memasukkan persamaan P/ (1-P), (0,8/1-0,8)=4. Lalu
setelah mendapatkan odds ratio, nilai logit dimasukkan dengan
menggunakan fungsi logaritma murni. Hasilnya adalah In (4) = 1,39.
Nilai inilah yang disebut logit atau W-score atau nilai measure. Nilai logit
tersebut telah terskalakan dan dapat digunakan untuk berbagai analisis.

Subjek

i1

i2

i3

i4

i5

Odd

wscore

0,8

1,39

0,6

1,5

0,41

0,6

1,5

0,41

0,6

1,5

0,41

0,2

0,25

-1,39

0,4

0,67

-0,41

Tabel 2.2 Transformasi abilitas individu kedalam skala logit (Sumintono & Widhiarso, 2013)

Formulasi pengukuran Rasch menggunakan matriks data yang


berisi jawaban dari responden n (dinotasikan sebagai n=1,2,...,N) dan
satu set butir i (butir i=1,2,...,L) yang mengukur latent trait yang sama
(Wright & Mok, 2004). Untuk data yang berbentuk dikotomi, permodelan
Rasch menggabungkan suatu algoritma yang menyatakan hasil
ekspektasi probabilistik dari butir i dan responden n yang secara
sistematis dinyatakan sebagai berikut. (Bond & Fox, 2007 dalam
Sumintono & Widhiarso, 2013).
e n i
Pni=(xni=1/n,i) = 1+ e n i

, (3)

Pni=(xni=1/n,i) adalah probabilitas dari responden n dalam butir i


untuk menghasilkan jawaban betul (xni=1) dengan kemampuan
responden n dan tingkat kesulitan butir i. Persamaan tersebut dapat
disederhanakan
dengan
memasukkan
fungsi
logaritma
dan
menjadikannya:
Log(Pni(xni=1/n,i))= n-i
(4)

14

Model dikotomi sederhana dari Rasch ini kemudian berkembang


menjadi model-model lain yang memiliki persamaan-persamaannya
sendiri. Berikut ini adalah diagram enam model Rasch yang biasa
ditemui menurut Wright & Mok (2004),

Apakah ada
percobaan
berulang untuk
item?
berapa jumlah
kategori?
apakah semua
item memiliki
ambang
kesulitan yang
sama?

Apakah ada
batas atas
untuk jumlah
percobaan?

Binomial
trials model
Poisson
counts model

Dichotomous
Rasch model
Rating Scale
Model
Partial Credit
Model

Apakah
terdapat
pemeringkatan
?

Rank Models

Diagram 2.1. Model-model dalam Rasch berdasarkan jumlah kategori respon jawaban

3. Reliabilitas pada Model Rasch


Perbandingan Prosedur Analisis dan Seleksi Butir antara CTT
dan Analisis Rasch berdasarkan Parameter Butir
Analisis butir soal merupakan salah satu langkah yang harus
dilakukan pengembang tes. Tujuan analisis butir soal adalah
menghasilkan butir-butir tes yang berkualitas dan memiliki ketepatan
yang optimal (Suminta, 2004). Terdapat dua jenis teori analisis butir
yang umum digunakan, yaitu analisis menggunakan teori tes klasik dan
analisis menggunakan teori tes modern (dalam hal ini Rasch model).
Perbedaan mendasar antara kedua teori ini terletak pada hasil
analisisnya. Teori tes klasik bersifat sample bound sementara teori tes
modern bersifat sample free.
Selain itu analisis butir soal dapat juga dilakukan dengan
menggunakan analisis faktor. Analisis faktor bertujuan untuk
mendefinisikan struktur dalam matriks data atau suatu teknik reduksi
15

data. Tujuan dari analisis faktor adalah untuk meringkas kandungan


informasi variabel dalam jumlah besar menjadi sejumlah faktor yang
lebih kecil. (Kuncoro, 2003 dalam Fitrina, 2016). Terdapat dua macam
prosedur analisis faktor, yaitu analisis faktor konfirmatori dan
ekploratori. Seleksi butir menggunakan analisis faktor tidak dibahas
disini karena pembatasan penelitian hanya berfokus pada teori tes
klasik dan model Rasch.
1. Seleksi Butir menggunakan Teori Tes Klasik
Prosedur seleksi butir soal menggunakan teori tes klasik
memperhatikan 3 karakteristik butir soal, yaitu (1) tingkat kesulitan
butir, (2) daya diskriminasi butir, dan (3) pola penyebaran jawaban
(Suminta, 2004). Tingkat kesulitan butir dan daya diskriminasi butir
dihitung secara terpisah. Namun dalam konteks evaluasi terhadap butir
soal, keduanya tidak berdiri sendiri melainkan dilihat sebagai kesatuan
komponen yang akan menentukan apakah suatu butir dianggap baik
atau tidak (Azwar, 2013). Sementara karakteristik ketiga, yaitu pola
penyebaran jawaban berpengaruh terhadap keberfungsian distraktor.
a. Taraf Kesukaran Butir
Tingkat kesukaran butir atau biasa disimbolkan dengan huruf p
merupakan rasio antara penjawab butir benar dengan banyaknya
penjawab butir. Secara teori, taraf kesukaran butir (p) merupakan
probabilitas empirik untuk menyelesaikan butir tertentu pada kelompok
subjek. Indeks kesukaran butir dapat dihitung melalui persamaan
berikut,
P = ni / N
ni merupakan banyaknya subjek menjawab butir dengan benar,
sementara N merupakan total subjek yang menjawab butir. Suatu butir
yang memiliki indeks kesukaran mendekati p=0, maka butir tersebut
memiliki tingkat kesulitan yang lebih tinggi dibanding yang lain.
Sementara butir yang memiliki indeks kesukaran mendekati p=1, maka
butir tersebut semakin mudah untuk dikerjakan. Butir soal yang ideal
adalah butir yang memiliki tingkat kesukaran berada di sekitar p=0,5.
Azwar (2013) secara spesifik tidak menyebutkan berapa besaran p yang
ideal. Nilai p<05 dibutuhkan untuk tes yang bersifat seleksi guna
memilih sebagian kecil saja diantara para pelamar. Sementara nilai p >
0,5 dapat digunakan pada tes-tes yang bersifat evaluasi formatif. Pada
penelitian ini indeks kesukaran butir yang digunakan berada pada
rentang 0,3 sampai dengan 0,7. Hal ini dimaksudkan agar terdapat
variasi tingkat kesukaran soal namun tidak terlalu ekstrem tinggi atau
rendah.
a. Daya Diskriminasi Butir
Daya diskriminasi butir adalah kemampuan butir dalam
membedakan antara subjek yang memiliki kemampuan tinggi dengan
subjek yang memiliki kemampuan rendah. Suatu butir soal dapat
dikatakan memiliki daya diskriminasi yang baik apabila butir tersebut
dapat dijawab dengan benar oleh seluruh atau sebagian besar subjek
dari kelompok kemampuan tinggi (pintar) dan tidak dapat dijawab
16

dengan benar oleh sebagian atau seluruh subjek dari kelompok


kemampuan rendah (tidak pintar). Semakin besar perbedaan antara
proporsi penjawab benar dari kedua kelompok kemampuan (tinggirendah), maka semakin besar daya diskriminasi butir tersebut. Jika
proporsi penjawab dari kedua kelompok setara, maka butir tersebut
tidak mampu membedakan subjek dengan kemampuan tinggi dan
subjek dengan kemampuan rendah. Sebaliknya, apabila butir soal dapat
dijawab dengan benar oleh mayoritas kelompok dengan kemampuan
rendah dan dijawab salah oleh mayoritas kelompok dengan kemampuan
tinggi, maka butir tersebut menyesatkan karena daya diskriminasinya
terbalik (Azwar, 2013). Soal tersebut bisa jadi salah kunci atau
pertanyaannya sulit dipahami.
Daya diskriminasi merupakan perbedaan proporsi penjawab benar
kelompok kemampuan tinggi (PT) dan penjawab benar kelompok
kemampuan rendah (PR). Formulasi penghitungan daya diskriminasi
butir dapat dituliskan sebagai berikut (Azwar, 2013),
d = PT - PR
Sementara itu nilai proporsi (PT) merupakan rasio antara
banyaknya butir yang dijawab benar di kelompok tinggi (n iT) dengan
banyaknya penjawab dari kelompok tinggi (N T). Begitu pula proporsi (PR)
adalah rasio antara banyaknya butir yang dijawab benar di kelompok
rendah (niR) dengan banyaknya penjawab dari kelompok rendah (NR).
d = (niT/NT) (niR/NR)
Butir dianggap mampu membedakan kemampuan subjek dengan
optimal apabila koefisien daya diskriminasinya diatas 0,3 atau diatas
0,25. Bahkan beberapa ahli mengatakan bahwa koefisien daya
diskriminasi diatas 0,2 sudah dianggap memuaskan. (Crocker & Algina,
1986 dalam Azwar, 2013). Daya diskriminasi butir biasa juga disebut
dengan item corrected-item total correlation atau korelasi poin biserial
(rpbis). Pada penelitian ini indeks daya diskriminasi yang digunakan
adalah berada diatas 0,3.
b. Efektivitas Distraktor
Efektifitas distraktor digunakan untuk melihat apakah pilihanpilihan distraktor (bukan kunci jawaban) berfungsi sebagaimana
mestinya, yaitu dipilih oleh sebagian besar subjek dari kelompok rendah
dan hanya sedikit dipilih oleh kelompok dengan abilitas tinggi.
Distraktor dapat dikatakan efektif apabila (a) dipilih oleh mayoritas atau
seluruh subjek dari kelompok abilitas rendah, dan (b) jawaban yang
dipilih oleh kelompok tersebut menyebar secara merata pada masingmasing distraktor (Azwar, 2013).
Seleksi Butir menggunakan Rasch Model
Analisis butir soal menggunakan Rasch mempertimbangkan
kriteria butir soal yang fit (model fit) dan fungsi informasi butir. Butir
soal yang cocok (fit) berarti soal tersebut berperilaku secara konsisten
dengan apa yang diharapkan oleh model (Benyamin, 1998).
17

a. Ketepatan Butir dengan Model


Hal yang biasa digunakan dalam menentukan apakah butir fit atau
tidak dengan model didasarkan pada 2 aspek, yaitu infit (informationweighted fit) dan outfit (outlier-sensitive fit). Melalui infit dan outfit
dapat diketahui mean square tidak terstandar (MNSQ) dan bentuk
terstandar (ZSTD) (Bond & Fox, 2015). Soal-soal yang patut direduksi
dalam permodelan Rasch adalah soal yang memiliki infit dan outfit yang
ekstrem. Infit dan outfit adalah ukuran kesensitifan pola respons
terhadap butir dengan tingkat kesulitan tertentu pada responden atau
sebaliknya. Sebagai contoh subjek mampu menjawab soal sulit
sementara kemampuannya rendah atau subjek dengan kemampuan
tinggi salah menjawab pada soal mudah (Sumintono & Widhiarso,
2013).
Beberapa indeks fit disediakan dalam analisis Rasch adalah
Person Infit ZSTD, Person Outfit ZSTD, Person Infit MNSQ, Person Outfit
MNSQ, Item Infit ZSTD, Item Outfit ZSTD, Item Infit MNSQ, dan Item
Outfit MNSQ (Boone, Staver, & Yale, 2014). MNSQ (mean-square)
merupakan ukuran keacakan distorsi dalam sistem pengukuran. Secara
statistik mean square merupakan chi-kuadrat dibagi derajat kebebasan
(Sumintono & Widhiarso, 2013). Nilai MNSQ selalu positif dan bergerak
dari nol (0) hingga tak hingga (). Dalam hal ini nilai MNSQ digunakan
untuk memantau kesesuaian data dengan model. Nilai mean square
yang diharapkan adalah 1 (satu). Nilai mean-square pada infit atau
outfit yang lebih besar daripada satu, katakanlah 1,3 mengindikasikan
bahwa data yang diobservasi memiliki 30% variasi lebih banyak
daripada yang diprediksi oleh Rasch. Nilai infit atau outfit kurang dari 1,
katakanlah 0,78 (1-0,22=0,78) mengindikasikan bahwa data yang
diobservasi memiliki 22% variasi lebih sedikit daripada yang diprediksi
oleh Rasch model (Bond & Fox, 2015).
Nilai MNSQ yang diharapkan adalah antara 0,5 - 1,5. Nilai MNSQ
terlalu kecil mengindikasikan butir soal terlalu mudah ditebak (data
overfit the model) sementara nilai MNSQ yang terlalu besar
mengindikasikan butir tidak mudah diprediksi (data underfit the model)
(Sumintono & Widhiarso, 2013). Beberapa penelitian, seperti (Bond &
Fox, 2015) dan (Alagumalai, Curtis, & Hungi, 2005) menyarankan nilai
MNSQ ideal berada pada rentang 0,7 1,3. Sementara ZSTD merupakan
nilai z terstandar dari mean-square yang menunjukkan seberapa jauh
penyimpangan data terhadap model. (Sumintono & Widhiarso, 2013).
Nilai z yang diharapkan adalah mendekati 0 (nol).
ZSTD infit adalah Standardized Weighted Mean Square dan ZSTD
outfit adalah Standardized Unweighted Mean Square. Ketika data yang
diobservasi sesuai dengan model, nilai z atau t memiliki rerata
mendekati 0 dan standar deviasinya 1. Nilai ZSTD yang terlalu besar (z
> +2) atau terlalu rendah (z < -2) menunjukkan bahwa butir tidak
kompatibel dengan model yang diharapkan (p < 0,05). Nilai z terstandar
(ZSTD) pada infit dan outfit dapat berupa positif atau negatif. Nilai ZSTD
negatif menunjukkan sedikitnya variasi dibandingkan pada model.
Respons jawaban mendekati model Guttman-style response string yaitu
semua subjek dengan kemampuan tinggi mampu menjawab dengan
18

benar dan semua subjek dengan kemampuan rendah menjawab salah


pada butir tersebut. Sementara nilai positif menunjukkan bahwa variasi
jawaban lebih banyak dibandingkan pada model. Respons jawaban tidak
teratur dan tidak dapat diprediksi (Bond & Fox, 2015). Tabel 2.3
menunjukkan deskripsi level (tinggi-rendah) misfit berdasarkan ZSTD,
MNSQ, pola jawaban, kesesuaian dengan model, fit statistic, pengaruh,
dan ekspektasi.

Tabel 2.3. Deskripsi tinggi-rendah level misfit (Bond & Fox, 2015)

Misfit terlalu
rendah

FIT

Misfit terlalu tinggi

-2 < Z < +2

Z > +2

ZSTD

Z < -2

MNSQ

MNSQ < 0,7

Pola Jawaban

1111100000

1110101000

Variasi terlalu

Variasi sesuai

sedikit

dengan model

Overfit

Goodfit

Underfit

Menurunkan

Kondisi yang baik

Kurang produktif untuk

kualitas

untuk

pengukuran namun tidak

pengukuran

pengukuran

menurunkan kualitas

Guttman

Rasch

Tidak dapat diprediksi

Kesesuaian
dengan
model
Fit
Pengaruh
Ekspektasi

0,7 < MNSQ <


1,3

MNSQ > 1,3


0100100010
Variasi terlalu banyak

b. Fungsi Informasi Butir


Setiap pengukuran menghasilkan informasi mengenai hasil
pengukuran. Informasi pengukuran yang diinginkan bukan berdasar
pada individu yang diukur, melainkan informasi pada fokus pengukuran.
Informasi pengukuran ini berdasar pada hubungan antara tes dengan
individu (Sumintono & Widhiarso, 2013). Sebagai contoh subjek dengan
abilitas rendah dihadapkan pada soal dengan tingkat kesukaran butir
yang tinggi akan dapat dipastikan memiliki kemungkinan yang kecil
untuk dapat menjawab soal dengan benar. Begitu pula dengan subjek
yang memiliki abilitas tinggi dihadapkan dengan soal dengan tingkat
kesukaran yang rendah, maka kemungkinan besar subjek akan
menjawab soal tersebut dengan benar. Kedua kasus diatas tidak dapat
memberikan informasi apapun karena sangat sedikit variasi
kemungkinan yang terjadi. Berbeda halnya jika subjek yang memiliki
kemampuan rendah dihadapkan soal dengan tingkat kesukaran yang
rendah dan subjek dengan kemampuan yang tinggi dihadapkan dengan
butir dengan tingkat kesukaran yang tinggi. Hasilnya, variasi
19

kemungkinan yang terjadi bisa lebih beragam. Hal tersebut dikarenakan


akan muncul kemungkinan menjawab benar ataupun salah. Semakin
banyak variasi yang terjadi semakin banyak informasi yang akan
didapatkan.

Gambar 2.2 Fungsi informasi butir

Gambar di atas menunjukkan fungsi informasi butir. Sumbu X


menunjukkan level abilitas individu dihadapkan pada tingkat kesukaran
butir. Sementara sumbu Y merupakan besarnya fungsi informasi. Pada
nilai measure (abilitas) rendah, informasi yang didapatkan dari
pengukuran cukup rendah. Pada level measure (abilitas) sedang
informasi yang didapatkan sangat tinggi. Hal ini menunjukkan bahwa
tes tersebut menghasilkan informasi yang optimal ketika diberikan
kepada subjek dengan abilitas sedang.
c. Taraf Kesukaran Butir
Taraf kesukaran butir pada model Rasch pada dasarnya sama
dengan taraf kesukaran teori tes klasik, yaitu rasio antara jumlah
jawaban benar dengan jumlah soal yang diujikan. Hanya saja nilai
peluang itu kemudian diskalakan dalam bentuk logit. Proses
pengestimasian parameter tingkat kesukaran soal disebut kalibrasi,
yaitu menentukan posisi soal dalam suatu garis kontinum berdasarkan
nilai logit (Moestadi, 1999).
d. Korelasi Skor Butir dan Skor Rasch (Point Measure
Correlation)
Korelasi skor butir dan skor Rasch (rpm) dalam beberapa hal
serupa dengan daya diskriminasi butir pada CTT yaitu mengacu pada
hubungan antara kesukaran setiap butir soal dan kesukaran tes secara
keseluruhan. Nilai rpm 1,0 mengindikasikan bahwa semua peserta tes
dengan abilitas rendah menjawab butir dengan salah dan semua
peserta tes dengan abilitas tinggi menjawab butir dengan benar.
Sementara nilai korelasi 0 mengindikasikan bahwa tidak terdapat
hubungan antara respon tertentu pada butir dan isi tes secara
keseluruhan. Sementara nilai rpm negatif mengindikasikan butir soal
yang cacat karena peserta tes dengan abilitas rendah mampu
20

menjawab butir dengan benar dan peserta tes dengan abilitas tinggi
justru menjawab salah. Butir soal dengan korelasi negatif lebih
bermasalah jika dibandingkan dengan butir yang memiliki pointmeasure correlation 0 karena terindentifikasi cacat dalam beberapa
aspek fundamental. Soal-soal dengan nilai korelasi negatif harus
diperiksa untuk melihat apakah kunci jawaban salah, perlu direvisi, atau
dihapus dari tes (Smiley, 2015).
Bond & Fox (2015) menyatakan bahwa nilai korelasi skor butir dan
skor Rasch yang ideal adalah memenuhi dua syarat, yaitu pertama nilai
korelasi haruslah positif dan kedua nilai korelasi semestinya tidak
mendekati angka nol. Komputasi rpm pada dasarnya sama dengan
korelasi point biserial (rpbis) pada CTT, kecuali pada Rasch
menggunakan nilai measure sementara pada CTT menggunakan skor
total. Interpretasi bebas mengenai rentang nilai rpm menurut
Alagumalai, Curtis, & Hungi, (2005) adalah sangat bagus (>0.40), bagus
(<0.39, >0.30), cukup (<0.29, >0.20), tidak mampu mendiskriminasi
(<0.19, >0.00), dan membutuhkan pemeriksaan terhadap butir (<0.00).
Daya diskriminasi yang optimal adalah mendekati 0,5. Menghapus butirbutir dengan daya diskriminasi rendah dapat meningkatkan reliabilitas
tes (Linacre, 2016).

3. Perbandingan Hasil analisis dengan menggunakan CTT dan


Rasch
Sejumlah penelitian yang membandingkan seleksi butir dengan
menggunakan teori tes klasik dan model Rasch telah dilakukan.
Penelitian Erhart et.al (2009) membandingkan analisis reduksi butir
skala kualitas kehidupan anak-anak dan remaja (Quality of Life scale for
children and adolescents) menggunakan item fit pada Rasch dan Alpha
Cronbach yang didasarkan pada teori tes klasik. Penelitian tersebut
menggunakan subjek sebanyak 3019 orang dan skala yang digunakan
memiliki 19 butir. Hasil penelitian menunjukkan bahwa dengan
menggunakan pendekatan teori tes klasik butir soal yang terseleksi
berjumlah 13 butir sementara menggunakan model Rasch butir yang
terseleksi sejumlah 11 butir. Pada penelitian tersebut hasil analisis
dengan menggunakan teori tes klasik lebih sensitif terhadap perbedaan
sosial demografi sementara menggunakan pendekatan model Rasch
menghasilkan model yang fit pada subjek dengan perbedaan strata
sosial dan perbedaan karakteristik fungsional dan klinis. Dengan
demikian, model Rasch sangat sesuai jika digunakan pada studi di
bidang klinis dan epidemiologi.
Penelitian lain dilakukan oleh Prieto, et.al (2003) yang juga
membandingkan analisis teori tes klasik dan model Rasch untuk
mereduksi butir soal skala kualitas hidup (quality of life). Penelitian
menggunakan subjek sebanyak 9419 dan 38 butir soal. Hasil reduksi
butir soal dengan menggunakan teori tes klasik menghasilkan 20 butir
sementara menggunakan model Rasch menghasilkan 22 butir. Terdapat
dua kelemahan teori tes klasik ketika digunakan untuk mereduksi soal,
yaitu terbatasnya kemampuan untuk mengurutkan butir pada suatu
21

kontinum dan terbatasnya data yang bersifat rating-scale karena


kebanyakan data pada teori tes klasik bersifat ordinal. Selain itu dengan
menggunakan teori tes klasik hasil penelitian sangat tergantung pada
kuantitas. Sementara dengan menggunakan model Rasch keterbatasan
tersebut dapat terpenuhi karena model Rasch menyediakan metode
pengurutan yang hirarkis dan model yang bersifat unidimensional.
Erguven (2014) melakukan perbandingan serupa untuk mengevaluasi
tes olimpiade (School Olympiad Examination). Hasilnya menunjukkan
bahwa kedua model (CTT dan Rasch) memberikan informasi yang sama
pada subjek dengan jenis kelamin laki-laki maupun perempuan. Kedua
tes tidak terpengaruh pada jenis gender subjeknya, namun model Rasch
memberikan hasil yang lebih baik dan lebih informatif dalam mengukur
kemampuan. Keterbatasan pendekatan dengan teori tes klasik dan
kelebihan pendekatan model Rasch juga diungkap dalam penelitian Fan
(1998), MacDonald & Paunonen (2002), Probst (2003), Champlain
(2010), dan Sussman, et.al (2012)
Hipotesis
Berdasarkan teori-teori yang telah diungkapkan dimuka, maka
hipotesis penelitian ini adalah:
a. Jumlah butir yang teridentifikasi memiliki properti psikometris yang
memuaskan antara pendekatan teori skor murni klasik dengan
pendekatan model Rasch berbeda.
b. Properti pada level tes menghasilkan skor reliabilitas berbeda pada
pendekatan teori skor murni klasik dan pendekatan model Rasch

22

BAB III
METODE PENELITIAN
A. Variabel Penelitian
Variabel dalam penelitian ini adalah
Variabel dependen : Komposisi butir pada alat ukur setelah analisis
butir
Variabel independen : Pendekatan dalam analisis
a. Pendekatan teori tes klasik
b. Pendekatan Model Rasch
B. Definisi Operasional
Komposisi butir hasil seleksi merupakan jumlah butir akhir setelah
semua butir dianalisis dan dilakukan eliminasi. Butir-butir yang lolos
dalam seleksi tersebut memiliki properti psikometris yang memuaskan
berdasarkan teori atau pendekatan analisis yang dipakai. Dalam
penelitian ini, properti psikometris yang memuaskan didasarkan pada
parameter butir masing-masing pendekatan. Pada teori skor murni
klasik butir yang memuaskan adalah yang memiliki koefisien poin
biserial diatas 0,3 (rpbis>0.3), dan memiliki tingkat kesulitan 0,3 s.d 0,7.
Sementara pada pendekatan model Rasch, butir yang memuaskan
adalah butir yang memiliki nilai ketepatan yang optimal (MNSQ 0,5 s.d
1,5 dan ZSTD -2 s.d +2) serta memiliki nilai point-measure correlation
diatas 0,3.
Pendekatan dalam analisis merupakan dua buah pendekatan teori
tes dalam melakukan analisis terhadap butir soal. Pendekatan pertama
adalah menggunakan teori tes klasik. Produk yang dihasilkan dari
pendekatan ini adalah parameter butir yang meliputi daya beda butir
dan taraf kesukaran yang dilaporkan oleh software ITEMAN-RStudio.
Sementara
pendekatan
kedua
menggunakan
model
Rasch
menghasilkan parameter butir berupa indeks ketepatan butir dengan
model dan nilai point-measure correlation yang dilaporkan oleh software
Winsteps

B. Partisipan Penelitian
Populasi dalam penelitian ini adalah warga negara Indonesia yang
berusia 3 hingga 20 tahun. Sampel dari penelitian ini adalah sebanyak
1545 orang. Pengambilan sampel dilakukan dengan mempertimbangkan
usia individu di lokasi DIY dan Jawa Tengah dan mempertimbangkan
keterwakilan beberapa suku di Indonesia.
B. Instrumen
23

Instrumen yang digunakan dalam penelitian ini adalah tes


penalaran fluida (Gf) yang merupakan salah satu tes dalam AJT
cognitive assesment yang dikembangkan oleh Fakultas Psikologi
Universitas Gadjah Mada. Gf merupakan abilitas yang disusun
berdasarkan model CHC (Carroll-Horn-Cattell). Menurut teori CHC,
penalaran fluida merefleksikan operasi mental yang dilibatkan ketika
individu dihadapkan dengan tugas baru yang tidak familiar yang dapat
dilakukan secara otomatis. Termasuk di dalamnya proses mental dalam
membentuk dan mengenali konsep, menarik kesimpulan, memahami
suatu implikasi, pemecahan masalah, dan mengeksplorasi konsep
(Schneider & McGrew, 2012).
Tes ini menggunakan model dikotomi (benar=1, salah=0). Tes
mengukur 3 aspek penalaran fluida, yaitu penalaran induksi (Induction),
penalaran umum sekuensial (General Sequential Reasoning), dan
penalaran kuantitatif (Quantitative Reasoning). Tes ini memiliki 4 subtes
yaitu subtes induksi dengan kode tes Gf11-13, subtes penalaran umum
sekuensial A dengan kode tes Gf14, penalaran umum sekuensial B
dengan kode tes Gf15, dan penalaran kuantitatif dengan kode tes Gf16.
Tes telah diujicobakan pada sampel sejumlah 1885 orang dengan
rentang usia antara 3 hingga 20 tahun. Reliabilitas tes berdasarkan teori
klasik dihitung dengan Alpha Cronbach adalah sebesar 0,74 pada subtes
Gf11-13; 0,9 pada subtes Gf14; 0,86 pada subtes Gf15; dan 0,88 pada
subtes Gf16. Sementara menggunakan model Rasch menghasilkan
koefisien reliabilitas orang dan reliabilitas butir. Reliabititas orang pada
subtes Gf11-13 adalah 0,75; pada subtes Gf 14 adalah 0,87; pada
subtes Gf 15 adalah 0,88; dan pada subtes Gf 16 adalah 0,89.
Reliabilitas butir pada subtes Gf11-13 adalah 0,99; pada subtes Gf 14
adalah 0,96; pada subtes Gf 15 adalah 0,99; dan pada subtes Gf 16
adalah 1,00. Hasil selengkapnya dapat dilihat pada tabel 3.1. Secara
keseluruhan semua subtes yang digunakan pada penelitian ini dapat
digunakan karena memiliki nilai reliabilitas tinggi dan diterima secara
statistik (r > 0,8).
Tabel 3.1
Subtes
Induksi
Penalaran
umum
sekuensial A
Penalaran
umum
sekuensial B
Penalaran kuantitatif

Reliabilitas Rasch
Reliabilitas Reliabilita
Orang
s Butir
0,75
0,99

Kode
Tes

Reliabilitas Klasik
(Alpha Cronbach)

Gf1113
Gf 14

0,74
0,9

0,87

0,96

Gf 15

0,86

0,88

0,99

Gf 16

0,88

0,89

1,00

24

C. Prosedur Analisis
Analisis data dilakukan secara terpisah berdasarkan teori tes yang
digunakan. Analisis data dengan teori tes klasik (CTT) menggunakan
program Iteman - RStudio yang menghasilkan tingkat kesukaran butir,
daya beda butir, dan efektivitas distraktor. Reduksi butir berdasarkan
teori tes klasik menggunakan daya beda butir (r-pbis) dan taraf
kesukaran butir (d). Koefisien daya beda r-pbis 0,3 dianggap
memuaskan. Butir-butir yang memiliki koefisien daya beda berada pada
rentang di bawah 0,3 adalah butir yang terreduksi. Butir dengan taraf
kesukaran berada pada rentang p=0,3 s.d 0,7 adalah butir dengan taraf
kesukaran ideal. Butir dengan nilai p di luar angka tersebut adalah butir
yang tereduksi.
Analisis butir soal dengan model Rasch menggunakan program
Winsteps yang menghasilkan informasi kesesuaian butir dengan model
dalam bentuk Infit dan Outfit serta korelasi skor butir dengan skor Rasch
(Point Measure Correlation). Setiap Infit dan outfit menunjukkan nilai
mean square (MNSQ) dan z-score (ZSTD). Nilai MNSQ yang ditoleransi
berada pada rentang 0,5 s.d 1,5 sementara nilai ZSTD berada pada
rentang -2 s.d +2. Butir yang memiliki nilai infit dan outfit yang berada
diluar batas toleransi tersebut adalah butir yang misfit dan dilakukan
reduksi. Korelasi Skor Butir dan Skor Rasch (Point Measure Correlation)
0,3 dianggap memuaskan. Butir-butir yang memiliki koefisien berada
pada rentang di bawah 0,3 adalah butir yang terreduksi.
Prosedur analisis parameter butir berbasis teori skor murni klasik
dan Rasch pada penelitian ini dapat dilihat pada tabel berikut
Tabel 3.2
CTT
Daya diskriminasi

0,3

0,3

MNSQ : 0,5 s.d 1,5


ZSTD : -2 s.d +2

Indeks fit
Taraf kesukaran butir

Rasch

0,3 < p < 0,7

25

Pendekatan

Teori Tes Klasik


d 0,3
p = 0,3 s.d
0,7
Parameter
Butir
Jumlah butir berkualitas

Model R

MNSQ : 0,
ZSTD : -2

Jumlah butir berkualitas


Hasil

H0 : Seleksi butir soal dengan menggunakan teori tes klasik


(berdasarkan daya diskriminasi butir dan taraf kesukaran butir) dan
Model Rasch (berdasarkan goodnes of fit dan taraf kesukaran butir)
menghasilkan komposisi butir terseleksi yang sama banyak.
Ha : Seleksi butir soal dengan menggunakan teori tes klasik
(berdasarkan daya diskriminasi butir dan taraf kesukaran butir) dan
Model Rasch (berdasarkan goodnes of fit dan taraf kesukaran butir)
menghasilkan jumlah butir terseleksi yang berbeda.

26

References
Alagumalai, S., Curtis, D. D., & Hungi, N. (2005). Applied Rasch
Measurement:A Book of Exemplars. Dordrecht: Springer.
Azwar, S. (1993). Berkenalan dengan Teori Respons Aitem. Buletin
Psikologi No 1, 9-16.
Azwar, S. (2013). Penyusunan Skala Psikologi Edisi 2. Yogyakarta:
Pustaka Pelajar.
Azwar, S. (2013). Tes Prestasi Fungsi dan Pengembangan Pengukuran
Prestasi Belajar Edisi II. Yogyakarta: Pustaka Pelajar.
Benyamin, J. C. (1998). Analisis Kualitas Soal Ebtanas PPKn SMU Tahun
Pelajaran 1996/1997 dengan Pendekatan Model Rasch di provinsi
Nusa Tenggara Timur. Yogyakarta: Universitas Gadjah Mada.
Bond, T. G., & Fox, C. M. (2015). Applying the Rasch Model Fundamental
Measurement in the Human Sciences, Third Edition. New York:
Routledge.
Boone, W. J., Staver, R. J., & Yale, S. M. (2014). Rasch Analysis in the
Human Sciences. London: Springer.
Cavanagh, R. F., & Waugh, R. F. (2011). Applications of Rasch
Measurement in Learning Environments Research. Rotterdam:
Sense Publishers.
Champlain, A. F. (2010). A Primer on Classical Test Theory and Item
Response Theory for Assessments in Medical Education. Medical
Education, 109-117.
Effendi, S. (1998). Penyetaraan tingkat kesukaran butir soal beberapa
perangkat tes mata pelajaran kimia SMU dengan pendekatan teori
klasik dan teori respons butir di Kotamadia Banjarmasin.
Yogyakarta: Universitas Gadjah Mada.
Embretson, S. E., & Reise, S. P. (2000). Item Response Theory for
Psychologists Multivariate Applications Book Series. New Jersey:
Lawrence Erlbaum Associates, Inc.
Fan, X. (1998). Item response theory and classical test theory: an
empirical comparison of their item/person statistics. Educational
and Psychological Measurement, 357-381.
Fischer, G. H., & Molenaar, I. W. (1995). Rasch Models: Foundations,
Recent Developments, and Applications. New York: SpringerVerlag.
Fitrina, D. (2016). Analisis Faktor-faktor yang dipertimbangkan Pada
Saat Memilih Program Incentive Tour Studi Kasus Pada Learning
Tour PPM Manajemen. Yogyakarta: Universitas Gadjah Mada.
Hadi, S. (1991). Statistik. Yogyakarta: Andi Offset.
Linacre, J. M. (2016). A User's Guide to WINSTEPS MINISTEP, RaschModel Computer Programs.

27

MacDonald, P., & Paunonen, S. V. (2002). A Monte Carlo Comparison Of


Item And Person Statistics Based On Item Response Theory Versus
Classical Test Theory. Educational and Psychological
Measurement, Vol. 62 No. 6, 921-943.
Meladi. (1999). Penyetaraan dengan teori tes klasik dan teori respon
butir model rasch. Yogyakarta: Universitas Gadjah Mada.
Moestadi, M. J. (1999). Analisis Karakteristik Butir Soal dan Penyetaraan
Perangkat Tes Prestasi Belajar PPKn SMU Berdasarkan Teori Tes
Klasik dan Model Rasch. Yogyakarta: Universitas Gadjah Mada.
Neumann, I., Neumann, K., & Nehm, R. (2010). Evaluating Instrument
Quality in Science Education: Raschbased analyses of a Nature of
Science test. International Journal of Science Education, 13741405.
Prieto, L., Alonso, J., & Lamarca, R. (2003). Classical test theory versus
Rasch analysis for quality of life questionnaire reduction. Health
and Quality of Life Outcomes.
Probst, T. M. (2003). Development and validation of the Job Security
Index and the Job Security Satisfaction scale: A classical test
theory and IRT approach. Journal of Occupational and
Organizational Psychology , 451-467.
Rasch, D., Kubinger, K. D., & Yanagida, T. (2011). Using R and SPSS.
Chichester: John Wiley & Sons, Ltd.
Ridho, A. (t.thn.). Karakteriatik Psikometrik Tes Berdasarkan Pendekatan
Teori Tes Klasik dan Teori Respon Aitem. 1-20.
Rost, J. (2001). The Growing Family of Rasch Models. Dalam A.
Boomsma, M. A. Duijn, & T. A. Snijders, Essays on Item Response
Theory (hal. 25-37). New York: Springer.
Safari. (2016).
Schneider, W. J., & McGrew, K. S. (2012). The CattellHornCarroll model
of intelligence. In D. Flanagan & P. Harrison (Eds.), Contemporary
intellectual assessment- Theories, tests, and issues. New York:
Guilford Press.
Sodik, M. A. (2012). Analisis Karakter Aitem Tes Ujian Sekolah/Madrasah
dengan Teori Tes Klasik dan Teori Respon Aitem. Yogyakarta:
Universitas Gadjah Mada.
Suminta, R. R. (2004). Karakteristik Butir Soal Tes Seleksi Masuk SLTPN 8
di Kotamadya Jogjakarta Tahun Ajaran 2001/2002 Berdasarkan
Teori Respons Butir Model Logistik Tiga Parameter. Yogyakarta:
Universitas Gadjah Mada.
Sumintono, B. (2014). Model Rasch untuk Penelitian Sosial Kuantitatif.
Kuliah Umum Jurusan Statistika, Institut Teknologi Sepuluh
Nopember (hal. 4). Surabaya: -.
Sumintono, B., & Widhiarso, W. (2013). Aplikasi Model Rasch untuk
Penelitian Ilmu-ilmu Sosial. Cimahi: Trim Komunikata Publishing
House.
28

Sussman, J., Beaujean, A. A., Worrell, F. C., & Watson, S. (2012). An


Analysis of Cross Racial Identity Scale Scores Using Classical Test
Theory and Rasch Item Response Models. Measurement and
Evaluation in Counseling and Development 46(2), 136-153.
Suwarto. (2011). Teori Tes Klasik dan Teori Tes Modern. Widyatama No.1
volume 20, 69-78.
Wilson, M. (2005). Constructing Measures: An Item Response Modeling
Approach. New Jersey: Lawrence Erlbaum Associates.
Wright, B. D., & Mok, M. M. (2004). An Overview of the Family of Rasch
Measurement Models. Dalam Introduction to Rasch Measurement:
Theory, Models, and Applications (hal. 1-24). Minnesota: Jam
Press.
Ziniel, W. (2011). Third Party Product Reviews and Consumer Behaviour:
A Dichotomous Measuring via Rasch, Paired Comparison and
Graphical Chain Models. Vienna: Springer Gabler.

29

Anda mungkin juga menyukai