Contents
BAB 1......................................................................................................2
A. LATAR BELAKANG.........................................................................2
B. TUJUAN PENELITIAN.....................................................................8
C. MANFAAT PENELITIAN..................................................................8
1. Manfaat teoritis.........................................................................8
2. Manfaat praktis.........................................................................9
BAB 2....................................................................................................10
A. Teori Tes Klasik...........................................................................10
1. Properti Tes Klasik..................................................................11
B. Rasch Model................................................................................13
1. Konsep pengukuran Rasch.....................................................17
C. Prosedur Analisis Butir.............................................................19
1. Seleksi Butir menggunakan Teori Tes Klasik......................20
2. Seleksi Butir menggunakan Rasch Model...........................22
D. Hipotesis......................................................................................27
BAB III...................................................................................................28
A. Variabel Penelitian......................................................................28
B. Instrumen.....................................................................................28
C. Cara Analisis................................................................................29
BAB 1
PENDAHULUAN
A. LATAR BELAKANG
Dewasa ini penggunaan tes psikologi memiliki dampak terhadap
berbagai aspek kehidupan manusia. Setiap jenjang perkembangan
manusia membutuhkan peran dari tes psikologi baik untuk keperluan
asesmen, seleksi, hingga rekrutmen. Seringkali hasil dari tes psikologi
tersebut dapat mempengaruhi nasib hidup seseorang sehingga tes
harus dibuat sebaik mungkin baik dalam penyusunan, penyajian,
maupun prosedur analisis untuk mengevaluasinya. Ada beberapa
prosedur dalam menganalisis atau mengevaluasi kualitas tes. Dua
pendekatan yang paling populer adalah tes klasik dan Rasch yang
nantinya akan diulas sedikit di bagian lain bab ini. Berdasarkan teori dan
prosedur pengukuran, kedua pendekatan memiliki landasan yang
berbeda. Oleh karena didasari pada landasan berbeda maka
dimungkinkan hasil analisis dari kedua pendekatan tersebut berbeda.
Salah satu keluaran yang berbeda adalah parameter butir, misalnya
daya beda dan tingkat kesukaran butir.
Pendekatan teori tes klasik menghasilkan parameter butir yang
meliputi tiga hal, yaitu taraf kesukaran butir, daya beda butir, dan
efektivitas distraktor. Taraf kesukaran butir adalah peluang menjawab
benar suatu butir pada tingkat kemampuan tertentu yang dinyatakan
dalam bentuk indeks. Semakin tinggi nilai indeks kesukaran butir
menunjukkan bahwa butir semakin mudah. Daya beda butir adalah
kemampuan suatu butir dalam membedakan subjek dengan
kemampuan tinggi dan rendah. Butir yang baik adalah butir yang
mampu membedakan subjek dengan kemampuan tinggi atau rendah
secara akurat. Efektivitas distraktor adalah seberapa besar pilihanpilihan bukan jawaban berfungsi secara efektif dipilih oleh subjek
dengan kemampuan rendah dan tidak dipilih oleh mayoritas subjek
dengan kemampuan tinggi.
Pengukuran dengan pendekatan model Rasch menghasilkan
parameter butir yang meliputi empat hal, yaitu ketepatan butir dengan
model, fungsi informasi butir, taraf kesukaran butir, dan korelasi skor
butir dan skor Rasch (point measure correlation). Ketepatan butir
dengan model mengacu pada kesensitifan pola respon jawaban. Hal
yang biasa digunakan dalam menentukan apakah butir fit atau tidak
dengan model didasarkan pada 2 aspek, yaitu infit (informationweighted fit) dan outfit (outlier-sensitive fit). Fungsi informasi butir
menunjukkan sejauh mana butir mampu memberikan informasi
pengukuran, sementara taraf kesukaran butir dan point measure
correlation Rasch pada dasarnya sama dengan asumsi pada teori tes
klasik, hanya saja skor yang digunakan dalam pendekatan model Rasch
menggunakan nilai measure sementara pada teori tes klasik
menggunakan skor total.
2
BAB 2
TINJAUAN PUSTAKA
Teori Tes Klasik
Salah satu pendekatan yang paling sering digunakan dalam
pengukuran psikologi adalah pendekatan teori tes klasik atau teori skor
murni klasik atau classical test theory (CTT). Teori ini dikembangkan
oleh Charles Spearman tahun 1904 dan masih terus digunakan hingga
saat ini. Spearman mengembangkan CTT dengan menggabungkan
konsep eror dan korelasi (Salkind, 2007). CTT merupakan teori
psikometri yang populer serta banyak digunakan pada berbagai disiplin
ilmu (psikologi, pendidikan, dan ilmu sosial lainnya). Hayat (dalam
Sodik, 2012) menyatakan bahwa teori tes klasik populer digunakan
karena memiliki banyak kelebihan yaitu murah, dapat dilaksanakan
dengan cepat, sederhana, familier, dan dapat menggunakan data dari
beberapa peserta atau dengan sampel kecil.
Performansi individu yang diungkap oleh suatu skala pengukuran
dinyatakan dalam bentuk angka yang disebut skor. Skor tersebut
merepresentasikan suatu atribut laten subjek pengukuran. Skor
kuantitatif yang diperoleh secara langsung merupakan skor tampak atau
biasa disimbolkan dengan X. Menurut Spearman setiap tes memiliki eror
(e) yang menyertai setiap hasil pengukuran dalam mengukur sifat
manusia. (Azwar, 2013). Skor murni ( ) dan error (e) keduanya adalah
variabel laten, namun tujuan pengujian adalah untuk menarik
kesimpulan mengenai skor murni individu. Mengingat bahwa skor yang
diamati (x) telah diketahui, eror pengukuran mesti diasumsikan untuk
memperkirakan skor murni ( ) (Alagumalai, Curtis, & Hungi, 2005).
1. Properti Skor Murni dan Eror
a. Variabel
Asumsi dasar dari CTT adalah skor tes yang diamati (X) terdiri atas
penjumlahan true score ( ) dan error (e).
Xi=
+ei (1)
2x = 2 + 2e
(2)
c. Properti lain
Persamaan ketiga (3) menyatakan bahwa distribusi skor murni
tidak berkorelasi dengan distribusi eror pengukuran meskipun
perbedaan skor mentah antar tes dilibatkan. Berdasarkan asumsi ini
dapat disimpulkan bahwa skor tampak yang tinggi tidak selalu memiliki
eror yang tinggi ataupun sebaliknya.
Cov(i, ej) = 0
(3)
(4)
(5)
(1)
Model Rasch
IRT memiliki tiga macam model unidimensional, yaitu model
logistik satu, dua, dan tiga parameter. Model Rasch merupakan model
satu parameter logistik dari IRT. Permodelan Rasch muncul dari analisis
yang dilakukan oleh Dr. Georg Rasch, seorang matematikawan asal
Denmark. Rasch memberikan dua buah tes pada siswa kelas 4,5 dan 6
sekolah dasar dan mendapatkan hasil bahwa siswa kelas 6 melakukan
sedikit kesalahan menjawab dibandingkan siswa kelas 4 dan 5 pada soal
yang sama. Kemudian dia menggambarkan grafik untuk menampilkan
hasil dari kedua tes tersebut dan mendapati bahwa galat (error) dari
suatu tes berhubungan dengan galat pada tes yang lain,
perbandingannya ternyata sama pada ketiga kelas yang diuji tersebut.
Hal ini berarti derajat kesulitan antara kedua tes sudah didapatkan. Jika
hal ini dibandingkan, didapati bahwa peluang untuk menjawab soal
dengan betul sama ketika kemampuan siswa dibandingkan dengan
tingkat kesulitan soal (Sumintono & Widhiarso, 2013). Hal itu kemudian
membawa Georg Rasch pada kesimpulan bahwa, Seseorang yang
memiliki abilitas lebih tinggi daripada orang lain akan memiliki
probabilitas yang lebih besar untuk menyelesaikan soal dengan benar.
Hal serupa berlaku pada butir. butir yang memiliki tingkat kesulitan lebih
tinggi daripada butir lain memiliki arti bahwa probabilitas untuk
menyelesaikan butir tersebut lebih rendah daripada butir yang lain.
(Rasch, 1960 dalam Bond & Fox, 2015).
Model Rasch berbeda dengan CTT dalam banyak hal. Pertama,
pengungkapan level butir dan instrumen pada model Rasch berbeda
pada model CTT yang hanya mengungkap instrumennya saja. Kedua,
memfokuskan model probabilitas pada subjek yang diamati, berbeda
dengan model CTT yang hanya menghitung nilai respons. Jika pada
model CTT nilai skor yang diamati (x) dinyatakan dalam term dan e,
maka pada permodelan Rasch bentuk hubungannya adalah probabilitas
respons pada butir i, xi, difungsikan sebagai fungsi lokasi responden ()
11
dan lokasi butir (). Dalam pengaplikasiannya pada tes prestasi, lokasi
responden biasanya disebut sebagai tingkat abilitas responden, dan
lokasi item disebut sebagai tingkat kesulitan item (Wilson, 2005).
Salah satu fitur penting dalam permodelan Rasch adalah tabel
ekspektasi probabilitas respons yang dirancang untuk menjawab
pertanyaan: Ketika seseorang dengan abilitas tertentu dihadapkan pada
item dengan tingkat kesulitan tertentu, bagaimana kemungkinan orang
ini menjawab item dengan benar? Jawabannya adalah: Probabilitas
kesuksesan seseorang dalam menjawab soal tergantung pada
perbandingan antara abilitas orang itu dengan tingkat kesulitan soal.
Tabel 2.1. Tabel probabilitas menjawab benar berdasarkan kemampuan dan tingkat kesulitan
soal (Bond & Fox, 2015)
i
ii
iii
iv
v
menjamin bahwa ukuran suatu jenis objek adalah independen dari objek
lain yang terlibat dalam prosedur pengukuran. Persyaratan ini mutlak
untuk pengukuran dalam bidang fisika. Sebagai contoh, berat paket
akan sama ketika diukur (ditimbang) di rumah maupun di kantor pos.
Hal ini tidak selamanya berlaku pada pengukuran psikologis. Tingkat
kecerdasan seseorang diukur dengan tes intelegensi mungkin akan
berbeda berdasarkan tesnya.
Rasch menuntut pengukuran yang objektivitas dan spesifik,
artinya pengukuran terhadap abilitas individu mestinya independen dan
tidak tergantung pada butir yang digunakan. Independensi semacam ini
bagaimanapun hanya dapat dicapai jika populasi butir telah
terdefinisikan dengan baik dan homogen dengan sifat yang diukur.
Sejatinya model Rasch merupakan permodelan khusus pada
pengukuran linear. Hal yang membuat Rasch menjadi spesial adalah
jika dibandingkan dengan berbagai model dalam IRT mengenai estimasi
parameter, model Rasch tidak tergantung pada sampel yang digunakan.
Parameter tingkat kesulitan butir i terbebas dari jenis testee, tidak
tergantung pada sampel atau subjek yang digunakan. Estimasi setiap
tingkat kesulitan parameter i adalah sama (Rasch, Kubinger, &
Yanagida, 2011).
Pengukuran Rasch menggunakan algoritma yang mampu
mengurutkan secara terstruktur antara responden dari abilitas tinggi ke
rendah, yang secara bersamaan juga mengurutkan soal dari yang
mudah sampai sulit, maka adanya ketidaktepatan atau inkonsistensi
jawaban dari responden (misfit) maupun pola yang di luar kebiasaan
(outlier) akan mudah dideteksi, demikian juga untuk pola respon yang
diterima satu soal tertentu. Pengukuran abilitas responden dan tingkat
kesukaran butir secara terstruktur juga membuat model Rasch dapat
melakukan prediksi bila terdapat data yang hilang. (Sumintono, 2014).
Berdasarkan uraian di atas, maka model Rasch memenuhi lima
syarat pengukuran objektif menurut Wright & Mok (2004) yaitu:
Menghasilkan pengukuran yang linear
Mengatasi data yang hilang
Memberikan estimasi yang tepat
Mampu mendeteksi missfit (ketidaktepatan model)
Parameter objek yang diukur dengan instrumen ukur terpisah
(independen)
1. Konsep pengukuran Rasch
Konsep pengukuran Rasch berdasarkan pada probabilitas. Jika
pada teori tes klasik data yang digunakan adalah skor total, maka pada
model Rasch data yang digunakan adalah skor peluang (P), yaitu rasio
antara jawaban benar dan jumlah soal yang diujikan. Angka peluang
tersebut kemudian diubah menjadi nilai odds ratio dengan memasukkan
persamaan berikut,
Odds Ratio = P / (1-P) (1)
13
Subjek
i1
i2
i3
i4
i5
Odd
wscore
0,8
1,39
0,6
1,5
0,41
0,6
1,5
0,41
0,6
1,5
0,41
0,2
0,25
-1,39
0,4
0,67
-0,41
Tabel 2.2 Transformasi abilitas individu kedalam skala logit (Sumintono & Widhiarso, 2013)
, (3)
14
Apakah ada
percobaan
berulang untuk
item?
berapa jumlah
kategori?
apakah semua
item memiliki
ambang
kesulitan yang
sama?
Apakah ada
batas atas
untuk jumlah
percobaan?
Binomial
trials model
Poisson
counts model
Dichotomous
Rasch model
Rating Scale
Model
Partial Credit
Model
Apakah
terdapat
pemeringkatan
?
Rank Models
Diagram 2.1. Model-model dalam Rasch berdasarkan jumlah kategori respon jawaban
Tabel 2.3. Deskripsi tinggi-rendah level misfit (Bond & Fox, 2015)
Misfit terlalu
rendah
FIT
-2 < Z < +2
Z > +2
ZSTD
Z < -2
MNSQ
Pola Jawaban
1111100000
1110101000
Variasi terlalu
Variasi sesuai
sedikit
dengan model
Overfit
Goodfit
Underfit
Menurunkan
kualitas
untuk
pengukuran
pengukuran
menurunkan kualitas
Guttman
Rasch
Kesesuaian
dengan
model
Fit
Pengaruh
Ekspektasi
menjawab butir dengan benar dan peserta tes dengan abilitas tinggi
justru menjawab salah. Butir soal dengan korelasi negatif lebih
bermasalah jika dibandingkan dengan butir yang memiliki pointmeasure correlation 0 karena terindentifikasi cacat dalam beberapa
aspek fundamental. Soal-soal dengan nilai korelasi negatif harus
diperiksa untuk melihat apakah kunci jawaban salah, perlu direvisi, atau
dihapus dari tes (Smiley, 2015).
Bond & Fox (2015) menyatakan bahwa nilai korelasi skor butir dan
skor Rasch yang ideal adalah memenuhi dua syarat, yaitu pertama nilai
korelasi haruslah positif dan kedua nilai korelasi semestinya tidak
mendekati angka nol. Komputasi rpm pada dasarnya sama dengan
korelasi point biserial (rpbis) pada CTT, kecuali pada Rasch
menggunakan nilai measure sementara pada CTT menggunakan skor
total. Interpretasi bebas mengenai rentang nilai rpm menurut
Alagumalai, Curtis, & Hungi, (2005) adalah sangat bagus (>0.40), bagus
(<0.39, >0.30), cukup (<0.29, >0.20), tidak mampu mendiskriminasi
(<0.19, >0.00), dan membutuhkan pemeriksaan terhadap butir (<0.00).
Daya diskriminasi yang optimal adalah mendekati 0,5. Menghapus butirbutir dengan daya diskriminasi rendah dapat meningkatkan reliabilitas
tes (Linacre, 2016).
22
BAB III
METODE PENELITIAN
A. Variabel Penelitian
Variabel dalam penelitian ini adalah
Variabel dependen : Komposisi butir pada alat ukur setelah analisis
butir
Variabel independen : Pendekatan dalam analisis
a. Pendekatan teori tes klasik
b. Pendekatan Model Rasch
B. Definisi Operasional
Komposisi butir hasil seleksi merupakan jumlah butir akhir setelah
semua butir dianalisis dan dilakukan eliminasi. Butir-butir yang lolos
dalam seleksi tersebut memiliki properti psikometris yang memuaskan
berdasarkan teori atau pendekatan analisis yang dipakai. Dalam
penelitian ini, properti psikometris yang memuaskan didasarkan pada
parameter butir masing-masing pendekatan. Pada teori skor murni
klasik butir yang memuaskan adalah yang memiliki koefisien poin
biserial diatas 0,3 (rpbis>0.3), dan memiliki tingkat kesulitan 0,3 s.d 0,7.
Sementara pada pendekatan model Rasch, butir yang memuaskan
adalah butir yang memiliki nilai ketepatan yang optimal (MNSQ 0,5 s.d
1,5 dan ZSTD -2 s.d +2) serta memiliki nilai point-measure correlation
diatas 0,3.
Pendekatan dalam analisis merupakan dua buah pendekatan teori
tes dalam melakukan analisis terhadap butir soal. Pendekatan pertama
adalah menggunakan teori tes klasik. Produk yang dihasilkan dari
pendekatan ini adalah parameter butir yang meliputi daya beda butir
dan taraf kesukaran yang dilaporkan oleh software ITEMAN-RStudio.
Sementara
pendekatan
kedua
menggunakan
model
Rasch
menghasilkan parameter butir berupa indeks ketepatan butir dengan
model dan nilai point-measure correlation yang dilaporkan oleh software
Winsteps
B. Partisipan Penelitian
Populasi dalam penelitian ini adalah warga negara Indonesia yang
berusia 3 hingga 20 tahun. Sampel dari penelitian ini adalah sebanyak
1545 orang. Pengambilan sampel dilakukan dengan mempertimbangkan
usia individu di lokasi DIY dan Jawa Tengah dan mempertimbangkan
keterwakilan beberapa suku di Indonesia.
B. Instrumen
23
Reliabilitas Rasch
Reliabilitas Reliabilita
Orang
s Butir
0,75
0,99
Kode
Tes
Reliabilitas Klasik
(Alpha Cronbach)
Gf1113
Gf 14
0,74
0,9
0,87
0,96
Gf 15
0,86
0,88
0,99
Gf 16
0,88
0,89
1,00
24
C. Prosedur Analisis
Analisis data dilakukan secara terpisah berdasarkan teori tes yang
digunakan. Analisis data dengan teori tes klasik (CTT) menggunakan
program Iteman - RStudio yang menghasilkan tingkat kesukaran butir,
daya beda butir, dan efektivitas distraktor. Reduksi butir berdasarkan
teori tes klasik menggunakan daya beda butir (r-pbis) dan taraf
kesukaran butir (d). Koefisien daya beda r-pbis 0,3 dianggap
memuaskan. Butir-butir yang memiliki koefisien daya beda berada pada
rentang di bawah 0,3 adalah butir yang terreduksi. Butir dengan taraf
kesukaran berada pada rentang p=0,3 s.d 0,7 adalah butir dengan taraf
kesukaran ideal. Butir dengan nilai p di luar angka tersebut adalah butir
yang tereduksi.
Analisis butir soal dengan model Rasch menggunakan program
Winsteps yang menghasilkan informasi kesesuaian butir dengan model
dalam bentuk Infit dan Outfit serta korelasi skor butir dengan skor Rasch
(Point Measure Correlation). Setiap Infit dan outfit menunjukkan nilai
mean square (MNSQ) dan z-score (ZSTD). Nilai MNSQ yang ditoleransi
berada pada rentang 0,5 s.d 1,5 sementara nilai ZSTD berada pada
rentang -2 s.d +2. Butir yang memiliki nilai infit dan outfit yang berada
diluar batas toleransi tersebut adalah butir yang misfit dan dilakukan
reduksi. Korelasi Skor Butir dan Skor Rasch (Point Measure Correlation)
0,3 dianggap memuaskan. Butir-butir yang memiliki koefisien berada
pada rentang di bawah 0,3 adalah butir yang terreduksi.
Prosedur analisis parameter butir berbasis teori skor murni klasik
dan Rasch pada penelitian ini dapat dilihat pada tabel berikut
Tabel 3.2
CTT
Daya diskriminasi
0,3
0,3
Indeks fit
Taraf kesukaran butir
Rasch
25
Pendekatan
Model R
MNSQ : 0,
ZSTD : -2
26
References
Alagumalai, S., Curtis, D. D., & Hungi, N. (2005). Applied Rasch
Measurement:A Book of Exemplars. Dordrecht: Springer.
Azwar, S. (1993). Berkenalan dengan Teori Respons Aitem. Buletin
Psikologi No 1, 9-16.
Azwar, S. (2013). Penyusunan Skala Psikologi Edisi 2. Yogyakarta:
Pustaka Pelajar.
Azwar, S. (2013). Tes Prestasi Fungsi dan Pengembangan Pengukuran
Prestasi Belajar Edisi II. Yogyakarta: Pustaka Pelajar.
Benyamin, J. C. (1998). Analisis Kualitas Soal Ebtanas PPKn SMU Tahun
Pelajaran 1996/1997 dengan Pendekatan Model Rasch di provinsi
Nusa Tenggara Timur. Yogyakarta: Universitas Gadjah Mada.
Bond, T. G., & Fox, C. M. (2015). Applying the Rasch Model Fundamental
Measurement in the Human Sciences, Third Edition. New York:
Routledge.
Boone, W. J., Staver, R. J., & Yale, S. M. (2014). Rasch Analysis in the
Human Sciences. London: Springer.
Cavanagh, R. F., & Waugh, R. F. (2011). Applications of Rasch
Measurement in Learning Environments Research. Rotterdam:
Sense Publishers.
Champlain, A. F. (2010). A Primer on Classical Test Theory and Item
Response Theory for Assessments in Medical Education. Medical
Education, 109-117.
Effendi, S. (1998). Penyetaraan tingkat kesukaran butir soal beberapa
perangkat tes mata pelajaran kimia SMU dengan pendekatan teori
klasik dan teori respons butir di Kotamadia Banjarmasin.
Yogyakarta: Universitas Gadjah Mada.
Embretson, S. E., & Reise, S. P. (2000). Item Response Theory for
Psychologists Multivariate Applications Book Series. New Jersey:
Lawrence Erlbaum Associates, Inc.
Fan, X. (1998). Item response theory and classical test theory: an
empirical comparison of their item/person statistics. Educational
and Psychological Measurement, 357-381.
Fischer, G. H., & Molenaar, I. W. (1995). Rasch Models: Foundations,
Recent Developments, and Applications. New York: SpringerVerlag.
Fitrina, D. (2016). Analisis Faktor-faktor yang dipertimbangkan Pada
Saat Memilih Program Incentive Tour Studi Kasus Pada Learning
Tour PPM Manajemen. Yogyakarta: Universitas Gadjah Mada.
Hadi, S. (1991). Statistik. Yogyakarta: Andi Offset.
Linacre, J. M. (2016). A User's Guide to WINSTEPS MINISTEP, RaschModel Computer Programs.
27
29