Anda di halaman 1dari 6

Pedoman Analisis Item Menggunakan Rasch

Model

Analisis Model Rasch Menggunakan Aplikasi


 May 30, 2021  blogofchem  Artikel, Rasch, Statistika

George Rasch mengembangkan satu model analisis dari teori respon butir (atau Item
Response Theory, IRT) pada tahun 1960-an biasa disebut 1PL (satu parameter logistic) (Olsen,
2003). Model matematika ini kemudian dipopulerkan oleh Benjamin Wright (Linacre, 2011).
Dengan data  mentah  berupa  data  dikotomi  (berbentuk  benar  dan  salah)  yang
mengindikasikan kemampuan siswa, Rasch memformulasikan hal ini menjadi satu model
yang menghubungan antara siswa dan aitem (Sumintono & Widhiarso, 2015).

Rasch mengembangkan model pengukuran data yang dapat menentukan hubungan antara
tingkat kemampuan siswa (person ability) dan tingkat kesukaran item (item difficulty) dengan
menggunakan fungsi logaritma untuk menghasilkan pengukuran nilai interval yang sama
(Sumintono, 2014). Rasch berpendapat bahwa, “Individu yang memiliki tingkat kemampuan
abilitas yang lebih besar dibanding individu lainnya seharusnya memiliki peluang yang lebih
besar untuk menjawab satu butir soal dengan benar. Dengan prinsip yang sama butir yang lebih
sulit menyebabkan peluang individu untuk mampu menjawabnya menjadi kecil” (Goh  et al.,
2017)

Analisis di dalam Model Rasch menggunakan data skor mentah yang diperoleh langsung
dari penilaian terhadap soal yang diujikan kepada siswa dan dikonversi dalam
skala logit (Sumintono & Widhiarso, 2015).  Skala logit (log odds unit) merupakan skala
dengan interval sama dan bersifat linear yang berasal dari data ratio (odds ratio) untuk
menunjukkan abilitas siswa dan kesulitan item. Skala logit  yang dihasilkan tergantung dari
pola respon yang diberikan. Beberapa kelebihan model Rasch yaitu mampu memberikan
rincian hasil analisis data tes antara  item dan person ability meliputi output peta wright, item
measure, person measure, Matriks Guttman, item fit, person fit, Reliabilitas, dan kurva fungsi
informasi

Pendekatan yang digunakan untuk memahami Permodelan Rasch yaitu melalui Scalogram
atau Matriks Guttman. Matriks Guttman menjadi dasar dari permodelan Rasch. Guttman
memperkenalkan pemeringkatan skala sikap dalam bentuk matriks yang diurutkan dari
tingkat terendah ke yang tertinggi. Hal ini bertujuan untuk memudahkan peneliti dalam
menganalisis dan memberikan prediksi akan kemampuan individu responden sekaligus
tingkat kesulitan soal atau butir item (Sumintono dan Widhiarso, 2015). Permodelan Rasch
menggunakan Matriks Guttman.

Keunggulan Pemodelan Rasch

Kemampuan melakukan prediksi terhadap data yang hilang (missing data) yang didasarkan
pada pola respons sistematis (format skalogram). Hal ini menjadikan hasil analisis statistik
lebih akurat. Dalam model statistik lain, biasanya memperlakukan data hilang dengan nilai
nol, bahkan jika tingkat persentase data hilang tinggi, maka analisis tidak dapat memberikan
kesimpulan yang memuaskan. Namun dengan kemampuan prediksinya, pemodelan Rasch
menghasilkan kemungkinan nilai terbaik dari data yang hilang.

Pedoman Analisis Item Menggunakan Rasch


Model
Telah dijelaskan di artikel sebelumnya mengenai prosedur analisis dan seleksi item
menggunakan Teori Tes Klasik. Jika pada teori tes klasik parameter yang digunakan
untuk seleksi item ada tiga, yaitu tingkat kesulitan, daya diskriminasi, dan
efektivitas distraktor, tulisan ini akan menjelaskan alternatif prosedur analisis dan
seleksi item menggunakan teori modern yakni dengan pendekatan Rasch model.
Perbedaan mendasar antara kedua teori ini terletak pada hasil analisisnya. Teori tes
klasik bersifat sample dependent sementara teori tes modern bersifat sample free.
Beberapa pertimbangan yang dijadikan dasar dalam analisis item menggunakan
Rasch model adalah adanya beberapa kriteria, yakni tingkat kesesuaian
butir (item fit), taraf kesukaran, daya diskriminasi Rasch, dan fungsi informasi butir.

Tingkat Kesesuaian Butir (Item Fit)


Butir soal yang cocok (fit) berarti soal tersebut berperilaku secara konsisten dengan
apa yang diharapkan oleh model (Benyamin, 1998). Apabila ditemukan bahwa soal
tidak fit, hal ini merupakan indikasi bahwa terjadi miskonsepsi pada siswa terhadap
butir soal tersebut. Beberapa indeks fit disediakan dalam analisis Rasch
adalah Person Infit ZSTD, Person Outfit ZSTD, Person Infit MNSQ, Person Outfit
MNSQ, Item Infit ZSTD, Item Outfit ZSTD, Item Infit MNSQ, dan Item Outfit
MNSQ (Boone, Staver, & Yale, 2014).

Nilai MNSQ selalu positif dan bergerak dari nol (0) hingga tak hingga (∞). Dalam
hal ini nilai MNSQ digunakan untuk memantau kesesuaian data dengan model.
Nilai mean square  yang diharapkan adalah 1 (satu). Nilai mean-square pada infit atau
outfit yang lebih besar daripada satu, katakanlah 1,3 mengindikasikan bahwa data
yang diobservasi memiliki 30% variasi lebih banyak daripada yang diprediksi oleh
Rasch. Nilai infit atau outfit kurang dari 1, katakanlah 0,78 (1-0,22=0,78)
mengindikasikan bahwa data yang diobservasi memiliki 22% variasi lebih sedikit
daripada yang diprediksi oleh Rasch model (Bond & Fox, 2015).

Sedangkan Nilai z yang diharapkan adalah mendekati 0 (nol). Ketika data yang


diobservasi sesuai dengan model, nilai z memiliki rerata mendekati 0 dan standar
deviasinya 1. Nilai ZSTD yang terlalu besar (z > +2) atau terlalu rendah (z < -2)
menunjukkan bahwa butir tidak kompatibel dengan model yang diharapkan. Nilai z
terstandar (ZSTD) pada infit dan outfit dapat berupa positif atau negatif. Nilai ZSTD
negatif menunjukkan sedikitnya variasi dibandingkan pada model. Respons
jawaban mendekati model Guttman-style response string yaitu semua subjek dengan
kemampuan tinggi mampu menjawab dengan benar dan semua subjek dengan
kemampuan rendah menjawab salah pada butir tersebut. Sementara nilai positif
menunjukkan bahwa variasi jawaban lebih banyak dibandingkan pada model.
Respons jawaban tidak teratur dan tidak dapat diprediksi (Bond & Fox, 2015).

Menurut Boone, et al. (2014), kriteria yang digunakan kriteria yang digunakan untuk
memeriksa butir soal yang sesuai adalah
1.     Nilai Outfit Mean Square (MNSQ) yang diterima : 0,5 < MNSQ < 1,5
2.     Nilai outfit Z-standard (ZSTD) yang diterima: -2,0 < ZSTD < +2,0

Jika butir soal pada kedua kriteria tersebut tidak terpenuhi, itu artinya butir soal
tersebut tidak bagus dan perlu direvisi atau diganti. Berbeda dengan tingkat
kesulitan item yang sifatnya konsisten, tingkat kesesuaian item ini sangat
dipengaruhi oleh besarnya ukuran sampel. Kesalahan kunci jawaban, banyaknya
individu yang asal-asalan dalam mengerjakan soal, dan soal yang memiliki daya
beda rendah dapat menurunkan nilai keseuaian item. Yang perlu dicermati lainnya
adalah, nilai ZSTD ini sangat sensitif terhadap jumlah sampel. Apabila sampel yang
digunakan jumlahnya besar (>500), ada kecenderungan untuk nilai ZSTD ini
memiliki nilai di atas 3. Oleh karena itu, beberapa ahli merekomendasikan untuk
tidak menggunakan kriteria ZSTD ini jika sampel yang digunakan cukup besar
(Suminto & Widhiarso, 2015).

Daya Diskriminasi Rasch (Point Measure Correlation)


Daya Diskriminasi Rasch atau nilai korelasi skor butir dan skor Rasch (Pt Measure
Corr) pada prinsipnya sama dengan daya diskriminasi item yang diukur dengan
pendekatan teori tes klasik. Hanya saja jika pada teori tes klasik komputasinya
menggunakan skor mentah, pada Pt Measure Corr yang digunakan adalah
skor measure. Nilai Pt Measure Corr  1,0 mengindikasikan bahwa semua peserta tes
dengan abilitas rendah menjawab butir dengan salah dan semua peserta tes dengan
abilitas tinggi menjawab butir dengan benar. Sementara nilai Pt Measure
Corr  negatif mengindikasikan butir soal yang menyesatkan karena peserta tes
dengan kemampuan rendah mampu menjawab butir dengan benar dan peserta tes
dengan kemampuan tinggi justru menjawab salah. Soal-soal dengan nilai korelasi
negatif harus diperiksa untuk melihat apakah kunci jawaban salah, perlu direvisi,
atau dihapus dari tes (Smiley, 2015).
Seperti pada teori tes klasik, nilai korelasi skor butir dan skor Rasch yang ideal
adalah yang positif serta tidak mendekati nol. Beberapa ahli mempunyai pendapat
tentang berapa nilai Pt Measure Corr yang disyaratkan. Alagumalai, Curtis, & Hungi
(2005) mengklasifikasikan nilai tersebut menjadi sangat bagus (>0,40), bagus (0,30–
0,39), cukup (0,20-0,29), tidak mampu mendiskriminasi (0,00-0,19), dan
membutuhkan pemeriksaan terhadap butir (<0,00).

Tingkat Kesulitan Butir (Item Measure)


Tingkat kesulitan butir pada model Rasch pada dasarnya sama dengan taraf
kesukaran teori tes klasik, yaitu perbandingan antara jumlah jawaban benar dengan
jumlah soal yang diujikan (odd-ratio). Hanya saja yang membedakan adalah, nilai
peluang itu kemudian diskalakan dengan memasukkan fungsi logaritma. Hasil
estimasi logit dari odd-ratio inilah yang disebut logit atau W-score atau nilai
measure. Jika pada teori tes klasik nilai indeks kesukaran yang tinggi berarti soal
tersebut mudah, pada Rasch model nilai logit yang tinggi menunjukkan item
tersebut sulit. Sama seperti dalam teori tes klasik, tidak ada patokan berapa tingkat
kesulitan yang diterima dalam tes. Hal ini bergantung dari tujuan tes itu sendiri.
Manfaat praktis terkait tingkat kesulitan item akan dijelaskan pada bagian fungsi
informasi item.

Fungsi Informasi Butir


Setiap pengukuran menghasilkan informasi mengenai hasil pengukuran. Informasi
pengukuran yang diinginkan bukan berdasar pada individu yang diukur,
melainkan informasi pada fokus pengukuran. Informasi pengukuran ini berdasar
pada hubungan antara tes dengan individu (Sumintono & Widhiarso, 2015). Contoh
kasus yang bisa menggambarkan fungsi informasi item ini adalah ketika kita
menyajikan soal matematika tentang kalkulus kepada siswa SD, tentu kita tidak
akan mendapatkan informasi apa-apa, hampir semua siswa akan menjawab dengan
salah. Namun jika soal itu diberikan kepada siswa SMA, kita akan mendapatkan
informasi yang banyak. Ada beberapa siswa menjawab benar dan ada beberapa
yang menjawab salah. Semakin banyak variasi yang terjadi semakin banyak
informasi yang akan didapatkan.

Gambar di atas menjelaskan contoh grafik fungsi informasi item. Sumbu X


menunjukkan level abilitas responden sedangkan sumbu Y menunjukkan besarnya
fungsi informasi. Dari gambar tersebut dapat kita lihat bahwa item merah akan
memberikan banyak informasi jika diberikan pada subjek dengan level abilitas
rendah, sedangkan item hitam akan memberikan fungsi informasi yang tinggi jika
disajikan pada subjek dengan level abilitas tinggi. Selain menyajikan fungsi
informasi item, Rasch juga mampu menyajikan fungsi informasi tes secara
keseluruhan.

Sumintono dan Widhiarso (2015) menjelaskan beberapa manfaat dari fungsi


informasi tes adalah sebagai berikut:
1. Fungsi informasi akan menunjukkan untuk apa pengukuran dilakukan.
Sebagai contoh, untuk tes screening, tes remidi, dan tes untuk Anak
Berkebutuhan Khusus memusatkan tes dengan fungsi informasi seperti grafik
warna merah. Sebaliknya jika tes dilakukan untuk seleksi yang ketat, fungsi
informasi tes yang dibutuhkan adalah tes dengan fungsi informasi seperti
pada grafik warna hitam.
2. Fungsi informasi menunjukkan reliabilitas pengukuran yang
dilakukan. Model Rasch menekankan pada koefisien separasi (item
separation). Semakin tinggi puncak informasi yang dapat dicapai,
semakin tinggi nilai reliabilitas pengukuran yang dilakukan.

Bias Butir
Bias butir sebenarnya bukanlah karakteristik yang dijadikan pertimbangan utama
dalam seleksi item. Meskipun demikian informasi mengenai adanya item yang bias
sangat berpengaruh terhadap akurasi pengukuran. Suati butir disebut bias jika
didapati bahwa individu dengan karakteristik tertentu lebih diuntungkan dalam
menjawab soal dibanding individu dengan karakteristik lain. misalnya, suatu soal
bisa lebih mudah dijawab oleh orang yang tinggal di kota daripada orang yang
tinggal di desa. Dalam model Rasch, bias butir dapat dideteksi dengan
DIF (differential item functioning). Item-item yang terdidentifikasi DIF (p<0,05)
disarankan untuk direview ulang dan jika dirasa perlu direvisi atau diganti.

Untuk teknis analisis item menggunakan Rasch model dengan Winstep dapat


dilihat di sini

Referensi

Alagumalai, S., Curtis, D. D., & Hungi, N. (2005). Applied Rasch Measurement: A Book
of Exemplars.  Dordrecht: Springer
Benyamin, J. C. (1998). Analisis Kualitas Soal Ebtanas PPKn SMU Tahun Pelajaran
1996/1997 dengan Pendekatan Model Rasch di provinsi Nusa Tenggara
Timur.  Yogyakarta: Universitas Gadjah Mada.
Bond, T. G., & Fox, M. C. (2015). Applying the Rasch Model Fundamental Measurement
in the Human Sciences Third Edition.  New York: Routledge.
Boone, W. J., Staver, R. J., & Yale, S. M. (2014). Rasch Analysis in the Human
Sciences.  London: Springer.
Smiley, J. (2015, April). Classical test theory or Rasch: A personal account from a
novice user. SHIKEN, hal. 16-31.
Sumintono, B., & Widhiarso, W. (2015). Aplikasi Pemodelan Rasch pada Assessment
Pendidikan. Cimahi: Trim Komunikata.

Anda mungkin juga menyukai