Anda di halaman 1dari 13

PENGEMBANGAN TES PILIHAN GANDA MENGGUNAKAN

MODEL RASCH MATERI GERAK LURUS


KELAS X PONTIANAK

ARTIKEL PENELITIAN

OLEH:
MUHAMMAD RAMADHAN RIDHO NOVINDA
NIM. F1051141055

PROGRAM STUDI PENDIDIKAN FISIKA


JURUSAN PENDIDIKAN MATEMATIKA DAN IPA
FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN
PONTIANAK
2019
PENGEMBANGAN TES PILIHAN GANDA MENGGUNAKAN
MODEL RASCH MATERI GERAK LURUS
KELAS X PONTIANAK

Muhammad Ramadhan Ridho Novinda, Haratua Tiur Maria Silitonga, Hamdani


Program Studi Fisika FKIP Untan Pontianak
Email: ramadhan183@ymail.com

Abstract
This study aimed to create multiple choice objective test on linear motion to measure
the learning outcomes of X grade high school students in Pontianak City. The method
used was Research and Development (R & D) with the Four-D models. Development
tests using Mardapi steps which has 9 steps. Consisting 40 item of tests. Trial
questions involved 33 students in small-scale trials, and 204 students in large-scale
trials. Item characteristics were analyzed using the Winstep program with the Rasch
Model. Based on the analysis of the data, it can be concluded that the test developed
worthy of use to measure student learning outcomes are: 1) items made with simple
language with a readability level of 6.60, 2) a high level of content validity which is
equal to 0.75, 3) all items spread evenly on person-item maps, 4) there are 28 items
which are included in the easy to hard category, 5) the value of unidimensionality
which includes enough categories is 31%, 6) the value of items reliability that belong
to the special category is equal to 0,98. Based on the result of the analysis, there are
26 items that are worthy of use.

Keywords: Linear Motion, Rasch Model, Test Development.

PENDAHULUAN kemampuan responden menjadi rendah. Taraf


Teori pengukuran klasik dikenal juga sukar butir bergantung pada kemampuan
sebagai teori ujian klasik (classical test responden. Butir yang sama akan terasa berat
theory), memperkenalkan tiga konsep: skor bagi mereka yang berkemampuan rendah dan
tes (sering disebut skor yang diamati), skor terasa ringan bagi mereka yang
kebenaran, dan skor kesalahan. Dalam berkemampuan tinggi. Teori pengukuran
kerangka teoritis itu, berbagai bentuk model klasik (teori ujian klasik) tidak dapat
telah dirumuskan. Sebagai contoh, dalam apa digunakan untuk pencocokan kemampuan
yang sering disebut sebagai "classical test responden dengan taraf sukar butir
model", model linear sederhana yang (Sudaryono, 2012).
dipostulasikan mengaitkan yang dapat Qasem (2013) menjelaskan salah satu
diamati skor tes (X) untuk jumlah dua tidak kelemahan teori pengukuran klasik yaitu teori
teramati (atau sering disebut laten) variabel, ini mengasumsikan bahwa nilai tes yang
skor benar (T) dan skor kesalahan (E), itu mempresentasikan sifat atau kemampuan
adalah, X = T + E (Hambleton and Jones, harus dalam fungsi linear stabil, jika skor
1993). individu mengalami peningkatan dalam tes
Pada teori klasik, taraf sukar butir jumlah kemampuannya harus meningkat juga.
bergantung (dependent) kepada kemampuan Namun, beberapa individu dengan
responden. Bagi responden berkemampuan kemampuan tinggi terkadang mendapat skor
tinggi, butir menjadi tidak sukar (mudah). rendah pada tes, dan mungkin yang
Bagi responden berkemampuan rendah, butir sebaliknya akan terjadi bagi mereka yang
menjadi sukar. Pada butir tidak sukar memiliki kemampuan rendah.
(mudah), tampak kemampuan responden Sumintono dan Widhiarso (2015) juga
menjadi tinggi. Pada butir sukar, tampak memaparkan beberapa kelamahan teori

1
pengukuran klasik yang hanya berpatokan yang mempunyai jawaban salah dan benar
pada skor mentah (raw score), yaitu: (a) skor (Qasem, 2013).
mentah pada dasarnya bukanlah hasil IRT adalah teori statistik umum tentang
pengukuran. Lebih tepatnya skor mentah memeriksa item dan menguji kinerja serta
adalah jumlah jawaban benar dari soal yang bagaimana kinerja berhubungan dengan
dikerjakan peserta didik, (b) skor mentah kemampuan yang diukur oleh item dalam tes.
adalah informasi awal. Skor mentah juga Item respon dapat bersifat diskrit atau
biasanya dinyatakan dalam persentase (%) kontinu dan dapat berupa skor dikotomi atau
yang tidak lain hanyalah ringkasan data politomi, kategori skor item dapat diurutkan
berupa angka, tetapi tidak memberikan data atau tidak diurutkan, bisa ada satu
suatu pengukuran, (c) skor mentah memiliki kemampuan atau banyak kemampuan yang
makna kuantitatif yang lemah. Makna mendasari kinerja tes, dan ada banyak cara
kuantitatif dari skor mentah yang dadapat (yaitu model) di mana hubungan antara item
akan berbeda, bergantung pada banyaknya respons dan kemampuan dasar atau
soal, sedangkan persentase jawaban betul kemampuan dapat ditentukan. Dalam
selalu bergantung pada tingkat kesulitan soal, kerangka kerja IRT umum, banyak model
(d) skor mentah tidak menunjukkan yang sudah diformulasikan dan
kemampuan seseorang terhadap tugas diapliklasikan pada data uji nyata namun
tertentu, skor mentah juga tidak bisa banyak yang paling terkenal adalah Model Rasch
menjelaskan tingkat kesulitan soalnya, (e) (Qasem, 2013).
skor mentah dan persentase jawaban benar Pemodelan Rasch bertujuan
tidak selalu bersifat linear, dalam sebuah tes mengembangkan pengukuran yang objektif.
yang bersifat linear, peserta didik yang Dalam konteks pemodelan Rasch, antonim
memilki skor 15 (skala 0 hingga 100) selalu dari “pengukuran yang objektif” (objective
memiliki kemampuan lebih tinggi dibanding measurement) bukanlah “pengukuran
yang memiliki skor 10. Namun, secara subjektif”, melainkan pengukuran yang
empirik terkadang keduanya memungkinkan hasilnya bergantung pada siapa yang diukur
memliki kemampuan yang sama. (test-dependent scoring). Persentase atau
Dari beberapa penjelasan tentang jumlah jawaban benar pada sebuah tes
kelemahan teori pengukuran klasik di atas, matematika bergantung pada subjek yang
dapat disimpulkan bahwa teori pengukuran diukur (sample dependent) yang bersifat
klasik kurang tepat jika digunakan untuk deskriptif dan berlaku untuk semua subjek
mengukur kemampuan peserta didik serta tersebut (Sumintono dan Widhiarso, 2013).
mengnalisis butir soal. Oleh karena itu, Untuk memastikan pengukuran menjadi
dibutuhkan sebuah teori pengukuran baru objektif maka model pengukuran haruslah
untuk mengatasi kelemahan teori pengukuran memenuhi lima syarat ini: (a) memberikan
klasik. Penelitian ini menyarankan ukuran yang linear, (b) mengatasi data yang
penggunaan teori pengukuran modern atau hilang, (c) melakukan proses estimasi yang
biasa disebut Item Response Theory (IRT) tepat, (d) menemukan yang tidak tepat
untuk menganalisis butir soal sehingga (misfits) atau tidak umum (outliers), (e)
kemampuan peserta didik dapat terukur memberikan instrumen pengukuran yang
dengan baik. independen dari parameter yang diteliti
Teori pengukuran modern dikenal (Sumintono dan Widhiarso, 2013).
sebagai teori ujian modern (modern test Untuk saat ini hanya pemodelan
theory). Teori ini berfokus pada butir, yang pengukuran Rasch-lah yang memenuhi
bertentangan dengan teori klasik. IRT kelima syarat tersebut. Pengukuran objektif
memodelkan respon setiap peserta untuk menghasilkan data yang terbebas dari jenis
setiap item dalam ujian. Item yang mencakup subjek, karakteristik penilai (rater) dan
semua jenis butir. Pertanyaan pilihan ganda karakteristik alat ukur (Sumintono dan
Widhiarso, 2013). Inilah yang menjadi acuan

2
penelitian ini menggunakan pemodelan Analisis Konsep, (4) Analisis Tugas, (5)
Rasch untuk menganalisis instrumen tes. Penentuan Tujuan Pembelajaran.
Ada banyak jenis tes yang dapat Tahap kedua yaitu tahap perancangan
dirancang oleh guru untuk mengukur (Design), menyiapkan instrumen perangkat
kemampuan peserta didik diantaranya adalah pembelajaran. Tahap perencanaan terdiri dari
tes pilihan berganda (multiple choice), tes empat langkah yaitu, (1) Menyusun Kisi-
uraian (essay), tes benar-salah (true-flase Kisi, (2) Menentukan Bentuk Dan Jumlah
test), dan tes menjodohkan (matching test) Soal Yang Sesuai, (3) Menulis Soal, (4)
(Arikunto, 2012). Menentukan Panjang Tes.
Berdasarkan hasil wawancara dengan Tahap ketiga yaitu tahap pengembangan
guru di SMA Pontianak, kadang kala (Develope), menghasilkan perangkat
instrumen tes yang dirancang tidak melalui pembelajaran yang sudah direvisi
proses validasi, reliabilitas serta tidak berdasarkan masukan dari pakar. Tahap
didahului uji coba sehingga instrumen tes ini pengembangan meliputi, (1) Menelaah Tes,
dapat dikatakan tidak valid. Instrumen tes (2) Melakukan Uji Coba Tes, (3)
yang dirancang berbentuk pilihan ganda yang Menganalisis Tes, (4) Memperbaiki Tes, (5)
akan digunakan untuk ulangan harian. Merakit Tes.
Namun, karena instrumen tes yang dirancang Tahap keempat yaitu tahap penyebaran
tidak valid dapat menyebabkan kemampuan (Desseminate), penggunaan perangkat yang
peserta didik yang terukur juga menjadi tidak telah dikembangkan pada skala yang lebih
valid. luas serta menguji efektivitas penggunaan
Dari uraian latar belakang di atas, perangkat di dalam KBM. Tahap penyebaran
penelitian ini dilakukan untuk meliputi (1) Melaksanakan Tes dan (2)
mengembangkan instrumen tes pilihan Menafsirkan Hasil Tes.
berganda yang sesuai dengan Model Rasch Populasi dalam penelitian ini adalah
pada materi Gerak Lurus. Instrumen tes yang peserta didik kelas X SMA di Kota
dikembangkan tentu saja akan melalui proses Pontianak. Sedangkan sampel pada penelitian
uji coba, serta menghitung validitas dan ini diambil berdasarkan ukuran sampel dalam
reliabilitas sehingga dapat memenuhi pemodelan Rasch dengan nilai ±0,5 logit
karakteristik-karakteristik tes yang baik serta tingkat kecepecayaan 99% yaitu kisaran
berdasarkan Model Rasch. sampel berjumlah 108-243 sampel. Sampel
Penelitian ini bertujuan untuk diambil dari rerata nilai Ujian Nasional (UN)
menghasilkan instrumen tes pilihan ganda IPA tinggi, sedang, dan rendah pada tahun
untuk mengukur kemampuan peserta didik 2017 di Kota Pontianak.
pada materi gerak lurus kelas X yang Agar data yang diperoleh memenuhi
memenuhi karakteristik-karakteristik Model karakteristik Model Rasch, data tersebut
Rasch. dianalisis menggunakan software Winstep.
Dalam penelitian ini, analisis data berupa
METODE PENELITIAN unidimensionalitas, reliabilitas, peta person-
Peneliti menggunakan langkah-langkah item, dan tingkat kesukaran butir soal.
4-D untuk melakukan penelitian dan
pengembangan menurut Mardapi (2012). HASIL DAN PEMBAHASAN
Langkah-langkah 4-D meliputi: Hasil
Tahap pertama yaitu tahap pendefinisian Penelitian ini dilaksanakan di Sekolah
(Define), menetapkan dan mendefinisikan Menengah Atas (SMA) Kota Pontianak yang
syarat-syarat pembelajaran diawali dengan berlangsung di kelas X SMA Negeri 3
analisis tujuan dari batasan materi yang Pontianak, kelas X SMA Negeri 5 Pontianak,
dikembangkan. Terdiri dari, (1) Analisis kelas X SMA Negeri 7 Pontianak, dan kelas
Ujung Depan, (2) Analisis Perserta Didik, (3) X SMA Negeri 8 Pontianak pada tahun
ajaran 2018/2019. Penelitian ini berlangsung
dua tahap, yaitu uji skala kecil dan uji skala

3
besar. Uji skala kecil dilakukan di kelas X telah dirancang kemudian dihitung tingkat
MIA 4 SMA Negeri 8 Pontianak dengan keterbacaan menggunakan microsoft excel.
jumlah peserta didik 33 orang. Uji skala Hasil perhitungan tingkat keterbacaan yang
besar dilakukan di kelas X MIA 5 dan X telah dirancang harus lebih dari sama dengan
MIA 6 SMA Negeri 3 Pontianak, kelas X 6. Rata-rata tingkat keterbacaan instrumen tes
MIA 1 dan X MIA 3 SMA Negeri 5 adalah 6,60. Instrumen tes kemudian
Pontianak, serta X MIA 1 dan X MIA 4 SMA divalidasi isi oleh tujuh orang validator yang
Negeri 7 Pontianak dengan jumlah peserta terdiri dari dua orang dosen fisika dan lima
didik 204 orang. orang guru fisika SMA. Validasi bertujuan
Tahap pertama dalam pengembangan tes agar tes yang dirancang sesuai dengan teori
adalah Define (Tahap Pendefinisian). dan meteri gerak lurus di sekolah. Hasil
Langkah dalam tahap ini yaitu: (1) Analisis validasi isi dihitung menggunakan rumus
ujung depan. Masalah yang diangkat dalam Aiken dan didapat rata-rata validasi isi oleh
penelitian ini adalah kelayakan instrumen tes validator sebesar 0,75 yang menunjukkan
yang digunakan untuk mengukur kemampuan instrumen tes yang dikembangkan berada
peserta didik. (2) Analisis peserta didik. pada kategori tinggi sehingga layak untuk
Peneliti menggunakan rerata nilai UN mata digunakan.
pelajaran Fisika untuk menentukan (2) Melakukan uji coba tes atau uji coba
kemampuan akademik peserta didik SMA skala kecil. Dilakukan di kelas X MIA 4
Negeri kota Pontianak. (3) Analisis konsep. SMA Negeri 8 Pontianak, uji coba skala kecil
Konsep yang digunakan untuk bertujuan untuk mengetahaui waktu
mengembangkan instrumen tes berupa materi pngerjaan, alternatif jawaban, dan
gerak lurus dengan sub-materi GLB, GLBB, penggunaan bahasa yang nantinya akan
gerak vertikal, gerak jatuh bebas. (4) Analisis diperbaiki untuk melakukan uji skala besar.
tugas. Analisis yang dilakukan pada tahap ini (3) Menganalisis butir soal. Dari segi waktu,
adalah analisis Kompetensi Inti (KI) dan peserta didik dapat menyelesaikan instrumen
Kompetensi Dasar (KD) terkait instrumen tes tes dalam waktu lebih kurang 70 menit
yang akan dikembangkan. (5) Penentuan sehingga 2 jam pelarajan (90 menit) sudah
tujuan pembelajaran, Menentukan indikator cukup untuk malakukan uji skala besar. Pada
instrumen tes yang harus dicapai oleh peserta alternatif jawaban tidak terdapat masalah
didik untuk setiap butir soal berdasarkan KI, pada peserta didk sedangkan pada bahasa
KD serta materi yang telah ditentukan. yang digunakan sebagai pertayaan soal
Tahap kedua yaitu Design (Tahap membingungkan beberapa peserta didik
Perancangan). Langkah dalam tahap ini sehingga perlu diperbaiki. (4) Memperbaiki
yaitu: (1) Penyusunan kisi-kisi dan indikator tes. Perbaikan tes dilakukan dengan
soal pada materi gerak lurus. (2) Menentukan menganalisis butir soal yang perlu diperbaiki
bentuk dan jumlah soal yang sesuai. Soal berdasarkan hasil validitas isi oleh validator
yang dirancang berupa soal pilihan ganda serta hasil analisis pada uji coba skala kecil.
dengan total 40 butir dengan lima alternatif (5) Merakit tes. Setelah menganalisis dan
jawaban untuk setiap butir soal. (3) Menulis memperbaki kesalahan pada butir soal,
soal. Tes dirancang dengan tingkat taksonomi Instrumen tes dirakit kembali sehingga
bloom C2-C5 yang telah direvisi menurut menghasilkan instrumen tes pilihan ganda
Anderson dan Krathwohl. (4) Menentukan pada materi Gerak Lurus yang sudah
panjang tes. Menentukan waktu yang digunakan pada skala besar dengan tetap
disediakan berdasarkan tingkat mempertahankan jumlah butir soal.
perkembangan peserta didik dan jenjang Tahap keempat yaitu Desseminate
pendidikan. (Tahap Penyebaran). Langkah dalam tahap
Tahap ketiga yaitu Develop (Tahap ini yaitu: (1) Melaksanakan tes atau uji skala
Pengembangan). Langkah dalam tahap ini besar. Tes dilaksanakan di kelas X MIA 5
yaitu: (1) Menelaah tes. Instrumen tes yang dan 6 SMA Negeri 3 Pontianak, kelas X MIA

4
1 dan 3 SMA Negeri 5 Pontianak, serta kelas kemudian diseleksi butir soal yang layak
X MIA 1 dan 4 SMA Negeri 7 Pontianak. (2) digunakan untuk mengukur kemampuan
Menafsirkan hasil tes. Hasil uji skala besar peserta didik.
dianalisis dengan software Winstep

Butir soal yang


terlalu sulit bagi
peserta didik

Butir soal dalam


rentang kemampuan
peserta didik

Butir soal yang


terlalu mudah bagi
peserta didik

Gambar 1. Person-Item Map

Tabel 1. Tingkat Kesukaran Butir Soal


No. Tingkat INFIT OUTFIT
Soal Kesukaran MNSQ ZSTD MNSQ ZSTD
1 -3.82 .96 .0 .55 -1.1
2 .14 1.00 .1 1.00 .0
3 -3.24 .98 .0 .82 -.5
4 -2.79 .98 -.1 .94 -.2
5 -2.10 .90 -.7 .74 -1.7
6 -.47 .93 -1.6 .94 -1.2
7 -1.07 1.10 1.6 1.14 1.8

5
No. Tingkat INFIT OUTFIT
Soal Kesukaran MNSQ ZSTD MNSQ ZSTD
8 -3.34 .95 -.1 .84 -.4
9 .13 .88 -2.5 .86 -2.4
10 -.06 .97 -.6 .96 -.8
11 .49 1.16 2.5 1.22 2.5
12 .19 .81 -4.2 .77 -4.1
13 .68 1.05 .8 1.09 1.0
14 .50 1.06 .9 1.05 .6
15 -.80 1.19 3.5 1.27 4.2
16 -.52 .95 -1.3 .94 -1.2
17 -.35 1.29 6.5 1.33 6.5
18 1.51 1.03 .3 1.21 1.2
19 1.56 .96 -.2 .92 -.4
20 -.40 .80 -5.0 .78 -5.0
21 .83 1.15 1.9 1.27 2.4
22 -1.87 .96 -.4 .87 -.9
23 1.40 .92 -.6 .89 -.7
24 .81 1.05 .6 1.03 .3
25 1.67 1.02 .2 1.09 .5
26 .07 1.13 2.6 1.13 2.2
27 -.33 1.09 2.1 1.09 1.9
28 .98 1.08 .8 1.12 1.0
29 .57 .91 -1.3 .94 -.7
30 .82 1.02 .3 1.06 .6
31 -.19 .77 -6.0 .75 -5.8
32 .19 .80 -4.3 .76 -4.2
33 .56 .84 -2.5 .78 -2.7
34 2.83 1.04 .3 1.30 .9
35 .00 1.17 3.4 1.25 4.0
36 .98 .99 .0 .95 -.3
37 -.13 .91 -2.2 .91 -2.0
38 -.04 1.02 .5 1.03 .6
39 1.47 1.06 .5 1.23 1.3
40 3.15 1.04 .2 2.05 2.0

Tabel 2. Hasil Analisis Butir Soal


No. Kriteria
Keterangan
Soal 1 2 3 4 5 6
1. 6,79 0,76 31% 0,98 - - DIBUANG
2. 6,26 0,76 31% 0,98   DIPAKAI
3. 6,18 0,75 31% 0,98 - - DIBUANG
4. 6,30 0,75 31% 0,98 - - DIBUANG
5. 7,14 0,77 31% 0,98 - - DIBUANG
6. 6,05 0,77 31% 0,98   DIPAKAI
7. 6,64 0,75 31% 0,98  - DIBUANG
8. 6,12 0,75 31% 0,98  - DIBUANG
9. 6,56 0,75 31% 0,98   DIPAKAI

6
No. Kriteria
Keterangan
Soal 1 2 3 4 5 6
10. 6,11 0,75 31% 0,98   DIPAKAI
11. 6,16 0,68 31% 0,98   DIPAKAI
12. 6,87 0,75 31% 0,98   DIPAKAI
13. 6,12 0,75 31% 0,98   DIPAKAI
14. 6,35 0,75 31% 0,98   DIPAKAI
15. 6,51 0,75 31% 0,98   DIPAKAI
16. 6,64 0,75 31% 0,98   DIPAKAI
17. 6,62 0,76 31% 0,98   DIPAKAI
18. 6,40 0,76 31% 0,98 - - DIBUANG
19. 6,52 0,75 31% 0,98 - - DIBUANG
20. 7,26 0,75 31% 0,98   DIPAKAI
21. 6,27 0,76 31% 0,98   DIPAKAI
22. 6,96 0,76 31% 0,98  - DIBUANG
23. 8,31 0,77 31% 0,98 - - DIBUANG
24. 7,11 0,75 31% 0,98   DIPAKAI
25. 7,40 0,76 31% 0,98 - - DIBUANG
26. 6,71 0,76 31% 0,98   DIPAKAI
27. 6,67 0,76 31% 0,98   DIPAKAI
28. 6,25 0,74 31% 0,98   DIPAKAI
29. 6,64 0,76 31% 0,98   DIPAKAI
30. 7,50 0,76 31% 0,98   DIPAKAI
31. 6,27 0,75 31% 0,98   DIPAKAI
32. 6,03 0,76 31% 0,98   DIPAKAI
33. 7,16 0,76 31% 0,98   DIPAKAI
34. 6,16 0,75 31% 0,98 - - DIBUANG
35. 6,22 0,76 31% 0,98   DIPAKAI
36. 6,48 0,75 31% 0,98   DIPAKAI
37. 6,55 0,76 31% 0,98   DIPAKAI
38. 7,01 0,76 31% 0,98   DIPAKAI
39. 6,42 0,76 31% 0,98 - - DIBUANG
40. 6,30 0,75 31% 0,98 - - DIBUANG
Keterangan Kriteria:
1. Tingkat keterbacaan (Minimal 6,0) 5. Peta person-item ( = Memenuhi, - =
2. Validitas isi oleh validator (Minimal Tidak memenuhi)
0,61) 6. Tingkat kesukaran soal ( = Memenuhi,
3. Unidimensionalitas (Minimal 20%) - = Tidak memenuhi)
4. Reliabilitas item (Minimal 0,67)

Pembahasan
Unidimensionalitas adalah ukuran yang instrumen tes yang dikembangkan mengukur
penting untuk mengevaluasi apakah apa yang seharusnya diukur. Dari hasil
instrumen tes pilihan ganda yang analisis ini diperoleh hasil pengukuran Raw
dikembangkan mampu mengukur apa yang variance sebear 31%. Hal ini menunjukkan
seharusnya diukur. Analisis Model Rasch bahwa persyaratan unidimensionalitas
menggunakan analisis komponen utama minimal sebesar 20% dapat dipenuhi.
(Partial Component Analysis) dari residual, Dengan demikian instrumen tes pilihan ganda
yaitu mengukur sejauh mana keragaman dari yang dikembangkan dalam penelitian ini

7
cukup valid untuk mengukur kemampuan Data kedua hasil analisis adalah butir
peserta didik. soal dengan tingkat kesukaran yang lebih
Reliabilitas adalah sejauh mana hasil rendah dari kemampuan peserta didik
suatu pengukuran dapat dipercaya (Azwar, terendah. Terdapat lima butir soal pada
2013). Reliabilitas instrumen tes dalam tingkat kesukaran ini, butir soal yang terlalu
penelitian ini dilihat dari real item reliability mudah tidak akan merangsang kemampuan
karena nilainya lebih konservatif berpikir peserta didik yang dapat
dibandingkan model item reliability (Boone. mengakibatkan kemampuan berpikir peserta
dkk, 2014). Dari hasil analisis program didik tidak berkembang. Dapat disimpulkan,
Winstep diperoleh nilai real item reliability kelima butir soal ini lebih baik tidak
sebesar 0,98 yang teramasuk ke dalam digunakan dalam tes formatif. Butir soal
kategori istimewa. Melalui item reliability tesebut adalah butir nomor 5, 4, 3, 8, dan 1.
yang tinggi ini, dapat disimpulkan bahwa Data terakhir hasil analisis dari peta
instrumen tes yang dikembangkan sudah variabel adalah butir soal dengan tingkat
terdapat beberapa item yang lebih sulit dan kesukaran yang dapat dijangkau oleh
beberapa item yang lebih mudah serta kemampuan peserta didik tertinggi maupun
konsistensi dari kesimpulan ini dapat terendah. Terdapat 28 butir soal yang didapat
diharapkan (Bond dan Fox, 2015). dari data ini. Butir-butir ini dapat
Peta person-item menunjukkan sebaran dipertahankan karena 28 butir soal ini masih
kemampuan peserta didik (sebelah kiri) dan dapat dikerjakan oleh seluruh peserta didik,
tingkat kesukaran butir soal (sebelah kanan) baik yang memiliki kemampuan akademik
pada interval yang sama. Melalui peta ini, rendah maupun tingkat kemampuan
peneliti mengambil butir soal yang dapat akademik yang tinggi. Butir soal tersebut
dijangkau oleh kemampuan peserta didik. adalah butir nomor 28, 36, 21, 24, 30, 13, 29,
Pada peta, peneliti mengambil 3 analisis data 33, 11, 14, 12, 2, 32, 9, 10, 31,37, 17, 27, 20,
yaitu butir soal dengan tingkat kesukaran 6, 16, 15, 7, dan 22.
melebihi tingkat kemampuan peserta didik Dari analisis di atas, dapat disimpulkan
tertinggi, butir soal dengan tingkat kesukaran bahwa butir soal yang dikembangkan sudah
kurang dari kemampuan peserta didik baik karena dapat menjangkau seluruh
terendah, dan butir soal dengan tingkat abilitas peserta didik. Namun, terdapat
kesukaran yang dapat dijangkau oleh beberapa butir soal yang terlalu sukar dan
kemampuan peserta didik tertinggi maupun terlalu mudah. Sehingga perlu dilakukan
terendah. analisa lanjutan untuk memillih butir soal
Data pertama hasil analisis adalah butir yang layak digunakan untuk mengukur
soal dengan tingkat kesukaran melebihi tingkat abilitas peserta didik.
tingkat kemampuan peserta didik tertinggi. Keunggulan lain dari Model Rasch
Terdapat tujuh butir soal dengan tingkat dibanding metode lainnya, khususnya dari
kesukaran melebihi tingkat kemampuan teori tes klasik, kemampuan
peserta didik tertinggi, butir soal yang terlalu melakukan prediksi terhadap data yang
sulit dapat membuat beberapa peserta didik hilang (missing data), yang didasarkan
frustasi untuk menyelesaikan butir tersebut kepada pola respon yang sistematis. Dalam
serta mengurangi motivasi peserta didik model lain biasanya mengestimasi data yang
dalam belajar. Karena tujuan pengembangan hilang dengan nilai nol (0), sedangkan Rasch
instrumen tes dalam penelitian ini adalah tes model akan menghasilkan predisksi mana
formatif, ketujuh butir ini tidak dapat kemungkinan nilai terbaik dari data yang
digunakan. Namun, butir soal ini masih dapat hilang tersebut. Dengan demikian data yang
digunakan jika tujuan tes bersifat seleksi. diperoleh seolah-olah sebagai data yang
Butir soal tersebut adalah butir nomor 40, 34, lengkap dan lebih akurat dalam analisis
25, 18, 19, 23, dan 39. statistik selanjutnya (Akhtar, 2017).

8
Dalam penelitian ini, jawaban kosong item outfit MNSQ karena statistik oufit lebih
yang tidak dikerjakan oleh peserta didik pada sensitif terhadap outlier dan memiliki
beberapa butir soal tidak dianggap sebagai perhitungan yang lebih lazim. Sensitifitas
jawaban yang salah, tetapi dianggap sebagai statistik outfit juga membuat item lebih
data yang hilang atau missing data. Hal ini mudah untuk diidentifikasi dan memperbaiki
dilakukan untuk memanfaatkan kelebihan masalah kecocokan. Terlebih lagi, Linacre
Model Rasch yang tidak ada pada teori tes (2012) dalam Boone. dkk (2014) menyatakan
klasik yaitu dapat memprediksi missing data. secara khusus untuk tujuan pelaporan bahwa
Untuk memastikan butir soal yang hanya outfit yang perlu dilaporkan, “kecuali
digunakan fit atau sesuai dengan Model data terkontamiasi dengan outlier yang tidak
Rasch beberapa poin yang dapat dianalisis relevan”. Maka pelaporan infit mungkin
adalah measure (menunjukkan tingkat diperlukan.
kesulitan item), infit-outfit MNSQ dan ZSTD Oleh karena penelitian ini terdapat
(menunjukkan apakah item kita sesuai banyak peserta didik yang tidak mengisi
dengan Model Rasch) (Akhtar, 2017). lembar jawaban, maka nilai infit MNSQ juga
Measure, butir soal yang akan diambil perlu dianalisis dan dilaporkan. Salah satu
pada penelitian ini adalah butir soal dengan statistik fit item yang utama adalah infit mean
interval nilai -1 < measure < 1 artinya yang square (INFIT MNSQ). Infit mean square
termasuk kategori mudah dan sulit mengukur konsistensi kecocokan peserta
(Sumintono dan Widhiarso, 2013). didik dengan kurva karakteristik item untuk
MNSQ, Mean-Square Fit Statistic setiap item dengan pertimbangan yang
(MNSQ) memperlihatkan ukuran ke-acak-an, diberikan kepada person yang dekat dengan
yaitu jumlah distorsi dalam sistem tingkat probabiltas 0,5 (Alagumalai. dkk,
pengukuran. Nilai yang diharapkan adalah 2005).
antara 0,5 s.d 1,5; jika nilai kurang dari nilai Pertama, periksa nilai MNSQ untuk
tersebut, mengindikasikan hal itu terlalu mengevaluasi kecocokan, selama nilai
mudah ditebak; sedangkan nilai yang lebih MNSQ berada dalam rentang kesesuaian
besar mengindikasikan tidak mudah yang diterima, nilai ZSTD diabaikan (Boone.
diprediksi (Sumintono dan Widhiarso, 2013). dkk, 2014). Karena nilai infit MNSQ dan
ZSTD, Standarized Fit Statistic (ZSTD) outfit MNSQ pada penelitian ini berada pada
adalah uji-t untuk hipotesis, ‘apakah data rentang yang dapat diterima (memiliki nilai
sesuai (fit) dengan model?’ Hasilnya adalah antara 0.5 s.d 1,5), maka nilai ZSTD
nilai-z yaitu penyimpangan unit. Ini diabaikan.
menjelaskan ketidaksesuaian dari data, yaitu Berdasarkan kriteria di atas, butir soal
signifikansinya jika data memang sesuai yang memenuhi seluruh kriteria dan layak
dengan model. Nilai yang diharapkan adalah digunakan untuk mengukur kemampuan
antara -1,9 s.d 1,9 (Sumintono dan peserta didik pada materi Gerak Lurus
Widhiarso, 2013). berjumlah 26 butir soal. Butir soal tersebut
Ketika akan mengevaluasi item, Boone. adalah butir soal nomor 2, 6, 9, 10, 11, 12, 13,
dkk (2014) menyarankan untuk 14, 15, 16, 17, 20, 21, 24, 26, 27, 28, 29, 30,
mengidentifikasi outfit dan lebih khusus lagi 31, 32, 33, 35, 36, 37, dan 38.

Tabel 3. Butir Soal yang Layak Digunakan

Nomor Jenjang
No Indikator Materi
Soal Kognitif
1. Membedakan GLB, GLBB, gerak 2 C2
vertikal, dan GJB
2. Menerapkan persamaan yang terkait 6, 9 C3
dengan GLB untuk menyelesaikan 10, 11, C4

9
Nomor Jenjang
No Indikator Materi
Soal Kognitif
masalah sederhana 12, 14
13 C5
3. Menerapkan persamaan yang terkait 15, 16, C3
dengan GLBB untuk menyelesaikan 17
masalah sederhana 20, 21 C4
24, 26 C5
4. Menerapkan persamaan yang terkait 27, 28, C3
dengan gerak vertikal untuk 29, 30,
menyelesaikan masalah sederhana 31, 32, C4
33
35, 36 C5
5. Menerapkan persamaan yang terkait 37, 38 C3
dengan GJB untuk menyelesaikan
masalah sederhana

SIMPULAN DAN SARAN


Simpulan
Berdasarkan pembahasan yang telah Akhtar, H. (2017). Berkenalan dengan Model
dipaparkan, dapat disimpulkan secara umum Rasch. Retrieved from
bahwa instrumen tes yang dikembangkan dan https://www.semestapsikometrika.com/2
dianalisis menggunakan Model Rasch dapat 017/07/berkenalan-dengan-rasch-
digunakan untuk mengukur kemampuan model.html.
peserta didik. Selain itu, menghasilkan 26 Alagumalai, S. dkk. (2005). Applied Rasch
butir soal yang telah memenuhi seluruh Measurement: A Book of
karakteristik item berdasarkan Model Rasch. Exemplars. Dordrecht: Springer.
Arifin, Z. (2009). Evaluasi Pembelajaran.
Saran Bandung: PT Remaja Rosdakarya.
Agar penelitian menjadi lebih baik, Arifin, Z. (2011). Penelitian Pendidikan
peneliti meyarankan, (a) berkoordinasi Metode dan Paradigma Baru. Bandung:
dengan guru di sekolah tempat melakukan PT. Remaja Rosdakarya.
penelitian bahwa hasil dari instrumen tes Arikunto, S. 2010. Dasar-dasar Evaluasi
yang dikerjakan oleh peserta didik akan Pendidikan. Jakarta: Bumi Aksara.
dimasukkan ke dalam penilaian atau nilai Arikunto, S. (2012). Dasar-Dasar Evaluasi
rapor agar peserta didik lebih serius dalam Pendidikan. Jakarta: Bumi Aksara.
mengerjakan instrumen tes, (b) menyediakan Azwar, S. (2012). Reabilitas dan Validitas.
angket untuk peserta didik yang mengerjakan Yogyakarta: Pustaka Pelajar.
instrumen tes untuk memperoleh data Bond, T. G. dan Fox C. M. (2015). Applying
tambahan mengenai kualitas instrumen tes the Rasch Model Fundamental
yang dikembangkan. Measurement in the Human Sciences,
Third Edition. New York: Routledge.
DAFTAR RUJUKAN Boone, W. J. dkk. (2014). Rasch Analysis in
Akhtar, H. (2017). Analisis Item the Human Sciences. London: Springer.
Menggunakan Winstep. Retrieved from Buhari, B. (2011). Four-D (Model
https://www.semestapsikometrika.com/2 Pengembangan Perangkat
017/07/analisis-item-menggunakan- Pembelajaran dari Thiagarajan, dkk).
winstep_29.html?m=1. Retrieved from
https://bustangbuhari.wordpress.com/20

10
11/08/25/four-d-model-model- Comparative Study of Classical Theory
pengembangan-perangkat-pembelajaran- (Ct) and Item Response Theory (Irt) In
dari-thiagarajan-dkk/. Relation To Various Approaches of
Cavanagh, R. F. dan Waugh, R. F. (2011). Evaluating the Validity and Reliability
Applications of Rasch Measurement in of Research Tools. Volume 3(5): 77-81.
Learning Environments Research. Sudaryono. (2012). Dasar-Dasar Evaluasi
Netherlands: Sense Publishers Pembelajaran. Yogyakarta: Graha Ilmu.
Hambleton, R. H and Russell W. J. (1993). Sugiyono. (2014). Metode Penelitian
An NCME Instructional Module. Pendidikan. Bandung: Alfabeta.
Comparison of Classical Theory and Sukardi, H. M. (2012). Evaluasi Pendidikan
Item Response Theory and Their Prinsip & Operasionalnya. Jakarta:
Applications to Test Development. Bumi Aksara.
Volume 12: 38-47. Sumintono, B. dan Widhiarso, W. (2013).
Jihad, A dan Haris. (2013). Evaluasi Aplikasi Model Rasch Untuk Penelitian
Pembelajaran. Yogyakarta: Multi Ilmu-Ilmu Sosial. Cimahi: Trim
Presindo. Komunikata.
Mardapi, D. (2012). Pengukuran Penilaian Sumintono, B. dan Widhiarso, W. (2015).
dan Evaluasi Pendidikan. Yogyakarta: Aplikasi Pemodelan Rasch Pada
Nuha Medika. Assessment Pendidikan. Cimahi: Trim
Purwanto. (2008). Evaluasi Hasil Belajar. Komunikata.
Yogyakarta: Pustaka Pelajar. Sutrisno, L. (2008). Remediation of
Qasem, M. A. N, (2013). Journal of Research Weaknesses of Physics Concepts.
and Method in Education. A Pontianak: Untan Press.

11

Anda mungkin juga menyukai