Oleh:
LIAN G. OTAYA
NIM : 16701261002
ii
ABSTRACT
This study aimed to develop a model of the TPE assessment with partial
and holistic scoring. The study used a research and development (R&D) model
with subjects in the first stage try-out comprising 236 participants and those in the
second stage try-out involving 516 participants of the subsidized pre-service TPE
and the in-service TPE in the 2018/2019 academic year conducted by three
teacher training universities in Yogyakarta, Gorontalo, and Makassar. Data was
collected using focus group discussion, observation and documentation. The data
analyses included content validity analysis through Aiken V, reliability through
inter-rater reliability, proof of construct validity through confirmatory factor
analysis, construct reliability estimate through composite reliability, and analysis
of item characteristics and estimate of TPE participants’ capabilities through IRT
analyses with the polytomous, Partial Credit, and Graded Response models, as
well as analysis of the information function and standard error of the estimate.
The results of the assessment model produced three constructs of instruments,
namely a lesson plan assessment instrument, a learning implementation
assessment instrument, and a social competency and personality competency
assessment instrument. The TPE assessment model developed by partial and
holistic scoring was accurate and reliable based on the constructs of the developed
instruments. The instrument content validity and the reliability through the expert
judgment review fulfilled the developed instrument items based on the theoretical
substance. The construct validity and the construct reliability showed that all
instruments in the TPE assessment model were valid and reliable based on the
factor loadings. The TPE assessment model instruments with both partial and
holistic scoring had adequate information values ranging from 10 to 19 with
relatively small measurement error estimates of around 0.2 to 0.3. The results of
assessments using the TPE assessment model instruments indicated that that of
partial scoring was more accurate than that of holistic scoring. The assessment
model had fulfilled practicality aspects based on the assessments used by users
namely understandable for user, implementable in the field, relevant with the TPE
program, also effective and efficient in the usage.
iii
LEMBAR PENGESAHAN
LIAN G. OTAYA
NIIM: l670t}6tffi2
DEWAN PENGUJI
f= o.u
.
(PembimbingUtama/PenguJ| €
,y''.usrDtKAnl Pascasa{ana
4
/"*'-"r--"ffi
8" liil:A4
195707191
KATA PENGANTAR
Memanjatkan puji dan syukur ke hadirat Allah swt., atas berkat limpahan
rahmat, taufiq, hidayah, dan inayah-Nya, sehingga disertasi ini dapat diselesaikan.
Penyelesaian disertasi ini tidak terlepas dari bantuan dan dukungan dari
kasih yang tak terhingga kepada Bapak Prof. Dr. Badrun Kartowagiran, M.Pd.,
dan Ibu Prof. Dr. Heri Retnawati, M.Pd., selaku tim promotor dalam penyusunan
disertasi ini, yang dengan tulus hati telah memberikan bimbingan, arahan ataupun
masukan mulai dari pengajuan judul, penulisan proposal sampai dengan akhir
tulus dan penuh hormat penulis sampaikan ucapan terima kasih dan penghargaan
membimbing penulis mendapatkan balasan dari Allah swt. Selain itu penulis
2. Prof. Dr. Margana, M.Hum, M.A., selaku Wakil Rektor I sekaligus sebagai
disertasi.
3. Prof. Dr. Anik Ghufron, M.Pd., selaku Ketua LPPMP Universitas Negeri
UNY.
Dr. Jusna Ahmad, M.Si., selaku Direktur PPG Universitas Negeri Gorontalo,
Dr. H. Muhammad Amri, Lc, M.Ag., selaku Dekan Fakultas Tarbiyah dan
PPG yang telah memberikan izin dan kemudahan dalam melakukan penelitian
disertasi.
6. Dr. Lahaji, M.Ag., selaku Rektor IAIN Sultan Amai Gorontalo yang telah
studi Program Doktor. Untuk semua bantuan, dorongan dan motivasi yang
7. Prof. Dr. H. Kasim Yahiji, M.Ag, selaku Direktur Pascasarjana IAIN Sultan
Amai Gorontalo. Dukungan dan bantuan yang diberikan sangat bernilai dan
sulit terbalaskan.
vi
8. Dr. Lukman Arsyad, M.Pd., selaku Dekan Fakultas Ilmu Tarbiyah dan
9. Dosen dan guru pamong/penguji UKIN yang telah bersedia sebagai subjek
Kementerian Agama R.I tahun 2016 Program Studi Penelitian dan Evaluasi
12. Segenap keluarga besar yang telah memberikan dukungan, motivasi, doa
doktor ini, serta tak lupa kolega-kolega lainnya yang tidak mungkin
keluarga mendapatkan pahala yang berlipat ganda dari Allah swt. Akhirnya
penulis berharap disertasi ini dapat memberi inspirasi, menjadi referensi dan
vii
PERI{YATAAN KEASLIAN
Dengan ini menyatakan bahwa disertasi ini merupakan hasil karya saya sendiri
dan belum pernah diajukan untuk memperoleh gelar doktor di suatu perguuan
tinggi, dan sepanjang pengetahuan saya dalam disertasi ini tidak terdapat karya
atau pendapat yang pemah ditulis atau diterbitkan oleh orang lain kecuali yang
secara tertulis diacu dalam naskah ini dan disebutkan dalaln daftar pustaka.
Lian G. Otaya.
NIM. 1670t261002
vlll
DAFTAR ISI
ABSTRAK .......................................................................................................... ii
B. Identifikasi Masalah......................................................................... 19
D. Rumusan Masalah............................................................................ 22
A. Kajian Teori..................................................................................... 28
ix
2. Sistem dan Prinsip Pembelajaran Pendidikan Profesi Guru ........ 35
x
D. Kajian Produk Akhir ...................................................................... 369
xi
DAFTAR TABEL
Hal
Tabel 1. Kelompok Mata Kegiatan PPG Prajabatan .................................. 50
Tabel 2. Kelompok Mata Kegiatan PPG Daljab ........................................ 51
Tabel 3. Bobot Penilaian Akhir PPL ......................................................... 56
Tabel 4. Rambu-Rambu Ujian Tulis LPTK (UTL) .................................... 57
Tabel 5. Kompetensi Pedagagik, Subkompetensi, dan Indikatornya .......... 66
Tabel 6. Kompetensi Profesional, Subkompetensi, dan Indikatornya......... 70
Tabel 7. Kompetensi Kepribadian, Subkompetensi, dan Indikatornya ....... 76
Tabel 8. Kompetensi Sosial, Subkompetensi, dan Indikatornya ................. 80
Tabel 9. Subjek Uji Coba .......................................................................... 163
Tabel 10. Pengkategorian Validitas Isi Instrumen Penilaian RPP ................ 182
Tabel 11. Pengkategorian Validitas Isi Instrumen Penilaian PP ................... 184
Tabel 12. Pengkategorian Validitas Isi Instrumen Penilaian KSKK ............ 185
Tabel 13. Pengkategorian Validitas Isi Panduan Model Penilaian PPG ....... 187
Tabel 14. Hasil Estimasi Reliabilitas dengan Inter-Rater............................. 188
Tabel 15. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
RPP Penskoran Parsial untuk Penilai Dosen ................................ 205
Tabel 16. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
RPP Penskoran Parsial Penilai Guru pamong/penguji
UKIN .......................................................................................... 207
Tabel 17. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
RPP Penskoran Holistik untuk Penilai Dosen .............................. 208
Tabel 18. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
RPP Penskoran Holistik Penilai Guru pamong/penguji
UKIN .......................................................................................... 209
Tabel 19. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Parsial Penilai
Dosen ......................................................................................... 211
Tabel 20. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Parsial Penilai
Guru pamong/penguji UKIN ....................................................... 212
Tabel 21. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Holistik Penilai
Dosen ......................................................................................... 213
xii
Tabel 22. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Holistik Penilai
Guru pamong/penguji UKIN ....................................................... 214
Tabel 23. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Parsial Penilai Dosen .................................................................. 216
Tabel 24. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Parsial Penilai Guru pamong/penguji UKIN ................................ 217
Tabel 25. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
KSKK Penskoran Holistik untuk Penilai Dosen .......................... 218
Tabel 26. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Holistik untuk Penilai Guru pamong/penguji UKIN .................... 219
Tabel 27. Hasil Analisis Karakteristik Item Instrumen Penilaian RPP
Penskoran Pasial untuk Penilai Dosen ......................................... 221
Tabel 28. Hasil Analisis Karakteristik Item Instrumen Penilaian RPP
Penskoran Pasial Penilai Guru pamong/penguji UKIN ................ 226
Tabel 29. Hasil Analisis Karakteristik Item Instrumen Penilaian RPP
Penskoran Holistik Penilai Dosen................................................ 230
Tabel 30. Hasil Analisis Karakteristik Item Instrumen Penilaian RPP
Penskoran Holistik Penilai Guru pamong/penguji UKIN ............. 234
Tabel 31. Hasil Analisis Karakteristik Item Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Pasial Penilai
Dosen ......................................................................................... 238
Tabel 32. Hasil Analisis Karakteristik Item Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Pasial Penilai
Guru pamong/penguji UKIN ....................................................... 242
Tabel 33. Hasil Analisis Karakteristik Item Instrumen Penilaian
Pelaksanaan Pembelajaran Penskoran Holistik Penilai
Dosen ......................................................................................... 246
Tabel 34. Hasil Analisis Karakteristik Item Instrumen Penilaian
Pelaksanaan Pembelajaran Penskoran Holistik Penilai
Guru pamong/penguji UKIN ....................................................... 250
Tabel 35. Hasil Analisis Karakteristik Item Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian (KSKK)
Penskoran Pasial Penilai Dosen ................................................... 254
xiii
Tabel 36. Hasil Analisis Karakteristik Item Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Pasial Penilai Guru pamong/penguji UKIN ................................. 258
Tabel 37. Hasil Analisis Karakteristik Item Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian (KSKK)
Pembelajaran Penskoran Holistik Penilai Dosen .......................... 262
Tabel 38. Hasil Analisis Karakteristik Item Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Holistik Penilai Guru pamong/penguji UKIN .............................. 266
Tabel 39. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
RPP Penskoran Parsial untuk Penilai Dosen pada Uji Coba II ..... 290
Tabel 40. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
RPP Penskoran Parsial untuk Penilai Guru pamong/penguji
UKIN pada Uji Coba II ............................................................... 292
Tabel 41. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
RPP Penskoran Holistik untuk Penilai Dosen pada Uji Coba II ... 293
Tabel 42. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
RPP Penskoran Holistik Penilai Guru pamong/penguji UKIN
pada Uji Coba II.......................................................................... 295
Tabel 43. Muatan Faktor Variabel Observasi pada Instrumen
Penilaian Pelaksanaan Pembelajaran (PP) Penskoran Parsial
untuk Penilai Dosen pada Uji Coba II ......................................... 297
Tabel 44. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Parsial Penilai
Guru pamong/penguji UKIN pada Uji Coba II ............................ 298
Tabel 45. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Holistik Penilai
Dosen pada Uji Coba II ............................................................... 300
Tabel 46. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Holistik untuk Penilai
Guru pamong/penguji UKIN pada Uji Coba II ............................ 301
Tabel 47. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Parsial untuk Penilai Dosen pada Uji Coba II .............................. 303
Tabel 48. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Parsial untuk Penilai Guru pamong/penguji UKIN ...................... 305
Tabel 49. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Holistik Penilai Dosen ................................................................ 306
xiv
Tabel 50. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Holistik Penilai Guru pamong/penguji UKIN .............................. 308
Tabel 51. Hasil Analisis Karakteristik Item Instrumen Penilaian
RPP Penskoran Parsial untuk Penilai Dosen ............................... 310
Tabel 52. Hasil Analisis Karakteristik Item Instrumen Penilaian
RPP Penskoran Pasial untuk Penilai Guru pamong/penguji UKIN 317
Tabel 53. Hasil Analisis Karakteristik Item Instrumen Penilaian RPP
Penskoran Holistik untuk Penilai Dosen ...................................... 320
Tabel 54. Hasil Analisis Karakteristik Item Instrumen Penilaian RPP
Penskoran Holistik untuk Penilai Guru pamong/penguji UKIN .... 324
Tabel 55. Hasil Analisis Karakteristik Item Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Pasial untuk Penilai
Dosen ......................................................................................... 230
Tabel 56. Hasil Analisis Karakteristik Item Instrumen Penilaian Pelaksanaan
Pembelajaran (PP) Penskoran Pasial untuk Penilai Guru pamong/
penguji UKIN ............................................................................. 335
Tabel 57. Hasil Analisis Karakteristik Item Instrumen Penilaian
Pelaksanaan Pembelajaran Penskoran Holistik untuk Penilai
Dosen ......................................................................................... 344
Tabel 58. Hasil Analisis Karakteristik Item Instrumen Penilaian
Pelaksanaan Pembelajaran Penskoran Holistik Penilai Guru
pamong/penguji UKIN ................................................................ 350
Tabel 59. Hasil Analisis Karakteristik Item Instrumen Penilaian Kompetensi
Sosial dan Kompetensi Kepribadian (KSKK) Penskoran Pasial
Penilai Dosen .............................................................................. 353
Tabel 60. Hasil Analisis Karakteristik Item Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian (KSKK)
Pembelajaran Penskoran Holistik untuk Penilai Dosen ................ 360
Tabel 61. Hasil Analisis Karakteristik Item Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Holistik untuk Penilai Guru pamong/penguji UKIN .................... 360
Tabel 62. Perbandingan Akurasi Model Penilaian dengan Penskoran
Parsial dengan Model Penilaian dengan Penskoran Holistik ........ 402
xv
DAFTAR GAMBAR
Hal
Gambar 1. Proses Penyelenggaraan PPG ................................................. 48
Gambar 2. Mata Kegiatan PPG Prajabatan ............................................... 49
Gambar 3. Mata Kegiatan PPG Dalam Jabatan ........................................ 50
Gambar 4. Teknik Penilaian Kualitas Proses dan Hasil Belajar PPG ........ 57
Gambar 5. Domain Model Penilaian Guru .............................................. 85
Gambar 6. Contoh Kurva Karakteristik Butir Model Logistik 1 Parameter 110
Gambar 7. Kurva Karakteristik Butir Untuk Model Logistik 2 Parameter 112
Gambar 8. Kurva Karakteristik Butir Untuk Model Logistik 3 Parameter 113
Gambar 9. Operating Characteristic Curves (OCF) untuk lima kategori .. 123
Gambar 10. Category Response Curves (CRF) untuk lima kategori ........... 123
Gambar 11. Fungsi Informasi .................................................................... 125
Gambar 12. Grafik fungsi informasi tes ..................................................... 130
Gambar 13. Fungsi informasi tes ............................................................... 133
Gambar 14. Grafik CRF untuk 2 kategori .................................................. 135
Gambar 15. Grafik CRF untuk 3 kategori .................................................. 135
Gambar 16. Grafik CRF untuk 4 kategori .................................................. 135
Gambar 17. Grafik CRF untuk 5 kategori .................................................. 135
Gambar 18. Hubungan timbal balik antara NIF dengan SEM ..................... 137
Gambar 19. Kerangka Pikir ....................................................................... 147
Gambar 20. Alur Pengembangan Model R & D ......................................... 150
Gambar 21. Prosedur Pengembangan Model Penilaian PPG ...................... 154
Gambar 22. Konstruk Penilaian Rencana Pelaksanaan Pembelajaran (RPP) 175
Gambar 23. Konstruk Penilaian Pelaksanaan Pembelajaran (PP)................ 178
Gambar 24. Konstruk Penilaian Kompetensi Sosial Kepribadian (KSKK) . 180
Gambar 25. Kurva Karakteristik Item 10 dari Instrumen Penilaian RPP
Penskoran Parsial untuk Penilai Dosen ................................... 223
Gambar 26. Fungsi Informasi Instrumen RPP Penskoran Parsial Penilai
Dosen ..................................................................................... 224
Gambar 27. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian RPP Penskoran Parsial Penilai Dosen ...................... 225
xvi
Gambar 28. Kurva Karakteristik Item 20 dari Instrumen Penilaian RPP
Penskoran Parsial untuk Penilai Guru pamong/penguji UKIN . 227
Gambar 29. Fungsi Informasi Instrumen RPP Penskoran Parsial Penilai
Guru Pamong/Penguji UKIN .................................................. 228
Gambar 30. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian RPP Penskoran Parsial Penilai Guru pamong/
penguji UKIN ......................................................................... 229
Gambar 31. Kurva Karakteristik Item 23 dari Instrumen Penilaian RPP
Penskoran Holistik untuk Penilai Dosen ................................. 231
Gambar 32. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai
Dosen ..................................................................................... 232
Gambar 33. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian RPP Penskoran Holistik untuk Penilai Dosen .......... 233
Gambar 34. Kurva Karakteristik Item 21 dari Instrumen Penilaian RPP
Penskoran Holistik untuk Penilai Guru pamong/penguji UKIN 235
Gambar 35. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai
Guru Pamong/Penguji UKIN .................................................. 236
Gambar 36. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian RPP Penskoran Holistik untuk Guru pamong/
penguji UKIN ......................................................................... 237
Gambar 37. Kurva Karakteristik Item 4 dari Instrumen Penilaian
Pelaksanaan Pembelajaran Penskoran Parsial untuk Penilai
Dosen ..................................................................................... 239
Gambar 38. Fungsi Informasi Instrumen PP Penskoran Parsial Penilai
Dosen ..................................................................................... 240
Gambar 39. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian Pelaksanaan Pembelajaran (PP) Penskoran Parsial
untuk Penilai Dosen ................................................................ 241
Gambar 40. Kurva Karakteristik Item 15 dari Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Parsial untuk
Penilai Guru pamong/penguji UKIN ....................................... 243
Gambar 41. Fungsi Informasi Instrumen Pelaksanaan Pembelajaran
Penskoran Parsial Penilai Guru Pamong/Penguji UKIN .......... 244
Gambar 42. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian Pelaksanaan Pembelajaran Penskoran Parsial untuk
Penilai Guru pamong/penguji UKIN ....................................... 245
Gambar 43. Kurva Karakteristik Item 10 dari Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Holistik Penilai
Dosen ..................................................................................... 247
xvii
Gambar 44. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai
Guru Pamong/Penguji UKIN .................................................. 248
Gambar 45. Hubungan timbal balik antara NIF dengan SEM Instrumen
Instrumen Pelaksanaan Pembelajaran (PP) Penskoran
Holistik Penilai Dosen ............................................................ 249
Gambar 46. Kurva Karakteristik Item 2 dari Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Holistik untuk
Penilai Guru pamong/penguji UKIN ....................................... 251
Gambar 47. Fungsi Informasi Instrumen Pelaksanaan Pembelajaran
Penskoran Holistik Penilai Guru Pamong/Penguji UKIN ........ 252
Gambar 48. Hubungan timbal balik antara NIF dengan SEM Instrumen
Pelaksanaan Pembelajaran (PP) Penskoran Holistik Penilai
Guru pamong/penguji UKIN .................................................. 253
Gambar 49. Kurva Karakteristik Item 17 dari Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian (KSKK)
Penskoran Parsial Penilai Dosen ............................................. 255
Gambar 50. Fungsi Informasi Instrumen KSKK Penskoran Parsial Penilai
Dosen ..................................................................................... 256
Gambar 51. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian Kompetensi Sosial dan Kompetensi Kepribadian
(KSKK) Penskoran Parsial Penilai Dosen ............................... 257
Gambar 52. Kurva Karakteristik Item 11 dari Instrumen Penilaian
KSKK Penskoran Parsial untuk Penilai Guru pamong/penguji
UKIN ..................................................................................... 259
Gambar 53. Fungsi Informasi Instrumen KSKK Penskoran Parsial Penilai
Guru pamong/penguji UKIN .................................................. 260
Gambar 54. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian KSKK Penskoran Parsial untuk Penilai
Guru pamong/penguji UKIN .................................................. 261
Gambar 55. Kurva Karakteristik Item 9 dari Instrumen Penilaian KSKK
Penskoran Holistik untuk Penilai Dosen ................................. 263
Gambar 56. Fungsi Informasi Instrumen KSKK Penskoran Holistik Penilai
Dosen ..................................................................................... 264
Gambar 57. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian KSKK Penskoran Holistik untuk Penilai Dosen....... 265
Gambar 58. Kurva Karakteristik Item 5 dari Instrumen Penilaian
KSKK Penskoran Holistik untuk Penilai Guru pamong/
penguji UKIN ......................................................................... 267
xviii
Gambar 59. Fungsi Informasi Instrumen KSKK Penskoran Holistik
Penilai Guru Pamong/Penguji UKIN ...................................... 268
Gambar 60. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian KSKK Penskoran Holistik untuk Penilai Guru
pamong/penguji UKIN .......................................................... 269
Gambar 61. Kurva Karakteristik Item 4 dari Instrumen Penilaian RPP
Penskoran Parsial untuk Penilai Dosen ................................... 312
Gambar 62. Fungsi Informasi Instrumen RPP Penskoran Parsial Penilai
Dosen ..................................................................................... 313
Gambar 63. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian RPP Penskoran Parsial untuk Penilai Dosen ............ 313
Gambar 64. Kurva Karakteristik Item 7 dari Instrumen Penilaian RPP
Penskoran Parsial untuk Penilai Guru pamong/penguji UKIN . 320
Gambar 65. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai
Guru Pamong/Penguji UKIN .................................................. 318
Gambar 66. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian RPP Penskoran Parsial untuk Penilai Guru pamong/
penguji UKIN ......................................................................... 318
Gambar 67. Kurva Karakteristik Item 14 dari Instrumen Penilaian RPP
Penskoran Holistik untuk Penilai Dosen ................................. 321
Gambar 68. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai
Dosen ..................................................................................... 322
Gambar 69. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian RPP Penskoran Holistik untuk Penilai Dosen .......... 323
Gambar 70. Kurva Karakteristik Item 2 dari Instrumen Penilaian RPP
Penskoran Holistik untuk Penilai Guru pamong/penguji UKIN 325
Gambar 71. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai
Guru Pamong/Penguji UKIN .................................................. 326
Gambar 72. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian RPP Penskoran Holistik untuk Penilai
Guru pamong/penguji UKIN .................................................. 327
Gambar 73. Kurva Karakteristik Item 15 dari Instrumen Penilaian
Pelaksanaan Pembelajaran Penskoran Parsial untuk Penilai
Dosen ..................................................................................... 331
Gambar 74. Fungsi Informasi Instrumen Pelaksanaan Pembelajaran
Penskoran Parsial Penilai Dosen ............................................. 332
xix
Gambar 75. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian Pelaksanaan Pembelajaran Penskoran Parsial untuk
Penilai Dosen ......................................................................... 333
Gambar 76. Kurva Karakteristik Item 10 dari Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Parsial untuk
Penilai Guru pamong/penguji UKIN ....................................... 336
Gambar 77. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai
Guru Pamong/Penguji UKIN .................................................. 237
Gambar 78. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian Pelaksanaan Pembelajaran (PP) Penskoran Parsial
Penilai Guru pamong/penguji UKIN ....................................... 338
Gambar 79. Kurva Karakteristik Item 19 dari Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Holistik Penilai
Dosen ..................................................................................... 341
Gambar 80. Fungsi Informasi Instrumen Pelaksanaan Pembelajaran
Penskoran Holistik Penilai Dosen ........................................... 342
Gambar 81. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian Pelaksanaan Pembelajaran (PP) Penskoran Holistik
Penilai Dosen ......................................................................... 343
Gambar 82. Kurva Karakteristik Item 8 dari Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Holistik Penilai
Guru pamong/penguji UKIN .................................................. 345
Gambar 83. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai
Guru Pamong/Penguji UKIN .................................................. 346
Gambar 84. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian Pelaksanaan Pembelajaran (PP) Penskoran Holistik
Penilai Guru pamong/penguji UKIN ....................................... 347
Gambar 85. Kurva Karakteristik Item 7 dari Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian (KSKK)
Penskoran Parsial Penilai Dosen ............................................. 351
Gambar 86. Fungsi Informasi Instrumen Kompetensi Sosial dan
Kompetensi kepribadian Penskoran Parsial Penilai Dosen ...... 352
Gambar 87. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian Kompetensi Sosial dan Kompetensi Kepribadian
(KSKK) Penskoran Parsial Penilai Dosen ............................... 353
Gambar 88. Kurva Karakteristik Item 18 dari Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian (KSKK)
Penskoran Parsial Penilai Guru pamong/penguji UKIN .......... 356
Gambar 89. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai
xx
Guru Pamong/Penguji UKIN .................................................. 257
Gambar 90. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian Kompetensi Sosial dan Kompetensi Kepribadian
(KSKK) Penskoran Parsial Penilai Guru pamong/penguji
UKIN ..................................................................................... 358
Gambar 91. Kurva Karakteristik Item 16 dari Instrumen Penilaian
Kompetensi Sosial Kepribadian (KSKK) Penskoran Holistik
Penilai Dosen ......................................................................... 361
Gambar 92. Fungsi Informasi Instrumen Kompetensi Sosial dan
Kepribadian Penskoran Holistik Penilai Dosen ....................... 362
Gambar 93. Hubungan timbal balik antara NIF dengan SEM Instrumen
PenilaianKompetensi Sosial Kepribadian (KSKK)
Penskoran Holistik Penilai Dosen ........................................... 363
Gambar 94. Kurva Karakteristik Item 12 dari Instrumen Penilaian
Kompetensi Sosial Kepribadian Penskoran Holistik
Penilai Guru pamong/penguji UKIN ....................................... 365
Gambar 95. Fungsi Informasi Instrumen kompetensi sosial dan kompetensi
kepribadian Penskoran Holistik Penilai Guru Pamong/Penguji
UKIN ..................................................................................... 366
Gambar 96. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian Kompetensi Sosial Kepribadian Penskoran Holistik
Penilai Guru pamong/penguji UKIN ....................................... 367
Gambar 97. Hasil Penilaian Buku Panduan Model Penilaian PPG.............. 383
Gambar 98. Sebaran Daya Beda Item Instrumen Penilaian RPP ................. 395
Gambar 99. Sebaran Daya Beda Instrumen Penilaian Pelaksanaan
Pembelajaran .......................................................................... 396
Gambar 100. Sebaran Daya Beda Instrumen Kompetensi Sosial
Kepribadian ............................................................................ 397
Gambar 101. Fungsi Informasi Instrumen Model Penilaian PPG ................. 400
Gambar 102. Standard Error of Measurement Instrumen Model Penilaian .. 400
Gambar 103. Profil Kemampuan Menyusun RPP untuk Peserta LPTK UNY 405
Gambar 104. Profil Kemampuan Menyusun RPP untuk Peserta LPTK UNG 406
Gambar 105. Profil Kemampuan Menyusun RPP untuk Peserta LPTK
UINAM .................................................................................. 407
Gambar 106. Profil Kemampuan Pelaksanaan Pembelajaran Peserta LPTK
UNY ...................................................................................... 408
xxi
Gambar 107. Profil Kemampuan Pelaksanaan Pembelajaran Peserta LPTK
UNG ...................................................................................... 408
Gambar 108. Profil Kemampuan Pelaksanaan Pembelajaran Peserta LPTK
UINAM .................................................................................. 409
Gambar 109. Profil Kompetensi Sosial Kepribadian untuk Peserta LPTK
UNY ...................................................................................... 410
Gambar 110. Profil Kompetensi Sosial Kepribadian untuk Peserta LPTK
UNG ...................................................................................... 411
Gambar 111. Profil Kompetensi Sosial Kepribadian untuk Peserta LPTK
UINAM .................................................................................. 412
Gambar 112. Hasil Penilaian Kepraktisan Model Penilaian Oleh Pengguna . 419
xxii
DAFTAR LAMPIRAN
Hal
Lampiran 1. Kisi-Kisi Instrumen Penilaian PPG ....................................... 449
Lampiran 2. Hasil Penilaian Expert Judgement dan Pengujian Kecukupan
Sampel ................................................................................. 459
Lampiran 3. Hasil Pembuktian Validitas Konstruk Uji Coba I .................. 466
Lampiran 4. Hasil Estimasi Reliabilitas Uji Coba I................................... 478
Lampiran 5. Karakteristik Instrumen Penilaian PPG Uji Coba I ............... 490
Lampiran 6. Hasil Pembuktian Validitas Konstruk Uji Coba II ................ 542
Lampiran 7. Hasil Estimasi Reliabilitas Uji Coba II ................................. 554
Lampiran 8. Karakteristik Instrumen Penilaian PPG Uji Coba II .............. 566
Lampiran 9. Hasil Penilaian PPG ............................................................ 618
Lampiran 10. Instrumen Penilaian Kepraktisan Model Penilaian PPG
Dengan Penskoran Parsial Dan Holistik ............................... 644
Lampiran 11. Hasil Penilaian Kepraktisan Model Penilaian PPG
Dengan Penskoran Parsial Dan Holistik ............................... 645
Lampiran 12. Rekomendasi Izin Penelitian ............................................... 647
xxiii
BAB I
PENDAHULUAN
yang saling berinteraksi ataupun interdepensi satu sama lain secara fungsional
dalam satu kesatuan yang terpadu sebagai komponen sentral. Komponen sentral
yang memengaruhi kualitas pendidikan yaitu guru, peserta didik dan tujuan
interaksi yang terjadi antara guru dan peserta didik, dan hal ini hanya menjadi
pendidikan sangat ditentukan oleh kualitas guru (Bahcivan & Cobern, 2016;
Retnawati, Apino, & Anazifa, 2018). Beberapa studi juga ditemukan bahwa ada
hubungan yang kuat antara apa yang dilakukan guru dengan pencapaian hasil
belajar peserta didik. Jika guru berkinerja tinggi, maka cenderung peserta
didiknya juga memiliki prestasi belajar yang tinggi, sehingga upaya meningkatkan
prestasi belajar peserta didik salah satunya melalui perbaikan kinerja guru (Fahmi,
Maulana, & Yusuf, 2011; Steinberg & Garrett, 2016; Stronge, 2018; Sulisworo,
Nasir, & Maryani, 2017; Suswantar & Retnawati, 2016). Oleh karena itu, penting
1
Kualitas guru hingga saat ini tetap menjadi perhatian global semua negara
di dunia dan menjadi isu-isu penting untuk terus diupayakan peningkatannya. Hal
ini tidak lepas dari kritik dan konsensus berbagai kalangan, baik pemerhati
sesuai dengan standar yang diharapkan dan tentunya membutuhkan kesadaran diri
guru yang berkualitas (Creemers, Kyriakides, & Antoniou, 2012; Gareis & Grant,
2014; Good, 2008; Goodwin, 2010; Rabadi-Raol, 2019; Zhu, Goodwin, & Zhang,
2017). Hal ini menunjukkan kualitas guru di berbagai negara termasuk Indonesia,
perkembangan terkini berada pada kondisi gawat darurat. Hal ini didukung oleh
data hasil pemetaan oleh Kemendikbud terhadap 40.000 sekolah pada tahun 2012
hasil uji kompetensi guru tahun 2012 terhadap 460.000 guru hanya mencapai nilai
rata-rata 44,5 dari standar yang diharapkan pada nilai 70. Hasil pemetaan akses
dan mutu pendidikan pada tahun 2013 dan 2014 oleh The Learning Curve-
pendidikan tinggi oleh 21 Universitas tahun 2013 Indonesia berada pada peringkat
49 dari 50 negara. Jika dilihat dari data hasil uji kompetensi guru tahun 2015
terhadap 2.430.427 guru di Indonesia secara nasional belum mencapai target yang
diharapkan dengan nilai rata-rata 55 yaitu hanya 53,05, yang diperoleh dari nilai
2
rata-rata kemampuan profesional 54,77 dan nilai rata-rata kompetensi pedagogik
49.84. Dari 34 Provinsi hanya ada 7 Provinsi yang mencapai nilai rata-rata
nasional, yaitu Provinsi D.I Yogyakarta (62,48), Jawa Tengah (59,10), DKI
Jakarta (58,44), Jawa Timur (56,73), Bali (56,13), Bangka Belitung (55,13), dan
Jawa Barat (55,05), rata-rata terendah hanya mencapai 41,96 untuk Provinsi di
dan kualitas guru di Indonesia. Hal ini dibuktikan dari beberapa hasil studi
sekolah di daerah terpencil masih sangat kekurangan guru, 2) banyak guru yang
penguasaan kompetensi guru (Fahdini, Mulyadi, Suhandani, & Julia, 2014; Fahmi
et al., 2011; Krisna, 2017; Mangkunegara & Puspitasari, 2015). Permasalahan ini
juga berbanding lurus dengan hasil survei Program for international student
Indonesia berada pada peringkat ke-64 dari 72 negara yang disurvei. Demikian
3
Solusi mengatasi permasalahan guru tersebut, tidak terlepas dari
akademik yang relevan dengan mata pelajaran yang diampunya dan memiliki
Selain itu, guru harus memiliki kemampuan yang memadai untuk melakukan
Meredith, Packer, & Kyndt, 2017). Artinya untuk menjadi seorang guru, penting
sertifikat pendidik sebagai bukti formal pengakuan kepada guru menjadi tenaga
profesional melalui Program PPG. Sebagaimana disebutkan pada Bab I Pasal 1 (5)
bahwa: “Program Pendidikan Profesi Guru yang selanjutnya disebut program PPG
4
adalah program pendidikan yang diselenggarakan setelah program sarjana atau
sarjana terapan untuk mendapatkan sertifikat pendidik pada pendidikan anak usia
Hal ini mempertegas bahwa untuk menjadi seorang guru, lulusan sarjana wajib
mengikuti Program PPG dan jika dinyatakan lulus diberikan sertifikat pendidik.
pendidikan dengan bidang yang diampu (Kemenristekdikti, 2017, 2018b). Hal ini
profesi bagi guru dapat membantu mereka menguasai materi dan mendukung
Kependidikan dan S1/DIV nonkependidikan yang memiliki bakat dan minat untuk
menjadi guru. Bentuk kedua adalah PPG dalam jabatan yang diselenggarakan
untuk guru pegawai negeri sipil dan guru bukan pegawai negeri sipil yang sudah
5
pembelajaran PPG menggunakan Hybrid Learning yang terdiri dari pembelajaran
Brightspace pada PPG dalam jabatan mulai dari instruktur menyiapkan materi
prajabatan dan bagi guru yang sudah mengajar dapat mengikuti PPG dalam
Kependidikan (LPTK).
LPTK adalah perguruan tinggi yang diberi tugas oleh pemerintah untuk
studi PPG Prajabatan ada 45 Universitas dari 27 Provinsi dan untuk tahun 2017
6
Dini (PAUD), Pendidikan Guru SD (PGSD), Pendidikan Luar Biasa, Bahasa
PPG dalam Jabatan untuk program studi mata pelajaran rumpun keagamaan pada
Madrasah Aliyah (MA), guru mata pelajaran Bahasa Arab pada Madrasah dan
Syarif Hidayatullah Jakarta, UIN Sunan Kalijaga Yogyakarta, UIN Syarif Kasim
Riau, UIN Sunan Gunung Djati Bandung, UIN Alauddin Makassar, UIN Sunan
Ampel Surabaya, UIN Ar-Raniry Aceh, Institut Agama Islam Negeri (IAIN)
Raden Fatah Palembang, IAIN Sumatera Utara, IAIN Walisongo Semarang yang
saat ini telah menjadi UIN Walisongo Semarang, IAIN Raden Intan Lampung,
IAIN Mataram yang saat ini telah menjadi UIN Mataram, dan Sekolah Tinggi
7
Agama Islam Negeri (STAIN) Jember yang saat ini telah menjadi IAIN Jember
teaching dan dilanjutkan dengan praktik pengalaman lapangan (PPL) dan uji
kepribadian dan sosial (Fauzan & Bahrissalim, 2017; Pamungkas et al., 2019;
PPG di LPTK meliputi kegiatan perkuliahan teori dan praktik tatap muka atau
daring bagi PPG daljab, lokakarya perangkat pembelajaran, PPL dan UKMPPG.
LPTK UNY pada 255 mahasiswa kependidikan Fakultas Ekonomi UNY terdiri
dari angkatan 2012 dan 2013 ditemukan sebagian besar (50,20%) mahasiswa
pula dengan evaluasi atau penilaian mereka terhadap Program PPG sebanyak
8
peserta PPG SM-3T Prodi PPKN Unesa terhadap pelaksanaan Program PPG
perangkat evaluasi berada pada kategori kurang baik (Anita & Rahman, 2013).
UIN Sunan Kalijaga Yogyakarta tahun 2016 menunjukkan sebagian peserta PPG
mengeluhkan tentang padatnya kegiatan PPG dan juga banyaknya materi yang
harus dikuasai, tugas yang tidak terselesaikan tepat waktu, lamanya waktu jeda
antar kegiatan satu dengan kegiatan lainnya serta banyaknya laporan yang harus
dibuat oleh peserta PPG. Penelitian di LPTK Universitas Negeri Semarang pada
pembelajaran yang dipelajari saat workshop SSP dengan yang ada di lapangan,
terdapat beberapa peserta PPG yang harus menjalani ujian tulis nasional (UTN)
ulang karena nilainya dibawah standar yaitu 60 (Ningsih, Fatchan, & Susilo,
2016).
9
mahasiswa Program Studi Matematika di Universitas Ageng Tirtayasa
menunjukkan capaian mahasiswa baik tugas akhir, nilai akhir dan forum diskusi
termasuk dalam kategori sangat baik, persepsi peserta PPG termasuk dalam
guru melalui lokakarya dan PPL di LPTK Universitas Negeri Jakarta, Universitas
pertanyaan untuk peserta didik pada saat pengajaran di kelas, 60% mampu
peserta PPG pada pelaksanaan PPL yang mampu melakukan manajemen kelas
terkait hasil temuan evaluasi terhadap uji kelulusan PPG dititikkan pada uji
guru dalam menguasai subjek specific pedagogy (SSP) atau pedagogical content
10
penilaian poses pembelajaran pada program PPG. Sementara hasil evaluasi dari
pengajaran. Oleh karena itu, disimpulkan hanya sebagian kecil peserta PPG yang
merupakan indikator penilaian pada saat praktik mengajar di kelas (RISE, 2018).
banyak lulusan Program PPG yang belum memenuhi tuntuan kompetensi yang
dipersyaratkan, maka apakah model penilaian yang digunakan saat ini telah
Berkaitan dengan upaya tersebut, perlu ada model penilaian yang dapat
11
penilaian yang objektif, akurat, konsisten dan tidak bias. Meskipun saat ini sudah
Belmawa. Terdapat beberapa alasan model penilaian PPG yang sudah ada perlu
PPG diestimasi dengan menggunakan skor mentah yaitu dengan menjumlah skor
setiap aspek menjadi total skor perolehan dibagi dengan skor maksimal, kemudian
hasil skor yang diperoleh peserta tersebut dibandingkan dengan batas kelulusan
(dengan kriteria Baik). Penilaian seperti ini bersifat relatif tidak mampu
kemampuan rendah berdasarkan komponen dari setiap aspek yang dinilai dan
penilaian seperti ini dalam teori pengukuran masih menggunakan pendekatan teori
kesalahan pengukuran yang bersifat acak (tidak sistematis), dimana tidak ada
hubungan antara skor sebenarnya dengan skor kesalahan. Skor amatan dan skor
sehingga keduanya sangat bergantung pada hasil dari karakteristik peserta yang
dinilai, dimana skor amatan adalah satu-satunya skor yang tampak sedangkan skor
Mardapi, & Suparno, 2014a; Mardapi, 2017; Retnawati, 2011, 2016b; Sumintono
12
& Widhiarso, 2014). Hal ini menunjukkan penilaian yang ada belum dapat
industri 4.0 saat ini. Selanjutnya untuk penilaian terkait penguasan kompetensi
sosial dan kepribadian dari instrumen penilaian yang sudah ada, menyatu dengan
dan indikator yang dinilai. Oleh karena itu, perlu dilakukan pengembangan
Berdasarkan hasil Focus Discussion Group (FGD) dengan dosen dan guru
penilai memberi skor pada angka 7, 8, dan 9 tanpa memperhatikan perbedaan skor
13
tersebut dari setiap tahapan komponen/aspek yang dinilai, padahal komponen
serangkaian tahapan dan skor seharusnya diberikan pada setiap tahapan tersebut.
Selanjutnya setiap kategori dari item yang dinilai pada instrumen menunjukkan
dilangkah lain. Hal ini terjadi, karena penskoran yang ada dalam instrumen
panduan penilaian yang disertai dengan rubrik yang rinci dan jelas terhadap
komponen dari indikator dan aspek yang dinilai. Padahal buku panduan ini, sangat
membantu penilai memiliki persepsi yang sama dalam melakukan penilaian agar
14
yang harus diperbaiki dan dikuasai dan tentunya hal ini berdampak pada
berdasarkan hasil penilaian juga dapat diketahui kemampuan rata-rata para peserta
PPG pada aspek mana yang perlu ditingkatkan dan siapa yang perlu mendapatkan
pembinaan secara kontinu, serta siapa yang telah mencapai standar kemampuan
dilihat dari tinggi rendahnya prestasi yang diperoleh peserta PPG dan prestasi
tersebut dapat diketahui setelah diadakan evaluasi yang dinyatakan dalam bentuk
nilai pada setiap sub kompetensi, selain itu untuk mengidentifikasi kesulitan
belajar yang dialami peserta dengan mencari penyebab dan solusi pemecahannya.
Hal ini juga diperkuat oleh Selvi (2010); Kartowagiran (2010); Munadi,
15
Kelebihan-kelebihan yang dapat diperoleh dengan adanya pengembangan
pendekatan teori respon butir (Item Response Theory, IRT) model politomus
untuk menentukan level atau kategori yang dicapai peserta berdasarkan respons
yang diberikan, agar dapat menggali informasi karakteristik item lebih jauh dan
harus dikerjakan peserta PPG pada komponen yang dinilai dan skor yang
peserta PPG, mulai dari mencari teori yang relevan dari buku reverensi, jurnal-
reliabilitasnya.
penskoran parsial dan holistik yang bertujuan untuk menggali informasi lebih jauh
hasil estimasi kemampuan peserta PPG. Pada penilaian dengan penskoran parsial,
tahapan yang dinilai dari peserta PPG benar ditahap tertentu, tetapi salah ditahap
berikutnya atau yang lain. Oleh karena itu, penskoran parsial merupakan pilihan
16
yang berpeluang untuk memberikan informasi posisi kemampuan peserta PPG.
Semakin tinggi parameter kemampuan peserta PPG, maka semakin besar pula
peluang peserta tersebut mengerjakan tahapan demi tahapan dengan benar untuk
suatu item yang dinilai. Sementara penskoran holistik digunakan untuk menilai
secara terpisah, namun mampu menilai semua kinerja yang ditunjukkan dalam
tersebut memenuhi kategori lengkap, maka peserta PPG dalam rumusan tujuan
pembelajarannya ada audience sebagai tahap ke-1, tahap ke-2 ada audience dan
behavior, tahap ke-3 audience, behavior, condition, tahap ke-4 ada audience,
ini dalam mengestimasi kemampuan peserta PPG, digunakan fungsi informasi dan
memerlukan ketepatan dan akurasi yang tinggi untuk menghindari adanya resiko
17
model penilaian ini bukan hanya dapat digunakan untuk menilai penguasaan
capaian kompetensi peserta PPG, namun juga dapat digunakan untuk penilaian
PPG dan kelebihan yang dimilikinya, maka hasil penilaian yang diperoleh akan
kompetensi guru sebagai guru yang profesional. Hal diperkuat dengan beberapa
Valeeva (2014); Pollard (2014); K. Liu (2015); Galih & Iriani (2018)
menjadi guru profesional tidak cukup hanya dinilai dari kepemilikan sertifikat
jawabnya, melakukan refleksi diri dalam membuat keputusan lebih lanjut untuk
perbaikan pengajaran di masa kini dan masa depan. Karena ketidakmampuan guru
demikian, melalui hasil penelitian ini diharapkan akan mengantarkan pada usaha
18
peningkatan kompetensi peserta PPG tidak hanya berhenti selama pelaksanaan
B. Identifikasi Masalah
1. Penilaian PPG saat ini bersifat relatif belum mampu membedakan peserta
tahapan dan skor seharusnya diberikan pada setiap tahapan tersebut, sehingga
pendekatan teori respon butir model politomus yaitu parcial credit model dan
3. Model penilaian PPG dengan penskoran parsial dan holistik hingga kini
19
berpeluang untuk memberikan informasi posisi kemampuan peserta PPG
4. Belum adanya panduan model penilaian PPG dengan penskoran parsial dan
C. Pembatasan Masalah
pokok masalah di atas, maka penelitian ini membatasi pada pengembangan model
penilaian PPG dengan penskoran parsial dan holistik dengan beberapa batasan:
20
tertulis menggunakan soal dari Panitia Nasional Uji Kompetensi Mahasiswa
Program PPG (Panas UKMPPG) yang terjadwal secara nasional dan tentunya
soal yang baku dan memenuhi kriteria item yang baik dan telah digunakan
parsial dan holistik. Item-item yang ada dalam instrumen yang dikembangkan
3. Lingkup Program PPG yang diteliti yaitu PPG Prajabatan bersubsidi dan PPG
21
pelaksanaan pembelajaran, kemampuan melaksanakan pembelajaran,
6. Lingkup Program Studi PPG yang diteliti disesuaikan dengan Program Studi
yang ada pada saat penyelenggaraan PPG Prajabatan bersubsidi dan PPG
Dalam Jabatan tahun akademik 2018/ 2019 di Rayon LPTK UNY, LPTK
D. Rumusan Masalah
berikut: “Bagaimana model penilaian PPG dengan penskoran parsial dan holistik
peserta PPG?
22
2. Bagaimanakah validitas dan reliabilitas model penilaian PPG dengan
peserta PPG?
E. Tujuan Pengembangan
holistik untuk mencapai penguasaan kompetensi peserta PPG secara akurat dan
peserta PPG.
parsial dan holistik yang memenuhi syarat validitas dan reliabilitas, agar
23
3. Mendeskripsikan karakteristik model penilaian PPG dengan penskoran parsial
PPG.
F. Manfaat Pengembangan
1. Secara teoretis hasil penelitian ini diharapkan dapat digunakan sebagai acuan
2. Secara praktis, hasil penelitian dapat dijadikan sebagai panduan bagi penilai
3. Hasil penelitian ini dapat digunakan sebagai bahan evaluasi dalam melakukan
perbaikan model penilaian PPG yang ada selama ini dalam menilai
24
estimasi kemampuan peserta yang lebih akurat dibandingkan dengan
G. Asumsi Pengembangan
1. Jika teori yang relevan digunakan untuk membuat konstruk, indikator yang
dinilai dapat diukur dan diamati, maka model penilaian PPG dengan
acuan kerangka teoretik yang cocok dan sesuai dengan kebutuhan dalam
peneliti mencari teori yang relevan dari buku reverensi, jurnal-jurnal atau
2. Jika model penilaian PPG dengan penskoran parsial dan holistik yang
3. Jika model penilaian PPG dengan penskoran parsial dan holistik yang telah
25
praktis dalam meningkatkan kualitas hasil pelaksanaan PPG di LPTK dan
penelitian dan pengembangan ini fokus pada dua penskoran yaitu penskoran
yang ada dalam Buku Pedoman Penyelenggaraan PPG Tahun 2018 dan
yang ada dalam Buku Pedoman Penyelenggaraan PPG Tahun 2018 dan
parsial dan holistik yang mengacu pada komponen dan indikator kompetensi
sosial dan kepribadian yang ada dalam Buku Pedoman Penyelenggaraan PPG
4. Buku Panduan Penilaian PPG dengan penskoran parsial dan holistik. Panduan
penilaian ini bertujuan untuk memandu penilai dalam menilai setiap tahapan
26
komponen dari masing-masing instrumen yang dikembangkan, sehingga
5. Model yang dimaksud dalam penelitian ini adalah seperangkat prosedur yang
terdiri dari sejumlah alat dan cara yang disusun secara berurutan untuk
menilai suatu proses dan hasil. Oleh karena itu, model penilaian PPG dengan
27
BAB II
KAJIAN PUSTAKA
A. Kajian Teori
profesional pada jenjang pendidikan anak usia dini, pendidikan dasar, dan
kompetensi yang harus dimiliki oleh seorang guru dalam Undang-Undang Nomor
14 Tahun 2005 tentang Guru dan Dosen Pasal 10 disebutkan bahwa kompetensi
nyata sejak tahun 2007 dilakukan uji sertifikasi guru untuk selanjutnya bagi yang
profesinya.
nonformal dan informal bagi setiap orang di semua profesi sehingga sering
disebut sebagai “white collar” adalah tipe pekerja yang memiliki keterampilan
pengembangan profesi guru. Guru termasuk profesi khusus seperti dokter dan
28
penasihat hukum karena menjadi seorang guru dituntut memiliki keahlian tertentu
sebagaimana dipersyaratkan dari segi kualifikasi dan kompetensi yang terukur dan
teruji sesuai dengan fungsi dan perannya. Oleh karena itu, pengembangan profesi
guru sangat penting, karena ketika guru berada di sekolah akan berhadapan
dengan peserta didik dari berbagai latar belakang, sehingga membutuhkan sosok
guru yang memiliki kompetensi yang tinggi sesuai dengan kebutuhan dan
tantangan yang dihadapi (Athar & Jamal, 2017; Copriady, 2013; Cranton, 2016).
atau pendidikan lainnya yang mendukung profesinya dalam kurun waktu tertentu.
peningkatan gaji dan kemajuan karir guru, serta guru juga harus memiliki
kesadaran dan komitmen yang kuat secara internal untuk terus belajar
(Hendriks, Luyten, Scheerens, Sleegers, & Steen, 2010; Sulisworo et al., 2017).
Pendidikan profesi bagi guru sangat terkait dengan guru profesional karena
lebih mendalam untuk menjadi guru profesional (Caena, 2011; Galih & Iriani,
29
2018; Oviyanti, 2016; Petrie & McGee, 2012). Pendapat ini menunjukkan
pentingnya pendidikan profesi bagi guru dan akan terus menjadi isu penting dalam
Profesi Guru (PPG). PPG merupakan salah satu program pemerintah yang
guru lainnya untuk menjadi guru yang profesional. Disamping itu, program PPG
merupakan syarat mutlak bagi guru untuk mendapatkan pengalaman nyata yang
memperoleh sertifikat pendidik (Amadi, 2013; Anita & Rahman, 2013; Hotimah
dinilai efektif bagi calon guru dan guru di Indonesia dalam meningkatkan
pembelajaran. Pendapat ini didukung oleh Mizell (2010), Smylie (2014), Gareis
and Grant (2014) menyatakan untuk menjadi guru profesional penting mengikuti
30
karena untuk mempersiapkan seseorang menjadi guru profesional tergantung pada
dirancang sesuai dengan kebutuhan dan bagaimana guru belajar, berlatih, dan
melakukan refleksi diri memperbaiki praktik mengajar yang lebih efektif secara
tiga aspek yang berbeda dalam mengartikulasikan profesi guru yaitu terletak pada
Orchard, 2015, Indriyani & Ismandari, 2015). Dengan demikian secara teoritis
profesionalisasi guru berbasis individu, karena dalam program ini hal yang
ditekankan adalah peningkatan kompetensi yang wajib dimiliki oleh seorang guru
31
guru meliputi pembinaan kompetensi pedagogik, kepribadian, profesional, dan
mengajar dengan berbagai strategi pembelajaran yang baru (Prasojo et al., 2017;
Surya, 2014). Untuk mewujudkan hal ini mahasiswa/peserta PPG perlu difasilitasi
agar siap mengikuti program tersebut dengan baik dan perlu ditumbuhkan
yang kuat dalam disiplin pengetahuan tertentu, (c) memberikan pengetahuan yang
lebih umum tentang proses belajar dan mengajar di sekolah dan lembaga
terhadap prestasi belajar peserta didik yang terukur, (f) setiap guru untuk terikat
intelektual dengan ide-ide dan sumber daya, (g) memberikan cukup waktu,
dukungan dan sumber daya untuk memungkinkan para guru menguasai konten
dan pengetahuan baru. Hal ini menunjukkan bahwa Program PPG mampu
telah dikuasainya. Jika prinsip-prinsip ini terlaksana dengan baik maka tujuan
32
Konsep pembelajaran program PPG di atas, sejalan dengan teori
inti dari praktik pembelajaran yang berbeda dengan anak-anak. Orang dewasa
berada di posisi yang berbeda dalam siklus hidup, pengalaman hidup orang
dewasa lebih besar dan lebih bervariasi dibandingkan dengan anak-anak sehingga
kebutuhan dan minat belajar orang dewasa dan anak-anak berbeda. Pembelajaran
orang dewasa dilakukan sepanjang hayat atau seumur hidup tanpa memandang
usia untuk menjamin pertumbuhan dan kecakapan hidup yang pada akhirnya
terletak pada sifat dan kebutuhannya (Jarvis, 2004; Merriam & Bierema, 2013).
pembelajaran orang dewasa yaitu: 1) memiliki konsep diri dan kemandirian dalam
memiliki kebutuhan belajar yang erat kaitannya dengan perubahan peran sosial, 4)
dan menekankan pada self directed learning yang memberikan acuan bagaimana
33
Kaitannya dengan pembelajaran pada Program PPG, menjadikan peserta PPG
sebagai subjek belajar aktif, yang mampu merubah etos belajar mandiri pada diri
mereka sebagai guru/calon guru, karena sikap belajar orang dewasa memengaruhi
usahanya dalam pencapaian hasil yang lebih baik. Dalam pembelajaran orang
menerapkan apa yang dipelajari menuju pada peningkatan arah diri secara
Besas, Galiropoulos, & Hioctour, 2015; Henschke, 2011; Ozuah, 2016). Dengan
demikian, peserta PPG sebagai orang dewasa cenderung memilih kegiatan belajar
dipelajarinya.
konsep DAMN yaitu: 1) desire to learn, orang dewasa belajar karena dorongan
34
dirinya untuk terus belajar dan sebagai kebutuhan yang mendesak untuk terus
program PPG, karena lebih pada kegiatan membimbing dan membantu peserta
didukung pendapat Wardoyo (2015) profesi guru berbeda dengan profesi lain,
lulusan Program PPG yang dapat mengarahkan dirinya sendiri untuk terus belajar
menjadi guru bagi dirinya sendiri. Hal ini berpijak pada landasan pembelajaran
andragogi itu sendiri yang memiliki formula pembelajaran yang selalu diarahkan
pada kondisi dan sasaran yang menekankan pada pemberian keterampilan dan
dalam pembelajaran.
satu dengan yang lain saling berinteraksi dan berkaitan untuk mencapai hasil yang
diharapkan sesuai dengan tujuan yang telah ditentukan. Demikian halnya dengan
35
PPG memiliki sistem yang terdiri dari berbagai komponen dalam mendukung
penilaian, sarana dan prasarana, penjaminan mutu PPG dan komponen pendukung
lainnya yang saling berinteraksi dan berkaitan satu sama. Dengan adanya berbagai
lapangan (PPL) dan uji kompetensi mahasiswa PPG (UKMPPG) yang ditekankan
Program PPG dilakukan berdasarkan prinsip yaitu (a) Belajar dengan melakukan,
(b) keaktifan peserta didik, (c) Berpikir tingkat tinggi, (d) dampak pengiring, (e)
(i) berorientasi pada TPACK (Caena, 2011; Widiati & Hayati, 2015; Winch et al.,
2015). Prinsip-prinsip ini yang perlu mendapat perhatian khusus pada pengajaran
36
karena proses pengembangan profesionalnya dimulai sebelum guru memasuki
sebagai peserta didik di sekolah (Prasojo et al., 2017). Dengan prinsip ini,
berinteraksi dengan berbagai macam hal dari luar diri maupun dari dalam diri
manusia itu sendiri, yang kemudian interaksi itu akan memengaruhi interaksi
sekedar menjadi tumpukan pengalaman yang lepas, tetapi dapat terjadi suatu
hasil pengalaman dari peserta yang terus-menerus baik dari masa lalu maupun
masa kini. Pengalaman masa lalu dapat digunakan untuk merekonstruksi masa
kini, sebaliknya masa kini digunakan untuk membangun masa depan. Oleh karena
itu, pandangan Dewey ini dapat menjadi dasar dalam merefleksi pengalaman yang
secara timbal balik baik yang bersifat pribadi maupun sosial, dan dapat menjadi
untuk merekonstruksi teori masa kini, sehingga penting peserta PPG perlu diajak
untuk merefleksikan masa lalunya dengan perolehannya masa kini agar mampu
membuat keputusan yang tepat dalam berbuat di masa kini untuk masa depannya
37
dalam meningkatkan kompetensinya sebagai guru profesional. Hal ini sejalan
dengan pandangan Paterson (2010) bahwa pendidikan tidak hanya dapat terjadi
pada diri seseorang, melainkan sebagai proses yang akan membentuk diri
Prinsip kedua yaitu keaktifan peserta didik yang diarahkan pada upaya
mengaktifkan peserta didik bukan dalam arti fisik melainkan dalam keseluruhan
pembelajar keaktifan peserta tidak hanya diukur dari pengertian fisik semata,
tetapi juga dilihat dari tingginya minat dalam menyelesaikan permasalahan yang
sedang dihadapi serta mencari berbagai macam sumber belajar termasuk media
online dan offline (Prasojo et al., 2017; Widiati & Hayati, 2015). Prinsip ini dapat
merupakan aplikasi dari konsep-konsep yang telah dipelajari. Hal ini sejalan
dengan teori konstruktivisme sebagai salah satu filosofi pembelajaran yang paling
adalah hasil dari gagasan dan pengalaman (Calvert, 2016; Krahenbuhl, 2016).
38
keputusan. Menurut Tekkumru Kisa and Stein (2015) berpikir tingkat tinggi
memerlukan lebih dari sekedar menghafal informasi yang diberikan, lebih dari
teaching saat PPL (Prasojo et al., 2017; Widiati & Hayati, 2015). Prinsip ini
berpikir kritis, kreatif, logis, dan reflektif dalam memecahkan setiap permasalahan
menuntun ke arah perubahan pembelajaran yang lebih baik. Hal ini sejalan dengan
merumuskan pengalaman yang akan dilalui dan dipelajari oleh individu, sehingga
mendukung pengembangan soft skill yang diperlukan untuk menjadi seorang guru
profesional, seperti kerjasama tim, kepemimpinan, kebebasan dan sikap yang baik
39
serta menghormati satu sama lain (Calvert, 2016; Widiati & Hayati, 2015). Prinsip
ini akan membantu pengembangan sikap dan kepribadian peserta PPG sebagai
konfirmasi, dan koreksi terutama pada saat presentasi hasil workshop, peer
teaching, dan realteaching. Prinsip ini dilakukan secara teratur melalui tugas-
tugas, menulis tes, tes kinerja, dan memberikan umpan balik pada kinerja peserta
didik pada tugas dan tes. Dengan demikian prinsip mekanisme balikan pada
pembelajaran PPG harus dilakukan secara teratur agar dapat diketahui kinerja
teknologi dan informasi. Menurut Cober, Tan, Slotta, So, and Könings (2015)
pembelajaran yang terpusat pada peserta didik serta dengan penggunaan teknologi
peserta didik tertarik dalam belajar (Aburezeq & Ishtaiwa, 2013; Chen, Chang, &
40
Yen, 2012). Demikian halnya menurut Yueh, Lin, Jo-Yi, and Sheen (2012) bahwa
menciptakan lingkungan belajar yang berkualitas tinggi. Oleh karena itu, tujuan
kreativitas dan inovasi yang ada dalam diri peserta PPG (Prasojo et al., 2017;
Widiati & Hayati, 2015). Hal ini didukung pendapat Suryawati & Osman (2018)
yang sistematis, dua aspek penting dalam pengajaran sistematis adalah metode
41
utama guru adalah menggunakan strategi pengajaran yang memungkinkan
strategi yang bervariasi dengan berbagai macam sumber belajar yang tersedia.
dari strategi yang digunakan seorang pendidik menempatkan peserta didik dalam
menyenangkan baginya untuk belajar (Moore, 2010; Peters, 2010; Pring, 2005).
belajar..
42
memperhatikan prinsip-prinsip pembelajaran yang mendasarinya yaitu belajar
pada TPACK.
yang diperlukan pada Program PPG. Standar Program PPG membedakan antara
dan praktik mengajar guru, serta peningkatan hasil pembelajaran peserta didik.
keberhasilan peserta didik. Hal ini mengindikasikan bahwa standar ini akan
membantu siapa saja yang ingin memahami secara lebih rinci persyaratan untuk
melaksanakan pendidikan profesi guru yang efektif. Terdapat standar profesi yang
berlaku untuk semua guru yaitu: a) nilai dan hubungan profesional, b) integritas
43
profesional, f) kerjasama dan kolaborasi profesional (Darling-Hammond, Hyler, &
oleh guru profesional akan menunjukkan dampak pada pencapaian hasil belajar
belajar dan berdampak pada pengajaran, (d) memiliki pengetahuan yang relevan
secara sistematis dan efektif; dan, (f) mengetahui dan memahami bagaimana cara
menilai ranah hasil belajar peserta didik. Hal ini mensyaratkan untuk menjadi
standar yang menguraikan apa yang harus diketahui dan dilakukan guru yaitu: a)
tahu peserta didik dan bagaimana mereka belajar, b) tahu konten dan bagaimana
44
secara profesional dengan kolega, orang tua/wali dan masyarakat (O’Meara,
yang dijewantahkan dalam praktik pembelajaran di kelas dan selalu terlibat dalam
content knowledge (PCK) penting dikuasai oleh setiap guru karena berkaitan
dengan bagaimana peserta didik belajar dan materi yang diajarkan (Van Driel &
Berry, 2012).
teruji dan terukur yang dikembangkan secara utuh dari empat kompetensi utama,
delapan standar pendidikan pada program PPG hanya empat standar yang dibahas
45
yaitu standar kompetensi lulusan, standar isi, standar proses dan standar: penilaian
(CPL) dan capaian pembelajaran Bidang Studi (CPBS) Program PPG. Rumusan
Terkait implementasi standar ini dalam Buku Panduan PPG tahun 2018
oleh peserta PPG beserta sub kompetensi dan indikatornya yang tertera dalam
46
Standar isi pada program PPG merupakan kriteria minimal tingkat
keilmuan dan/atau keahlian Program PPG. Standar isi untuk Program PPG
(Kemenristekdikti, 2018b).
penjabaran lebih lanjut dari tujuan Program PPG. RPS sekurang-kurangnya berisi
waktu, indikator penilaian, bobot nilai, dan referensi. Proporsi antara workshop
SSP dan PPL yaitu 60 : 40 dari beban belajar PPG (Kemenristekdikti, 2018b;
Prasojo et al., 2017). Dengan demikian struktur kurikulum PPG berisi workshop
47
Standar proses merupakan kriteria minimal pelaksanaan pembelajaran
pada Program PPG untuk memperoleh capaian pembelajaran lulusan sebagai guru
pembelajaran, dan beban belajar PPG Prajabatan adalah 36-40 SKS dengan
kontekstual, tematik, efektif, kolaboratif, inovatif dan berpusat pada peserta didik
serta mandiri. Implementasi dari standar proses PPG disajikan pada Gambar 1:
menjadi PPG Prajabatan dan PPG dalam Jabatan dengan mengacu pada
48
Gambar 2. Mata Kegiatan PPG Prajabatan
perangkat pembelajaran, dan PPL. MKU terdiri dari orientasi awal, penyusunan
rancangan Penelitian Tindakan Kelas (PTK), serta praktik dan seminar hasil PTK.
Sementara kegiatan PPL berisi kegiatan praktik mengajar dan non mengajar
dengan bobot SKS 19 SKS dan untuk PPG kejuruan, PPL dapat disertai dengan
kegiatan industri. Adapun mata kegiatan, kode dan besaran jumlah SKS mata
49
Tabel 1. Kelompok Mata Kegiatan PPG Prajabatan
Jumlah
No Kelompok Mata Kegiatan Kode
SKS
1 Mata kegiatan Umum MKU 4
2 Lokakarya Pengembangan
LOK 19
Perangkat Pembelajaran
3 PPL MPL 15
Jumlah 38
Selanjutnya mata kegiatan dan bobot kegiatan Program PPG dalam jabatan
(11) Beban belajar Program PPG Daljab paling sedikit 24 sks yang dibagi dalam
50
Selanjutnya untuk mahasiswa/peserta PPG Daljab mengingat telah
lokakarya dilakukan secara tatap muka di LPTK dengan bobot 8 SKS dan PPL
(Kemenristekdikti, 2018b). Adapun mata kegiatan, kode dan besaran jumlah SKS
mengenai penilaian proses dan hasil belajar mahasiswa/peserta PPG dalam rangka
proses dan hasil belajar mahasiswa meliputi penilaian proses dan produk
diselenggarakan oleh Panitia Nasional yang dilakukan melalui uji tulis dan uji
PPG yang lulus penilaian proses dan produk, uji kompetensi, dan penilaian
51
capaian pembelajaran lulusan Program PPG dapat terukur dan teruji. Oleh karena
harus menentukan apakah tugas dapat diberikan ke peserta atau tugas harus
diganti. Selain itu, tugas instruktur PPG daljab adalah kurator tes, yang harus
menentukan apakah tes dapat diberikan ke peserta atau tes harus diganti.
Selanjutnya tugas instruktur juga membuat topik diskusi dengan cara menuliskan
sehingga forum diskusi hanya dapat digunakan untuk mendiksuiakn materi yang
2019). Intisari dari Program PPG bukan merupakan jalur pintas menjadi guru
profesional, namun harus melalui tahapan proses yang panjang mulai dari lulus
Daring bagi peserta PPG Dalam Jabatan, lapor diri, orientasi, mengikuti
akuntabilitas profesional guru. Hal ini bertujuan untuk memastikan bahwa guru
52
keterlibatan profesional yang sesuai dengan yang distandarkan. Jika standar
pendidikan yang berkualitas, keduanya saling terkait dan tidak dapat dipisahkan
suatu kelompok misalnya kelas, sekolah atau pembuat kebijakan (Kartowagiran &
(Anisa, 2017; Ofianto & Suhartono, 2015; Suyata, Mardapi, Kartowagiran, &
dirumuskan dengan jelas, dapat diukur dan mampu menjelaskan keberhasilan dari
53
sesuai yang direncanakan, b) pengecekan, yaitu untuk mencari informasi apakah
dengan yang harus dicapai sesuai dengan kompetensi (Mardapi, 2017: 14-15).
Pendapat ini menunjukkan bahwa penilaian menjadi isu yang sangat penting
dalam standar penilaian dijelaskan bahwa penilaian proses dan hasil belajar
PPG. Hal ini juga sejalan dengan paradigma penilaian yang merupakan bagian
dari cara membelajarkan peserta didik, jika ingin mengevaluasi pelaksanaan hasil
belajar harus didahului penilaian yang mampu mendorong peserta didik belajar
lebih baik (Mardapi, 2017: 14). Penilaian sebenarnya terbatas pada penafsiran
skor hasil tes atau hasil pengukuran lainnya yang bukan tes (Popham, 1997: 6;
Mardapi, 2017: 162). Pendapat ini memperjelas titik fokus penilaian merupakan
pemantapan kompetensi dasar yang harus dimiliki peserta sebagai seorang guru
54
pelaksanaan sebuah program menjadi lebih baik, maka harus dilakukan penilaian
baik dalam konteks pembelajaran maupun dalam konteks kehidupan guru sebagai
Tahun 2005 tentang guru dan dosen. Selain itu mengacu pada Permendiknas
Nomor 16 Tahun 2007 tentang standar kualifikasi akademik dan kompetensi guru,
serta tertuang dalam Permendikbud Nomor 57 tahun 2012 tentang uji kompetensi
Nomor 55 Tahun 2017 tentang Standar Pendidikan Guru. Hal ini menunjukkan
dalam konteks otentik ditekankan pada kualitas kinerja secara keseluruhan selama
55
peserta melakukan PPL melalui pengamatan dan juga dapat dilengkapi dengan
Penilaian setiap peserta melalui penilaian portofolio dengan kriteria nilai minimal
kelulusan kegiatan PPL adalah B (3,0) bagi yang gagal diberi latihan tambahan
2017). Untuk bobot penilaian akhir PPL seperti disajikan pada Tabel 3.
terdiri atas ujian tulis dan ujian kinerja. Ujian tulis terdiri dari Uji Tulis LPTK
(UTL) dan Uji Tulis Nasional (UTN) yang ditempuh mahasiswa/peserta PPG
56
Tabel 4. Rambu-Rambu Ujian Tulis LPTK (UTL)
menetapkan kualitas proses dan hasil belajar mahasiswa Program PPG seperti
57
Mencermati Gambar 4 menunjukkan bahwa teknik-teknik penilaian
tersebut baik tes maupun non tes dapat digunakan untuk menilai kualitas proses
dan analisis isi dokumen; c) uji kompetensi berupa tes tulis dan tes kinerja
objektif dan akuntabel. Menurut Kane, Kerr, & Pianta, (2014: 1) mengajar adalah
interaksi yang kompleks antara guru, siswa, dan materi yang tidak hanya satu
58
Guna menghasilkan penilaian yang objektif dan akuntabel dilakukan
indikator. Indikator ini yang menjadi acuan dari dimensi yang dinilai dari capaian
a. Kompetensi Pedagogik
atau tugas yang didasarkan pada pengetahuan, sikap, dan keterampilan yang
berkenaan langsung dengan profesi guru dan banyak disoroti dalam proses
profesi guru dengan profesi lainnya yaitu fokus pada penguasaan terhadap teori
perkembangan dan teori-teori belajar mutlak ada pada guru, serta mampu
59
pedagogik berkaitan dengan kemampuan guru mengelola peserta didik dan
2012b; Nur, 2014; Pamungkas et al., 2019; Robinson & Campbell, 2010;
Wardoyo, 2015; Yasin, 2012). Artinya untuk menjadi seorang guru harus
pembelajaran. Terdapat tiga aspek dari praktik profesional guru yang terintegrasi
profesional minimum guru, yang akan meningkatkan peran dari profesinya serta
pada program pendidikan guru menjadi suatu kebutuhan untuk terus ditingkatkan
(Jurčić, 2014; Martínez, 2010; Suciu & Mata, 2011). Ini mengindikasikan bahwa
pertama, pengembangan individu dan spesifik pada jalur karir yang dipilih.
60
melalui program praktik pengalaman lapangan untuk mempromosikan mahasiswa
dikuasai calon guru dan guru di negara-negara bagian Eropa, terutama di bagian
Utara dan Barat (Merkt, 2017). Indonesia sendiri juga telah mensyaratkan
kompetensi pedagogik sebagai salah satu kompetensi yang harus dimiliki calon
61
menciptakan hubungan yang positif, kerjasama dan mencapai tujuan belajar.
strategi mengajar yang dapat membantu peserta didik terlibat aktif dalam
dimensi ini memiliki keterkaitan satu sama lain dalam menunjang keberhasilan
efektif dengan cara: 1) menyusun alat penilaian yang sesuai dengan tujuan
mengidentifikasi dan memilih yang paling sesuai dengan materi yang diajarkan
dan mampu memaksimalkan dengan waktu pembelajaran yang ada. Dari kedua
62
dimensi ini menunjukkan bahwa menjadi seorang guru yang berkualitas harus
penilaian diri, tes, dan tugas kelas yang mencerminkan kemampuan siswa dari
terkendali (selama waktu tertentu), yang mana tidak ada bantuan yang diberikan,
Kartowagiran, Jaedun, and Hamdi (2017) bahwa guru dapat melakukan penilaian
ini kapan saja baik melalui pengamatan langsung maupun tes harian. Melalui
pencapaian sikap peserta didik sehingga penilaian tersebut harus menjadi sarana
untuk meningkatkan kinerja mengajar guru, yang dikenal sebagai assessment for
63
learning (AfL), dan menjadi sarana untuk meningkatkan pembelajaran peserta
pelajaran. Selain itu, guru juga penting memiliki kesadaran dan kesiapan untuk
memiliki kemampuan Higher Order Thinking Skills (HOTS), hal ini penting
untuk membantu peserta didik dalam memecahkan masalah baru, aklimatisasi diri,
dan membuat keputusan tentang masalah tertentu (Retnawati, Djidu, Apino, &
perlu dimiliki guru terkait kemampuan dalam hal pemilihan materi, penetapan
Jika mampu melakukan berbagai hal tersebut, maka hal ini akan menjadikan
64
Kaitannya dengan standar kompetensi pedagogik guru dalam penilaian
lingkup peran dan tanggung jawab guru dalam penilaian peserta didik yaitu: “1)
hasil penilaian, 7) terampil dalam mengenali metode penilaian yang tidak pantas,
memiliki hubungan yang sistemik antara pengajaran guru dengan penilaian yang
dilakukan.
terutama dalam mengembangkan instrumen penilaian yang baik dan tepat, namun
indikator yang sesuai dengan tujuan pembelajaran menjadi masalah besar bagi
guru, belum lagi menjabarkannya ke dalam beberapa item. Banyak guru sering
mengeluh dalam proses penilaian seperti masalah dalam penilaian kognitif yaitu
dalam mengkonstruksi item tes, dalam penilaian sikap para guru tidak dapat
65
mendesain instrumen yang baik dari perumusan definisi konseptual dari
menjadi sangat penting dimiliki dan dikuasai calon guru dan guru di Indonesia.
66
Berdasarkan Tabel 5 menunjukkan secara teoritis bahwa penilaian capaian
peserta didik.
67
harus dikuasainya adalah untuk mengembangkan kemampuan peserta didiknya
secara maksimal. Oleh karena itu, diperlukan instrumen penilaian yang mampu
mengukur kompetensi ini pada program PPG agar penilaian dari kompetensi ini
b. Kompetensi Profesional
guru dalam menguasai materi bidang studi secara luas dan mendalam yang
keterampilan yang dimiliki setiap guru, yang dapat dipelajari dan berubah, karena
68
globalisasi (Orazbayeva, 2016). Oleh karena itu, Kamerilova et al. (2018)
dengan bidang studi yang diajar, memahami konsep yang berkaitan dengan ilmu
yang luas dan mendalam mengenai bidang studi yang diajarkan kepada peserta
pendidikan.
pada Program PPG dapat dinilai secara lengkap, jika memperhatikan item-item
yang ada pada instrumen yang digunakan dalam menilai kompetensi profesional
guru di Indonesia seperti instrumen pada uji kompetensi guru dan instrumen
69
penilaian kinerja guru kelas/mata pelajaran. Jika merujuk pada Pedoman PPG
terdapat capaian kompetensi profesional yang harus dimiliki oleh lulusan program
PPG ini beserta subkompetensi dan indikatornya seperti disajikan dalam Tabel 6.
kemampuan yang dimiliki dalam menguasai materi pelajaran secara luas dan
ilmu pengetahuan, teknologi, atau seni yang relevan. Sub kompetensi yang dinilai
yaitu kemampuan menguasai materi pelajaran secara luas dan mendalam yang
menerapkan dan mengevaluasi materi, struktur, konsep, dan pola pikir keilmuan
70
yang mendukung pengembangan ilmu pengetahuan, teknologi, dan seni (Ipteks).
metode ilmu pengetahuan, teknologi, atau seni yang relevan dikembangkan dari
keilmuan, teknologi, atau seni yang relevan dan kemampuan dalam menemukan
konsep, pendekatan, teknik, atau metode baru dalam ilmu pengetahuan, teknologi,
atau seni yang relevan. Jika kompetensi profesional peserta program PPG yang
c. Kompetensi Kepribadian
telah memainkan peran penting dalam psikologi positif, dan salah satu temuan
kompleks yang tertanam secara mendalam dan sebagai karakter psikologis yang
muncul secara otomatis pada setiap individu (Jordan, 2011; Matthews, Deary, &
Kepribadian mengacu pada pola perilaku yang stabil atau sifat yang
71
yang dimilikinya seperti: bertanggungjawab, kreatif, dan komunikatif serta
setiap tindakan dan tingkah laku seseorang, termasuk setiap perkataan, tindakan,
dan tingkah laku dari seorang guru menceminkan kepribadiannya sebagai guru.
Kepribadian seorang guru adalah proyeksi diri kepada orang lain yang
membantu guru menjadi peka terhadap kebutuhan peserta didik dan memberikan
lingkungan belajar yang sehat, menjadi pribadi yang terbuka dan tidak emosional,
menjalin hubungan dengan sesama, memiliki semangat yang tinggi dalam bekerja
etika kerja yang tinggi, dan komitmen terhadap profesi serta bersedia dan
mampu menjadi pribadi yang dapat dicontoh dan dijadikan sebagai figur teladan
dengan berbagai tipe individu, mampu memotivasi diri dan peserta didik serta
72
dewasa, arif, dan berwibawa, menjadi teladan bagi peserta didik dan berakhlak
ini mencakup kemantapan pribadi dan akhlak mulia dari guru sebagai orang yang
ditiru dan digugu oleh peserta didiknya, sehingga guru perlu memiliki sikap
seperti toleransi, tanggung jawab, inisiatif, dan menjalin komunikasi dengan siapa
saja, selain itu seseorang yang memiliki kompetensi kepribadian ditandai dengan
kompetensi kepribadian menjadi pribadi yang pasif, memiliki tujuan yang tidak
menentu dan dan akhirnya merasa diri selalu gagal (Orazbayeva, 2016; Tyler,
adalah toleransi, tanggung jawab, inisiatif, dan menjalin komunikasi dengan siapa
saja yang sangat dibutuhkan oleh seorang guru sebagai teladan bagi peserta
73
Guru sebagai panutan seharusnya tidak menunjukkan citra negatif di depan
karakter peserta didik, ketika perilaku buruk terjadi di antara para guru, para
peserta didik mungkin meniru dan membuat kebiasaan itu. Guru diharapkan
memiliki kepribadian yang mantap dan stabil, dewasa yang ditunjukkan dengan
bertindak sesuai dengan norma agama, norma hukum, norma sosial, senang
etika kerja sebagai seorang guru, serta memiliki kepribadian yang bijaksana,
bertindak, memiliki sikap positif yang dapat diikuti peserta didik dan perilaku
yang dihormati. Selain itu, dalam proses pembelajaran, para guru penting
agama dan peraturan sekolah serta guru senantiasa mengingatkan peserta didik
akan perbuatan yang baik dan mengevaluasi perilaku peserta didik (Hakim, 2015;
Kartowagiran & Maddini, 2015). Oleh karena itu, dalam keadaan apa pun, guru
kepribadian seorang guru dan dapat disalurkan kepada para peserta didik dalam
proses belajar sehingga tercipta pembelajaran yang kondusif, sehingga guru yang
antusias dan memiliki kreativitas (Archer & Hughes, 2011; Pahrudin, Martono, &
Murtini, 2016). Kedua pendapat ini menunjukkan bahwa jika guru memiliki
74
kompetensi kepribadian yang baik, maka guru yang bersangkutan akan selalu
Guru yang mampu memahami kekurangan diri sendiri akan selalu belajar
dari seorang guru, tanggung jawab dan memiliki kemampuan yang komunikatif
ditetapkan sebagai prioritas dari pendidikan guru yang profesional (Olesova &
kinerja peserta didik. Jika guru ramah, perhatian, baik, teliti, terbuka, dan tidak
mudah emosi dapat meningkatkan kinerja belajar peserta didik. Dengan demikian
berhubungan dengan sikap dan kepribadian sebagai calon guru atau guru.
75
melaksanakan PPG adalah: 1) menunjukkan sikap dewasa dalam berpikir dan
guru yang baik. Oleh karena itu, diperlukan pengembangan instrumen penilaian
pada buku Pedoman PPG terdapat capaian kompetensi kepribadian yang harus
dimiliki oleh lulusan program PPG ini beserta subkompetensi dan indikatornya
76
Berdasarkan uraian di atas secara teoritis disimpulkan bahwa penilaian
kemampuan yang dimiliki dan dihayati dalam berperilaku sesuai dengan norma
agama, norma hukum, norma sosial, etika, dan nilai budaya. Sub kompetensi
yang dinilai yaitu berperilaku sesuai dengan norma agama, norma hukum, norma
sosial, etika, dan nilai budaya dalam penelitian ini dikembangkan dari indikator
yang meliputi: mengamalkan ajaran agama yang dianutnya sebagai insan yang
beriman, bertaqwa, dan berakhlak mulia, memiliki jiwa dan rasa kebangsaan dan
cinta tanah air, komitmen NKRI, dan semangat Bhinneka Tunggal Ika,
teladan yang jujur, berakhlak mulia, beretos kerja, bertanggung jawab, dan bangga
menjadi guru, memiliki sikap mau mengembangkan diri secara mandiri dan
diasumsikan penilaian yang dilakukan pada kompetensi ini memiliki akurasi dan
d. Kompetensi Sosial
kompetensi sosial yang dimiliki seseorang dapat dinilai dalam konteks bagaimana
perilaku individu yang bersangkutan memahami atau respek terhadap orang lain
77
keterampilan yang dimiliki guru beradaptasi menyesuaikan diri dengan situasi
mengajar atau situasi dimana dirinya bertindak sebagai pendidik. Indikator yang
didik, sesama guru, orangtua/wali peserta didik dan masyarakat (Hakim, 2015;
Lacey, 2012)
adalah kompetensi yang berkaitan dengan hubungan antara guru dan lingkungan,
berinteraksi dengan warga sekolah dan memiliki nilai, perilaku dan etika, sebagai
Wardoyo, 2015). Hal ini mempertegas bahwa bagaimana, guru/calon guru dituntut
dalam maupun di luar sekolah, karena lingkungan belajar yang baik dipengaruhi
lingkungan kerja, mampu menilai kerja sendiri, dan mampu bekerja mandiri serta
78
mampu bekerjasama yang dikuatkan dengan kemampuan untuk berkomunikasi.
Seperti pendapat O'Malley (1977), Cooper (2013: 227), Kamerilova et al. (2018)
dengan lingkungan sekitar dan situasi sosial, sehingga kompetensi sosial menjadi
diri, tekad diri dan lain-lain. Hal ini menunjukkan bahwa kompetensi sosial
cara menempatkan diri dalam lingkungan maupun cara menjalin hubungan dengan
berinteraksi secara efektif dan menarik serta kemampuan dalam menjalin relasi
yang positif, empatik, dan santun. Oleh karena itu, penilaian kompetensi sosial
tidak bisa diabaikan. Penilaian pada kompetensi ini akan mampu mengungkap
menilai kompetensi sosial guru di Indonesia. Jika merujuk pada buku Pedoman
79
PPG terdapat capaian kompetensi sosial yang harus dimiliki oleh lulusan program
PPG ini beserta subkompetensi dan indikatornya seperti disajikan dalam Tabel 8.
dan efisien dengan peserta didik, sesama guru, orangtua/wali dan masyarakat
berinteraksi, dan beradaptasi secara efektif dan efisien dengan peserta didik,
sesama guru, orangtua/wali dan masyarakat sekitar yang dapat dikembangkan dari
tenaga kependidikan, orang tua, dan masyarakat secara lisan dan tulisan dengan
negara yang baik dalam pembangunan bangsa serta komitmen mengadaptasi dan
80
profesionalnya. Jika kompetensi sosial mahasiswa/peserta PPG yang dinilai sesuai
yang dilakukan pada kompetensi ini memiliki akurasi dan konsistensi yang tinggi.
menjadi guru pada peserta PPG, maka perlu dikembangkan model penilaian yang
bahwa model penilaian guru terbagi dalam empat kategori atau yang disebut
sebagai domain yaitu: 1) Domain-1 strategi pengelolaan kelas dan perilaku yang
perencanaan dan persiapan yang dibuat guru seperti mengevaluasi kinerja pribadi
81
Gambar 5. Domain model penilaian guru (Marzano & Toth, 2013: 76)
Jika teori yang relevan digunakan untuk membuat konstruk, indikator yang
dinilai dapat diukur dan diamati dalam menilai penguasan empat kompetensi
pada keempat kompetensi tersebut memiliki akurasi dan konsistensi yang tinggi
5. Performance Assessment
kemampuan seseorang adalah penilaian kinerja atau unjuk kerja yang lebih
82
jabatan, sertifikasi dan lisensi jabatan profesional (American Educational
Hasil penilaian kinerja digunakan untuk sertifikasi atau lisensi penting dilakukan
agar kualitas pekerjaan yang dilakukan seseorang mencapai standar atau kriteria
2017: 18). Hal ini menunjukkan dalam menentukan kemampuan seseorang agar
kompetensi karena teknik dan sistem penilaiannya fokus pada kinerja atau hasil.
keterampilan yang dimiliki seseorang terkait dengan objek yang dan dinilai.
Penilaian dilakukan terhadap unjuk kerja, tingkah laku, atau interaksi serta dapat
tanpa harus menunggu sampai proses tersebut berakhir (Stiggins and Chappuis
(2005); Brookhart & Nitko (2008: 167). Pendapat ini menunjukkan bahwa
suatu kemampuan seseorang melalui suatu proses, kegiatan, atau unjuk kerja.
focus (lebih dari satu fokus), fairness (keadilan), teachability (bisa tidaknya
83
diajarkan), feasibility (kepraktisan), scorability atau bisa tidaknya tugas tersebut
diberi skor (Popham, 1999). Bila hasil pengukuran tidak baik, dengan teknik
apapun yang digunakan untuk menganalisa data, hasilnya tetap tidak baik
(Retnawati, 2016: 2, Mardapi, 2017: 1). Hal ini dipertegas Lutasari and
pembelajaran tetapi juga memberikan informasi yang lebih jelas tentang kegiatan
pengetahuan yang dimiliki ke dalam situasi dunia nyata, dan untuk berkomunikasi
secara efektif. Hal ini sesuai dengan hakikat dan tujuan pengukuran dilaksanakan
untuk mengetahui kemampuan atau performa dari sesuatu atau seseorang, baik
karena memuat multi-langkah tugas dengan kriteria jelas, harapan, dan proses
kinerja seseorang langkah demi langkah yang sesuai dengan prosedur yang telah
84
Dengan demikian penilaian pada Program PPG berdasarkan capaian
85
tidak lepas dari beberapa permasalahan: a) kesewenang-wenangan dalam pilihan
item dan format item, b) tidak ada teknik yang jelas untuk menghubungkan hasil
pada komponen yang dapat teramati dan terukur. Oleh karena itu, penilaian yang
tidak bias dikarenakan penilaian yang dilakukan tidak konsisten. Dengan adanya
penskoran dapat diperoleh deskripsi performansi dari suatu subjek dinilai dan
menentukan besaran angka pada suatu gejala atau objek yang harus diberikan
sebagai harga suatu jawaban yang lebih dikenal dengan score (Sumintono &
Widhiarso, 2014: 20, Mardapi, 2017: 194, Azwar, 2017: 55). Pendapat ini
terhadap respons, sehingga skor atau angka tersebut dapat ditafsirkan sebagai
86
ukuran ciri terpendam yang tak tampak (latent trait) yang ada pada peserta tes,
sehingga dalam pemberian skor atau angka tersebut dilakukan perdasarkan aturan
adalah aturan pemberian angka kepada atribut dan pemberian angka pada atribut
berupa kontinum yang membentang dari minus (-) tak hingga sampai plus (+) tak
hingga dengan karakteristik sistem atribut dimana ada atribut yang menggunakan
sedikit karakteristik sistem angka dan ada juga yang menggunakan lebih banyak,
dikenal dengan level skala (Naga, 2013: 21-23). Penskoran juga tidak lepas dari
tingkat kesulitan, tingkat kepentingan dan lama kerja (Wakhinuddin, 2012). Hal
ini menunjukkan bahwa penetapan atau penentuan skor sangat penting dilakukan
perubahan nilai atau transformasi skor baik berupa transformasi linear maupun
nonlinear (Brennan, 2006, de Ayala, 2009: 2). Penskalaan dikaitkan dengan upaya
data yang semula berbentuk data ordinal yang tidak memiliki unit pembanding
yang sama menjadi data interval atau rasio yang memiliki satuan pembanding
87
yang sama. Berbagai macam cara atau metode dilakukan dalam upaya untuk
dalam skala haruslah sistematis artinya ada perbedaan angka 1 dan 2 sama dengan
perbedaan angka 2 dan 3, begitu seterusnya walaupun angka nol masih bersifat
semu, namun beda ukuran antara angka 1 dan 3 sama dengan beda angka 3 dan 5.
Kategori skala dinilai sebagai alat praktis untuk penilaian cepat dengan tujuan
menentukan prestasi atau kemampuan dari subjek yang dinilai dengan angka
daripada memberikan umpan balik secara detail (Dogan & Uluman, 2017). Jika
sesuai dengan kategori dinilai dalam situasi dimana mereka perlu melakukan
hasilnya tidak selalu tetap karena ditentukan berdasarkan atas banyak item serta
bobot item yang dibuat. Penskoran dalam penilaian Program PPG adalah proses
pemberian skor atau angka yang dilakukan berdasarkan aturan dan kriteria
88
skor tersebut dapat ditafsirkan sebagai ukuran ciri dari laten trait yang ada pada
mahasiswa/peserta PPG.
Program PPG dengan penskoran yang sesuai dan tepat, sehingga hasil penilaian
penilaian PPG harus mampu menentukan dengan tepat jenis penskoran yang akan
a. Penskoran Parsial
ini lebih banyak digunakan dalam bidang-bidang tertentu seperti Matematika dan
penelitian ilmiah. Secara bahasa pengertian parsial adalah sebagian dari suatu
berisi kategori skor memiliki jenjang atau peringkat (ordered category). Pada
dilakukan secara dikotomus yaitu skor 1 dan 0. Data yang bersifat pilah disebut
89
data dikotomi yang hanya memiliki dua kategori saja. Misalnya, untuk pilihan
benar dan salah, maka kategorinya hanya dua, yaitu ‘benar’ yang dapat
dilambangkan dengan angka 1, dan ‘salah’ yang dilambangkan dengan angka nol
(Sumintono & Widhiarso, 2014: 32, Retnawati, 2016a: 114). Kedua pendapat ini
diskor 1 dan yang salah atau tidak melakukan diskor 0 (de Ayala, 2009: 162).
Naga (2013: 86) menyatakan bahwa pada penskoran parsial, penjumlahan skor
satuan dilakukan sebagian-sebagian. Skor bagian ini dikenal dengan sub skor yang
maka setiap dimensi ukur memiliki sub skor sendiri, demikian halnya jika ada
beberapa dimensi ukur pada atribut yang diukur, maka ada beberapa sub skor.
kategori skor jawaban, yaitu jawaban betul skor 1 dan jawaban salah skor 0 (Bond
& Fox, 2007: 49, DeMars, 2010: 9). Model penskoran dikotomus tidak dapat
dari mahasiswa/peserta PPG tersebut dalam bagian demi bagian yaitu skor 1
90
diberikan pada respons yang mampu melakukan bagian demi bagian yang dinilai
dan skor 0 untuk peserta yang tidak mampu melakukannya. Artinya penskoran ini
apabila memiliki kesesuaian dengan suatu item yang dinilai dan skor 0 bila tidak
pada tahapan tersebut yaitu: 1) mengungkap kembali materi yang telah dipelajari
dalam melakukan kegiatan apersepsi, namun jika ada salah satu tahapan yang
bersangkutan akan dikurangi 1 skornya, sehingga total skor yang diperoleh adalah
melakukan salah satu tahap atau beberapa tahap dari aspek yang diamati, maka
skor 0 atau berkurang sesuai dengan jumlah tahapan yang tidak dapat dilakukan
dari skor total. Artinya total skor yang diperoleh mahasiswa/peserta PPG tersebut
91
berdasarkan jumlah tahapan yang dilakukan, misalnya jika peserta hanya mampu
pada mahasiswa/peserta PPG yang dinilai diberikan skor untuk tiap langkah yang
meskipun kadang subjek yang diamati tidak melakukan semua tahap atau bagian
yang harus dipenuhi pada aspek yang dinilai, dan kemungkinan tahap-tahap
tersebut tidak berurutan namun dilakukan. Total skor yang diperoleh merupakan
penjumlahan dari setiap tahapan yang dilakukan dan hal ini merupakan
b. Penskoran Holistik
kinerja. Dalam jenis penilaian dengan penskoran ini, keterampilan yang diuji
dianggap sebagai sebuah kesatuan utuh, dimana tidak ada kemungkinan untuk
menilai setiap bagian secara independen atau terpisah dengan yang lain (Harsch &
Martin, 2013, Ounis, 2017). Selama proses penilaian, penilai berusaha untuk
92
menimbang dampak berbeda dari efektivitas keseluruhan dimensi dari kriteria
diawali dengan menyusun atribut dan indikator kunci dari aspek yang diukur.
kategori untuk menentukan skor jawaban. Dengan penskoran holistik penilai tetap
dapat memberikan penghargaan yang lebih akurat dan berkeadilan untuk seluruh
Penskoran holistik oleh Borich & Kubiszyn, (2003: 154) digunakan ketika
penilai lebih tertarik dalam memperkirakan kualitas keseluruhan dari kinerja dan
atau pengurangan poin atas aspek kinerja tertentu. Menurut Brookhart (2013 : 6)
bahwa penskoran holistik merupakan rubrik yang menerapkan semua kriteria pada
atau kombinasi semua kriteria dari aspek atau objek yang dinilai.
Kriteria dari aspek atau objek yang dinilai dalam penskoran holistik, harus
menggunakan makna yang jelas, dimana harus ada perbedaan jelas antara skor,
dan setiap level skor harus memiliki keterangan sendiri (Jones & Vickers, 2011).
Artinya penskoran dengan model ini harus jelas dalam mengartikulasikan kriteria
untuk pemberian skor setiap level. Deskriptor level skor harus memiliki hubungan
93
dari level satu skor ke level lain, dengan kata lain kriteria yang digunakan untuk
meletakkan dalam kategori-kategori mulai dari yang baik sampai yang kurang
baik, bisa tiga sampai lima kategori. Karakteristik dari penskoran holistik perlu
untuk mengidentifikasi kriteria untuk kinerja yang akan didasarkan untuk dinilai,
tiap jawaban dimasukkan dalam salah satu kategori, dan selanjutnya tiap jawaban
diberi skor sesuai dengan kualitas jawabannya (Brookhart & Nitko, 2008: 197,
Mardapi, 2017: 163). Dengan demikian dalam menyusun rubrik penilaian dengan
penskoran holistik deskripsi yang paling sesuai dengan kinerja subjek yang dinilai
misalnya dibedakan, mahir, menengah dan pemula dan lima kategori, seperti A,
yang akan memengaruhi tingkat kualitas dalam rubrik penilaian dan akan
menyulitkan dalam memberi angka (Brookhart & Nitko, 2008: 197). Hal ini
menunjukkan bahwa kategori yang sesuai dengan sistem penilaian yang paling
penilaian dengan penskoran parsial pada aspek yang diamati dari kemampuan
94
penskoran holistik, maka contoh penskorannya pada aspek melakukan kegiatan
apersepsi dengan menggunakan empat kategori skor yaitu skor 4 (sangat baik),
skor 3 (baik), skor 2 (kurang baik), dan skor 1 (tidak baik). Pada aplikasi penilaian
peserta PPG, akan mendapat skor 4 jika peserta mampu mengungkap kembali
kehidupan sehari-hari dan isu mutakhir dengan sangat baik. Peserta mendapat skor
baik. Peserta mendapat skor 2 jika mampu mengungkap kembali materi yang telah
dengan materi yang akan dipelajari, namun kurang mengaitkan dengan kehidupan
sehari-hari dan isu mutakhir. Selanjutnya peserta mendapat skor 1 jika tidak
dipelajari, kehidupan sehari-hari dan isu mutakhir. Total skor yang diperoleh
peserta tersebut berdasarkan total skor yang diperoleh dari setiap aspek yang
berisi rubrik penskoran yang deskripsi aspek penilaiannya dibuat secara umum,
karena deskripsi aspek penilaian dibuat umum maka biasanya rubrik penskoran
holistik dapat digunakan untuk menilai berbagai jenis kinerja maupun hasil kerja.
95
Penskoran dilakukan terhadap proses keseluruhan atau kesatuan produk tanpa
menilai bagian komponen secara terpisah namun berdasarkan kategori skor secara
urut. Setiap aspek yang akan dinilai ditentukan indikator tingkatan mutu bersifat
khusus dari yang paling baik sampai yang paling tidak baik.
tepat pula. Tanpa penskoran yang tepat, maka kesalahan penilaian yang ditetapkan
akan terjadi (Mardapi, 2017: 162). Mengingat penentuan skor hasil pengukuran
berbeda-beda sesuai dengan jenis alat ukur yang digunakan, karena penskoran
sederhana dan mudah digunakan, yaitu skor 1 dan 0 dan ini termasuk pada model
penskalaan stimulus, skor akan diberikan pada respons positif (endorsement) yaitu
jawaban ‘Ya’ diberi skor 1 dan ‘tidak’ diberi skor 0, namun angka skornya
dikotomus, skor 1 pada jawaban benar dan 0 pada jawaban yang salah. Hal ini
menunjukkan letak stimulus (item) pada kontinum ditentukan terlebih dahulu dan
angka pada titik kontinum itu dijadikan skor bagi jawaban ‘Ya’.
96
melaksanakan pembelajaran, penilaian capaian kompetensi sosial dan kepribadian
penskoran model ini tidak selalu lebih besar dari Threshold kategori sebelumnya.
tinggi tidak selalu besar dibandingkan tingkat kesukaran untuk mencapai kategori
keterampilan, tetapi bila sudah sampai pada tahapan tersebut untuk mencapai
memiliki serangkaian tahapan. Model penskoran ini tidak dapat digunakan untuk
menemukan kesalahan yang dilakukan oleh peserta, karena semua option yang
salah diberi skor 0. Padahal kenyataannya kesalahan yang dilakukan peserta dapat
lebih mudah untuk digunakan pada waktu berikutnya untuk memilih spesimen
atau contoh-contoh yang baik dari setiap kategori penilaian. Penskoran holistik
97
dinilai dan kurang memakan waktu dalam penggunaannya (Brookhart & Nitko,
2008: 197, Metruk, 2018). Jika penilai ingin mempertimbangkan waktu secara
penskoran holistik.
dijelaskan” (Jones & Vickers, 2011). Untuk penilaian skala besar, penilaian
model penskoran ini mendukung proses penilaian yang efisien dan handal.
juga memberikan penilaian yang lebih luas mengenai kualitas proses atau produk.
masing skor tidak memberikan informasi secara keseluruhan tentang apa yang
harus dilakukan untuk meningkatkannya (Bainer & Porter, 1992: 26, Moskal,
holistik memiliki makna dalam variabel yang dinilai berdasarkan kategori skor.
mereka pertama kali harus dengan jelas mengidentifikasi hasil yang diinginkan
untuk dinilai. Selanjutnya harus mengembangkan sebuah rubrik yang jelas dan
98
khusus membahas hasil tersebut pada setiap kategori skor. Setiap kategori skor
pada rubrik harus mencerminkan bervariasi derajat level yang dinilai, hal ini
membatasi kegunaan dari penilaian ini ke situasi atau tugas yang dikembangkan.
Selain itu, penilai harus diajarkan untuk mampu menilai dengan model penskoran
ini secara ringkas dan cepat dengan fokus pada konten dan terstruktur untuk
menempatkan penekanan pada apa yang dilakukan dengan “baik” dan bukan pada
apa yang “kurang” atau kekurangan yang dimiliki dari subjek yang dinilai.
kategori kriteria nilai individu yang harus diperoleh (Bainer & Porter, 1992: 26).
bukti-bukti tertentu dari mana dan berapa banyak tambahan instruksi diperlukan.
yang lebih akurat dan berkeadilan untuk seluruh subjek yang dinilai mungkin satu
holistik memiliki kelemahan namun model penskoran ini dapat digunakan untuk
99
secara terpisah. Penggunaannya lebih mudah dan lebih cepat, efektif bila
performansi lengkap dan sangat efektif jika semua elemen yang dinilai saling
dengan penskoran parsial dan holistik diterapkan dengan baik, maka diasumsikan
atas, maka dalam mengembangkan model penilaian Program PPG pada penelitian
aturan tertentu untuk menentukan level atau kategori yang dicapai dalam
untuk tahapan atau bagian yang salah dari item yang dinilai dari
100
7. Teori Respons Butir dan Penerapannya
hasil pengukuran harus mampu menjelaskan aspek yang diukur tanpa dipengaruhi
oleh faktor lain yang tidak berkaitan dengan aspek yang diukur, karena instrumen
yang telah dipengaruhi oleh faktor lain tentu berisi kesalahan atau error serta
tidak memihak kepada salah satu orang atau kelompok (Kartowagiran &
parsial dan holistik, selain dilakukan analisis item secara teoritis (telaah butir)
oleh expert judgment, perlu juga dilakukan analisis item secara empirik.
item instrumen secara empirik yaitu berdasakan teori tes klasik dan teori respon
butir (Item Response Teory, IRT) yang keduanya menggunakan teknik statistika
dan sebagainya (Retnawati, 2016a: 113, Mardapi, 2017: 174). Asumsi yang
digunakan pada kedua teori ini ada yang sama dan ada pula yang berbeda, berikut
ini penjelasan tentang kedua teori tersebut agar memberikan gambaran perbedaan
dan kesamaan kedua asumsi tersebut, terutama dalam analisis untuk mengetahui
karakteristik item dan kemampuan seseorang berdasarkan teori tes klasik dan
101
a. Teori Tes Klasik
Teori tes klasik digagas oleh Charles Spearmen pada tahun 1904 dan
kemampuan orang yang dites dan tingkat kesulitan. Teori ini juga menunjukkan
hubungan antara skor amatan, skor sebenarnya, dan skor kesalahan dalam
Widhiarso, 2014: 48, Mardapi, 2017: 175). Model pengukuran yang digunakan
pada teori ini adalah: skor amatan (X) terdiri dari skor sebenarnya (T) dan skor
kesalahan (E), sehingga pada teori ini skor tampak (amatan) merupakan
penjumlahan dari skor murni dan kesalahan pengukuran (Retnawati, 2016a: 113).
Artinya didalam skor amatan, terkandung skor murni dari atribut yang diukur dan
X T E ………………………… (1)
dengan,
X skor tampak
T skor murni
penyimpangan secara teoritis dari skor tampak yang diperoleh dengan skor
kesalahan pengukuran . Asumsi utamanya adalah tidak ada hubungan antara skor
102
sebenarnya dan skor kesalahan, sehingga varians skor amatan merupakan
(Mardapi, 2017: 175). Asumsi lain yang perlu diketahui adalah skor kesalahan (E)
bersifat acak dan tidak berinteraksi dengan skor sebenarnya (T). Skor kesalahan
(E) tidak berkorelasi dengan skor sebenarnya (T), dan rata-rata dari skor
kesalahan sama dengan nol. Hal yang perlu diperhatikan skor amatan (X) adalah
satu-satunya skor yang tampak/nyata, sedangkan skor sebenarnya (T) dan skor
dibandingkan jika dua jenis tes berbeda diberikan kepada dua kelompok berbeda
(Sumintono & Widhiarso, 2014: 48, Retnawati, 2016a: 113). Hal ini menunjukkan
analisis item berdasarkan teori tes klasik, skor amatan dan skor sebenarnya
keduanya sangat bergantung pada hasil dari karakteristik peserta yang diuji.
dinyatakan sebagai jumlah butir yang benar atau jumlah skor yang diperoleh dan
parameter butir adalah tingkat kesulitan butir, daya beda dan dugaan (Mardapi,
2017: 176). Salah satu parameter butir yang sangat berguna dalam analisis
karakteristik item adalah tingkat kesulitan butir soal. Tingkat kesulitan butir soal
merupakan proporsi peserta tes yang menjawab benar tiap butir soal terhadap
103
pi
B ………………………… (2)
N
dengan,
p i proporsi menjawab benar atau tingkat kesulitan butir i
suatu butir soal. Jika p i mendekati 0, maka soal tersebut terlalu sulit, dan jika p i
direvisi atau dibuang karena tidak bisa memberikan informasi yang maksimum
dalam membedakan peserta tes yang berkemampuan rendah dengan peserta tes
Menurut Allen & Yen (1979: 121) secara umum tingkat kesulitan butir
soal sebaiknya terletak pada interval 0,3 sampai 0,7. Pada interval ini informasi
Fernandes (1984) butir soal menghasilkan rerata skor sekitar 50% dari skor
maksimum dapat dikatakan bahwa butir tersebut memiliki tingkat kesulitan yang
tepat. Sementara menurut Naga (2013: 428) secara teori, nilai parameter tingkat
kesulitan butir adalah minus tak hingga sampai plus tak hingga ( b ),
namun secara empirik, nilai parameter tingkat kesulitan butir berkisar dari – 2,0
sampai 2,0 ( 2,0 b 2,0 ). Menurut Sumintono & Widhiarso (2014: 48)
tingkat kesulitan memiliki titik tertinggi 0 berarti tidak ada satupun (0%) peserta
tes menjawab dengan benar dan jika menunjukkan angka 1 berarti peserta tes
104
antara 0 dan 1, suatu butir kadang dikategorikan ke dalam ekstrim yang sukar jika
nilai tingkat kesukaran mendekati 0 dan ekstrim mudah jika nilai tingkat
kesukaran mendekati 1.
informasi tentang dapat tidaknya suatu butir soal membedakan kelompok dalam
aspek yang diukur sesuai dengan perbedaan yang ada dalam kelompok itu. Indeks
atau besaran yang digunakan dalam membedakan antara peserta tes yang
indeks daya pembeda butir soal (item discrimination). Semakin besar nilai indeks
daya pembeda butir, maka semakin berfungsi butir itu dalam membedakan
kemampuan peserta tes. Seperti dinyatakan Naga (2013: 428) bahwa parameter
daya beda butir berkaitan dengan probabilitas jawaban benar, makin besar nilai
parameter daya beda butir makin peka probabilitas jawaban benar terhadap
perbedaan parameter kemampuan, makin besar nilai parameter daya butir makin
curam karakteristik butirnya, sehingga pada parameter daya beda butir yang besar,
Nilai indeks daya pembeda butir soal ( d i ) dapat bernilai positif atau
negatif. Jika d i bernilai positif, maka butir soal telah mampu berfungsi dengan
baik. Artinya, peserta tes yang berkemampuan tinggi dapat menjawab dengan
benar dan peserta tes yang berkemampuan rendah menjawab dengan salah.
Sebaliknya, jika d i bernilai negatif, maka butir soal tidak berfungsi dengan baik.
105
Artinya, peserta tes yang berkemampuan tinggi menjawab dengan salah dan
matematis, nilai indeks daya pembeda butir soal dapat dihitung dengan rumus:
proporsi jawaban benar pada kelompok atas yang merupakan kelompok peserta
tes yang berkemampuan tinggi dengan proporsi jawaban benar pada kelompok
Fernandes (1984) menyatakan bahwa butir soal yang baik adalah butir soal yang
memiliki indeks daya beda lebih dari 0,2. Sedangkan Ebel (1972) menyatakan
suatu butir soal dikatakan berkualitas apabila indeks daya pembedanya paling
sedikit 0,41. Selanjutnya menurut Kelley (Crocker & Algina, 1986: 314), yang
paling stabil dan sensitif serta paling banyak digunakan adalah dengan
menentukan 27% kelompok atas dan 27% kelompok bawah. Sementara menurut
Retnawati (2016a: 115) indeks daya beda pada suatu item dikatakan baik jika
lebih besar atau sama dengan 0,3, indeks daya beda yang nilainya kecil akan
kemampuannya tinggi dan yang kemampuannya rendah, namun pada analisis tes
106
dengan Content-References Measuremes, indeks daya pembeda tidak terlalu perlu
menjadi perhatian, asalkan tidak negatif. Menurut Sumintono & Widhiarso (2014:
113) pada teori tes klasik, biasanya tingkat kesulitan 0,5 akan menyumbang pada
bagusnya nilai indeks daya beda, yang semakin besar nilai indeksnya
menunjukkan semakin bagus, misalya tingkat kesulitan 0,50 (50%) dari kelompok
peserta yang diuji lulus, merupakan tingkat kesulitan optimal dan soal tersebut
Teori Responsi Butir (Item Response Theory disingkat IRT) dinamai juga
sebagai Teori Ciri Laten (Latent Trait Theory disingkat LTT) atau Lengkungan
Karakteristik Butir (Item Characteristic Curve disingkat ICC). Pada IRT, peluang
jawaban benar yang diberikan siswa, ciri atau parameter butir, dan ciri atau
parameter peserta tes dihubungkan melalui suatu model formula yang harus ditaati
baik oleh kelompok butir tes maupun kelompok peserta tes (Hambleton,
Swaminathan, & Rogers, 1991). Artinya, butir yang sama terhadap peserta tes
yang berbeda harus tunduk pada aturan rumus itu, atau peserta tes yang sama
terhadap butir tes yang berbeda juga harus patuh terhadap rumus tersebut. Dalam
proses semacam ini terjadilah apa yang disebut invariansi diantara butir tes dan
peserta tes. Pada pengukuran modern, taraf sukar butir tidak dikaitkan langsung
(tidak berubah atau tetap) terhadap butir tes serta terhadap peserta tes (Sudaryono,
107
2011). Lebih lanjut Lorf (1990: 121) bahwa invariansi parameter-parameter butir
tes melalui kelompok peserta tes merupakan karakteristik yang paling penting dari
IRT. Indeks kesukaran butir tes sebagai proporsi jawaban yang benar sehingga
invarians terhadap kelompok peserta tes dari tingkat kemampuan yang berbeda.
butir adalah sebagai berikut: 1) karakteristik butir tidak tergantung pada peserta
ujian, 2) skor yang digambarkan peserta ujian tidak tergantung pada tes, 3)
merupakan model yang lebih menekankan pada tingkat butir daripada tingkat tes,
4) merupakan model yang tidak mensyaratkan secara ketat tes paralel untuk
keputusan untuk tiap skor kemampuan yakni ada hubungan fungsional antara
Teori respon butir juga dikembangkan atas dasar dua postulat yaitu: 1)
performansi subyek pada suatu butir dapat diprediksikan oleh seperangkat faktor
yang disebut latent trait atau kemampuan dan 2) hubungan performansi subyek
pada suatu butir dan perangkat kemampuan laten yang mendasarinya digambarkan
oleh fungsi naik monoton yang disebut Item Characteristic Curve (ICC). Selain
teori respon butir adalah unidimensi, independensi lokal, dan fungsi karakteristik
108
Pada awalnya teori respon butir menggunakan distribusi normal, namun
(Mardapi, 2017: 178). Ada tiga macam model logistik dalam teori respon butir
yaitu model logistik satu parameter, model logistik dua parameter, dan model
logistik tiga parameter. Perbedaan ketiga model tersebut terletak pada banyaknya
yang meninjau tingkat kesukaran butir dengan mengasumsikan bahwa daya beda
sama untuk semua butir dan tebakan sama dengan 0. Model 1PL dan Model Rasch
memiliki kesamaan yaitu sama-sama mengasumsikan daya beda yang sama untuk
semua butir. Adapun yang membedakan keduanya dijelaskan oleh Ayala (2008:
19) bahwa pada Model Rasch daya beda konstan pada nilai 1 sedangkan untuk
Model 1PL daya beda konstan tidak harus berada pada nilai 1. Retnawati (2014:
e D ( bi )
Pi ( ) dengan i = 1, 2, 3, …..n …………… (4)
1 e D ( bi )
Keterangan:
Pi ( ) = Peluang menjawab benar peserta yang berkemampuan pada
butir ke i
bi = Tingkat kesukaran butir ke-i
e = Bilangan natural yang bernilai 2,712
n = Jumjah butir soal
D = Kostanta bernilai 1,7 sebagai simpangan baku distribusi logistik
109
Persamaan tersebut merupakan cara yang digunakan untuk mengestimasi
butir dengan 1 parameter. Melalui persamaan tersebut juga dapat digunakan untuk
merupakan suatu titik pada skala kemampuan agar peluang menjawab benar
sebesar 50 %. Semakin besar nilai bi, maka semakin besar kemampuan yang
diperlukan untuk menjawab benar dengan peluang 50 % atau dengan kata lain
semakin besar nilai parameter bi, maka semakin sulit butir soal tersebut.
model Rasch (1 parameter, 1P), dengan butir 1(b=-0,5), butir 2 (b=0) dan butir
3(b=0,5). Menurut Hambleton et al., (1991: 13) bahwa nilai bi (tingkat kesukaran
110
butir) bervariasi dari -2 sampai +2. Nilai mendekati -2 menunjukkan bahwa butir
tersebut sangat sulit. Probabilitas jawaban betul pada butir ke-i berhubungan
taraf sukar butir ke-i ditentukan oleh - bi = 0 atau bi = 0 pada saat Pi ( ) = 0,5.
selain pada tingkat kesukaran butir, juga menitik beratkan pada daya beda butir
soal. Faktor tebakan masih diasumsikan sama dengan 0 atau tidak ada tebakan.
e Dai ( bi )
Pi ( ) dengan i = 1, 2, 3, …..n ……………(5)
1 e Dai ( bi )
Keterangan:
Pi ( ) = Peluang menjawab benar peserta yang berkemampuan ɵ
pada butir ke i
ai = Parameter daya beda butir
bi = Tingkat kesukaran butir ke-i
e = Bilangan natural yang bernilai 2,712
n = Jumlah butir soal
D = Kostanta bernilai 1,7 sebagai simpangan baku distribusi
logistik
kurva karakteristik butir untuk Model Logistik 2 Parameter dengan 2 butir soal.
111
Gambar 7. Kurva Karakteristik Butir Untuk Model Logistik 2 Parameter
Sumber: Retnawati (2014: 16)
butir 2 (a=1; b=0,5). Berdasarkan gambar tersebut, jika indeks daya pembeda butir
Hambleton et al., (1991: 37) pada model logistik dua parameter probabilitas
peserta tes untuk dapat menjawab benar suatu butir soal ditentukan oleh dua
karakteristik butir, yaitu indeks kesukaran butir (bi) dan indeks daya beda butir
(ai). Parameter ai merupakan indeks daya pembeda yang dimiliki butir ke-i. Pada
pada titik = b. Butir soal yang meiliki daya pembeda yang besar mempunyai
kurva yang sangat menanjak, sedangkan butir soal yang mempunyai daya
pembeda kecil mempunyai kurva yang sangat landai. Secara teoritis, nilai a i ini
terletak antara dan . Pada butir yang baik nilai ini memiliki hubungan
positif dengan performan pada butir dengan kemampuan yang diukur, dan a i
112
3) Model Logistik 3 Parameter / 3 PL (Birbaum Model)
Model Logistik 3 merupakan salah satu model dalam IRT dimana tingkat
1
Pi ( ) c (1 c) ai ( bi )
dengan i = 1, 2, 3, …..n …………(6)
1 e
Keterangan:
Pi ( ) = Peluang menjawab benar peserta yang berkemampuan ɵ pada
butir ke i
ai = Parameter daya beda butir
bi = Tingkat kesukaran butir ke-i
c = Parameter tebakan
e = Bilangan natural yang bernilai 2,712
n = Jumlah butir soal
113
Gambar 8 tersebut merupakan kurva karakteristik butir 1 (a=1, b=0,5,
c=0), butir 2 (a=0,5, b=0,5, c=0). Menurut Hullin (Retnawati, 2014: 17)) pada
suatu butir tes, nilai ci ini berkisar antara 0 dan 1, suatu butir dikatakan baik jika
nilai ci tidak lebih dari 1/k, dengan k banyaknya pilihan misalnya pada suatu
perangkat tes pilihan ganda dengan 4 pilihan untuk setiap butir tesnya, butir ini
dikatakan baik jika nilai ci tidak lebih dari 0,25. Setelah membahas model 1PL,
2PL, dan 3PL, maka model logistik 3PL lebih baik dibandingkan dengan model
logistik lainnya. Hal tersebut juga didukung pendapat Hambleton et al., (1991)
yang dapat memberikan informasi terperinci tentang pengujian atribut laten atau
kemampuan yang dimiliki seseorang dan relevan untuk menilai penilaian yang
kompleks dan untuk mengevaluasi keakuratan skor yang dihasilkan (Templin &
Hoffman, 2013). Teori pengukuran yang berkembang saat ini dan yang lebih
populer adalah teori respon butir atau lebih dikenal dengan istilah Item Response
Theory (IRT). Metode ini berasumsi bahwa variabel laten diwakili oleh sebuah
terperinci tentang atribut laten atau kemampuan yang dimiliki seseorang (de
pada dua buah postulat, yaitu: 1) prestasi subjek pada suatu butir soal dapat
114
dan 2) hubungan antara prestasi subjek pada suatu butir dan perangkat
kurva karakteristik butir (item characteristic curve, ICC). Model IRT merupakan
model logistik yang terdiri dari 1 parameter (1PL), 2 parameter (2PL), dan 3
hubungan antara pola respons individu terhadap indikator dengan faktor ukurnya.
Penskoran pada model IRT terdapat 2 model yaitu model dikotomi dan
politomi. Menurut Naga (2013: 82) sesuai dengan rentangan skala, ada skor yang
terdiri atas skor satuan dikotomi, serta ada juga yang terdiri atas skor satuan
politomi. Untuk skor satuan dikotomi hanya memiliki nilai sederhana 0 dan 1.
Model respons butir nominal dapat diterapkan pada butir yang mempunyai
alternatif jawaban yang tidak terurut (ordered) dan adanya berbagai tingkat
kemampuan yang diukur. Pada model respons ordinal terjadi pada butir yang
dapat diskor ke dalam banyaknya kategori tertentu yang tersusun dalam jawaban,
model respon butir politomi dapat dikategorikan menjadi butir nominal dan
Penskoran politomi terdapat lebih dari dua nilai yang membentang dari
nilai yang terendah sampai nilai yang tertinggi, misalnya nilai yang diberikan
pada satu butir tes membentang antara nilai 0 sampai dengan 2 atau nilai yang
membentang dengan skala yang lebih luas. Model politomi memiliki keunggulan
115
karena dapat dipakai untuk menyusun model yang menjelaskan interaksi antara
subjek dengan butir (Widhiarso, 2010: 106) . Oleh karena itu model politomus
dapat diterapkan pada skala kepribadian dengan format Likert yang memiliki
Terdapat 2 model IRT yaitu IRT satu dimensi atau unidimensional IRT
seperti benar skor 1 dan salah skor 0 dapat menggunakan model logistik 1
(2PL). Selanjutnya ada dua jenis pendekatan di dalam model politomus IRT
pertama adalah pendekatan tidak langsung (indirect) dan kedua adalah pendekatan
Model dalam politomi untuk data berskala ordinal, model yang dapat
model (MGRM), partial credit model (PCM), generalized partial credit model
(GPCM), dan rating scale model (RSM) dan dari model tersebut yang paling
sering dipakai ahli yakni PCM, GRM, dan GPCM (Embretson & Reise, 2000: 95,
de Ayala, 2009: 162, Retnawati, 2014: 32). Model tersebut sangat tergantung dari
respons pada suatu item tergantung pada kemampuan peserta tes yang diukur
116
dengan menggunakan skala unidimensi (Retnawati & Munadi, 2013, Retnawati,
model penilaian ini adalah penskoran parsial dan holistik, maka model politomi
yang dipilih adalah Parcial Credit Model (PCM) dan Graded Response Model
Pada awal perkembangan teori respons butir politomus, model yang lebih
dikenal yakni perluasan dari model Rasch yang disebut dengan Partial Credit
Rasch pada tahun tahun 1960-an merupakan model IRT yang paling popular dan
berkembang dari asalnya untuk analisis data dikotomi ke bentuk data skala
peringkat (rating scale) oleh Andrich, partial model oleh Masters, sampai ke
facets model oleh Linacre. Fitur utama dari Rasch model adalah peluang
kesulitan item (Bond & Fox, 2007: 10, Sumintono & Widhiarso, 2014: 50).
probabilitas dalam memandang atribut sebuah objek ukur. Hal ini menyebabkan
PCM adalah aplikasi dari Rasch model untuk data dikotomi untuk tes
dimana tanggapan item dicatat dalam beberapa kategori dengan skor 0 1, 2,...
kesukaran (Nering & Ostini, 2011: 115, Istiyono et al., 2014a). Bila penskoran
117
dikotomus membagi respons peserta tes menjadi 2 kategori saja, yaitu benar (1),
dan salah (0), namun pada PCM respons peserta tes dikumpulkan dari tahap demi
tahap dan menghargai partial correct, sehingga PCM memiliki kategori lebih dari
dua dan termasuk model penskoran politomus. de Ayala (2009: 163) meyakini
bahwa jika partial correct dihargai tahap demi tahap sesuai tahapan/langkah yang
ditugaskan kepada peserta tes, dapat memberikan informasi yang berguna untuk
memperkirakan respons peserta berada pada lokasi yang mana. Hal ini tersirat
memerlukan beberapa langkah penyelesaian dan PCM juga dapat diberikan pada
kemiripan dengan Graded Response Model (GRM) pada butir yang diskor dalam
kategori berjenjang, namun indeks kesukaran dalam setiap langkah tidak perlu
(Istiyono et al., 2014a, Retnawati, 2016b: 37). Jika diasumsikan bahwa sebuah
butir mengikuti pola kredit parsial, maka kemampuan individu lebih tinggi
diharapkan memiliki skor yang lebih tinggi daripada individu yang memiliki
118
kemampuan rendah. Adapun bentuk rumus umum PCM menurut Muraki & Bock
k
exp ( b jv )
Pjk ( ) m
v 0
k
,k=0,1,2,...,m ………………………… (7)
h 0
exp ( b jv )
v 0
dengan
Pjk ( ) = probabilitas peserta berkemampuan memperoleh skor kategori k pada
butir j,
= kemampuan peserta,
dan
k h h
( b
h 0
jh ) 0 dan ( b
h 0
jh ) ( b jh ) ………………………… (8)
h 1
menyelesaikan dengan benar butir tersebut. Skor kategori yang lebih tinggi
menunjukkan kemampuan yang lebih besar daripada skor kategori yang lebih
rendah (Istiyono et al., 2014b). Pada PCM, jika suatu butir memiliki dua kategori,
maka persamaan 2 menjadi persamaan model Rasch. Sebagai akibat dari hal ini,
respons item dengan 4 pilihan, maka didapatkan kategori (j) sebanyak 4(j=0,1,2,3)
119
buah persamaan yang probabilitas individu pada tiap kategori dalam category
Kategori 0 :
expDai ( b11 )
P10 ( ) 0 Pi1* ( ) 0
1 expDai ( b11 )
Kategori 1 :
expDai ( b11 ) expDai ( b12 )
P11 ( ) 0 Pi1* ( ) Pi*2 ( )
1 expDai ( b11 ) 1 expDai ( b12 )
Kategori 2 :
expDai ( b12 ) expDai ( b13 )
P12 ( ) 0 Pi*2 ( ) Pi*2 ( )
1 expDai ( b12 ) 1 expDai ( b13 )
Kategori 3:
expDai ( b13 ) expDai ( b14 )
P13 ( ) 0 Pi*3 ( ) Pi*4 ( )
1 expDai ( b13 ) 1 expDai ( b14 )
dengan PCM diperoleh sejumlah kategori lebih dari dua, sehingga setiap
kategori lebih tinggi pada penskoran PCM tidak terlalu selalu lebih besar
asumsi PCM yang dinyatakan oleh Widhiarso (2010) bahwa jika sebuah item
mengikuti pola kredit parsial, maka kemampuan individu lebih tinggi diharapkan
memiliki skor lebih tinggi daripada individu yang memiliki kemampuan rendah.
kompetensi sosial dan kepribadian adalah model politomus dengan PCM yang
120
menggambarkan serangkaian tahapan demi tahapan yang dicapai peserta PPG,
karena proses penskoran dengan model PCM diperoleh sejumlah kategori lebih
respons skala ordinal misalnya skala likert. Model ini merupakan perluasan dari
model 2PL yang tidak menghendaki kesamaan jumlah kategori respons antar
respons (Y. Liu & Thissen, 2014). Model GRM termasuk dalam pendekatan tidak
langsung pada model IRT, sehingga sebelum masuk ke persamaan fungsi respon
kategori (CRF) harus terlebih dahulu melihat fungsi karakteristik operasi (OCF).
tertentu dikategori memerlukan dua langkah proses, sehingga untuk model GRM
dalam ukuran item tidak perlu memiliki jumlah yang sama untuk kategori respon,
tidak ada pengaruh yang timbul pada estimasi parameter item atau interpretasi
berbeda format dan setiap kategori respons pada butir diperlakukan layaknya butir
GRM merupakan ekstensi dari skala Thurstone yang muncul pada 1928
dan tepat digunakan ketika respons peserta tes terhadap item termasuk respons
pada skala likert, nilai tingkat kesukaran relative kategori 1 > 2 > …> n atau urut
121
(Ridlo, 2012). Hubungan parameter butir dan kemampuan peserta tes dalam GRM
exp[ Da j ( b jk )]
Pjk ( )
1 exp[ Da j ( b jk )] ………………………… (10)
GRM. Persamaan tersebut identik dengan persamaan logistik pada model 2-PL,
namun lebih spesifik karena dalam butir j terdapat kategori k yang diestimasi
probabilitas pada setiap kategori butir, sehingga perlu menghitung CRF butir
Salah satu tujuan model GRM adalah untuk menentukan lokasi dari
threshold ini pada kontinum sifat laten. Pada model GRM, setiap item skala (i)
dijelaskan oleh satu item slope parameter (ai) dan j = 1... mi antara kategori
122
threshold parameters (bij), yang ditunjukkan mi + 1 = ki untuk menjadi sama
dengan jumlah item respon kategori dalam item. Ada dua tahap untuk komputasi
kategori respon probabilitas di GRM. Untuk memahami tahap ini, misalnya item
tes dengan K = 5 pilihan jawaban dimana item nilai x = 0... 4. dengan lima pilihan
jawaban, ada mi = ambang batas 4 (j = 1... 4) antara pilihan jawaban seperti yang
ditunjukkan pada gambar di bawah. Salah satu tujuan model GRM adalah untuk
menentukan lokasi dari ambang batas ini pada kontinum sifat laten (Embretson &
Reise, 2000: 98), sebagaimana dicontohkan pada Gambar 9 dan Gambar 10.
dalam GRM mengikuti bentuk dan lokasi CRF dan kurva OCF. Secara umum,
semakin tinggi parameter lereng (ai), semakin curam kurva OCF (gambar 9) dan
semakin sempit dan memuncak CRF (gambar 10). Hal ini menunjukkan parameter
item dalam GRM menentukan lereng dan lokasi kategori respons kurva dan
pada politomi. Lereng nantinya akan berkaitan dengan fungsi informasi item
123
(Embretson & Reise, 2000: 99). Dengan demikian model GRM diformulasikan
atas asumsi bahwa probabilitas sebuah respons lebih tinggi daripada yang
diberikan pada kategori k, misalnya jika sebuah item memiliki 4 kategori respons
maka fungsi dikotomus pertama adalah 0 lawan 1, 2 atau 3, fungsi kedua adalah 0
Salah satu hal penting yang perlu diperhatikan dalam model penskoran
dalam IRT adalah pemilihan model yang tepat. Pemilihan model yang tepat akan
Dengan demikian model PCM dan GRM dipilih dalam penelitian ini dapat
merupakan model yang paling sederhana untuk dapat menjelaskan data dengan
Istilah nilai informasi atau fungsi informasi pada model IRT merupakan
keakuratan (ukuran presisi) hasil pengukuran suatu item, karena jika fungsi
informasi sudah diketahui, maka dapat ditemukan fungsi informasi suatu item dan
tes (Lord, 2012: 65). Menurut Baker & Kim (2017: 85) fungsi informasi pada
dengan varians. Jika nilai informasi yang besar, itu berarti bahwa kemampuan
124
peserta tes yang sebenarnya adalah pada tingkat yang dapat diperkirakan dengan
presisi; maksudnya, semua perkiraan akan cukup dekat dengan nilai sebenarnya.
Jika nilai informasi kecil, itu berarti kemampuan peserta tes tidak dapat
diperkirakan dengan ketepatan dan perkiraan akan tersebar luas. Varians terbalik
adalah ukuran presisi yang tingkat kemampuan tertentu dapat diperkirakan, nilai
informasi yang bisa dihitung untuk setiap tingkat kemampuan pada skala
kemampuan dari negatif ke positif. Jika nilai informasi yang dipetakan terhadap
kemampuan, hasilnya adalah grafik fungsi informasi seperti pada Gambar 11.
kemampuan maksimum pada level -0.1 dan 3 untuk berbagai kemampuan dari
diketahui bahwa fungsi informasi tidak tergantung pada distribusi tes atas skala
kemampuan. Dalam hal ini, seperti kurva karakteristik item dan kurva
karakteristik tes. Dalam tes untuk keperluan secara umum, fungsi informasi secara
125
ideal akan memberikan informasi tingkat kemampuan yang dapat diperkirakan
peserta PPG. Jika fungsi informasi masing-masing item sudah diketahui, maka
dapat ditemukan fungsi informasi suatu tes, dan akhirnya dapat diketahui pula
kesalahan baku tes tersebut dalam mengestimasi kemampuan peserta PPG. Oleh
karena itu, dengan diketahuinya fungsi informasi item atau tes, maka dapat
Fungsi informasi item merupakan salah satu hal yang perlu diperhatikan
dalam analisis item pada IRT. Fungsi informasi ini menyatakan kekuatan atau
sumbangan butir tes dalam mengungkap laten trait yang diukur pada tes tesebut.
Pada model IRT, setiap item memiliki fungsi informasi spesifik yang
menyediakan informasi tentang tingkat trait laten dianalisis pada tingkat tertentu
paling terpercaya (Zięba, 2013). Sama halnya oleh Nurcahyo (2016) dinyatakan
kemampuan pada suatu titik dalam kontinum kemampuan. Menurut Baker &
Kim (2017: 92) fungsi informasi ini sangat berguna dalam IRT untuk
mengevaluasi ketepatan setiap item dalam tes termasuk mengukur tingkat laten
trait yang diberikan (nilai parameter i). Pendapat ini menunjukkan fungsi
126
mendeskripsikan potensi suatu item, dimana item-item yang menyusun suatu tes
dipilih berdasar fungsi informasi item tersebut dan dapat menyeleksi atau
butir pada perangkat tes, pemilihan butir tes, dan perbandingan beberapa
perangkat tes. Setiap butir memiliki fungsi informasi sendiri berbentuk suatu
kurva yang disebut fungsi informasi butir. Pada data politomi fungsi informasi
I j ( ) A jk ( )
k 0
………………………… (11)
2
mj P ( )
jk
k 0 Pjk ( )
Dengan k adalah kategori dalam data politomus, dan A jk ( ) adalah fungsi dasar
dari item response model. Untuk bentuk ogive normal dari model graded
A jk ( ) D 2 a j
jk ( ) j ,k 1 ( )
2
………………………… (12)
A jk ( )
127
A jk ( ) D a
2 2
j
P
jk
( ) 1 P jk ( ) P j ,k 1 ( ) 1 P jk ( )
2
…………… (13)
Pjk ( )
mj mj 2
2
c 0 c 0
Hambleton, Jones, & Rogers, 1993; Nering & Ostini, 2011). Hal ini dipertegas
oleh Lord (2008: 65) menyatakan bahwa semakin besar varians, berarti semakin
lebar sebaran hasil estimasi, maka semakin kecil nilai fungsi informasinya dan
peserta (). Bila diambil nilai di bawah dan di atas titik kritis, kemudian kedua
nilai tersebut didekatkan, maka secara limit diperoleh fungsi informasi item.
Baker & Kim (2017: 89) juga menyatakan bahwa nilai informasi pada
varians. Jika nilai fungsi informasinya besar, maka semakin akurat mengestimasi
128
Sebaliknya, jika nilai informasi kecil, maka berarti bahwa kemampuan peserta tes
tidak dapat diperkirakan dengan tepat dan sebaran hasil estimasi semakin lebar,
yang berakibat pada semakin kecil nilai informasi yang diberikan, sehingga
informasi yang diberikan oleh item dalam lingkup seluruh kemampuan peserta tes
(Zięba, 2013). Kegunaan nilai fungsi informasi dalam pengembangan tes dan
characterististic curves (ICCs) untuk pengujian data. Kurva informasi butir dapat
informasi tes. Menurut Hambleton et al., (1991: 91) fungsi informasi perangkat
n
i ( ) i ( ) ………………………… (15)
i 1
Aspek penting dari nilai fungsi informasi yang diberikan dalam persamaan
14 adalah bahwa semakin banyak item dalam tes, semakin besar jumlah informasi.
Dicontohkan kurva dari fungsi informasi untuk tes yang dibangun atas dasar lima
pada titik dekat dengan i=0,25 dan kemudian menurun pada kedua sisi sehingga
tes yang dibangun atas dasar lima pertanyaan yang dipilih akan mengukur sifat
laten paling terpercaya di tingkat i=0,25 seperti disajikan pada Gambar 12.
129
Gambar 12. Grafik fungsi informasi tes (Zięba, 2013)
kemampuan peserta tes. Selanjutnya nilai informasi item terbagi menjadi 2 model
yaitu model dikotomus dan model politomus. Pada model dikotomus respons
peserta terbagi dalam dua kategori, yaitu bena r dengan skor 1 dan salah dengan
[ Pi ( )]2
'
I i ( ) i = 1, 2, …, n ………………………… (16)
Pi ( )Qi ( )
pada grafik respons item, secara matematis, turunan atau deviasi suatu fungsi
menyatakan titik kritis atau titik belok dari fungsi tersebut. Jika diturunkan pada
aspek tiga parameter yang ditinjau dalam karakteristik butir, maka persamaan
130
fungsi informasi butir sebagai berikut (Hambleton & Swaminathan, 1985:107;
2,89ai (1 c)
2
I i ( ) ……………………… (17)
(ci exp( Dai ( bi))1 exp( Dai ( bi )2
dengan,
I i ( ) : fungsi informasi butir-i
: tingkat kemampuan
ai : paramater daya beda butir-i
bi : parameter indeks kesukaran butir-i
ci : indeks tebakan semu butir-i
respons peserta ke dalam kategori yang jumlahnya lebih dari dua. de Ayala (2009)
semua informasi dari setiap kategori. Model politomous juga akan terbatas dalam
cara-cara yang sudah ditetapkan, contoh yang paling umum ini adalah dimana
item politomous respons peserta menggunakan skala rating (de Ayala, 2009: 162,
Reise & Revicki, 2014: 290). Faktor yang mungkin dianggap penting dalam
Politomus dalam model IRT untuk satu set data secara efektif
memperkirakan satu set parameter model untuk level trait dan karakteristik item.
Model ini memungkinkan jumlah kategori untuk item yang berbeda dalam tes
131
yang berbeda. Secara bersamaan memperkirakan invarian item dan parameter
peserta pada skala pengukuran yang sama. Hal ini juga memberikan informasi
tentang setiap parameter item dengan teliti dan informasi pada model politomus
IRT dapat dinilai pada tingkat item atau tingkat ategori (Nering & Ostini, 2011:
12, Reise & Revicki, 2014: 295). Penelitian Keller, Swaminathan, and Sireci
Hambleton et al. (1993) menyatakan ketika item terbaik dipilih atas dasar
disebabkan error dalam ukuran taksiran item. Untuk mengatasinya ada tiga tahap
(a) menggunakan sampel besar pada waktu mengkalibrasi item untuk memproleh
menaksir item akan mengurangi signifikansi pengaruh yang disebabkan error, (b)
melebihkan fungsi informasi target yang telah diputuskan, (c) menaksir seberapa
memiliki domain isi dan konsepsi yang teruji serta menyediakan taksiran yang
reliabel, meskipun tetap akan muncul masalah yang disebabkan oleh fungsi
error (Zenisky, Hambleton, & Sired, 2002). Hal ini menunjukkan bahwa nilai-
132
nilai indeks parameter kemampuan dan item merupakan hasil penaksiran,
pengukuran.
kemampuan peserta tes dapat diperoleh dari nilai informasi yang dihasilkan oleh
tes pada setiap tingkat kemampuan. Baker (2001: 107) menyatakan fungsi
informasi tes akan jauh lebih tinggi daripada untuk satu fungsi informasi item,
karena tes mengukur kemampuan lebih tepat daripada satu item. Dengan
tes menghasilkan grafik fungsi informasi tes seperti pada Gambar 13.
133
masing kategori respons. Jumlah dari fungsi kategori informasi I xj (θ) yang dinilai
(atau skor kategori) adalah fungsi informasi item. Berikut ini fungsi informasi
mj mj
I j ( ) ixj ( ) p xj
p
x' j
2
……………………… (18)
xj 0 xj 0 p xj
pada θ, dan px’j adalah turunan pertama dari pxj. Istilah pxj dapat berupa Model
Parsial Credit. Lebih lanjut jumlah dari fungsi informasi item menghasilkan
informasi total instrumen yang disajikan sebagai berikut (de Ayala, 2009: 200).
L
I i ( ) i j ( ) ……………………… (19)
j 0
Model dikotomus ada 2 kategori yaitu 1 dan 0 untuk daya pembeda (a)
sebesar 1,0 dan tingkat kesulitan pada kategori menjawab 1 sebesar -1,0 seperti
nampak pada gambar 14. Pada dikotomus model 3 kategori yaitu 0, 1 dan 2.
Untuk daya pembeda (a) sebesar 1,0 dan tingkat kesulitan pada kategori
menjawab 1 sebesar-2,0 dan 0,0 seperti nampak pada gambar 15. Pada gambar 16
disajikan model politomus dengan 4 kategori yaitu 0,1,2 dan 3 untuk daya
pembeda (a) sebesar 1,0 dan tingkat kesulitan pada kategori menjawab -2,0, 0,0
dan 2,0. Pada Gambar 17 disajikan model politomus dengan 4 kategori yaitu 0,1,2
dan 3, untuk daya pembeda (a) sebesar 1,0 dan tingkat kesulitan pada kategori
134
Gambar 14. Grafik CRF untuk 2 kategori Gambar 15. CRF untuk 3 kategori
Gambar 16. Grafik CRF untuk 4 kategori Gambar 17. CRF untuk 5 kategori
(Retnawati, 2014: 35-36)
penting untuk diingat hubungan timbal balik antara nilai informasi dan variabilitas
mengartikan nilai informasi ke dalam kesalahan standar estimasi, satu hal yang
104) salah satu faktor yang paling penting dari fungsi informasi tes adalah
kontribusi dari setiap item untuk informasi total tes. Dengan demikian, pengaruh
135
dari setiap item dan dampaknya pada total tes dapat mudah ditentukan. Susongko
(2010) juga menyatakan jika makin tinggi ketidakpastian, maka makin rendah
tinggi nilai fungsi informasi tes. Hal ini menunjukkan fungsi informasi dalam
nilai indeks parameter item dan kemampuan peserta merupakan hasil estimasi
kemampuan peserta tes. Retnawati (2014: 19) bahwa kesalahan pengukuran dalam
measurement (SEM) berkaitan erat erat dengan fungsi informasi. Kaitan antara
Retnawati (2014: 82) dan Ridlo (2012) bahwa jika semakin besar atau tinggi
nilai fungsi informasi, maka semakin SEM atau kesalahan bakunya semakin kecil
atau sebaliknya, yang berarti semakin akurat model penskoran tersebut dalam
(1991: 94) dan Retnawati (2014: 82) dinyatakan jika nilai fungsi informasi
^
dinyatakan dengan Ii ( ) dan estimasi SEM dinyatakan dengan SEM ( ) maka
persamaannya adalah:
136
^ 1
SEM ( ) ……………………………………………… (20)
I ( )
^ ^
Kesalahan standar baku , SEM ( ) adalah standar deviasi distribusi
kemampuan peserta. Kesalahan ini dalam IRT berdasarkan pada fungsi informasi
suatu tes. Jika semakin besar fungsi informasi suatu tes, maka semakin kecil
dipercaya dalam mengukur kemampuan peserta tes yang sebenarnya. Oleh karena
itu, besar kecilnya nilai fungsi informasi tes sangat memengaruhi kesalahan baku
pengukuran. Berikut ini disajikan contoh hubungan timbal balik antara nilai
dikatakan bahwa semakin tinggi puncak nilai fungsi informasi yang diperoleh,
kemampuan peserta tes. Oleh karena itu, nilai fungsi informasi dalam IRT sangat
penting dalam menunjukkan sebuah fungsi yang mengukur model yang dipilih
137
mampu memberikan informasi terhadap pendugaan level kemampuan peserta tes
dan semakin kecil kesalahan bakunya berarti semakin akurat model penskoran
tersebut dalam menaksir kemampuan, sehingga dalam penelitian ini nilai fungsi
nilai fungsi informasi ini adalah independensi diantara butir mengakibatkan butir
didalam perangkat tes dapat ditambahkan, dikurangi, atau diganti secara bebas,
dan dengan menggunakan sifat aditif dari kurva fungsi informasi butir, sehingga
dengan nilai fungsi informasi ini dapat dirakit instrumen penilaian yang mengukur
dan holistik tidak ditemukan. Namun terdapat beberapa penelitian yang relevan
dengan penelitian ini baik di luar negeri maupun di Indonesia sebagai berikut.
analitik untuk menilai kinerja menulis mahasiswa di salah satu perguruan tinggi.
138
perbandingan penskoran holistik dan analitik pada keterampilan berbicara,
diperoleh hasil bahwa penskoran holistik lebih baik, dapat diandalkan dan
dengan holistik. Selain itu objek penilaian yang dilakukan juga berbeda meskipun
subjeknya sama yaitu mahasiswa dimana dalam penelitian ini difokuskan pada
35 item yang dapat menjadi pedoman dalam mengukur kompetensi mengajar yang
terdiri dari 35 item dalam tujuh indikator: pemahaman mata pelajaran (lima item);
berpartisipasi dalam belajar (lima item); pemahaman peserta didik (empat item);
lingkungan belajar dan keadaan (lima item); evaluasi peserta didik (empat item);
Penelitian Kim & Kim (2016) hanya fokus pada pengembangan salah satu
139
Penelitian lain yang dilakukan oleh Büyükkidik and Anil (2015) yang
penilaian yang menggunakan rubrik holistik dan analitis dengan p-value sebesar
0.001 (p < 0.05). Oleh karena itu, disarankan bahwa untuk menggunakan kedua
rubrik tersebut dalam proses penilaian yang mungkin dianggap tepat ketika
holistik dan rubrik penilaian analitik yang menunjukkan ada perbedaan keduanya
kompetensi bidang keguruan mahasiswa calon guru oleh Suparji (2008) yang
dan sosial. Penelitian Retnawati and Munadi (2013) mengestimasi parameter butir
dan kemampuan guru menggunakan model parsial kredit dan parsial kredit
140
tergeneralisasi dan membandingkan keduanya. Hasil penelitian menunjukkan
bahwa model parsial kredit merupakan model yang sesuai (cocok) digunakan
Guru (PPG) sebagai fungsi pelaksanaan manajemen mutu yang difokuskan pada
Program Studi PGSD ditemukan penilaian kualitas pelaksanaan PPG baik oleh
dasar, namun untuk pembuktian validitasnya hanya fokus pada validitas isi oleh
komponen, indikator dan instrumen penilaian kinerja guru sekolah dasar dengan
hasil analisis diperoleh instrumen tersebut valid dan reliabel serta menunjukkan fit
model yang cukup baik yaitu instrumen penilaian tersebut terdiri dari lima
141
Penelitian Widiati and Hayati (2015) tentang Program PPG di Indonesia
program ini telah memberikan manfaat bagi peserta dalam hal mengembangkan
pembelajaran dan media, dan prosedur penilaian sesuai dengan kurikulum sekolah
menengah. Selain itu ada juga yang mengembangkan instrumen bakat keguruan
oleh Wasidi and Mardapi (2016) hasil confirmatory factor analysis menunjukkan
analisis multi trait multi method menunjukkan bahwa korelasi antara skor
guru, posisi guru semakin dinaungi oleh sumber hukum serta dengan adanya
142
Penelitian Suparji (2008) hanya fokus pada pengembangan instrumen
telah dikuasai dengan baik oleh mahasiswa karena dari jumlah SKS untuk mata
kuliah bidang studi sudah cukup memadai. Selain itu, karena begitu banyak dan
spesifiknya masing-masing mata bidang studi yang diajarkan sehingga perlu ada
calon guru yang dimaksud belum spesipik mengarah pada bidang keahlian mata
model penilaian PPG yang mampu untuk menilai capaian penguasaan kompetensi
PPG (Panas UKMPPG) yang terjadwal secara nasional dan tentunya item-item
pada soal tersebut telah melalui tahapan-tahapan pengembangan soal yang baku.
parameter butir dan kemampuan guru menggunakan model parsial kredit, hasil
estimasi parameter butir dan kemampuan guru menggunakan model parsial kredit
Sementara dalam penelitian ini difokuskan pada model penilaian PPG dengan
143
penskoran parsial dan holistik. Demikian halnya pada penelitian Hasli hanya
sekolah dasar dan penelitian Wasidi & Mardapi hanya fokus kepada
Terkait dengan kajian penelitian yang relevan dengan PPG dilakukan oleh
difokuskan pada Program Studi PGSD. Widiawati & Hayati hanya memfokuskan
pada kebermanfaatan PPG pada Program Studi Bahasa Inggris. Hotimah &
dan Prasojo et.al., hanya menganalisis manajemen kurikulum Program PPG untuk
bakat keguruan mahasiswa calon guru secara umum dan mengkaji tentang
pelaksanaan PPG dari segi manfaat dan aspek manajemen atau pengelolaannya
PPG dengan penskoran parsial dan holistik belum pernah ada, sehingga penelitian
ini memenuhi unsur kebaharuan. Dengan demikian secara garis besar disimpulkan
di Indonesia terutama yang memfokuskan pada kajian PPG sebagai isu penelitian
144
terbaru, karena dari berbagai penelitian yang telah dipaparkan lebih fokus
penskoran holistik.
dan holistik ini sangat penting dan perlu dilakukan untuk menilai capaian
penilaian kompetensi sosial dan kepribadian. Item-item yang ada dalam instrumen
oleh Kemenristekdikti dan melengkapi item-item yang tidak ternilai. Tujuan akhir
dari penelitian ini untuk menggali informasi keakuratan model penilaian dengan
penskoran parsial dan holistik melalui fungsi informasi dan kesalahan baku
C. Kerangka Pikir
dengan prosedur pengembangan. Oleh karena itu, harapan yang tinggi untuk
145
pengembangannya menjadi sebuah kebutuhan utama dan dianggap penting, agar
dan holistik dalam pengembangan model penilaian PPG pada praktik mengajar.
Selain itu, mendeskripsikan hasil penilaian kepraktisan model penilaian PPG yang
146
Kepraktisan
Model
Penilaian
PPG
Model Penilaian:
- Sistem penilaian
- Mekanisme penilaian
- Penskoran dan interpretasi
hasil penilaian
147
D. Pertanyaan Penelitian
peserta PPG?
2. Bagaimana bukti validitas isi model penilaian PPG dengan penskoran parsial
dan holistik?
peserta PPG?
148
BAB III
METODE PENELITIAN
A. Model Pengembangan
PPG dengan penskoran parsial dan holistik. Model penilaian Program PPG yang
penilaian Program PPG dengan penskoran parsial dan holistik. Oleh karena pada
menguji efektivitas dari produk yang dihasilkan tersebut, maka jenis penelitian ini
disingkat R & D.
& D yang dikemukakan Borg and Gall (1989: 781-802) yaitu: 1) research and
5) main product revision (revisi hasil uji lapangan terbatas), 6) main field testing
(uji lapangan lebih luas), 7) operational product revision (revisi hasil uji lapangan
lebih luas), 8) operational field testing (uji kelayakan), 9) final product revision
(revisi hasil uji kelayakan), 10) dissemination and implementation (diseminasi dan
149
Berdasarkan tahapan model R & D yang dikemukakan Borg and Gall
150
pengembangan yang disarankan oleh Mardapi (2017: 132) dan Retnawati (2014:
teori yang relevan atau cakupan materi, 3) menyusun indikator item instrumen, 4)
parsial dan holistik, 5) validasi isi/telaah instrumen dan panduan penilaian dengan
reliabilitas), (9) revisi berdasarkan hasil analisis data uji coba terbatas, 10) uji
coba diperluas dan analisis datanya, 11) merakit instrumen final, 12) menafsirkan
hasil pengukuran.
diadaptasi dari teori Cooper (2013: 4) yang menyatakan bahwa wilayah umum
dan penguasaan bidang studinya (kompetensi profesional). Hal ini juga relevan
Undang Nomor 14 Tahun 2005 tentang Guru dan Dosen serta tertuang pada
Pendidikan Guru.
151
Model penilaian PPG yang dikembangkan difokuskan pada instrumen
B. Prosedur Pengembangan
mahasiswa/peserta PPG dengan penskoran parsial dan holistik yang akurat dan
serta penilaian kompetensi sosial dan kepribadian, observasi dan focus group
152
dan guru pamong/penguji UKIN untuk mendapat data yang lengkap dan
disebarkan secara tertulis kepada expert judgment melalui metode Delphi dan
sejauhmana rancangan model ini dapat dipahami oleh penilai, maka diadakan
pada penilaian praktik mengajar. Tahap ketiga adalah penerapan model secara
luas (main field testing) dengan prosedur pengembangan seperti disajikan pada
Gambar 21.
153
Model Dissemination
and
Praktis implementation
Research and
information
collecting
Operational
field testing
and final
Identifikasi masalah product
di lapangan revision
Pengumpulan
informasi (need
assessment)
Main field
testing and
Planning and operational
develop preliminary product
form of product revision
Preliminary field
testing and main
product revision
154
C. Desain Uji Coba Produk
analisis data.
Desain uji coba dilakukan melalui tahapan yaitu: tahap pertama setelah
Penyelenggaraan PPG dan instrumen penilaian PPG yang digunakan selama ini.
Hasil dari penelaahan teori dan masalah lapangan disusunlah draf awal. Draf ini
berisi rumusan komponen beserta indikator yang telah tersusun lengkap dengan
penskorannya.
155
penilaian pelaksanaan pembelajaran (IP-PP) terdiri dari instrumen penilaian
KSKK) terdiri dari instrumen penilaian kompetensi sosial dan kepribadian parsial
Draft instrumen dan panduan penilaian yang telah dikembangkan direviu oleh 7
orang pakar (expert judgment) yang relevan dengan bidang yang dikembangkan,
yaitu:
1. Prof. Anik Gufron, M.Pd., guru besar di Universitas Negeri Yogyakarta pada
Yogyakarta.
3. Prof. Mansyur, M.Si., guru besar di Universitas Negeri Makassar pada bidang
156
instrumen kinerja, memberikan pelayanan tes, merancang system pengujian
4. Prof. Ruslan, M.Pd., guru besar di Universitas Negeri Makassar pada bidang
5. Prof. Patta Bundu, M.Pd., guru besar di Universitas Negeri Makassar pada
sains, lesson study, teknologi pembelajaran, evaluasi proses dan evaluasi hasil
Kemenristekdikti.
relevan yaitu ahli pendidikan, ahli penilaian dan pengukuran, ahli psikologi dan
psikometri, selain itu juga melibatkan dosen pembimbing dan guru pamong untuk
157
menggunakan kesepakatan ahli dengan menggunakan indeks validitas oleh Aiken
(Retnawati, 2014: 18). Indeks Aiken dipilih untuk melihat indeks kesepakatan
rater terhadap kesesuaian item (atau sesuai tidaknya item) dengan indikator yang
mengacu format penilaian ahli untuk mengetahui kesesuaian butir dan indikator
tidak relevan, skor 2= kurang relevan, skor 3= cukup relevan, skor 4= relevan dan
ahli mengenai validitas item, dari hasil tersebut diinterpretasikan. Tahap awal ini
menghasilkan kisi-kisi dan item instrumen yang lebih baik dan bersesuaian
dikembangkan.
skor tampak dan varians skor murni dengan analisis varians. Nilai harapan rerata
kuadrat antar ratees (MSRS) adalah varians antar ratees, sedang nilai harapan
158
rerata kuadrat kesalahan (MS e) adalah varians skor kesalahan, dimana varians kor
murni bisa dicari bila varians antar ratees dan varians kesalahan (reminder)
MSRrs MSe
……………………………………………… (21)
MSr (k 1) MSe
Keterangan:
MSrs : rerata kuadrat antar baris, tiap baris ada satu orang
MSe : rerata kuadrat residu atau kesalahan
k : jumlah kolom atau jumlah penilai
(Sumber: Mardapi, 2017: 79)
Selanjutnya hasil instrumen yang sudah didapat dilakukan uji coba terbatas
komponen sebagai pembentuk penilaian PPG yang digunakan. Data hasil uji coba
dipilih karena model teori yang ada dapat diuji dan keterkaitan antar faktor dapat
dilihat, peneliti dapat memeroleh muatan faktor (factor loading) tiap indikator
yang menyusun instrumen (λ) dan indeks kesalahan unik dari tiap indikator (δ).
159
konsisten berada dalam konstruknya tersebut atau tidak. Selanjutnya untuk
reliability) muatan faktor (factor loading) tiap indikator menyusun instrumen (λ)
dan indeks kesalahan unik dari tiap indikator (δ) (Geldhof, Preacher, & Zyphur,
Subjek uji coba dalam penelitian adalah sesuai lingkup PPG yang diteliti
yaitu Lingkup PPG yang diteliti yaitu PPG Prajabatan bersubsidi dan PPG Dalam
(UNG), dan LPTK Universitas Islam Negeri Alauddin Makassar (UINAM) yaitu
sebanyak 236 orang peserta PPG pada uji coba tahap I (uji coba terbatas) dan 516
orang peserta PPG pada uji coba tahap II (uji coba diperluas) menggunakan teknik
bersesuaian dan pada uji coba tahap II dua kali lebih banyak dari uji coba
program studi yang ada pada saat penyelenggaraan PPG Prajabatan bersubsidi dan
PPG Dalam Jabatan tahun akademik 2018/2019 di Rayon LPTK UNY, LPTK
160
Mekanisme penelitian di lapangan dilakukan dengan cara memberikan
(instrumen penilaian kompetensi sosial dan kepribadian parsial), IP- KSKK /H-
holistik) yang dilengkapi dengan rubrik dan petunjuk penilaian untuk masing-
masing instrumen, (2) guru (Guru Pamong (GP)/Guru Penguji UKIN, GPU)
Pelaksanaan penelitian uji coba tahap I (uji coba terbatas) dari bulan
Desember 2018 sampai bulan Pebruari 2019 pada peserta PPG Prajabatan
161
bersubsidi pada P4TKN UNY tahun akademik 2018/2019 dengan Program Studi
peserta PPG Prajabatan bersubsidi Program Studi Bahasa Inggris, PPG Dalam
Jabatan Program Studi PGSD, Bahasa Inggris, dan PJKR. Untuk penyelenggaraan
Arab, Sejarah Kebudayaan Islam dan Guru Kelas Madrasah Ibtidaiyah (MI).
Pelaksanaan uji coba tahap II (uji coba diperluas) dilaksanakan pada bulan
Maret 2019 sampai bulan Awal Mei 2019 pada penyelenggaraan PPG UNY tahun
2019 yaitu PPG Dalam Jabatan tahap 1 pada Program Studi PGSD, PJKR,
Penyelenggaraan PPG UNG yaitu PPG Dalam Jabatan tahap I pada Prodi PGSD,
Bahasa Inggris, dan PJKR, dan penyelenggaraan PPG UINAM yaitu PPG Dalam
Akidah Akhlak, Bahasa Arab, Sejarah Kebudayaan Islam dan Guru Kelas
Madrasah Ibtidaiyah (MI). Adapun jumlah peserta PPG pada pelaksanaan uji coba
162
Tabel 9. Subjek Uji Coba
163
Pelaksanaan Uji Coba I di LPTK UNY tahun akademik 2018/2019
22 guru pamong pada 13 sekolah yang menjadi lokasi PPL yaitu: SDN 1 Jarakan,
Yogyakarta.
pada 85 peserta PPG Prajabatan bersubsidi Program Studi Bahasa Inggris, PPG
Dalam Jabatan Program Studi PGSD, Bahasa Inggris, dan PJKR. Pelaksanaan
UKIN dan 12 guru Penguji UKIN pada Sekolah Binaan LPTK UNG yaitu: SDN
SMAN 3 Gorontalo.
2018/2019 pada 103 Peserta PPG Dalam Jabatan dengan Program Studi/Mata
Pelajaran diantaranya: Fikih, Qur’an Hadis, Akidah Akhlak, Bahasa Arab, Sejarah
164
Kebudayaan Islam dan Guru Kelas Madrasah Ibtidaiyah (MI). Pelaksanaan
penilaian dilakukan pada saat peserta PPG melaksanakan workshop dan PPL.
12 guru pamong pada lokasi yang ditunjuk LPTK UINAM yaitu: MIN 1
Nadhlatul Wathan.
penilaian PPG pada Uji Coba II dengan subjek skala besar dengan jumlah 516
peserta PPG. Pelaksanaan Uji Coba II di LPTK UNY tahun 2019 dilakukan pada
158 peserta PPG Dalam Jabatan dengan Program Studi PGSD, Pendidikan
Matematika, PJKR. Pelaksanaan penilaian dilakukan pada saat peserta PPG PPL
dan UKIN. Pelaksanaan penilaian uji coba tahap II ini melibatkan 21 dosen
pembimbing lapangan dan 22 guru pamong pada 13 sekolah yang menjadi lokasi
SMPN 8 Yogyakarta.
pada 119 peserta PPG Dalam Jabatan Program Studi Bahasa Inggris, PPG Dalam
Jabatan Program Studi PGSD, Bahasa Inggris, dan PJKR. Pelaksanaan penilaian
dilakukan pada saat peserta PPG melaksanakan PPL. Pelaksanaan penilaian ini
165
melibatkan 10 dosen penguji UKIN dan 12 guru Penguji UKIN pada Sekolah
Binaan LPTK UNG yaitu: SDN 84 Kota Tengah, SDN 85 Kota Tengah, SD
penguji UKIN pada lokasi yang ditunjuk LPTK UINAM yaitu: MI Bahrul Ulum,
MTs Madani Alauddin PaoPao, MTs Negeri Gowa, MAN 2 Kota Makassar.
Jenis data dalam penelitian ini terdiri atas data kuantitatif dan data
kualitatif. Data utama dalam penelitian ini adalah data kuantitatif, sementara data
dinilai. Selain itu, data kuantitatif didasarkan atas penskoran yang telah
166
ditetapkan pada instrumen penilaian PPG yang dikembangkan dengan
Data kualitatif adalah data yang diperoleh dari Focus Group Discussion,
uji keterbacaan instrumen dari expert judgment serta hasil konsultasi dari
kompetensi kepribadian peserta PPG, dan validitas isi dari expert judgement.
penilaian PPG yang digunakan selama ini. Selain itu, teknik ini digunakan untuk
Analisis yang digunakan dalam penelitian ini terbagi dalam tiga tahap.
Tahap pertama adalah teknik analisis untuk menilai model penskoran parsial dan
167
Tahap kedua adalah analisis hasil uji coba instrumen berdasarkan
penskoran yang digunakan. Tahap ketiga adalah analisis deskriptif atau analisis
a. Tahap Pertama
penilaian PPG dengan penskoran parsial dan holistik yang dapat digunakan dalam
penilaian dengan penskoran parsial dan holistik berdasarkan kajian teoritis, telaah
penilaian PPG yang digunakan selama ini, yang menghasilkan draft pertama
b. Tahap Kedua
validitas dan reliabilitas model penilaian PPG dengan penskoran parsial dan
peserta PPG. Untuk membuktikan validitas model penilaian PPG melalui validitas
isi dan validitas konstruk. Validitas isi diperlukan untuk meyakini model penilaian
168
dianalisis menggunakan indeks Aiken atau yang diusulkan oleh Aiken (Aiken,
V
s ……………………………………………… (22)
n(c 1)
dengan,
dalam kategori
n : Banyaknya rater/ahli
V untuk menentukan apakah suatu item tersebut diterima atau tidak setelah
menunjukkan untuk jumlah rater yang berbeda, nilai minimum indeks V juga
berbeda sehingga semakin banyak rater yang digunakan, maka semakin kecil
indeks V yang disyaratkan. Pada tabel juga memberikan dua pilihan nilai p yang
ditetapkan yaitu baris pertama p<0,01 dan baris kedua p<0,05, jika menetapkan
nilai p<0,01 yang artinya peluang error sebesar 1%, maka indeks V dilihat pada
baris pertama tiap jumlah rater. Namun jika menetapkan nilai p<0,05 yang
artinya peluang error sebesar 5%, maka indeks V dilihat pada baris kedua tiap
169
cukup relevan, skor 4= relevan dan skor 5=sangat relevan yang dinilai oleh 7
expert judgment dengan p<0,05, jika merujuk pada tabel Aiken’s V sebagaimana
terlampir pada Lampiran 1, maka diperoleh indeks Aiken V=0,75, sehingga setiap
item dinyatakan valid jika memenuhi indeks Aiken yang dipersyaratkan (>0,75),
sebaliknya item instrumen dinyatakan tidak valid jika dibawah dari nilai indeks
Aiken yang dipersyaratkan (<0,75). Hal ini juga didukung oleh pendapat
Retnawati (2016a: 19) yaitu: V ≤ 0.4 untuk validitas kurang, 0.4 – 0.8 untuk
validitas sedang serta V > 0.8 untuk kategori sangat valid. Proses ini menghasilkan
draft instrumen penilaian dan buku panduan penilaian yang sudah siap diujicoba
Second Order Confirmatory Factor Analysis sampai memeroleh model yang fit.
yang dioperasikan melalui software Lisrel versi 8.70 (Ghozali & Fuad, 2014;
Joreskog & Sorbom, 2006) . Model standar mengacu pada Retnawati (2016a: 64)
memiliki arti jika besarnya tidak kurang dari 0,4 dan signifikan yang ditunjukkan
t-value tidak berwarna merah (untuk taraf signifikansi 0,05, t-value < 1,96).
Penentuan goodness of fit model, dilakukan dengan cara melihat besarnya indeks
chi-Square empiris <2 df; signifikansi (p) ≥ 0.05; dan Root Mean Square
170
Selanjutnya untuk mengestimasi reliabilitas penilaian dari expert
memenuhi kriteria ≥ 0,70 (Gronlund & Linn, 1965; Nunnally, 1994). Sementara
Keterangan
= Koefisien reliabilitas,
i = Faktor loading terstandarisasi (Retnawati, 2016a: 93)
c. Tahap Ketiga
karakteristik model penilaian dengan penskoran parsial dan holistik yang dapat
model penskoran parsial diestimasi dengan metode partial credit model (PCM)
171
Selanjutnya untuk menjawab permasalahan ke-4 tentang bagaimana
deskripsi hasil penskoran parsial dan holistik dalam model penilaian PPG
terbalik dengan SEM, semakin besar nilai informasi maka SEM akan semakin
kecil atau sebaliknya. Jika nilai fungsi informasi telah diketahui, maka secara
^ 1
SEM ( ) ………………………………… (24)
I ( )
dengan,
I ( ) : Nilai fungsi informasi
penilaian PPG dengan penskoran parsial dan holistik berdasarkan penilaian oleh
kategorisasi hasil penilaian dan efektifitas penggunaan model penilaian PPG dari
indikator yang dinilai. Adapun indikator yang dinilai yaitu: mampu dipahami
172
BAB IV
parsial dan holistik. Pada model penilaian PPG yang telah dikembangkan terdapat
instrumen dan panduan penilaian PPG dengan penskoran parsial dan holistik.
Pada bab ini diuraikan hasil pengembangan model penilaian penilaian PPG
yang diterapkan pada Rayon LPTK Universitas Negeri Yogyakarta (UNY), LPTK
bersubsidi dan PPG Dalam Jabatan tahun akademik 2018/2019. Hasil penelitian
Model penilaian PPG yang telah dikembangkan pada penelitian ini secara
173
evaluasi pembelajaran (PPPEP), serta penerapan prinsip techno pedagogical
(PMMMS) diukur dengan 6 item, yaitu: kesesuaian dan kejelasan materi dengan
dengan strategi pembelajaran dan materi yang diajarkan, kesesuaian media dan
sumber belajar dengan tujuan pembelajaran, materi, kondisi kelas dan ketepatan
174
kejelasan lingkup penilaian, kelengkapan komponen penilaian yang digunakan,
penilaian RPP pada model penilaian PPG dapat digambarkan sebagai berikut.
175
Keterangan:
PIPKC : Perumusan indikator pencapaian kompetensi dan capaian
pembelajaran
PMMMS : Pengorganisasian materi, metode, media dan sumber belajar
PPPEP : Pengorganisasian proses, penilaian dan evaluasi pembelajaran
PTPCK : Penerapan prinsip techno pedagogical content knowledge
penilaian dan evaluasi pembelajaran (PPPEP) sebanyak enam item (item 13-18),
sebanyak tujuh item (item19-25) yang terlampir pada Lampiran 1 halaman 457.
pembelajaran yang mendidik (MPMD) diukur oleh empat item yaitu: menyiapkan
peserta didik secara fisik dan mental, memotivasi peserta didik, melakukan
176
Indikator melaksanakan pembelajaran yang mencerdaskan (MPMC)
diukur oleh tujuh item. Item tersebut antara lain: menunjukkan penguasaan materi
based learning, Menggunakan alat/bahan, media dan TIK secara efektif dan
efisien, serta menggunakan alat/bahan, media dan TIK yang menghasilkan pesan
didik (MPDK) diukur oleh empat item. Item tersebut antara lain: menunjukkan
sikap terbuka dan respon terhadap peserta didik, menunjukkan hubungan yang
kondusif dan kerjasama antar peserta didik, menggunakan bahasa yang santun,
lima item. Item tersebut antara lain: memantau kemajuan belajar peserta didik
selama proses pembelajaran, melakukan penilaian proses dan hasil sesuai rencana
177
Gambar 23. Konstruk Penilaian Pelaksanaan Pembelajaran (PP)
Keterangan:
MPMD : Melaksanakan pembelajaran yang mendidik
MPMC : Melaksanakan pembelajaran yang mencerdaskan
MPDK : Memfasilitasi pengembangan potensi diri dan karakter
MDMP : Menilai dan mengevaluasi pembelajaran
mendidik (MPMD) diukur oleh empat item (item 1-4), indikator melaksanakan
pembelajaran yang mencerdaskan (MPMC) diukur oleh tujuh item (item 5-11),
178
indikator memfasilitasi pengembangan potensi diri dan karakter peserta didik
(MPDK) diukur oleh empat item (item 12-15), serta indikator menilai dan
Komponen ini diukur melalui empat indikator yaitu: bekerjasama dan memiliki
(BMJK) diukur oleh lima item. Item tersebut antara lain: menunjukkan sikap
mengatur dan mau diatur orang lain, menunjukkan sikap aktif dan bijaksana, serta
Indikator bersikap inklusif, toleran dan peduli (BITP) diukur oleh lima
menunjukkan sikap empati terhadap sesama, menunjukkan sikap adil dan objektif,
item. Item tersebut antara lain: menunjukkan sikap santun dalam berkomunikasi,
179
Indikator bersikap sopan/ santun, mandiri, kreatif dan disiplin (BSMKD)
diukur oleh lima item. Item tersebut antara lain: menunjukkan kesopanan
Adapun konstruk penilaian pada kompetensi ini tampak pada Gambar 24 berikut.
180
Berdasarkan konstruk yang disajikan pada Gambar 24, maka dapat
bekerjasama dan memiliki jiwa kepemimpinan (BMJK) diukur oleh lima item
(item 1-5), indikator bersikap inklusif, toleran dan peduli (BITP) diukur oleh lima
item (item 6-10), indikator berkomunikasi dengan sesama (BKDS) diukur oleh
lima item (item 11-15), serta indikator bersikap sopan/ santun, mandiri, kreatif
dan disiplin (BSMKD) diukur oleh lima item (item16-20) yang terlampir pada
Penilaian model oleh ahli atau expert judgment yang dimaksud dalam
penelitian ini adalah model yang telah ditentukan konstruknya pada fase
konstruk yang telah dikembangkan secara teoretik. Pada penelitian ini terdapat 7
Tahapan pembuktian validitas isi yang telah dilakukan pada penelitian ini
mengacu pada saran atau pandangan Retnawati (2016a: 27) yang meliputi
validitas ini instrumen penilaian PPG pada penelitian ini adalah memberikan kisi-
kisi dan item instrumen, berikut rubrik penskorannya kepada ke-7 ahli atau pakar
181
yang telah dipilih sesuai dengan bidang yang diteliti untuk memohon masukan
simbol dan hal lain yang dianggap subtansial oleh ahli. Proses ini disebut dengan
telaah kualitatif yang meliputi aspek subtansi, bahasa dan budaya. Berdasarkan
(PP), dan instrumen penilaian kompetensi sosial dan kepribadian (KSKK), serta
panduan penilaian. Terkait dengan hasil penilaian expert judgment serta analisis
validitas isi berdasarkan Aiken V pada 25 item yang terdapat pada instrumen
Tabel Aiken V
Indikator
Valid Tidak Valid
(> 0,75) (< 0,75)
PIPCK A1, A2, A3, A4, A5, A6 -
PMMMS B7, B8, B9, B10,B11, B12 -
PPPEP C13,C14, C15, C16, C17, C18 -
PTPCK D19, D20, D21, D22, D23, D24 D25 -
Total / % 25/100% 0 / 0%
182
Berdasarkan data Tabel 10, dapat dijelaskan bahwa secara umum validitas
isi instrumen penilaian RPP jika mengacu pada tabel Aiken’s V menunjukkan
penskoran parsial dan holistik dinyatakan valid karena memenuhi indeks Aiken
yang dipersyaratkan yaitu > 0,75 (Aiken, 1985). Selanjutnya jika mengacu pada
saran Retnawati (2016a: 19) instrumen penilaian RPP yang berada pada kategori
sangat valid yaitu terdapat 15 item atau 75% yang memiliki nilai validitas > 0.8,
dan selebihnya ada 10 item atau 25% berada pada kategori sedang. Hal ini
menunjukkan bahwa instrumen penilaian RPP telah akurat memenuhi syarat dari
aspek validitas isi, meskipun masih terdapat beberapa item yang diperbaiki
berdasarkan saran atau masukan dari expert judgment pada aspek materi, konstruk
beberapa item yang belum ternilai, serta memperbaiki item/butir yang menilai
indikator dengan sebaran item sebanyak 20 item. Terkait dengan hasil penilaian
ketujuh expert judgment serta analisis validitas isi berdasarkan Aiken V pada 20
item yang terdapat pada instrumen penilaian pelaksanaan pembelajaran (PP) yang
183
interpretasi koefisien tersebut dibuat pengkategorian sebagaimana disajikan pada
Tabel Aiken V
Indikator Valid Tidak Valid
(> 0,75) (< 0,75)
MPMD A1, A2, A3, A4 -
MPMC B5,B6,B7,B8 B9, B10, B11 -
MPDK C12, C13 C14, C15 -
MDMP D16,D17,D18D19, D20 -
Total / % 20/100% 0 / 0%
Berdasarkan data pada Tabel 11, maka dapat dijelaskan bahwa secara
umum validitas isi yang dinilai oleh expert judgment pada instrumen penilaian
(PP) telah akurat memenuhi syarat dari aspek validitas isi, meskipun masih
terdapat beberapa item yang diperbaiki berdasarkan saran atau masukan dari
dari aspek yang dinilai dan deskriptor setiap butir disarankan sebaiknya yang
(KSKK). Pada instrumen ini memuat empat indikator dengan sebaran item
184
sebanyak 20 item. Terkait dengan hasil penilaian ketujuh expert judgment serta
analisis validitas isi berdasarkan Aiken V pada 20 item yang terdapat pada
Tabel Aiken V
Indikator Valid Tidak Valid
(> 0,75) (< 0,75)
BMJK A1, A2, A3, A4, A5 -
BITP B6, B7 B8, B9, B10 -
BKDS C11, C12, C13, C14, 15 -
BSMKD D16,D17,D18 D19, D20 -
Total / % 20/100% 0 / 0%
Berdasarkan data yang disajikan pada Tabel 12, maka dapat dijelaskan
bahwa secara umum validitas isi yang dinilai oleh expert judgment pada instrumen
pada pada tabel Aiken’s V menunjukkan semua item yang dikembangkan dalam
dengan penskoran parsial dan holistik dinyatakan valid. Hal ini menunjukkan
(KSKK) telah akurat memenuhi syarat dari aspek validitas isi, meskipun masih
terdapat beberapa item yang diperbaiki berdasarkan saran atau masukan dari
expert judgment diantaranya perlu penyelarasan dari aspek bahasa, masih banyak
huruf yang hilang pada sejumlah kata, dan deskripsi pilihan jawaban dari masing-
185
masing item dibuat singkat, jelas dan menyesuaikan dengan komponen dan
isinya adalah buku panduan model penilaian dengan penskoran parsial dan
holistik. Pada instrumen ini memuat tujuh indikator dengan sebaran item
dengan sebaran item sebanyak 6 item dari item 1.1 - 1.6, menilai sistem penilaian
Program PPG dengan sebaran item sebanyak 4 item dari item 2.1 - 2.4, menilai
mekanisme penilaian Program PPG dengan sebaran item sebanyak 5 item dari
item 3.1 - 2.5, menilai penskoran dan interpretasi hasil penilaian Program PPG
dengan sebaran item sebanyak 13 item dari item 4.1 - 4.13, menilai komponen
dari item 5.1-5.5, menilai akurasi dan kemutakhiran panduan penilaian dengan
sebaran item sebanyak 6 item dari item 6.1 - 6.6, dan menilai komponen bahasa
dari panduan penilaian dengan sebaran item sebanyak 7 item dari item 7.1 - 7.7.
Terkait dengan hasil penilaian ketujuh expert judgment serta analisis validitas isi
berdasarkan Aiken V pada 46 item yang terdapat pada format penelaahan panduan
model penilaian dengan penskoran parsial dan holistik dengan hasil penilaian
186
Tabel 13. Pengkategorian Validitas Isi Panduan Model Penilaian PPG
Tabel Aiken V
Indikator Valid Tidak Valid
(> 0,75) (< 0,75)
Pendahuluan 1.1,1.2,1.3, 1.4,1.5,1.6 -
Sistem Penilaian Program PPG 2.1, 2.2, 2.3, 2.4 -
Mekanisme Penilaian Program PPG 3.1,3.2,3.3, 3.4,3.5 -
Penskoran dan Interpretasi Hasil 4.1,4.2,4.3, 4.4,4.5,4.6, 4.7
-
Penilaian Program PPG 4.8,4.9,4.10,4.11, 4.12,4.13
Pendukung Penyajian 5.1,5.2,5.3, 5.4,5.5
Akurasi dan kemutakhiran 6.1,6.2,6.3, 6.4,6.5,6.6
Bahasa 7.1,7.2,7.3, 7.4,7.5,7.6,7.7
Total / % 46/100% 0 / 0%
Berdasarkan data pada Tabel 13, dapat dijelaskan bahwa secara umum
validitas isi yang dinilai oleh expert judgment pada panduan model penilaian
dengan penskoran parsial dan holistik jika mengacu pada pada tabel Aiken’s V
penskoran parsial dan holistik dinyatakan valid. Hal ini menunjukkan bahwa
panduan model penilaian dengan penskoran parsial dan holistik telah akurat
memenuhi syarat dari aspek validitas isi berdasarkan penilaian expert judgment,
teknik reliabilitas inter-rater terhadap hasil penilaian ketujuh expert judgment pada
187
dan kepribadian (KSKK) dan panduan model penilaian. Berikut ini disajikan hasil
Koefisien
Instrumen Kriteria Keterangan
Reliabilitas
Rencana Pelaksanaan
≥ 0,70 0,84 Reliabel
Pembelajaran (RPP)
Pelaksanaan Penilaian
≥ 0,70 0,81 Reliabel
(PP)
Kompetensi Sosial dan
≥ 0,70 0,78 Reliabel
Kepribadian (KSKK)
Panduan Penilaian ≥ 0,70 0,86 Reliabel
secara umum semua instrumen yang ditanggapi oleh rater telah memiliki koefisien
inter-klas yang reliabel. Hal ini didasari pada semua koefisien telah melebihi
kriteria ≥ 0,70 instrumen dikatakan reliabel (Gronlund & Linn, 1965; Nunnally,
bermakna bahwa pengukuran yang dilakukan oleh rater pada instrumen penilaian
(KSKK) serta buku panduan model penilaian konsisten/ajeg. Lebih jelasnya hasil
membuktikan kualitas model penilaian PPG secara empirik melalui hasil uji coba
188
instrumen, Goodness of Fit Model, karakteristik item dan tes berdasarkan
politomus item response theory, serta reliabilitas instrumen. Pada uji coba pertama
penggunaan subjek masih skala kecil yaitu sebanyak 236 peserta. Pembuktian
kualitas model penilaian PPG secara empirik pada uji coba I sebagai berikut.
metode penskoran yaitu penskoran parsial dan penskoran holistik. Selain itu, data
penilaian dikelompokkan menjadi dua kelompok yaitu data hasil penilaian oleh
dosen dan data hasil penilaian oleh guru pamong/penguji UKIN. Hasil analisis
Pembelajaran (RPP)
melalui empat indikator dengan sebaran item sebanyak 25 item. Keempat indkator
materi, metode, media dan sumber belajar (PMMMS) sebanyak enam item (item
189
(PPPEP) sebanyak enam item (item 13-18), serta indikator penerapan prinsip
Parsial
penskoran parsial untuk penilai dosen diperoleh informasi bahwa koefisien Barlet
dengan nilai p 0,000 serta KMO sebesar 0,9. Jika hasil pengujian Barlet
menunjukkan nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang lebih
dari 0,05 maka kecukupan sampel untuk analisis faktor telah terpenuhi
menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut
koefisien jalur muatan faktor akan memiliki arti (meaningful) jika besarnya tidak
kurang dari 0,4. Hasil analisis menunjukkan bahwa semua variabel observable
pembelajaran (RPP) penskoran parsial untuk penilai dosen telah valid secara
konstruk. Hal lain yang dapat dijelaskan bahwa model konstruk yang dirancang
190
telah memenuhi Goodness of Fit Model. Hal ini ditunjukkan melalui koefisien p-
value sebesar 0,104 yang melebih cut-of value 0,05 serta koefisien RMSEA
sebesar 0,022 yang lebih kecil dari cut-of value 0,08. Hal tersebut diperoleh
setelah mengkorelasikan eror antara item 7 dan item 14, serta item 22 dan item 25
yang tidak tunggal, sehingga untuk memperoleh model yang fit maka error dalam
item-tem tersebut harus dikorelasikan. Hal ini sesuai dengan pendapat Pan, Ip, &
model dengan data empirik. Untuk itu, pendekatan modifikasi merupakan cara
(RPP) penskoran parsial untuk penilai dosen, dilakukan pula pembuktian validitas
UKIN yang diperoleh informasi bahwa koefisien Barlet dengan nilai p 0,000 serta
KMO sebesar 0,9. Jika hasil pengujian Barlet menunjukkan nilai p yang lebih
kecil dari 0,01 serta koefisien KMO yang lebih dari 0,05 maka kecukupan sampel
untuk analisis faktor telah terpenuhi. Lebih lanjut sebanyak 25 item menunjukkan
menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut
191
faktor akan memiliki arti (meaningful) jika besarnya tidak kurang dari 0,4. Artinya
variabel latennya. Hal tersebut bermakna sama seperti analisis sebelumnya bahwa
penskoran parsial untuk penilai guru pamong/penguji UKIN telah valid secara
konstruk. Hal lain yang dapat dijelaskan pada aspek Goodness of Fit Model
Goodness of Fit Model. Hal ini ditunjukkan melalui koefisien p-value sebesar
0,055 yang melebih cut-of value 0,05 serta koefisien RMSEA sebesar 0,025 yang
lebih kecil dari cut-of value 0,08. Hal tersebut diperoleh setelah mengkorelasikan
error antara item 6 dan item 18 serta item 7 dan item 14 sebagaimana terlampir
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
digunakan pada uji coba I telah valid secara konstruk. Begitu pula ke-25 item
kelompok penskoran holistik dibagi atas dua kelompok data yaitu data dari hasil
penilai dosen dan data dari hasil penilai guru pamong/penguji UKIN. Hasil
192
analisis validitas konstruk melalui analisis faktor konfirmatori untuk penilai dosen
diperoleh informasi bahwa koefisien Barlet dengan nilai p 0,000 serta KMO
sebesar 0,9. Jika hasil pengujian Barlet menunjukkan nilai p yang lebih kecil dari
0,01 serta koefisien KMO yang lebih dari 0,05 maka kecukupan sampel untuk
menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut
faktor akan memiliki arti (meaningful) jika besarnya tidak kurang dari 0,4. Artinya
variabel latennya. Hal tersebut bermakna bahwa ke-25 item pada instrumen
penilai dosen telah valid secara konstruk. Hal lain yang dapat dijelaskan adalah
pada aspek Goodness of Fit Model diperoleh informasi bahwa model konstruk
yang dirancang juga telah memenuhi Goodness of Fit Model yang dibuktikandarii
koefisien p-value sebesar 0,067 yang melebih cut-of value 0,05 serta koefisien
RMSEA sebesar 0,024 yang lebih kecil dari cut-of value 0,08. Hal tersebut
diperoleh setelah mengkorelasikan eror antara item 16 dan item 17 serta item 19
193
rencana pelaksanaan pembelajaran (RPP) penskoran holistik untuk penilai guru
begitu pula subjek yang dinilai adalah orang yang sama, hanya penilainya saja
0,000 serta KMO sebesar 0,9. Jika mengacu pada saran Retnawati (2016a: 47)
hasil pengujian Barlet menunjukkan nilai p yang lebih kecil dari 0,01 serta
koefisien KMO yang lebih dari 0,05 maka kecukupan sampel untuk analisis faktor
muatan faktor lebih dari 0,4. Jika hal tersebut dikonfirmasikan dengan saran
Retnawati (2016a: 64) koefisien jalur muatan faktor akan memiliki arti
(meaningful) jika besarnya tidak kurang dari 0,4. Artinya semua variabel
Hal tersebut bermakna sama seperti analisis sebelumnya bahwa ke-25 item pada
untuk penilai guru pamong/penguji UKIN telah valid secara konstruk. Selain itu,
p-value sebesar 0,07 yang melebih cut-of value 0,05 serta koefisien RMSEA
sebesar 0,024 yang lebih kecil dari cut-of value 0,08. Hal tersebut diperoleh
setelah mengkorelasikan eror antara item 1 dan item 7 serta item 13 dan item 14
194
Berdasarkan beberapa hasil analisis yang telah dikemukakan, baik yang
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
digunakan pada uji coba I telah valid secara konstruk. Begitu pula ke-25 item
pembelajaran (PP) pada kelompok penskoran parsial dibagi atas dua kelompok
data yaitu data dari hasil penilai dosen dan data dari hasil penilai guru
diperoleh informasi bahwa koefisien Barlet dengan nilai p 0,000 serta KMO
sebesar 0,9. Jika mengacu pada kriteria Retnawati (2016a: 47) hasil pengujian
Barlet menunjukkan nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang
195
lebih dari 0,05, maka kecukupan sampel untuk analisis faktor telah terpenuhi.
lebih dari 0,4. Jika hal tersebut dikonfirmasikan dengan saran Retnawati (2016a:
64) koefisien jalur muatan faktor besarnya tidak kurang dari 0,4. Artinya semua
latennya. Hal tersebut bermakna bahwa ke-20 item pada instrumen penilaian
pelaksanaan pembelajaran (PP) penskoran parsial untuk penilai dosen telah valid
ditunjukkan oleh koefisien p-value sebesar 0,065 yang melebih cut-of value 0,05
serta koefisien RMSEA sebesar 0,027 yang lebih kecil dari cut-of value 0,08. Hal
dengan nilai p 0,000 serta KMO sebesar 0,9. Jika hasil pengujian Barlet mengacu
pada kriteria Retnawati (2016a: 47) menunjukkan nilai p yang lebih kecil dari
0,01 serta koefisien KMO yang lebih dari 0,05 maka kecukupan sampel untuk
196
seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut dikonfirmasikan
dengan saran Retnawati (2016a: 64) koefisien jalur muatan faktor tidak kurang
dari 0,4. Artinya semua variabel observable memberikan sumbangan berarti untuk
telah valid secara konstruk. Hal lain yang dapat dijelaskan bahwa model konstruk
koefisien p-value sebesar 0,066 yang melebih cut-of value 0,05 serta koefisien
RMSEA sebesar 0,027 yang lebih kecil dari cut-of value 0,08. Hal tersebut
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
pelaksanaan pembelajaran (PP) dengan penskoran parsial yang digunakan pada uji
coba I telah valid secara konstruk. Begitu pula ke-20 item instrumen tersebut telah
holistik juga dibagi atas dua kelompok data yaitu data dari hasil penilai dosen dan
197
data dari hasil penilai guru pamong/penguji UKIN. Hasil analisis faktor
penskoran holistik untuk penilai dosen diperoleh informasi bahwa koefisien Barlet
dengan nilai p 0,000 serta KMO sebesar 0,9. Jika mengacu pada kriteria pengujian
Retnawati (2016a: 47) hasil pengujian Barlet menunjukkan nilai p yang lebih kecil
dari 0,01 serta koefisien KMO yang lebih dari 0,05 maka kecukupan sampel untuk
koefisien muatan faktor lebih dari 0,4. Jika hal tersebut dikonfirmasikan dengan
saran Retnawati (2017: 64) koefisien jalur muatan faktor akan memiliki arti
penskoran holistik untuk penilai dosen telah valid secara konstruk. Hal lain yang
dapat dijelaskan bahwa model konstruk yang dirancang telah memenuhi Goodness
of Fit Model yang ditunjukkan koefisien p-value sebesar 0,11 melebih cut-of value
0,05 serta koefisien RMSEA sebesar 0,024 yang lebih kecil dari cut-of value 0,08.
Hal tersebut diperoleh setelah mengkorelasikan error antara item 7 dan item 10
198
0,000 serta KMO sebesar 0,9. Jika mengacu pada kriteria pengujian Retnawati
(2016a: 47) bahwa nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang
lebih dari 0,05 maka kecukupan sampel untuk analisis faktor telah terpenuhi.
berdasarkan indikatornya dan seluruh koefisien muatan faktor lebih dari 0,4. Jika
hal tersebut dikonfirmasikan dengan kriteria Retnawati (2016a: 64) koefisien jalur
muatan faktor tidak kurang dari 0,4 menunjukkan semua variabel observable
bermakna sama seperti analisis sebelumnya bahwa ke-20 item pada instrumen
pamong/penguji UKIN telah valid secara konstruk. Hal lain yang dapat dijelaskan
bahwa model konstruk yang dirancang telah memenuhi Goodness of Fit Model
yang ditunjukkan melalui koefisien p-value sebesar 0,07 melebihi cut-of value
0,05 serta koefisien RMSEA sebesar 0,026 yang lebih kecil dari cut-of value 0,08.
Hal tersebut diperoleh setelah mengkorelasikan eror antara item 7 dan 10 serta
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
uji coba I telah valid secara konstruk. Begitu pula ke-20 item instrumen tersebut
199
c. Validitas Konstruk Instrumen Kompetensi Sosial dan Kompetensi
Kepribadian (KSKK)
(KSKK) diukur melalui empat indikator dengan sebaran item sebanyak 20 item.
Seperti halnya pembuktian validitas konstruk pada instrumen penilaian RPP dan
untuk penilai dosen, diperoleh informasi bahwa koefisien Barlet dengan nilai p
0,000 serta KMO sebesar 0,9. Jika mengacu pada kriteria pengujian Retnawati
(2016a: 47) bahwa nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang
lebih dari 0,05 maka kecukupan sampel untuk analisis faktor telah terpenuhi.
berdasarkan indikatornya dan seluruh koefisien muatan faktor lebih dari 0,4. Jika
jalur muatan faktor tidak kurang dari 0,4 menunjukkan bahwa semua variabel
Hal tersebut bermakna bahwa ke-20 item pada instrumen penilaian kompetensi
sosial dan kompetensi kepribadian (KSKK) penskoran parsial untuk penilai dosen
telah valid secara konstruk. Hal lain yang dapat dijelaskan dari hasil analisis
200
Goodness of Fit Model diperoleh informasi bahwa model konstruk yang dirancang
telah memenuhi Goodness of Fit Model. Hal ini ditunjukkan melalui koefisien p-
value sebesar 0,071 yang melebih cut-of value 0,05 serta koefisien RMSEA
sebesar 0,027 yang lebih kecil dari cut-of value 0,08. Hal tersebut diperoleh
setelah mengkorelasikan eror antara item 2 dan item 14, item 5 dan item 20, serta
dengan nilai p 0,000 serta KMO sebesar 0,9. Jika mengacu pada kriteria pengujian
Retnawati (2016a: 47) bahwa nilai p yang lebih kecil dari 0,01 serta koefisien
KMO yang lebih dari 0,05 maka kecukupan sampel untuk analisis faktor telah
masing berdasarkan indikatornya dan seluruh koefisien muatan faktor lebih dari
0,4. Jika dikonfirmasikan dengan saran Retnawati (2017: 64) koefisien jalur
bermakna sama seperti analisis sebelumnya bahwa ke-20 item pada instrumen
parsial untuk penilai guru pamong/penguji UKIN telah valid secara konstruk. Hal
lain yang dapat dijelaskan bahwa model konstruk yang dirancang telah memenuhi
Goodness of Fit Model yang ditunjukkan melalui koefisien p-value sebesar 0,14
melebihi cut-of value 0,05 serta koefisien RMSEA sebesar 0,022 yang lebih kecil
201
dari cut-of value 0,08. Hal tersebut diperoleh setelah mengkorelasikan error
antara item 2 dan item 14 serta item 5 dan item 20 sebagaimana terlampir pada
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
yang digunakan pada uji coba I telah valid secara konstruk. Begitu pula ke-20
untuk penilai dosen, diperoleh informasi bahwa koefisien Barlet dengan nilai p
0,000 serta KMO sebesar 0,9. Jika mengacu pada kriteria pengujian Retnawati
(2016a: 47) bahwa nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang
lebih dari 0,05 maka kecukupan sampel untuk analisis faktor telah terpenuhi.
berdasarkan indikatornya dan seluruh koefisien muatan faktor lebih dari 0,4. Jika
dikonfirmasikan dengan saran Retnawati (2017: 64) koefisien jalur besarnya tidak
kurang dari 0,4 sehingga hasil analisis menunjukkan semua variabel observable
bermakna bahwa ke-20 item pada instrumen penilaian kompetensi sosial dan
202
kompetensi kepribadian (KSKK) penskoran holistik untuk penilai dosen telah
valid secara konstruk. Hal lain yang dapat dijelaskan bahwa model konstruk yang
koefisien p-value sebesar 0,14 yang melebihi cut-of value 0,05 serta koefisien
RMSEA sebesar 0,023 yang lebih kecil dari cut-of value 0,08. Hal tersebut
diperoleh setelah mengkorelasikan error antara item 2 dan item 14 serta item 5
koefisien muatan faktor lebih dari 0,4. Jika dikonfirmasikan dengan saran
Retnawati (2017: 64) koefisien jalur besarnya tidak kurang dari 0,4, maka hasil
untuk mengukur variabel latennya. Hal tersebut bermakna sama seperti analisis
sebelumnya bahwa ke-20 item pada instrumen penilaian kompetensi sosial dan
pamong/penguji UKIN telah valid secara konstruk. Hal lain yang dapat dijelaskan
bahwa model konstruk yang dirancang telah memenuhi Goodness of Fit Model
yang ditunjukkan melalui koefisien p-value sebesar 0,28 yang melebihi cut-of
value 0,05 serta koefisien RMSEA sebesar 0,016 yang lebih kecil dari cut-of value
0,08. Hal tersebut diperoleh setelah mengkorelasikan error antara item 10 dan
203
item 15, item 11 dan item13 serta item 11 dan item 16 terlampir pada Lampiran 3
halaman 476.
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
yang digunakan pada uji coba I telah valid secara konstruk. Begitu pula ke-20
2. Reliabilitas Instrumen
konfirmatori, pada uji coba I ini juga dilakukan estimasi reliabilitas instrumen
untuk melihat keajegan instrumen model penilaian PPG yang telah dikembangkan
yaitu instrumen penilaian RPP dengan penskoran parsial untuk penilai dosen,
holistik untuk penilai dosen, dan penilai guru pamong/penguji UKIN. Uraian
204
koefisien muatan faktor untuk semua variabel observasi terhadap variabel
Item i i 2 1 i
2
atau item instrumen penilaian RPP penskoran parsial untuk penilai dosen serta
koefisien muatan faktor yang dikuadratkan. Hal ini digunakan untuk melakukan
i
perhitungan koefisien reliabilitas . Pada tabel tersebut dapat diketahui
i 1
i
205
i
1
2
sebesar 19,35, serta i sebasar 9,98. Hasil perhitungan reliabilitas
i 1
sebesar 0,97. Jika didasari pada pendapat Mehrens and Lehmann (1973) dan
206
Tabel 16. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
RPP Penskoran Parsial Penilai Guru pamong/penguji UKIN
Item i i 2 1 i
2
diperoleh koefisien omega ( )sebesar 0,97. Jika didasari pada kriteria minimal
koefisien reliabilitas sebesar 0,85 yang disarankan oleh Mehrens and Lehmann
(1973) dan Retnawati (2016a: 87) dapat disimpulkan bahwa instrumen penilaian
RPP dengan penskoran parsial untuk penilai guru pamong/penguji UKIN reliabel.
207
3) Reliabilitas Instrumen Penilaian RPP Penskoran Holistik Penilai Dosen
481, diperoleh hasil analisis reliabilitas seperti tersaji pada Tabel 17.
Item i i 2 1 i
2
diperoleh koefisien omega ( ) sebesar 0,95. Jika didasari pada kriteria minimal
koefisien reliabilitas sebesar 0,85 yang disarankan oleh Mehrens and Lehmann
208
(1973) dan Retnawati (2016a: 87) dapat disimpulkan bahwa instrumen penilaian
Item i i 2 1 i
2
209
Tabel 18 menunjukkan informasi tentang muatan faktor valiabel observasi
atau item instrumen penilaian RPP penskoran holistik untuk penilai guru
i i
pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang disarankan oleh
Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat disimpulkan
210
Tabel 19. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Parsial Penilai Dosen
Item i i 2 1 i
2
didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang disarankan
oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat disimpulkan
211
b) Reliabilitas Instrumen Penilaian Pelaksanaan Pembelajaran (PP)
Item i i 2 1 i
2
didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang disarankan
oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat disimpulkan
212
bahwa instrumen penilaian pelaksanaan pembelajaran (PP) penskoran parsial
Item i i 2 1 i
2
213
didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang disarankan
oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat disimpulkan
Item i i 2 1 i
2
214
Berdasarkan Tabel 22 diperoleh hasil perhitungan reliabilitas koefisien
0,96. Jika didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang
disarankan oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat
Kepribadian
kompetensi kepribadian (KSKK) juga dibagi menjadi empat kelompok data. Data
penilai dosen. Data kedua adalah instrumen penilaian KSKK dengan penskoran
parsial untuk penilai guru pamong/penguji UKIN. Data ketiga adalah instrumen
penilaian KSKK dengan penskoran holistik untuk penilai dosen, dan data keempat
adalah instrumen penilaian KSKK dengan penskoran holistik untuk penilai guru
215
Tabel 23. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
KSKK Penskoran Parsial Penilai Dosen
Item i i 2 1 i
2
didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang disarankan
oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat disimpulkan
216
b) Reliabilitas Instrumen Penilaian Kompetensi Sosial dan Kompetensi
halaman 486.
Item i i 2 1 i
2
didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang disarankan
217
oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat disimpulkan
sebagaimana terlampir pada Lampiran 4 halaman 483 disajikan pada Tabel 25.
Item i i 2 1 i
2
218
didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang disarankan
oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat disimpulkan
Item i i 2 1 i
2
219
Berdasarkan Tabel 26 diperoleh hasil perhitungan reliabilitas koefisien
didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang disarankan
oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat disimpulkan
Coba I)
kualitas item baik ditinjau dari aspek instrumen maupun ditinjau dari aspek
metode graded response model (GRM). Selain itu setiap instrumen tersebut
memiliki dua kelompok penilai yaitu dosen dan guru pamong/penguji UKIN.
instrumen penilaian RPP dengan penskoran parsial untuk penilai dosen dan
220
penilai guru pamong/penguji UKIN. Data instrumen penilaian RPP dengan
penskoran holistik untuk penilai dosen dan penilai guru pamong/penguji UKIN
Rasch Modeling (eRm) package diperoleh karakteristik item pada Tabel 27.
221
Berdasarkan data hasil analisis yang disajikan pada Tabel 27 diperoleh
informasi bahwa parameter lokasi setiap item bervariasi dari 0,15 hingga 0,81.
threshold ᵟi.. Hal tersebut dijelaskan oleh Embretson and Reise (2000) bahwa item
sementara threshold merupakan ambang batas antar kategori tertentu yang akan
dicapai. Hal ini berarti bahwa semakin tinggi koefisien location maka semakin
sulit item tersebut dengan sebaran threshold yang merupakan kategori tingkat
batas tersebut, sehingga peserta PPG yang memiliki kemampuan rendah tentu
hanya mampu mencapai threshold (ambang kategori) yang rendah pula, peserta
kategori) yang menengah hingga pada peserta yang berkemampuan tinggi tentu
Hal lain yang dapat dijelaskan berdasarkan hasil analisis item dengan
partial credit model adalah kurva karakteristik item. Kurva karakteristik item
skor atau kategori tertentu. Berikut ini disajikan salah satu contoh kurva
222
karakteristik item dari instrumen penilaian rencana pelaksanaan pembelajaran
untuk penilai dosen yaitu pada item 10. Jika dikaitkan dengan hasil kaliberasi item
pada Tabel 27, dapat dijelaskan bahwa pada dasarnya item 10 ini memiliki
setiap kategori. Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai
pembelajaran (RPP) penskoran parsial untuk penilai dosen disajikan pada Gambar
26 berikut.
223
Gambar 26. Fungsi Informasi Instrumen RPP Penskoran Parsial Penilai Dosen
pada instrumen penilaian RPP penskoran parsial untuk penilai dosen. Hal lain
yang dapat dijelaskan adalah nilai fungsi informasi instrumen sebesar 17,8 pada
(1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai fungsi informasi (NIF)
Measurement (SEM), semakin besar nilai informasi maka SEM akan semakin
kecil atau sebaliknya, maka dapat dijelaskan bahwa dengan diketahuinya nilai
sebesar 0,23 yang menunjukkan nilai informasi lebih tinggi dibanding kesalahan
224
Gambar 27. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian RPP Penskoran Parsial Penilai Dosen
dari penilaian RPP penskoran parsial yang dinilai oleh dosen. Kedua grafik fungsi
ini bertemu pada skala kemampuan -3 dan 1,9. Di antara dua kemampuan ini,
dan lebih dari 1,9, maka instrumen ini memiliki kesalahan pengukuran yang lebih
Penguji UKIN
melalui Program R dengan Extended Rasch Modeling (eRm) package pada Tabel
28 sebagai berikut.
225
Tabel 28. Hasil Analisis Karakteristik Item Instrumen Penilaian RPP
Penskoran Pasial untuk Penilai Guru pamong/penguji UKIN
setiap item bervariasi dari 0,16 hingga 0,71. Selain itu parameter threshold ᵟi
pencapaian maka semakin tinggi koefisien threshold ᵟi. Hal ini berarti bahwa pada
instrumen penilaian RPP semakin tinggi koefisien location maka semakin sulit
226
item tersebut dengan sebaran threshold yang merupakan kategori tingkat
batas tersebut, sehingga peserta yang memiliki kemampuan rendah tentu hanya
peserta yang berkemampuan tinggi tentu mampu mencapai kategori ambang batas
mencapai skor atau kategori tertentu. Berikut ini disajikan salah satu contoh kurva
pamong/penguji UKIN, jika dikaitkan dengan hasil kaliberasi item pada Tabel 28
dapat dijelaskan bahwa pada dasarnya item 20 ini memiliki parameter lokasi
227
0,08, threshold ᵟ3 sebesar 0,97, serta threshold ᵟ4 sebesar 1,96. Secara grafis
Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai kategori 2 atau
0,08 hingga 0,97. Untuk lebih jelasnya kurva karakteristik untuk semua item pada
Gambar 29. Fungsi Informasi Instrumen RPP Penskoran Parsial Penilai Guru
Pamong/Penguji UKIN
instrumen sebesar 17,8 pada skala kemampuan ( ) -0,6. Jika dihubungkan dengan
Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai
228
Standard Error of Measurement (SEM), semakin besar nilai informasi maka SEM
akan semakin kecil atau sebaliknya, maka dapat dijelaskan bahwa dengan
Gambar 30. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
RPP Penskoran Parsial Penilai Guru pamong/penguji UKIN
pengukuran (SEM) dimana kedua grafik fungsi ini bertemu pada skala
kemampuan -3 dan 1,9. Di antara dua kemampuan ini, instrumen memiliki nilai
Sebaliknya, ketika skala kemampuan kurang dari -3 dan lebih dari 1,9, maka
229
3) Karakteristik Instrumen Penilaian Rencana Pelaksanaan Pembelajaran
melalui Program R dengan latent trait model (ltm) package seperti tersaji pada
Tabel 29 berikut.
Item a b1 b2 b3
A1 1,46 -2,35 -0,44 0,93
A2 1,32 -2,38 -0,29 1,37
A3 1,42 -3,05 -0,56 1,07
A4 1,24 -2,97 -0,48 1,00
A5 1,24 -3,05 -0,32 1,52
A6 1,53 -2,55 -0,39 1,17
B7 1,55 -2,39 -0,46 1,06
B8 1,33 -2,70 -0,22 1,17
B9 1,31 -2,73 -0,40 1,18
B10 1,42 -2,44 -0,26 1,31
B11 1,11 -2,75 -0,45 1,22
B12 1,41 -2,44 -0,24 1,09
C13 1,03 -2,85 -0,13 1,70
C14 1,30 -2,74 -0,16 1,52
C15 1,20 -2,64 -0,15 1,48
C16 1,22 -3,08 -0,23 1,62
C17 1,25 -2,73 -0,05 1,31
C18 1,65 -2,17 -0,32 0,92
D19 2,07 -1,62 -0,13 0,92
D20 2,02 -2,05 -0,08 1,06
D21 1,77 -1,63 -0,05 1,06
D22 2,38 -1,85 -0,07 0,94
D23 1,84 -1,58 -0,16 1,14
D24 2,05 -1,67 -0,19 1,03
D25 2,13 -1,79 -0,22 0,86
230
Berdasarkan hasil analisis pada Tabel 29 diperoleh informasi bahwa
parameter ai setiap item bervariasi dari 1,11 hingga 2,05. Selain itu parameter bi
sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut merupakan parameter
tinggi koefisien bi. Berikut ini disajikan salah satu contoh kurva karakteristik item
Gambar 31 adalah salah satu contoh kurva karakteristik item dari item 23.
Jika dikaitkan dengan hasil kaliberasi item pada Tabel 29, dapat dijelaskan bahwa
pada dasarnya item 23 ini memiliki parameter daya beda ai sebesar 1,84 dengan
parameter b1 sebesar -1,58, b2 sebesar -0,16, serta b3 sebesar 1,14. Secara grafis bi
231
kategori. Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai kategori 2
sekitar -1,58 hingga -0,16. Pada bagian ini hanya diberikan contoh untuk item 23.
Untuk lebih jelasnya kurva karakteristik untuk semua item pada instrumen
penilai dosen dapat diamati pada Lampiran 5 halaman 503 dan karakteristik
Gambar 32. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai Dosen
pada instrumen penilaian RPP penskoran holistik untuk penilai dosen yang
diperoleh nilai fungsi informasi instrumen sebesar 12,1 pada skala kemampuan
pada pendapat Hambleton, Swaminathan & Rogers (1991: 94); Retnawati (2014:
19) menyatakan bahwa nilai fungsi informasi (NIF) memiliki hubungan yang
besar nilai informasi maka SEM akan semakin kecil atau sebaliknya, maka dapat
dijelaskan bahwa dengan diketahuinya nilai fungsi informasi sebesar 12,1, maka
232
koefisien kesalahan pengukuran (SEM) diperoleh sebesar 0,28 yang menunjukkan
Gambar 33. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
RPP Penskoran Holistik untuk Penilai Dosen
dari akumulasi 25 item pada instrumen penilaian RPP penskoran holistik untuk
penilai dosen dan kesalahan pengukuran (SEM) dimana kedua grafik fungsi ini
bertemu pada skala kemampuan -2,7 dan 1,8. Di antara dua kemampuan ini,
dan lebih dari 1,8, maka kesalahan pengukuran instrumen ini lebih besar
233
pamong/penguji UKIN dianalisis dengan menggunakan pendekatan graded
response modeling (GRM) melalui Program R dengan latent trait model (ltm)
Item a b1 b2 b3
A1 1,31 -2,43 -0,45 1,16
A2 1,26 -2,37 -0,24 1,60
A3 1,31 -3,14 -0,71 1,32
A4 1,15 -3,07 -0,42 1,22
A5 1,20 -3,03 -0,36 1,39
A6 1,20 -2,87 -0,66 1,39
B7 1,54 -2,32 -0,79 1,00
B8 1,30 -2,68 -0,41 1,15
B9 1,79 -2,26 -0,58 1,00
B10 1,26 -2,53 -0,48 1,32
B11 1,25 -2,49 -0,86 0,89
B12 1,49 -2,31 -0,28 1,11
C13 1,30 -2,49 -0,17 1,36
C14 1,42 -3,12 -0,16 1,18
C15 1,06 -2,79 -0,39 1,13
C16 1,16 -3,08 -0,40 1,19
C17 0,99 -3,11 -0,34 1,49
C18 1,59 -2,14 -0,15 0,93
D19 1,67 -1,76 0,00 1,03
D20 1,36 -2,71 -0,26 1,13
D21 1,48 -1,79 -0,02 1,23
D22 1,16 -2,73 -0,48 1,22
D23 1,65 -1,63 -0,15 1,11
D24 1,07 -2,40 -0,37 1,39
D25 1,37 -2,36 -0,54 0,86
parameter ai setiap item bervariasi dari 0,99 hingga 1,79. Selain itu, parameter bi
sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut merupakan parameter
234
setiap kategori berbeda-beda. Semakin tinggi kategori pencapaian maka semakin
tinggi koefisien bi. Hal lain yang dapat dijelaskan berdasarkan hasil analisis item
dengan graded response model adalah kurva karakteristik item. Berikut ini
disajikan salah satu contoh kurva karakteristik item dari instrumen penilaian
pamong/penguji UKIN.
untuk penilai guru pamong/penguji UKIN yaitu item 21. Jika dikaitkan dengan
hasil kaliberasi item pada Tabel 30, dapat dijelaskan bahwa pada dasarnya item 21
ini memiliki parameter daya beda ai sebesar 1,48 dengan parameter b1 sebesar -
1,79, b2 sebesar -0,02, serta b3 sebesar 1,23. Secara grafis bi atau tingkat kesulitan
hingga -0,02. Pada bagian ini hanya diberikan contoh untuk item 21. Secara lebih
235
jelasnya kurva karakteristik untuk semua item pada instrumen penilaian rencana
pamong/penguji UKIN dapat diamati pada Lampiran 5 halaman 507. Lebih lanjut
Gambar 35. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai Guru
Pamong/Penguji UKIN
pada instrumen penilaian RPP penskoran holistik untuk penilai untuk Penilai
instrumen sebesar 12,1 pada skala kemampuan ( ) -0,4. Jika dihubungkan dengan
Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai
Standard Error of Measurement (SEM), semakin besar nilai informasi maka SEM
akan semakin kecil atau sebaliknya, maka dapat dijelaskan bahwa dengan
236
pengukuran (SEM) diperoleh sebesar 0,28 yang menunjukkan nilai informasi
dari penilaian RPP penskoran holistik untuk penilai guru pamong/penguji UKIN
dimana kedua grafik fungsi ini bertemu pada skala kemampuan -2,7 dan 1,8. Di
antara dua kemampuan ini, instrumen memiliki nilai informasi yang lebih tinggi
kemampuan kurang dari -2,7 dan lebih dari 1,8, maka instrumen ini memiliki
diberikannya.
pelaksanaan pembelajaran (PP) dengan penskoran parsial penilai dosen dan guru
237
pamong/penguji UKIN, dan data instrumen penilaian pelaksanaan pembelajaran
(PP) dengan penskoran holistik penilai dosen dan guru pamong/penguji UKIN
238
Berdasarkan Tabel 31 diperoleh informasi bahwa parameter lokasi setiap
item bervariasi dari 0,45 hingga 0,73. Selain itu parameter threshold ᵟi sebanyak
empat kelompok atau empat perpotongan. Hal ini menunjukkan parameter tingkat
kesulitan peserta memperoleh skor tertentu ketika merespon butir i. Ditinjau dari
koefisien threshold ᵟi. yang berarti item location mencerminkan tentang tingkat
kemudahan atau kesukaran item tersebut. Hal ini berarti bahwa pada instrumen
semakin sulit item tersebut dengan sebaran threshold yang merupakan kategori
ambang batas tersebut, sehingga peserta yang berkemampuan tinggi tentu mampu
mencapai kategori ambang batas yang tinggi pula. Berikut ini disajikan salah satu
239
Gambar 37 adalah salah satu contoh kurva karakteristik item dari
penilai dosen yaitu item 4. Jika dikaitkan dengan hasil kaliberasi item pada Tabel
31, dapat dijelaskan bahwa pada dasarnya item 4 ini memiliki parameter lokasi
0,20, threshold ᵟ3 sebesar 0,96, serta threshold ᵟ4 sebesar 2,48. Secara grafis
Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai kategori 2 atau
0,20 hingga 0,96. Pada bagian ini hanya diberikan contoh untuk item 4. Secara
lebih jelasnya kurva karakteristik untuk semua item pada instrumen penilaian
instrumen penilaian PP penskoran parsial untuk penilai dosen dengan nilai fungsi
240
informasi maksimum instrumen sebesar 14,27 pada skala kemampuan ( ) -1,3.
pendapat Hambleton, Swaminathan & Rogers (1991: 94); Retnawati (2014: 19)
besar nilai informasi maka SEM akan semakin kecil atau sebaliknya, maka dapat
dijelaskan bahwa dengan diketahuinya nilai fungsi informasi sebesar 14,27, maka
Gambar 39. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Parsial Penilai Dosen
penilai dosen dimana kedua grafik fungsi ini bertemu pada skala kemampuan -3,6
dan 1,2. Di antara dua kemampuan ini, instrumen memiliki nilai informasi yang
241
lebih tinggi dibandingkan dengan kesalahan pengukurannya. Sebaliknya, ketika
skala kemampuan kurang dari -3,6 dan lebih dari 1,2, maka instrumen ini
yang diberikannya.
pendekatan partial credit model (PCM) melalui diperoleh hasil analisis berupa
242
Berdasarkan Tabel 23 diperoleh informasi bahwa parameter lokasi setiap
item bervariasi dari 0,42 hingga 0,69. Selain itu parameter threshold ᵟi sebanyak
semakin tinggi koefisien threshold ᵟi. Hal ini berarti bahwa pada instrumen
pencapaiannya. Berikut ini disajikan salah satu contoh kurva karakteristik item
penilai guru pamong/penguji UKIN yaitu item 15. Jika dikaitkan dengan hasil
243
kaliberasi item pada Tabel 32, dapat dijelaskan bahwa pada dasarnya item 15 ini
1,15, threshold ᵟ2 sebesar 0,02, threshold ᵟ3 sebesar 0,99, serta threshold ᵟ4 sebesar
setiap kategori. Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai
kemampuan ( ) sekitar 0,02 hingga 0,99. Pada bagian ini hanya diberikan contoh
untuk item 15. Secara lebih jelasnya kurva karakteristik untuk semua item pada
penilai guru pamong/penguji UKIN dapat diamati pada Lampiran 5 halaman 516.
item pada instrumen penilaian RPP penskoran parsial untuk guru pamong/penguji
UKIN yang menunjukkan nilai fungsi informasi instrumen sebesar 14,27 pada
244
Measurement mengacu pada pendapat Hambleton, Swaminathan & Rogers
(1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai fungsi informasi (NIF)
Measurement (SEM), semakin besar nilai informasi maka SEM akan semakin
kecil atau sebaliknya, maka dapat dijelaskan bahwa dengan diketahuinya nilai
sebesar 0,26 yang menunjukkan nilai informasi lebih tinggi dibanding kesalahan
Gambar 42. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
Pelaksanaan Pembelajaran Penskoran Parsial Penilai Guru
pamong/penguji UKIN
pengukuran (SEM) dimana kedua grafik fungsi ini bertemu pada skala
kemampuan -3,6 dan 1,2. Di antara dua kemampuan ini, instrumen memiliki nilai
245
Sebaliknya, ketika skala kemampuan kurang dari -3,6 dan lebih dari 1,2, maka
latent trait model (ltm) package diperoleh karakteristik item sebagai berikut.
Item a b1 b2 b3
A1 1,32 -2,18 0,55 1,32
A2 1,38 -1,97 0,95 1,38
A3 1,64 -1,61 0,82 1,64
A4 1,71 -1,76 0,56 1,71
B5 1,92 -1,70 0,71 1,92
B6 1,97 -1,68 0,65 1,97
B7 2,05 -1,48 0,70 2,05
B8 2,02 -1,48 0,67 2,02
B9 2,00 -1,59 0,66 2,00
B10 2,19 -1,71 0,86 2,19
B11 1,73 -1,63 0,74 1,73
C12 1,75 -1,59 0,72 1,75
C13 1,70 -1,84 0,71 1,70
C14 1,60 -2,08 0,57 1,60
C15 1,91 -1,70 0,76 1,91
D16 1,77 -1,68 0,64 1,77
D17 1,66 -1,76 1,01 1,66
D18 1,83 -1,80 0,71 1,83
D19 1,57 -1,58 0,76 1,57
D20 1,89 -1,64 0,66 1,89
246
Berdasarkan data hasil analisis yang disajikan pada Tabel 33 diperoleh
informasi bahwa parameter ai setiap item bervariasi dari 1,32 hingga 2,19. Selain
itu parameter bi sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut
pencapaian maka semakin tinggi koefisien bi. Hal lain yang dapat dijelaskan
berdasarkan hasil analisis item dengan graded response model adalah kurva
jika dikaitkan dengan hasil kaliberasi item pada Tabel 33, dapat dijelaskan bahwa
pada dasarnya item 10 ini memiliki parameter daya beda ai sebesar 2,19 dengan
parameter b1 sebesar -1,71, b2 sebesar 0,86, serta b3 sebesar 2,19. Secara grafis bi
247
atau tingkat kesulitan dapat diinterpretasikan sebagai perpotongan kurva setiap
kategori. Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai kategori 2
sekitar -1,71 hingga 0,86. Pada bagian ini hanya diberikan contoh untuk item 10.
Secara lebih jelasnya kurva karakteristik untuk semua item pada instrumen
dapat diamati pada Lampiran 5 halaman 519. Lebih lanjut karakteristik instrumen
diperoleh nilai fungsi informasi maksimum instrumen sebesar 12,88 pada skala
Retnawati (2014: 19) menyatakan bahwa nilai fungsi informasi (NIF) memiliki
248
(SEM), semakin besar nilai informasi maka SEM akan semakin kecil atau
sebesar 0,27 yang menunjukkan nilai informasi lebih tinggi dibanding kesalahan
Gambar 45. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Holistik Penilai Dosen
penilai dosen dimana kedua grafik fungsi ini bertemu pada skala kemampuan -3
dan 1,7. Di antara dua kemampuan ini, instrumen memiliki nilai informasi yang
skala kemampuan kurang dari -3 dan lebih dari 1,7, maka instrumen ini memiliki
diberikannya.
249
4) Karakteristik Instrumen Penilaian Pelaksanaan Pembelajaran (PP)
Item a b1 b2 b3
A1 1,37 -2,08 -0,83 0,50
A2 1,42 -1,89 -0,74 0,84
A3 1,70 -1,53 -0,48 0,77
A4 1,71 -1,69 -0,65 0,54
B5 2,08 -1,59 -0,65 0,62
B6 1,93 -1,62 -0,66 0,59
B7 2,24 -1,38 -0,61 0,66
B8 1,96 -1,42 -0,54 0,67
B9 2,11 -1,50 -0,59 0,62
B10 2,24 -1,63 -0,48 0,80
B11 1,87 -1,53 -0,50 0,73
C12 1,74 -1,54 -0,55 0,64
C13 1,71 -1,77 -0,59 0,63
C14 1,54 -2,06 -0,96 0,49
C15 1,91 -1,65 -0,56 0,71
D16 1,79 -1,62 -0,73 0,56
D17 1,65 -1,71 -0,76 0,94
D18 1,86 -1,73 -0,64 0,70
D19 1,73 -1,48 -0,47 0,68
D20 1,88 -1,58 -0,77 0,57
informasi bahwa parameter ai setiap item bervariasi dari 1,37 hingga 2,24. Selain
itu, parameter bi sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut
250
parameter bi untuk setiap kategori berbeda-beda. Semakin tinggi kategori
pencapaian maka semakin tinggi koefisien bi. Hal lain yang dapat dijelaskan
berdasarkan hasil analisis item dengan graded response model adalah kurva
pamong/penguji UKIN. Jika dihubungkan dengan hasil kaliberasi item pada Tabel
34, dapat dijelaskan bahwa pada dasarnya item 2 ini memiliki parameter daya
beda ai sebesar 1,42 dengan parameter b1 sebesar -1,89, b2 sebesar -0,74, serta b3
sebesar 0,84. Secara grafis bi atau tingkat kesulitan dapat diinterpretasikan sebagai
perpotongan kurva setiap kategori. Dari gambar tersebut dapat dijelaskan bahwa
untuk mencapai kategori 2 atau untuk memperoleh skor 2 pada item 2 maka
diperlukan kemampuan ( ) sekitar -1,89 hingga -0,74. Pada bagian ini hanya
diberikan contoh untuk item 2. Secara lebih jelasnya kurva karakteristik untuk
251
semua item pada instrumen penilaian pelaksanaan pembelajaran (PP) penskoran
holistik untuk penilai guru pamong/penguji UKIN dapat diamati pada Lampiran 5
halaman 522. Lebih lanjut disajikan dalam fungsi informasi sebagai berikut.
parsial untuk penilai guru pamong/penguji UKIN diperoleh nilai fungsi informasi
Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai
Standard Error of Measurement (SEM), semakin besar nilai informasi maka SEM
akan semakin kecil atau sebaliknya, maka dapat dijelaskan bahwa dengan
252
Gambar 48. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
PP Penskoran Holistik Penilai Guru pamong/penguji UKIN
(SEM) dimana kedua grafik fungsi ini bertemu pada skala kemampuan -3 dan 1,7.
Di antara dua kemampuan ini, instrumen memiliki nilai informasi yang lebih
kemampuan kurang dari -3 dan lebih dari 1,7, maka instrumen ini memiliki
Kepribadian (KSKK)
sebagai berikut.
253
1) Karakteristik Instrumen Penilaian Kompetensi Sosial dan Kompetensi
informasi bahwa parameter lokasi setiap item bervariasi dari 0,16 hingga 0,77.
254
perpotongan. Ditinjau dari peluang pencapaian skornya, maka koefisien parameter
pencapaian maka semakin tinggi koefisien threshold ᵟi. Hal ini berarti bahwa pada
koefisien location maka semakin sulit item tersebut dengan sebaran threshold
pada peserta yang berkemampuan tinggi tentu mampu mencapai kategori ambang
batas yang tinggi pula. Sebagaimana dicontohkan pada salah satu kurva
penskoran parsial untuk penilai dosen yaitu item 17. Jika dikaitkan dengan hasil
kaliberasi item pada Tabel 35, dapat dijelaskan bahwa pada dasarnya item 17 ini
255
memiliki parameter lokasi sebesar 0,16 dengan parameter threshold ᵟ1 sebesar -
perpotongan kurva setiap kategori. Dari gambar tersebut dapat dijelaskan bahwa
untuk mencapai kategori 2 atau untuk memperoleh skor 2 pada item 4 maka
diperlukan kemampuan ( ) sekitar -0,04 hingga 0,61. Pada bagian ini hanya
diberikan contoh untuk item 17. Secara lebih jelasnya kurva karakteristik untuk
kepribadian (KSKK) dengan penskoran parsial untuk penilai dosen dapat diamati
Gambar 50. Fungsi Informasi Instrumen KSKK Penskoran Parsial Penilai Dosen
dengan penskoran parsial untuk penilai dosen diperoleh nilai fungsi informasi
256
dengan Standard Error of Measurement mengacu pada pendapat Hambleton,
Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai
Standard Error of Measurement (SEM), semakin besar nilai informasi maka SEM
lebih tinggi dibanding kesalahan pengukuran seperti tampak pada Gambar 51:
Gambar 51. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
KSKK Penskoran Parsial Penilai Dosen
pengukuran (SEM) dimana kedua grafik fungsi ini bertemu pada skala
kemampuan -2,9 dan 1,8. Di antara dua kemampuan ini, instrumen memiliki nilai
Sebaliknya, ketika skala kemampuan kurang dari -2,9 dan lebih dari 1,8, maka
257
2) Karakteristik Instrumen Penilaian Kompetensi Sosial dan Kompetensi
informasi bahwa parameter lokasi setiap item bervariasi dari 0,12 hingga 0,73.
258
memperoleh skor tertentu ketika merespon butir i. Ditinjau dari peluang
threshold ᵟi. Hal ini berarti bahwa pada instrumen penilaian kompetensi sosial dan
batas tersebut, sehingga peserta yang memiliki kemampuan rendah tentu hanya
mampu mencapai threshold (ambang kategori) yang rendah pula, demikian pula
sebaliknya seperti dicontohkan pada kurva karakteristik item 11 pada Gambar 51.
penskoran parsial untuk penilai guru pamong/penguji UKIN yaitu item 11. Jika
dikaitkan dengan hasil kaliberasi item pada Tabel 36, dapat dijelaskan bahwa pada
dasarnya item 11 ini memiliki parameter lokasi sebesar 0,38 dengan parameter
259
threshold ᵟ1 sebesar -0,86, threshold ᵟ2 sebesar -0,02, threshold ᵟ3 sebesar 0,52,
sebagai perpotongan kurva setiap kategori. Dari gambar tersebut dapat dijelaskan
bahwa untuk mencapai kategori 2 atau untuk memperoleh skor 2 pada item 11
maka diperlukan kemampuan ( ) sekitar -0,02 hingga 0,52 Pada bagian ini hanya
diberikan contoh untuk item 11. Kurva karakteristik untuk semua item pada
instrumen penilaian ini dapat diamati pada Lampiran 5 halaman 531. Lebih lanjut
penskoran parsial untuk penilai guru pamong/penguji UKIN diperoleh nilai fungsi
pendapat Hambleton, Swaminathan & Rogers (1991: 94); Retnawati (2014: 19)
260
berbanding terbalik dengan Standard Error of Measurement (SEM), semakin
besar nilai informasi maka SEM akan semakin kecil atau sebaliknya, sehingga
dapat dijelaskan bahwa dengan diketahuinya nilai fungsi informasi sebesar 13,46,
Gambar 54. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
KSKK Penskoran Parsial untuk Penilai Guru pamong/penguji UKIN
pengukuran yaitu kedua grafik fungsi ini bertemu pada skala kemampuan -2,9 dan
1,8. Di antara dua kemampuan ini, instrumen memiliki nilai informasi yang lebih
kemampuan kurang dari -2,9 dan lebih dari 1,8, maka instrumen ini memiliki
diberikannya.
261
3) Karakteristik Instrumen Penilaian Kompetensi Sosial dan Kompetensi
Melalui Program R dengan latent trait model (ltm) package diperoleh hasil
Item a b1 b2 b3
A1 1,06 -2,81 0,00 1,74
A2 1,52 -2,56 -0,06 1,52
A3 1,30 -2,56 0,00 1,30
A4 1,33 -2,67 0,02 1,33
A5 1,76 -2,16 -0,16 1,76
B6 1,97 -2,15 0,07 1,97
B7 1,76 -1,69 0,09 1,76
B8 2,21 -1,96 0,07 2,21
B9 1,56 -1,72 -0,02 1,56
B10 2,05 -1,72 -0,04 2,05
C11 1,33 -2,57 -0,12 1,33
C12 1,05 -2,89 -0,25 1,05
C13 1,43 -2,47 -0,08 1,43
C14 1,49 -2,49 -0,33 1,49
C15 1,21 -2,90 -0,15 1,21
D16 1,30 -2,44 -0,00 1,30
D17 1,17 -3,51 -0,32 1,17
D18 1,20 -3,08 -0,34 1,20
D19 1,27 -3,04 -0,10 1,27
D20 1,48 -2,65 -0,20 1,48
parameter ai setiap item bervariasi dari 1,06 hingga 2,21. Selain itu parameter bi
sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut merupakan parameter
262
tingkat kesulitan peserta memperoleh skor tertentu ketika merespon butir i.
tinggi koefisien bi. Berikut ini disajikan salah satu contoh kurva karakteristik item
holistik untuk penilai dosen. Jika dikaitkan dengan hasil kaliberasi item pada
Tabel 37, dapat dijelaskan bahwa pada dasarnya item 9 ini memiliki parameter
daya beda ai sebesar 1,56 dengan parameter b1 sebesar -1,56, b2 sebesar -0,02,
serta b3 sebesar 1,56. Secara grafis bi atau tingkat kesulitan dapat diinterpretasikan
sebagai perpotongan kurva setiap kategori. Dari gambar tersebut dapat dijelaskan
bahwa untuk mencapai kategori 2 atau untuk memperoleh skor 2 pada item 9
maka diperlukan kemampuan ( ) sekitar -1,56 hingga -0,02. Secara lebih jelasnya
263
kurva karakteristik untuk semua item pada instrumen penilaian kompetensi sosial
dosen dapat diamati pada Lampiran 5 halaman 535. Labih lanjut karakteristik
Gambar 56. Fungsi Informasi Instrumen KSKK Penskoran Holistik Penilai Dosen
dengan penskoran holistik untuk penilai dosen diperoleh nilai fungsi informasi
Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai
Standard Error of Measurement (SEM), semakin besar nilai informasi maka SEM
akan semakin kecil atau sebaliknya, maka dapat dijelaskan bahwa dengan
264
pengukuran (SEM) diperoleh sebesar 0,30 yang menunjukkan nilai informasi
Gambar 57. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
Kompetensi Sosial dan Kepribadian Penskoran Holistik Penilai
Dosen
pengukuran (SEM) dimana kedua grafik fungsi ini bertemu pada skala
kemampuan -2,4 dan 1,9. Di antara dua kemampuan ini, instrumen memiliki nilai
Sebaliknya, ketika skala kemampuan kurang dari -2,4 dan lebih dari 1,9, maka
informasi diberikannya.
265
2, 3, dan 4. Melalui Program R dengan latent trait model (ltm) package diperoleh
Item a b1 b2 b3
A1 1,37 -2,08 -0,83 0,50
A2 1,42 -1,89 -0,74 0,84
A3 1,70 -1,53 -0,48 0,77
A4 1,71 -1,69 -0,65 0,54
A5 2,08 -1,59 -0,65 0,62
B6 1,93 -1,62 -0,66 0,59
B7 2,24 -1,38 -0,61 0,66
B8 1,96 -1,42 -0,54 0,67
B9 2,11 -1,50 -0,59 0,62
B10 2,24 -1,63 -0,48 0,80
C11 1,87 -1,53 -0,50 0,73
C12 1,74 -1,54 -0,55 0,64
C13 1,71 -1,77 -0,59 0,63
C14 1,54 -2,06 -0,96 0,49
C15 1,91 -1,65 -0,56 0,71
D16 1,79 -1,62 -0,73 0,56
D17 1,65 -1,71 -0,76 0,94
D18 1,86 -1,73 -0,64 0,70
D19 1,73 -1,48 -0,47 0,68
D20 1,88 -1,58 -0,77 0,57
informasi bahwa parameter ai setiap item bervariasi dari 1,37 hingga 2,24. Selain
itu, parameter bi sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut
pencapaian maka semakin tinggi koefisien bi. Berikut ini disajikan salah satu
266
contoh kurva karakteristik item 5 dari instrumen penilaian ini dengan penilai guru
pamong/penguji UKIN.
dihubungkan dengan hasil kaliberasi item pada Tabel 38, dapat dijelaskan bahwa
pada dasarnya item 5 ini memiliki parameter daya beda ai sebesar 2,08 dengan
parameter b1 sebesar -1,59, b2 sebesar -0,65, serta b3 sebesar 0,54. Secara grafis bi
kategori. Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai kategori 2
sekitar -1,59 hingga -0,65. Secara lebih jelasnya kurva karakteristik untuk semua
267
diamati pada Lampiran 5 halaman 536. Lebih lanjut karakteristik instrumen
Gambar 59. Fungsi Informasi Instrumen KSKK Penskoran Holistik Penilai Guru
Pamong/Penguji UKIN
fungsi informasi instrumen sebesar 10,72 pada skala kemampuan ( ) -0,3. Jika
Hambleton, Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan
bahwa nilai fungsi informasi (NIF) memiliki hubungan yang berbanding terbalik
maka SEM akan semakin kecil atau sebaliknya, maka dapat dijelaskan bahwa
268
Gambar 60. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
Kompetensi Sosial Kepribadian (KSKK) Penskoran Holistik Penilai
Guru pamong/penguji UKIN
pengukuran (SEM) dimana kedua grafik fungsi ini bertemu pada skala
kemampuan -2,4 dan 1,9. Di antara dua kemampuan ini, instrumen memiliki nilai
Sebaliknya, ketika skala kemampuan kurang dari -2,4 dan lebih dari 1,9, maka
C. Revisi Produk
membuktikan kualitas model penilaian PPG secara empirik melalui hasil uji coba
lapangan II, seperti halnya yang telah dilakukan pada uji coba I. Kualitas secara
269
Model, karakteristik item dan tes berdasarkan politomus item response theory,
serta reliabilitas instrumen. Pada uji coba tahap II penggunaan subjek telah
penilaian PPG secara empirik pada uji coba II diuraikan sebagai berikut.
Pembuktian validitas konstruk pada uji coba II, seperti halnya pada uji
atas dua metode penskoran yaitu penskoran parsial dan penskoran holistik. Selain
itu, data penilaian dikelompokkan menjadi dua kelompok yaitu data hasil
penilaian oleh dosen dan data hasil penilaian oleh guru pamong/penguji UKIN.
Hasil analisis untuk pembuktian validitas konstruk pada uji coba II untuk model
Pembelajaran (RPP)
coba II, sama halnya pada ujicoba I diukur melalui empat indikator dengan
sebanyak 6 item (item 1-6), indikator pengorganisasian materi, metode, media dan
270
sumber belajar (PMMMS) sebanyak enam item (item 7-12), indikator
enam item (item 13-18), serta indikator penerapan prinsip techno pedagogical
Parsial
dua kelompok data yaitu data dari hasil penilai dosen dan data dari hasil penilai
parsial untuk penilai dosen pada uji coba II, diperoleh informasi bahwa koefisien
Barlet dengan nilai p 0,000 serta KMO sebesar 0,9. Jika hasil pengujian Barlet
menunjukkan nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang lebih
dari 0,05 maka kecukupan sampel untuk analisis faktor telah terpenuhi
menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut
koefisien jalur muatan faktor akan memiliki arti (meaningful) jika besarnya tidak
271
kurang dari 0,4. Dengan demikian, hasil analisis menunjukkan bahwa semua
latennya. Hal tersebut bermakna bahwa ke-25 item pada instrumen penilaian
Hal lain yang dapat dijelaskan dari analisis faktor konfirmatori tersebut
adalah pada aspek Goodness of Fit Model. Berdasarkan hasil analisis diperoleh
informasi bahwa model konstruk yang dirancang telah memenuhi Goodness of Fit
Model. Hal ini ditunjukkan melalui koefisien p-value sebesar 0,052 yang melebih
cut-of value 0,05 serta koefisien RMSEA sebesar 0,017 yang lebih kecil dari cut-
of value 0,08. Hal tersebut diperoleh setelah mengkorelasikan error antara item 4
dan item 15 serta item 11 dan item 19 yang dapat diamati pada Lampiran 6
halaman 542.
(RPP) penskoran parsial untuk penilai dosen, dilakukan pula pembuktian validitas
UKIN. Pada dasarnya instrumen yang digunakan adalah sama, begitu pula subjek
yang dinilai adalah orang yang sama, hanya penilainya saja yang berbeda yaitu
pamong/penguji UKIN uji coba tahap II, diperoleh informasi bahwa koefisien
Barlet dengan nilai p 0,000 serta KMO sebesar 0,9. Jika hasil pengujian Barlet
272
menunjukkan nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang lebih
dari 0,05 maka kecukupan sampel untuk analisis faktor telah terpenuhi
(Retnawati, 2016: 47). Lebih lanjut sebanyak 25 item menunjukkan muatan faktor
seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut dikonfirmasikan
dengan saran Retnawati (2016a: 64) yang menyatakan bahwa koefisien jalur
muatan faktor akan memiliki arti (meaningful) jika besarnya tidak kurang dari 0,4.
bermakna sama seperti analisis sebelumnya bahwa ke-25 item pada instrumen
penilai guru pamong/penguji UKIN telah valid secara konstruk. Hal lain yang
dapat dijelaskan dari analisis faktor konfirmatori tersebut adalah pada aspek
model konstruk yang dirancang telah memenuhi Goodness of Fit Model. Hal ini
ditunjukkan melalui koefisien p-value sebesar 0,13 yang melebih cut-of value 0,05
serta koefisien RMSEA sebesar 0,014 yang lebih kecil dari cut-of value 0,08. Hal
tersebut diperoleh setelah mengkorelasikan eror antara item 11 dan item 19 serta
item 16 dan item 22 yang dapat diamati pada Lampiran 6 halaman 548.
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
273
digunakan pada uji coba II telah valid secara konstruk. Begitu pula ke-25 item
Holistik
halnya pada penskoran parsial dibagi atas dua kelompok data yaitu data dari hasil
penilai dosen dan data dari hasil penilai guru pamong/penguji UKIN. Berdasarkan
pembelajaran (RPP) dengan penskoran holistik untuk penilai dosen uji coba II,
diperoleh informasi bahwa koefisien Barlet dengan nilai p 0,000 serta KMO
sebesar 0,9. Jika hasil pengujian Barlet menunjukkan nilai p yang lebih kecil dari
0,01 serta koefisien KMO yang lebih dari 0,05 maka kecukupan sampel untuk
analisis faktor telah terpenuhi (Retnawati, 2016a: 47). Lebih lanjut sebanyak 25
25 item tersebut menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika
menyatakan bahwa koefisien jalur muatan faktor akan memiliki arti (meaningful)
jika besarnya tidak kurang dari 0,4. Dengan demikian, hasil analisis menunjukkan
mengukur variabel latennya. Hal tersebut bermakna bahwa ke-25 item pada
untuk penilai dosen telah valid secara konstruk. Hal lain yang dapat dijelaskan
274
dari analisis faktor konfirmatori tersebut adalah pada aspek Goodness of Fit
yang dirancang telah memenuhi Goodness of Fit Model. Hal ini ditunjukkan
melalui koefisien p-value sebesar 0,19 yang melebih cut-of value 0,05 serta
koefisien RMSEA sebesar 0,012 yang lebih kecil dari cut-of value 0,08. Hal
tersebut diperoleh setelah mengkorelasikan eror antara item 12 dan item 18 serta
item 16 dan item 22 yang dapat diamati pada Lampiran 6 halaman 545.
begitu pula subjek yang dinilai adalah orang yang sama, hanya penilainya saja
pamong/penguji UKIN uji coba II, diperoleh informasi bahwa koefisien Barlet
dengan nilai p 0,000 serta KMO sebesar 0,9. Jika hasil pengujian Barlet
menunjukkan nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang lebih
dari 0,05 maka kecukupan sampel untuk analisis faktor telah terpenuhi
menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut
275
koefisien jalur muatan faktor akan memiliki arti (meaningful) jika besarnya tidak
kurang dari 0,4. Dengan demikian, hasil analisis menunjukkan bahwa semua
latennya. Hal tersebut bermakna sama seperti analisis sebelumnya bahwa ke-25
penskoran holistik untuk penilai guru pamong/penguji UKIN telah valid secara
konstruk. Hal lain yang dapat dijelaskan dari analisis faktor konfirmatori tersebut
adalah pada aspek Goodness of Fit Model. Berdasarkan hasil analisis diperoleh
informasi bahwa model konstruk yang dirancang telah memenuhi Goodness of Fit
Model. Hal ini ditunjukkan melalui koefisien p-value sebesar 0,19 yang melebih
cut-of value 0,05 serta koefisien RMSEA sebesar 0,012 yang lebih kecil dari cut-
of value 0,08. Hal tersebut diperoleh setelah mengkorelasikan error antara item 4
dan item 15 serta item 16 dan item 22 yang dapat diamati pada Lampiran 6
halaman 551.
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
digunakan pada uji coba II telah valid secara konstruk. Begitu pula ke-25 item
diukur melalui empat indikator dengan sebaran item sebanyak 20 item. Keempat
276
indkator tersebut adalah melaksanakan pembelajaran yang mendidik (MPMD),
pengembangan potensi diri dan karakter peserta didik (MPDK), serta menilai dan
pembelajaran (PP) pada uji coba II untuk kelompok penskoran parsial dibagi atas
dua kelompok data yaitu data dari hasil penilai dosen dan data dari hasil penilai
untuk penilai dosen uji coba II, diperoleh informasi bahwa koefisien Barlet
dengan nilai p 0,000 serta KMO sebesar 0,9. Jika hasil pengujian Barlet
menunjukkan nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang lebih
dari 0,05 maka kecukupan sampel untuk analisis faktor telah terpenuhi
menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut
277
koefisien jalur muatan faktor akan memiliki arti (meaningful) jika besarnya tidak
kurang dari 0,4. Dengan demikian, hasil analisis menunjukkan bahwa semua
latennya. Hal tersebut bermakna bahwa ke-20 item pada instrumen penilaian
pelaksanaan pembelajaran (PP) penskoran parsial untuk penilai dosen telah valid
secara konstruk. Hal lain yang dapat dijelaskan dari analisis faktor konfirmatori
tersebut adalah pada aspek Goodness of Fit Model. Berdasarkan hasil analisis
Goodness of Fit Model. Hal ini ditunjukkan melalui koefisien p-value sebesar
0,09 yang melebih cut-of value 0,05 serta koefisien RMSEA sebesar 0,017 yang
lebih kecil dari cut-of value 0,08. Hal tersebut diperoleh setelah mengkorelasikan
eror antara item 8 dan item 15 yang dapat diamati pada Lampiran 6 halaman 543.
UKIN. Pada dasarnya instrumen yang digunakan adalah sama, begitu pula subjek
yang dinilai adalah orang yang sama, hanya penilainya saja yang berbeda yaitu
parsial untuk penilai guru pamong/penguji UKIN uji coba II, diperoleh informasi
bahwa koefisien Barlet dengan nilai p 0,000 serta KMO sebesar 0,9. Jika hasil
pengujian Barlet menunjukkan nilai p yang lebih kecil dari 0,01 serta koefisien
KMO yang lebih dari 0,05 maka kecukupan sampel untuk analisis faktor telah
278
terpenuhi (Retnawati, 2016a: 47). Lebih lanjut sebanyak 20 item menunjukkan
menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut
koefisien jalur muatan faktor akan memiliki arti (meaningful) jika besarnya tidak
kurang dari 0,4. Dengan demikian, hasil analisis menunjukkan bahwa semua
latennya. Hal tersebut bermakna sama seperti analisis sebelumnya bahwa ke-20
untuk penilai guru pamong/penguji UKIN telah valid secara konstruk. Hal lain
yang dapat dijelaskan dari analisis faktor konfirmatori tersebut adalah pada aspek
model konstruk yang dirancang telah memenuhi Goodness of Fit Model. Hal ini
ditunjukkan melalui koefisien p-value sebesar 0,08 yang melebih cut-of value 0,05
serta koefisien RMSEA sebesar 0,017 yang lebih kecil dari cut-of value 0,08. Hal
tersebut diperoleh setelah mengkorelasikan error antara item 6 dan item 10 serta
item 8 dan item 15 yang dapat diamati pada Lampiran 6 halaman 549.
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
pelaksanaan pembelajaran (PP) dengan penskoran parsial yang digunakan pada uji
coba II telah valid secara konstruk. Begitu pula ke-20 item instrumen tersebut
279
2) Validitas Konstruk Pada Instrumen Penilaian Pelaksanaan Pembelajaran
kelompok penskoran holistik dibagi atas dua kelompok data yaitu data dari hasil
penilai dosen dan data dari hasil penilai guru pamong/penguji UKIN. Berdasarkan
pembelajaran (PP) dengan penskoran holistik untuk penilai dosen pada uji coba II,
diperoleh informasi bahwa sebanyak koefisien Barlet dengan nilai p 0,000 serta
KMO sebesar 0,9. Jika hasil pengujian Barlet menunjukkan nilai p yang lebih
kecil dari 0,01 serta koefisien KMO yang lebih dari 0,05 maka kecukupan sampel
untuk analisis faktor telah terpenuhi (Retnawati, 2016a: 47). Lebih lanjut 20 item
item tersebut menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal
bahwa koefisien jalur muatan faktor akan memiliki arti (meaningful) jika besarnya
tidak kurang dari 0,4. Dengan demikian, hasil analisis menunjukkan bahwa semua
latennya. Hal tersebut bermakna bahwa ke-20 item pada instrumen penilaian
pelaksanaan pembelajaran (PP) penskoran holistik untuk penilai dosen telah valid
secara konstruk. Hal lain yang dapat dijelaskan dari analisis faktor konfirmatori
tersebut adalah pada aspek Goodness of Fit Model. Berdasarkan hasil analisis
280
Goodness of Fit Model. Hal ini ditunjukkan melalui koefisien p-value sebesar
0,12 yang melebih cut-of value 0,05 serta koefisien RMSEA sebesar 0,016 yang
lebih kecil dari cut-of value 0,08. Hal tersebut diperoleh setelah mengkorelasikan
error antara item 1 dan item 20 serta item 13 dan item 16 yang dapat diamati pada
UKIN. Pada dasarnya instrumen yang digunakan juga sama, begitu pula subjek
yang dinilai adalah orang yang sama, hanya penilainya saja yang berbeda yaitu
holistik untuk penilai guru pamong/penguji UKIN pada uji coba II, diperoleh
informasi bahwa koefisien Barlet dengan nilai p 0,000 serta KMO sebesar 0,9.
Jika hasil pengujian Barlet menunjukkan nilai p yang lebih kecil dari 0,01 serta
koefisien KMO yang lebih dari 0,05 maka kecukupan sampel untuk analisis faktor
item tersebut menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal
bahwa koefisien jalur muatan faktor akan memiliki arti (meaningful) jika besarnya
tidak kurang dari 0,4. Dengan demikian, hasil analisis menunjukkan bahwa semua
281
latennya. Hal tersebut bermakna sama seperti analisis sebelumnya bahwa ke-20
untuk penilai guru pamong/penguji UKIN telah valid secara konstruk. Hal lain
yang dapat dijelaskan dari analisis faktor konfirmatori tersebut adalah pada aspek
model konstruk yang dirancang telah memenuhi Goodness of Fit Model. Hal ini
ditunjukkan melalui koefisien p-value sebesar 0,09 yang melebih cut-of value 0,05
serta koefisien RMSEA sebesar 0,017 yang lebih kecil dari cut-of value 0,08. Hal
tersebut diperoleh setelah mengkorelasikan error antara item 8 dan item 15 serta
item 11 dan item 16 yang dapat diamati pada Lampiran 6 halaman 552.
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
uji coba II telah valid secara konstruk. Begitu pula ke-20 item instrumen tersebut
Kepribadian (KSKK)
Pada uji coba II, instrumen penilaian kompetensi sosial dan kompetensi
282
dan disiplin (BSMKD). Seperti halnya pembuktian validitas konstruk pada
sosial dan kompetensi kepribadian (KSKK) pada uji coba II untuk kelompok
penskoran parsial dibagi atas dua kelompok data yaitu data dari hasil penilai
dosen dan data dari hasil penilai guru pamong/penguji UKIN. Berdasarkan hasil
kompetensi kepribadian (KSKK) dengan penskoran parsial untuk penilai dosen uji
coba II, diperoleh informasi bahwa koefisien Barlet dengan nilai p 0,000 serta
KMO sebesar 0,9. Jika hasil pengujian Barlet menunjukkan nilai p yang lebih
kecil dari 0,01 serta koefisien KMO yang lebih dari 0,05 maka kecukupan sampel
untuk analisis faktor telah terpenuhi (Retnawati, 2016a: 47). Lebih lanjut
lebih dari 0,4. Jika hal tersebut dikonfirmasikan dengan saran Retnawati (2016a:
64) yang menyatakan bahwa koefisien jalur muatan faktor akan memiliki arti
(meaningful) jika besarnya tidak kurang dari 0,4. Dengan demikian, hasil analisis
283
untuk mengukur variabel latennya. Hal tersebut bermakna bahwa ke-20 item pada
penskoran parsial untuk penilai dosen telah valid secara konstruk. Hal lain yang
dapat dijelaskan dari hasil analisis faktor konfirmatori adalah pada aspek
model konstruk yang dirancang telah memenuhi Goodness of Fit Model. Hal ini
ditunjukkan melalui koefisien p-value sebesar 0,056 yang melebih cut-of value
0,05 serta koefisien RMSEA sebesar 0,019 yang lebih kecil dari cut-of value 0,08.
Hal tersebut diperoleh setelah mengkorelasikan error antara item 4 dan item 8
serta item 4 dan item 18 yang dapat diamati pada Lampiran 6 halaman 544.
sama, begitu pula subjek yang dinilai adalah orang yang sama, hanya penilainya
penilai guru pamong/penguji UKIN pada uji coba II, diperoleh informasi bahwa
koefisien Barlet dengan nilai p 0,000 serta KMO sebesar 0,9. Jika hasil pengujian
Barlet menunjukkan nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang
lebih dari 0,05 maka kecukupan sampel untuk analisis faktor telah terpenuhi
284
faktor masing-masing berdasarkan indikatornya. Dari 20 item tersebut
menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut
koefisien jalur muatan faktor akan memiliki arti (meaningful) jika besarnya tidak
kurang dari 0,4. Dengan demikian, hasil analisis menunjukkan bahwa semua
latennya. Hal tersebut bermakna sama seperti analisis sebelumnya bahwa ke-20
(KSKK) penskoran parsial untuk penilai guru pamong/penguji UKIN telah valid
secara konstruk. Hal lain yang dapat dijelaskan dari hasil analisis faktor
konfirmatori adalah pada aspek Goodness of Fit Model. Berdasarkan hasil analisis
Goodness of Fit Model. Hal ini ditunjukkan melalui koefisien p-value sebesar
0,07 yang melebih cut-of value 0,05 serta koefisien RMSEA sebesar 0,018 yang
lebih kecil dari cut-of value 0,08. Hal tersebut diperoleh setelah mengkorelasikan
eror antara item 8 dan item 11 yang dapat diamati pada Lampiran 6 halaman 552.
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
yang digunakan pada uji coba II telah valid secara konstruk. Begitu pula ke-20
285
2) Validitas Konstruk Pada Instrumen Kompetensi Sosial dan Kompetensi
uji coba II untuk kelompok penskoran holistik dibagi atas dua kelompok data
yaitu data dari hasil penilai dosen dan data dari hasil penilai guru pamong/penguji
untuk penilai dosen pada uji coba II, diperoleh informasi bahwa koefisien Barlet
dengan nilai p 0,000 serta KMO sebesar 0,9. Jika hasil pengujian Barlet
menunjukkan nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang lebih
dari 0,05 maka kecukupan sampel untuk analisis faktor telah terpenuhi
menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut
koefisien jalur muatan faktor akan memiliki arti (meaningful) jika besarnya tidak
kurang dari 0,4. Dengan demikian, hasil analisis menunjukkan bahwa semua
latennya. Hal tersebut bermakna bahwa ke-20 item pada instrumen penilaian
penilai dosen telah valid secara konstruk. Hal lain yang dapat dijelaskan dari hasil
286
Berdasarkan hasil analisis diperoleh informasi bahwa model konstruk yang
dirancang telah memenuhi Goodness of Fit Model. Hal ini ditunjukkan melalui
koefisien p-value sebesar 0,13 yang melebih cut-of value 0,05 serta koefisien
RMSEA sebesar 0,015 yang lebih kecil dari cut-of value 0,08. Hal tersebut
diperoleh setelah mengkorelasikan eror antara item 4 dan item 8, serta item 5 dan
UKIN. Pada dasarnya instrumen yang digunakan juga sama, begitu pula subjek
yang dinilai adalah orang yang sama, hanya penilainya saja yang berbeda yaitu
penilai guru pamong/penguji UKIN pada uji coba II, diperoleh informasi bahwa
koefisien Barlet dengan nilai p 0,000 serta KMO sebesar 0,9. Jika hasil pengujian
Barlet menunjukkan nilai p yang lebih kecil dari 0,01 serta koefisien KMO yang
lebih dari 0,05 maka kecukupan sampel untuk analisis faktor telah terpenuhi
menunjukkan seluruh koefisien muatan faktor lebih dari 0,4. Jika hal tersebut
koefisien jalur muatan faktor akan memiliki arti (meaningful) jika besarnya tidak
287
kurang dari 0,4. Dengan demikian, hasil analisis menunjukkan bahwa semua
latennya. Hal tersebut bermakna sama seperti analisis sebelumnya bahwa ke-20
(KSKK) penskoran holistik untuk penilai guru pamong/penguji UKIN telah valid
secara konstruk. Hal lain yang dapat dijelaskan dari hasil analisis faktor
konfirmatori adalah pada aspek Goodness of Fit Model. Berdasarkan hasil analisis
Goodness of Fit Model. Hal ini ditunjukkan melalui koefisien p-value sebesar
0,095 yang melebih cut-of value 0,05 serta koefisien RMSEA sebesar 0,017 yang
lebih kecil dari cut-of value 0,08. Hal tersebut diperoleh setelah mengkorelasikan
error antara item 4 dan item 8 yang dapat diamati pada Lampiran 6 halaman 553.
berasal dari data penilaian dosen, maupun data yang berasal dari penilaian guru
yang digunakan pada uji coba II telah valid secara konstruk. Begitu pula ke-20
2. Reliabilitas Instrumen
response theory, pada uji coba II ini juga dilakukan pembuktian reliabilitas
288
instrumen. Pembuktian reliabilitas instrumen tersebut dilakukan untuk melihat
hasil pengukuran pada uji coba II. Pembuktian reliabilitas pada uji coba II juga
seperti pada validitas dan karakteristik instrumen. Data pertama adalah instrumen
penilaian RPP dengan penskoran parsial untuk penilai dosen. Data kedua adalah
penskoran holistik untuk penilai dosen, dan data keempat adalah instrumen
penskoran parsial untuk penilai dosen pada uji coba II dianalisis dengan
faktor untuk semua variabel observasi terhadap variabel latennya. Berikut ini
289
disajikan hasil analisis reliabilitas instrumen penilaian RPP penskoran parsial
Tabel 39. Muatan Faktor Variabel Observasi pada Instrumen Penilaian RPP
Penskoran Parsial untuk Penilai Dosen pada Uji Coba II
Item i i 2 1 i
2
atau item instrumen penilaian RPP penskoran parsial untuk penilai dosen pada uji
coba II. Berdasarkan tabel tersebut diperoleh informasi koefisien muatan faktor
i
serta koefisien muatan faktor yang dikuadratkan, diketahui
i 1
i sebesar 14,13,
290
i
1
2
serta i sebasar 16,96. Berdasarkan hasil perhitungan reliabilitas diperoleh
i 1
0,92. Jika didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang
disarankan oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat
penskoran parsial untuk penilai guru pamong/penguji UKIN pada uji coba II
untuk semua variabel observasi terhadap variabel latennya. Berikut ini disajikan
291
Tabel 40. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
RPP Penskoran Parsial Penilai Guru pamong/penguji UKIN Uji
Coba II
Item i i 2 1 i
2
atau item instrumen penilaian RPP penskoran parsial untuk penilai guru
pamong/penguji UKIN pada uji coba II, berdasarkan hasil perhitungan reliabilitas
sebesar 0,94. Jika didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85
yang disarankan oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87)
292
dapat disimpulkan bahwa instrumen penilaian RPP penskoran parsial untuk
pembelajaran (RPP) penskoran holistik untuk penilai dosen pada uji coba II
sebagaimana terlampir pada Lampiran 7 halaman 557 disajikan pada Tabel 41.
Tabel 41. Muatan Faktor Variabel Observasi pada Instrumen Penilaian RPP
Penskoran Holistik untuk Penilai Dosen pada Uji Coba II
Item i i 2 1 i
2
293
Tabel 41 menunjukkan informasi tentang muatan faktor valiabel observasi
atau item instrumen penilaian RPP penskoran holistik untuk penilai dosen pada uji
i i
koefisien reliabilitas instrumen sebesar 0,94. Jika didasari pada kriteria minimal
koefisien reliabilitas sebesar 0,85 yang disarankan oleh Mehrens and Lehmann
(1973) dan Retnawati (2016a: 87) dapat disimpulkan bahwa instrumen penilaian
RPP penskoran holistik untuk penilai dosen pada uji coba II telah reliabel.
294
Tabel 42. Muatan Faktor Variabel Observasi pada Instrumen Penilaian RPP
Penskoran Holistik Penilai Guru pamong/penguji UKIN pada Uji
Coba II
Item i i 2 1 i
2
atau item instrumen penilaian RPP penskoran holistik untuk penilai guru
i
pamong/penguji UKIN pada uji coba II, diketahui
i 1
i sebesar 15,88, serta
1
2
i sebasar 14,87. Berdasarkan hasil perhitungan reliabilitas diperoleh
i 1
295
0,94. Jika didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang
disarankan oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat
dibagi menjadi empat kelompok data. Data pertama adalah instrumen penilaian
parsial untuk penilai guru pamong/penguji UKIN. Data ketiga adalah instrumen
dengan penskoran holistik untuk penilai guru pamong/penguji UKIN. Uraian dari
parsial untuk penilai dosen pada uji coba II dianalisis menggunakan pendekatan
296
Tabel 43. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Pelaksanaan Pembelajaran Penskoran Parsial Penilai Dosen Uji
Coba II
Item i i 2 1 i
2
i
untuk penilai dosen pada uji coba II, diketahui
i 1
i sebesar 14,56, serta
1
2
i sebasar 9,38. Berdasarkan hasil perhitungan reliabilitas diperoleh
i 1
0,95. Jika didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang
disarankan oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat
297
disimpulkan bahwa instrumen penilaian pelaksanaan pembelajaran penskoran
semua variabel observasi terhadap variabel latennya. Berikut ini disajikan hasil
Item i i 2 1 i
2
298
Tabel 44 menunjukkan informasi tentang muatan faktor valiabel observasi
i
untuk penilai guru pamong/penguji UKIN pada uji coba II, diketahui
i 1
i
1
2
sebesar 14,67, serta i sebasar 9,22. Berdasarkan hasil perhitungan
i 1
reliabilitas instrumen sebesar 0,95. Jika didasari pada kriteria minimal koefisien
reliabilitas sebesar 0,85 yang disarankan oleh Mehrens and Lehmann (1973) dan
holistik untuk penilai dosen pada uji coba II dianalisis menggunakan pendekatan
299
Tabel 45. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Pelaksanaan Pembelajaran Penskoran Holistik Penilai Dosen Uji
Coba II
Item i i 2 1 i
2
i
untuk penilai dosen pada uji coba II, diketahui
i 1
i sebesar 14,59, serta
1
2
i sebasar 9,34. Berdasarkan hasil perhitungan reliabilitas diperoleh
i 1
0,96. Jika didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang
disarankan oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat
300
disimpulkan bahwa instrumen penilaian pelaksanaan pembelajaran (PP)
penskoran holistik untuk penilai dosen pada uji coba II telah reliabel.
holistik untuk penilai guru pamong/penguji UKIN pada uji coba II dianalisis
Item i i 2 1 i
2
301
Tabel 46 menunjukkan informasi tentang muatan faktor valiabel observasi
i
untuk penilai guru pamong/penguji UKIN, diketahui
i 1
i sebesar 14,69, serta
1
2
i sebasar 9,20. Berdasarkan hasil perhitungan reliabilitas diperoleh
i 1
0,95. Jika didasari pada kriteria minimal koefisien reliabilitas sebesar 0,85 yang
disarankan oleh Mehrens and Lehmann (1973) dan Retnawati (2016a: 87) dapat
penskoran holistik untuk penilai guru pamong/penguji UKIN pada uji coba II
telah reliabel.
Kepribadian
kelompok data. Data pertama adalah instrumen penilaian kompetensi sosial dan
302
dosen, dan data keempat adalah instrumen penilaian kompetensi sosial dan
Pada uji coba II, reliabilitas instrumen penilaian kompetensi sosial dan
Item i i 2 1 i
2
303
Tabel 47 menunjukkan informasi tentang muatan faktor valiabel observasi
i
(KSKK) penskoran parsial untuk penilai dosen pada uji coba II, diketahui
i 1
i
1
2
sebesar 14,42, serta i sebasar 9,59. Berdasarkan hasil perhitungan
i 1
reliabilitas instrumen sebesar 0,95. Jika didasari pada kriteria minimal koefisien
reliabilitas sebesar 0,85 yang disarankan oleh Mehrens and Lehmann (1973) dan
sosial dan kompetensi kepribadian (KSKK) penskoran parsial untuk penilai dosen
304
Tabel 48. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Parsial Penilai Guru pamong/penguji UKIN
Item i i 2 1 i
2
i i
1
2
pada uji coba II, diketahui i sebesar 14,39, serta i sebesar 9,63.
i 1 i 1
kriteria minimal koefisien reliabilitas sebesar 0,85 yang disarankan oleh Mehrens
and Lehmann (1973) dan Retnawati (2016a: 87) dapat disimpulkan bahwa
305
instrumen penilaian kompetensi sosial dan kompetensi kepribadian (KSKK)
penskoran parsial untuk penilai guru pamong/penguji UKIN pada uji coba II telah
reliabel.
kepribadian (KSKK) penskoran holistik untuk penilai dosen pada uji coba II,
Item i i 2 1 i
2
306
Tabel 49 menunjukkan informasi tentang muatan faktor valiabel observasi
i
(KSKK) penskoran holistik untuk penilai dosen pada uji coba II, diketahui
i 1
i
1
2
sebesar 14,5, serta i sebasar 9,47. Berdasarkan hasil perhitungan
i 1
reliabilitas instrumen sebesar 0,95. Jika didasari pada kriteria minimal koefisien
reliabilitas sebesar 0,85 yang disarankan oleh Mehrens and Lehmann (1973) dan
halaman 565.
307
Tabel 50. Muatan Faktor Variabel Observasi pada Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran
Holistik Penilai Guru pamong/penguji UKIN
Item i i 2 1 i
2
(KSKK) penskoran holistik untuk penilai guru pamong/penguji UKIN pada uji
i i
1
2
coba II, diketahui i sebesar 14,59, serta i sebasar 9,34. Berdasarkan
i 1 i 1
koefisien reliabilitas instrumen sebesar 0,95. Jika didasari pada kriteria minimal
koefisien reliabilitas sebesar 0,85 yang disarankan oleh Mehrens and Lehmann
(1973) dan Retnawati (2016a: 87) dapat disimpulkan bahwa instrumen penilaian
308
penilaian kompetensi sosial dan kompetensi kepribadian (KSKK) penskoran
holistik untuk penilai guru pamong/penguji UKIN pada uji coba II telah reliabel.
Coba II)
Seperti halnya pada uji coba I, karakteristik item pada uji coba II juga
merupakan salah satu fase penting dalam pengembangan model penilaian ini.
Model penilaian PPG telah dirancang untuk penskoran politomi sehingga dalam
metode graded response model (GRM). Selain itu setiap instrumen tersebut
memiliki dua kelompok penilai yaitu penilai untuk dosen serta penilai untuk guru
penilaian PPG.
Pada uji coba II, karakteristik instrumen penilaian RPP dibagi menjadi
empat kelompok data. Data pertama adalah instrumen penilaian RPP dengan
penskoran parsial untuk penilai dosen. Data kedua adalah instrumen penilaian
RPP dengan penskoran parsial untuk penilai guru pamong/penguji UKIN. Data
ketiga adalah instrumen penilaian RPP dengan penskoran holistik untuk penilai
dosen, dan data keempat adalah instrumen penilaian RPP dengan penskoran
309
1) Karakteristik Instrumen Penilaian RPP Penskoran Parsial Penilai Dosen
Seperti halnya pada uji coba I, pada uji coba II instrumen penilaian
(eRm) package diperoleh hasil analisis berupa karakteristik item sebagai berikut.
310
Berdasarkan data hasil analisis yang disajikan pada Tabel 51 diperoleh
informasi bahwa parameter lokasi setiap item bervariasi dari 0,49 hingga 0,82.
threshold ᵟi. Hal tersebut dijelaskan oleh Embretson (2000) bahwa item location
sementara threshold merupakan ambang batas antar kategori tertentu yang akan
dicapai. Hal ini berarti bahwa pada instrumen RPP semakin tinggi koefisien
location maka semakin sulit item tersebut dengan sebaran threshold yang
semakin sulit dicapai ambang batas tersebut, sehingga peserta yang memiliki
yang rendah pula, peserta yang memiliki kemampuan menengah hanya mampu
mencapai threshold (ambang kategori) yang menengah hingga pada peserta yang
berkemampuan tinggi tentu mampu mencapai kategori ambang batas yang tinggi.
Selanjutnya hal lain yang dapat dijelaskan berdasarkan hasil analisis item
dengan partial credit model adalah kurva karakteristik item. Kurva karakteristik
mencapai skor atau kategori tertentu. Berikut ini disajikan salah satu contoh kurva
311
karakteristik item dari instrumen penilaian rencana pelaksanaan pembelajaran
untuk penilai dosen yaitu item 4 pada uji coba II. Jika dikaitkan dengan hasil
kaliberasi item pada Tabel 51, dapat dijelaskan bahwa pada dasarnya item 4 ini
perpotongan kurva setiap kategori. Dari gambar tersebut dapat dijelaskan bahwa
untuk mencapai kategori 2 atau untuk memperoleh skor 2 pada item 4 maka
diperlukan kemampuan ( ) sekitar -0,03 hingga 1,51. Pada bagian ini hanya
diberikan contoh untuk item 4. Lebih jelasnya kurva karakteristik untuk semua
item pada instrumen penilaian ini dapat diamati pada Lampiran 8 halaman 566.
312
Gambar 62. Fungsi Informasi Instrumen RPP Penskoran Parsial Penilai Dosen
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
parsial untuk penilai dosen adalah nilai fungsi informasi instrumen. Berikut ini
Gambar 63. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
RPP Penskoran Parsial untuk Penilai Dosen
313
Gambar 50 menyajikan kurva fungsi informasi dari akumulasi 25 item
pada instrumen penilaian RPP penskoran parsial untuk penilai dosen. Gambar
(SEM) dimana pada kurva untuk NIF ditunjukkan oleh garis melengkung ke atas
dan SEM ditunjukkan oleh garis putus-putus. Kedua grafik fungsi ini bertemu
pada skala kemampuan -4,3 dan 0,7. Di antara dua kemampuan ini, instrumen
pengukurannya. Sebaliknya, ketika skala kemampuan kurang dari -4,3 dan lebih
dari 0,7, maka instrumen ini memiliki kesalahan pengukuran yang lebih besar
Hal lain yang dapat dijelaskan dari Gambar 50 tersebut adalah nilai fungsi
Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai
Error of Measurement (SEM), semakin besar nilai informasi maka SEM akan
semakin kecil atau sebaliknya. Jika berdasar pada pendapat tersebut, maka dapat
dijelaskan bahwa dengan diketahuinya nilai fungsi informasi sebesar 16,36 maka
Seperti yang telah dilakukan pada uji coba I, instrumen penilaian rencana
314
pendekatan partial credit model (PCM) dengan penskoran 0, 1, 2, 3, dan 4.
informasi bahwa parameter lokasi setiap item bervariasi dari 0,48 hingga 0,81.
315
perpotongan. Hal tersebut merupakan parameter tingkat kesulitan peserta
threshold ᵟi. Hal tersebut dijelaskan oleh Embretson (2000) bahwa item location
sementara threshold merupakan ambang batas antar kategori tertentu yang akan
dicapai. Hal ini berarti bahwa pada instrumen RPP semakin tinggi koefisien
location maka semakin sulit item tersebut dengan sebaran threshold yang
semakin sulit dicapai ambang batas tersebut, sehingga peserta yang memiliki
yang rendah pula, peserta yang memiliki kemampuan menengah hanya mampu
mencapai threshold (ambang kategori) yang menengah hingga pada peserta yang
berkemampuan tinggi tentu mampu mencapai kategori ambang batas yang tinggi
pula.
Hal lain yang dapat dijelaskan berdasarkan hasil analisis item dengan
partial credit model adalah kurva karakteristik item. Kurva karakteristik item
skor atau kategori tertentu. Berikut ini disajikan salah satu contoh kurva
316
Gambar 64. Kurva Karakteristik Item 7 dari Instrumen Penilaian RPP
Penskoran Parsial untuk Penilai Guru pamong/penguji UKIN
untuk penilai guru pamong/penguji UKIN yaitu item 7. Jika dikaitkan dengan
hasil kaliberasi item pada Tabel 52, dapat dijelaskan bahwa pada dasarnya item 7
ini memiliki parameter lokasi sebesar 0,72 dengan parameter threshold ᵟ1 sebesar -
1,33, threshold ᵟ2 sebesar 0,22, threshold ᵟ3 sebesar 1,30, serta threshold ᵟ4 sebesar
setiap kategori. Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai
kemampuan ( ) sekitar 0,22 hingga 1,30. Pada bagian ini hanya diberikan contoh
untuk item 7. Untuk lebih jelasnya kurva karakteristik untuk semua item pada
317
Gambar 65. Fungsi Informasi Instrumen RPP Penskoran Parsial Penilai Penguji
UKIN
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
parsial untuk penilai guru pamong/penguji UKIN adalah nilai fungsi informasi
Measurement (SEM).
Gambar 66. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
318
RPP Penskoran Parsial untuk Penilai Guru pamong/penguji UKIN
kesalahan pengukuran. Kedua grafik fungsi ini bertemu pada skala kemampuan -
4,3 dan 0,7. Di antara dua kemampuan ini, instrumen memiliki nilai informasi
ketika skala kemampuan kurang dari -4,3 dan lebih dari 0,7, maka instrumen ini
yang diberikannya. Hal lain yang dapat dijelaskan dari Gambar 52 tersebut adalah
nilai fungsi informasi maksimum instrumen sebesar 16,36 pada skala kemampuan
( ) -1,8. Hambleton, Swaminathan & Rogers (1991: 94); Retnawati (2014: 19)
informasi maka SEM akan semakin kecil atau sebaliknya. Jika berdasar pada
pendapat tersebut, maka dapat dijelaskan bahwa dengan diketahuinya nilai fungsi
sebesar 0,24.
Instrumen penilaian RPP penskoran holistik untuk penilai dosen pada uji
model (ltm) package diperoleh hasil analisis karakteristik item sebagai berikut.
319
Tabel 53. Hasil Analisis Karakteristik Item Instrumen Penilaian RPP
Penskoran Holistik untuk Penilai Dosen
Item a b1 b2 b3
A1 1,30 -2,18 -1,03 0,72
A2 1,38 -2,23 -0,89 0,52
A3 1,06 -2,70 -1,15 0,97
A4 1,28 -2,67 -1,00 0,67
A5 1,13 -2,71 -1,17 0,65
A6 1,28 -2,64 -0,96 0,53
B7 0,93 -3,46 -1,33 0,76
B8 0,92 -3,68 -1,33 0,77
B9 0,94 -3,23 -1,31 0,63
B10 0,98 -3,23 -1,26 0,63
B11 0,94 -3,17 -1,17 0,61
B12 0,88 -3,60 -1,31 0,92
C13 1,21 -2,87 -0,83 0,89
C14 1,19 -2,83 -1,02 0,83
C15 1,22 -2,84 -0,88 0,99
C16 1,12 -2,94 -0,96 0,96
C17 1,11 -2,99 -1,05 0,86
C18 1,31 -2,81 -0,87 0,75
D19 1,31 -2,94 -1,13 0,61
D20 1,18 -2,90 -1,24 0,60
D21 1,38 -2,60 -1,06 0,56
D22 1,20 -2,85 -1,32 0,56
D23 1,16 -2,89 -1,42 0,51
D24 1,34 -2,76 -1,42 0,50
D25 1,32 -2,65 -1,15 0,59
informasi bahwa parameter ai setiap item bervariasi dari 0,88 hingga 1,34. Selain
itu parameter bi sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut
320
Hal lain yang dapat dijelaskan berdasarkan hasil analisis item dengan
graded response model adalah kurva karakteristik item. Berikut ini disajikan salah
satu contoh kurva karakteristik item dari instrumen penilaian rencana pelaksanaan
pembelajaran (RPP) penskoran holistik untuk penilai dosen pada uji coba II.
penskoran holistik untuk penilai dosen yaitu item 14. Jika dikaitkan dengan hasil
kaliberasi item pada Tabel 53, dapat dijelaskan bahwa pada dasarnya item 14 ini
memiliki parameter daya beda ai sebesar 1,19 dengan parameter b1 sebesar -2,83,
b2 sebesar -1,02, serta b3 sebesar 0,83. Secara grafis bi atau tingkat kesulitan dapat
dapat dijelaskan bahwa untuk mencapai kategori 2 atau untuk memperoleh skor 2
pada item 23 maka diperlukan kemampuan ( ) sekitar -2,83 hingga -1,02. Pada
bagian ini hanya diberikan contoh untuk item 14. Untuk lebih jelasnya kurva
321
karakteristik untuk semua item pada instrumen penilaian rencana pelaksanaan
pembelajaran (RPP) penskoran holistik untuk penilai dosen dapat diamati pada
Gambar 68. Fungsi Informasi Instrumen RPP Penskoran Holistik Penilai Dosen
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
holistik untuk penilai dosen adalah nilai fungsi informasi instrumen. Fungsi
322
Gambar 69. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
RPP Penskoran Holistik untuk Penilai Dosen
pengukuran (SEM) dimana kedua grafik fungsi ini bertemu pada skala
kemampuan -3,5 dan 1,3. Di antara dua kemampuan ini, instrumen memiliki nilai
Sebaliknya, ketika skala kemampuan kurang dari -3,5 dan lebih dari 1,3, maka
dengan informasi yang diberikannya. Hal lain yang dapat dijelaskan dari Gambar
54 tersebut adalah nilai fungsi informasi instrumen sebesar 14,15 pada skala
(2014: 19) menyatakan bahwa nilai fungsi informasi memiliki hubungan yang
besar nilai informasi maka SEM akan semakin kecil atau sebaliknya. Jika berdasar
pada pendapat tersebut, maka dapat dijelaskan bahwa dengan diketahuinya nilai
323
diperoleh sebesar 0,26. Hal ini dapat diinterpretasikan bahwa koefisien kesalahan
dan 4. Melalui Program R dengan latent trait model (ltm) package diperoleh hasil
324
Berdasarkan data hasil analisis yang disajikan pada Tabel 54 diperoleh
informasi bahwa parameter ai setiap item bervariasi dari 0,91 hingga 1,40. Selain
itu, parameter bi sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut
Hal lain yang dapat dijelaskan berdasarkan hasil analisis item dengan
graded response model adalah kurva karakteristik item. Kurva karakteristik item
atau kategori tertentu. Berikut ini disajikan salah satu contoh kurva karakteristik
325
Gambar 70 adalah salah satu contoh kurva karakteristik item dari
untuk penilai guru pamong/penguji UKIN pada uji coba II yaitu item 2. Jika
dikaitkan dengan hasil kaliberasi item pada Tabel 54, dapat dijelaskan bahwa pada
dasarnya item 2 ini memiliki parameter daya beda ai sebesar 1,40 dengan
parameter b1 sebesar -2,25, b2 sebesar -0,88, serta b3 sebesar 0,53. Secara grafis bi
kategori. Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai kategori 2
sekitar -2,25 hingga -0,88. Pada bagian ini hanya diberikan contoh untuk item 2.
Secara lebih jelasnya kurva karakteristik untuk semua item pada instrumen
penilai guru pamong/penguji UKIN dapat diamati pada Lampiran 8 halaman 581.
sebagai berikut.
Gambar 71. Fungsi Informasi Instrumen RPP Penskoram Holistik Penilai Guru
Pamong/Penguji UKIN
326
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
coba II penskoran holistik untuk penilai guru pamong/penguji UKIN adalah nilai
Gambar 72. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
RPP Penskoran Holistik untuk Penilai Guru pamong/penguji UKIN
(NIF) dan kesalahan pengukuran (SEM) dimana pada kurva untuk NIF
ditunjukkan oleh garis melengkung ke atas dan SEM ditunjukkan oleh garis
327
putus-putus. Kedua grafik fungsi ini bertemu pada skala kemampuan -3,5 dan 1,3.
Di antara dua kemampuan ini, instrumen memiliki nilai informasi yang lebih
kemampuan kurang dari -3,5 dan lebih dari 1,3, maka instrumen ini memiliki
diberikannya.
Hal lain yang dapat dijelaskan dari Gambar 56 tersebut adalah nilai fungsi
Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai
Error of Measurement (SEM), semakin besar nilai informasi maka SEM akan
semakin kecil atau sebaliknya. Jika berdasar pada pendapat tersebut, maka dapat
dijelaskan bahwa dengan diketahuinya nilai fungsi informasi sebesar 14,15, maka
penskoran holistik dapat dijelaskan bahwa untuk instrumen penilaian RPP lebih
baik untuk menggunakan penskoran parsial. Hal ini terlihat pada kurva
karakteristik item untuk penskoran parsial yang lebih condong pada theta positif
(lihat Gambar 50) dibandingkan dengan kurva karakteristik item pada penskoran
holistik (lihat Gambar 53). Hal ini juga diperkuat dengan fungsi informasi butir
yang menunjukkan bahwa penskoran parsial lebih memiliki informasi yang tinggi
dan SEM yang lebih rendah dibanding dengan dengan penskoran holistik.
328
b. Karakteristik Instrumen Penilaian Pelaksanaan Pembelajaran (PP)
pembelajaran (PP) dibagi menjadi empat kelompok data. Data pertama adalah
dengan penskoran holistik untuk penilai dosen, dan data keempat adalah
329
Tabel 55. Hasil Analisis Karakteristik Item Instrumen Penilaian Pelaksanaan
Pembelajaran (PP) Penskoran Pasial untuk Penilai Dosen
informasi bahwa parameter lokasi setiap item bervariasi dari 0,58 hingga 0,85.
threshold ᵟi. Hal tersebut dijelaskan oleh Embretson (2000) bahwa item location
sementara threshold merupakan ambang batas antar kategori tertentu yang akan
330
dicapai. Hal ini berarti bahwa pada instrumen PP semakin tinggi koefisien
location maka semakin sulit item tersebut dengan sebaran threshold yang
semakin sulit dicapai ambang batas tersebut, sehingga peserta yang memiliki
yang rendah pula, peserta yang memiliki kemampuan menengah hanya mampu
mencapai threshold (ambang kategori) yang menengah hingga pada peserta yang
berkemampuan tinggi tentu mampu mencapai kategori ambang batas yang tinggi.
Hal lain yang dapat dijelaskan berdasarkan hasil analisis item dengan
partial credit model adalah kurva karakteristik item. Kurva karakteristik item
skor atau kategori tertentu. Berikut ini disajikan salah satu contoh kurva
331
Gambar 73 adalah salah satu contoh kurva karakteristik item dari
penilai dosen yaitu item 15. Jika dikaitkan dengan hasil kaliberasi item pada Tabel
55, dapat dijelaskan bahwa pada dasarnya item 15 ini memiliki parameter lokasi
0,13, threshold ᵟ3 sebesar 1,29, serta threshold ᵟ4 sebesar 2,78. Secara grafis
Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai kategori 2 atau
0,13 hingga 1,29. Pada bagian ini hanya diberikan contoh untuk item 15. Secara
lebih jelasnya kurva karakteristik untuk semua item pada instrumen penilaian
332
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
pada uji coba II untuk penilai dosen adalah nilai fungsi informasi instrumen.
coba II untuk penilai dosen. Gambar tersebut menunjukkan grafik nilai informasi
dan kesalahan pengukuran. Kedua grafik fungsi ini bertemu pada skala
kemampuan -2,9 dan 1,8. Di antara dua kemampuan ini, instrumen memiliki nilai
333
informasi yang lebih tinggi dibandingkan dengan kesalahan pengukurannya.
Sebaliknya, ketika skala kemampuan kurang dari -2,9 dan lebih dari 1,8, maka
dengan informasi yang diberikannya. Hal lain yang dapat dijelaskan dari Gambar
58 tersebut adalah nilai fungsi informasi maksimum instrumen sebesar 13,3 pada
(SEM), semakin besar nilai informasi maka SEM akan semakin kecil atau
sebaliknya. Jika berdasar pada pendapat tersebut, maka dapat dijelaskan bahwa
334
Tabel 56. Hasil Analisis Karakteristik Item Instrumen Penilaian Pelaksanaan
Pembelajaran (PP) Penskoran Pasial untuk Penilai Guru
pamong/penguji UKIN
informasi bahwa parameter lokasi setiap item bervariasi dari 0,57 hingga 0,70.
threshold ᵟi. Hal tersebut dijelaskan oleh Embretson (2000) bahwa item location
335
sementara threshold merupakan ambang batas antar kategori tertentu yang akan
dicapai. Hal ini berarti bahwa pada instrumen PP semakin tinggi koefisien
location maka semakin sulit item tersebut dengan sebaran threshold yang
semakin sulit dicapai ambang batas tersebut, sehingga peserta yang memiliki
yang rendah pula, peserta yang memiliki kemampuan menengah hanya mampu
mencapai threshold (ambang kategori) yang menengah hingga pada peserta yang
berkemampuan tinggi tentu mampu mencapai kategori ambang batas yang tinggi
pula. Hal lain yang dapat dijelaskan berdasarkan hasil analisis item dengan partial
skor atau kategori tertentu. Berikut ini disajikan salah satu contoh kurva
penskoran parsial pada uji coba II untuk penilai guru pamong/penguji UKIN.
336
Gambar 76 adalah salah satu contoh kurva karakteristik item dari
penilai guru pamong/penguji UKIN yaitu item 10. Jika dikaitkan dengan hasil
kaliberasi item pada Tabel 56, menunjukkan bahwa item 10 ini memiliki
setiap kategori. Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai
kemampuan ( ) sekitar -0,13 hingga 0,98. Pada bagian ini hanya diberikan contoh
untuk item 10. Secara lebih jelasnya kurva karakteristik untuk semua item pada
penilai guru pamong/penguji UKIN dapat diamati pada Lampiran 8 halaman 591.
337
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
untuk penilai guru pamong/penguji UKIN pada uji coba II adalah nilai fungsi
Measurement (SEM).
Gambar 78. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
Pelaksanaan Pembelajaran Penskoran Parsial Penilai Guru
pamong/penguji UKIN
informasi (NIF) dan kesalahan pengukuran (SEM) dimana pada kurva untuk NIF
ditunjukkan oleh garis melengkung ke atas dan SEM ditunjukkan oleh garis
338
putus-putus. Kedua grafik fungsi ini bertemu pada skala kemampuan -2,9 dan 1,8.
Di antara dua kemampuan ini, instrumen memiliki nilai informasi yang lebih
kemampuan kurang dari -2,9 dan lebih dari 1,8, maka instrumen ini memiliki
diberikannya. Hal lain yang dapat dijelaskan dari Gambar 60 tersebut adalah nilai
0,6. Hambleton, Swaminathan & Rogers (1991: 94); Retnawati (2014: 19)
informasi maka SEM akan semakin kecil atau sebaliknya. Jika berdasar pada
pendapat tersebut, maka dapat dijelaskan bahwa dengan diketahuinya nilai fungsi
sebesar 0,27.
Melalui Program R dengan latent trait model (ltm) package diperoleh hasil
339
Tabel 57. Hasil Analisis Karakteristik Item Instrumen Penilaian
Pelaksanaan Pembelajaran Penskoran Holistik untuk Penilai
Dosen
Item a b1 b2 b3
A1 1,33 -2,63 -1,33 0,68
A2 1,31 -2,89 -1,36 0,59
A3 1,23 -3,02 -1,43 0,65
A4 1,23 -2,86 -1,24 0,60
B5 1,64 -2,48 -1,11 0,59
B6 1,69 -2,58 -1,08 0,51
B7 1,72 -2,36 -0,93 0,61
B8 1,72 -2,35 -0,97 0,72
B9 1,62 -2,90 -1,18 0,57
B10 1,98 -2,41 -0,99 0,55
B11 1,74 -2,63 -1,05 0,60
C12 1,37 -2,68 -1,35 0,68
C13 1,22 -2,95 -1,51 0,60
C14 1,17 -3,07 -1,41 0,58
C15 1,22 -3,43 -1,32 0,59
D16 1,59 -2,69 -1,16 0,60
D17 1,58 -2,48 -1,12 0,45
D18 1,31 -2,68 -1,31 0,59
D19 1,45 -2,79 -1,13 0,67
D20 1,40 2,84 -1,25 0,75
informasi bahwa parameter ai setiap item bervariasi dari 1,17 hingga 1,98. Selain
itu parameter bi sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut
Hal lain yang dapat dijelaskan berdasarkan hasil analisis item dengan
graded response model adalah kurva karakteristik item. Kurva karakteristik item
340
digambarkan untuk memudahkan memahami hubungan antara setiap bi yang
atau kategori tertentu. Berikut ini disajikan salah satu contoh kurva karakteristik
penilai dosen yaitu item 19. Jika dikaitkan dengan hasil kaliberasi item pada Tabel
48, dapat dijelaskan bahwa pada dasarnya item 19 ini memiliki parameter daya
beda ai sebesar 1,45 dengan parameter b1 sebesar -2,79, b2 sebesar -1,13, serta b3
sebesar 0,67. Secara grafis bi atau tingkat kesulitan dapat diinterpretasikan sebagai
perpotongan kurva setiap kategori. Dari gambar tersebut dapat dijelaskan bahwa
untuk mencapai kategori 2 atau untuk memperoleh skor 2 pada item 10 maka
diperlukan kemampuan ( ) sekitar -2,79 hingga -1,13. Pada bagian ini hanya
diberikan contoh untuk item 19. Secara lebih jelasnya kurva karakteristik untuk
341
semua item pada instrumen penilaian pelaksanaan pembelajaran (PP) penskoran
holistik untuk penilai dosen dapat diamati pada Lampiran 8 halaman 596. Lebih
berikut.
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
pada uji coba II untuk penilai dosen adalah nilai fungsi informasi instrumen.
342
Gambar 81. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
Pelaksanaan Pembelajaran (PP) Penskoran Holistik Penilai Dosen
penilai dosen. Gambar tersebut menunjukkan grafik nilai informasi (NIF) dan
kesalahan pengukuran (SEM) dimana pada kurva untuk NIF ditunjukkan oleh
garis melengkung ke atas dan SEM ditunjukkan oleh garis putus-putus. Kedua
grafik fungsi ini bertemu pada skala kemampuan -3,3 dan 1,2. Di antara dua
kemampuan kurang dari -3,3 dan lebih dari 1,2, maka instrumen ini memiliki
diberikannya. Hal lain yang dapat dijelaskan dari Gambar 62 tersebut adalah nilai
Hambleton, Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan
bahwa nilai fungsi informasi memiliki hubungan yang berbanding terbalik dengan
343
Standard Error of Measurement (SEM), semakin besar nilai informasi maka SEM
akan semakin kecil atau sebaliknya. Jika berdasar pada pendapat tersebut, maka
dapat dijelaskan bahwa dengan diketahuinya nilai fungsi informasi sebesar 11,4,
untuk penilai guru pamong/penguji UKIN pada uji coba II diperoleh hasil analisis
Item a b1 b2 b3
A1 1,35 -2,63 -1,33 0,70
A2 1,34 -2,89 -1,34 0,61
A3 1,26 -3,01 -1,41 0,66
A4 1,28 -2,82 -1,21 0,61
B5 1,66 -2,50 -1,11 0,60
B6 1,74 -2,58 -1,07 0,53
B7 1,76 -2,36 -0,93 0,63
B8 1,77 -2,35 -0,96 0,74
B9 1,66 -2,91 -1,17 0,58
B10 1,96 -2,44 -1,01 0,58
B11 1,71 -2,68 -1,07 0,62
C12 1,38 -2,71 -1,36 0,69
C13 1,23 -2,97 -1,53 0,62
C14 1,18 -3,09 -1,42 0,59
C15 1,24 -3,44 -1,32 0,61
D16 1,63 -2,70 -1,15 0,61
D17 1,62 -2,47 -1,11 0,47
D18 1,33 -2,69 -1,31 0,60
D19 1,50 -2,79 -1,12 0,67
D20 1,43 -2,84 -1,24 0,76
344
Berdasarkan data hasil analisis yang disajikan pada Tabel 57 diperoleh
informasi bahwa parameter ai setiap item bervariasi dari 1,18 hingga 1,77. Selain
itu, parameter bi sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut
Hal lain yang dapat dijelaskan berdasarkan hasil analisis item dengan
graded response model adalah kurva karakteristik item. Kurva karakteristik item
atau kategori tertentu. Berikut ini disajikan salah satu contoh kurva karakteristik
345
Gambar 82 adalah salah satu contoh kurva karakteristik item dari
penilai guru pamong/penguji UKIN pada uji coba II yaitu item 8. Jika dikaitkan
dengan hasil kaliberasi item pada Tabel 57, dapat dijelaskan bahwa pada dasarnya
item 8 ini memiliki parameter daya beda ai sebesar 1,72 dengan parameter b1
sebesar -2,35, b2 sebesar -0,96, serta b3 sebesar 0,74. Secara grafis bi atau tingkat
gambar tersebut dapat dijelaskan bahwa untuk mencapai kategori 2 atau untuk
hingga -0,96. Pada bagian ini hanya diberikan contoh untuk item 8. Secara lebih
pamong/penguji UKIN dapat diamati pada Lampiran 8 halaman 599. Lebih lanjut
346
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
untuk penilai guru pamong/penguji UKIN adalah nilai fungsi informasi instrumen.
pamong/penguji UKIN pada uji coba II yang dihubungkan dengan Standard Error
of Measurement (SEM).
Gambar 84. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
PP Penskoran Holistik Penilai Guru pamong/penguji UKIN
informasi (NIF) dan kesalahan pengukuran (SEM) dimana pada kurva untuk NIF
347
ditunjukkan oleh garis melengkung ke atas dan SEM ditunjukkan oleh garis
putus-putus. Kedua grafik fungsi ini bertemu pada skala kemampuan -3,3 dan 1,2.
Di antara dua kemampuan ini, instrumen memiliki nilai informasi yang lebih
kemampuan kurang dari -3,3 dan lebih dari 1,2, maka instrumen ini memiliki
diberikannya.
Hal lain yang dapat dijelaskan dari Gambar 64 tersebut adalah nilai fungsi
Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai
Error of Measurement (SEM), semakin besar nilai informasi maka SEM akan
semakin kecil atau sebaliknya. Jika berdasar pada pendapat tersebut, maka dapat
dijelaskan bahwa dengan diketahuinya nilai fungsi informasi sebesar 11,4, maka
parsial dan penskoran holistik dapat dijelaskan bahwa untuk instrumen penilaian
ini terlihat pada kurva karakteristik item untuk penskoran parsial yang lebih
condong pada theta positif (lihat Gambar 57) dibandingkan dengan kurva
karakteristik item pada penskoran holistik (lihat Gambar 61). Hal ini juga
348
parsial lebih memiliki informasi yang tinggi dan SEM yang lebih rendah
Kepribadian (KSKK)
Pada uji coba II, karakteristik instrumen penilaian kompetensi sosial dan
pertama adalah instrumen KSKK dengan penskoran parsial untuk penilai dosen.
Data kedua adalah instrumen KSKK dengan penskoran parsial untuk penilai guru
penskoran holistik untuk penilai dosen, dan data keempat adalah instrumen
Uraian keempat kelompok data tersebut pada uji coba II dikemukakan berikut.
(KSKK) penskoran parsial untuk penilai dosen pada uji coba II dianalisis dengan
349
Tabel 58. Hasil Analisis Karakteristik Item Instrumen Penilaian Kompetensi
Sosial dan Kompetensi Kepribadian (KSKK) Penskoran Pasial
Penilai Dosen
informasi bahwa parameter lokasi setiap item bervariasi dari 0,51 hingga 0,67.
threshold ᵟi. Hal tersebut dijelaskan oleh Embretson (2000) bahwa item location
350
sementara threshold merupakan ambang batas antar kategori tertentu yang akan
dicapai. Hal ini berarti bahwa pada instrumen SK semakin tinggi koefisien
location maka semakin sulit item tersebut dengan sebaran threshold yang
semakin sulit dicapai ambang batas tersebut, sehingga peserta yang memiliki
yang rendah pula, peserta yang memiliki kemampuan menengah hanya mampu
mencapai threshold (ambang kategori) yang menengah hingga pada peserta yang
berkemampuan tinggi tentu mampu mencapai kategori ambang batas yang tinggi
pula. Hal lain yang dapat dijelaskan berdasarkan hasil analisis item dengan partial
skor atau kategori tertentu. Berikut ini disajikan salah satu contoh kurva
kepribadian (KSKK) penskoran parsial untuk penilai dosen pada uji coba II.
351
Gambar 85 adalah salah satu contoh kurva karakteristik item dari
penskoran parsial untuk penilai dosen pada uji coba II yaitu item 7. Jika dikaitkan
dengan hasil kaliberasi item pada Tabel 58, dapat dijelaskan bahwa pada dasarnya
item 7 ini memiliki parameter lokasi sebesar 0,66 dengan parameter threshold ᵟ1
sebesar -1,43, threshold ᵟ2 sebesar 0,37, threshold ᵟ3 sebesar 1,20, serta threshold
perpotongan kurva setiap kategori. Dari gambar tersebut dapat dijelaskan bahwa
untuk mencapai kategori 2 atau untuk memperoleh skor 2 pada item 7 maka
diperlukan kemampuan ( ) sekitar 0,37 hingga 1,20. Pada bagian ini hanya
diberikan contoh untuk item 7. Secara lebih jelasnya kurva karakteristik untuk
kepribadian (KSKK) penskoran parsial untuk penilai dosen dapat diamati pada
352
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
(KSKK) penskoran parsial pada uji coba II untuk penilai dosen adalah nilai fungsi
penskoran parsial untuk penilai dosen yang dihubungkan dengan Standard Error
of Measurement (SEM).
Gambar 87. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
Kompetensi Sosial dan Kompetensi Kepribadian Penskoran Parsial
Penilai Dosen
penskoran parsial untuk penilai dosen. Gambar tersebut menunjukkan grafik nilai
informasi dan kesalahan pengukuran. Kedua grafik fungsi ini bertemu pada skala
353
kemampuan -3,8 dan 0,9. Di antara dua kemampuan ini, instrumen memiliki nilai
Sebaliknya, ketika skala kemampuan kurang dari -3,8 dan lebih dari 0,9, maka
dengan informasi yang diberikannya. Hal lain yang dapat dijelaskan dari Gambar
66 tersebut adalah nilai fungsi informasi instrumen sebesar 12,9 pada skala
(2014: 19) menyatakan bahwa nilai fungsi informasi memiliki hubungan yang
besar nilai informasi maka SEM akan semakin kecil atau sebaliknya. Jika berdasar
pada pendapat tersebut, maka dapat dijelaskan bahwa dengan diketahuinya nilai
Pada uji coba II, instrumen penilaian kompetensi sosial dan kompetensi
(eRm) package diperoleh hasil analisis berupa karakteristik item sebagai berikut.
354
Tabel 59. Hasil Analisis Karakteristik Item Instrumen Penilaian Kompetensi
Sosial dan Kompetensi Kepribadian (KSKK) Penskoran Pasial
untuk Penilai Guru pamong/penguji UKIN
informasi bahwa parameter lokasi setiap item bervariasi dari 0,55 hingga 0,71.
threshold ᵟi. Hal tersebut dijelaskan oleh Embretson (2000) bahwa item location
355
sementara threshold merupakan ambang batas antar kategori tertentu yang akan
dicapai. Hal ini berarti bahwa pada instrumen penilaian kompetensi sosial dan
kepribadian semakin tinggi koefisien location maka semakin sulit item tersebut
Semakin tinggi threshold maka semakin sulit dicapai ambang batas tersebut,
sehingga peserta yang memiliki kemampuan rendah tentu hanya mampu mencapai
threshold (ambang kategori) yang rendah pula, peserta yang memiliki kemampuan
hingga pada peserta yang berkemampuan tinggi tentu mampu mencapai kategori
ambang batas yang tinggi pula. Hal lain yang dapat dijelaskan berdasarkan hasil
analisis item dengan partial credit model adalah kurva karakteristik item. Kurva
untuk mencapai skor atau kategori tertentu. Berikut ini disajikan salah satu contoh
kurva karakteristik item dari instrumen penilaian tersebut untuk penilai guru
pamong/penguji UKIN.
356
Gambar 88 adalah salah satu contoh kurva karakteristik item dari
penskoran parsial untuk penilai guru pamong/penguji UKIN pada uji coba II yaitu
item 18. Jika dikaitkan dengan hasil kaliberasi item pada Tabel 59, dapat
dijelaskan bahwa pada dasarnya item 18 ini memiliki parameter lokasi sebesar
threshold ᵟ3 sebesar 1,05, serta threshold ᵟ4 sebesar 2,41. Secara grafis threshold ᵟi
hingga 1,05 Pada bagian ini hanya diberikan contoh untuk item 18. Secara lebih
jelasnya kurva karakteristik untuk semua item pada instrumen penilaian rencana
guru pamong/penguji UKIN dapat diamati pada Lampiran 8 halaman 608. Lebih
357
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
(KSKK) penskoran parsial untuk penilai guru pamong/penguji UKIN pada uji
coba II adalah nilai fungsi informasi instrumen. Fungsi informasi pada dasarnya
fungsi ini bertemu pada skala kemampuan -3,8 dan 0,9. Di antara dua kemampuan
358
ini, instrumen memiliki nilai informasi yang lebih tinggi dibandingkan dengan
dan lebih dari 0,9, maka instrumen ini memiliki kesalahan pengukuran yang lebih
besar dibandingkan dengan informasi yang diberikannya. Hal lain yang dapat
sebesar 12,9 pada skala kemampuan ( ) -1,4. Hambleton, Swaminathan & Rogers
(1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai fungsi informasi
Measurement (SEM), semakin besar nilai informasi maka SEM akan semakin
kecil atau sebaliknya. Jika berdasar pada pendapat tersebut, maka dapat dijelaskan
bahwa dengan diketahuinya nilai fungsi informasi sebesar 12,9, maka koefisien
Pada uji coba II, instrumen penilaian kompetensi sosial dan kompetensi
2, 3, dan 4. Melalui Program R dengan latent trait model (ltm) package diperoleh
359
Tabel 60. Hasil Analisis Karakteristik Item Instrumen Penilaian Kompetensi
Sosial dan Kompetensi Kepribadian (KSKK) Pembelajaran
Penskoran Holistik untuk Penilai Dosen
Item a b1 b2 b3
A1 1,31 -2,26 -1,04 0,60
A2 1,19 -2,39 -1.14 0,41
A3 1,38 -2,16 -1,05 0,57
A4 1,22 -2,47 -1,10 0,57
A5 1,17 -2,32 -1,14 0,69
B6 1,19 -2,19 -0,93 0,69
B7 1,25 -2,28 -0,90 0,75
B8 1,18 -2,61 -0,97 0,72
B9 1,17 -2,18 -0,89 0,75
B10 1,55 -1,74 -0,79 0,51
C11 1,51 -2,08 -0,93 0,53
C12 1,48 -2,19 -0,94 0,65
C13 1,27 -2,26 -1,07 0,64
C14 1,30 -2,56 -1,34 0,63
C15 1,57 -2,04 -0,92 0,45
D16 1,72 -1,81 -0,74 0,55
D17 1,54 -1,91 -0,84 0,69
D18 1,53 -1,88 -0,93 0,54
D19 1,72 -1,61 -0,64 0,64
D20 1,61 -1,92 -0,88 0,73
informasi bahwa parameter ai setiap item bervariasi dari 1,17 hingga 1,72. Selain
itu parameter bi sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut
pencapaian maka semakin tinggi koefisien bi. Hal lain yang dapat dijelaskan
berdasarkan hasil analisis item dengan graded response model adalah kurva
360
kemampuan peserta untuk mencapai skor atau kategori tertentu. Berikut ini
disajikan salah satu contoh kurva karakteristik item dari instrumen penilaian
penskoran holistik untuk penilai dosen pada uji coba II yaitu item 16. Jika
dikaitkan dengan hasil kaliberasi item pada Tabel 60, dapat dijelaskan bahwa pada
dasarnya item 16 ini memiliki parameter daya beda ai sebesar 1,72 dengan
parameter b1 sebesar -1,81, b2 sebesar -0,74, serta b3 sebesar 0,55. Secara grafis bi
kategori. Dari gambar tersebut dapat dijelaskan bahwa untuk mencapai kategori 2
sekitar -1,81 hingga -0,74. Pada bagian ini hanya diberikan contoh untuk item 16.
361
Secara lebih jelasnya kurva karakteristik untuk semua item pada instrumen
holistik untuk penilai dosen dapat diamati pada Lampiran 8 halaman 612. Lebih
berikut.
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
penskoran holistik untuk penilai dosen adalah nilai fungsi informasi instrumen.
holistik untuk penilai dosen pada uji coba II yang dihubungkan dengan Standard
362
Gambar 93. Hubungan timbal balik antara NIF dengan SEM Instrumen
Penilaian KSKK Penskoran Holistik Penilai Dosen
penskoran holistik untuk penilai dosen. Gambar tersebut menunjukkan grafik nilai
informasi (NIF) dan kesalahan pengukuran (SEM) dimana pada kurva untuk NIF
ditunjukkan oleh garis melengkung ke atas dan SEM ditunjukkan oleh garis
putus-putus. Kedua grafik fungsi ini bertemu pada skala kemampuan -3,1 dan 1,2.
Di antara dua kemampuan ini, instrumen memiliki nilai informasi yang lebih
kemampuan kurang dari -3,1 dan lebih dari 1,2, maka instrumen ini memiliki
diberikannya. Hal lain yang dapat dijelaskan dari Gambar 69 tersebut adalah nilai
Hambleton, Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan
bahwa nilai fungsi informasi memiliki hubungan yang berbanding terbalik dengan
Standard Error of Measurement (SEM), semakin besar nilai informasi maka SEM
363
akan semakin kecil atau sebaliknya. Jika berdasar pada pendapat tersebut, maka
dapat dijelaskan bahwa dengan diketahuinya nilai fungsi informasi sebesar 10,7,
Pada uji coba II, instrumen penilaian kompetensi sosial dan kompetensi
(ltm) package diperoleh hasil analisis berupa karakteristik item sebagai berikut.
Item a b1 b2 b3
A1 1,33 -2,25 -1,12 0,60
A2 1,21 -2,37 -1,14 0,64
A3 1,38 -2,16 -1,06 0,57
A4 1,22 -2,48 -1,12 0,57
A5 1,21 -2,33 -1,15 0,69
B6 1,19 -2,20 -1,03 0,69
B7 1,25 -2,28 -0,91 0,75
B8 1,18 -2,61 -0,98 0,72
B9 1,21 -2,14 -0,95 0,74
B10 1,56 -1,73 -0,79 0,52
C11 1,57 -2,05 -1,00 0,53
C12 1,47 -2,20 -0,95 0,65
C13 1,25 -2,41 -1,27 0,65
C14 1,30 -2,56 -1,35 0,64
C15 1,56 -2,05 -0,94 0,45
D16 1,71 -1,81 -0,75 0,56
D17 1,55 -1,91 -0,84 0,70
D18 1,53 -1,88 -0,94 0,55
D19 1,72 -1,61 -0,65 0,64
D20 1,61 -1,92 -0,89 0,73
364
Berdasarkan data hasil analisis yang disajikan pada Tabel 61 diperoleh
informasi bahwa parameter ai setiap item bervariasi dari 1,18 hingga 1,72. Selain
itu, parameter bi sebanyak tiga kelompok atau tiga perpotongan. Hal tersebut
pencapaian maka semakin tinggi koefisien bi. Hal lain yang dapat dijelaskan
berdasarkan hasil analisis item dengan graded response model adalah kurva
kemampuan peserta untuk mencapai skor atau kategori tertentu. Berikut ini
disajikan salah satu contoh kurva karakteristik item dari instrumen penilaian
365
Gambar 94 adalah salah satu contoh kurva karakteristik item dari
penskoran holistik untuk penilai guru pamong/penguji UKIN pada uji coba II
yaitu item 12. Jika dikaitkan dengan hasil kaliberasi item pada Tabel 53, dapat
dijelaskan bahwa pada dasarnya item 12 ini memiliki parameter daya beda ai
sebesar 1,47 dengan parameter b1 sebesar -2,20, b2 sebesar -0,95, serta b3 sebesar
perpotongan kurva setiap kategori. Dari gambar tersebut dapat dijelaskan bahwa
untuk mencapai kategori 2 atau untuk memperoleh skor 2 pada item 2 maka
diperlukan kemampuan ( ) sekitar -2,20 hingga -0,95. Pada bagian ini hanya
diberikan contoh untuk item 12. Secara lebih jelasnya kurva karakteristik untuk
dapat diamati pada Lampiran 8 halaman 615. Lebih lanjut karakteristik instrumen
366
Selain kurva karakteristik item, maka hal lain yang dapat dijelaskan dari
(KSKK) penskoran holistik untuk penilai guru pamong/penguji UKIN adalah nilai
Gambar 96. Hubungan timbal balik antara NIF dengan SEM Instrumen Penilaian
KSKK Penskoran Holistik Penilai Guru pamong/penguji UKIN
penskoran holistik untuk penilai guru pamong/penguji UKIN pada uji coba II.
pengukuran (SEM) dimana pada kurva untuk NIF ditunjukkan oleh garis
367
melengkung ke atas dan SEM ditunjukkan oleh garis putus-putus. Kedua grafik
fungsi ini bertemu pada skala kemampuan -3,1 dan 1,2. Di antara dua kemampuan
ini, instrumen memiliki nilai informasi yang lebih tinggi dibandingkan dengan
dan lebih dari 1,2, maka instrumen ini memiliki kesalahan pengukuran yang lebih
Hal lain yang dapat dijelaskan dari Gambar 72 tersebut adalah nilai fungsi
Swaminathan & Rogers (1991: 94); Retnawati (2014: 19) menyatakan bahwa nilai
Error of Measurement (SEM), semakin besar nilai informasi maka SEM akan
semakin kecil atau sebaliknya. Jika berdasar pada pendapat tersebut, maka dapat
dijelaskan bahwa dengan diketahuinya nilai fungsi informasi sebesar 10, maka
penskoran parsial dan penskoran holistik dapat dijelaskan bahwa untuk instrumen
parsial. Hal ini terlihat pada kurva karakteristik item untuk penskoran parsial yang
lebih condong pada theta positif (lihat Gambar 65) dibandingkan dengan kurva
karakteristik item pada penskoran holistik (lihat Gambar 68). Hal ini juga
368
parsial lebih memiliki informasi yang tinggi dan SEM yang lebih rendah
Pada sub-bab sebelumnya telah diuraikan hasil penelitian ini secara detil.
Untuk memaknai hasil penelitian tersebut, maka pada sub-bab ini dilakukan
pembahasan hasil penelitian. Pembahasan hasil penelitian ini juga mengacu pada
penskoran parsial dan holistik, validitas dan reliabilitas dari model penilaian PPG
dengan penskoran parsial dan holistik, instrumen model penilaian PPG dengan
penskoran parsial dan holistik, serta hasil penskoran parsial dan holistik dalam
yang telah dikembangkan pada model penilaian PPG. Ketiga instrumen tersebut
pembelajaran (PIPKC) diukur oleh enam item. Item tesebut terdiri atas:
369
kelengkapan penulisan identitas RPP, kelengkapan penilisan KI, kesesesuaian dan
kerja yang dapat diukur dan/atau diamati, kesesuaian dan kejelasan rumusan
Condition, Degree).
Hasil penelitian ini relevan dengan pendapat Archer & Hughes (2011)
bahwa secara eksplisit guru perlu memiliki kemampuan memilih materi belajar
menunjukkan bahwa salah satu kemampuan yang harus dimiliki oleh guru adalah
pembelajaran yang dilakukan oleh guru, maka perlu mengukur kemampuan guru
(PMMMS) diukur oleh enam item. Item tersebut terdiri atas: kesesuaian dan
yang diajarkan, kesesuaian media dan sumber belajar dengan tujuan pembelajaran,
370
materi, kondisi kelas dan ketepatan pemilihan spesifikasinya, serta kelayakan
dengan peserta didik lainnya. Kedua dimensi ini memiliki keterkaitan satu sama
metode, media dan sumber belajar. Guru yang ideal adalah mereka yang mampu
(PPPEP) diukur oleh enam item. Item tersebut terdiri atas: kelengkapan dan
371
kejelasan langkah-langkah kegiatan pembelajaran, kejelasan skenario
remedial.
tanggung jawab guru dalam penilaian peserta didik yaitu: 1) terampil dalam
penilaian, 7) terampil dalam mengenali metode penilaian yang tidak pantas, tidak
penilaian yang tepat tentu akan melahirkan hasil, informasi dan keputusan yang
tepat pula. Jika sejak awal pengorganiasasian penilaian sudah keliru, maka
keputusan terkait hasil penilaian yang dilakukan oleh guru juga suda pasti akan
372
keliru. Hal tersebut mendasari pentingnya pengorganisasian penilaian dan evaluasi
prinsip techno pedagogical content knowledge (PTPCK) diukur oleh tujuh item.
content knowledge.
Hasil penelitian ini relevan dengan pandangan Widiawati & Hayati (2015);
Kemenristekdikti (2017b: 9) bahwa salah satu prinsip yang harus dipenuhi dalam
TPACK, ketika memilih dan menetapkan strategi, pendekatan ataupun model dan
373
belajar dengan melakukan, keaktifan, berpikir tingkat tinggi, dampak pengiring,
peranan yang sangat penting sehingga hal tersebut harus dituangkan dalam
empirik dalam hasil penelitian ini, maupun secara teoretik atau konsep yang telah
ukur yang digunakan antara lain: perumusan indikator pencapaian kompetensi dan
knowledge (PTPCK).
374
telah diperoleh instrumen penilaian pelaksanaan pembelajaran yang diukur oleh
pengembangan potensi diri dan karakter peserta didik (MPDK), serta menilai dan
oleh empat item. Item tersebut antara lain: menyiapkan peserta didik secara fisik
pembelajaran yang mencerdaskan (MPMC) diukur oleh tujuh item. Item tersebut
Menggunakan alat/bahan, media dan TIK secara efektif dan efisien, serta
(2011) bahwa salah satu kemampuan yang harus dimiliki oleh guru ialah
didik. Temuan tersebut juga didukung oleh Orazbayeva (2016) bahwa guru harus
375
memiliki technology skill yaitu memiliki keterampilan dalam menggunakan
pendidikan saat ini, serta mampu mengidentifikasi dan memilih yang paling
sesuai dengan materi yang diajarkan dan mampu memaksimalkan dengan waktu
pembelajaran yang ada. Hal ini menunjukkan bahwa menjadi seorang guru yang
karakter peserta didik (MPDK) yang diukur oleh empat item. Item tersebut antara
lain: menunjukkan sikap terbuka dan respon terhadap peserta didik, menunjukkan
hubungan yang kondusif dan kerjasama antar peserta didik, menggunakan bahasa
yang santun, serta menyampaikan pesan dengan gaya (gesture) yang sesuai.
Temuan tersebut didukung oleh Robinson & Campbell (2010); Yasin (2011); Nur,
profesi guru dengan profesi lainnya yaitu fokus pada penguasaan terhadap teori
belajar mutlak ada pada guru. Artinya untuk menjadi seorang guru yang memiliki
376
dinafikkan lagi bahwa salah satu komponen penting dalam pelaksanaan
dengan lima item. Item tersebut antara lain: memantau kemajuan belajar peserta
didik selama proses pembelajaran, melakukan penilaian proses dan hasil sesuai
Temuan tersebut didukung oleh Archer & Hughes (2011) bahwa secara
peserta didik dalam kegiatan penilaian untuk membantu mereka menjadi sadar
selanjutnya.
empirik dalam hasil penelitian ini, maupun secara teoretik atau konsep yang telah
377
ukur yang digunakan antara lain: melaksanakan pembelajaran yang mendidik
hasil penelitian ini, secara empirik telah diperoleh instrumen penilaian kompetensi
sosial dan kompetensi kepribadian yang diukur oleh empat indikator antara lain:
bekerjasama dan memiliki jiwa kepemimpinan (BMJK) diukur oleh lima item.
berpartisipasi aktif, menunjukkan sikap dapat mengatur dan mau diatur orang lain,
guru dan lingkungan atau kepentingan umum, orang-orang yang di sekolah atau
memiliki nilai, perilaku dan etika. Ini berarti bahwa guru seharusnya memiliki
jiwa kepemimpinan yang berlandaskan pada nilai, perilaku dan etika. Hal tersebut
mendasari bahwa salah satu indikator penting dalam penilaian kompetensi sosial
378
kepribadian guru adalah kerjasama dan jiwa kepemimpinan yang telah
Indikator bersikap inklusif, toleran dan peduli (BITP) diukur oleh lima
menunjukkan sikap empati terhadap sesama, menunjukkan sikap adil dan objektif,
menolong. Indikator ini menitik beratkan pada inklusif, toleran dan kepedulian
guru. Temuan penelitian ini sejalan dengan temuan Piri et.al., (2016) bahwa
kinerja peserta didik. Jika guru ramah, perhatian, baik, teliti, terbuka, dan tidak
mudah emosi dapat meningkatkan kinerja belajar peserta didik. Dengan demikian
penting untuk dinilai pada penguasaan kompetensi lulusan PPG. Adanya penilaian
pada kompetensi ini akan mampu membekali mereka memiliki kemampuan yang
berhubungan dengan sikap dan kepribadian yang harus dimiliki sebagai calon
guru.
diukur oleh lima item. Item tersebut antara lain: menunjukkan sikap santun dalam
serta menunjukkan sikap ramah dalam pergaulan. Temuan penelitian ini didukung
379
Education Development Target Program for 2011-2015 disebutkan
sebagai prioritas dari pendidikan guru yang profesional (Olesova & Borisova,
2016). Hal serupa didukung oleh Cooper & Sawaf (1998: 227) bahwa
bahwa guru yang ideal adalah mereka yang memiliki kemampuan berkomunikasi
dengan baik.
(BSMKD) diukur oleh lima item. Item tersebut antara lain: menunjukkan
et.al., (2016) bahwa dalam melaksanakan tugasnya guru harus menjunjung nilai,
perilaku dan etika yang baik. Hal ini berarti bahwa perilaku, etika dan
dituangkan dalam bentuk buku pedoman penilaian. Buku panduan penilaian ini
380
memuat 5 bab dan 1 set lampiran. Bab I membahas tentang pendahuluan. Pada
hukum PPG, tujuan dan manfaat PPG, ruang lingkup penilaian PPG, dan sasaran
bagian ini diuraikan tentang konsep penilaian, prinsip penilaian, acuan penilaian,
dan teknik penilaian yang digunakan. Pembahasan konsep ini dimaksudkan untuk
sasaran pengguna, maka pada bagian ini diuraikan tentang lingkup penilaian,
teknik penilaian, bentuk penilaian, dan kelulusan peserta. Bab ini yang menjadi
pedoman bagaimana menerapkan model ini di lapangan dari proses hingga akhir.
sala satu bagian yang paling penting dalam sebuah pelaksanaan penilaian, karena
disajikan tentang penskoran parsial. Selain itu, di bab ini juga disajikan tentang
381
Bagian terakhir adalah Bab V. Pada bagian ini diuraikan pernyataan secara
umum tentang penilaian PPG, serta saran pengembang model terhadap sasaran
ini. Selain itu, untuk memudahkan pengguna memahami model penilaian yang
dapat dipelajari dan digunakan oleh pengguna. Secara umum inti dari buku
Secara keseluruhan model ini telah diberikan kepada expert untuk dinilai
relevansi dan kelayakannya. Expert atau ahli yang dilibatkan untuk menilai model
ini secara keseluruhan sebanyak 7 orang yang telah dipilih secara purposive
382
Gambar 97. Hasil Penilaian Buku Panduan Model Penilaian PPG
Keterangan:
Indikator 1 : Ketepatan pendahuluan
Indikator 2 : Relevansi sistem penilaian program PPG
Indikator 3 : Kejelasan mekanisme penilaian program PPG
Indikator 4 : Ketepatan penskoran dan interpretasi
Indikator 5 : Kejelasan hasil penilaian program PPG
Indikator 6 : Pendukung penyajian
Indikator 7 : Akurasi dan kemutakhiran
bahwa buku panduan yang telah dikembangkan sebagai bagian yang tidak
terpisahkan dari model penilaian PPG yang telah dikembangkan telah memenuhi
unsur relevansi dan kelayakan. Hal ini dapat dilihat dari rata-rata penilaian pakar
berada pada skor 4 ke atas. Temuan empirik tersebut menjadi dasar untuk
menyatakan bahwa model penilaian PPG yang telah dikembangkan baik dari
aspek instrumen, maupun dari aspek buku panduan telah layak digunakan dan
383
Berdasarkan pembahasan penelitian terkait dengan konstruk model
penilaian PPG, maka dapat dijelaskan bahwa baik secara empirik maupun secara
teoretik pada penelitian ini dapat mendukung asumsi pengembangan yang telah
dirumuskan sebelumnya yakni jika teori yang relevan digunakan untuk membuat
konstruk, indikator yang dinilai dapat diukur dan diamati, maka model penilaian
PPG dengan penskoran parsial dan holistik yang dikembangkan telah memiliki
Salah satu hal yang menjadi kajian dalam pengembangan model penilaian
PPG pada penelitian ini adalah validitas dan reliabilitas dari model penilaian PPG.
Validitas yang dimaksud adalah validitas isi yang diperoleh dari penilaian ahli
melalui perhitungan Aiken Index serta validtas konstruk melalui analisis faktor
Temuan penelitian ini menunjukkan bahwa ditinjau dari aspek validitas isi
kepribadian telah valid secara isi berdasarkan penilaian oleh ahli/pakar. Hal ini
menunjukkan bahwa seluruh item yang adalah dalam instrumen pada model
penilaian PPG telah mengukur kontennya atau item-item tersebut telah mengukur
keahliannya.
384
Validitas isi secara teoretis, menunjukkan ketepatan sampling butir dapat
mengukur isi (content) pengujiannya, mengukur derajat kesepakatan para ahli dari
satu item yang dapat menggambarkan tingkat validitas isi melalui (Lawshe, 1975).
Artinya, jika item memenuhi validitas isi, maka item tersebut dapat dikatakan
sudah mengukur aspek isi substansi secara tepat. Hal serupa dijelaskan oleh
mewakili komponen-komponen dalam kawasan isi objek yang hendak diukur dan
sejauh mana butir-butir itu mencerminkan ciri perilaku yang hendak diukur.
maka dapat disimpulkan bahwa instrumen pada model penilaian PPG telah
dan kompetensi kepribadian. Selain itu juga dapat dijelaskan bahwa insrumen
pada model penilaian PPG telah mencerminkan perilaku guru yang hendak diukur.
Aspek selanjutnya yang menjadi unit analisis pada penelitian ini adalah
Hasil penelitian ini menunjukkan bahwa seluruh item-item dalam instrumen yang
385
Retnawati (2017) mengemukakan bahwa validitas konstruk menunjukkan sejauh
yang hendak diukur. Jika pandangan tersebut dikaitkan dengan temuan penelitian
ini maka dapat dijelaskan bahwa instrumen model penilaian PPG yang telah
Temuan penelitian ini juga didukung oleh pendapat Furr & Bacharach
(2013: 221) mengemukakan bahwa validitas konstruk mengacu pada sejauh mana
jika suatu instrumen telah terbukti valid secara konstruk, maka instrumen tersebut
telah mencerminkan konstruk psikologi yang ingin diukur. Pada kaitannya dengan
penelitian ini, maka instrumen pada model PPG sudah mampu mencerminkan
kemampuan guru atau peserta PPG yang hendak diukur seperti kemampuan
Aspek lain yang menjadi unit analisis pada model penilaian PPG adalah
bahwa seluruh instrumen yang telah dikembangkan pada penelitian ini (instrumen
ini didukung oleh pendapat Ziegler and Detje (2013) menjelaskan bahwa
386
sebagai pengukuran yang reliabel. Reliabilitas sendiri mempunyai nama lain
Hal serupa didukung oleh Mehrens & Lehmann (1973) dan Retnawati
(2017) bahwa alat ukur yang reliabel akan memberikan hasil pengukuran yang
stabil dan konsisten. Artinya suatu alat ukur dikatakan memiliki koefisien
reliabilitas tinggi manakala digunakan digunakan untuk mengukur hal yang sama
pada waktu berbeda dan hasilnya sama atau mendekati sama. Berdasarkan temuan
penelitian ini dapat dijelaskan bahwa koefisien reliabilitas untuk semua instrumen
berada pada rentang sekitar 0,93 hingga 0,97. Hal tersebut menjadi bukti bahwa
demikian pula sebaliknya. Jika pendapat tersebut dikaitkan dengan hasil penelitian
ini yang menunjukkan koefisien reliabilitas untuk semua instrumen berada pada
rentang sekitar 0,93 hingga 0,97, maka dapat disimpulkan bahwa reliabilitas
pun sangat kecil. Ini menunjukkan suatu hal yang positif dalam hal
pengembangan instrumen serta hal ini salah satu yang mendasari peneliti untuk
387
menyimpulkan bahwa instrumen telah baku dan layak digunakan lebih lanjut
jika model penilaian PPG dengan penskoran parsial dan holistik yang
Holistik
PPG berdasarkan pada dua teknik penskoran. Kedua teknik penskoran tersebut
yang dimaksud adalah instrumen dengan penskoran parsial dan instrumen dengan
388
tersebut yaitu tingkat kesukaran dan fungsi informasi. Selain itu pembahasan juga
kesukaran yang bervariasi disetiap item dan disetiap kategori. Pada instrumen
berada pada skala kemampuan -2,06 (kategori 1 pada item 2) sedangkan kategori
yang paling sulit berada pada skala kemampuan 3,0 (kategori 4 pada item 15). Hal
ini menunjukkan bahwa tingkat kesukaran pada instrumen penilaian RPP ini
untuk penskoran parsial menunjukkan bahwa terdapat empat kategori atau empat
bahwa kategori yang paling mudah berada pada skala kemampuan -1,52 (kategori
1 pada item 8) sedangkan kategori yang paling sulit berada pada skala
kemampuan 3,1 (kategori 4 pada item 8). Hal ini menunjukkan bahwa tingkat
389
empat kategori atau empat perpotongan yang merupakan tingkat kesukaran.
Temuan penelitian menunjukkan bahwa kategori yang paling mudah berada pada
skala kemampuan -1,78 (kategori 1 pada item 6) sedangkan kategori yang paling
sulit berada pada skala kemampuan 2,65 (kategori 4 pada item 20). Hal ini
sosial dan kompetensi kepribadian ini bergerak pada rentang kemampuan tersebut.
item dalam parsial kredit model ditafsirkan sebagai kesulitan di setiap langkah-
langkah yang harus diselesaikan. Semakin tinggi langkah tersebut, maka semakin
sulit pula langkah tersebut atau semakin besar kemampuan yang diperlukan untuk
mencapainya. Hasil penelitian ini juga terkait dengan pandangan Masters and
Wright (1997) bahwa penskoran parsial kredit model didesain untuk memahami
berdasarkan tingkat respon mereka terhadap item. Artinya melalui parsial kredit
model yang digunakan dalam instrumen model penilaian PPG ini, penilai dapat
penelitian ini terdapat empat kategori, maka dapat dijelaskan bahwa terdapat
empat langkah dalam setiap item tersebut untuk mencapai skor tertinggi. Lebih
lanjut, Retnawati (2014) menjelaskan bahwa skor kategori yang lebih tinggi
390
membutuhkan kemampuan yang lebih besar untuk mencapainya, begitu pula
yang rendah pula untuk mencapainya. Jika sebuah butir mengikuti pola parsial
kredit model, maka kemampuan individu lebih tinggi diharapkan memiliki skor
temuan sebelumnya, maka dapat dijelaskan bahwa instrumen penilaian PPG yang
diskor dengan parsial telah dapat kita gunakan untuk mengukur kemampuan
ingin mencapai tahapan tinggi atau kategori tinggi dalam sebuah item tentu
tingkat kesulitan disetiap kategori pada setiap item untuk semua instrumen dalam
penilaian PPG.
temuan bahwa peskoran terdapat tiga tingkat kesukaran item bervasiasi di setiap
item dengan -3,9 sebagai tingkat kesukaran langkah yang termudah serta 1,01
391
untuk tahapan yang paling sulit. Selain itu pada instrumen penilaian pelaksanaan
sebagai tingkat kesukaran tahapan yang termudah hingga 0,76 sebagai tinggkat
sebagai tahapan yang termudah hingga 0,75 pada tahapan yang tersulit.
dikemukakan oleh Retnawati (2014) bahwa pada graded response model skor
kategori yang merupakan banyaknya langkah atau tahapan yang diminta oleh item
Artinya jika pandangan ini dikaitkan dengan temuan penelitian ini, maka dapat
dijelaskan bahwa pada instrumen model penilaian PPG yang telah dikembangkan
mulai dari -3,9 hingga 1,01. Pada dasarnya temuan penelitian ini menunjukkan
bahwa instrumen model penilaian PPG dengan penskoran holistik lebih cocok
Kubiszyn & Borich (2003: 154) bahwa penskoran holistik digunakan ketika
penilai lebih tertarik dalam memperkirakan kualitas keseluruhan dari kinerja dan
atau pengurangan poin atas aspek kinerja tertentu. Instrumen penilaian PPG
dengan penskoran holistik yang telah dikembangkan ini akan digunakan untuk
memperkirakan kualitas kinerja peserta PPG yang ditinjau dari aspek kualitas
392
perencanaan pembelajarannya, kualitas pelaksanaan pembelajarannya hingga
merupakan rubrik yang menerapkan semua kriteria pada waktu yang sama dan
kesan keseluruhan atau kombinasi semua kriteria dari aspek atau objek yang
dinilai. Pandangan tersebut sangat relevan dengan hasil penelitian ini, dimana
salah satu fokus utama pada instrumen holistik ini adalah kualitas rubrik
penilaian. Rubrik penilaian merupakan hal yang sangat penting dalam instrumen
konsisiten jika ditunjang dengan rubrik penilaian yang berkualitas yang mampu
Plot). Temuan tersebut sesuai dengan pernyataan Retnawati (2014: 1) bahwa pada
praktiknya asumsi unidimensi tidak dapat dipenuhi secara ketat karena adanya
393
ditunjukkan hanya jika instrumen mengandung satu saja komponen dominan yang
penelitian ini maka model penilaian PPG yang telah dikembangkan melalui
penelitian ini telah memenuhi asumsi unidimensi yang dapat diartikan setiap item
independensi lokal. Independensi lokal terpenuhi jika respon peserta pada suatu
item tidak mempengaruhi respon peserta pada item lainnya. Hanya saja jika
lokal dapat terdeksi jika asumsi unidimensi terpenuhi. Oleh karena itu dapat
penelitian ini juga menunjukkan hasil terkait daya beda. Pada instrumen penilaian
kompetensi kepribadian diperoleh temuan daya beda setiap item untuk semua
penilai menunjukkan hasil yang positif. Artinya baik instrumen yang dinilai oleh
dosen maupun instrumen yang dinilai oleh guru pamong/penguji UKIN semuanya
menunjukkan koefisien daya beda yang positif. Hal tersebut dapat di lihat pada
394
Gambar 98. Sebaran Daya Beda Item Instrumen Penilaian RPP
hasil penelitian pada instrumen RPP. Pada dasarnya hal ini menunjukkan
konsistensi dan invariansi intrumen penilaian RPP. Artinya karateristik item tidak
bergantung pada siapa yang meresponnya. Pada kasus ini karakteristik item tidak
menunjukkan perbedaan meskipun direspon oleh orang yang berbeda yaitu dosen
dan guru penilai ukin. Selain itu, temuan penelitian ini menunjukkan bahwa pada
penilaian RPP yang dikembangkan telah memiliki daya beda yang positif yang
terletak antara 0,8 hingga 1,4. Secara konseptual Retnawati (2014) menjelaskan
bahwa parameter daya beda merupakan kemiringan (slope) pada kurva di titik
didukung oleh Hambleton dan Swaminathan (1985: 37) yang menjelaskan bahwa
daya beda item yang baik terletak antara 0 s/d 2. Oleh karena itu, dapat
395
Hal lain yang dapat dijelaskan bahwa pada Gambar 82 tersebut terlihat
daya beda instrumen untuk data yang dinilai oleh dosen dan data yang dinilai oleh
penilai baik untuk dosen maupun untuk guru pamong/penguji UKIN. Selain
instrumen penilaian RPP, hal serupa juga dilakukan pada instrumen penilaian
pada siapa yang meresponnya. Pada kasus ini karakteristik item tidak
menunjukkan perbedaan meskipun direspon oleh orang yang berbeda yaitu dosen
dan guru penilai ukin. Selain itu, pada instrumen penilaian pelaksanaan
pembelajaran juga tidak menunjukkan kofisien daya beda yang positif dan terletak
antara 1,2 hingga 1,9. Temuan penelitian ini didukung oleh Hambleton,
396
Swaminathan dan Rogers, (1991: 37) bahwa koofisien daya beda (a i) yang negatif
sebaliknya bahwa koefisien daya beda (ai) yang positif menunjukkan bahwa butir
tersebut memiliki daya beda baik. Hal tersebut sebagai dasar untuk menjelaskan
bahwa seluruh item yang ada pada instrumen penilaian pelaksanaan pembelajaran
telah memiliki daya beda yang baik. Selain itu temuan penelitian ini menunjukkan
daya beda yang cenderung sama baik untuk penilai dosen maupun untuk penilai
guru pamong/penguji UKIN. Hal ini berarti bahwa adanya konsistensi antar
penilai baik oleh dosen maupun oleh guru pamong/penguji UKIN pada instrumen
sebagai berikut.
397
sosial dan kepribadian. Artinya karateristik item tidak bergantung pada siapa yang
meskipun direspon oleh orang yang berbeda yaitu dosen dan guru penilai ukin.
Lebih lanjut temuan ini menunjukkan bahwa seluruh koefisien daya beda adalah
positif yang terletak antara 1,1 hingga 1,7. Temuan ini didukung oleh Hambleton,
Swaminathan dan Rogers, (1991: 37) bahwa koefisien daya beda yang terlalu
tinggi juga tidak dapat dijadikan tolok ukur untuk membedakan kemampuan
peserta. Koefisien daya beda yang baik atau ideal berkisar 0 s/d 2.
Jika temuan penelitian ini khususnya pada instrumen model penilaian PPG
dikaitkan dengan konsep secara teoretik maka dapat dijelaskan bahwa instrumen
model penilaian PPG telah memiliki daya beda yang baik. Hal ini dibuktikan
melalui koefisien daya beda item yang telah menunjukkan hasil positif. Hal ini
juga bermakna bahwa instrumen model penilaian PPG ini telah layak digunakan
mudah berada pada skala kemampuan -2,06 sedangkan kategori yang paling sulit
berada pada skala kemampuan 3,1. Jika temuan tersebut dikaitkan dengan
pendapat Retnawati (2014: 38) bahwa skor kategori pada parsial model
398
menunjukkan banykanya langkah untuk menyelesaikan/melaksanakan item
tersebut. Skor kategori yang lebih tinggi menunjukkan kemampuan yang lebih
besar dari skor kategori yang lebih rendah. Oleh karena itu berdasarkan temuan
karakteristik yang berbasis graded model terdapat tiga kategori tingkat kesukaran
item bervariasi di setiap item dengan -3,9 sebagai tingkat kesukaran atau langkah
yang termudah serta 1,01 untuk tahapan yang paling sulit. Menurut Retnawati
(2014: 34) bahwa respon peserta pada model graded merupakan banyaknya
langkah dalam menyelesaikan item dan langkah tersebut juga harus terurut. Jika
pandangan tersebut dikaitkan dengan temuan empirik penelitian ini maka dapat
melalui tiga kategori yang terurut dimulai dari kesukaran -3,9 sebagai langkah
399
Gambar 101. Fungsi Informasi Instrumen Model Penilaian PPG
penelitian ini dapat disimpulkan bahwa fungsi informasi instrumen penilaian PPG
400
Gambar 102 merupakan Standard Error of Measurement instrumen
model penilaian PPG yang memiliki keterkaitan dengan temuan sebelumnya. Hal
(2014) bahwa fungsi informasi merupakan cara untuk menjelaskan kekuatan suatu
perangkat instrumen dalam mengungkap laten trait yang ingin diukur. Hal ini
bermakna bahwa jika ditinjau dari temuan fungsi informasi dapat disimpulkan
yang lebih tinggi dalam mengungkap laten trait yang ingin diukur yaitu
kemampuan peserta PPG. Aspek lain yang memiliki keterkaitan dan menjadi
fungsi informasi, maka semakin kecil nilai kesalahan pengukuran begitu pula
sebaliknya. Pandangan ini sejalan dengan temuan penelitian ini dimana nilai
informas yang paling tinggi yaitu instrumen penilaian PPG dengan penskoran
parsial, serta kesalahan pengukuran yang terkecil juga pada instrumen penilaian
401
dibandingkan pada penelitian ini adalah aspek nilai fungsi informasi dan nilai
informasi yang diproleh dari penyajian tersebut dapat dikemukakan bahwa secara
umum jika ditinjau dari aspek nilai fungsi informasi penilaian dengan penskoran
parsial lebih akurat dibandingkan dengan penskoran holistik. Hal tersebut didasari
atas temuan baik pada intrumen penilaian RPP, instrumen penilaian perencanaan
402
penskoran parsial lebih akurat dibandingkan dengan penskoran holistik untuk
kasus penilaian peserta PPG yang dalam hal ini terdiri atas penilaian RPP,
Salah satu hal yang menjadi temuan pada pelaksanaan penelitian ini adalah
hasil penilaian dengan model penilaian PPG yang telah dikembangkan dengan
penskoran parsial dan holistik. Hal tersebut dilakukan untuk memperoleh hasil
instrumen model penilaian PPG yang telah dikembangkan pada penelitian ini.
PPG pada hasil penilaian RPP dengan menggunakan penskoran parsial didominasi
Kemampuan peserta PPG pada hasil penilaian kompetensi sosial dan kompetensi
403
kepribadian dengan menggunakan penskoran holistik didominasi pada
bahwa pada item response theory salah satu tujuan pengukuran adalah
tersebut penilai dapat mengetahui seberapa besar kemampuan peserta yang sedang
dinilai. Selain itu, penilai juga dapat membandingkan kemampuan antara peserta
satu dengan peserta lainnya dalam penentuan nilai berdasarkan skala kemampuan
tersebut (θ). Hal ini bermakna bahwa jika model penilaian PPG yang telah
kemampuan yang ideal adalah minimal 1 atau lebih, maka dapat disimpulkan
bahwa pada instrumen penilaian PPG untuk penskoran parsial kemampuan peserta
menunjukkan hasil yang baik. Namun hal berbeda ditemukan pada penskoran
holistik yang menunjukkan bahwa kemampuan peserta PPG masih rendah jika
404
menerapkan penilaan perencanaan pembelajaran, maka diperoleh parameter
kemampuan (θ). Berikut ini disajikan profil kemampuan peserta PPG berdasarkan
Gambar 103. Profil Kemampuan Menyusun RPP untuk Peserta LPTK UNY
menyusun RPP untuk peserta di LPTK UNY. Peserta di LPTK UNY berjumlah
158 peserta yang menjadi subjek uji coba II pada kelompok PPG Dalam Jabatan
tahap 1 tahun 2019 dengan Program Studi PGSD, Pendidikan Matematika, dan
405
Gambar 104. Profil Kemampuan Menyusun RPP untuk Peserta LPTK UNG
Peserta PPG yang menjadi subjek uji coba di LPTK UNG berjumlah 119
peserta yang menjadi subjek uji coba II pada Kelompok PPG Dalam Jabatan tahap
I tahun 2019 dengan Prodi PGSD, Bahasa Inggris, dan PJKR. Temuan yang
Data kemampuan peserta PPG selanjutnya diperoleh dari lokasi ketiga yang
406
Gambar 105. Profil Kemampuan Menyusun RPP untuk Peserta LPTK UINAM
Peserta PPG yang menjadi subjek uji coba II di LPTK UINAM berjumlah
239 orang pada kelompok PPG Dalam Jabatan Bersubsidi tahun 2018/2019
Akhlak, Bahasa Arab, Sejarah Kebudayaan Islam dan Guru Kelas Madrasah
lokasi menunjukkan bahwa kemampuan peserta PPG cenderung lebih tinggi pada
kemampuan ini juga diperoleh nilai parameter kemampuan atau theta serta
dilaksanakan pada tiga lokasi yang berbeda. Berikut ini disajikan profil
407
Gambar 106. Profil Kemampuan Pelaksanaan Pembelajaran Peserta LPTK UNY
pada kemampuan sekitar 2 hingga 3. Hal lain diperoleh pada instrumen penilaian
408
Profil kemampuan peserta PPG dalam pelaksanaan pembelajaran yang
diperoleh di LPTK UNG menunjukkan hal yang tidak jauh berbeda dengan
PPG pada penilaian dengan penskoran parsial lebih tinggi dibandingkan dengan
pada nilai 1 hingga 3 pada penilaian dengan penskoran parsial. Selain itu, nilai
409
dengan penskoran holistik. Inin menunjukkan kecenderungan tingginya
diperoleh berdasarkan instrumen parsial dan instrumen holistik. Selain itu, data ini
juga diterapkan di tiga lokasi yaitu LPTK UNY, LPTK UNG dan LPTK UINAM.
Berikut ini disajikan hasil yang diperoleh terkait penguasaan kompetensi sosial
Gambar 109. Profil Kompetensi Sosial Kepribadian untuk Peserta LPTK UNY
kepribadian peserta PPG di LPTK UNY yang berjumlah 158 peserta. Berdasarkan
oleh kemampuan sekitar 0 dan 1. Data selanjutnya diperoleh dari lokasi kedua
410
yaitu penilaian penguasaan kompetensi sosial dan kompetensi kepribadian peserta
Gambar 110. Profil Kompetensi Sosial Kepribadian untuk Peserta LPTK UNG
kepribadian peserta PPG di LPTK UNG yang berjumlah 119 peserta. Hasil
diperoleh dari lokasi ketiga yaitu penilaian penguasaan kompetensi sosial dan
sebagai berikut.
411
Gambar 111. Profil Kompetensi Sosial Kepribadian untuk Peserta LPTK UINAM
kompetensi kepribadian peserta PPG LPTK UINAM yang berjumlah 239 peserta.
diantara -1, 0 dan 1 atau didominasi pada kemampuan 0 hingga 1. Seperti halnya
pada penguasaan kompetensi sosial dan kompetensi kepribadian dari peserta PPG
412
menggunakan instrumen penilaian penskoran parsial yang menggunakan 5
Wasis (2011) bahwa semakin banyak jumlah kategori dalam penskoran partial
credit, semakin akurat estimasi kemampuan yang dihasilkan. Pandangan ini telah
dibuktikan oleh hasil penelitian empiris maupun simulasi. Jika kategori digunakan
lebih banyak, maka dihasilkan fungsi informasi tes yang lebih tinggi dan
kesalahan baku estimasi yang lebih kecil. Semakin banyak kategori yang
digunakan, semakin kecil simpangan baku yang diperoleh. Fungsi informasi tes
semakin tinggi, kesalahan baku estimasi semakin kecil, dan RMSE semakin kecil
Hal tersebut juga didukung oleh Bond & Fox (2007: 221) bahwa
tumpang tindih atau saling meniadakan. Pendapat Bond & Fox (2007: 221)
tersebut relevan dengan hasil penelitian ini yang menemukan bahwa penskoran
penskoran.
413
penskoran tersebut dapat meningkatkan akurasi pengukuran capaian kompetensi
peserta PPG yaitu kompetensi pedagogik, kompetensi sosial dan kepribadian yang
dikuasai peserta PPG. Selain itu, dibuktikan dengan adanya keakuratan kedua
penskoran tersebut yang diukur dan fungsi informasi tes dan kesalahan baku
estimasi. Hal ini sejalan dengan pendapat dinyatakan Baker (2001: 105) jika dapat
teliti. Hal ini menjadi cukup penting untuk bagi pengembang instrumen atau tes,
tergantung dimana kemampuan peserta tes berada pada skala kemampuan. Oleh
merentang sebagai suatu kontinum, mulai dari yang mudah hingga sulit. Bila
dan kompetensi kepribadian, maka penguasaanya akan berada pada satu posisi
diantara seluruh posisi yang ada dalam kontinum itu. Posisi kemampuan peserta
terbatas hanya pada posisi kemampuan terendah atau tertinggi. Oleh karena itu,
kemampuan seorang peserta PPG berada diantara batas terendah dan tertinggi
414
Pertimbangan pemilihan penskoran parsial maupun penskoran holistik
bahwa setiap peserta PPG memiliki tingkat kesukaran yang tidak selalu sama
respons peserta PPG diskor dengan penskoran parsial maupun penskoran holistik,
maka skor yang diberikan harus memperhatikan tingkat kesukaran dari setiap
memiliki serangkaian tahapan dan skor seharusnya diberikan pada setiap tahapan
tersebut, sehingga jika kemampuan peserta PPG diukur dengan penskoran parsial
respons peserta PPG bersifat partial corret, benar dilangkah tertentu, tetapi salah
di langkah lain. Untuk respons semacam ini, penskoran parsial merupakan pilihan
dengan dua parameter, yaitu kemampuan dan tingkat kesukaran item serta tidak
415
mensyaratkan threshold yang semakin besar dari suatu kategori ke kategori
berikutnya.
parsial dan holistik dalam penelitian ini dipengaruhi oleh beberapa faktor, antara
lain: 1) Semua item yang terdapat pada instrumen penilaian rencana pelaksanaan
item yang ada pada instrumen penilaian kompetensi sosial dan kepribadian
melalui uji valitiditas isi oleh 7 expert judgment, 5) peserta PPG yang menjadi
subjek uji coba sungguh-sungguh dalam melaksanakan tahapan PPG mulai dari
workshop, PPL dan praktik UKIN karena melihatkan dosen dan guru
416
informasi yang tinggi, sehingga instrumen penilaian yang dikembangkan dapat
penskoran parsial dan holistik ini, jika diterapkan dalam penilaian PPG akan
digunakan sebagai bahan evaluasi dalam melakukan perbaikan atau tindak lanjut
Holistik
penelitian ini peneliti juga menilai kepraktisan model penilaian PPG yang telah
pamong/penguji UKIN) yang telah menggunakan model penilaian PPG ini pada
sebanyak 35 orang dengan rincian dosen penilai pada LPTK UNY sebanyak 12
orang, LPTK UNG sebanyak 10 orang dan LPTKI UINAM sebanyak 13 orang.
rincian guru pamong/penguji UKIN pada LPTK UNY sebanyak 12 orang, LPTK
417
UNG sebanyak 11 orang dan LPTKI UINAM sebanyak 13 orang. Untuk
adalah pencapaian tujuan model penilaian PPG secara tepat atau keberhasilan
model penilaian PPG dengan penskoran parsial dan holistik yang dikembangkan
model Penilaian PPG ini, maka dilakukan survey terhadap pengguna atau penilai
PPG yang telah menggunakan model penilaian ini. Adapun indikator yang
lapangan, relevansi dengan Program PPG, memberi manfaat pada kegiatan PPG,
418
Gambar 112. Hasil Penilaian Kepraktisan Model Penilaian Oleh Pengguna
Keterangan:
Indikator_1: Mampu dipahami oleh pengguna
Indikator_2: Dapat diterapkan di lapangan
Indikator_3: Relevansi dengan Program PPG
Indikator_4: Memberi manfaat pada peserta PPG
Indikator_5: Efektif dan efisien dalam penggunaannya
Berdasarkan data yang disajikan pada Gambar 112 tersebut, maka dapat
dijelaskan bahwa pada dasarnya kelima indikator yang digunakan berada pada
rentang antara Setuju hingga Sangat Setuju. Hal tersebut menunjukkan bahwa
secara umum pengguna model penilaian PPG dengan penskoran parsial dan
holistik di lapangan dapat memahami dengan baik maksud, tujuan dan isi model
itu, tampak bahwa pengguna merasakan adanya manfaat dari model penilaian
PPG tersebut, memiliki relevansi dengan Program PPG dan relevan terhadap
dipandang efektif karena mudah digunakan dan efisien dari segi waktu dan tenaga
419
untuk diterapkan secara berkesinambungan pada pelaksanaan penilaian Peserta
PPG.
model penilaian PPG dengan penskoran parsial dan holistik yang telah
menyatakan bahwa model penilaian PPG mampu dipahami oleh pengguna, dapat
peserta PPG, efektif dan efisien dalam penggunaannya. Oleh karena itu model ini
penskoran parsial dan holistik masih dirasakan oleh pengguna (Penilai UKIN)
penskoran parsial. Pada dasarnya kendala pada instrumen penskoran parsial yang
disebabklan karena pada penskoran parsial, skor berbasis pada kemunculan setiap
deskriptor yang menjadi aspek amatan oleh pengguna, sehingga pada saat
setiap deskriptor dan menerapkan instrumen parsial tersebut agar dapat terbiasa
420
Kendala selanjutnya dirasakan pengguna pada instrumen model penskoran
holistik. Pada kasus ini, pengguna merasakan kendala pada urutan kriteria yang
menekankan pada urutan kriteria yang dicapai dari objek penilaian (peserta PPG).
Hal tersebut sangat penting, karena kekeliruan dalam mengamati urutan kriteria
tentu akan berdampak pada pemberian skor yang kurang tepat sehingga
ditampakkan oleh objek penilaian (mahasiswa PPG). Namun kembali lagi bahwa
parsial dan holistik ini merupakan hal baru bagi pengguna, maka tentu dibutuhkan
holistik. Oleh karena itu, dibutuhkan sosialisasi produk yang lebih mendalam
421
E. Keterbatasan Penelitian
dari segi perencanaan maupun pada tahap proses pelaksanaan. Namun peneliti
ataupun prosedural tertentu sehingga tidak dapat dicakup di dalam penelitian ini.
Hal yang pertama yang dinyatakan sebagai keterbatasan penelitian ini adalah pada
penelitian ini telah melibatkan tiga lembaga penyelenggara PPG yaitu Universitas
masa yang akan datang, produk penelitian ini juga perlu diterapkan di LPTK
lainnya agar informasi terkait kualitas Model Penilaian PPG yang telah
kompetensi guru yang dipersyaratkan secara utuh dari peserta PPG, karena dalam
performance assesment dari peserta PPG saat praktik mengajar pada kegiatan
422
Rumusan capaian pembelajaran lulusan Program PPG dalam penelitian ini
oleh peserta PPG beserta sub kompetensi dan indikatornya yang tertera dalam
pembelajaran yang harus dikuasai oleh guru sebagai pendidik profesional yang
memesona, yang dilandasi sikap cinta tanah air, berwibawa, tegas, disiplin, penuh
berpikir tingkat tinggi yang harus dimiliki peserta didik mencakup pengetahuan,
keterampilan, dan sikap secara utuh dan berorientasi masa depan. Ketiga,
Pedagogical and Content Knowledge dan pendekatan lain yang relevan. Kelima,
423
sikap (karakter Indonesia) peserta didik dalam memecahkan masalah secara kritis
informasi baru, dan inovasi. Oleh karena itu, dibutuhkan pengembangan model
penilaian PPG lebih lanjut dengan mengacu pada ketujuh rumusan capaian
model Penilaian PPG yang dikembangkan pada penelitian ini telah diterapkan
pada mahasiswa dengan profesi di jenjang SD, SMP, SMA/SMK, MI, MTs, dan
MA. Namun pada penelitian ini tidak dapat menjangkau pada mahasiswa PPG
dengan profesi di jenjang PAUD dan PIAUD. Hal tersebut disebabkan karena
jenjang PAUD dan PIAUD jika dibandingkan dengan mahasiswa dengan profesi
Selain itu, keterbatasan jangkauan juga dinyatakan pada level SMK untuk
Prodi Teknik Elektro. Produk penelitian ini tidak diterapkan pada Prodi Teknik
424
Teknik Elektro yang berbeda dengan prodi lainnya pada Program PPG. Untuk
penambahan komponen penilaian lain (khusus) yang tidak dijelaskan pada produk
yang telah dikembangkan di penelitian ini. Hal ini perlu mendapat perhatian pada
penerapan produk penelitian ini dan pengembangan hasil penelitian ini di masa
ini adalah kendala pengguna atau dalam hal ini guru (penguji ukin) yang
lapangan bahwa model penilaian dengan penskoran parsial dan holistik ini
merupakan hal baru bagi pengguna, maka tentu dibutuhkan pemahaman terlebih
dahulu. Namun jika dibandingkan dengan model penilaian yang ada saat ini,
model penilaian yang telah dikembangkan pada penelitian ini telah memenuhi
aspek kepraktisan berdasarkan penilaian oleh pengguna. Hal ini ditunjukkan dari
PPG, memberi manfaat pada peserta PPG, efektif dan efisien dalam
425
BAB V
yaitu: a) instrumen penilaian RPP yang diukur oleh empat indikator (PIPKC,
holistik akurat dan terpercaya. Hal ini dibuktikan dari konstruk instrumen yang
model penilaian PPG valid. Selain itu, instrumen model penilaian PPG reliabel
426
a. Pada instrumen penilaian PPG (RPP, pelaksanaan pembelajaran dan
paling mudah berada pada skala kemampuan -2,06 sedangkan kategori yang
setiap item dengan -3,9 sebagai tingkat kesukaran langkah yang termudah
c. Instrumen model penilaian PPG baik untuk penskoran parsial maupun untuk
penskoran holistik telah memiliki nilai informasi yang bergerak antara 10,7
hingga 16,3 dengan estimasi kesalahan pengukuran yaitu sekitar 0,24 hingga
0,3.
5. Model penilaian PPG dengan penskoran parsial dan holistik yang telah
427
lapangan, relevansi dengan Program PPG, memberi manfaat pada peserta
instrumen yang telah dikembangkan pada penelitian ini, karena telah teruji baik
secara empirik maupun secara teoretik, serta telah memenuhi beberapa aspek
kelayakan model instrumen penilaian antara lain: valid, reliabel, goodness of fit
2. Model penilaian PPG dengan penskoran parsial dan holistik pada penelitian ini
maupun lembaga lain yang relevan dan memiliki kepentingan serupa untuk
3. Model penilaian PPG dengan penskoran parsial dan holistik dilengkapi dengan
bidang studi. Selain itu, semoga pengguna mudah memahaminya dan mampu
dan detail.
428
4. Hasil penilaian ini dapat digunakan sebagai bahan evaluasi dalam melakukan
perbaikan model penilaian PPG yang ada selama ini dalam menilai penguasaan
pembelajaran.
5. Model penilaian PPG yang telah dikembangkan dengan penskoran parsial dan
sebagai berikut.
1. Produk penelitian ini yaitu model penilaian PPG dengan penskoran parsial dan
jenjang SD, SMP, SMA/SMK, MI, MTs, dan MA. Oleh karena itu, perlu
PAUD dan PIAUD. Hal tersebut dirasa penting karena adanya kompetensi
tertentu yang tuntut khusus untuk mahasiswa/peserta PPG pada Program Studi
429
2. Pengembangan produk lebih lanjut perlu dilakukan pada mahasiswa PPG
dengan profesi di jenjang SMK khususnya pada Program Studi Teknik Elektro.
Hal ini juga penting karena adanya kompetensi tertentu yang tuntut khusus
3. Temuan produk penelitian ini telah disebarkan dan digunakan pada tiga
pengembangan produk lebih lanjut, maka Model Penilaian PPG ini perlu
Sebagai upaya pengembangan produk lebih lanjut, maka model penilaian PPG
merupakan prasyarat mutlak untuk melakukan penilaian PPG yang tidak hanya
430
DAFTAR PUSTAKA
431
knowledge and practice. Australian Journal of Teacher Education
(Online), 41(10), 63-86. doi: 10.14221/ajte.2016v41n10.5
Bainer, D. L., & Porter, F. (1992). Teacher concerns with the implementation of
holistic scoring. Paper presented at the Paper presented at the Annual
Meeting of theMidwestern Educational Research Association Chicago, IL.
Baker, F. B. (2001). The basics of item response theory. ERIC: Clearinghouse on
Assessment and Evaluation.
Baker, F. B., & Kim, S.-H. (2017). The basics of item response theory using R.
Switzerland: Springer International Publishing.
Baswedan, A. R. (2014). Gawat darurat pendidikan di Indonesia. Paper presented
at the The Emergency of Indonesian Education. A paper delivered at the
meeting between Ministry and Head of Education Offices Indonesia-wide
in Jakarta, on December.
Bhakti, C. P., & Maryani, I. (2017). Peran LPTK dalam pengembangan
kompetensi pedagogik calon guru. Jurnal Pendidikan (Teori dan Praktik),
1(2), 98-106. doi: 10.26740/jp.v1n2.p98-106
Biktagirova, G. F., & Valeeva, R. A. (2014). Development of the teachers'
pedagogical reflection. Life Science Journal, 11(9), 60-63.
Bond, T. G., & Fox, C. M. (2007). Applying the Rasch model: Fundamental
measurement in the human sciences . Mahwah, NJ, US. Mahwah, New
Jersey: Lawrence Erlbaum Associates Publishers.
Borg, W. R., & Gall, M. (1989). Education Research: An Introduction (4th
Edition). New York: Longman publisher.
Borich, G. D., & Kubiszyn, T. (2003). Educational testing and measurement:
classroom application and practice. United States of America: John Wiley
& Sons, Inc.
Brennan, R. (2006). Educational measurement . Westport: An Imprint of
Greenwood Publishing Group (Vol. Imprint of Greenwood Publishing
Group. Inc). Westport: Inc.
Brookfield, S. (1984). Adult learners, adult education and the community. New
York: Teaches College Press.
Brookhart, S. M. (2013). How to create and use rubrics for formative assessment
and grading. Alexandria, Vriginia USA: ASCD.
Brookhart, S. M., & Nitko, A. J. (2008). Assessment and grading in classrooms.
Columbus, Ohio: Pearson Merrill Prentice Hall.
Bruce, C. D., Esmonde, I., Ross, J., Dookie, L., & Beatty, R. (2010). The effects
of sustained classroom-embedded teacher professional learning on teacher
efficacy and related student achievement. Teaching and Teacher
Education, 26(8), 1598-1608. doi: 10.1016/j.tate.2010.06.011
432
Büyükkidik, S., & Anil, D. (2015). Investigation of reliability in generalizability
theory with different designs on performance-based assessment. Egitim ve
Bilim, 40(177), 285-296. doi: 10.15390/EB.2015.2454
Caena, F. (2011). Literature review Quality in Teachers’ continuing professional
development. Education and training, 20, 2-20.
Calvert, L. (2016). Moving from compliance to agency: What teachers need to
make professional learning work. Oxford, OH, USA: Learning Forward
and NCTAF.
Chamorro-Premuzic, T., & Furnham, A. (2006). Intellectual competence and the
intelligent personality: A third way in differential psychology. Review of
General Psychology, 10(3), 251-267.
Chamorro-Premuzic, T., & Furnham, A. (2014). Personality and intellectual
competence. New York: Psychology Press.
Chan, S. (2010). Applications of andragogy in multi-disciplined teaching and
learning. Journal of adult education, 39(2), 25-35.
Chen, I.-J., Chang, C.-C., & Yen, J.-C. (2012). Effects of presentation mode on
mobile language learning: A performance efficiency perspective.
Australasian Journal of Educational Technology, 28(1), 122-137.
Cober, R., Tan, E., Slotta, J., So, H.-J., & Könings, K. D. (2015). Teachers as
participatory designers: Two case studies with technology-enhanced
learning environments. Instructional Science, 43(2), 203-228.
Cooper, J. M. (2013). Classroom teaching skills. Wadsworth: Cengage Learning.
Cooper, R. K., & Sawaf, A. (1998). Executive EQ: Emotional intelligence in
leadership and organizations. New York: Perigee Books.
Copriady, J. (2013). The implementation of lesson study programme for
developing professionalism in teaching profession. Asían social science,
9(12), 176.
Cranton, P. (2016). Continuing professional education for teachers and university
and college faculty. New directions for adult and continuing education,
2016(151), 43-52. doi: 10.1002/ace.20194
Creemers, B., Kyriakides, L., & Antoniou, P. (2012). Teacher professional
development for improving quality of teaching. New York: Springer
Science & Business Media.
Crocker, L., & Algina, J. (1986). Introduction to classical and modern test theory.
New York: Holt, Rinehart and Winston, Inc.
Darling-Hammond, L., Hyler, M. E., & Gardner, M. (2017). Effective teacher
professional development. Palo Alto, CA: Learning Policy Institute.
433
de Ayala, R. J. (2009). The theory and practice of item response theory. New
York: Guilford Publications.
DeMars, C. (2010). Item response theory. New York: Oxford University Press.
Departement of Education. (2016). Standard for teachers’ professional
development: Implementation guidance for school leaders, teachers, and
organisations that offer professional development for teachers. London:
The National Archives, Kew.
Dewey, J. (1997). Experience and education. New York: Simon & Schuster Inc.
Dewi, R. P. (2018). Analisis kesalahan penyusunan perangkat pembelajaran
Bahasa Indonesia mahasiswa Program Profesi Guru SM3T tahun 2018.
Paper presented at the Pertemuan Ilmiah Bahasa Dan Sastra Indonesia
(PIBSI) 2018, Yogyakarta.
Disas, E. P. (2017). Analisis kebijakan pendidikan mengenai pengembangan dan
peningkatan profesi guru. Jurnal Penelitian Pendidikan, 17(2), 158-166.
Dogan, C. D., & Uluman, M. (2017). A comparison of rubrics and graded
category rating scales with various methods regarding raters' reliability.
Educational Sciences: Theory and Practice, 17(2), 631-651.
Du Toit, M. (2003). IRT from SSI: Bilog-MG, multilog, parscale, testfact. North
Lincoln Avenue: Scientific Software International.
Dzheksembekova, M. I., Ibrayeva, K. E., Akhmetova, A. K., Urazalieva, M. A.,
Sultangaliyeva, E. S., & Issametova, K. I. (2016). Specific features of
social competence development in the future music teachers working at
universities. International Journal of Environmental and Science
Education, 11(9), 3001-3011. doi: 10.12973/ijese.2016.731a
Ebel, R. L. (1972). Essentials of educational measurement. Englewood Cliffts,
NJ: Prentice Hall Inc.
Embretson, S. E., & Reise, S. P. (2000). Item response theory for psychologists.
Maheah. Mahwah, New Jersey: Lawrence Erlbaum Associates, Publishers.
Fahdini, R., Mulyadi, E., Suhandani, D., & Julia, J. (2014). Identifikasi
kompetensi guru sebagai cerminan profesionalisme tenaga pendidik di
Kabupaten Sumedang. Mimbar Sekolah Dasar, 1(1), 33-42.
Fahmi, M., Maulana, A., & Yusuf, A. A. (2011). Teacher certification in
Indonesia: A confusion of means and ends. Center for Economics and
Development Studies (CEDS) Padjadjaran University, 3(1), 1-18.
Fauzan, F., & Bahrissalim, B. (2017). Curriculum analysis teacher Professional
Education Program (PPG) of Islamic Education in Indonesia. TARBIYA:
Journal of Education in Muslim Society, 4(2), 148-161. doi:
10.15408/tjems.v4i2.6400
434
Fernandes, H. (1984). Evaluation of educational programs. Jakarta: National
Education Planning, Evaluating and Curriculum Development.
French, D. (2017). The future is performance assessment. Voices in Urban
Education, 46, 6-13.
Fuadi, K., Sudjanto, B., & Kamaluddin, K. (2018). Studi evaluasi pelaksanaan
kebijakan sertifikasi guru di Kementerian Agama. Jurnal Akuntabilitas
Manajemen Pendidikan, 6(2), 139-149.
Furr, R., & Bacharach, V. (2013). Psychometrics and the importance of
psychological measurement. Thousand Oaks, CA: Sage Publications Inc.
Galih, A., & Iriani, C. (2018). Persepsi mahasiswa program pendidikan profesi
puru (PPG) Pendidikan Sejarah terhadap program PPG. Jurnal Pendidikan
Sejarah, 7(1), 66-83.
Gareis, C. R., & Grant, L. W. (2014). The efficacy of training cooperating
teachers. Teaching and Teacher Education, 39, 77-88. doi:
10.1016/j.tate.2013.12.007
Geldhof, G. J., Preacher, K. J., & Zyphur, M. J. (2014). Reliability estimation in a
multilevel confirmatory factor analysis framework. Psychological
methods, 19(1), 72-91.
Gerdeman, D., Garrett, R., & Monahan, B. (2018). Teacher professional learning
through teacher network programs: A multiple case study investigation.
American Institutes for Research, 1-28.
Gerritsen, S., Plug, E., & Webbink, D. (2017). Teacher quality and student
achievement: evidence from a sample of Dutch twins. Journal of applied
econometrics, 32(3), 643-660.
Ghozali, I., & Fuad. (2014). Structural equation modeling: Teori, konsep, dan
aplikasi dengan program Lisrel 9.10. Semarang: Badan Penerbit
Universitas Diponegoro.
Giannoukos, G., Besas, G., Galiropoulos, C., & Hioctour, V. (2015). The
andragogy, the social change and the transformative learning educational
approaches in adult education. Journal of Education and Practice, 6(10),
46-50.
Good, T. L. (2008). 21st century education: A reference handbook (Vol. 1).
California: Sage Publications.
Goodwin, A. L. (2010). Globalization and the preparation of quality teachers:
Rethinking knowledge domains for teaching. Teaching Education, 21(1),
19-32. doi: https://doi.org/10.1080/10476210903466901
Griffin, P., & Care, E. (2014). Assessment and teaching of 21st century skills:
Methods and approach. London New York: Springer Dordrecht
Heidelberg.
435
Gronlund, N. E., & Linn, R. L. (1965). Measurement and evaluation in teaching.
New York: Macmillan.
Hakim, A. (2015). Contribution of competence teacher (pedagogical, personality,
professional competence and social) on the performance of learning. The
International Journal Of Engineering And Science (IJES), 4(2), 1-12.
Hambleton, R. K. (2004). Theory, methods, and practices in testing for the 21st
century. Psicothema, 16(4), 696-701.
Hambleton, R. K., Jones, R. W., & Rogers, H. J. (1993). Influence of item
parameter estimation errors in test development. Journal of Educational
Measurement, 30(2), 143-155. doi: 10.1111/j.1745-3984.1993.tb01071.x
Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles
and applications. New York: Springer Science Business Media, LLC
Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of
item response theory. Newbury Park, CA: Sage Publication Inc.
Harsch, C., & Martin, G. (2013). Comparing holistic and analytic scoring
methods: Issues of validity and reliability. Assessment in Education:
Principles, Policy & Practice, 20(3), 281-307. doi:
10.1080/0969594X.2012.742422
Hasli, R. (2016). Pengembangan instrumen kompetensi pedagogik guru kelas
Sekolah Dasar di Kecamatan Marioriwawo Kabupaten Soppeng. Riset
Assesmen, 1(1), 1-7.
Hatton, M. J. (1997). Lifelong learning: Policies, practices, and programs.
Canada: APEC.
Hendriks, M. A., Luyten, H., Scheerens, J., Sleegers, P., & Steen, R. (2010).
Teachers' professional development: Europe in international comparison:
Europe in international comparison. University of Twente: Faculty of
Behavioural, Management and Social Sciences.
Henschke, J. A. (2011). Considerations regarding the future of andragogy. Adult
Learning, 22(1), 34-37.
Hidayah, I. (2013). Implementation review of professional education of teachers
(PPG) as the implementation of quality management function. Procedia-
Social and Behavioral Sciences, 103, 467-472. doi:
10.1016/j.sbspro.2013.10.361
Horby, A., & Cowie, A. (2000). Oxford advanced learner’s dictionary of current
English. Oxford: Oxford University Press.
Hotimah, H., & Suyanto, T. (2017). Strategi pendidikan profesi guru (PPG) Unesa
dalam mengembangkan kompetensi pedagogik dan profesional peserta
PPG Pasca SM-3T. Kajian Moral dan Kewarganegaraan, 5(01), 242-256.
436
Hu, B., Qin, L., Sullivan, M., & Templin, J. (2017). Contemporary approaches to
psychometrics: item response theory and diagnostic classification
models/enfoques contemporáneos sobre psicometría: los modelos de la
teoría de respuesta al ítem y los modelos de clasificación de diagnósticos.
Cultura y Educación, 29(3), 461-491.
Indriyani, S., & Ismandari, D. (2015). Persepsi mahasiswa kependidikan Fakultas
Ekonomi Universitas Negeri Yogyakarta terhadap Pendidikan Profesi
Guru (PPG). Pelita-Jurnal Penelitian Mahasiswa UNY, X(1), 1-10.
Istiyono, E., Mardapi, D., & Suparno, S. (2014a). Penerapan partial credit model
pada tes pilihan ganda termodifikasi merupakan model alternatif asesmen
fisika yang adil. Paper presented at the Prosiding Kongres dan Konferensi
Ilmiah Himpunan Evaluasi Pendidikan (HEPI) Tahun 2014, Bali.
Istiyono, E., Mardapi, D., & Suparno, S. (2014b). Pengembangan tes kemampuan
berpikir tingkat tinggi fisika (pysthots) peserta didik SMA. Jurnal
Penelitian dan Evaluasi Pendidikan, 18(1), 1-12.
Jarvis, P. (2004). Adult education and lifelong learning: Theory and practice.
London: Routledge Falmer.
Jones, M., & Vickers, D. (2011). Considerations for performance scoring when
designing and developing next generation assessments. The Assessment &
Information group of Pearson.
Jordan, M. E. (2011). Personality traits: Theory, testing and influences. New
York: Nova Science Publishers, Inc.
Joreskog, K. G., & Sorbom, D. (2006). LISREL 8.70 for windows (Computer
Software). Lincolnwood, IL: Scientific Software International.
Jurčić, M. (2014). Teacher’s competence–pedagogical and didactical dimensions.
Pedagogijska istraživanja, 11(1), 92-92.
Kamerilova, G. S., Kartavykh, M. A., Ageeva, E. L., Gordeeva, I. A., Astashina,
N. I., & Ruban, E. M. (2018). Communicative teaching models: The
formation of the professional pedagogical competence among health and
safety school teachers. Espacios, 39(29), 7.
Kane, T., Kerr, K., & Pianta, R. (2014). Designing teacher evaluation systems:
New guidance from the measures of effective teaching project. San
Francisco: John Wiley & Sons, Inc.
Kartowagiran, B. (2010). Uji kompetensi dalam PPG. Paper presented at the
Makalah disampaikan dalam Workshop Penyusunan Soal Uji Kompetensi
dalam PPG.
Kartowagiran, B. (2011). Kinerja guru profesional (Guru pasca sertifikasi). Jurnal
Cakrawala Pendidikan, 3(3).
437
Kartowagiran, B. (2012a). Model penilaian kinerja guru. Paper presented at the
Seminar Nasional HEPI Penelitian dan Evaluasi Pendidikan, Pascasarjana
Universitas Negeri Yogyakarta.
Kartowagiran, B. (2012b). Revitalisasi sertifikasi guru model penilaian kinerja
guru. Paper presented at the Prosiding Seminar Nasional Pendidikan
Teknik Mesin, Universitas Negeri Yogyakarta.
Kartowagiran, B., & Jaedun, A. (2016). Model asesmen autentik untuk menilai
hasil belajar siswa sekolah menengah pertama (SMP): Implementasi
asesmen autentik di SMP. Jurnal Penelitian dan Evaluasi Pendidikan,
20(2), 131-141. doi: 10.21831/pep.v20i2.10063
Kartowagiran, B., Jaedun, A., & Hamdi, S. (2017). Developing authentic
assessment design. Paper presented at the International Conference on
Ethics of Business, Economics, and Social Science (ICEBESS)
Proceeding.
Kartowagiran, B., & Maddini, H. (2015). Evaluation model for Islamic education
learning in junior high school and its significance to students’ behaviours.
American Journal of Educational Research, 3(8), 990-995. doi:
10.12691/education-3-8-7
Kartowagiran, B., & Retnawati, H. (2008). The probability difference indices and
empirical sampling distribution for DIF indices for identifying item bias in
multidimensional item response theory. Paper presented at the Paper on
International Conference on Matemathics 3th.
Keller, L. A., Swaminathan, H., & Sireci, S. G. (2003). Evaluating scoring
procedures for context-dependent item sets1. Applied Measurement in
Education, 16(3), 207-222. doi: 10.1207/S15324818AME1603_3
Kemenag. (2012). Panduan penyelenggaraan program pendidikan profesi guru
(PPG) dalam jabatan di Lingkungan Kementerian Agama RI. Jakarta:
Direktorat Pendidikan Tinggi Islam Direktorat Jenderal Pendidikan Islam.
Kemenristekdikti. (2017). Pedoman penyelenggaraan pendidikan profesi guru.
Jakarta: Direktorat Jenderal Pembelajaran dan Kemahasiswaan Direktorat
Jenderal Kelembagaan.
Kemenristekdikti. (2018a). Panduan LMS brightspace SPADA Indonesia. Jakarta:
Direktorat Jenderal Pembelajaran dan Kemahasiswaan Direktorat Jenderal
Kelembagaan.
Kemenristekdikti. (2018b). Pedoman penyelenggaraan pendidikan profesi guru
tahun 2018. Jakarta: Direktorat Jenderal Pembelajaran dan
Kemahasiswaan Direktorat Jenderal Kelembagaan.
Khaerudin. (2019). Persepsi guru tentang pendidikan profesi guru mode daring:
kasus di Indonesia (Teachers’ perceptions of the teacher profession
training of online mode: case in Indonesia). Paper presented at the
438
International Conference on Educational Technology, Universitas Negeri
Jakarta.
Kim, B.-H., & Kim, J. (2016). Development and validation of evaluation
indicators for teaching competency in STEAM education in Korea.
Eurasia Journal of Mathematics, Science & Technology Education, 12(7),
1909-1924. doi: 10.12973/eurasia.2016.1537a
Knowles, M. S., Holton, E., & Swanson, R. (2015). The adult learner: the
definitive classic in adult education and human resource development
(8th). New York: Routledge.
König, J., & Pflanzl, B. (2016). Is teacher knowledge associated with
performance? On the relationship between teachers’ general pedagogical
knowledge and instructional quality. European Journal of Teacher
Education, 39(4), 419-436.
Krahenbuhl, K. S. (2016). Student-centered education and constructivism:
Challenges, concerns, and clarity for teachers. The Clearing House: A
Journal of Educational Strategies, Issues and Ideas, 89(3), 97-105.
Krisna, F. N. a. (2017). Alternatif kebijakan permasalahan ketidakmerataan
penyebaran guru (Policy alternatives to address teacher distribussion
inequality). Jurnal Analisis Kebijakan, 1(2), 1-11.
Lacey, C. (2012). The socialization of teachers Londor: Routledge Library
Editions.
Lawshe, C. H. (1975). A quantitative approach to content validity 1. Personnel
psychology, 28(4), 563-575.
Le Cornu, R. (2016). Professional experience: Learning from the past to build the
future. Asia-Pacific Journal of Teacher Education, 44(1), 80-101. doi:
10.1080/1359866X.2015.1102200
Lewin, L., & Shoemaker, B. J. (2011). Great performances: Creating classroom-
based assessment tasks. Alexandria, VA: ASCD.
Liu, K. (2015). Critical reflection as a framework for transformative learning in
teacher education. Educational Review, 67(2), 135-157. doi:
10.1080/00131911.2013.839546
Liu, Y., & Thissen, D. (2014). Comparing score tests and other local dependence
diagnostics for the graded response model. British Journal of
Mathematical and Statistical Psychology, 67(3), 496-513.
Lord, F. M. (1190). Applications of item response theory to practical testing
problems. New Jersey: LawrenceErlbaum Associates, Publishers.
Lord, F. M. (2008). Application of item response theory to practical testing
problems. New York: Routledge.
439
Lord, F. M. (2012). Applications of item response theory to practical testing
problems. New York: Routledge Taylor and Francis Group.
Lutasari, S., & Kartowagiran, B. (2019). Developing instruments for student
performance assessment in physics practicum: A case study of state senior
high school of Magelang. International Online Journal of Education and
Teaching, 6(1), 104-114.
Mangkunegara, A. A. P., & Puspitasari, M. (2015). Kecerdasan emosi guru, stres
kerja, dan kinerja guru SMA. Jurnal Kependidikan: Penelitian Inovasi
Pembelajaran, 45(2), 142-155. doi: 10.21831/jk.v45i2.7491
Mardapi, D. (2017). Pengukuran, penilaian, dan evaluasi pendidikan.
Yogyakarta: Parama Publishing.
Martínez, F. L. (2010). Vocación docente versus profesión docente en las
organizaciones educativas. Revista electrónica interuniversitaria de
formación del profesorado, 13(4), 43-51.
Marzano, R. J., & Toth, M. D. (2013). Teacher evaluation that makes a
difference: A new model for teacher growth and student achievement.
Alexandria, Virginia USA: ASCD.
Masters, G., & Wright, B. (1997). The partial credit model. New York: Springer
Verlag.
Matthews, G., Deary, I. J., & Whiteman, M. C. (2009). Personality traits. New
York: Cambridge University Press.
McDiarmid, G. W., & Caprino, K. (2017). Lessons from the Teachers for a New
Era project: Evidence and accountability in teacher education. New York:
Routledge.
Mehrens, W. A., & Lehmann, I. J. (1973). Measurement and evaluation in
education and psychology. New York: Hold, Rinehart and Wiston, Inc.
Merkt, M. (2017). The importance of academic teaching competence for the
career development of university teachers: A comment from higher
education pedagogy. GMS journal for medical education, 34(4). doi:
10.3205/zma001125
Merriam, S. B. (2001). Andragogy and self‐directed learning: Pillars of adult
learning theory. New directions for adult and continuing education,
2001(89), 3-14. doi: 10.1002/ace.3
Merriam, S. B., & Bierema, L. L. (2013). Adult learning: Linking theory and
practice. San Fransisco: John Wiley & Sons.
Metruk, R. (2018). Comparing Holistic and Analytic Ways of Scoring in the
Assessment of Speaking Skills. Journal of Teaching English for Specific
and Academic Purposes, 6(1), 179-189. doi: 10.22190/JTESAP1801179M
440
Mirzagitova, A. L., & Akhmetov, L. G. (2015). Self-development of pedagogical
competence of future teacher. International Education Studies, 8(3), 114-
121.
Mizell, H. (2010). Why professional development matters (Vol. Learning
Forward). Oxford: ERIC.
Mkpanang, J. T. (2015). Personality profile of teachers and their students’
performance in post-basic modern physics. African Research Review, 9(1),
159-168.
Moore, T. W. (2010). Philosophy of education (International library of the
philosophy of education volume 14): An Introduction. London: Routledge.
Moskal, B. M. (2000). Scoring rubrics: How? ERIC Clearinghouse on Assessment
and Evaluation, 7(3), 1-5.
Naga, D. S. (2013). Teori sekor pada pengukuran mental. Jakarta: Nagarani
Citrayasa.
National Education Association. (2010). Teacher assessment and evaluation: The
national education association’s framework for transforming education
systems to support effective teaching and improve student learning.
Retrieved from National Education Association website:
http://www.nea.org/home/41858.htm.
Nering, M. L., & Ostini, R. (2011). Handbook of polytomous item response theory
models. New York: Taylor and Francis Group, LLC.
Nicholson, I. A. (2003). Inventing personality: Gordon Allport and the science of
selfhood. Washington, DC: American Psychological Association.
Ningrum, E. (2012). Membangun sinergi pendidikan akademik (S1) dan
pendidikan profesi guru (PPG). Jurnal Geografi Gea, 12(2), 49-55.
Ningsih, M. P., Fatchan, A., & Susilo, S. (2016). Program PPG untuk membangun
kompetensi guru Geografi (Studi kasus di Universitas Negeri Malang).
Jurnal Pendidikan: Teori, Penelitian, dan Pengembangan, 1(10), 2031-
2039.
Nunnally, J. C., Bernstein, Ira H (1994). Psychometric theory New Delhi: Tata
McGraw-Hill Education.
Nur, A. A. (2014). Meningkatkan kompetensi pedagogik guru di SD Yayasan
Mutiara Gambut. Jurnal Bahana Manajemen Pendidikan, 2(1), 65-72. doi:
https://doi.org/10.23036/bmp.v2i1.3735
Nurcahyo, F. A. (2016). Aplikasi IRT dalam analisis aitem tes kognitif. Buletin
Psikologi, 24(2), 64–75. doi: 10.22146/buletinpsikologi.25218
Nurmaliah, C. (2018). Analisis kemampuan peserta program pendidikan profesi
guru (PPG) dalam workshop subject specific pedagogy (SSP) di FKIP
Unsyiah. Paper presented at the Prosiding Seminar Nasional Biotik,
441
Program Studi Pendidikan Biologi Universitas Islam Negeri Ar-Raniry
Banda Aceh. .
O'Malley, J. M. (1977). Research perspective on social competence. Merrill-
Palmer Quarterly of Behavior and Development, 23(1), 29-44.
O’Meara, J. (2011). Australian teacher education reforms: reinforcing the problem
or providing a solution? Journal of Education for Teaching, 37(4), 423-
431.
Ofianto, O., & Suhartono, S. (2015). An assessment model of historical thinking
skills by means of the RASCH model. REiD (Research and Evaluation in
Education), 1(1), 73-83. doi: https://doi.org/10.21831/reid.v1i1.4899
Olesova, A. P., & Borisova, U. S. (2016). Formation of professional-
communicative competence of the future teachers in the conditions of the
Yakut-Russian Bilingualism. International Electronic Journal of
Mathematics Education, 11(10), 3435-3445.
Orazbayeva, K. O. (2016). Professional Competence of Teachers in the Age of
Globalization. International Journal of Environmental and Science
Education, 11(9), 2659-2672.
Ounis, M. (2017). A Comparison between holistic and analytic assessment of
speaking. Journal of Language Teaching and Research, 8(4), 679-690.
doi: 10.17507/jltr.0804.06
Oviyanti, F. (2016). Tantangan pengembangan pendidikan keguruan di era global.
Nadwa, 7(2), 267-282.
Ozuah, P. O. (2016). First, there was pedagogy and then came andragogy.
Einstein journal of Biology and Medicine, 21(2), 83-87. doi:
10.23861/EJBM20052190
P4TKN. (2018). Pendidikan profesi guru Universitas Negeri Yogyakarta.
Yogyakarta: Pusat Pengembangan Profesi Pendidik Tenaga Kependidikan
dan Non Kependidikan.
Pahrudin, P., Martono, T., & Murtini, W. (2016). The effect of pedagogic
competency, personality, professional and social competency teacher to
study achievement of economic lesson in state senior high school of east
Lombok district academic year 2015/2016. Paper presented at the
Proceeding of the International Conference on Teacher Training and
Education.
Pamungkas, A. S., Novalitasari, N., Setiani, Y., & Yuhana, Y. (2019). Kajian
persepsi, interaksi dan capaian mahasiswa PPG dalam jabatan ada
platform pembelajaran Brightspace. Paper presented at the Seminar
Nasional Matematika dan Pendidikan Matematika (4th SENATIK)
Program Studi Pendidikan Matematika FPMIPATI-Universitas PGRI
Semarang.
442
Paterson, R. W. K. (2010). Values, education and the adult. London: Routledge.
Peters, R. S. (2010). The concept of education (international library of the
philosophy of education volume 17) (Vol. 17). London: Routledge.
Petrie, K., & McGee, C. (2012). Teacher professional development: Who is the
learner? Australian Journal of Teacher Education, 37(2), 59-72.
Piri, E., Keshtiaray, N., & Saadatmand, Z. (2016). Designing a model of
personality traits desirable for teacher training courses for student teachers.
Turk Psikoloji Dergisi, 31(77), 125-133.
Pollard, A. (2014). Reflective teaching: in schools. London: Bloomsbury
Publishing.
Popham, W. J. (1999). Classroom assessment: What teachers need to know. Allyn
& Bacon: A Viacom Company.
Prasojo, L. D., Wibowo, U. B., & Hastutiningsih, A. D. (2017). Manajemen
kurikulum program profesi guru untuk daerah terdepan, terluar, dan
tertinggal di Universitas Negeri Yogyakarta. Jurnal Pendidikan dan
Kebudayaan, 2(1), 39-53.
Pring, R. (2005). Philosophy of education. London: Bookend, Ltd.
Rabadi-Raol, A. (2019). Quality of teacher education and learning: theory and
practice. Journal of Education for Teaching, 45(1), 115-117. doi:
10.1080/02607476.2018.1541342
Ratnaningrum, D. (2016). Persepsi siswa tentang kompetensi guru mahasiswa
peserta program pendidikan profesi guru (PPG) di SMA Negeri 1 Wates
Tahun 2015/2016. Universitas Negeri Yogyakarta, Yogyakarta.
Reise, S. P., & Revicki, D. A. (2014). Handbook of item response theory
modeling: Applications to typical performance assessment. New York:
Routledge.
Retnawati, H. (2011). Mengestimasi kemampuan peserta tes uraian Matematika
dengan pendekatan teori respons butir dengan penskoran politomus
dengan generalized partial credit model. Prosiding Semnas Penelitian
Pendidikan dan Penerapan MIPA. UNY, 53-62.
Retnawati, H. (2014). Teori respons butir dan penerapannya: untuk peneliti,
praktisi pengukuran dan pengujian, mahasiswa pascasarjana.
Yogyakarta: Nuha Medika.
Retnawati, H. (2016a). Analisis kuantitatif instrumen penelitian. Yogyakarta:
Parama publising.
Retnawati, H. (2016b). Validitas reliabilitas dan karakteristik butir. Yogyakarta:
Parama Publishing.
443
Retnawati, H. (2018). The Dif identification in constructed response items using
partial credit model. International Journal of Assessment Tools in
Education, 5(1), 73-90. doi: 10.21449/ijate.347956
Retnawati, H., Apino, E., & Anazifa, R. D. (2018). Impact of character education
implementation: A goal-free evaluation. Problems of Education in the 21st
Century, 76(6), 881-899.
Retnawati, H., Djidu, H., Apino, E., & Anazifa, R. D. (2018). Teachers'
knowledge about higher-order thinking skills and its learning strategy.
Problems of Education in the 21st Century, 76(2), 216-230.
Retnawati, H., Hadi, S., & Nugraha, A. C. (2016). Vocational high school
teachers' difficulties in implementing the assessment in curriculum 2013 in
Yogyakarta Province of Indonesia. International Journal of Instruction,
9(1), 33-48.
Retnawati, H., Kartowagiran, B., Arlinwibowo, J., & Sulistyaningsih, E. (2017).
Why are the mathematics national examination items difficult and what is
teachers' strategy to overcome It? International Journal of Instruction,
10(3), 257-276.
Retnawati, H., & Munadi, S. (2013). Mengestimasi parameter butir dan
kemampuan guru menggunakan model parsial kredit dan parsial kredit
tergeneralisasi. from Lumbung Pustaka Universitas Negeri Yogyakarta
http://eprints.uny.ac.id/id/eprint/22874
Retnawati, H., Munadi, S., Arlinwibowo, J., Wulandari, N. F., & Sulistyaningsih,
E. (2017). Teachers’ difficulties in implementing thematic teaching and
learning in elementary schools. The New Educational Review, 48, 201-
212. doi: 10.15804/tner.2017.48.2.16
Ridlo, S. (2012). Pengembangan tes pengetahuan praktikum biologi berdasarkan
Graded Response dan Generalized Partial Credit. Jurnal Penelitian dan
Evaluasi Pendidikan, 16, 166-182. doi: 10.21831/pep.v16i0.1111
RISE. (2018). Perkembangan hasil studi evaluasi program PPG prajabatan studi
tahun pertama (2018). from Research on Improving Systems of Education
http://rise.smeru.or.id/id/publikasi/perkembangan-hasil-studi-evaluasi-
program-ppg-prajabatan
Robertson, S. (2017). A class act: Changing teachers work, the state, and
globalisation. New York: Routledge.
Robinson, W., & Campbell, J. (2010). Effective teaching in gifted education:
Using a whole school approach. London: Routledge.
Rose‐Krasnor, L. (1997). The nature of social competence: A theoretical review.
Social development, 6(1), 111-135. doi: 10.1111/j.1467-
9507.1997.tb00097.x
444
Sadtyadi, H., & Kartowagiran, B. (2014). Pengembangan instrumen penilaian
kinerja guru sekolah dasar berbasis tugas pokok dan fungsi. Jurnal
Penelitian dan Evaluasi Pendidikan, 18(2), 290-304. doi:
10.21831/pep.v18i2.2867
Samejima, F. (1974). Normal ogive model on the continuous response level in the
multidimensional latent space. Psychometrika, 39(1), 111-121.
Sanders, J. R., Nitko, A. J., Merwin, J. C., Trice, C., Dianda, M., & Schneider, J.
(1999). Standars for teacher competence in educational assessment of
students: Collaborating Professional Associations: NCME, American
Association of Colleges for Teacher Education, American Federation of
Teachers, and National Education Association.
Sax, G. (1980). Principles of educational and psychological measurement and
evaluation. Belmont, CA: Wadsworth Publishing Co.inc.
Selvi, K. (2010). Teachers’ competencies. Cultura International Journal of
Philosophy of Culture and Axiology, 7(1), 167-175. doi:
10.5840/cultura20107133
Shulman, L. S. (2005). Signature pedagogies in the professions. Daedalus, 134(3),
52-59.
Smylie, M. A. (2014). Teacher evaluation and the problem of professional
development. Mid-Western Educational Researcher, 26(2), 98-111.
Steinberg, M. P., & Garrett, R. (2016). Classroom composition and measured
teacher performance: What do teacher observation scores really measure?
Educational Evaluation and Policy Analysis, 38(2), 293-317. doi:
10.3102/0162373715616249
Stiggins, R., & Chappuis, J. (2005). Using student-involved classroom assessment
to close achievement gaps. Theory into practice, 44(1), 11-18.
Stronge, J. H. (2018). Qualities of effective teachers. Alexandria: ASCD.
Suciu, A. I., & Mata, L. (2011). Pedagogical competences–The key to efficient
education. International online journal of educational sciences, 3(2), 411-
423.
Sudaryono, S. (2011). Implementasi teori responsi butir (item response theory)
pada penilaian hasil belajar akhir di sekolah. Jurnal Pendidikan dan
Kebudayaan, 17(6), 719-732.
Sulisworo, D., Nasir, R., & Maryani, I. (2017). Identification of teachers’
problems in Indonesia on facing global community. International Journal
of Research Studies in Education, 6(2), 81-90. doi:
10.5861/ijrse.2016.1519
445
Sumintono, B., & Widhiarso, W. (2014). Aplikasi model Rasch untuk penelitian
ilmu-ilmu sosial (edisi revisi). Cimahi: Trim Komunikata Publishing
House.
Suparji. (2008). Pengembangan instrumen kompetensi bidang keguruan
mahasiswa calon guru. Program Pascasarjana Universitas Negeri
Yogyakarta, Yogyakarta.
Surya, P. (2014). Model Program Pendidikan Guru Prajabatan: Dari Penghapusan
Akta IV Menuju Sertifikat Profesi. Dinamika Pendidikan, 21(01), 91-102.
Suryawati, E., & Osman, K. (2018). Contextual learning: innovative approach
towards the development of students’ scientific attitude and natural science
performance. Eurasia Journal of Mathematics, Science and Technology
Education, 14(1), 61-76.
Susongko, P. (2010). Perbandingan keefektifan bentuk tes uraian dan testlet
dengan penerapan graded response model (GRM). Jurnal Penelitian dan
Evaluasi Pendidikan, 14(2), 269-288. doi: 10.21831/pep.v14i2.1082
Suswantar, I. S. D., & Retnawati, H. (2016). Penilaian kinerja guru SMA swasta
di Kabupaten Sukoharjo dan faktor-faktor yang mempengaruhi. Jurnal
Evaluasi Pendidikan., 4(1), 36-44.
Suyata, P., Mardapi, D., Kartowagiran, B., & Retnawati, H. (2011). Model
pengembangan bank soal berbasis guru dan mutu pendidikan. Jurnal
Kependidikan: Penelitian Inovasi Pembelajaran, 41(2), 120-128. doi:
10.21831/jk.v41i2.2218
Tekkumru Kisa, M., & Stein, M. K. (2015). Learning to see teaching in new
ways: A foundation for maintaining cognitive demand. American
Educational Research Journal, 52(1), 105-136.
Templin, J., & Hoffman, L. (2013). Obtaining diagnostic classification model
estimates using MPlus. Educational Measurement: Issues and Practice,
32(2), 37-50.
The Teaching Council. (2012). The code of professional conduct for teachers. An
Chomhairle Mhúinteoireachta Teaching Council Acts.
Tyler, F. B. (1978). Individual psychosocial competence: A personality
configuration. Educational and psychological measurement, 38(2), 309-
323. doi: 10.1177/001316447803800212
Van Driel, J. H., & Berry, A. (2012). Teacher professional development focusing
on pedagogical content knowledge. Educational researcher, 41(1), 26-28.
doi: 10.3102/0013189X11431010
Vangrieken, K., Meredith, C., Packer, T., & Kyndt, E. (2017). Teacher
communities as a context for professional development: A systematic
review. Teaching and Teacher Education, 61, 47-59. doi:
10.1016/j.tate.2016.10.001
446
Verhelst, N. D., & Verstralen, H. (2008). Some considerations on the partial credit
model. Psicologica, 29(2), 229-254.
Villanueva, J. P. (2010). Personality traits: classifications, effects and changes.
New York: Nova Science Publishers, Inc.
Wahyudin, D. (2016). Manajemen Kurikulum dalam Pendidikan Profesi Guru
(Studi Kasus Di Universitas Pendidikan Indonesia). Jurnal Kependidikan:
Penelitian Inovasi Pembelajaran, 46(2), 259-270.
Wakhinuddin, S. (2012). Pengaruh pembobotan dan jenis penilai terhadap fungsi
informasi tes performansi. Jurnal Penelitian dan Evaluasi Pendidikan,
16(1), 384-406. doi: 10.21831/pep.v16i1.1123
Wardoyo, C. (2015). The measurement of teacher's personality competence and
performance using embedded model. Journal of Education and Practice,
6(26), 18-23.
Wasidi, W., & Mardapi, D. (2016). Pengembangan instrumen bakat keguruan.
Jurnal Penelitian dan Evaluasi Pendidikan, 20(1), 98-110. doi:
10.21831/pep.v20i1.7519
Widhiarso, W. (2010). Model politomi dalam teori respons butir. Yogyakarta:
Psikologi UGM.
Widiati, U., & Hayati, N. (2015). Teacher professional education in Indonesia and
ASEAN 2015: Lessons learned from English language teacher education
programs. Stroupe, R., & Kimura, K.(Eds.), ASEAN integration and the
role of English language teaching, 121-148.
Wilson, M. (2005). Constructing measures: An item response modeling approach.
Mahwah, New Jersey: Lawrence Erlbaum Associates, Inc.
Winch, C., Oancea, A., & Orchard, J. (2015). The contribution of educational
research to teachers’ professional learning: Philosophical understandings.
Oxford Review of Education, 41(2), 202-216. doi:
10.1080/03054985.2015.1017406
Wiseman, C. S. (2012). A comparison of the performance of analytic vs. holistic
scoring rubrics to assess L2 writing. Iranian Journal of Language Testing,
2(1), 59-92.
Yahya, M., Abdal, N. M., Setialaksana, W., & Putri, D. R. A. (2019). Evaluasi
tingkat prestasi belajar mahasiswa PPG Universitas Negeri Makassar.
Paper presented at the Prosiding Seminar Nasional Fakultas Teknik
Universitas Negeri Makassar.
Yasin, A. F. (2012). Pengembangan kompetensi pedagogik guru pendidikan
agama Islam di madrasah (studi kasus di MIN Malang I). el-Qudwah, 1(5),
157-181.
447
Yueh, H.-P., Lin, W., Jo-Yi, H., & Sheen, H.-J. (2012). Effect of student
engagement on multimedia-assisted instruction. Knowledge Management
& E-Learning, 4(3), 346.
Zenisky, A. L., Hambleton, R. K., & Sired, S. G. (2002). Identification and
evaluation of local item dependencies in the Medical College Admissions
Test. Journal of Educational Measurement, 39(4), 291-309. doi:
10.1111/j.1745-3984.2002.tb01144.x
Zhu, X., Goodwin, A. L., & Zhang, H. (2017). Quality of teacher education and
learning: Theory and practice. Singapore: Springer Nature.
Zięba, A. (2013). The item information function in one and two-parameter logistic
models–A comparison and use in the analysis of the results of school tests.
Didactics of Mathematics, 10(14), 87-96.
Ziegler, J., & Detje, F. (2013). Application of empirical methodology to evaluate
information fusion approaches. Paper presented at the Proceedings of the
16th International Conference on Information Fusion.
Zinn, B. (2017). Technology teachers and their professional competence–
peculiarities and starting points for subject-specific didactical research.
Journal of Technical Education (JOTED), 5(1), 1-13.
448