Puspendik Laporan Nov 2019 UIN Jakarta-1

LAPORAN AKHIR
PENGEMBANGAN INSTRUMEN UNTUK MENGUKUR NON-

COGNITIVE SKILLS KOMPETENSI ABAD-21: KEMAMPUAN
BERADAPTASI (ADAPTABILITY), KEINGINTAHUAN
(CURIOUSITY), KEGIGIHAN (GRIT)
Dr. Yunita Faela Nisa, Psi.

Dr. Zahrotun Nihayah, M.Si.
Yufi Adriani, Ph.D., Psi.
M. Dwirifqi Kharisma Putra, M.Si.
Yulia Naelufara, S.Psi., M.Ed.
FAKULTAS PSIKOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH
JAKARTA
OKTOBER 2019
KATA PENGANTAR
Puji syukur kehadirat Tuhan Yang Maha Esa karena atas rahmat-Nya laporan akhir
penelitian “Pengembangan Instrumen untuk mengukur Noncognitive Skills Abad 21-Kemampuan
Beradaptasi (Adaptability), Keingintahuan (Curiousity) dan Kegigihan (Grit).” ini dapat
terselesaikan. Kegiatan penelitian ini dilakukan pada tanggal 1 Juli - Oktober 2019 dari mulai
pematangan konsep, pembuatan item, pengambilan data serta pembuatan laporan. Adapun
pengambilan data dilakukan pada siswa. Kelas X, XI, dan XII pada SMA/SMK/MA di
Jabodetabek, Banten, dan Makassar. Instrumen yang merupakan hasil penelitian ini kami
berinama IANSA (Indonesian Academic Non-cognitive Skills Assessment).
Laporan penelitian ini berisi tentang latar belakang mengapa penting mengembangkan
instrumen non-kognitif siswa, proses penyusunan item, serta pengembangan level descriptor.
Selain itu, laporan ini melampirkan instrumen hasil penelitian, level descriptor, serta manual
penggunaan instrumen dan interpretasinya. Manual penggunaan instrumen ini diharapkan dapat
menjadi panduan bagi petugas yang akan menggunakan instrumen IANSA, khususnya terkait
dengan persiapan teknis serta proses skoring dan interpretasi hasil instrument.
Penelitian ini dibiayai oleh Pusat Penilaian Pendidikan (Puspendik) Balitbang.
Kemendikbud RI tahun anggaran 2019. Kami ucapkan terima kasih kepada Bapak Moch. Abduh,
Ph.D, Kepala Puspendik Balitbang Kemendikbud RI atas kesempatan yang diberikan kepada kami.
Kami juga mengucapkan terima kasih kepada para reviewer: Bapak Bahrul Hayat, Ph.D., Ibu Dr.
Rahmawati, dan Bapak Bambang Suryadi, Ph.D. Kepada. narasumber dalam focused group
discussion yang kami adakan dalam proses penelitian ini, kami ucapakan terima kasih: pak Jahja
Umar, Ph.D., Ibu Dr. Sosiati Gunawan, Psikolog, Ibu Dr. Fadhilah Suralaga, M.Si.,.yang telah
memberikan saran dan masukan berharga kepada kami. Tak lupa kami juga ucapkan terima kasih
kepada Ibu. Lilis Windiarti, MM, dan Bapak Arfan Faraby, SE, MM., atas bantuan dan masukan
untuk kelancaran administrasi kami. Kami juga ucapkan terima kasih pada tim pengambil data:
Maryam, Robi, Jeysia, Vini, Putri, Iwan, dan Roby atas perjuangan dan kesuksesannya dalam
pengumpulan data. Kepada siswa siswi yang telah berpartisipasi dalam penelitian ini juga kami
haturkan terima kasih. Semoga penelitian ini bermanfaat.
Jakarta, 20 Oktober 2019
Tim Peneliti
DAFTAR ISI
BAB I PENDAHULUAN ............................................................................................................ 1

1.1. Latar Belakang Masalah ......................................................................................................... 1
1.2. Rumusan Masalah .................................................................................................................. 7
1.3. Tujuan Penelitian ................................................................................................................... 7
1.4. Manfaat Penelitian ................................................................................................................. 8
BAB II KAJIAN TEORITIS ....................................................................................................... 9

2.1. Ketrampilan Non-Kognitif .................................................................................................... 9
2.1.1. Definisi.........................................................................................................................9
2.1.2. Aspek-aspek Ketrampilan Non-Kognitif .................................................................. 10
2.2. Kemampuan Beradaptasi ..................................................................................................... 10
2.3. Curiosity............................................................................................................................... 11
2.4. Grit ....................................................................................................................................... 12
2.5. Trait Level Descriptor .......................................................................................................... 13
2.6. Hipotesis Model Pengukuran ............................................................................................... 14
BAB III METODOLOGI PENELITIAN .................................................................................... 16

3.1. Populasi dan Sampel Penelitian ............................................................................................ 16
3.2 Prosedur Penelitian ................................................................................................................ 16
3.2.1. Prosedur Penyusunan Instrumen Penelitian ............................................................... 16
3.2.1.1. FGD untuk menentukan konstruk dan definisi tiap dimensi .......................... 20
3.2.1.2. Administrasi tes .............................................................................................. 23
3.2.2. Tahap Pengumpulan Data ........................................................................................... 24
3.2.3. Tahap Analisis. Data. Dan Pembuatan Trait Level Descriptor................................... 27
3.3. Blueprint Akhir Instrumen yang Disusun ............................................................................. 29
3.4. Metode Analisis Data............................................................................................................ 30
3.4.1. Rasch Model ............................................................................................................... 30
3.4.2. Item Factor. Analysis. (IFA) ....................................................................................... 35
BAB IV HASIL ANALISIS DATA

4.1. Analisis Deskriptif ................................................................................................................ 38
4.2. Karakteristik Psikometris. IANSA berdasarkan Analisis Rasch ........................................ 39
4.2.1. Unidimensionalitas. Dan Local Independence ........................................................... 39
4.2.2. Item. Fit Instrumen. IANSA ....................................................................................... 41
4.2.3. Reliabilitas. Rasch Instrumen IANSA ........................................................................ 43
4.2.4. Diagnostik Keberfungsian Skala Peringkat ................................................................ 44
4.2.5. Wright. Map dan Fungsi Informasi Tes Instrumen IANSA ....................................... 46
4.3. Karakteristik Psikometris IANSA Berdasarkan IFA ........................................................... 52
4.3.1. Model Fit....................................................................................................................52
4.3.2. Muatan Faktor IANSA................................................................................................ 53
4.4. Deskriptor. Tingkatan Ketrampilan IANSA ........................................................................ 56
BAB V DISKUSI DAN KESIMPULAN ..................................................................................... 62

5.1. Diskusi ................................................................................................................................... 62
5.3. Kesimpulan ............................................................................................................................ 63
DAFTAR PUSTAKA .................................................................................................................. 65
LAMPIRAN- LAMPIRAN
LAMPIRAN A - Deskriptor Pengukuran Non-Kognitif Siswa Indonesia

Lampiran B – Indonesian Non-cognitif Skills Assessment (IANSA) atau Instrumen
Non-kognitif Siswa IndonesiA (IANSA)
Lampiran C - Manual Penggunaan Instrumen Pengukuran Non-Kognitif Siswa
Indonesia
1
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Dengan populasi sekitar 245 juta jiwa, Indonesia adalah negara

terbesar keempat di dunia dari segi besarnya populasi, mencakup
sekitar 17.000 pulau dengan lebih dari 200 kelompok etnis dan
setidaknya 300 bahasa/dialek yang berbeda. Dengan pola
demografi populasi yang beragam, tidak mengherankan bahwa ada
kesenjangan sosial-ekonomi yang besar dan ketimpangan
pendapatan di seluruh negeri, yang pada gilirannya terkait erat
dengan bervariasinya prestasi akademis siswa (OECD, 2013).
Sayangnya, performa siswa Indonesia yang rendah dan stagnan
(pada sepuluh peringkat terbawah) dalam program penilaian siswa
internasional pada semua mata pelajaran yang diuji menjadi
perhatian yang signifikan dan panggilan untuk reformasi
pendidikan nasional yang utama (Wihardini, 2016).
Telah banyak upaya yang dilakukan Pemerintah Indonesia

untuk melakukan perubahan besar dalam bidang pendidikan
dalam rangka membuat kemajuan positif dari performa siswa
Indonesia pada asesmen berskala internasional. Salah satu aspek
yang dikaji berkaitan dengan keterampilan (skills). Secara umum,
keterampilan dibagi menjadi kognitif dan non-kognitif (Pierre
Sanchez Puerta, Valerio, & Rajadel, 2014; Zhao, 2016).
Berbagai studi terbaru mengemukakan bahwa keterampilan

non-kognitif merupakan hal yang penting dimiliki seseorang dalam
menempuh tes kognitif (Balart, Ooosterveen, & Webbink, 2015).
Keterampilan non-kognitif termasuk dalam kelompok keterampilan
2
dan atribut yang sulit untuk didefinisikan dan diukur. Oleh

karena itu, penelitian dan industri pengetesan hampir seluruhnya
hanya berfokus pada pengukuran kognitif untuk kurun waktu
yang cukup lama (Conley, 2010). Di sisi lain, seiring dengan
perjalanan waktu, faktor non-kognitif juga telah terbukti menjadi
aspek penting terkait dengan produktivitas dan perilaku-perilaku
sosial lainnya di tingkat individu (lihat, Heckman & Rubinstein
2001; Heckman & Kautz, 2012).
Sebagai contoh adalah Singapura. Negara ini merupakan top

performer dari PISA 2015. Temuan penelitian terkait prestasi
Singapura menyatakan bahwa keterampilan non-kognitif telah
menjadi kelebihan utama yang berjasa akan kesuksesannya dalam
PISA 2015 (OECD, 2016a). Indonesia telah menyadari
keterbatasan ini dengan mulai mengikutsertakan pengukuran
nonkognitif pada pelaksanaan Ujian Nasional Berbasis Komputer
(UNBK) pada tahun 2019, dengan mengukur beberapa konstruk
psikologis, meskipun belum dilakukan pengukuran spesifik
terhadap keterampilan non-kognitif sebagai suatu konstruk.
Ketika keterampilan kognitif dapat dilihat melalui indikator

prestasi akademik yang dimiliki siswa, penelitian tentang asesmen
terkait keterampilan non-kognitif di Indonesia masih sangat
terbatas. Keterbatasan ini disebabkan oleh belum tersedianya
model dan instrumen pengukuran non-cognitive skills yang
dikembangkan maupun diadaptasi untuk siswa Indonesia. Belum
tersedianya kedua hal tersebut menjadi kesenjangan (gap) utama
yang dihadapi oleh para pembuat kebijakan untuk dapat
mengidentifikasi serta mendapatkan gambaran umum tentang
keterampilan non-kognitif siswa di Indonesia.
3
Sebagai upaya untuk mengembangkan instrumen

pengukuran non-cognitive skills yang tepat pada siswa Indonesia,
dibutuhkan model pengukuran yang meliputi aspek-aspek yang
menjadi gambaran non-cognitive skills yang ingin diukur pada
siswa Indonesia. Berbagai riset telah menjelaskan aspek-aspek
non-cognitive skills yang telah diuji seperti grit, self-control dan
social skill (Zhao, 2016) dan atribut soft skills (American College
Testing, 2014). Sangat disayangkan belum satupun model
pengukuran yang tersedia tersebut digunakan di Indonesia.
Kondisi tersebut menunjukkan gambaran nyata tentang

pendapat yang mengemukakan bahwa keterampilan non-kognitif
merupakan atribut yang sulit didefinisikan sehingga aspek
pengukuran berbeda-beda antara satu lembaga dengan yang
lainnya maupun satu peneliti dengan yang lainnya. Namun, hal
positif dari fakta tersebut adalah bahwa Pusat Penilaian
Pendidikan (Puspendik) Kementerian Pendidikan dan Kebudayaan
telah membuat kebijakan untuk mengembangkan pengukurannya
sendiri dan dapat mendefinisikan non-cognitive skills yang disusun
untuk konteks yang tepat dan sesuai bagi siswa Indonesia.
Dalam penelitian ini, aspek-aspek non-cognitive skills pada

siswa Indonesia yang disusun sebagai model pengukuran adalah
kemampuan beradaptasi (adaptability), keingintahuan (curiosity),
dan kegigihan (grit) yang merupakan salah satu aspek yang diukur
dalam PISA pada lebih dari 40 negara (OECD, 2013). Ketiga aspek
ini merupakan 'concept factor' yang selanjutnya akan dijadikan
suatu model pengukuran baru yang menggambarkan non-cognitive
skills siswa Indonesia.
Mengapa kita memfokuskan pada tiga aspek non-cognitive

skills ini? Di sekolah, siswa-siswi perlu menguasai intisari dari
4
tiap bidang ilmu yang dipelajari. Ia juga dituntut tahu tentang

arah pengembangan ilmu, bagaimana kaitan ilmu yang dipelajari
dengan ilmu yang lain (Hullma, 2007; Hung, 2010; Vanvianen,
2012; Martin, 2012; Biesecker, 2013). Ia memerlukan ketrampilan
menyesuaiakan diri dengan lingkungannya, baik akademik dan
non-akademik. Selain itu, siswa siswi juga mampu mempelajari
sendiri untuk eksplorasi pengetahuannya. (Vidler, 1978; Litman &
Spielberger, 2003; Litman & Jimerson, 2004; Weible &
Zimmerman, 2016; Kashdan, et.al., 2017).
Ia perlu memiliki rasa ingin tahu yang tinggi. Selain itu,

siswa siswi dalam mencapai tujuannya juga harus tekun, gigih,
tahu apa yang dituju serta mampu bangkit saat menghadapi
masalah maupun tekanan, dengan cara yang adekuat dan dalam
waktu yang relati cepat (Duckworth & Quinn, 2009; Christensen &
Kenezek, 2014; Christopoulou, et. Al., 2018; Clark & Malecki,
2019). Ketiga ketrampilan koginitif ini penting untuk keksuksesan
siswa. Untuk itulah ketiga ketrampilan koginitif ini penting untuk
dibuatkan model pengukuran.
Penciptaan model pengukuran ini artinya juga dilakukan

penyusunan instrumen yang berlandaskan akan kebutuhan untuk
mendiagnosis maupun mendapatkan gambaran umum terkait
keterampilan non-kognitif siswa Indonesia dari ketiga aspek yang
diajukan. Dengan demikian pertanyaan seperti 'Apakah
adaptability, curiosity dan grit sudah tepat untuk menggambarkan
keterampilan non-kognitif siswa Indonesia?' akan terjawab.
Ketiga konstruk tersebut telah memiliki sejarah panjang

dalam keterkaitannya pada penelitian di bidang psikologi maupun
pendidikan. Dalam menyusun model pengukuran keterampilan
non-kognitif untuk siswa Indonesia, penelitian ini tentu perlu
5
menggunakan perkembangan teoritis terbaru dari tiga aspek yang

diajukan. Adaptability digambarkan oleh dua aspek yaitu cognitive-
behavioral adaptability dan affective adaptability (Martin, Nejad,
Colmar, & Liem, 2012). namun, dikarenakan di Indonesia telah
terselenggara UNBK, konteks adaptability pada penggunaan
teknologi informasi khususnya komputer akan dimasukkan
sebagai aspek baru yang dinamakan instrumental adaptability
yang akan diambil dari aspek computer self-efficacy (Hung, Chou,
Chen, & Own, 2010) tentang kesiapan siswa untuk menggunakan
komputer dalam proses belajar.
Aspek kedua, yaitu curiosity akan digambarkan melalui aspek

joyous exploration, deprivation sensitivity, stress tolerance, social
curiosity, dan thrill seeking (Kashdan, Stiksma, Disabato,
McKnight, Bekier, Kaji, & Lazarus, 2018). Aspek ketiga, yaitu grit
dalam bidang akademis (academic grit) digambarkan melalui tiga
aspek yaitu determination, resilience dan focus (Clark & Malecki,
2019). Grit merupakan salah satu konstruk psikologis yang
memiliki sejarah singkat namun memiliki masa lalu yang panjang
karena jika ditelusuri asal-usulnya dari pengamatan Galton dan
Cox bahwa ketekunan atau kegigihan adalah karakteristik utama
yang dimiliki oleh orang-orang sukses (Eskreis-Winkler, Gross, &
Duckworth, 2016).
Kegigihan juga merupakan hal yang mempengaruhi

kesuksesan tujuan akademis dan indikator keberhasilan hidup
lainnya (Duckworth, Peterson, Matthews, & Kelly, 2007), kegigihan
tentunya merupakan hal penting yang perlu dikaji terkait
bagaimana siswa gigih untuk dapat sukses dalam bidang
akademis yang ditekuninya. Dalam perkembangannya, kontruk.
Grit yang awalnya dikembangkan oleh. Duckworth, et.al (2007),
mulai banyak diteliti dalam konteks akademik. Clerk dan Malecki
6
(2019) mengembangkan instrumen grit dalam konteks akademik.

Untuk siswa Indonesia, akan lebih baik konstruk grit yang
digunakan adalah grit dalam konteks akademik sehingga lebih
fokus untuk kesuksesan siswa dalam bidang akademik.
Dari sisi metodologi terkait pengembangan instrumen, di
Indonesia, umumnya analisis terhadap data penelitian dilakukan
dengan menggunakan pendekatan klasik. Umumnya dilakukan
pengujian validitas dan reliabilitas misalnya menggunakan
koefisien alpha. Namun banyak sekali peneliti yang lupa bahwa
asumsi yang perlu dipenuhi dalam menggunakan teori tes klasik
sangat banyak dan sangat sulit dipenuhi, sehingga sebenarnya
pelaporan indeks reliabilitas dari skor total tidaklah tepat
(Chalmers, 2018; McNeish, 2018; Sijtsma, 2009).
Hal yang lebih mengkhawatirkan ketika para peneliti yang

notabenenya seorang akademisi/praktisi di bidang psikologi
namun melaporkan hasil berupa skor hanya sampai bentuk
kategorisasi rendah-sedang-tinggi tanpa menginterpretasikan
hubungannya dengan trait yang diukur. Untuk mengatasi
permasalahan tersebut, penggunaan model Rasch merupakan hal
yang tepat karena memiliki keunggulan ketika inferensi terhadap
trait yang diukur dapat dilakukan secara langsung (Kreiner, 2013;
OECD, 2016b), sehingga penafsiran skor dapat dilakukan dengan
pembuatan level descriptor yang akan mengatasi permasalahan
ini. Untuk dapat menuju pembuatan level descriptor, metodologi
yang akan digunakan dalam penelitian ini merupakan
penggabungan dari metode berbasis SEM dan dilanjutkan dengan
metode berbasis Rasch measurement model, dimana kelebihan
utama berupa "sample-free calibration" sangat bermanfaat dalam
mengembangkan asesmen berskala besar (lihat, Linacre, 2018).
7
Berdasarkan latar belakang yang telah dijelaskan di atas,

maka penulis menganggap perlu adanya penelitian mengenai hal
tersebut agar nantinya hasil dari penelitian tersebut dapat menjadi
acuan bagi para pengambil kebijakan maupun penyelenggara
asesmen berskala besar di Indonesia untuk dapat menggunakan
alat ukur yang disusun.Maka dari itu, untuk merealisasikan hal
tersebut peneliti melakukan penelitian dengan judul
―Pengembangan instrumen untuk mengukur noncognitive skills abad
21-Kemampuan Beradaptasi (Adaptability), Keingintahuan
(Curiousity) dan Kegigihan (Grit).
1.2 Rumusan Masalah
Berdasarkan latar belakang yang telah dikemukakan, disusun

rumusan masalah sebagai berikut:
1. Apakah item-item yang disusun untuk menggambarkan

keterampilan non-kognitif dari siswa Indonesia memiliki
kualitas dan ketepatan yang dapat dipertanggungjawabkan?
2. Bagaimanakah penafsiran tingkatan masing-masing aspek
yang dimiliki siswa untuk dapat menggambarkan
keterampilan non-kognitif yang dimilikinya?
3. Apakah terdapat item-item yang berfungsi berbeda pada
faktor demografis yang berbeda dari siswa Indonesia?
1.3 Tujuan Penelitian
Penelitian ini dilakukan dengan tujuan sebagai berikut:
1. Melakukan penyusunan instrumen non-cognitive skillsyang

terdiri dari aspek adaptability, curiosity dan gritversi
Indonesia untuk model pengukuran keterampilan non-
kognitif siswa Indonesia.
8
2. Melakukan pengujian statistik tingkat item menggunakan

metodologi yang kokoh untuk dapat menghasilkan
indikator-indikator terbaik dalam menggambarkan
keterampilan non-kognitif siswa Indonesia.
3. Menyusun trait level descriptor yang membuat penafsiran
trait secara langsung dari instrumen yang disusun memiliki
kemudahan dalam hal interpretasi.
4. Melakukan pengujian Differential Item Functioning (DIF)
untuk mendapatkan gambaran tentang karakteristik khusus
siswa SMA dan SMK dalam konteks respon terhadap
perilaku yang digambarkan oleh item.
1.4 Manfaat Penelitian
Penelitian ini akan menghasilkan instrumen yang mengukur non-

cognitive skills dengan aspek terbaru yang dikembangkan dari
model pengukuran yang memenuhi kebutuhan dalam konteks
siswa Indonesia. Alat ukur yang dihasilkan melalui penelitian ini
juga telah memiliki level descriptor serta dihasilkan dari kalibrasi
yang bersifat sample-free yang artinya dapat berlaku umum bukan
hanya pada sampel yang digunakan dalam studi validasi.
Instrumen pengukuran ini dapat digunakan dalam angket yang
diberikan pada siswa dalam UNBK, serta dipersiapkan untuk
dapat digunakan dalam pengukuran yang bersifat adaptif.
9
BAB II
KAJIAN TEORITIS
2.1 Keterampilan Non-Kognitif (Non-cognitive skills)
2.1.1 Definisi
Menurut Soemarjadi, Ramanto, dan Zahri (1992), kata

keterampilan sama artinya dengan kata kecekatan. Terampil atau
cekatan adalah kepandaian melakukan sesuatu dengan cepat dan
benar. Seseorang yang dapat melakukan sesuatu dengan cepat
tetapi salah tidak dapat dikatakan terampil. Demikian pula
apabila seseorang dapat melakukan sesuatu dengan benar tetapi
lambat, juga tidak sapat dikatakan terampil. Sedangkan ruang
lingkup keterampilan sendiri cukup luas, meliputi kegiatan berupa
perbuatan, berpikir, berbicara, melihat, mendengar. Dalam
pembelajaran, keterampilan dirancang sebagai proses komunikasi
belajar untuk mengubah perilaku siswa menjadi cekat, cepat, dan
tepat dalam melakukan atau menghadapi sesuatu.
Secara umum, keterampilan (skills) dapat dibagi menjadi dua

jenis, yaitu: keterampilan kognitif dan non-kognitif. Menurut Pierre
et al. (2014), keterampilan kognitif melibatkan "kemampuan untuk
memahami ide-ide kompleks, untuk beradaptasi secara efektif
dengan lingkungan, dapat belajar dari pengalaman, untuk terlibat
dalam berbagai bentuk penalaran, untuk mengatasi hambatan
dengan mengambil pemikiran." Keterampilan non-kognitif
didefinisikan sebagai "pola pemikiran, perasaan dan perilaku"
(Borghans, Meijers, & Ter Weel, 2008) yang ditentukan secara
sosial dan dapat dikembangkan sepanjang hidup untuk
menghasilkan nilai-nilai tertentu. Keterampilan non-kognitif terdiri
dari sifat-sifat pribadi, sikap dan motivasi.
10
2.1.2 Aspek-aspek keterampilan non-kognitif
Berbagai riset telah mengemukakan aspek-aspek dari non-cognitive

skills seperti diantaranya: grit, self-control dan social skills (Zhou,
2016). Sedangkan pengukuran non-cognitive skills yang akan
disusun pada penelitian ini meliputi tiga aspek yang telah
ditentukan berdasarkan kondisi dan kebutuhan siswa di Indonesia
yaitu adaptability, curiosity dan grit. Karena aspek-aspek ini
sebelumnya belum pernah diteliti sebagai tiga dimensi dari
keterampilan kognitif, penelitian ini akan menguji suatu teori baru
yang akan diuji sebagai model pengukuran dalam menggambarkan
keterampilan non-kognitif.
Adapun penjelasan masing-masing aspek akan dijelaskan pada

sub bab selanjutnya.
2.2 Kemampuan Beradaptasi (Adaptability)
Kemampuan beradaptasi (adaptability) dapat didefinisikan sebagai

kemampuan untuk memberi respon yang sesuai dalam perubahan
situasi yang adaserta dapat memodifikasi atau menyesuaikan
perilaku untuk dapat memenuhi keadaan yang berbeda atau orang
yang berbeda. (APA, 2015), adaptability juga bisa dianggap sebagai
kapasitas individu untuk secara konstruktif mengatur fungsi-
fungsi psikologis dan perilaku yang dimilikinya dalam menanggapi
keadaan, kondisi maupun situasi baru, yang berubah-ubah, dan
tidak pasti (Martin et al., 2012).
Adapun aspek-aspek dari kemampuan beradaptasi adalah

cognitive-behavioral adaptability dan affective adaptability (Martin
et al., 2012). Namun meskipun kedua aspek tersebut telah
menjadi konstruk yang kokoh, dalam konteks Indonesia
dibutuhkan kemampuan beradaptasi yang bersifat instrumental
11
karena hal ini terkait dengan pelaksanaan UNBK yang menuntut

kemampuan siswa untuk menggunakan komputer. Oleh karena
itu peneliti menambah satu aspek untuk menggambarkan
kemampuan beradaptasi siswa terhadap hal yang bersifat
instrumental (instrumental adaptability).
Aspek instrumental adaptability akan disusun dari indikator:

computer/internet self-efficacy, self-directed learning, learner control
(in an online context), motivation for learning (in an online context)
dan online communication self-efficacy (Hung, Chou, Chen, & Own,
2010). Penambahan aspek ini menunjukkan suatu kebaruan dari
perkembangan teori kemampuan beradaptasi yang diajukan dan
menambah kesesuaian dengan konteks kebutuhan pada siswa
Indonesia.
2.3 Curiosity
Keingintahuan (curiosity) secara luas dapat didefinisikan sebagai

keinginan untuk memperoleh [informasi dan] pengetahuan baru
dan pengalaman sensorik baru yang memotivasi seseorang untuk
mengeksplorasi". Dengan kata lain, keingintahuan memiliki
setidaknya dua jenis: (a) pencarian informasi, atau keingintahuan
kognitif, yang merangsang pencarian informasi, perilaku
eksplorasi dan (b) keingintahuan sensorik, yang merangsang
pencarian sensasi, perilaku eksplorasi (Litman & Spielberger,
2003). Pendapat lainnya mengemukakan bahwa curiosity
merupakan dorongan atau keinginan untuk menyelidiki,
mengamati, atau mengumpulkan informasi, khususnya ketika
materi itu baru atau menarik (APA, 2015).
Aspek-aspek curiosity yang akan digunakan dalam penelitian

ini adalah joyous exploration, deprivation sensitivity, stress
12
tolerance, social curiosity dan thrill seeking (Kashdan, Stiksma,

Disabato, McKnight, Bekier, Kaji, & Lazarus, 2018), yang
merupakan perkembangan teori terkini dalam penelitian bidang
psikologi yang menggambarkan curiosity. Penggunaan aspek ini
akan menghasilkan alat ukur yang tetap mengacu pada
perkembangan teori terkini pada konsep yang diukur.
2.4 Grit
Duckworth, Peterson, Matthews, dan Kelly (2007)

memperkenalkan kostruk grit yang didefinisikan sebagai trait-level
perseverance and passion for long-term goals, and showed that grit
predicted achievement in challenging domains over and beyond
measures of talent. Seseorang yang memiliki grit dapat diprediksi
mampu mencapai prestasi yang menantang melampaui bakat yang
dimiliki.
Senada dengan Duckworth, et. al. (2007), Departemen

Pendidikan AS mendefinisikan grit sebagai “ketekunan untuk
mencapai tujuan jangka panjang atau tingkat tinggi dalam
menghadapi tantangan dan kesulitan, melibatkan sumber daya
psikologis siswa, seperti pola pikir akademik mereka, kontrol
usaha, dan strategi untuk dapat menyelesaikannya (Shechtman et
al., 2013). Kegigihan adalah bagian dari trait kepribadian yang
ditandai oleh ketekunan dan hasrat untuk mencapai tujuan
jangka panjang. Grit membutuhkan seseorang untuk dapat
bekerja keras dalam mengatasi tantangan dan mempertahankan
upaya dan minat dari waktu ke waktu terlepas dari kegagalan,
kesulitan, dan dataran tinggi yang sedang berlangsung (APA,
2015).
Tiga dimensi dari academic grit yang digunakan pada

penelitian ini yaitu determination, resilience dan focus (Clerk &
13
Malecki, 2019). Pertimbangan lain terkait penggunaan aspek ini

merupakan perkembangan terbaru dalam kerangka teoritis
academic grit. Untuk itu, instrumen yang dikembangkan di
Indonesia akan memenuhi aspek kebaruan dari sisi teoritis jika
aspek ini yang digunakan, yaitu grit dalam konteks akademik
pada siswa Indonesia.
2.5 Trait Level Descriptor
Terdapat banyak penelitian yang membahas penyusunan

tingkatan kategori skor (level descriptor) dari pengukuran dengan
bentuk skala peringkat karena skor-skor tersebut merupakan
gambaran yang terkait erat dengan konstruk yang di ukur
(Alderson, 1991; Papageorgiou, Xi, Morgan, & So, 2015).
Penyusunan level descriptor bertujuan agar skor yang dimiliki
dapat menghasilkan penafsiran yang sangat bermanfaat karena
perbedaan antar individu bukan lagi berupa angka namun dapat
berbentuk perilaku yang diukur (Papageorgiou, Xi, Morgan, & So,
2015). Level descriptor dapat diklasifikasikan berdasarkan tujuan
dan kegunaannya yaitu user-oriented, assessor-oriented,
constructor-oriented (Alderson, 1991), hal ini wajib dilakukan oleh
para peneliti dan praktisi di bidang psikologi dalam menjelaskan
trait yang diukur, yang sangat disayangkan penyusunan hal ini
belum ditemukan pada artikel psikologi di Indonesia.
Hal ini disebabkan oleh pembuatan level descriptor dengan

pendekatan latent trait theory sangat kompleks. Hal yang
membuatnya kompleks adalah ketika seluruh asumsi yang sangat
ketat harus dipenuhi agar dapat menghasilkan penafsiran yang
dapat dipertanggungjawabkan. Terdapat berbagai riset yang
menjelaskan teknis penyusunan level descriptor tahap demi tahap
(lihat, Kane, 2012; Olsen & Nilsen, 2017) yang dapat dijadikan
14
acuan oleh para peneliti. Metode yang dapat digunakan

diantaranya adalah RP62 (lihat, OECD, 2016; Olsen & Nilsen,
2017) yang digunakan dalam asesmen berskala besar (misalnya,
PISA), ataupun RP67 (Huynh, 2006). Oleh karena itu pada
penelitian ini asumsi yang sangat ketat akan diuji agar pada
akhirnya dapat tercipta level descriptor mengenai hasil
pengukuran sikap terhadap lingkungan dengan tujuan user-
oriented dan disusun dengan metode RP62 yang digabungkan
dengan pendekatan Bayesian.
2.6 Hipotesis Model Pengukuran
Karena penelitian ini akan menguji model pengukuran baru untuk

membuktikan apakah adaptability, curiosity dan grit merupakan
aspek yang tepat untuk menggambarkan keterampilan non-
kognitif siswa Indonesia, maka hipotesis yang akan diuji adalah
hipotesis berbasis modeling untuk menguji model berikut ini:
15
Gambar 2.1 Model Pengukuran yang Dihipotesiskan
Hipotesis yang akan diuji adalah hipotesis nihil H0= S-sigma =

0, yang dapat diartikan sebagai tidak adanya perbedaan antara
data dan apa yang diteorikan. Dengan pengertian lain, model yang
menyatakan bahwa adaptability, curiosity dan grit merupakan
aspek dari keterampilan non-kognitif siswa Indonesia fit (cocok)
terhadap data, yang artinya bahwa validitas konstruk dari
pengukuran ini teruji dengan baik. Namun, bukan tidak mungkin
jika model yang diajukan akan mengalami proses modifikasi
berdasarkan analisis statistik yang dilakukan.
Adapun aspek-aspek seperti dapat dilihat pada gambar 2.1

dari kemampuan beradaptasi adalah cognitive-behavioral
adaptability dan affective adaptability (Martin et al., 2012),
16
ditambahkan juga aspek instrumental adaptability akan disusun

dari indikator: computer/internet self-efficacy, self-directed learning,
learner control (dalam konteks daring), motivation for learning
(dalam konteks daring) dan online communication self-efficacy
(Hung, Chou, Chen, & Own, 2010).
Aspek-aspek curiosity: joyous exploration, deprivation

sensitivity, stress tolerance, social curiosity dan thrill seeking
(Kashdan, Stiksma, Disabato, McKnight, Bekier, Kaji, & Lazarus,
2018), yang merupakan perkembangan teori terkini dalam
penelitian bidang psikologi yang menggambarkan curiosity.
Yang terakhir, tiga dimensi dari academic grit yang digunakan

pada penelitian ini yaitu determination, resilience dan focus (Clerk
& Malecki, 2019).
BAB III
METODE PENELITIAN
3.1 Populasi dan Sampel Penelitian
Populasi dalam penelitian ini adalah siswa-siswi SMA dan SMK,

negeri dan swasta, di Jabodetabek, Kab. Pandeglang dan Kota
Makassar kelas 10, 11 dan 12. Pengambilan sampel yang
digunakan dalam penelitian ini yaitu metode nonprobability
sampling dengan menggunakan purposive sampling. Dalam
penelitian ini setelah peneliti mendapatkan daftar populasi,
17
peneliti menentukan sekolah di masing-masing kota secara acak

dengan pertimbangan tiga jenis sekolah harus terpilih: SMA, SMK
dan MA serta pertimbangan jenis sekolah Negeri atau Swasta.
Jumlah sekolah yang diambil datanya sebanyak 20 sekolah. Pada
masing-masing sekolah tersebut akan diambil masing-masing 50
siswa pada sekolah tersebut hingga memenuhi target sampel
sebanyak 1000 sampel. Ukuran sampel 1000 telah memenuhi
persyaratan ukuran sampel minimum berdasarkan penggunaan
metodologi yang dipilih (misal, CFA sebesar 265 dan Rasch sebesar
500).
3.2 Prosedur Penelitian
Prosedur penelitian yang dilakukan melibatkan prosedur

penyusunan instrumen penelitian dan juga prosedur analisis data
beserta metode yang digunakan. Adapun prosedur yang dimaksud
dapat dilihat pada sub bab selanjutnya.
3.2.1 Prosedur Penyusunan Instrumen penelitian
Penyusunan instrumen ini menggunakan skala yang item-itemnya

dikonstruk oleh peneliti. Namun demikian, sebagai bagian dari
proses penyusunan, digunakan juga tiga alat ukur terstandarisasi
yang mengukur ketiga aspek yang digunakan yaitu adaptability,
curiosity dan grit yangmana datanya akan dianalisis dalam
pengujian criterion validity sebagai pembanding instrument yang
dibuat. Adapun alat ukur terstandarisasi yang dimaksud, yaitu:
1. Alat ukur Adaptability

Alat ukur adaptability yang digunakan dalam penelitian ini
adalah Adaptability Scale (Martin et al., 2012). Adapun
aspek-aspek yang diukur adalah cognitive-behavioral
adaptability dan affective adaptability. Namun meskipun
18
kedua aspek tersebut telah menjadi konstruk yang kokoh,

dalam konteks Indonesia dibutuhkan kemampuan
beradaptasi yang bersifat instrumental. Oleh karena itu
peneliti menambah satu aspek untuk menggambarkan
kemampuan beradaptasi siswa terhadap hal yang bersifat
instrumental (instrumental adaptability). Aspek instrumental
adaptability akan disusun dari indikator: computer/internet
self-efficacy, self-directed learning, learner control (in an
online context), motivation for learning (in an online context)
dan online communication self-efficacy (Hung, Chou, Chen, &
Own, 2010).
2. Skala Curiosity
Alat ukur curiosity yang digunakan dalam penelitian ini
adalah alat ukur Five-Dimensional Curiosity Scale (5DC;
Kashdan, Stiksma, Disabato, McKnight, Bekier, Kaji, &
Lazarus, 2018) yang merupakan pengukuran terbaru
terhadap curiosity dari perspektif psikologi. Selain itu, alat
ukur ini juga mengukur aspek yang komprehensif dan
sesuai dengan perkembangan teori terbaru yaitu: joyous
exploration, deprivation sensitivity, stress tolerance, social
curiosity dan thrill seeking.
3. Alat Ukur Grit
Alat ukur grit yang digunakan dalam penelitian ini adalah
alat ukur academic grit (Clerk & Malecki, 2019) yang sesuai
dengan konteks penelitian ini. Alat ukur ini berisi 10 item
yang mengukur tiga dimensi dari academic grit yang sesuai
dengan teori yang digunakan yaitu determination, resilience
dan focus. Pertimbangan lain terkait penggunaan alat ukur
ini adalah bahwa alat ukur academic grit yang digunakan
merupakan perkembangan terbaru dalam pengukuran
19
academic grit. Sehingga instrumen yang dikembangkan di

Indonesia akan memenuhi aspek kebaruan dari sisi teoritis.
Dalam melakukan adaptasi terhadap keempat alat ukur di atas,

peneliti mengacu pada tata cara yang dijelaskan dalam Guidelines
for the Process of Cross-Cultural Adaptation of Self-Report Measures
(Beaton, Bombardier, Guillemin & Ferraz, 2000). Proses adaptasi
yang peneliti lakukan adalah sebanyak 5 tahap. Adapun
penjabaran mengenai prosesnya adalah sebagai berikut:
(1) Initial Translation: Pada tahap ini peneliti

menerjemahkan skala asli ke bahasa Indonesia.
(2) Synthesis of Translations: Pada proses ini peneliti juga
mempertimbangkan faktor budaya dalam memilih hasil
terjemahan.
(3) Back Translation: Pada tahap ini dilakukan
penerjemahan kembali ke bahasa awal skala. Proses ini
dilakukan untuk melihat apakah terdapat perbedaan
makna apabila skala dalam Bahasa Indonesia
diterjemahkan ke bahasa awal. Apabila terdapat
perbedaan makna maka peneliti harus menelaah kembali
item tersebut.
(4) Expert Committee: Setelah memperbaiki terjemahan
dengan mempertimbangkan hasil back translation
peneliti mendiskusikan hasil tersebut dengan para ahli
konten.
(5) Test of the Prefinal Version: Pada tahap ini, skala yang
telah disepakati melalui hasil diskusi diujicobakan
kepada beberapa respoden.
Tahapan ini untuk mengetahui apakah skala yang telah
diadaptasi dapat dipahami, item-item Berbahasa Indonesia ini
20
telah melalui proses pengadaptasian pada tahap 1-4, tahap 5

memang tidak digunakan karena tahap tersebut tidak perlu
dilakukan karena metode yang digunakan telah menghasilkan true
score serta standard error untuk masing-masing true score (Umar,
2015).
Item-item hasil adaptasi akan digunakan sebagai anchor. Item

ini akan dijadikan acuan dalam melakukan penulisan item baru
maupun posisi item tersebut dalam trait yang diukur. Item ini juga
berfungsi sebagai acuan statistik karena item akan
menggambarkan perilaku yang diukur berdasarkan konten, maka
penciptaan item baru akan mempertimbangkan gradasi yang
dihasilkan dari item-item terstandarisasi. Item-item baru akan
disusun sebanyak 5 item per-indikator dari masing-masing
dimensi (adaptability, curiosity dan grit).
Meskipun jumlah item terkesan besar dan membutuhkan

waktu lama dalam pengisiannya, pada versi akhir, tidak seluruh
item akan diadministrasikan. Seleksi penggunaan item akan dapat
bersifat adaptif yang menyesuaikan dengan kebutuhan siswa.
Namun jika tes bersifat adaptif belum dapat dilaksanakan, maka
seleksi item yang diadministrasikan pada siswa.
Untuk proses mengkonstruk item, tahapan yang dilakukan

adalah melakukan adaptasi alat ukur yang sudah baku serta
penyusunan item secara mandiri. Adapun untuk menentukan
definisi konstruk dan definisi operasional maka peneliti
menyelenggarakan FGD yang dihadiri oleh pakar pendidikan dari
Puspendik serta akademisi yang ahli di bidang pendidikan dan
pengukuran.
3.1.1. FGD untuk menentukan konstruk dan definisi tiap

dimensi
21
FGD dilakukan pada tanggal 22 Juli 2019 di Gedung Pusat

Layanan Psikologi UIN Syarif Hidayatullah Jakarta. Adapun tujuan
FGD ini adalah menentukan masing-masing konstruk, dimensi
dan definisi operasional sehingga bisa dilanjutkan untuk membuat
item pada tiap dimensi yang diukur. Dalam FGD, didiskusikan
mengenai konstruk yang mewakili non-cognitive skills untuk
mendukung prestasi siswa-siswi Indonesia. Dari konstruk yang
sudah didiskusikan, disepakati ada 3 konstruk dan definisi
operasional masing-masing konstruk serta dimensinya, untuk
kemudian akan dibuatkan instrumen untuk mengukurnya. Ketiga
konstruk serta definisi operasional hasil dari FGD tersebut adalah
sebagai berikut:
Adaptability
• Kemampuan beradaptasi (adaptability): kemampuan untuk
memberi respon yang sesuai dalam perubahan situasi yang
ada serta dapat memodifikasi atau menyesuaikan perilaku
untuk dapat memenuhi keadaan yang berbeda atau orang
yang berbeda (APA, 2015); adaptability juga bisa dianggap
sebagai kapasitas individu untuk secara konstruktif mengatur
fungsi-fungsi psikologis dan perilaku yang dimilikinya dalam
menanggapi keadaan, kondisi maupun situasi baru, yang
berubah-ubah, dan tidak pasti (Martin et al., 2012).
• Aspek-aspek dari kemampuan beradaptasi adalah cognitive-
behavioral adaptability dan affective adaptability (Martin et al.,
2012), ditambahkan juga aspek instrumental adaptability akan
disusun dari indikator: computer/internet self-efficacy, self-
directed learning, learner control (dalam konteks daring),
motivation for learning (dalam konteks daring) dan online
communication self-efficacy (Hung, Chou, Chen, & Own, 2010).
22
• Konsep adaptability sendiri saat ini diperluas dengan

mempertimbangkan adaptasi dan penyesuaian dari kognitif,
perilaku dan perasaan individu ketika menghadapi berbagai
macam ketidakpastian dan sesuatu yang baru.
• Definisi masing-masing dimensi dari adaptability adalah
sebagai berikut. Cognitive- Behaviour Adjustment adalah
modifikasi dan penyesuaian pemikiran untuk berhadapan
dengan situasi yang baru dan tidak pasti dan juga penyesuaian
perilaku dalam menghadapi situasi yang sama (Heckhausen &
Schulz, 1995; Heckhausen, Wrosch, & Schulz, 2010). Affective
adjustment adalah kecenderungan seseorang dalam merespon
situasi yang tidak pasti dan situasi baru. ICT Adaptability
terkait dengan kemampuan untuk menyesuaikan diri dengan
teknologi dan software baru yang tersedia. Adapun indikator
dari dimensi ini adalah (1) keinginan untuk menguasai
kompetensi ICT yang baru (2) opini dari individu pribadi terkait
dengan level penguasaannya terhadap teknologi/alat yang
paling sering digunakan (3) opini dari individu pribadi terkait
dengan level penguasaannya terhadap software yang paling
sering digunakan.
Curiosity
• Keingintahuan memiliki setidaknya dua jenis: (a) pencarian
informasi, atau keingintahuan kognitif, yang merangsang
pencarian informasi, perilaku eksplorasi dan (b) keingintahuan
sensorik, yang merangsang pencarian sensasi, perilaku
eksplorasi (Litman & Spielberger, 2003).
• Pendapat lainnya mengemukakan bahwa curiosity merupakan
dorongan atau keinginan untuk menyelidiki, mengamati, atau
mengumpulkan informasi, khususnya ketika materi itu baru
atau menarik. (APA, 2015).
23
• Aspek-aspek curiosity: joyous exploration, deprivation

sensitivity, stress tolerance, social curiosity dan thrill seeking
(Kashdan, Stiksma, Disabato, McKnight, Bekier, Kaji, &
Lazarus, 2018), yang merupakan perkembangan teori terkini
dalam penelitian bidang psikologi yang menggambarkan
curiosity.
• Definisi masing-masing dimensi dari curiosity adalah sebagai
berikut. Joyous exploration yang berarti melakukan explorasi
terhadap hal-hal atau pengalaman yang membahagiakan,
deprivation sensitivity yaitu peka terhadap sesuatu yang tidak
semestinya, stress tolerance yaitu toleransi terhadap stress,
social curiosity yang berarti memiliki keinginan untuk
membangun hubungan interpersonal dan thrill seeking yang
berarti berani mengambil resiko untuk mendapatkan
pengalaman yang menyenangkan (Kashdan, Stiksma,
Disabato, McKnight, Bekier, Kaji, & Lazarus, 2018).
Grit
• Grit didefinisikan sebagai “ketekunan untuk mencapai tujuan
jangka panjang atau tingkat tinggi dalam menghadapi
tantangan dan kesulitan, melibatkan sumber daya psikologis
siswa, seperti pola pikir akademik mereka, kontrol usaha, dan
strategi untuk dapat menyelesaikannya (Shechtman et al.,
2013); Kegigihan adalah bagian dari trait kepribadian yang
ditandai oleh ketekunan dan hasrat untuk mencapai tujuan
jangka panjang. Grit dibutuhkan seseorang untuk dapat
bekerja keras dalam mengatasi tantangan dan
mempertahankan upaya dan minat dari waktu ke waktu
terlepas dari kegagalan, kesulitan, dan dataran tinggi yang
sedang berlangsung (APA, 2015).
24
• Tiga dimensi dari academic grit yang digunakan pada penelitian

ini yaitu determination, resilience dan focus (Clerk & Malecki,
2019).
• Definisi dari dimensi determination dalam grit adalah
Kemampuan seseorang untuk membuat pilihan-pilihan dan
mengelola hidupnya. Sedangkan resilience dalam grit
didefinisikan sebagai proses beradaptasi dan mengatasi
kesulitan, trauma, ancaman atau sumber stres yang signifikan
secara baik dan cepat. Sedangkan definisi dari dimensi focus
dalam grit adalah kemampuan memusatkan perhatian pada
penyelesaian tugas yang diberikan
3.1.2. Administrasi Tes
Dari definisi operasional masing-masing konstruk dan dimensi,

maka dibuat item yang sesuai. Item-item ini akan diuji validitas
konstruk setelah diberikan respon oleh siswa siswi SMA/MA yang
dijadikan sampel penelitian. Pada awalnya, disusun 68 item yang
mengukur ketiga aspek (dimensi) non-cognitive skills. Adapun ke-
68 item yang diujikan kepada responden dapat dilihat pada
lampiran A. Mengingat pada penelitian ini tidak dilakukan proses
ujicoba alat ukur, alat ukur berisi 68 item diberikan langsung
kepada responden dalam satu kali proses pengambilan data.
Prosedur ini umum digunakan mengingat metodologi statistik
yang digunakan akan dapat mengkoreksi kesalahan pengukuran
dari item.
Peneliti akan menampilkan blueprint akhir instrumen yang
telah disusun pada akhir bab ini agar tidak menimbulkan
kebingungan akan perubahan yang terjadi pada instrument versi
awal dengan instrument versi akhir. Instrumen versi akhir telah
melewati berbagai pengujian statistic dan menghasilkan produk
akhir berupa instrument yang siap digunakan beserta descriptor
25
yang disusun dalam rangka kemudahan penafsiran dari

instrument yang telah disusun. Pada bagian selanjutnya, akan
dijelaskan tahap pengumpulan data
3.2. Tahap Pengumpulan Data
Pada tahap ini, data instrumen adaptasi maupun konstruksi item

sendiri akan diberikan kepada siswa-siswi sekolah/madrasah di
tiga daerah, yaitu Jabodetabek, Pandeglang, dan Makassar.
Pertimbangan pemilihan sekolah/madrasah dilakukan dengan
melihat variabilitas data. Misalnya, baik siswa dari SMA/SMK
maupun MA diambil untuk penelitian ini. Selain itu, pertimbangan
pemilihan sekolah juga dilihat dari status negeri dan swasta,
akreditasi sekolah yang bervaiasi, serta rata-rata nilai UNBK 2019
yang tinggi dan rendah. Dengan mempertimbangkan variabilitas
data yang diambil, diharapkan pengujian validitas instrument
serta pembuatan trait level descriptor menjadi lebih baik.
Gambar 2. Daftar Kabupaten/Kotamadya yang diambil untuk

lokasi penelitian
Adapun tabel dibawah ini berisi daftar nama sekolah, beserta jenis
sekolah, kategori negeri ataupun swasta beserta nilai UNBK 2019
dari sekolah tersebut (Lihat Tabel 5).
26
Tabel 5 Daftar Sampel Tingkat Sekolah
No Provins Kota/Kabu Nama Sekolah Jenis Negeri UNBK

i paten /Swasta 2019
(UNBK)
1 Banten Kab. SMA NEGERI SMA Negeri 80.44 (>

(53.25) Pandeglang CAHAYA MADANI rata-
BOARDING rata)
SCHOOL
2 Banten Kab. MA IBAD MA Swasta 57.83 (>
(53.25) Pandeglang ARRAHMAN rata-
rata)
3 Banten Kab. SMA NEGERI 16 SMA Negeri 38.09 (<
(53.25) Pandeglang PANDEGLANG rata-
rata)
4 Banten Kab. MA DARUL IRFAN MA Swasta 37.07 (<
(53.25) Pandeglang TENJOLAHANG rata-
rata)
5 Banten Kab. SMKN 2 SMK Negeri 42.05 (<
(44.06) Pandeglang PANDEGLANG rata-
rata)
6 DKI Jakarta SMA NEGERI 68 SMA Negeri 84.47 (>
(66.90) Pusat rata-
rata)
7 DKI Jakarta MA AL- MA Swasta 44.29 (<
(66.90) Pusat MUDDATSIRIYAH rata-
rata)
8 Banten Kota SMA NEGERI 6 SMA Negeri 70.88 (>
(53.25) Tangsel TANGSEL rata-
rata)
9 Jabar Kota Bogor MA AL-HAITSAM MA Swasta 50.30 (<
(53.54) rata-
rata)
10 Banten Kota SMK YMJ CIPUTAT SMK Swasta 40.90 (<
(44.06) Tangsel rata-
rata)
11 Jabar Kota Depok SMK NEGERI 2 SMK Negeri 53.04 (>
(45.84) DEPOK rata-
rata)
12 Banten Kota SMAN 1 TANGSEL SMA Negeri 69.02 (>
(53.25) Tangsel rata-
rata)
13 Banten Kab. MAN 2 MA Negeri 53.01 (<
(53.25) Tangerang TANGERANG rata-
rata)
14 Jabar Kota Bekasi SMA NEGERI 5 SMA Negeri 80.45 (>
(53.54) BEKASI rata-
rata)
15 Banten Kota SMK ISLAMIYAH SMK Swasta 47.38 (>
(44.06) Tangsel CIPUTAT rata-
rata)
16 Sulsel Kota MAN 3 MAKASSAR MA Negeri 51.20 (>
27
(46.21) Makassar rata-

rata)
17 Sulsel Kota MA PESANTRAN MA Swasta 62.70 (>
(46.21) Makassar IMMIM rata-
rata)
18 Sulsel Kota SMA AMANAH SMA Swasta 33.70 (<
(46.21) Makassar NUSANTARA rata-
rata)
19 Sulsel Kota MAS TAMAN MA Swasta 32.56 (<
(46.21) Makassar PENDIDIKAN rata-
ISLAM rata)
20 Sulsel Kota SMK NEGERI 7 SMK Negeri 45.88 (>
(41.27) Makassar MAKASSAR rata-
rata)
Pengambilan data ke 20 sekolah tersebut dilaksanakan pada

pertengahan bulan Oktober 2019. Administrasi tes dilaksanakan
dengan paper-pencil test dan tidak menggunakan kuesioner
berbasis komputer. Responden juga diminta untuk mengisi
informed consent yang menyatakan kesediaan untuk
berpartisipasi dalam penelitian ini.
3.3. Tahap Analisis Data dan Pembuatan Trait Level

Descriptor
Penelitian akan dilaksanakan dalam beberapa tahapan untuk

menghasilkan instrumen pengukuran keterampilan non-kognitif
siswa Indonesia, adapun proses yang dilakukan yaitu:
1. Melakukan adaptasi terhadap tiga instrumen terstandarisasi

dari Bahasa asal ke Bahasa Indonesia dengan tata cara yang
tepat.
2. Item-item hasil adaptasi akan digunakan sebagai acuan
awal penulisan item-item baru berjumlah 10-15 item yang
akan disusun oleh penulis.
3. Mengkonstruk item untuk skala adaptability, curiosity, dan
grit dalam konteks akademik.
28
4. Item-item hasil adaptasi dan item baru yang disusun oleh

penulis akan diadministrasikan pada siswa selaku
responden penelitian yang telah ditentukan dengan
mempertimbangkan variabilitas data siswa (siswa dari
sekolah di kota dan desa, swasta dan negeri, akreditasi
tinggi dan rendah, memiliki nilai UN bagus dan rendah,
madrasah serta sekolah).
5. Data berupa pola respon siswa terhadap ketiga alat ukur
tersebut akan digunakan untuk membangun model yang
dihipotesiskan dimana model ini akan dianalisis dengan
metode CFA (confirmatory factor analysis).
6. Jika didapat model yang fit, artinya bahwa secara statistik
adaptability, curiosity dan grit merupakan aspek dari
keterampilan non-kognitif siswa Indonesia, analisis data
akan dilanjutkan dengan metode yang dapat mendiagnosis
model pengukuran terbaru hingga tingkat item.
7. Dilakukan kalibrasi terhadap alat ukur baru dengan metode
Rasch model pada model yang telah fit sebagai pengukuran
keterampilan non-kognitif siswa Indonesia. Pada tahap ini,
item-item hasil adaptasi akan membantu peneliti untuk
mengetahui keberfungsian serta kualitas item baru yang
disusun oleh peneliti. Item-item yang disusun oleh peneliti
dapat dibandingkan secara langsung dengan item-item
terstandarisasi baik dari segi item fit, perbandingan perilaku
pada konten maupun apakah item baru yang disusun
memiliki kualitas yang baik.
8. Hasil analisis dengan metode Rasch model akan
menghasilkan, indeks ketepatan tingkat item, pada
responden, dimensionalitas secara statistik, serta pengujian
DIF (differential item functioning) untuk melihat apakah item-
29
item adaptasi maupun yang disusun berfungsi berbeda pada

karakteristik siswa yang berbeda (misal, laki-laki vs
perempuan atau SMA vs SMK).
9. Hasil pengujian statistik tingkat lanjut diakhiri dengan
pembuatan trait level descriptor. Deskriptor ini akan
menggambarkan skor (tingkatan trait) yang dimiliki siswa
berdasarkan trait yang diukur. Capaian dari penyusunan
trait level deskriptor dapat dicontohkan seperti, jika ada
siswa memiliki skor 70 dan masuk kategori keterampilan
non-kognitif yang tinggi, maka akan dapat tergambar
bagaimanakah bentuk adaptability, curiosity dan grit yang
dimiliki siswa tersebut dalam bentuk perilaku yang diukur
lewat item.
Setelah kesembilan tahapan tersebut dilaksanakan, akan

dihasilkan suatu instrumen baru yang akan dinamakan Asesmen
Keterampilan Non-Kognitif Siswa Indonesia. Kelebihann instrumen
ini adalah memiliki argumen teoritis yang sangat kuat dan
terbaru, memiliki validitas konstruk yang teruji, telah dikalibrasi
menggunakan metode Rasch model yang bersifat "sample-free"
beserta penggunaan statistik-statistik tingkat item yang memenuhi
objektivitas pengukuran. Kelebihan lainnya adalah melalui
instrument ini akan dihasilkan trait level descriptor yang menjadi
acuan penafsiran pengukuran keterampilan non-kognitif yang
tepat bagi siswa SMA dan SMK di Indonesia.
3.4. Blueprint IANSA-36 Item
Setelah sebelumnya telah dijelaskan bahwa item yang

diadministrasikan berjumlah 68 item, berdasarkan kalibrasi
(analisis) awal dengan berbagai metode yaitu Partial Credit Model
(PCM) dan Item Factor Analysis, didapat hasil akhir bahwa
30
terdapat 36 item yang memiliki karakteristik psikometris yang baik

dalam menggambarkan keterampilan non-kognitif siswa Indonesia.
Oleh karena itu, peneliti menampilkan blueprint akhir dari
Instrumen yang berisi 36 item yaitu sebagai berikut:
Tabel 3 Blueprint akhir instrument 36 item
Aspek Indikator Item Total

Adaptability Cognitive-behavioral A1-A6 6
Instrumental A7-A12 6
Curiosity Challenge C1-C3 3
Solving the problems C6-C10 5
Passion for adventures C4 C5 C21 C24 4
Grit Determination G1-G4; G14-G18 6
Resilience G7-G12 6
Total 36
Selain itu, peneliti memberikan nama kepada instrumen akhir

yang berisi 36 item yang menggambarkan adaptability, curiosity,
dan grit dari siswa Indonesia. Instrumen ini dinamakan Indonesian
Academic context Non-Cognitive Skills Assessment (IANSA) atau
dalam Bahasa Indonesia disingkat menjadi Asesmen ketrampilan
Non-cognitive dalam konteks Akademik Siswa Indonesia (ANAS).
Peneliti juga menghapus blueprint alat ukur awal yang berisi 68
item. Hal ini dilakukan untuk menghindari kesalahan penggunaan
blueprint pada alat ukur IANSA (ANAS) serta kemudahan praktis
dalam mengacu pada blueprint versi akhir.
3.5 Metode Analisis Data
Metode analisis data yang digunakan pada penelitian ini terbagi

menjadi dua, yang pertama adalah metode berbasis Rasch
measurement model sedangkan yang kedua adalah metode
31
berbasis analisis faktor. Metode analisis data yang terakhir adalah

penyusunan descriptor dengan metode bookmark RP67 yang juga
akan dijelaskan. Adapun metode tersebut akan dijelaskan pada
sub-bab selanjutnya.
3.5.1 Rasch Model
Rasch model, mengambil nama dari Georg Rasch, adalah model

psikometri untuk membuat pengukuran dari data kategorik.
Seseorang yang memiliki kemampuan yang lebih tinggi akan
memiliki peluang yang lebih besar untuk menjawab soal dengan
benar. Hal yang sama juga berlaku untuk item. Item yang memiliki
tingkat kesulitan lebih tinggi memiliki peluang diselesaikan lebih
rendah dibandingkan dengan item lainnya (Rasch, 1960).
Sejak awal abad 20 sampai saat ini pengukuran di bidang

psikologi masih didominasi oleh pendekatan psikometrik klasik, di
mana pengujian kualitas instrumen dilakukan dengan melihat
validitas dan reliabilitas yang sangat bergantung kepada sampel
orang yang digunakan untuk pengujian psikometrik dimaksud. Uji
psikometrik dimaksud tidak berhasil mengkonstruksi alat ukur
sesuai dengan prinsip-prinsip pengukuran yang ideal, antara lain,
unit ukuran yang dihasilkan tidak memiliki interval yang sama.
Skor yang dihasilkan dari alat ukur semacam ini tidak bersifat
linear dengan atribut psikologi (trait) yang diukur (Hayat,
komunikasi personal 1 September 2019).
Di samping itu, tafsir terhadap skor yang bersifat normatif

dari alat ukur psikologi dengan menggunakan pendekatan
psikometrik klasik sangat rentan terhadap sampel orang yang
dijadikan kelompok rujukan (norm group). Skor normatif tersebut
tidak memungkinkan dilakukan penafsiran yang bersifat
32
substantif, yakni makna skor yang diperoleh dikaitkan dengan

atribut psikologis (trait) yang diukur (lihat, Choppin, 1982; Wright
& Stone, 1979).
Untuk mengatasi kelemahan dari pendekatan psikometrik

klasik tersebut, sejak tahun 1960-an muncul pendekatan
psikometrik modern yang disebut Item Response Theory (IRT).
Terdapat beberapa model pengukuran yang termasuk kategori.
Model pengukuran tersebut dibedakan berdasarkan jumlah
parameter item yang dimasukkan ke dalam model yaitu model
satu parameter, dua parameter, dan tiga parameter. Untuk model
satu parameter hanya parameter tingkat kesukaran item yang
dimasukkan ke dalam model. Untuk model dua parameter, di
samping tingkat kesukaran item ditambah dengan parameter daya
pembeda. Sedangkan untuk model tiga parameter, di samping
tingkat kesukaran dan daya pembeda item ditambah dengan
parameter tebakan (guessing) (lihat, Lord & Novick, 1968).
Di samping ketiga model IRT tersebut, terdapat model yang

dikembangkan oleh Georg Rasch (1960) yang secara matematis
parallel dengan model satu parameter IRT. Oleh karenanya, Model
Rasch sering digolongkan sebagai bagian dari model IRT (Maydeu-
Olivares & Montano, 2013). Namun demikian, terdapat perbedaan
filosofis yang mendasar antara Model Rasch dan model IRT. Salah
satu perbedaan dimaksud berkaitan dengan pendekatan
pemodelan di mana model IRT umumnya digunakan agar
memperoleh model yang cocok (fit) dengan data, sedangkan Model
Rasch digunakan untuk mengecek apakah data cocok (fit) dengan
model pengukuran (de Ayala, 2009).
Perbedaan lainnya terletak pada motivasi, penggunaan, dan

pengembangannya sebagai model pengukuran (Linacre, 2018).
33
Model Rasch sebagai model pengukuran memiliki keunggulan

yaitu, antara lain, linieritas skala dan objektivitas di mana
estimasi parameter item dan orang dapat dipisahkan dan tidak
saling berpengaruh (Rasch, 1966). Model Rasch telah memiliki
sejarah panjang dan berkontribusi terhadap perkembangan bidang
pendidikan dan pengukuran di Indonesia (Putra, Suryadi, & Hayat,
2018).
Model Rasch pada awalnya dikembangkan untuk menganalisis

item berbentuk dikotomi (Rasch, 1960). Seiring dengan kebutuhan
pengukuran di bidang psikologi dan sosial yang menggunakan
berbagai bentuk dan format item, Model Rasch dikembangkan
untuk dapat menganalisis item berbentuk politomi seperti Rating
Scale Model (RSM; Andrich, 1978) dan Partial Credit Model (PCM;
Masters, 1982), serta model dengan karakteristik khusus seperti
Many-Facet Rasch Measurement (MFRM; Linacre, 1994). Mengingat
IANSA memiliki format skala Likert, terdapat dua model yang
dapat digunakan yaitu RSM dan PCM. Pada penelitian ini, PCM
adalah model yang digunakan dalam mengevaluasi karakteristik
psikometris dari IANSA (ANAS).
Partial Credit Model. Dalam berbagai instrumen pengukuran,

respons yang dihasilkan mungkin saja menggambarkan derajat
„kesuksesan‟ dalam menempuh item tersebut dibandingkan hanya
berbentuk benar atau salah. Agar bentuk respon seperti itu dapat
dimodelkan, model yang dapat digunakan adalah Partial Credit
Model (PCM) (Masters, 1982). Model ini digunakan ketika skor yang
didapat dari item memiliki lebih dari 2 kategori jawaban yaitu item
politomi. Namun hal yang perlu diperhatikan adalah bahwa
kategori skor dari item PCM harus memiliki urutan
34
untuk menggambarkan peningkatan kompetensi pada suatu trait

yang diukur.
Sebagai contoh, pertimbangkan ketika suatu item memiliki dua

kategori skor: 0 dan 1. Karena model itu dianalisis dengan model
sederhana Dichotomous Rasch Model, maka pertimbangan peneliti
dalam menafsirkan hanya terfokus pada skor 0 dan skor 1 yang
artinya bahwa responden yang memiliki kemampuan yang
semakin tinggi akan cenderung lebih berpeluang untuk
mendapatkan skor 1 dibandingkan mendapat skor 0. Dengan cara
penafsiran yang sama, ketika ada kategori lainnya seperti 1 dan 2,
maka responden dengan kemampuan yang lebih tinggi akan
berpeluang lebih besar untuk mendapatkan skor 2 apabila
dibandingkan dengan mendapatkan skor 1.
Dengan demikian, jika kita mempertimbangkan seluruh respon
yang tersedia pada sebuah item yang diteorikan merupakan partial
credit, maka responden yang memiliki kemampuan yang tinggi
diekspetasikan akan mendapatkan skor yang lebih tinggi
dibandingkan dengan responden yang memiliki kemampuan yang
rendah. Oleh karena itu, dapat disimpulkan bahwa meningkatnya
skor pada sebuah item harus menggambarkan kenaikan tingkat
kesukaran dalam suatu tugas tertentu (Wu, Tam & Jen, 2016).
Adapun persamaan dasar dari Partial Credit Model (PCM) adalah
sebagai berikut (de Ayala, 2009):
[∑ ] [∑ ]
( | )
∑ [∑ ] ∑ [∑ ]
Parameter transition location untuk item ke-j yaitu , dikenal

juga sebagai ‗step difficulty‘ atau ‗step parameter‘. Namun, karena
PCM tidak hanya diterapkan pada tes yang bersifat performansi
maksimal yaitu asesmen nonkognitif, agar tidak terjadi kesalahan
35
dalam menginterpretasikan step maka parameter disebut

sebagai transition location parameter.
Sehingga, menggambarkan tingkat kesukaran relatif pada

suatu kategori h untuk terpilih dibandingkan dengan kategori (h-
1). Penggunaan subskrip pada m (yaitu, ) menunjukkan bahwa
banyaknya kategori dapat bervariasi antara 1 item dengan item
lainnya, sehingga model ini cocok digunakan ketika banyaknya
respon jawaban bervariasi seperti misalnya gabungan antara skor
dikotomi dan politomi pada alat ukur yang sama.
Asumsi. Agar menghasilkan hasil estimasi yang akurat, ada

beberapa asumsi dari model Rasch yang perlu dipenuhi, yaitu: (1)
konstruk bersifat unidimensional, yaitu hanya satu trait yang
diukur, (2) local independence, yaitu respon yang diberikan oleh
penempuh tes terhadap satu item harus bersifat independen
secara statistik dengan respon terhadap item lainnya dalam suatu
tes, (3) monotonicity, yaitu semakin tingginya skor mengacu pada
tingkat abilitas yang lebih tinggi (de Ayala, 2009).
Model Fit. Uji menguji apakah item cocok (fit) dengan Model
Rasch, indeks yang digunakan adalah Infit Mean Square (MNSQ)
dan Outfit Mean Square (MNSQ). Nilai harapan terhadap Infit atau
Outfit untuk setiap butir adalah 1.0, dengan rentang nilai yang
dapat diterima antara 0.5 hingga 1.5. Nilai yang berada di luar
batas tersebut menunjukkan kurangnya konsistensi antara butir
atau orang dengan Model Rasch (DiStefano & Morgan, 2010).
3.5.2 Item Factor Analysis (IFA)
Metode analisis faktor terhadap data kategorik disebut oleh Cai

(2010) sebagai IFA (item factor analysis) sebagaimana ia
menyebutkan ―item factor analysis (IFA) is factor analysis of
36
categorical item-level data‖. Takane & de Leeuw (1987) menjelaskan

juga metode-metode estimasi parameter yang tersedia untuk
mengestimasi parameter dari data dikotomi, dimana yang pertama
adalah estimator marginal maximum likelihood (MML) yang
digunakan pada IRT yang pertama kali diperkenalkan oleh Bock
(1972), Bock & Aitkin (1981) dan Thissen (1982), sedangkan yang
kedua adalah analisis faktor untuk variabel diskrit yang
merupakan pendekatan yang diprakarsai oleh Christoffersson
(1975) yang kemudian dikembangkan oleh Muthén (1978, 1983,
1984) dan Muthén & Christoffersson (1981).
Kerangka kerja dan prosedur CFA dengan indikator kategorik

sangat berbeda dengan teori CFA dengan indikator kontinu.
Misalnya, S adalah matriks korelasi dan bukan matriks kovarians
(misalnya, matriks korelasi tetrachoric digunakan untuk indikator
biner; matriks korelasi polychoric digunakan untuk indikator
polinom). Dalam program Mplus, berbagai model respons untuk
indikator kategorik ditempatkan dalam kerangka pemersatu
dengan menggunakan respons variabel laten kontinu, y*.
Dalam kerangka respon variabel laten, y* mencerminkan

karakteristik mendasar yaitu kontinu dan terdistribusi secara
normal yang diperlukan untuk merespons kategori kategori
tertentu dari variabel kategorik yang teramati. Kerangka kerja ini
mengasumsikan bahwa variabel laten dapat diukur dengan cara
yang lebih elegan. Korelasi dari y* digunakan pada matriks S
daripada korelasi dari variabel yang teramati. Y* terkait dengan
variabel kategorik yang teramati dengan parameter threshold (t).
Dalam kasus dimana respon terhadap indikatornya biner (y =

0 atau 1), threshold adalah titik pada y* dimana y = 1 jika
threshold terlampaui (dan di mana y = 0 jika threshold tidak
37
terlampaui). Item dengan respon politomi memiliki parameter

threshold lebih dari satu. Secara khusus, besarnya threshold sama
dengan banyaknya kategori dikurangi 1; misalnya, respon item
berskala ordinal dengan tiga kategori (y = 0, 1, atau 2) memiliki
dua threshold (yaitu, titik di y* di mana y = 1, titik pada y* di mana
y = 2). Threshold adalah bagian dari mean structure dari model
CFA, dan dapat digunakan dalam analisis multigroup atau dalam
kasus di mana peneliti ingin mengubah parameter model CFA
menjadi parameter IRT.
Selain itu, karena matriks korelasi untuk y* digunakan sebagai

matriks S, varians yang teramati dari indikator tidak dianalisis.
Ada dua cara yang dapat digunakan. Dalam metode pertama dan
yang lebih umum, varians dari y* ditetapkan nilainya sebesar 1.0
untuk semua item. Meskipun pilihan untuk melakukan
standarisasi skala ukuran menjadi 1.0 adalah kewenangan
peneliti, pendekatan ini sesuai dengan anggapan bahwa matriks
korelasi input (S) adalah matriks kovarians y* dengan unit varians
pengukuran. Akibatnya, varians residual dari indikator kategorik
tidak diidentifikasi dan bukan merupakan bagian dari model CFA
(tidak seperti CFA dengan indikator kontinu). Dengan demikian,
kesalahan pengukuran (θ) pada model CFA dengan indikator
kategorik bukanlah parameter bebas, namun mencerminkan 1
dikurangi perkalian dari muatan faktor yang dikuadratkan dan
varians faktor, yaitu:
Secara sederhana, θ adalah 1 dikurangi muatan faktor

terstandarisasi yang dikuadratkan. Dalam Mplus, pendekatan ini
disebut sebagai parameterisasi delta (Muthén & Asparouhov,
2002). Selain parameterisasi delta, pendekatan kedua untuk
38
melalukan scaling pada y* adalah theta parameterization. Dalam

metode ini, varians residual dari indikator adalah bagian dari
model CFA namun nilainya fixed pada satu kesatuan. Akibatnya,
varians dari y* dihitung sebagai penjumlahan varians residual
ditambah varians dari variabel laten, yaitu:
Dimana nilai = 1 untuk semua indikator.
Meskipun lebih jarang digunakan daripada parameterisasi

delta, parameterisasi theta lebih sesuai dengan model normal dari
IRT dua parameter. Selain itu, metode ini berguna bila struktur
varians residual dapat menjadi aspek penting dari model
pengukuran. Pendekatan delta dan theta adalah parameterisasi
yang setara dengan model CFA dan dengan demikian memberikan
statistik goodness of fit yang identik.
BAB IV
HASIL ANALISIS DATA
4.1 Analisis Deskriptif

Hasil analisis deskriptif berupa karakteristik demografis responden
seperti rata-rata usia, banyaknya responden perwilayah, jenis
kelamin responden dan lain-lain dapat dilihat pada tabel di bawah
ini:
39
Tabel 4.1 Hasil analisis deskriptif dan karakteristik demografis

responden
Variabel Jumlah %
Age: M = 17.24, SD = 0.995
Jenis Kelamin:
Laki-laki 461 46.1
Perempuan 539 53.9
Jenis Sekolah:
SMA 350 35
SMK 250 25
MA 400 40
Status Sekolah:
Negeri 553 55.3
Swasta 447 44.7
Jenjang kelas:
10 427 42.7
11 266 26.6
12 307 30.7
Nilai UNBK 2019:
> rata-rata provinsi 547 54.7
< rata-rata provinsi 453 45.3
Seperti dapat dilihat pada tabel di atas, berdasarkan jenis

kelamin, responden berjenis kelamin perempuan lebih banyak dari
laki-laki. Sedangkan dari jenis sekolah, responden terbanyak
berasal dari MA (Madrasah Aliyah). Sedangkan berdasarkan
pengelolaan, jumlah siswa yang berasal dari sekolah negeri lebih
banyak dari sekolah swasta. Sedangkan berdasarkan jenjang
kelas, jumlah siswa terbanyak berasal dari kelas 10. Yang
terakhir, jika dilakukan pengelompokkan berdasarkan nilai UNBK
2019, jumlah siswa yang berasal dari sekolah yang lebih tinggi
dari rata-rata lebih banyak apabila dibandingkan dengan sekolah
yang lebih rendah dari rata-rata.
4.2 Karakteristik Psikometris IANSA berdasarkan analisis

Rasch
Informasi yang akan dipaparkan selanjutnya adalah hasil

pengujian asumsi unidimensionalitas, local independence, statistik
40
item yang berisi tingkat kesukaran (lokasi item), uji statistik fit
pada tingkat item serta PTMEA Correlation yang menggambarkan
daya pembeda dari perspektif CTT seperti Point-Biserial namun
dapat dihitung meskipun terjadi missing data. Adapun informasi
tersebut dapat dilihat pada tabel di bawah ini:
4.2.1 Unidimensionalitas dan Local Independence
Asumsi unidimensionalitas adalah asumsi terpenting dalam

penerapan model Rasch (Chou & Wang, 2010), pelanggaran
asumsi ini akan menyebabkan terjadinya bias dalam estimasi
parameter yang dilakukan (Embretson & Reise, 2000). Pada
penelitian ini asumsi unidimensionalitas diuji dengan metode
principal component analysis (PCA) terhadap residual (Chou &
Wang, 2010; Smith, 2002). Hasil analisis menunjukkan didapat
raw variance explained by measures sebesar 15.0 dalam satuan
ukuran eigenvalues yang dalam ukuran persentase sebesar 29.4%.
Dengan kriteria bahwa ukuran sebesar 20% telah memenuhi
asumsi unidimensionalitas (Reckase, 1979), maka asumsi
unidimensionalitas dalam penelitian ini telah terpenuhi (Lihat
Tabel 4.2).
Tabel 4.2 Hasil pengujian asumsi unidimensionalitas dengan PCAR

41
Setelah asumsi unidimensionalitas terpenuhi, yang artinya

bahwa IANSA memiliki struktur unidimensional, selanjutnya
dilakukan pengujian terhadap asumsi local independence. Kedua
asumsi tersebut terkait erat karena ketika unidimensionalitas
telah terbukti maka respon pada masing-masing item akan
memiliki sifat independen satu sama lainnya selain mengukur
satu faktor yang sama (Embretson & Reise, 2000).
Pada penelitian ini, metode yang digunakan untuk menguji

asumsi local independence adalah Q3 (Yen, 1984; 1993), kriteria
yang digunakan untuk menafsirkan pengujian local independence
adalah jika nilai statistik Q3 lebih besar dari 0.50, maka terjadi
local dependence antar suatu pasangan item (ten Klooster et al.,
2008). Terlanggarnya asumsi local independence dapat membuat
hasil estimasi parameter menjadi bias (Embretson & Reise, 2000).
Oleh karena itu, pada penelitian ini asumsi local independence di
uji. Adapun hasil pengujian asumsi local independence pada
penelitian ini dapat dilihat pada tabel di bawah ini:
Tabel 4.3 Hasil pengujian asumsi local independence instrumen

IANSA
42
Hasil pengujian asumsi local independence dengan metode Q3

menunjukkan bahwa tidak terjadi pelanggaran asumsi local
independence pada penelitian ini karena tidak ada korelasi
residual yang lebih besar dari 0.50 berdasarkan kriteria yang telah
ditetapkan sebelumnya.
4.2.2 Item fit instrumen IANSA (ANAS)
Tabel 2 berisi gambaran tentang karakteristik psikometris dari

instrument IANSA (ANAS) diantaranya adalah uji fit statistics yang
terdiri dari Infit dan Outfit MNSQ (mean-squares), tingkat
kesulitan item (lokasi item), dan korelasi PTMEA (point-measure)
untuk seluruh item. Seperti yang dapat dilihat pada tabel, semua
item menunjukkan infit dan outfit MNSQ yang nilainya dapat
diterima (0.5-1.5). Artinya seluruh item fit dalam menggambarkan
tingkat keterampilan non-kognitif yang dimiliki siswa Indonesia.
Tingkat kesulitan item (dapat juga disebut sebagai lokasi

item) berada dalam rentang nilai -1.84 sampai 0.58. Berdasarkan
lokasi item, ditemukan bahwa item dengan kode C1 yang
mengukur curiosity “Bagi saya, hal-hal yang menantang adalah
kesempatan untuk dapat tumbuh dan belajar.” yang lokasinya
berada pada 0.58 logit adalah item yang paling sulit untuk
43
disetujui oleh responden. Sedabgkan item dengan kode A12 yang

mengukur adaptability “Saya menguasai beberapa software baru
yang tidak dikuasai teman.” yang berlokasi pada -1.25 logit adalah
item yang paling mudah disetujui oleh responden (Lihat Tabel 4.4).
Tabel 4.4 Hasil Kalibrasi Item IANSA (ANAS)

Kode Measure Infit Outfit PTMEA
C1 0.58 0.76 0.77 0.64
G10 0.56 0.73 0.74 0.67
C3 0.53 0.88 0.88 0.57
G9 0.53 0.81 0.82 0.62
C5 0.49 0.80 0.80 0.63
C2 0.47 0.82 0.81 0.63
A2 0.44 0.87 0.87 0.57
G4 0.43 0.88 0.89 0.56
G2 0.41 0.79 0.81 0.62
G11 0.39 0.82 0.82 0.62
G3 0.38 0.86 0.86 0.58
G1 0.37 0.83 0.83 0.59
A1 0.33 0.84 0.85 0.59
A3 0.28 0.87 0.88 0.58
C24 0.14 1.13 1.15 0.42
A7 0.13 1.08 1.10 0.46
G12 0.12 0.97 0.97 0.50
G14 0.10 0.95 0.97 0.54
G18 0.08 0.96 0.96 0.54
A5 -0.04 1.12 1.15 0.43
A8 -0.04 0.99 0.99 0.52
G8 -0.06 0.92 0.93 0.56
A6 -0.11 0.96 0.97 0.54
C4 -0.17 1.02 1.03 0.48
A4 -0.24 1.29 1.46 0.35
C8 -0.27 1.09 1.10 0.48
G7 -0.31 1.14 1.16 0.39
C6 -0.37 1.10 1.14 0.46
C9 -0.44 0.96 0.96 0.54
A10 -0.44 1.14 1.16 0.39
A11 -0.47 1.20 1.20 0.37
C7 -0.49 1.16 1.19 0.42
C10 -0.56 1.19 1.19 0.40
C21 -0.60 1.19 1.21 0.37
A9 -0.88 1.17 1.20 0.38
A12 -1.25 1.27 1.32 0.27
Informasi lainnya adalah bahwa untuk memahami aspek
kecocokan model dan data, perlu dilihat juga nilai korelasi PTMEA
44
yang apabila nilainya negatif maka item tersebut tidak memiliki

skor yang tepat dan juga tidak berfungsi sebagaimana mestinya
(Linacre, 2018), pada penelitian ini seluruh butir pada instrumen
IANSA didapat korelasi yang positif berkisar antara 0.27 sampai
dengan 0.67. Temuan ini menunjukkan bahwa seluruh item dalam
alat ukur ini berfungsi dengan baik dengan arah yang sama
dengan apa yang diteorikan.
4.2.3 Reliabilitas Rasch Instrumen IANSA (ANAS)
Dalam model Rasch, reliabilitas bukanlah konsep yang sama

seperti dalam pendekatan klasik, reliabilitas diestimasi untuk
orang ataupun item (Wright & Masters, 1982). Person reliability
merupakan estimasi seberapa baik instrumen ini dapat
membedakan responden mengenai variabel yang diukur dimana
hasilnya sebesar 0.90. Sedangkan person separation index
merupakan estimasi sebaran dari responden dimana nilainya
sebesar 2.97. Item reliability dan item separation index masing-
masing sebesar 0.99 dan 8.30.
Temuan ini menunjukkan bahwa karakteristik psikometris

instrumen IANSA sangat baik sekali. Dengan kriteria indeks
separation sebesar 1.5 telah mencukupi untuk melakukan analisis
tingkat individu dan jika besarannya 2.5 atau lebih maka cukup
untuk melakukan analisis perbandingan pada tingkat kelompok
(Tennant & Conaghan, 2007), IANSA telah memenuhi kriteria
untuk melakukan analisis baik pada tingkat kelompok maupun
individu.
45
4.2.4 Diagnostik keberfungsian skala peringkat
Dengan menggunakan model Rasch, peneliti dapat memahami

respon yang diberikan oleh responden yang menggunakan skala
peringkat dan menentukan jarak yang sebenarnya berlaku bagi
mereka dalam menempuh kategori respon yang ada. Diagnostik
dengan PCM digunakan untuk mengevaluasi seberapa baik
masing-masing kategori yang membentuk sehimpunan respon
berfungsi untuk menciptakan ukuran yang dapat diinterpretasi
(lihat, Kim & Kyllonen, 2006). Adapun threshold dari masing-
masing kategori pada instrument IANSA (ANAS) dapat dilihat pada
tabel di bawah ini:
Tabel 4.5 Estimasi step parameter masing-masing kategori
Item Step 1 Step 2 Step 3 Note

G1 -1.76 1.52 1.36 Ordered
G2 -1.20 1.55 0.89* Disordered
G3 -2.17 0.98 2.32 Ordered
G4 -2.06 0.88 2.48 Ordered
G7 -2.92 -0.17 2.17 Ordered
G8 -2.46 0.21 2.07 Ordered
G9 -2.00 1.17 2.41 Ordered
G10 -1.33 1.66 1.34* Disordered
G11 -2.14 0.73 2.57 Ordered
G12 -2.79 0.10 3.03 Ordered
G14 -2.04 0.36 1.98 Ordered
G18 -2.18 0.44 1.98 Ordered
A1 -2.00 1.34 1.65 Ordered
A2 -2.08 1.27 2.13 Ordered
A3 -2.08 0.86 2.04 Ordered
A4 -1.90 -0.25 1.43 Ordered
A5 -2.11 0.10 1.90 Ordered
A6 -2.36 0.02 2.00 Ordered
A7 -1.88 -0.04 2.32 Ordered
A8 -2.27 -0.13 2.27 Ordered
A9 -3.07 -1.24 1.68 Ordered
A10 -2.95 -0.73 2.36 Ordered
A11 -2.79 -0.55 1.92 Ordered
A12 -3.32 -1.97 1.53 Ordered
C1 -1.22 1.32 1.65 Ordered
C2 -1.52 0.67 2.26 Ordered
46
C3 -1.79 0.74 2.65 Ordered

C4 -2.72 -0.15 2.36 Ordered
C5 -1.44 1.28 1.63 Ordered
C6 -2.24 -0.55 1.70 Ordered
C7 -2.33 -0.99 1.84 Ordered
C8 -2.23 -0.09 1.50 Ordered
C9 -2.75 -0.42 1.86 Ordered
C10 -2.60 -0.84 1.77 Ordered
C21 -2.90 -0.87 1.99 Ordered
C24 -1.92 0.16 2.16 Ordered
Berdasarkan tabel di atas, selain item dengan kode G2 dan

G10, ditemukan bahwa threshold dan uji fit masing-masing sangat
baik dimana seluruh kategori fit. Asumsi yang perlu dipenuhi
adalah threshold bersifat monotonic increasing yang jaraknya
antara satu dan lainnya harus sebesar 1.4-1.5 logit (Linacre,
1999), pada penelitian ini jarak dari asumsi tersebut terpenuhi
dengan baik, sehingga kurva probabilitas dari kategori respons
menunjukkan bentuk yang optimal pada sebagian besar item
(Lihat Gambar 2 untuk contoh).
Gambar 2. Contoh Category Response Curves item G12

47
Gambar di atas menunjukkan contoh Category Response

Curves yaitu G12 yang bentuknya sangat optimal. Jika kurva
seluruh item berbentuk seperti tersebut, maka tes ini berfungsi
sangat baik. Prosedur ini disarankan oleh Linacre (2010). Namun,
tidak semua kurva item dari ke-36 yang memiliki bentuk seperti
tersebut. Sedangkan bentuk kurva yang tidak optimal yaitu pada
item G2 dan G10 yang keduanya mengalami disordered threshold
dapat dilihat pada gambar di bawah ini:
48
Gambar 3. Contoh Category Response Curves item G2 dan G10
Seperti dapat dilihat pada gambar di atas, kedua item

tersebut memiliki bentuk kurva yang tidak ideal. Namun kategori
respon masih memiliki infit dan outfit yang nilainya berada pada
rentangan 0.5 sampai 1.5, sehingga kedua item ini tidak di drop.
Hal ini menunjukkan bahwa asumsi monotonicity terpenuhi yang
artinya seluruh asumsi dari penerapan PCM terpenuhi.
Terpenuhinya asumsi ini menunjukkan bahwa proses pengukuran
yang telah dilakukan tidak lagi terganggu dengan kesalahan-
kesalahan dalam pengukuran dalam batas yang tidak wajar
sehingga data yang dimiliki fit terhadap PCM bahkan hingga
kedalam tingkat kategori respons yang sangat penting untuk
dipenuhi.
4.2.5 Wright Map dan Fungsi Informasi Tes Instrumen IANSA

(ANAS)
Setelah sebelumnya dipaparkan informasi mengenai hasil estimasi

parameter item, kaitan antara tingkatan „latent trait‟ penempuh tes
49
dan juga tingkat kesukaran item dapat dibandingkan secara

bersamaan dengan menggunakan Wright Map (Wilson & Draney,
2002). Adapun Wright Map hasil analisis instrumen IANSA (ANAS)
dapat dilihat pada gambar di bawah ini:
50
Gambar 4.1 Wright Map IANSA

51
Gambar 4.1. tentang Wright Map IANSA (ANAS) di atas

menunjukkan saling keterkaitan ataupun perbandingan langsung
yang dapat dilihat antara item yang diujikan beserta distribusi dari
responden penelitian yang diukur. Pada bagian kiri dapat dilihat
bahwa semakin ke atas maka orang memiliki keterampilan non-
kognitif yang semakin tinggi. sedangkan semakin kebawah maka
orang memiliki keterampilan non-kognitif yang semakin rendah.
Pada bagian kanan, seperti informasi yang telah dikemukakan
dalam tabel berupa tingkat kesukaran ataupun lokasi item,
semakin ke atas maka item tersebut semakin sulit sedangkan
semakin ke bawah maka item tersebut semakin mudah.
Dari Wright Map yang telah dipaparkan, didapat informasi

bahwa cukup banyak item yang 'kesukarannya' berada di atas
kemampuan orang, hal ini berarti bahwa item-item tersebut sulit
disetujui oleh responden penempuh tes. Hal ini menunjukkan
bahwa responden yang mengisi alat ukur ini cenderung memiliki
keterampilan non-kognitif yang rendah jika dibandingkan dengan
item yang cenderung lebih mengukur hal-hal yang
menggambarkan keterampilan non-kognitif yang tinggi.
Selain informasi di atas, dihasilkan juga informasi berupa

fungsi informasi tes (test information function atau TIF) yang
menggambarkan nilai informasi bagi setiap tingkatan trait yang
diukur beserta standard error masing-masing. Penafsiran TIF
bergantung juga pada pemenuhan asumsi local independence,
apabila asumsi local independence terlanggar, maka TIF akan
menghasilkan hasil yang salah (Sideridis, 2011), namun dalam
penelitian ini telah terbukti bahwa asumsi local independence
tidak terlanggar. Adapun TIF dari instrumen IANSA dapat dilihat
pada gambar di bawah ini:
52
Gambar 4. TIF instrumen IANSA
Seperti dapat dilihat pada gambar di atas, sepanjang

rentangan trait -3.00 sampai +3 logit besaran informasi dari tes
lebih besar dari 5 dengan puncak informasi tertinggi pada tingkat
keterampilan non-kognitif ke arah positif sekitar +1, bahwa
instrumen ini merupakan alat ukur yang sangat baik dan optimal
untuk mengukur responden yang berada dalam rentangan trait di
atas rata-rata hingga tinggi, dimana saat posisinya sangat tinggi
(+3) dan sangat rendah (-3) barulah keakuratannya menurun.
Pada puncak kurva, standard error akan berada dalam besaran
yang paling rendah.
53
4.3 Karakteristik psikometris IANSA (ANAS) berdasarkan IFA

(Item Factor Analysis)
Karena IANSA (ANAS) diadministrasikan dengan menggunakan

skala sikap berbentuk Likert, maka skor yang dihasilkan berskala
ordinal (ordered categorical). Dalam menguji validitas konstruk
dengan menggunakan metode CFA (Confirmatory Factor Analysis),
ketika skala Likert yang berskala ordinal diperhitungkan
sebagaimana mestinya (dianggap berskala ordinal), maka metode
yang tepat untuk digunakan adalah IFA (Item Factor Analysis). IFA
adalah metode CFA ketika indikatornya kategorikal (Cai, 2010).
Metode ini sering juga disebut sebagai CCFA (Categorical CFA).
Adapun hasil pengujian IFA pada penelitian ini akan dipaparkan
pada bagian di bawah ini:
4.3.1 Model fit
Meskipun hasil analisis Rasch telah menunjukkan bahwa asumsi

unidimensionalitas dari IANSA (ANAS) telah terbukti, penggunaan
metode IFA akan melengkapi informasi tentang struktur faktor
dari IANSA (ANAS). ditemukan bahwa model IFA higher order yang
sesuai dengan model yang dihipotesiskan memiliki indeks fit yang
paling baik. Hal ini sejalan juga dengan temuan terpenuhinya
asumsi unidimensionalitas yang didapat dari hasil analisis Rasch
(Lihat Tabel 4.6).
Tabel 4.6 Indeks fit hasil analisis faktor (IFA)
Model Chi-square (df) RMSEA (90% CI) CFI SRMR

1st order 11747.946 (1080) 0.099 (0.098-0.101) 0.621 0.096
2nd order 10146.821 (1077) 0.092 (0.090-0.093) 0.678 0.091
3rd order 2008.751 (584) 0.049 (0.047-0.052) 0.939 0.050
Multifactor 6877.704 (1080) 0.073 (0.072-0.075) 0.562 0.162
54
Selain model 3rd order terbukti menjadi struktur faktor yang

tepat dari IANSA (ANAS), keunggulan lainnya yang dapat
dimanfaatkan adalah bahwa model ini dapat memberikan
informasi berupa skor untuk masing-masing aspek. Skor ini dapat
digunakan untuk menggali informasi tentang aspek tertentu
(misal, grit). Bahkan model ini juga menghasilkan skor pada
tingkat indikator misalnya skor indikator resilience dalam bagian
dari aspek grit.
4.3.2 Muatan faktor IANSA (ANAS)
Setelah pada bagian sebelumnya ditemukan bahwa model IFA 3rd

order adalah model yang tepat dalam menggambarkan struktur
faktor IANSA (ANAS), berikut ini akan ditampilkan muatan faktor
dari masing-masing item, aspek dan indikator dari IANSA
berdasarkan model 3rd order. Adapun muatan faktor IANSA (ANAS)
dapat dilihat pada tabel di bawah ini:
Tabel 4.7 Muatan faktor IANSA (ANAS) berdasarkan hasil IFA
Variabel Estimate Signifikan

Non-cognitive skills BY
Adaptability 0.981 *
Curiosity 0.968 *
Grit 0.887 *
Adaptability BY
Cognitive-behavioral 0.924 *
Instrumental 0.454 *
Cognitive-behavioral BY
A1 0.783 *
A2 0.756 *
A3 0.707 *
A4 0.369 *
A5 0.510 *
A6 0.619 *
Instrumental BY
55
A7 0.766 *
A8 0.857 *
Variabel Estimate Signifikan
A9 0.598 *
A10 0.692 *
A11 0.635 *
A12 0.526 *
Curiosity BY
Challenge 0.924 *
Solving the problems 0.616 *
Passion for adventures 0.952 *
Challenge BY
C1 0.868 *
C2 0.811 *
C3 0.731 *
Solving the problems BY

C6 0.640 *
C7 0.603 *
C8 0.738 *
C9 0.793 *
C10 0.578 *
Passion for adventures BY

C4 0.562 *
C5 0.801 *
C21 0.374 *
C24 0.483 *
Grit BY
Determination 0.950 *
Resilience 0.987 *
Determination BY
G1 0.783 *
G2 0.831 *
G3 0.732 *
G4 0.741 *
G14 0.632 *
G18 0.612 *
Resilience BY
G7 0.406 *
G8 0.656 *
G9 0.777 *
56
G10 0.886 *
G11 0.750 *
G12 0.579 *
Berdasarkan informasi yang dapat dilihat pada tabel di atas,

diketahui bahwa seluruh aspek, indikator dan item valid. Hal ini
terlihat dari tidak adanya estimate yang bernilai negatif, tidak ada
z-value yang tidak signifikan serta tidak adanya korelasi kesalahan
untuk membuat model ini valid. Model third order (lihat, Gimenez
& Tamajon, 2019; Yamaga, Sato, & Minakuchi, 2018) adalah
model yang tepat dalam menggambarkan struktur faktor dari
IANSA (ANAS). Model ini juga mengakomodir hipotesis berupa
aspek dan indikator yang melandasi IANSA (ANAS). Model ini juga
tetap memenuhi persyaratan unidimensionalitas yang dibutuhkan
oleh analisis Rasch.
Ketika hasil analisis Rasch terhadap 36 item „dianggap‟ tidak

dapat memberikan informasi tentang domain scores (misal, skor
determination), penerapan model third order seperti ini akan
menghasilkan skor yang sangat lengkap. Meskipun skor hasil
analysis rasch disebut sebagai maximum likelihood scores (ML
scoring) dan skor hasil analisis IFA merupakan MAP (modal a
posteriori) scores, keduanya memiliki korelasi (r) = 0.992. Artinya
keduanya menggambarkan hal yang sama.
Korelasi antar skor seluruh indikator, aspek dan skor IANSA

keseluruhan hasil analisis third order IFA terhadap Rasch measure
(ML scoring) hasil analisis Rasch memiliki korelasi yang seluruhnya
positif dan signifikan dengan rentangan 0.890-0.992. Hal ini
menunjukkan bahwa metode ini dapat digunakan sebagai
alternative dalam menggambarkan tingkat keterampilan
nonkognitif siswa Indonesia bagi para peneliti yang menguasai
bidang psikometrika tingkat lanjut.
57
4.4 Penyusunan IANSA (ANAS)-42
Dalam proses analisis, dihasilkan instrumen IANSA (ANAS) 36,

karena ada item yang dibuang. Ketika IANSA (ANAS)-36 telah
memiliki model pengukuran yang kokoh dalam hal validitas,
reliabilitas dan interpretasi skor, terdapat kebutuhan lain bagi
para praktisi bidang pengukuran yaitu dalam hal analisis
psikometrik pada masa mendatang. Temuan hasil analisis IANSA
(ANAS)-36 menunjukkan bahwa pada domain curiosity, terdapat
indikator yang memiliki item berjumlah 3, 4 dan 5. Jumlah
tersebut lebih sedikit dari indikator lain pada domain adaptabilitas
dan grit. Oleh karena itu, ketiga indikator dari domain curiosity
akan diberikan penambahan item yang berasal dari item pool
IANSA (ANAS) sehingga keseluruhan berjumlah 6 item per
indikator. Secara keseluruhan IANSA (ANAS) -Revised berisikan 42
item. Adapun revisi terhadap blueprint IANSA dapat dilihat pada
tabel di bawah ini:
Tabel 4.10 Blueprint IANSA (ANAS)-Revised 42 item
Aspek Indikator Item Total

Adaptability Cognitive-behavioral A1-A6 6
Instrumental A7-A12 6
Curiosity Challenge C1-C3; C17* C22* C23* 6
Solving the problems C6-C10; C12 6
Passion for adventures C4 C5 C11* C13* C21 6
C24
Grit Determination G1-G4; G14 G18 6
Resilience G7-G12 6
58
Total 42
Seperti dapat dilihat pada tabel 4.10, terdapat penambahan 3

item pada indikator challenge, 1 item pada indikator solving the
problems serta 2 item pada indikator passion for adventures.
Selanjutnya item-item yang baru dimasukkan dianalisis dengan
metode PCM. Namun, 36 item IANSA (ANAS)-36 akan dijadikan
fixed parameter (lokasi ke-36 item tersebut tidak berubah). Hal ini
sejalan dengan prosedur yang dikemukakan oleh Stone dan
Stenner (2018) yang menganalogikan prosedur ini dengan
menempel dua penggaris menjadi satu penggaris. Adapun
parameter item hasil penambahan dapat dilihat pada tabel di
bawah ini:
Tabel 4.11 Item measure dan fit 6 item tambahan
Kode Measure Infit Outfit PTMEA

C11 -0.32 0.94 0.93 0.59
C12 -0.40 0.89 0.89 0.61
C13 -0.12 0.96 0.99 0.55
C17 0.14 1.06 1.07 0.50
C22 -0.15 1.14 1.14 0.47
C23 0.86 1.02 1.01 0.54
Keenam item yang ditambahkan kedalam aspek curiosity

menunjukkan bahwa seluruh item fit terhadap Rasch model.
Adapun keberfungsian skala peringkat keenam item tambahan
Tabel 4.12 Keberfungsian skala peringkat 6 item tambahan
Item Step 1 Step 2 Step 3 Note

C11 -2.07 -0.44 1.54 Ordered
C12 -2.62 -0.49 1.90 Ordered
C13 -2.04 0.15 1.52 Ordered
C17 -1.38 0.26 1.54 Ordered
C22 -1.95 -0.69 2.18 Ordered
C23 -2.28 -1.20 1.78 Ordered
59
Keenam item yang ditambahkan kedalam aspek curiosity

menunjukkan bahwa seluruh item memiliki keberfungsian skala
peringkat yang baik berdasarkan penerapan Rasch model. Adapun
item ini selanjutnya digabungkan kedalam IANSA (ANAS)-36
hingga akhirnya berjumlah 42 item. Pada bagian selanjutnya,
disusun deskriptor keterampilan yang diukur oleh IANSA (ANAS)
berdasarkan 42 item yang menggambarkan keterampilan non-
kognitif yang dimiliki siswa Indonesia.
4.4 Deskriptor tingkatan keterampilan IANSA (ANAS)
Setelah ditemukan berdasarkan analisis Rasch dan IFA bahwa

karakteristik psikometris IANSA (ANAS) yang berisi 36 item
sangatlah baik, begitupun dengan 6 item yang ditambahkan
sehingga IANSA berisikan 42 item. Pada tahap akhir disusun
descriptor yang menggambarkan tingkatan keterampilan non-
kognitif yang dimiliki siswa berdasarkan skor IANSA (ANAS).
Penyusunan descriptor dimulai dari penghitungan strata statistics
(lihat, Wright & Masters, 2002), dimana hasil perhitungan
menghasilkan angka sebesar 4.41. Artinya, dapat disusun empat
tingkatan (level) keterampilan dari IANSA (ANAS).
Adapun level yang dimaksud adalah: (1) Level 1: Minimal

(tidak memenuhi kriteria), (2) Level 2: Basic (Cukup), (3) Level 3:
Proficient (bagus), (4) Level 4: Advanced (Sangat bagus).
Penyusunan level ini dilakukan dengan menggunakan klasifikasi
yang didasarkan pada metode bookmark yang menggunakan
response probability 67% (RP67). Karena penafsiran RP67
sangatlah teknis, pembaca dapat mengacu prosedur matematis
dalam Reckase (2006). Metode yang digunakan tidak terkait
langsung dengan hasil analisis IFA, namun didasarkan pada hasil
analisis Rasch menggunakan model Partial Credit (PCM) yang telah
60
dilakukan sebelumnya. Adapun descriptor IANSA (ANAS) dapat

dilihat pada tabel di bawah ini:
[INSERT APPENDIX A]
Berdasarkan klasifikasi dari descriptor yang telah disusun,

dapat dilihat gambaran tingkatan keterampilan non-kognitif siswa
Indonesia menggunakan data pengujian karakteristik psikometris
IANSA yang berjumlah 1000 responden, adapun klasifikasi siswa
Tabel 4.8 Proporsi responden pada tiap level
Level Skor Jumlah %

4 (Advance – Sangat Bagus) 120 sampai 136 18 1.8
3 (Proficient - Bagus) 103 sampai 119 76 7.6
2 (Basic - Cukup) 87 sampai 102 381 38.1
1 (Minimal - Tidak 73 sampai 86 368 36.8
memenuhi kriteria)
Tidak Terdefinisikan Di bawah 73 dan di 157 15.7
atas 136
Penyusunan level descriptor yang melibatkan 1000 responden

menunjukkan berbagai hasil yang mengkhawatirkan. Hasil yang
mengkhawatirkan adalah bahwa adaptability, curiosity dan grit
yang dimiliki siswa Indonesia sangatlah rendah. Hal ini terlihat
bahwa hanya 1.8% siswa yang memiliki tingkat keterampilan non-
kognitif di level 4. Siswa yang memiliki keterampilan kognitif di
level 3 juga hanya sebanyak 7.6%.
Hal yang akan dijelaskan lebih lanjut adalah kelompok

tingkatan yang tidak terdefinisikan yang berada dibawah level 1
dan di atas level 4. Kelompok ini tidak dapat terjelaskan karena
memiliki keterampilan non-kognitif jauh lebih rendah dari
„perilaku-perilaku‟ yang digambarkan oleh item. Jika kedepannya
dilakukan pengembangan terhadap IANSA (ANAS), dapat disusun
61
item yang menggambarkan perilaku yang lebih „mudah‟ ataupun

„ringan‟ serta sangat sukar agar dapat mendiagnosis bentuk
keterampilan non-kognitif yang dimiliki siswa pada level ini.
Hal yang sama juga dapat berlaku pada kelompok level 4

(tertinggi). Pada pengembangan selanjutnya, dapat disusun item
yang menggambarkan perilaku yang lebih „sulit‟ ataupun „berat‟
dalam menggambarkan keterampilan non-kognitif yang dimiliki
siswa Indonesia. Hal ini akan mempertajam penggambaran
keterampilan yang sekiranya sulit untuk dikuasai oleh siswa
Indonesia (Lihat Gambar 4).
62
Gambar 4. Wright Map IANSA (ANAS) dan batas masing-masing

level
63
Pada gambar yang telah dipaparkan sebelumnya, dapat terlihat

batasan antar masing-masing level yang sedikit banyak
memberikan gambaran tentang proporsi responden di masing-
masing level. Namun terdapat hal penting untuk mendiagnosis
keterampilan non-kognitif siswa melalui penafsiran map IANSA
(ANAS). Misalnya, dapat dibandingkan (dikontraskan) dua item
yang sama-sama mengukur adaptability namun posisinya sangat
berlawanan seperti misalnya item A2 (adaptability tersulit)
dikontraskan dengan A12 (adaptability termudah). Dapat juga
dikontraskan item C23 dengan item C21. Begitupun item G10
dengan item G7. Hal ini akan memberikan informasi penting
tentang adaptability seperti apakah yang mudah? Adaptability
seperti apakah yang sulit? Penggambaran perilaku akan terlihat
jelas mengingat pendekatan yang digunakan dapat langsung
merujuk pada konten.
Penyusunan descriptor ini memberi gambaran penting bahwa

model Rasch bukanlah hanya sebatas metode untuk menganalisis
data namun sejalan dengan berbagai pendapat lain yang
menyatakan bahwa model Pengukuran Rasch adalah definisi dari
suatu pengukuran dan konstruksinya yang memiliki filosofi
tersendiri (Andrich, 2011; Boone, 2016), terlihat jelas bahwa
penerapan model pengukuran Rasch dapat menjadi suatu
keunggulan untuk menginterpretasikan trait psikologi dengan
metodologi yang sangat dapat dipertanggungjawabkan, hasil
penelitian ini menunjukkan bahwa penafsiran skor kedalam
kategori rendah-sedang-tinggi dalam menafsirkan hasil pengujian
suatu alat ukur bukanlah hal yang tepat, karena hal tersebut
tidak menggambarkan trait psikologi yang diukur, namun
penafsirannya harus dapat diambil dari trait yang diukur sehingga
64
karakteristik dari masing-masing responden merupakan gambaran

lengkap mengenai konteks pengukuran yang dilakukan.
Ketika penafsiran yang dilakukan memiliki batasan tentang

bentuk perilaku seperti apa yang diukur, maka penafsiran seperti
ini akan memenuhi kaidah-kaidah pengukuran berbasis criterion-
reference. Para pengguna alat ukur tidak lagi kesulitan jika
menghadapi pertanyaan tentang: adaptability seperti apakah yang
dimaksud? Karena penafsiran dapat dilakukan langsung terbatas
pada konten yang di ukur.
Pada bagian selanjutnya, kami akan menampilkan kaitan hasil

pengukuran keterampilan non-kognitif dengan rata-rata UNBK
2019 pada masing-masing siswa. Hal ini untuk melihat bahwa
sekolah dengan jenis apakah yang memiliki keterampilan non-
kognitif yang tinggi maupun rendah (Lihat tabel 4).
Tabel 4.9 Hasil analisis regresi multilevel

65
Berdasarkan tabel 4.9 di atas, diketahui bahwa pada tingkat

siswa, tidak terdapat perbedaan tingkat keterampilan non-kognitif
antara siswa laki-laki dan perempuan (b = -0.069, p > 0.05).
Sedangkan pada tingkat sekolah, ditemukan hal penting yang
menjadi tujuan analisis regresi multilevel pada data IANSA yaitu
terdapat pengaruh signifikan dari rata-rata UNBK 2019 yang
dimiliki masing-masing sekolah terhadap tinggi-rendahnya
keterampilan non-kognitif yang dimiliki siswa (b = 0.022, p < 0.05).
Hal ini menunjukkan bahwa semakin tinggi pencapaian UNBK
yang dimiliki sekolah tersebut maka semakin tinggilah
keterampilan non-kognitif yang dimiliki oleh siswa pada sekolah
tersebut. Begitupun sebaliknya.
Menggunakan prosedur yang dikemukakan oleh Maisto et al.

(2011) dan Bornmann, Mutz, Marx, Schier dan Daniel (2011), hal
ini menunjukkan juga aspek „validitas prediktif‟ dari pengukuran
keterampilan non-kognitif yang disusun. Maksudnya adalah,
meskipun UNBK telah dilaksanakan sebelum pengukuran
keterampilan non-kognitif dibuat, namun ketika IANSA (ANAS)
diadministrasikan, didapat hasil bahwa terdapat kaitan antara
UNBK dan IANSA/ANAS. Analisis menunjukkan bahwa kaitan
IANSA dan UNBK dapat menggambarkan sekolah yang
bersangkutan, meskipun pelaksanaan pengambilan data UNBK
dan IANSA (ANAS) tidak dilakukan secara bersamaan dan sampel
dalam tingkat siswa juga berbeda. Temuan ini menunjukkan
bahwa IANSA dapat memprediksi nilai UNBK dari sekolah
tersebut.
66
BAB V
DISKUSI DAN KESIMPULAN
5.1 Diskusi
Berdasarkan hasil penelitian yang telah dikemukakan

sebelumnya, ditemukan bahwa karakteristik psikometris alat ukur
keterampilan non-kognitif yang disusun sangat baik. Proses
penyusunan definisi operasional, indikator dan item telah
terlaksana dengan baik. Hal ini terlihat dengan terpenuhinya
seluruh asumsi dari penerapan model Rasch, yaitu
unidimensionalitas, local independence dan monotonicity serta
ketepatan model yang baik pada tingkat item maupun orang.
Selain itu, analisis yang dilakukan juga menunjukkan

terpenuhinya asumsi unidimensionalitas dan local independence
dengan bukti statistik yang mendukung serta pelanggaran asumsi
monotonicity yang tidak besar dan masih tergolong fit. Temuan dari
analisis faktor juga mendukung hal ini. Hasil struktur faktor
unidimensional tingkat third order membuat unidimensionalitas
tes ini tidak lagi dipertanyakan. Bagi para pembaca yang ingin
memahami model ini lebih lanjut dapat mengacu pada Gimenez
dan Tamajon (2019) serta Yamaga, Sato dan Minakuchi (2018).
Proses analisis yang dilakukan menghasilkan bahwa salah

satu dimensi grit, yaitu “focus” harus di-drop karena tidak
memenuhi aspek unidimensionalitas. Hal ini bisa jadi karena item-
item dimensi focus ini sudah diwakili item dalam dimensi
determination untuk menggambarkan grit siswa dalam konteks
akademik. Namun demikian, pengurangan dimensi grit menjadi
67
dua dimensi, yaitu resilience dan determination tidak menggurangi

informasi grit siswa dalam konteks akademik.
Keunggulan penggunaan analisis Rasch terhadap alat ukur ini

sangatlah bermanfaat dalam menghasilkan skor yang mudah
dipahami oleh pengguna tes ini, seperti misalnya guru atau
praktisi di bidang pendidikan yang tidak menguasai bidang
pengukuran yang rumit. Selain itu, terpenuhinya asumsi dari
model yang digunakan membuat level descriptor yang sebenarnya
merupakan keunggulan model Rasch dapat disusun. Level
descriptor sangat bermanfaat untuk mendapatkan gambaran
keterampilan yang dimiliki oleh siswa dengan masing-masing skor
yang dimilikinya. Alat ukur ini dapat digunakan dalam penelitian-
penelitian mendatang maupun asesmen yang berkaitan dengan
ujian nasional maupun asesmen lainnya.
Dari perspektif metodologis, teknik penyusunan level descriptor

juga memberikan informasi baru kepada para peneliti untuk bisa
menafsirkan trait psikologi yang diukur yang belum dapat
ditemukan dalam artikel lainnya di Indonesia. Oleh karena itu,
penelitian mendatang diharapkan mulai berfokus untuk dapat
menjadikan level descriptor sebagai hal yang perlu diikutsertakan
dalam penelitian.
5.2 Kesimpulan
Berdasarkan hasil penelitian yang telah dikemukakan

sebelumnya, dapat disimpulkan bahwa karakteristik psikometris
alat ukur keterampilan non-kognitif yang telah dikonstruk sendiri
ini sangat baik. Alat ukur ini telah disusun berdasarkan
metodologi dan pendekatan psikometrik yang dapat
dipertanggungjawabkan. Alat ukur ini dapat digunakan untuk
68
mendapatkan gambaran keterampilan non-kognitif siswa

Indonesia. Proses skoring dapat dilakukan oleh guru di seluruh
Indonesia dan tidak membutuhkan analisis yang rumit. Deskriptor
dari skor pengukuran ini memudahkan penafsiran oleh guru.
Lebih lanjut lagi, alat ukur dalam penelitian ini lebih dikhususkan
untuk pengukuran non cognitive skills pada usia SMU. Hal ini
dengan mempertimbangkan kemampuan kognisi siswa dalam
menjawab pertanyaan yang ditanyakan dalam alat ukur dalam
penelitian ini.
Dalam menjawab pertanyaan penelitian, hasil penelitian ini

menunjukkan bahwa item-item yang disusun untuk
menggambarkan keterampilan non-kognitif dari siswa Indonesia
memiliki kualitas dan ketepatan yang dapat
dipertanggungjawabkan. Hal ini terbukti dengan pemaparan hasil
analisis Rasch dan IFA yang menunjukkan kualitas alat ukur yang
sangat baik. Level descriptor IANSA (ANAS) menunjukkan tentang
penafsiran tingkatan masing-masing aspek yang dimiliki siswa
untuk dapat menggambarkan keterampilan non-kognitif yang
digambarkan oleh IANSA (ANAS). IANSA. (ANAS) juga
menunjukkan hasil bahwa tidak terdapat item-item yang berfungsi
berbeda pada faktor demografis yang berbeda dari siswa
Indonesia. Hal inilah yang menyebabkan terdapat sejumlah item
yang tidak fit terhadap analisis Rasch. Dengan kata lain, ke-36
item yang tersisa adalah yang terbaik dalam menggambarkan
konsep yang diukur. Dalam laporan. Ini. Juga ditambahkan IANSA
(ANAS)-42 sebagai penambahan item pada domain curiosity yang
berasal dari item pool IANSA (ANAS). Untuk itu, setiap indikator
memiliki 6 item. Jadi, secara keseluruhan IANSA (ANAS) -Revised
berisikan 42 item.
69
Terkait dengan hasil penelitian dan juga evaluasi yang

dilakukan tim peneliti terhadap tahapan penelitian maka ada
beberapa saran yang bisa dilakukan untuk kesimpulan penelitian
berikutnya, baik yang berupa penelitian lanjutan dari penelitian
ini ataupun penelitian yang serupa. Saran yang pertama adalah
yang terkait dengan pembuatan skala ataupun insrumen
penelitian, akan lebih baik jika pilihan jawaban yang disesuaikan
lebih disesuaikan dengan karakteristik dari orang Indonesia dalam
menjawab pertanyaan seperti pilihan jawaban yang dimulai dari
sangat tidak setuju hingga sangat setuju dan bukan sebaliknya.
Saran berikutnya adalah terkait dengan jumlah item yang
digunakan untuk mengukur ataupun mendeskripsikan satu
dimensi sebaiknya tidak kurang dari lima item per dimensi.
Terakhir, terkait dengan validitas instrumen yang digunakan, bisa
dibandingkan dengan hasil observasi guru dan menambahkan soal
bentuk SJT (situational judgement test).
70
DAFTAR PUSTAKA
Alderson, J. C. (1991). Bands and scores. In J. C. Alderson & B.

North (Eds.), Language testing in the 1990s (pp. 71–86).
London, UK: Macmillan.
American College Testing. (2014). Cognitive and noncognitive skills.
Iowa City, IA: ACT WorkKeys
American Psychological Association. (2015). APA dictionary of
psychology (2nd ed.). Washington, DC: American
Psychological Association
Andrich, D. (1978). A rating formulation for ordered response
categories. Psychometrika, 43(4), 561–573
Andrich, D. (2011). Rating scales and Rasch measurement. Expert
Review of Pharmacoeconomics & Outcomes Research, 11(5),
571–585
Balart, P., Oosterveen, M., & Webbink, D. (2015). Test scores,
noncognitive skills and economic growth (Discussion Paper No.
9559). Bonn, Germany: The Institute for the Study of Labor
(IZA)
Beaton, D. E., Bombardier C., Guillemin F., & Ferraz, M. B. (2000).
Guidelines for the process of cross-cultural adaptation of
self-report measures. Spine, 25(24), 3186-91
Bock, R. D. (1972). Estimating item parameters and latent ability
when responses are scored in two or more nominal
categories. Psychometrika, 37(1), 29-51.
Bock, R. D., & Aitkin, M. (1981). Marginal maximum likelihood
estimation of item parameters: Application of an EM
algorithm. Psychometrika, 46(4), 443-459.
71
Boone, W. J. (2016). Rasch analysis for instrument development:

why, when and how? CBE—Life Sciences Education, 15(4), 1–
7
Borghans, L., Meijers, H., & Ter Weel, B. (2008). The role of
noncognitive skills in explaining cognitive test scores.
Economic Inquiry, 46(1), 2–12.
Bornmann, L., Mutz, R., Marx, W., Schier, H., & Daniel, H. (2011).
A multilevel modelling approach to investigating the
predictive validity of editorial decisions: do the editors of a
high profile journal select manuscripts that are highly cited
after publication? Journal of the Royal Statistical Society.
Series A (Statistics in Society), 174(4), 857-879
Cai, L. (2010). High-dimensional exploratory item factor analysis
by a Metropolis–Hastings Robbins–Monro Algorithm.
Psychometrika, 75(1), 33-57
Chalmers, R. P. (2018). On misconceptions and the limited
usefulness of ordinal alpha. Educational and Psychological
Measurement, 78(6), 1056-1071
Choppin, B. (1982). The use of latent trait models in the
measurement of cognitive abilities and skills. In D. Spearritt
(Ed.), The Improvement of Measurement in Education and
Psychology (pp. 41-63). Hawthorn, Australia: Australian
Council for Educational Research
Clark, K. N., & Malecki, C. K. (2019). Academic grit scale:
psychometric properties and associations with achievement
and life satisfaction. Journal of School Psychology, 72, 49-66
Conley, D. T. (2010). Eligible and ready for college. Principal
Leadership, 11(4), 18–22
de Ayala, R. J. (2009). de Ayala, R. J. (2009). The theory and
practice of item response theory. New York, NY: Guilford
Press.
DiStefano, C., & Morgan, G. B. (2010). Evaluation of the BESS
TRS-CA using the Rasch Rating Scale model. School
Psychology Quarterly, 25(4), 202-212.
Duckworth, A. L., Peterson, C., Matthews, M. D., & Kelly, D. R.
(2007). Grit: Perseverance and passion for long-term goals.
Journal of Personality and Social Psychology, 92, 1087–1101.
Embretson, S. E., & Reise, S. P. (2000). Item response theory for
psychologists. Mahwah, NJ: Lawrence Erlbaum Associate,
Inc.
72
Eskreis-Winkler, L., Gross, J. J., & Duckworth, A. L. (2016). Grit:

Sustained self-regulation inthe service of superordinate
goals. In K. D. Vohs & R. F. Baumeister (Eds.), Handbook of
self-regulation: Research, theory and applications (3rd ed., pp.
380-395). New York, NY: Guilford.
Gimenez, A. C. & Tamajon, L. G. (2019). Analysis of the third-order
structuring of Shalom Schwartz‟s theory of basic human
values. Heliyon, 5(6), e01797
Heckman, J. J., & Kautz, T. (2012). Hard evidence on soft skills.
Labour economics, 19(4), 451–464.
Heckman, J. J., & Rubinstein, Y. (2001). The importance of
noncognitive skills: Lessons from the gedtesting program.
The American Economic Review, 145–149.
Huynh, H. (2006). A clarification on the response probability
criterion RP67 for standard settings based on bookmark and
item mapping. Educational Measurement: Issues and
Practice, 25(2), 19–20
Kane, M. (2012). Validating score interpretations and uses.
Language Testing, 29(1), 3–17
Kashdan, T.B., Stiksma, M.C., Disabato, D., McKnight, P.E.,
Bekier, J., Kaji, J., & Lazarus, R. (2018). The five-
dimensional curiosity scale: Capturing the bandwidth of
curiosity and identifying four unique subgroups of curious
people. Journal of Research in Personality, 73, 130-149
Kim, S., & Kyllonen, P. C. (2006). Rasch rating scale modeling of
data from the Standardized Letter of Recommendation (ETS
Research Report RR-06-33). Princeton, NJ: Educational
Testing Service.
Kreiner, S. (2013). The Rasch model for dichotomous items. In K.
B. Christensen, S. Kreiner, & M. Mesbah. (Eds.), Rasch
Models in Health. Hoboken, NJ: John Wiley & Sons, Inc.
Linacre, J. M. (1994). Many-facet Rasch measurement (2nd edition).
Chicago, IL: MESA Press
Linacre, J. M. (1999). Investigating rating scale category utility.
Journal of Outcome Measurement, 3(2), 103-122
Linacre, J. M. (2018). Winsteps® Rasch measurement computer
program user's guide. Beaverton, OR: Winsteps.com
Litman, J. A., & Spielberger, C. D. (2003). Measuring epistemic
curiosityand its diversive and specific components. Journal of
Personality Assessment, 80, 75–86
73
Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test

scores. Addison-Wesley, Menlo Park.
Maisto, S. A., Krenek, M., Chung, T., Martin, C. S., Clark, D., &
Cornelius, J. (2011). Comparison of the concurrent and
predictive validity of three measures of readiness to change
marijuana use in a clinical sample of adolescents. Journal of
Studies on Alcohol and Drugs, 72(4), 592-601
Martin, A. J., Nejad, H., Colmar, S., & Liem, G. A. D. (2012).
Adaptability: conceptual and empirical perspectives on
responses to change, novelty and uncertainty. Australian
Journal of Guidance and Counselling, 22(1), 58-81
Masters, G. N. (1982). A Rasch model for partial credit scoring.
Psychometrika, 47, 149-174.
aydeu- livares, A., ontano, R. (2013). How should we assess
the fit of Rasch-type models? Approximating the power of
goodness-of-fit statistics in categorical data analysis.
Psychometrika, 78(1), 116–133
cNeish, D. (2018). Thanks coefficient alpha, we‟ll take it from
here. Psychological Methods, 23(3), 412-433
Muthén, B. (1978). Contributions to factor analysis of dichotomous
variables. Psychometrika, 43(4), 551-560
Muthén, B. (1983). Latent variable structural equation modeling
with categorical data. Journal of Econometrics, 22(1), 43-65
Muthén, B. (1984). A general structural equation model with
dichotomous ordered categorical, and continuous latent
variable indicators. Psychometrika, 49(1), 115-132
Muthén, B., & Christoffersson, A. (1981). Simultaneous factor
analysis of dichotomous variables in several groups.
Psychometrika, 46(4), 407-419.
Organization for Economic Cooperation and Development (OECD).
(2013). PISA 2012 Results: What Students Know and Can Do
– Student Performance in Mathematics, Reading and Science
(Volume I). Paris, France: Organisation for Economic Co-
operation and Development
OECD. (2016a). PISA 2015 key findings for Singapore. Paris,
France: Organisation for Economic Co-operation and
Development
OECD. (2016b). PISA 2015 technical report. Paris, France:
Organisation for Economic Co-operation and Development
74
Olsen, R. V., & Nilsen, T. (2017). Standard setting in PISA and

TIMSS and how these procedures can be used nationally. In
S. Blomeke, & J-E. Gustafsson (Eds.), Standard Setting in
Education: The Nordic Countries in an International
Perspective, Cham, Switzerland: Springer International
Publishing
Papageorgiou, S., Xi, X., Morgan, R., & So, Y. (2015). Developing
and validating band levels and descriptor for reporting
overall examinee performance. Language Assessment
Quarterly, 12(2), 153-177
Pierre, G., Sanchez Puerta, M. L., Valerio, A., & Rajadel, T. (2014).
STEP skills measurement. Washington, DC: The World Bank
Rasch, G. (1960). Probabilistic models for some intelligence and
attainment tests. Copenhagen, Denmark: Danish Institute for
Educational Research
Rasch, G. (1966). An item analysis which takes individual
differences into account. The British Journal of Mathematical
and Statistical Psychology, 19(1), 49-57
Reckase, M. D. (2006). A conceptual framework for a psychometric
theory for standard setting with examples of its use for
evaluating the functioning of two standard setting methods.
Educational Measurement: Issues and Practice, 25(2), 4-18
Shechtman, N., DeBarger, A. H., Dornsife, C., Rosier, S., & Yarnall,
L. (2013). Promoting grit, tenacity, and perseverance: Critical
factors for success in the 21st century. Washington, DC:
United States Department of Education, Office of
Educational Technology.
Sideridis, G. (2011). The effects of local item dependence on
estimates of ability in the Rasch model. Rasch Measurement
Transactions, 25(3), 1334-1336
Sijtsma, K. (2009). On the use, the misuse, and the very limited
usefulness of cronbach‟s alpha. Psychometrika, 74(1), 107-
120
Soemarjadi, Ramanto, M., Zahri, W. (1992). Pendidikan
Ketrampilan. Jakarta: Depdikbud. RI
Takane, Y. & de Leeuw, J. (1987). On the relationship between
item response theory and factor analysis of discretized
variables. Psychometrika, 52(3), 393-408
75
Ten Klooster, P. M., Taal, E., & van de Laar, M. A. F. J. (2008).

Rasch analysis of the Dutch health assessment
questionnaire disability index and the Health Assessment
Questionnaire II in patients with rheumatoid arthritis.
Arthritis & Rheumatism, 59, 1721-1728.
Tennant, A., & Conaghan, P. (2007). The Rasch measurement
model in rheumatology: What is it and why use it? When
should it be applied, and what should one look for in a
Rasch paper? Arthritis Care and Research, 5(8), 1358–1362
Thissen, D. (1982). Marginal maximum likelihood estimation for
the one- parameter logistic model. Psychometrika, 47(2), 175-
186.
Umar, J. (2015). Peran pengukuran dan analisis statistika dalam
penelitian psikologi. Jurnal Pengukuran Psikologi dan
Pendidikan Indonesia (JP3I), 4(1), 17-28
Wihardini, D. (2016). An investigation of the relationship of student
performance to their opportunity-to-learn in PISA 2012
mathematics: the case of Indonesia. Doctoral dissertation,
University of California: Berkeley
Wilson, M., & Draney, K. (2002). A technique for setting standards
and maintaining them over time. In S. Nishisato, Y. Baba, H.
Bozdogan, & K. Kanefugi (Eds.), Measurement and
multivariate analysis (pp. 325-332). Tokyo, Japan: Springer-
Verlag
Wright, B. D. & Masters, G. N. (1982). Rating scale analysis.
Chicago, IL: MESA Press
Wright, B. D. & Masters, G. N. (2002). Number of person or item
strata. Rasch Measurement Transactions, 16(3), 888
Yamaga, E., Sato, Y., & Minakuchi, S. (2018). A structural
equation model to test a conceptual framework of oral health
in Japanese edentulous patients with an item weighting
method using factor score weights: a cross-sectional study.
BMC Oral Health, 18:7
Yen, W. M. (1984). Effects of local item dependence on the fit and
equating performance of the three-parameter logistic model.
Applied Psychological Measurement, 8, 125-145.
76
Yen, W. M. (1993). Scaling performance assessments: Strategies for

managing local item dependence, Journal of Educational
Measurement, 30, 187-213.
Zhou, K. (2016). Non-cognitve skills: definitions, measurement and
malleability. Paper commissioned for the Global Education
Monitoring Report UNESCO 2016, Education for people and
planet: Creating sustainable futures for all.
DAFTAR LAMPIRAN
Lampiran A – Deskriptor Pengukuran Non-Kognitif Siswa

Indonesia
Lampiran B – Indonesian Academic context Non-cognitif Skills
Assessment (IANSA) atau Asesmen ketrampilan Non-
cognitive dalam konteks Akademik Siswa Indonesia (ANAS).
Lampiran C - Manual Penggunaan IANSA (ANAS)

Puspendik Laporan Nov 2019 UIN Jakarta-1

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Puspendik Laporan Nov 2019 UIN Jakarta-1

Diunggah oleh

Hak Cipta:

Format Tersedia

LAPORAN AKHIR

PENGEMBANGAN INSTRUMEN UNTUK MENGUKUR NON-

Dr. Yunita Faela Nisa, Psi.

BAB I PENDAHULUAN ............................................................................................................ 1

BAB II KAJIAN TEORITIS ....................................................................................................... 9

BAB III METODOLOGI PENELITIAN .................................................................................... 16

BAB IV HASIL ANALISIS DATA

BAB V DISKUSI DAN KESIMPULAN ..................................................................................... 62

DAFTAR PUSTAKA .................................................................................................................. 65

LAMPIRAN A - Deskriptor Pengukuran Non-Kognitif Siswa Indonesia

1.1 Latar Belakang Masalah

Dengan populasi sekitar 245 juta jiwa, Indonesia adalah negara

Telah banyak upaya yang dilakukan Pemerintah Indonesia

Berbagai studi terbaru mengemukakan bahwa keterampilan

dan atribut yang sulit untuk didefinisikan dan diukur. Oleh

Sebagai contoh adalah Singapura. Negara ini merupakan top

Ketika keterampilan kognitif dapat dilihat melalui indikator

Sebagai upaya untuk mengembangkan instrumen

Kondisi tersebut menunjukkan gambaran nyata tentang

Dalam penelitian ini, aspek-aspek non-cognitive skills pada

Mengapa kita memfokuskan pada tiga aspek non-cognitive

tiap bidang ilmu yang dipelajari. Ia juga dituntut tahu tentang

Ia perlu memiliki rasa ingin tahu yang tinggi. Selain itu,

Penciptaan model pengukuran ini artinya juga dilakukan

Ketiga konstruk tersebut telah memiliki sejarah panjang

menggunakan perkembangan teoritis terbaru dari tiga aspek yang

Aspek kedua, yaitu curiosity akan digambarkan melalui aspek

Kegigihan juga merupakan hal yang mempengaruhi

(2019) mengembangkan instrumen grit dalam konteks akademik.

Hal yang lebih mengkhawatirkan ketika para peneliti yang

Berdasarkan latar belakang yang telah dijelaskan di atas,

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah dikemukakan, disusun

1. Apakah item-item yang disusun untuk menggambarkan

1.3 Tujuan Penelitian

Penelitian ini dilakukan dengan tujuan sebagai berikut:

1. Melakukan penyusunan instrumen non-cognitive skillsyang

2. Melakukan pengujian statistik tingkat item menggunakan

Penelitian ini akan menghasilkan instrumen yang mengukur non-

2.1 Keterampilan Non-Kognitif (Non-cognitive skills)

Menurut Soemarjadi, Ramanto, dan Zahri (1992), kata

Secara umum, keterampilan (skills) dapat dibagi menjadi dua

2.1.2 Aspek-aspek keterampilan non-kognitif

Berbagai riset telah mengemukakan aspek-aspek dari non-cognitive

Adapun penjelasan masing-masing aspek akan dijelaskan pada

2.2 Kemampuan Beradaptasi (Adaptability)

Kemampuan beradaptasi (adaptability) dapat didefinisikan sebagai

Adapun aspek-aspek dari kemampuan beradaptasi adalah

karena hal ini terkait dengan pelaksanaan UNBK yang menuntut

Aspek instrumental adaptability akan disusun dari indikator:

Keingintahuan (curiosity) secara luas dapat didefinisikan sebagai

Aspek-aspek curiosity yang akan digunakan dalam penelitian

tolerance, social curiosity dan thrill seeking (Kashdan, Stiksma,

Duckworth, Peterson, Matthews, dan Kelly (2007)

Senada dengan Duckworth, et. al. (2007), Departemen

Tiga dimensi dari academic grit yang digunakan pada

Malecki, 2019). Pertimbangan lain terkait penggunaan aspek ini

2.5 Trait Level Descriptor

Terdapat banyak penelitian yang membahas penyusunan

Hal ini disebabkan oleh pembuatan level descriptor dengan

acuan oleh para peneliti. Metode yang dapat digunakan

2.6 Hipotesis Model Pengukuran

Karena penelitian ini akan menguji model pengukuran baru untuk

Gambar 2.1 Model Pengukuran yang Dihipotesiskan