5 Evaluasi Tipe Skala Pendidikan Jurnal Bimaloka PDF

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/326874829
5-Evaluasi-Tipe-skala-Pendidikan-Jurnal-Bimaloka
Article · August 2018
CITATIONS READS
0 492
1 author:
I Made Sriundy Mahardika

Universitas Negeri Surabaya
3 PUBLICATIONS 0 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Tes and measurement in education View project
All content following this page was uploaded by I Made Sriundy Mahardika on 07 August 2018.
The user has requested enhancement of the downloaded file.

EVALUASI PENDIDIKAN: TIPE SKALA DALAM PENGUKURAN
PSIKOLOGI DAN PENDIDIKAN
Oleh:
I Made Sriundy Mahardika*
Abstrak
Skala psikologi (olahraga) memiliki karakteristik khusus yang membedakannya
dengan berbagai alat pengumpulan data yang lain. Pada pengembangan instrumen ukur
biasanya istilah testing dan scalling memiliki perbedaan, dimana istilah tes digunakan untuk
menyebut alat pengukur aspek kognitif dan skala lebih banyak digunakan untuk menamakan
alat pengukur atribut afektif.
Skala dalam pengukuran psikologi dan pendidikan terdiri dari: 1) Likert yang
menggunakan subject approach dengan asumsi bahwa statement mengukur suatu dimensi.
2) Thurstone yang menggunakan pendekatan stimuli approach, yang juga disebut dengan
equal appearing interval scales, teknik ini sering juga disebut dengan equal interval
technique. 3) Gutmann yang menskala subjek dan stimuli, walaupun soft warenya susah
tetapi secara logika subyek dan stimulus yang diskala sudah jadi satu dimensi yang uni-
dimensional. 5) Skala Comb merupakan salah satu contoh skala multidimensional yang
mengimplementasikan penskalaan aitem dan penskoran responden secara simultan. 6)
Penskalaan multi-dimensi bertujuan untuk mendapatkan kesesuaian posisi aitem, yaitu
tersusun rapi dan padat, akurat atau ketepatan representasi geometric dari jarak original
antar aitem. Derajat ketepatan ditentukan berdasarkan jarak antar posisi aitem yang disebut
dengan jarak euclidean berdasarkan konfigurasi yang menghasilkan nilai dan rank order.
Analisis faktor berasumsi bahwa variabel-variabel yang berkorelasi memiliki faktor
bersama. Analisis faktor digunakan dengan tujuan utama: 1) menyatakan fariabel tertentu ke
dalam beberapa faktor melalui kegiatan eksploitasi daerah variabel untuk mengetahui dan
menunjukkan faktor-faktor yang diduga melandasi variabel-variabel itu, 2) memilih varian
maksimum agar variabel baik dan 3) mereproduksi korelasi yang tampak, jika beda antara
yang asli dengan yang diuji kecil maka baik.
Item respon theory dikemukakan dengan tujuan untuk menghilangkan kelemahan-
kelemahan yang terdapat pada pengukuran klasik. Teori respon aitem memisahkan antara
aitem dengan subyek dalam penskoran yang invariant. Model yang dikembangkan dalam IRT
yang uni-dimensional adalah: 1) model logistik satu parameter, 2) model logistik dua
parameter (Lord and Birnbaum), dan 3) model logistik tiga parameter, yang dipengaruhi
disamping oleh dua parameter juga dipengaruhi oleh pseudo change level atau gassing
Kata kunci: Scaling, subject approach, stimuli approach, multidimensi, Aitem response theory
* I Made Sriundy M., adalah dosen Pascasarjana Univeristas Negeri Surabaya

imadesriundy@yahoo.co.id dan madeundy@unesa.ac.id
A. Pendahuluan
Penelitian bidang Psikologi yang bersifat non-fisik memerlukan suatu prosedur
pengumpulan data yang akurat dan obyektif agar hasilnya dapat dikategorikan sebagai temuan
ilmiah. Jika penelitian dilakukan dengan pendekatan kuantitatif maka pengukuran berbagai
atribut psikologis yang sifatnya hipotetik harus dilakukan melalui proses yang valid (validity)
reliabel (reliability) dan obyektif. Tetapi pengukuran atribut psikologis mungkin tidak akan
pernah sampai pada kesempurnaan, termasuk tes dan skala psikologi yang standard (standard
measure) maupun tes dan skala yang terstandarkan (standardize measure) karena belum
optimal.
Skala psikologi memiliki karakteristik khusus yang membedakannya dengan berbagai
alat pengumpulan data yang lain. Pada pengembangan instrumen ukur biasanya istilah tes dan
skala memiliki perbedaan. Istilah tes digunakan untuk menyebut alat pengukur aspek kognitif
dan skala lebih banyak digunakan untuk menamakan alat pengukur atribut afektif.
Karakteristik skala sebagai alat ukur psikologi adalah: (1) stimulusnya berupa pertanyaan atau
pernyataan yang mengukur (secara tidak langsung) suatu atribut psikologi melalui
indikatornya. Respon yang diberikan sangat tergantung pada intepretasi subyek terhadap
pertanyaan atau pernyataan yang diajukan, jadi bersifat proyektif, (2) skala psikologi selalu
berisi banyak aitem (pengukur indikator), sehingga kesimpulan baru dapat diambil sebagai
diagnose jika semua aitem telah direspon, (3) respon oleh subyek tidak diklasifikasikan
sebagai benar atau salah, semua jawaban diterima sepanjang diberikan secara jujur dan
sungguh-sungguh.
Seperti halnya dengan dunia psikologi maka dunia pendidikan yang juga akrab dengan
pengukuran dan pengujian diterpa berbagai isyu yang berkembang terutama berhubungan
dengan skala pengukuran. Isyu tersebut antara lain: (1) adanya penggabungan komponen IPA
dan IPS dalam kurikulum yang nilai akhirnya di rata-rata, (2) penghitungan skor komposit
misalnya matakuliah MKDU digabung dengan MKDK, (3) adanya pengembangan skor untuk
menunjukkan adanya pertumbuhan antar kelompok, misalnya nilai A disuatu Perguruan
Tinggi/Fakultas/Jurusan/Prodi disamakan dengan nilai A di Perguruan Tinggi/Fakultas/
Jurusan/ Prodi yang lain.
Mahasiswa yang calon guru dan bahkan dosen sering kurang memahami model-model
skala psikologis khususnya untuk kepentingan penelitian bidang psikologi dan pendidikan
atau untuk keperluan evaluasi hasil pendidikan. Untuk itu penelitian ini diperlukan guna
membahas mengenai berbagai jenis skala yang digunakan dalam pengukuran psikologi dan
pendidikan, perkembangan serta keunggulan dan kelemahan masing-masing skala. Dengan
pemahaman ini maka isyu yang berkembang yang berhubungan dengan penskalaan hasil
pendidikan dapat dijelaskan dan dihindari secara lebih baik.
B. Masalah Penelitian
Berdasarkan kenyataan di atas maka perlu kiranya dilakukan literature study yang
membahas:
1) apakah jenis-jenis skala yang dapat digunakan dalam penelitian psikologi (termasuk
Psikologi olahraga) atau pendidikan (termasuk Penjasorkes)?
2) Bagaimana menggunakan skala-skala tersebut dengan tepat dan bijaksana?
3) Apa kelebihan dan kelemahan masing-masing skala?
C. Metode
Penelitian ini adalah penelitian literature (literature study) dimana masalah penelitian
akan dijawab berdasarkan penelaahan berbagai buku sumber yang mengandung berbagai
pengetahuan mengenai skala dan membahas dengan cermat berbagai keunggulan dan
kelemahannya. Buku sumber yang digunakan sebagaian besar adalah buku-buku yang
digunakan dalam perkuliahan pada Program Doktor Penelitian dan Evaluasi Pendidikan UNY
ditambah berbagai artikel yang ada di Journal of Education Measurement.
Buku utama yang dikaji antara lain: (1) Hambleton , R.K. (1989). Principle and
Selected Applications of Item response Theory, (2) Lord Frederic. (1980). Aplications of Item
Response Theory to Practical Testing Problems, (3) Spector Paul E., (1992). Summated Rating
Scale Construction (an Introduction, (4) Allen Mary J. and Yen Wendy M. (1979).
Introduction to Measurement Theory, (5) Blalock Hubert M. Jr. (1982). Conceptualization and
Measurement in the Sosial Sciences, (6) Hambleton, Swaminathan H., Roger H. Jane. (1991).
Fundamentals of Item Response Theory, (7) Kruskal Joseph B. and Myron Wish. (1978).
Multidimensional Scalling.
D. Hasil Penelitian
Pengukuran (measurement) adalah proses pemberian besaran/angka pada attributes
suatu obyek (manusia) yang dapat menyangkut tingginya, beratnya, kuatnya, daya tahannya,
kecepatannya, motivasinya, intlegensinya, produktifitasnya dan lain sebagainya. Sedangkan
penskalaan (scaling) adalah proses pemberian angka pada performance seseorang, proses
transformasi konsep atau ide ke variabel, dan mentransformasi data mentah menjadi informasi
yang berguna.
Skala (scale) dalam hal ini jenisnya: (1) nominal yang pengkategoriannya hanya
berdasarkan pada modusnya saja, (2) ordinal yang pengkategoriannya bedasarkan pada
median, dan (3) interval yang pengkategoriannya berdasarkan pada reratanya. Jika dilihat
faktanya maka penelitian pendidikan sebenarnya baru sampai antara median dan rerata jadi
belum pada rerata yang sesungguhnya padahal teknik analisis yang digunakan banyak teknik
statistik yang mensyaratkan penggunaan rerata. Berdasarkan kenyataan ini sebenarnya banyak
pakar meragukan ketepatan analisisnya, tetapi selama bermanfaat secara teoretis maupun
praktis skala apapun yang digunakan dapat menggunakan teknik statistik yang lebih canggih.
Tujuan penskalaan (purpose scalling) adalah: (1) confirmatory yaitu mencocokkan
kebenaran skala dengan nama tes, (2) exploratory yaitu mencari apa yang ada pada stimulus,
dan (3) a scale yaitu menciptakan suatu skala. Adapun tipe datanya adalah: (1) preferential
choice yaitu pemilihan, misalnya menentukan urutan, (2) single stimulus dimana satu stimulus
dijawab oleh satu orang, (3) stimulus–comparison yaitu dibuat perbandingan, dan (4) similarly
yaitu jarak (psikologis) seberapa dekat.
Model penskalaan adalah: (1) Likert scale, (2) Thurnstone scale, (3) Guttman scale, (4)
Coombs scale, (5) Item response theory yang merupakan perbaikan dari ketiga model skala di
atas, dan (6) Multi dimensional scaling. Berikut akan dibahas satu persatu.
1. Skala Likert
Skala Likert menggunakan pendekatan subject approach dengan asumsi suatu
statement akan mengukur suatu dimensi. Skala Likert dikenal juga dengan nama summated
ratting scale yang merupakan penskalaan pernyataan sikap atas suatu dimensi psikologis
(sikap, minat, motivasi dll.) yang menggunakan distribusi respons sebagai dasar penentuan
skala. Aitem dikembangkan pada skala 5 (lima) mulai dari pernyataan ekstrim kiri (un-
favorable) sampai pada ekstrim kanan (favorable). Prosedur penskalaan ini didasari oleh
asumsi bahwa: (1) setiap pernyataan sikap yang telah dipilih dapat disepakati termasuk dalam
pernyataan yang favorable atau sebaliknya, (2) jawaban yang diberikan oleh individu yang
mempunyai skala sikap positif harus diberi bobot atau skor yang lebih tinggi dari sikap
negatif.
Skala Likert tidak memerlukan adanya judgements karena nilai skala tiap pernyataan
tidak ditentukan oleh derajat favorable atau un-favorable masing-masing pernyataan. Nilai
skala akan ditentukan oleh distribusi respon setuju atau tidak setuju dari kelompok subyek
yang bertindak sebagai kelompok uji-coba. Kelompok uji coba harus memiliki karakteristik
yang semirip mungkin dengan karakteristik individu yang akan diungkap sikapnya melalui
instrumen berskala Likert. Jumlah individu yang digunakan untuk uji coba harus dalam
jumlah yang representatif (banyak) sehingga distribusi skornya lebih bervariasi, dengan
demikian analisis penskalaannya akan lebih cermat dan stabil.
Instrumen berskala Likert, terdiri dari pernyataan sikap yang ditulis berdasarkan
kaidah penulisan yang benar dalam skala 5 (lima), mulai dari pernyataan sangat setuju sampai
pada pernyataan sangat tidak setuju. Responden diminta menetapkan sikapnya pada skala
tersebut. Prosedur ini tidak bermaksud meletakkan stimulus pada suatu kontinum psikologis
tetapi meletakkan masing-masing kategori respon pada kategori yang bergerak antara 0
(sangat tidak setuju) s/d 4 (sangat setuju). Jarak antar kategori diasumsikan sama dalam unit
berskala interval (equal interval). Skor aitem-aitem yang telah ditetapkan oleh responden
dijumlahkan dan dirata-rata untuk mendapatkan skor individu, untuk menempatkan individu
pada titik tertentu pada kontinum kesepakatan yang menggambarkan sikapnya.
Strategi pengukuran yang menggunakan skala Likert, dimana subyek penelitian
dihadapkan pada alternatif jawaban (option) dengan rentang sangat setuju sampai sangat tidak
setuju. Dapat dicontohkan dalam pengukuran potential activities dan attitude guru-guru
sekolah dasar, yang menggunakan skala Likert pada pilihan 1 dalam kategori no need for
change, pilihan 2 dalam kategori some change for need, pilihan 3 dalam kategori considerable
need for change, dan pilihan 4 dalam kategori great need for change.
Setelah dilakukan standard quantitative analysis of response to Likert- type items
approach ternyata menghasilkan a priori commitmen atau a priori segmentation. Untuk
mengatasi hal ini peneliti melakukan analisis dengan teknik berbeda yaitu multidimensional
analysis dengan dua model masing-masing clustering model dan geometries model.
Analisis clustering model dilakukan dengan cara mengelompokkan aitem ke dalam
kelompok tertentu sehingga mengukur similarity yang mencakup tiga dimensi yaitu metric vs
ordinal, score metric vs association metric dan hierarchical vs non-hierarchical. Sedangkan
geometric model menempatkan aitem-aitem pada konfigurasi spasial yang menggambarkan
hubungan antar aitem, seperti jarak antar titik, sudut antar vektor maupun proyeksi antar
vektor.
Pada waktu analisis dengan clustering model didapat tiga cluster, lalu setelah dianalisis
dengan multidimensional scaling (MDS) ternyata didapat dua sampai tiga dimensi. Berarti
pada tahap ini antara MDS dengan cluster analysis saling menunjang. Tetapi setelah dilakukan
penghitungan dengan analysis factor ternyata ditemukan empat faktor.
Berdasarkan hasil seluruh analisis tersebut dapat ditarik kesimpulan bahwa: ternyata
setelah dilakukan analisis Likert kemudian dianalisis lagi dengan model analisis lain, terdapat
kelemahan dalam dimensi yang dideskripsikan. Untuk itu sebaiknya setiap analisis Likert
dilengkapi dengan model cluster analysis, Multidimensional analysis, factor analysis dan item
response theory.
2. Skala Thurstone
Skala Thurstone juga disebut dengan skala interval tampak setara (equal appearing
interval scales), teknik ini sering juga disebut dengan equal interval technique. Berbeda
dengan skala Likert, skala Thurstone menggunakan pendekatan stimuli approach yang
asumsinya 1) normal distribution dimana perbedaan stimulus satu dan dua mengikuti
distribusi normal, 2) berupa sekumpulan aitem/soal untuk mengukur atribut tertentu.
Penskalaan ini bertujuan untuk meletakkan stimulus atau pernyataan pada suatu kontinum
psikologis yang akan menempatkan subyek pada derajat/bobot kesetujuan atau ketidak
setujuan pernyataan yang bersangkutan. Statement nya diurutkan dari yang paling tinggi ke
rendah (1 s/d 11), ini hanya sekedar mengurutkan karena untuk mendapatkan stimulus yang
benar-benar berurutan dari mudah ke sulit sangatlah sukar.
Asumsi normal distribution dimana stimulus satu dan dua perbedaannya mengikuti
distribusi normal untuk skala Thurnstone melalui tiga tes asumsi normal: 1) perbandingan
berganda dalam bentuk prosentasi, 2) interval tampak setara (skala yang digunakan 0 s/d 10
diberikan judgement dan dimasukkan ke dalam skala, kemudian ditentukan posisinya dengan
anggapan testee sama dengan judgement). Misalnya ada 20 stimuli maka pasangan yang
mungkin adalah 3!/2! N(n-1)/2 dan 3) subset interval.
Skala Thurstone digunakan untuk menentukan bobot aitem atau orang dalam skala 11.
Langkah-langkah yang harus dilakukan adalah:
1. Buat beberapa aitem atau soal, lalu hadapkan pada expert yang akan menentukan pada
skala (0-10) berapa bobot aitem tersebut terletak. Misalnya ada 30 expert yang akan
meletakkan sebuah aitem pada bobot 4, 7, 8, 11, 3, 4, dst., maka akan terdapat 30 sebaran
skor yang kemudian dihitung mediannya untuk mendapatkan bobot masing-masing aitem.
Ingat setiap aitem memiliki local independent.
2. Seluruh aitem dihadapkan pada responden dan ditentukan syarat pilihannya misalnya 3
option maka untuk setiap responden memiliki 3 nilai misalnya 4, 5, 6 lalu nilai di rata-rata.
3. Nilai rata-rata dimasukkan skala 11 lalu tarik kesimpulan untuk responden satu, begitu
seterusnya.
INDIKATOR
1 Skala
Aitem
2
Letakkan pada
SIKAP 3 Cari Reratanya 0 11
Skala
expert
4
5 Dihitung
Mediannya
3. Skala Gutmann
Berbeda dengan Likert dan Thurstone, Gutmann berusaha (berandai-andai)
menggabungkan pendekatan yang dilakukan Likert dan Thurstone yaitu menskala subjek dan
stimuli. Walaupun soft ware nya cukup sulit tetapi logika penggabungan subyek dan stimulus
sudah jadi satu dimensi yang uni-dimensional sehingga sesungguhnya yang diukur hanya satu
variabel saja.
Skala Gutmann juga disebut dengan skala komulatif karena adanya hubungan
komulatif antara aitem dengan aitem dan antar skor total individu. Misalnya ada empat (4)
stimuli berupa soal yang harus dijawab oleh subyek tentang prestasi belajar dengan tingkat
kesukaran soal (item difficulty) mulai dari tingkat kesukaran yang rendah ke tingkat kesukaran
yang tinggi. Maka skor total (komulatif) subyek bersangkutan akan mampu memprediksi pola
jawaban/ respon subyek tersebut. Berlaku sebaliknya dengan skala Likert dimana soal yang
justru akan memprediksi skor total. Berarti antara skala Likert dan skala Gutmann
pendekatannya terbalik.
Soal yang paling sukar atau item difficulty nya paling rendah akhirnya dapat dilihat
dalam tabel yaitu soal nomor 4 (empat). Jika ada seorang subyek misalnya Gde Agung
berhasil menjawab soal ini dengan benar, maka seharusnya untuk soal lainnya (yaitu soal
nomor 1 s/d soal nomor 3) juga akan mampu dijawab oleh Gde Agung dengan benar.
Skala Gutmann sempurna (perfect Gutmann skale)
Soal 1 2 3 4 Skor
Respon 1 1 1 1 4
1 1 1 0 3
1 1 0 0 2
1 0 0 0 1
0 0 0 0 0
0.8 0.6 0.4 0.2 Aitem dificulty
Secara teoretis sebenarnya komposisi renspons yang mungkin muncul adalah 5 (lima)
ternyata di lapangan atau pada parakteknya komposisi jawaban atau respons subyek yang
didapatkan adalah 2n sehingga komposisi respon yang munghkin muncul menjadi 25 = 16
jawaban.
Untuk menaksir kesalahan/ketidak sempurnaan ada dua cara yaitu: (1) minimize
kesalahan Gutmann, yaitu berapa banyak soal yang diubah satu atau nol, (2) deviasi pola yang
sempurna Edward. Misalnya ada 4 (empat) soal maka ada 16 kemungkinan jawaban yang
dapat diberikan oleh subyek, tapi pertanyaannya adalah “lalu berapa banyak plus (+) yang
harus diubah sehingga perfect response nya dapat diterima”?
+ + + + Gde Agung
+ + + - Gita Laxmi
Maka menurut Gutmann dan Edward, Gde Agung tidak memiliki error karena respon yang
diberikan benar semua. Kemudian bagaimana cara menaksir kesalahan? Jika CR  0.9 maka
relatif baik, tatapi yang paling baik untuk tidak melanggar prinsip perfect concept adalah
menggunakan model Edward.
Misalnya ada 5 (lima) soal, menurut Gutmann, respon idealnya (n) adalah n + 1 maka
komposisi responnya adalah 5 + 1 = 6. Sedangkan jumlah variasi yang mungkin ditemukan
pada prakteknya adalah 2n sehingga menjadi 25 = 64 lalu kemana respon yang lainnya? Untuk
mengatasi kelemahan ini akhirnya dikembangkan Item Response theory (IRT).
4. Skala Comb
Seperti skala Gutmann maka Comb juga berfokus pada stimulus dan subyek, dengan
tipe data choice atau preferential misalnya menentukan suatu urutan. Contoh: urutkan menurut
skala prioritas pernyataan berikut berdasarkan resiko yang paling ringan sampai yang paling
berat:
a. Pegawai administrasi seharusnya berhak mogok

b. Guru seharusnya punya hak mogok
c. Polisi seharusnya punya hak mogok
d. Perawat seharusnya punya hak mogok
e. Pemadam kebakaran seharusnya punya hak mogok
Stimulus dapat ditempatkan dalam satu skala bukan terpisah. Perhatikan contoh berikut:
Kesukaan Pak Mahfud pada durian:
Skala I atau individual scale yang letaknya
dimana-mana
Skala J
A B C D E
A
Folding
Unfolding
Pertanyaannya kritisnya adalah berapa banyak yang di unfolding (kalau Gutmann n+1). Dari
un-folding banyak kemungkinan terjadi adalah n faktorial (n!) misalnya n = 4 maka jumlah
respon yang ideal adalah 4! atau sebanyak 24 respon.
Skala Comb merupakan salah satu contoh skala multidimensional yang meng-
implementasikan penskalaan aitem dan penskoran responden secara simultan. Semenjak skala
Likert dikembangkan untuk skala besar dikembangkan pula strategi alternatif yang memiliki
dua tahapan yaitu: (1) segmentasi himpunan dari aitem ke dalam sub-himpunan uni-
dimensional melalui analisis multy-dimensional dari asosiasi antar item, dan (2) aplikasi dari
prosedur penskalaan Gutmann least square dengan setiap sub-himpunan dimensional secara
simultan, pembobotan skala untuk alternatif respon dan skor untuk subyek dalam dimensi
yang dipertimbangkan.
5. Multi-dimensional Scalling (MDS)

Tujuan dari penskalaan multi-dimensi adalah untuk mendapatkan kesesuaian yaitu
tersusun rapi dan padat, akurat atau ketepatan representasi geometric dari jarak original antar
aitem. Derajat ketepatan ditentukan berdasarkan jarak antar posisi aitem yang disebut dengan
jarak euclidean berdasarkan konfigurasi yang menghasilkan nilai dan rank order. Sedangkan
derajat kesesuaian/kekompakan (degree of compactness) adalah fungsi dari jumlah dimensi
yang ada dalam data.
Pendekatan uni-dimensi mempunyai dua kelemahan yaitu: (1) keputusan subyektif
yang terlalu awal mengenai variabel-variabel pokok yang digunakan untuk menampilkan data
yang berukuran besar, dengan tanpa mempertimbangkan terlebih dahulu aspek empiris dari
proses pengukuran, (2) dapat mengelabui peneliti dengan keyakinan untuk menyelesaikan
analisis aitem dengan cepat.
Jika komponen aitem mengandung dua atau lebih cluster independent dengan
kontribusi yang relatif sama pada total varians, maka setiap aitem akan berkorelasi dengan
aitem lainnya. Dapat dicontohkan dengan 16 pertanyaan mengenai persepsi guru terhadap
kebutuhan akan perubahan. Jika dianalisis secara uni-dimensional dan multi-dimensional akan
terdapat perbedaan dengan munculnya 4 (empat) cluster yang exclusive mutually yaitu:
principle, parent, other teacher, dan pupils.
Diingatkan bahwa secara teoretis analisis aitem dan subyek tidak dapat dilaksanakan
sebagai dua hal yang terpisah satu dengan yang lainnya. Beberapa model skala multi-
dimensional telah di-implementasikan untuk penskalaan aitem dan penskoran respon subyek
secara simultan seperti skala Comb yang terfokus pada stimulus dan subyek.
5. Faktor Analysis
Analisis factor berasumsi bahwa variabel-variabel yang berkorelasi memiliki factor
bersama, misalnya variabel kemampuan kognitif terdiri dari beberapa factor yang berkorelasi
secara linier. Analisis faktor digunakan dengan maksud dan tujuan utama sebagai berikut: (1)
menyatakan fariabel tertentu ke dalam beberapa faktor melalui kegiatan eksploitasi daerah
variabel untuk mengetahui dan menunjukkan faktor-faktor yang diduga melandasi variabel-
variabel itu, (2) memilih varian maksimum agar variabel baik, dan (3) mereproduksi korelasi
yang tampak, jika beda antara yang asli dengan yang diuji kecil maka berkategori baik.
Sebagaimana halnya dalam segala bentuk pekerjaan/penelitian ilmiah pada dasarnya
adalah untuk menguji hipotesis tentang relasi antar variabel. Sedangkan manfaat dari analisis
faktor adalah untuk menguji hipotesis yang memungkinkan dapat dimasukkannya tes-tes atau
ukuran-ukuran ke dalam rangkaian alat analisis faktor secara sengaja dan terencana untuk
menguji identifikasi sifat dan hakekat faktor tersebut. Mula-mula faktor ditemukan sifat
hakekatnya ditetapkan melalui inferensi yang didasarkan pada tes-tes yang memuatnya. Sifat
ini diformulasikan melalui hipotesis, kemudian disusun tes baru yang diberikan kepada subyek
tertentu. Data ini kemudian dianalisis dengan analisis faktor dengan asumsi bahwa jika faktor-
faktor yang muncul dari hasil analisis sesuai dengan faktor-faktor yang diprediksi maka
hipotesis didukung oleh data empiri.
Tabel: 1 Tebel: 2
Variabel : 1 2 3 4 Variabel: 1 2 3 4
1 1
2 .85 2 .90
3 .82 .75 3 .20 .23
4 .92 .90 .69 4 .15 .25 .77
Perhatikan data di atas. Tabel 1 menggambarkan bahwa variabel 1 (.92) dan variabel 2 (.90)
hanya terdiri atas satu faktor. Sedangkan tabel 2 menunjukkan bahwa variabel 1 (0.15) dan
variabel 2 (0.25) terdiri dari dua faktor.
6. Item Response Theory

Teori respon aitem (item respon theory) sudah banyak dikenal oleh kalangan ilmuwan
psikologi dan pendidikan. Sebagai sebuah teori pasti memiliki kelemahan dan keunggulan
dibandingkan dengan teori-teori pengukuran lain. Berbeda dengan teori klasik yang
mengaitkan aitem dengan peserta yang tidak terpisah dalam penskoran, teori respon aitem
memisahkan keduanya dalam penskoran. Penskorannya invariant yang artinya tetap tidak
berubah terhadap aitem dan peserta. Berarti ciri aitem adalah invariant sekalipun subyeknya
berbeda-beda dan ciri peserta juga invariant walaupun aitem-aitemnya berbeda.
Ada tiga hal penting yang menjadi perhatian dalam IRT yaitu: (1) proporsi respon yang
benar yang diberikan responden terhadap aitem, (2) ciri aitem yang menyebabkan responden
memberikan respon tertentu, dan (3) ciri terpendam yang mendorong responden memberikan
respon tertentu. Disamping itu IRT didasarkan pada dua postulat yaitu: (1) performansi
responden dapat diprediksi melalui trait, latent trait dan kemampuan, (2) hubungan antara
parameter item dengan parameter responden digambarkan dalam satu grafik fungsi yang
disebut dengan item characteristic curve (ICC) yaitu ekspresi matematik yang berhubungan
antara peluang menjawab benar sebuah aitem pada tingkat kemampuan dan karakteristik aitem
tertentu. Jadi ICC berisi daya beda (item diskriminant), tingkat kesukaran (item difficulty), dan
gassing.
Model yang dikembangkan dalam IRT yang uni-dimensional adalah: (1) model logistik
satu pameter dimana hanya dipengaruhi oleh tingkat kesulitan dengan symbol b, (2) Model
logistik dua parameter (Lord; 1980) yang berdasarkan pada distribusi normal komulatif dan
mengandung dua parameter yaitu daya beda dengan simbol a dan tingkat kesulitan dengan
simbul b dan, (3) Model logistik tiga parameter, yang disamping dipengaruhi oleh dua
parameter di atas juga dipengaruhi oleh pseudo change level atau faktor tebakan atau gassing.
Teori respon aitem muncul dengan tujuan utama untuk menghilangkan kelemahan-
kelemahan yang terdapat pada tehnik pengukuran klasik, dimana ada ketergantungan ukuran
ciri peserta pada kelompok aitem, tetapi bukan berarti kemudian tidak muncul persoalan.
Permasalahan yang muncul pada teori respon aitem adalah:
1. Bagaimana menentukan rumus respon aitem atau rumus karakteristik aitem atau yang
dikenal dengan penentuan model respon aitem atau model karakteristik aitem? Caranya
adalah dengan memilih model respon aitem yang diduga kuat untuk diterima sebagai
model. Terdapat berbagai kerumitan dan kecermatan dari berbagai model, tidak jarang
model yang lebih cermat adalah model yang rumit sehingga sukar diterapkan, begitu juga
sebaliknya.
2. Setelah model ditemukan maka masalah berikutnya adalah bagaimana menentukan nilai
parameter aitem dan nilai parameter peserta, yang dikenal dengan pengestimasian
parameter yang meliputi parameter aitem dan parameter peserta. Mengatasi masalah ini
biasanya dilakukan dengan menggunakan jumlah aitem dan subyek yang cukup banyak
dengan asumsi semakin banyak subyek yang menanggapi aitem semakin baik
pengestimasian terhadap parameter sehingga dapat diestimasi melalui metode statistika
seperti metode maximum likelihood, marginal maximum likelihood, conditional maximum
likelihood, joint and marginal Bayesian, non-linier factor analysis dan metode heuristic.
Pengestimasian parameter aitem juga dikenal dengan istilah kalibrasi aitem yang
mempunyai tujuan untuk menentukan ciri peserta seperti kemampuan atau sikapnya.
Disamping itu pengestimasian parameter aitem juga bertujuan untuk menentukan kedudukan
aitem diantara aitem-aitem lainnya. Sedangkan respon aitem atau karakteristik aitem
menghubungkan parameter peserta dengan parameter aitem berupa satu bentuk hubungan
yang probabilistik untuk menjawab benar yang sekaligus dapat menunjukkan jawaban yang
salah.
Setelah kedua permasalahan di atas dipecahkan dengan menghasilkan estimasi
parameter, kemudian dilakukan pemeriksaan hasil agar dapat diketahui sejauh mana estimasi
itu dapat diterima. Pemeriksaan pertama dilakukan berhubungan dengan kecocokan model,
apakah benar data yang dikumpulkan cocok dengan yang model yang dipilih untuk
mengestimasi parameter. Jika cocok maka lanjutkan dengan pemeriksaan yang berhubungan
dengan kecermatan informasi tentang parameter, seberapa cermat informasi yang diperoleh
untuk mengestimasi parameter. Jika variansinya besar maka nilai parameter kurang tajam atau
kurang cermat, sedangkan jika variansinya kecil maka nilai parameter yang diperoleh cukup
tajam atau cukup cermat. Pemeriksaan ini dikenal dengan istilah proses informasi uji tes yang
merupakan hasil penjumlahan informasi aitem yang tergabung dalam tes.
E. Diskusi
Skala dalam pengukuran psikologi dan pendidikan memiliki ciri yang berbeda satu
dengan lainnya dimana sebenarnya merupakan cerminan dari pekembangan pengkuran yang
semakin baik. Skala Likert menggunakan subject approach dengan asumsi bahwa statement
(aitem) mengukur suatu dimensi tertentu. Berbeda dengan Likert, Thurstone menggunakan
pendekatan stimuli approach, yang juga disebut dengan equal appearing interval scales,
dimana teknik ini sering juga disebut dengan equal interval technique.
Pada perkembangan selanjutnya muncul kemudian Gutmann dengan idenya berusaha
menggabungkan keduanya dengan melakukan skala terhadap subjek dan stimuli. Setelah
dianalisis sebenarnya secara logika subyek dan stimulus yang diskala sudah menjadi satu
dimensi yang uni-dimensional walaupun kemudian soft ware nya susah.
Skala Comb merupakan salah satu contoh skala multidimensional yang meng-
implementasikan penskalaan aitem dan penskoran responden secara simultan. Penskalaan
multidimensi bertujuan untuk mendapatkan kesesuaian posisi aitem, yaitu tersusun rapi dan
padat, akurat atau dengan kata lain ketepatan representasi geometric dari jarak original antar
aitem. Derajat ketepatan ditentukan berdasarkan jarak antar posisi aitem yang disebut dengan
jarak euclidean berdasarkan konfigurasi yang menghasilkan nilai dan rank order.
Analisis faktor berasumsi bahwa variabel-variabel yang berkorelasi memiliki faktor
bersama. Analisis faktor digunakan dengan tujuan utama: menyatakan fariabel tertentu ke
dalam beberapa faktor melalui kegiatan eksploitasi daerah variabel untuk mengetahui dan
menunjukkan faktor-faktor yang diduga melandasi variabel-variabel itu. Tujuan selanjutnya
memilih varian maksimum agar variabel baik dan mereproduksi korelasi yang tampak, jika
beda antara yang asli dengan yang diuji kecil maka baik.
Perkembangan selanjutnya dunia pengujian dan pengukuran mengenal Item response
theory (IRT) yang dikemukakan dengan tujuan untuk menghilangkan kelemahan-kelemahan
yang terdapat pada pengukuran klasik. Jadi IRT muncul dengan tujuan utama mengatasi
kelemahan-kelemahan classical test theory (CTT). Teori respon aitem memisahkan antara
aitem dengan subyek dalam penskoran yang invariant. Model yang dikembangkan dalam IRT
yang uni-dimensional adalah: (1) model logistik satu parameter, (2) model logistik dua
parameter (Lord and Birnbaum), dan (3) model logistik tiga parameter, yang dipengaruhi
disamping oleh dua parameter juga dipengaruhi oleh pseudo change level atau gassing.
F. Kesimpulan
Berdasarkan pemaparan analisis yang telah dilakukan maka secara singkat dapat
disimpulkan beberapa hal:
1. Skala Likert memiliki kelemahan dalam menentukan dimensi yang dideskripsikan.
Kesimpulan ini terbukti setelah dilakukan analisis Likert dan kemudian dilanjutkan dengan
analisis model cluster analysis, multidimensional analysis, factor analysis dan item
response theory. Untuk itu bagi pengguna skala Likert sebaiknya melengkapi analisisnya
dengan model analisis lain seperti cluster analysis, multidimensional analysis, factor
analysis dan item response theory.
2. Skala Gutmann pada intinya ingin menggabungkan pendekatan yang dilakukan oleh Likert
yang subject approach dengan pendekatan Thurnstone melalui stimuli approach. Skala
Gutmann memiliki persoalan pada komposisi respon yang mungkin dimana formula yang
diajukannya adalah n+1, sedangkan pada kenyataannya komposisi yang mungkin
mengikuti formula 2n. Untuk mengatasi kelemahan ini analisis perlu dilanjutkan dengan
model IRT.
.
DAFTAR BACAAN
Allen Mary J. and Yen Wendy M. (1979). Introduction to Measurement Theory. Monterey,
California: Brooks/Cole Publishing Company.
Blalock Hubert M. Jr. (1982). Conceptualization and Measurement in the Sosial Sciences.
California, London, New Delhi: Sage Publication Inc.
Camilli G., and Lorrie A Shepard. (1994). Methods for Identifying Biased Test Items. London,
New Delhi: Sage Publications Inc.
Hambleton , R.K. (1989). Principle and Selected Applications of Item response Theory. In
R.L. Linn (Ed). Education Measurement (pp. 147-200). New York: Macmillan.
_______ Swaminathan H., Roger H. Jane. (1991). Fundamentals of Item Response Theory.
Newbury Park, London, New Delhi: Sage Publication Inc.
Kupermintz H., and Richard E Snow. (1997). Enhancing the Validity and Usefulness of Large-
Scale Educational Assessments: III. NELS: 88 Mathematics Achievement to to 12th
Grade. A Quarterly Publication of American Educational Research Journal
Association: Volume 34 Number 1.
Kruskal Joseph B. and Myron Wish. (1978). Multidimensional Scalling. California, London,
New Delhi: Sage Publication Inc.
Lord Frederic. (1980). Aplications of Item Response Theory to Practical Testing Problems.
New Jersey: Lawrence Erlbaum Associates Publisher.
_________ (1952). A Theory of Test Scores. Philadelphia, Pa., USA: The Psychometric
Corporation. All Rights reserved. George S. Ferguson Co.
McIver John P., and Edward G. Carmines. (1978). Unidimensional Scalling. California,
London, New Delhi: Sage Publication Inc.
Meisel Samuel J., Bickel Donna DiPrima, Nicholson J., Xue Y., and Burnet S.A. (2001).
Trusting Teachers Judgements: A Validity Study of a Curriculum-Embedded
Performance Assesment in Kindergarten to Grade 3. American Education Research
Journal: Spring Volume 38 No. 1, pp. 73-95.
Spector Paul E., (1992). Summated Rating Scale Construction (an Introduction). Series
Quantitative Aplications In the Sosial Sciences. Newbury Park London New Delhi:
Sage Publications Inc.
Walker Cindy M. and Baretvas Natasha S. (2001). An Empirical Investigation Demonstrating

the multidimensional DIF Paradigm: A cognitive Explanation for DIF. Journal of
Educational Measurement (JEM) Volume 38, number 2 Summer.
View publication stats

5 Evaluasi Tipe Skala Pendidikan Jurnal Bimaloka PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

5 Evaluasi Tipe Skala Pendidikan Jurnal Bimaloka PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Article · August 2018

I Made Sriundy Mahardika

Tes and measurement in education View project

The user has requested enhancement of the downloaded file.

* I Made Sriundy M., adalah dosen Pascasarjana Univeristas Negeri Surabaya

a. Pegawai administrasi seharusnya berhak mogok

5. Multi-dimensional Scalling (MDS)

6. Item Response Theory

Walker Cindy M. and Baretvas Natasha S. (2001). An Empirical Investigation Demonstrating

View publication stats

Anda mungkin juga menyukai