Anda di halaman 1dari 25

LAPORAN ANALISIS SOAL

MATA KULIAH PSIKOMETRI


TAHUN AJARAN 2022/2023

Diajukan untuk memenuhi Tugas Akhir Semester


pada Mata Kuliah Psikometri

Penyusun :
Nama
Ragil FIly Ramadhan
Kelas / NIM : 3D / 1216000165

Dosen Pengampu
DR. TAHRIR, S.PSI. M.SI.

FAKULTAS PSIKOLOGI
UIN SUNAN GUNUNG DJATI
BANDUNG
2022

1
KATA PENGANTAR
Puji dan Syukur kami panjatkan kehadirat Allah SWT karena berkat rahmat dan karunia-
Nya yang begitu besar dapat membantu saya dalam menyelesaikan tugas ini. Adapun tujuan
dari laporan ini yaitu untuk memenuhi tugas akhir mata kuliah Psikometri. Tidak lupa, saya
berterima kasih kepada Bapak DR. TAHRIR, S.PSI. M.SI selaku Dosen mata kuliah Psikometri
yang telah memberikan kami tugas yang bermanfaat ini.

Meskipun dalam penyusunan tulisan ini saya menemukan hambatan dan kesulitan, tetapi
karena motivasi dan dorongan dari berbagai pihak akhirnya tulisan ini dapat terselesaikan.
Ucapan terima kasih pun tidak lupa penulis ucapkan kepada pihak yang telah membantu saya
dalam menyelesaikan tugas ini yang tidak dapat disebutkan satu per satu. Saya berharap agar
tulisan ini dapat berguna dalam rangka mengajukan laporan untuk tugas akhir Mata Kuliah
Psikometri.

Saya menyadari bahwa tulisan ini sangat jauh dari kesempurnaan, oleh karena itu masukan
berupa kritikan dan saran sangat saya harapkan demi penyempurnaan tulisan ini. Akhir kata,
laporan ini saya berikan, semoga bias bermanfaat, terimakasih.

Bandung, 17 Desember 2022

Penyusun

2
PENDAHULUAN
Psikometri atau pengukuran psikologis adalah cabang ilmu psikologi yang mendalami
seluk beluk pengukuran dan analisis berbagai perbedaan antar individu (individual differences)
sehingga dapat dikatakan bahwa psikometri mempelajari perbedaan antar individu dan antar
kelompok. Tentunya psikometri berkaitan dengan tes dan pengukuran suatu subjek atau objek
tertentu.
Istilah tes sedemikian populernya di berbagai kalangan masyarakat kita sehingga bukan
lagi merupakan sesuatu yang asing. Boleh dikatakan hampir setiap orang pernah mendengar,
membicarakan, atau bahkan pernah mengalami dikenai tes dalam situasi dan keperluan yang
berbeda. Dalam buku ini. Kita menggunakan istilah tes dalam arti tes nonfisik atau dengan kata
lain mengacu pada pengertian tes psikologis, yaitu tes yang dimaksudkan untuk mengungkap
aspek-aspek psikologis dalam diri manusia.
Dengan menekankan syarat kualitas utama, Anne Anastasi dalam bukunya Psychological
Testing (1976) mengatakan bahwa tes pada dasarnya merupakan suatu pengukuran yang
objektif dan standar terhadap sampel perilaku. Sedangkan Fredick G. Brown (1976)
mengatakan bahwa tes adalah prosedur yang sistematik guna mengukur sampel perilaku
seseorang. Tampaknya Brown mengganggap bahwa ciri sistematik itu telah mencapai cakupan
pengertian objektif, standar, dan syarat-syarat kualitas lainnya.
Defenisi lainnya menurut Lee J. Cronbach yang dikemukakan dalam bukunya Essentials of
psychological Testing (1970), yaitu “… a systematic procedure for observing a person’s
behavior and describing it with the end a numerical scale or a category system”. Numerik
dalam bentuk angka, misalnya dalam kontinum 1-5, sedangkan dalam sistem kategorisasi yaitu
penggolongan atau pengkategorisasian, missal: rendah, sedang, tinggi.

BAB II
TINJAUAN TEORI
2.1 Tes Psikologi

Pengertian
Menurut Zainal Arifin (2016: 118) tes merupakan suatu teknik yang digunakan dalam rangka
melaksanakan kegiatan pengukuran, yang di dalamnya terdapat berbagai pertanyaan, atau
serangkaian tugas yang harus dikerjakan atau dijawab oleh peserta didik untuk mengukur aspek
perilaku peserta didik. Sedangkan menurut Arikunto (2008), tes merupakan alat atau prosedur
yang digunakan untuk mengetahui atau mengukur sesuatu dalam suasana, dengan cara dan
aturan-aturan yang sudah ditentukan.
Suryabrata, (2006), mengemukakan syarat-syarat tes yang baik adalah : (1) tes harus valid,
artinya tes tersebut hanya mengukur satu aspek saja atau satu domain saja sehingga tepat
mengukur apa yang hendak di ukur, (2) tes harus reliabel, yaitu ajek atau konsisten, (3) tes
harus standar, artinya setiap peserta tes (testee) harus mendapat perlakuan yang sama baik
mengenai materi tes, penyelenggaraan, pemberian skor, dan interpretasi hasil tes sehingga
seorang testee yang mendapat skor tertentu di suatu tempat akan mendapat skor yang sama di
tempat lain, (4) tes harus objektif, yaitu penilaian yang dilakukan oleh pemberi tes (tester) yang

3
satu dengan yang lain akan sama untuk satu testee, (5) tes harus bersifat diskriminatif, artinya
tes harus dapat mengungkapkan perbedaan suatu gejala yang terdapat pada setiap individu.
Tes adalah instrumen atau alat yang digunakan untuk memperoleh informasi tentang individu
atau objek. Sebagai alat pengumpulan informasi atau data, tes harus dirancang secara khusus.
Kekhususan tes terlihat dari bentuk soal ntes yang digunakan, jenis pertanyaan, rumusan
pertanyaan yang diberikan, dan pola jawabannya harus dirancang menurut kriteria yang telah
ditetapkan. Demikian juga waktu yang disediakan untuk menjawab pertanyaan serta
pengadministrasian tes juga dirancang secara khusus. Selain itu aspek yang di-tes-kan pun
terbatas. Biasanya meliputi ranah kognitif, afektif, dan psikomotor. Kekhususan-kekhususan
tersebut berbeda antara satu tes dengan tes yang lain. Tes ini dapat berupa pertanyaan tertulis,
wawancara, pegamatan tentang unjuk kerja fisik, checklist, dll.

Tujuan
Tes bertujuan untuk mengukur sampel perilaku dan tidak mengukur pemahaman penuh
mengenai materinya. Kesalahan dalam tes biasa dikaitkan dengan proses pengambilan sampel.
Hal ini menyebabkan skor tes bukanlah ukuran sempurna dari suatu perilaku atau karakteristik
individu, melainkan menambah secara signifikan ke proses prediksi. Menurut Anastasi, fungsi
tes psikologi adalah untuk mengukur perbedaan antara individu atau antara reaksi individu
yang sama pada kesempatan yang berbeda. Salah satu masalah pertama yang mendorong
perkembangan tes psikologi menurutnya ialah identifikasi keterbelakangan mental. Sedangkan
Kaplan dan Saccuzzo mengatakan bahwa tes psikologi mengacu pada semua kemungkinan
penggunaan, aplikasi, serta konsep dasar tes psikologi dan pendidikan. Kegunaan utama dari
tes ini ialah untuk mengevaluasi perbedaan atau variasi individu di antara individu. Tes tersebut
mengukur perbedaan individu dalam kemampuan dan kepribadian serta mengasumsikan
bahwa perbedaan yang ditunjukkan pada tes mencerminkan perbedaan aktual di antara
individu. Contohnya ialah ketika individu yang mendapat skor tinggi pada tes IQ, ia
diasumsikan memiliki tingkat kecerdasan yang lebih tinggi daripada mereka yang memperoleh
skor rendah. Dengan demikian, tujuan terpenting dari suatu pengujian ialah untuk membedakan
individu yang mengikuti tersebut.
Item adalah stimulus spesifik yang ditanggapi secara terbuka dan responnya dapat dinilai atau
dievaluasi. Tes psikologi atau tes pendidikan adalah sekumpulan item yang dirancang untuk
mengukur karakteristik manusia yang berkaitan dengan perilaku, baik di masa lalu, masa
sekarang, atau masa depan. Tes psikologis dan pendidikan terdiri dari item, oleh karena itu data
yang dihasilkan bersifat eksplisit dan tunduk pada penyelidikan ilmiah.

Jenis jenis Tes


Jenis tes berdasarkan atribut yang dapat diukur dapat terbagi menjadi 2, yaitu :
1. Maximal Performance Test
Merupakan tes yang dirancang untuk mengetahui atau menentukan batas atas (maksimal)
kemampuan seseorang, bisa berupa pengetahuan atau keterampilan. Tes ini juga membedakan
antara bagaimana orang bekerja dalam mencoba melakukan yang terbaik, sehingga
pengukurannya berdasarkan kinerja maksimum.
2. Typical Performance Test

4
Ialah tes untuk mengukur kebiasaan, perasaan, perilaku, dan cara berpikir serta bertindak yang
menjadi keseharian dan keunikan tiap individu. Tes ini juga membedakan dalam hal bagaimana
mereka bereaksi terhadap item, sehingga pengukuranya berdasarkan kinerja yang khas.

Rancangan Tes
Tahapan yang harus dilalui agar dapat menciptakan tes yang baik, yaitu :
1.1 Tahap Konseptual-Teoretis
Menurut Supratiknya (2014), tahapan ini merupakan tahap dimana penyusun tes harus
merumuskan dengan jelas dari segi tujuan, ranah isi yang hendak diukur, prosedur
administrasinya, dan prosedur penskorannya. Semua rumusannya pun harus dievaluasi melalui
rational judgement atau penilaian rasional baik oleh expert atau ahli, maupun oleh orang awam
yang menjadi kelompok subjek tes (lay rational judgement). Setelah keempat syarat tersebut
sudah memadai, maka selanjutnya melakukan tahap yang kedua, yaitu tahap Empiris-Statistis.
2.1 Tahap Empiris-Statistis
Dalam tahap ini, terdapat dua gugus utama yaitu proses try out atau uji coba dan pemeriksaan
pemenuhan syarat-syarat psikometrik tes yang meliputi item analysis untuk memeriksa ciri-
ciri psikometrik item-item tes secara individual, lalu dilanjutkan dengan pemeriksaan
pemenuhan syarat-syarat psikometrik secara keseluruhan (Supratiknya, 2014).
Uji coba tes biasa dilaksanakan pada kelompok sampel standardisasi, yaitu kelompok subjek
yang memiliki ciri-ciri sama dengan populasi subjek tes. Terdapat hal-hal penting yang harus
diperhatikan dalam tahap uji coba, antara lain (1) pemeriksaan efektivitas prosedur administrasi
tes; (2) pemeriksaan efektivitas prosedur administrasi tes; (3) pemeriksaan aspek face validity
atau validitas tampang tes dengan cara meminta pendapat para subjek apakah tes tersebut
memberi kesan mengukur atribut psikologis yang dimaksud (Supratiknya, 2014).
Data hasil tes yang diperoleh dalam uji coba tersebut dipakai sebagai bahan untuk melakukan
analisis butir, yaitu pemeriksaan pemenuhan syarat-syarat psikometrik item-item tes secara
individual, serta pemeriksaan pemenuhan syarat-syarat psikometrik keseluruhan item sebagai
kesatuan tes, khususnya terkait reliabilitas, validitas, dan daya diskriminasinya (Kline, 1986).
Prosedur penskoran rancangan tes terbagi menjadi empat, yaitu normative score, ipsative score,
norm-reference score, dan criterion-reference score. Normative score menyatakan kekuatan
mutlak sebuah karakteristik khusus yang mungkin dimiliki oleh peserta. Normative score dapat
dikatakan serupa dengan criterion-reference score karena sama-sama menilai peserta
perorangan secara terpisah. Sedangkan ipsative socre menyatakan karakteristik kepribadian
yang relatif dibanding orang lain. Ipsative score dapat dikatakan serupa dengan norm-reference
score karena skor yang diperoleh individu bergantung pada skor peserta lain dalam suatu
clomped yang memiliki standar baku.
2.2 Tes yang baik
Tes yang baik harus memenuhi sejumlah syarat baik dari segi desain atau rancangan maupun
dari segi psikometrinya (Friedenberg, 1995). Syarat tes yang baik, yaitu :
1. Harus memiliki tujuan yang jelas dan mencakup tiga hal, yaitu atribut psikologis yang
hendak diukur, populasi subjek yang menjadi sasaran tes, dan jenis penskoran yang akan
5
digunakan (Friedenberg, 1995). Suatu atribut psikologis harus sesuai dengan ranah dimensi
kepribadian atau wilayah perilaku yang menjadi fokus tes, yaitu maximum performance
test dan typical performance test. Populasi subjek tes juga harus menjadi suatu tujuan yang
jelas dan dirumuskan sejak awal karena sebuah tes akan memberikan hasil yang valid bagi
populasi subjek tertentu. Dalam hal penskoran tes pun harus diperhatikan dan dirumuskan
sejak awal karena jenis penggunaan skor yang direncanakan seringkali berdampak
menentukan format item, taraf kesukaran item, maupun struktur tes secara keseluruhan
(Supratiknya, 2014).
2. Ranah isi tes jelas dan baku. Isi yang dimaksud lazimnya dijabarkan dalam sebuah tabel
spesifikasi yang rinci serta dipilah ke dalam kategori-kategori antara lain untuk
memudahkan pengelompokan item-itemnya (AERA, APA, & NCME, 1999). Eksplikasi
kontruk sebagai identifikasi bentuk-bentuk tingkah laku, keyakinan, dan sikap spesifik
yang menunjukkan ataupun menyangkal keberadaan konstruk yang dimaksud sangat
dibutuhkan karena sebagian objek atau sasaran tes psikologis berupa konstruk teoretis yang
tidak memiliki batas ranah isi yang jelas. Hasil eksplikasi konstruk ini selanjutnya dipakai
untuk merumuskan isi tes (Friedenberg, 1995).
3. Suatu tes harus memiliki prosedur administrasi baku berupa manual book sebagai suatu
instruksi tes. Instruksi tersebut bertujuan agar peserta tes dapat mengetahui bagaimana cara
pengerjaan tes dan dapat menjawab apa yang kurang dipahami mengenai item-item tiap tes
sehingga suatu tes dapat berjalan lancar dan tidak banyak terpotong oleh waktu karena
harus instruksi ulang ke tiap individu. Prosedur administrasi tes disebut standardized atau
baku jika petunjuk dan kondisi pelaksaan tes bagi semua testi sungguh-sungguh mengikuti
prosedur rinci yang sudah diuraikan oleh pengembang tes dalam buku instruksi tes (AERA,
APA, & NCME, 1999).
4. Selain harus memiliki prosedur administrasi baku, tes juga harus memiliki prosedur
penskoran yang baku yang menjelaskan tentang cara skor dan laporan hasil tesnya.
Penskoran dapat dilakukan manual ataupun oleh mesin. Jika penskoran dilakukan oleh
mesin, maka ketepatan kerja mesin harus terjamin, jika dilakukan manual maka harus
diskor oleh petugas yang sudah terlatih (AERA, APA, & NCME, 1999).

2.3 Analisis butir soal


Tingkat kesulitan item
Menganalisis tingkat kesukaran butir soal artinya mengkaji butir-butir soal dari segi
kesukarannya sehingga dapat diperoleh butir-butir soal yang termasuk kategori mudah, sedang
dan sukar.
Tingkat kesukaran butir soal evaluasi hasil belajar dapat diketahui dari besar kecilnya angka
yang melambangkan tingkat kesukaran dari butir soal tersebut, yang dinyatakan dengan istilah
angka indeks kesukaran butir soal (difficulty index), yang umumnya dilambangkan dengan
huruf P, yaitu singkatan dari kata proportion. Angka indeks kesukaran butir soal tersebut
besarnya berkisar antara 0,00 sampai dengan 1,00. Jika suatu butir soal mempunyai angka
indeks kesukaran sebesar 0,00 ( P= 0,00), berarti butir soal tersebut termasuk dalam kategori
butir soal yang terlalu sukar, karena seluruh peserta pelatihan tidak ada yang dapat menjawab
butir soal tersebut dengan benar. Sebaliknya, apabila suatu butir soal mempunyai angka indeks
kesukaran butir 1,00 ( P= 1,00), maka artinya butir soal tersebut adalah termasuk dalam
kategori butir soal yang terlalu mudah, karena seluruh peserta pelatihan dapat menjawab butir
soal tersebut dengan benar.

6
Kriteria yang digunakan untuk mengklasifikasikan butir soal tersebut adalah makin kecil
indeks yang diperoleh maka makin sulit soal tersebut. Sebaliknya, makin besar indeks yang
diperoleh makin mudah soal tersebut.

Besarnya Nilai P Kategori tingkat kesulitan


0 Sangat sukar
0 < P ≤ 0,3 Sukar
0,3 < P ≤ 0,7 Sedang
0,7 < P < 1 Mudah
1 Sangat mudah

Daya beda item


Daya pembeda butir soal adalah kemampuan suatu butir soal untuk membedakan kelompok
dalam aspek yang diukur sesuai dengan perbedaan yang ada dalam kelompok itu. Salah satu
tujuan analisis daya pembeda butir soal adalah untuk menentukan mampu tidaknya suatu butir
soal membedakan antara peserta pelatihan yang berkemampuan tinggi dengan peserta pelatihan
yang berkemampuan rendah.
Daya pembeda butir soal bergantung pada besar kecilnya nilai indeks diskriminasi. Untuk
menghitung indeks diskriminasi, maka langkah pertama yang harus dilakukan adalah membagi
peserta pelatihan ke dalam 2 kelompok, yaitu kelompok Atas, yakni kelompok peserta
pelatihan yang memperoleh skor tinggi, dan kelompok Bawah, yaitu kelompok peserta
pelatihan yang memperoleh skor rendah. Dalam hubungan ini, jika sebuah butir soal memiliki
angka indeks diskriminasi dengan tanda positif (D>0), maka dapat dikatakan bahwa butir soal
tersebut telah memiliki daya pembeda. Hal tersebut dapat diartikan bahwa peserta pelatihan
yang termasuk kelompok Atas lebih banyak yang dapat menjawab dengan benar terhadap butir
soal yang bersangkutan, sedangkan peserta pelatihan yang termasuk kelompok Bawah lebih
banyak yang menjawab salah.
Jika suatu butir soal mempunyai D=0, maka hal tersebut menunjukkan bahwa butir soal
tersebut tidak memiliki daya pembeda sama sekali. Hal ini berarti bahwa jumlah peserta
pelatihan kelompok Atas yang menjawab benar sama dengan jumlah peserta pelatihan
kelompok Bawah yang menjawab benar. Jadi butir soal tersebut tidak dapat membedakan
kemampuan kedua kelompok peserta pelatihan tersebut.

Tabel 2 kriteria daya pembeda butir soal

Besarnya Nilai P Kategori tingkat daya beda


D≤0 Rendah sekali
0 < D ≤ 0,2 Rendah
0,2 < D ≤ 0,4 Sedang

7
0,4 < D ≤ 0,7 Tinggi
0,7 < D ≤ 1 Tinggi sekali

Daya kecoh item


Jumlah orang yang diharapkan untuk memilih setiap pengganggu dengan pilihan acak adalah
kekuatan pengalih yang diharapkan atau tarikan yang diharapkan. Jumlah orang yang memilih
setiap pengalih adalah daya pengalih atau tarikan aktual. Ini dibandingkan dengan kekuatan
yang diharapkan untuk menilai kecukupan para pengalih perhatian. Distraktor yang tidak
pernah dipilih atau dipilih sesering yang diharapkan harus diperiksa dengan cermat dan
mungkin ditulis ulang. Mungkin saja para pengalih perhatian ini adalah jawaban yang salah.
Distraktor yang dipilih lebih sering dari pada yang diharapkan juga perlu ditulis ulang.
Faktanya, pengalih perhatian ini mungkin sangat mirip dengan jawaban yang benar sehingga
bahkan orang yang mengetahui informasi tersebut memilihnya.
Nilai-nilai pengalih harus diinterpretasikan dalam terang informasi tentang kesulitan item. Baik
daya pengalih yang diharapkan maupun yang sebenarnya bergantung pada jumlah orang yang
salah pada item tersebut. Ketika suatu item sangat sulit (nilai p rendah), sejumlah besar orang
akan didistribusikan ke seluruh pengalih item. Relatif mudah untuk menemukan perbedaan
antara nilai pengalih yang diharapkan dan yang sebenarnya. Faktanya, ada kemungkinan bahwa
kesulitan item tersebut disebabkan oleh adanya satu atau dua pengalih perhatian yang sangat
menarik - jawaban yang salah mudah dikacaukan dengan jawaban yang
salah. Ketika suatu item sangat mudah (nilai p tinggi), jumlah orang yang tersedia untuk
memilih setiap distraktor kecil. Jumlahnya mungkin sangat kecil dalam hal ini sehingga sulit
untuk mengevaluasi para pengganggu samasekali.

2.4 Validitas tes (jelaskan pengertian validitas dan kriterianya, pengujian validitas
menggunakan validitas kriteria)
Validitas adalah ketepatan atau kecermatan suatu instrument dalam pengukuran. Dalam
pengujian instrument pengumpulan data, validitas dibedakan me njadi validitas factor dan
validitas item. Validitas faktor diukur bila item yang disusun menggunakan lebih dari satu
faktor (antara faktor satu dengan yang lain ada kesamaan. Pengukuran validitas faktor ini den
gan cara mengkorelasikan antara skor faktor (penjumlahan item dalam satu faktor) dengan skor
total faktor (total keseluruhan faktor). Pengukuran validitas item den gan cara mengkorelasikan
antara skor item dengan skor total item. Validitas item ditunjukkan dengan adanya korelasi
atau dukungan terhadap item total (skor total). Bila kita menggunakan lebih dari satu faktor,
berarti pengujian validitas item dengan cara mengkorelasikan antara skor item dengan skor
faktor, kemudian dilanjutkan mengkorelasikan antara item dengan skor total faktor
(penjumlahan dari beberapa faktor). Dari hasil perhitungan korelasi akan di dapat suatu
koefisien korelasi yang digunakan untuk mengukur tingkat validitas suatu item dan
menentukan apakah suatu item layak digunakan atau tidak. Dalam menentukan layak atau
8
tidaknya suatu item yang digunakan, biasanya digunakan uji signifikansi valid jika berkorelasi
signifikan terhadap skor total. Teknik pengujian SPSS sering digunakan untuk uji validitas
adalah menggunakan korelasi Bivariate Pearson (Produk Momen Pearso n) dan Corrected
Item-Total Correlation.
Menurut Standards for Educational and Psychological (AERA, APA, & NCME, 1999), sebuah
tes dapat dikatakan valid sejauh kesimpulan yang dibuat darinya sesuai, bermakna, dan
berguna. Validitas adalah konsep kesatuan yang ditentukan oleh sejauh mana tes mengukur apa
yang dimaksudkan untuk diukur. Validitas suatu tes juga dapat dipertanyakan dengan alasan
terkait dengan interpretasi nilai tes yang dihasilkan. Hampir semua studi empiris yang
menghubungkan skor tes dengan temuan lain merupakan sumber informasi validitas yang
potensial (Anastasi, 1986; Messick, 1995). Ada tiga jenis analisis validitas, antara lain: (1)
memprediksi kinerja masa depan pada variabel yang sesuai (validitas kriteria),
(2) mengukur domain yang sesuai (validitas konten), dan (3) mengukur karakteristik peserta

tes yang sesuai (validitas konstruk). Secara umum, validitas ditentukan oleh hubungan antara
skor tes dan beberapa variabel lain, yang disebut sebagai ukuran validasi. Namun, tidak seperti
analisis reliabilitas, tidak ada prosedur atau statistik yang digunakan untuk semua analisis
validitas (Friedenberg, 1955).
Validitas menentukan penilaian evolusioner berbasis penelitian mengenai seberapa memadai
suatu tes atribut untuk diukur. Oleh karena itu, validitas tes tidak mudah ditangkap oleh
ringkasan statistik, namun juga dicirikan pada kontinum mulai dari lemah, dapat diterima, dan
kuat. Adapun berbagai cara mengumpulkan bukti validitas telah dikelompokkan menjadi tiga
kategori, antara lain:
•Content validity
•Criterion-related validity
•Construct validity
Validasi yang ideal mencakup bukti-bukti validitas. Pertimbangan profesional harus memandu
keputusan yang berkaitan dengan bentuk bukti yang paling diperlukan dan layak untuk
dijadikan tujuan penggunaan pengujian dan kemungkinan alternatif pengujian. (AERA, APA,
& NCME, 1985). Kesimpulan yang diambil dari tes yang valid adalah tepat, bermakna, dan
berguna.

Dalam pengujian analisis ini mengunakkan teknik validasi kriteria. Validasi kriteria merupakan
salah satu jenis validasi yang untuk memprediksi secara akurat atribut psikologis yang hendak
di ukur pada masa yang akan datang pada pengukuran lain. Rumus validitas tes ialah:

∑(𝑥𝑦) − ( 𝑥̅)( ̅𝑦)̅

𝑟𝑥𝑦 = 𝑁

(𝜎𝑥)(𝜎𝑦)

9
Sedangkan untuk intepretasinya, nilai validasi yang didapat ialah r xy2 merupakan nilai yang
merpesentasikan prediksi alat tes terhadap atribut yang diukur psikologis yang diukur. Nilai
1 – r xy2 merupakan representasi ketidakmampuan prediksi skor tes (Friedenberg, 1995).

Kriteria korelasi menurut Guilford (1956), antara lain :


a. 0.91 < 1.00 = sangat tinggi
b. 0.71 - 0.90 = tinggi
c. 0.41 - 0.70 = sedang
d. 0.21 - 0.40 = rendah
e. 0.00 - 0.20 = sangat rendah

2.5 Reliabilitas tes (jelaskan pengertian reliabilitas dan kriterianya, pengujian menggunakan
splithalf)
Uji reliabilitas digunakan untuk mengetahui konsistensi alat ukur, apakah alat pengukur yang
digunakan dapat diandalkan dan tetap konsisten jika pengukuran tersebut diulang. Ada
beberapa metode pengujian reliabilitas di antaranya metode tes ulang, formula
Flanagan,Cronbach’s Alpha, metode formula KR( Kuder-Richar dson) – 20, KR –21, dan
metode Anova Hoyt. Metode yang sering digunakan dalam pe nelitian adalah metode
Cronbach’s Alpha. Metode ini sangat cocok digunakan pada skor dikotomi (0 dan 1) dan akan
menghasilkan perhitungan yang setara dengan menggunakan metode KR-20 dan Anova Hoyt.
Reliabilitas berarti dapat dipercaya” Artinya, instrumen dapat memberikan hasil yang tepat.
Alat ukur instrument dikategorikan reliabel jika menunjukkan konstanta hasil pengukuran dan
mempunyai ketetapan hasil pengukuran sehingga terbukti bahwa alat ukur itu benar-benar
dapat dipertanggung jawabkan kebenarannya.
Tes yang dapat diandalkan dapat diandalkan untuk menghasilkan skor yang merupakan
perkiraan realistis dari pengetahuan atau karakteristik aktual peserta tes. Ada tiga jenis analisis
keandalan, masing-masing berfokus pada jenis kinerja konsisten yang berbeda. Tes yang andal
adalah tes di mana orang akan mendapatkan skor yang sama jika mereka (1) diuji pada dua hari
yang berbeda (reliabilitas tes-tes ulang), (2) diuji dengan dua versi berbeda (reliabilitas bentuk
alternatif) atau (3) diuji dengan subtes pertanyaan yang berbeda dari tes (konsistensi internal
atau homogenitas). Dalam semua kasus, reliabilitas direpresentasikan secara statistik sebagai
korelasi yang disebut koefisien reliabilitas. Koefisien reliabilitas adalah indeks reliabilitas,
proporsi yang menunjukkan rasio antara varians skor sebenarnya pada atest dan varians total.
Reliabilitas tes penting karena jika skor orang berubah antara tes atau lintas versi tes, kami
ingin menyimpulkan bahwa perbedaan mencerminkan perubahan nyata dalam pengetahuan
atau karakteristik mereka. Misalkan seorang siswa mengulang ujian untuk menunjukkan
peningkatan dalam penguasaan tugasnya.
Rentang nilai koefisien berada diantara 0.0 – 1.0. semakin besar nilai koefisien maka semakin
tinggi nilai reliabilitasnya sehingga semakin tinggi dalam merepresentasikan alat tes dalam
mengukur apa yang hendak diukur. Dalam pengujian analisis ini menggunakkan teknik split
10
half reliability. Split half reliability merupakan teknik dengan membagi dua data kedalam data
bernomor ganjil dan data bernomor genap. Rumus realibilitas ialah sebagai berikut :

̅ ̅)( 𝑥̅𝑒̅ )̅
∑(𝑥1𝑥2) − ( ̅𝑥𝑂

𝑟𝑥𝑥 =𝑁

(𝜎𝑥𝑜)(𝜎𝑥𝑒)
Sedangkan dalam intepretasinya, nilai validasi yang didapat ialah r xx merupakan nilai yang
merpesentasikan variasi nilai terhadap skor asli. Nilai 1 – r xy2 merupakan representasi eror
dalam pengukuran.
Kriteria korelasi menurut Guilford (1956), antara lain :
f. 0.91 < 1.00 = sangat tinggi
g. 0.71 - 0.90 = tinggi
h. 0.41 - 0.70 = sedang
i. 0.21 - 0.40 = rendah
j. 0.00 - 0.20 = sangat rendah

2.6 Standar eror tes (jelaskan apa eror tes dan bagaimana pengujiannya, dan jelaskan
bagaimana meminimalisir eror tes)
Kesalahan standar pengukuran atau sering disingkat SEM merupakan kesalahan dari ukuran
ketepatan skor tes yang diamati. Dengan kata lain, kesalahan ini dilihat dari aspek perkiraan
jumlah kesalahan yang melekat pada skor atau pengukuran yang diamati. Secara umum,
hubungan antara SEM dan reliabilitas tes berbanding terbalik; semakin tinggi reliabilitas suatu
tes (atau subtes individu dalam suatu tes), semakin rendah SEM (Swerdlik, 2010). SEM adalah
indeks dari jumlah rata-rata kesalahan dalam nilai tes. Dalam istilah praktis, SEM
menggunakan koefisien reliabilitas untuk menentukan jumlah rata-rata poin yang membedakan
skor tes dan skor sebenarnya. Secara teknis, SEM didefinisikan sebagai (1) deviasi standar dari
skor kesalahan, dan (2) deviasi standar skor tes di sekitar skor sebenarnya (Friedenberg, 1995).
Untuk menguji standar error, dapat menggunakan rumus sebagai berikut:

∑(𝑦 − 𝑦′)2 − ( ∑(𝑦 − 𝑦′))2

---------------------------------

Se = σy √1 − 𝑟𝑥𝑦2

11
A. Hasil Analisis Soal dan Pembahasan
1. Tingkat Kesulitan Item (dibuat dalam bentuk tabel) dan deskripsikan
𝑗𝑢𝑚𝑙𝑎ℎ 𝑜𝑟𝑎𝑛𝑔 𝑦𝑎𝑛𝑔 𝑚𝑒𝑛𝑗𝑎𝑤𝑎𝑏 𝑖𝑡𝑒𝑚 𝑑𝑒𝑛𝑔𝑎𝑛 𝑏𝑒𝑛𝑎𝑟
𝑃=
𝑁

Keterangan :
P 0.49 ≥ = Sulit
P 0.5 − 0.7 = Sedang
P 0.71 ≤ = Mudah

Berdasarkan tabel di atas, dari keseluruhan item yang berjumlah 25, didapatkan hasil
sejumlah 7 item yang memiliki nilai p lebih dari 0,71 yang dikategorikan item yang Mudah.
Kemudian, terdapat 12 item yang memiliki nilai p di antara 0,5 – 0,7 yang dapat dikategorikan
sebagai item yang Sedang. Dan sisanya, terdapat sejumlah 6 item yang memiliki nilai p kurang
dari 0,49 yang dapat dikategorikan sebagai item yang Sulit.
12
2. Daya Beda Item (dibuat dalam bentuk tabel) dan deskripsikan

Nilai 0 ≤ 0,3 ≤ D : Diskriminasi/daya beda yang baik

Pada data ini, terdapat 11 buah item yang termasuk kedalam kriteria dengan daya beda
yang baik, yaitu nomor 1,2,6,8,9,18,19,20,22,23 dan 24. Sedangkan, sisanya sebesar 14 item
yang daya bedanya kurang baik.

13
3. Daya Kecoh Item (dibuat dalam bentuk tabel) dan deskripsikan

Pada data tersebut, terdapat sebanyak 23 item yang daya kecohnya bagus karena lebih
dari 4 responden yang memilih jawaban pengecoh. Sedangkan, sebanyak 2 item berdaya kecoh
kurang bagus karena dibawah 4 responden yang memilih jawaban pengecohnya.

14
4. Grafik hasil analisis item dan deskripsikan

Kriterianya :

Hubungan antara diskriminasi butir dan tingkat kesulitan butir dapat direpresentasikan
dalam grafik diskriminasi berdasarkan tingkat kesulitan. Grafik berguna untuk
mengidentifikasi secara cepat item-item tes yang baik dan item-item yang perlu dipelajari. Nilai
diskriminasi item, baik nilai D atau korelasi item-total, dicantumkan sepanjang sumbu
horizontal, dengan nilai kesulitan item pada sumbu vertikal. Setiap item digambarkan pada titik
di mana nilai diskriminasi dan kesulitannya bertemu. Bagian dari grafik dapat ditandai untuk
menunjukkan statistik item yang optimal. Item yang termasuk dalam bagian itu mewakili item
tes terbaik.

15
5. Uji reliabilitas (Split half dan KR21 ) dan deskripsikan

B. Kesimpulan
1. Kesimpulan

Dapat disimpulkan bahwa tes mata pelajaran pendidikan kewarganegaraan kelas 6 pada tahun
ajaran 2022/2023 setelah dilakukan analisis secara kuantitatif terhadap item-item soal yang
meliputi uji derajat kesullitan item, uji daya pembeda item, uji fungsi pengecoh, uji reabilitas
item dan standar eror tes adalah sebagai berikut :

1. Derajat kesulitan item sebanyak 6 item merupakan item dengan tingkat kesulitan
yang sulit, sebanyak 12 item merupakan item dengan tingkat kesulitan yang cukup
dan sebanyak 7 item merupakan item dengan tingkat kesulitan yang mudah.
2. Dapat ditarik kesimpulan bahwa daya pembeda sebanyak 11 item merupakan item
dengan daya beda yang baik, dan 14 item merupakan item dengan daya beda yang
kurang baik.
3. Dapat ditarik kesimpulan bahwa fungsi pengecoh yang baik sebanyak 23 item,
sedangkan fungsi pengecoh yang kurang baik sebanyak 2 item.
4. Dapat ditarik kesimpulan bahwa reliabilitas tes menggunakan split half dan KR-21
menunjukkan bahwa tes memiliki tingkat realibilitas yang
5. Dapat ditarik kesimpulan bahwa dari standar eror menunjukan bahwa rata-rata
kesalahan dalam skor tes ini adalah

Daftar Pustaka

Anastasi, A. (1968). Psychological Testing. New York: Macmillan Publishing

16
Co.Inc. Bagiyono. (2017).

Analisis Tingkat Kesukaran dan Daya Pembeda Butir Soal Ujian Pelatihan Radiografi Tingkat

1. Widyanuklida, 1 - 12.

Friedenberg, L. (1966). Psychological Testing. America:Susan Badger.

Power point Perkuliahan Psikometri pertemuan 2

Power point Perkuliahan Psikometri pertemuan 5

Suharman. (2021). Tes Sebagai Alat Ukur Prestasi Akademik. AtTadib: Jurnal Ilmiah

Pendidikan Agama Islam, 10 (1).

Supratiknya, A. (2014). Pengukuran Psikologis. Yogyakarta : Universitas Sanata Dharma.

Lampiran

1. Soal Tes

17
18
19
20
2. Lembar Jawaban yang diisi oleh siswa

3. Kunci jawaban

21
4. Tabulasi data data mentah

5. Hasil Analisis Item manual, (tingkat kesulitan, daya beda, dan daya kecoh)

22
23
6. Hasil uji reliabilitas manual

24
25

Anda mungkin juga menyukai