Anda di halaman 1dari 14

MAKALAH ANALISIS SOAL

MEI 24, 2013YOSI FITRI.RAO TINGGALKAN KOMENTAR


BAB I

PENDAHULUAN

Keberhasilan pendidikan sangat ditentukan oleh proses pembelajaran. Untuk mengukur


keberhasilan proses pembelajaran diperlukan evaluasi dan proses analisis dari evaluasi.
Manfaat dari analisis evaluasi untuk mengetahui kekuatan dan kelemahan pembelajaran
dalam rangka meningkatkan proses pembelajaran. Karena itu begitu pentingnya guru
mengadakan analisis butir soal (distraktor, tingkat kesukaran, daya pembeda, dan
kualitas soal), validasi dan reliabilitas instrument.

Hasil dari proses penilaian perlu dilakukan analisis, untuk melihat validitas dan
efektivitas instrument, serta untuk mengetahui kelemahan dan kekuatan proses
pembelajaran. Ada tiga sasaran pokok ketika guru melakukan analisis terhadap hasil
belajar, yaitu terhadap guru, siswa dan prosedur pembelajaran. Fungsi analisis untuk
guru terutama untuk mendiagnosis keberhasilan pembelajaran dan sebagai bahan
untuk merevisi dan mengembangkan pembelajaran dan tes. Bagi siswa, analisis
diharapkan berfungsi mengetahui keberhasilan belajar, mendiagnosa mengoreksi
kesalahan belajar, serta Memotivasi siswa belajar lebih baik.

Pada makalah ini akan dibahas mengenai analisis soal berupa validitas, daya beda,
indeks kesukaran, fungsi distraktor, dan reliabilitas yang berguna sebagai pedoman
bagi pendidikan dalam melakukan analisis soal terutam untuk soal objektif.
BAB II

KAJIAN TEORI

1. VALIDASI
Validitas merupakan produk dari validasi. Validasi adalah suatu proses yang dilakukan
oleh penyusun atau pengguna instrumen untuk mengumpulkan data secara empiris
guna mendukung kesimpulan yang dihasilkan oleh skor instrumen. Sedangkan validitas
adalah kemampuan suatu alat ukur untuk mengukur sasaran ukurnya.

Suatu alat ukur disebut memiliki validitas apabila alat ukur tersebut isinya layak
mengukur objek yang seharusnya diukur dan sesuai dengan kreteria tertentu, artinya
adanya kesesuaian antara alat ukur dengan fungsi pengukuran dan sasaran
pengukuran. Ini sesuai dengan Encyclopedia of Educational Evaluation yang ditulis oleh
Scarvia B Anderson dan disadur oleh Prof. Dr. Suharsimi Arikunto (2007, 65) bahwa A
test is valid if it measures what it purpose to measure bila diartikan sebuah tes
dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur. Bilamana alat
ukur tidak memiliki validitas yang dapat dipertanggung jawabkan, maka data yang
masuk juga sis dan kesimpulan yang ditarik juga menjadi salah.
I. Validitas Tes Hasil Belajar

Menurut Suharsimi Arikunto 2007, validitas sebuah tes dapat diketahui dari hasil
pemikiran dan dari hasil pengalaman. Hal yang pertama akan diperoleh validitas logis
dan hal yang kedua akan diperoleh validitas empiris. Dua hal inilah yang menjadi dasar
pengelompokan validitas tes.

1. Validasi logis

Mengandung arti penalaran, sehingga validitas logis untuk suatu instrumen evaluasi
menunjuk pada kondisi bagi sebuah instrumen yang memenuhi persyaratan valid
berdasarkan hasil penalaran. Kondisi valid itu dipandang terpenuhi karena instrument
itu telah dirancang sebaik mungkin menurut ketentuan yang ada.

Dengan keadaan itu validitas logis dapat dicapai apabila instrument disusun mengikuti
ketentuan yang ada. Validitas logis yang dapat dicapai oleh sebuah instrumen terdiri
dari dua yaitu :

a. Validitas Isi

Validitas isi bagi sebuah instrumen menunjuk suatu kondisi sebuah instrument yang
disusun berdasarkan isi materi pelajaran yang dievaluasi. Sebuah tes dikatakan
memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan
materi atau isi pelajaran yang di berikan. Oleh karena materi yang diajarkan tertera
dalam kurikulum maka validitas ini sering disebut juga dengan validitas kurikuler.

Validitas isi dapat diusahakan tercapainya sejak saat penyusunan dengan cara merinci
materi kurikulum atau materi buku pelajaran.

b. Validitas Konstruk

Validitas konstruk sebuah instrumen menunjukkan suatu kondisi sebuah instrumen yang
disusun berdasarkan konstruk-konstruk aspek kejiwaan yang seharusnya dievaluasi.
Sebuah tes dikatakan memiliki validitas konstruk apabila butir-butir soal yang
membangun tes tersebut mengukur setiap aspek berfikir seperti yang disebutkan dalam
tujuan instruksional khusus. Dengan kata lain jika butir-butir soal mengukur aspek
berfikir tersebut sudah sesuai dengan aspek berfikir yang menjadi tujuan instruksional.

2. Validitas Empiris

Mengandung arti kata pengalaman. Sebuah instrument dikatakan memiliki validitas


empiris apabila sudah di uji dengan pengalaman. Sebagai contoh, seseorang dapat
diakui jujur oleh masyarakat lain apabila dalam pengalaman dia diakui memang jujur.
Pada Validitas empiris terdiri dari dua cara yang dilakukan untuk mengujinya sehingga
dia menjadi valid. Pengujian itu dilakuakn dengan membandingkan kondisi instrumen
yang bersangkutan dengan suatu ukuran. Kriteria yang digunakan adalah :

a) Validitas Konkuren

Disebut juga dengan validitas “yang ada sekarang ‘tetapi lebih dikenal dengan validitas
empiris. Sebuah instrument dikatakan memiliki validitas empiris jika hasilnya sesuai
dengan pengalaman. Jika ada istilah :sesuai” tentu ada dua hal yang dipasangkan,
dimana dalam hal ini hasil tes dipasangkan dengan hasil pengalaman. Pengalaman
selalu mengenai hal yang telah lampau sehingga data pengalaman tersebut sekarang
sudah ada.

Dalam membandingkan hasil sebuah tes maka diperlukan suatu alat pembanding. Maka
hasil tes merupakan sesuatu yang dibandingkan. Contoh : seorang guru ingin
mengetahui apakah tes sumatif yang disusun sudah valid atau belum. Untuk ini perlu
sebuah kreteria masa lalu yang datanya sekarang dimiliki. Misalnya nilai ulangan harian
atau nilai semester yang lalu.

b) Validitas prediksi

Prediksi artinya meramal. Dengan meramal selalu mengenai hal yang akan datang jadi
sekarang belum terjadi. Sebuah tes dikatakan memiliki validitas prediksi apabila
mempunyai kemampuan untuk meramalkan apa yang terjadi pada masa yang akan
datang. Misalnya tes masuk perguruan tinggi adalah sebuah tes yang diperkirakan
dapat meramalkan keberhasilan peserta tes dalam mengikuti kuliah di masa yang akan
datang. Calon yang tersaring berdasarkan hasil tes diharapkan mencerminkan tinggi
rendahnya kemampuan mengikuti kuliah. Jika nilai tesnya tinggi tentu menjamin
keberhasilan kelak. Sebaliknya seorang calon dikatakan tidak lulus tes karena memiliki
nilai tes yang rendah jadi diperkirakan akan tidak mampu mengikuti perkuliahan yang
akan datang. a. Sebagai alat pembanding validitas prediksi adalah nilai-nilai yang
diperoleh setelah peserta tes mengikuti pelajaran diperguruan tinggi. Jika ternyata siapa
yang memiliki nilai tes lebih tinggi gagal dalam ujian semester I dibandingkan dengan
yang dahulu nilai tesnya lebih rendah maka tes masuk yang dimaksud tidak memiliki
validitas.

II. Validitas Item Tes Hasil Belajar


Tinggi rendahnya validitas suatu tes secara keseluruhan sangat dipengaruhi oleh
validitas yang dimiliki oleh masing-masing butir item yang membangun tes tersebut.
Semakin besar dukungan yang diberikan oleh butir-butir item terhadap tes hasil belajar
maka tes tersebut akan semakin dapat menunjukkan kemantapannya. Item tes hasil
belajar dapat dikatakan valid apabila skor-skor pada butir item yang bersangkutan
memiliki kesesuaian arah dengan skor totalnya. Atau dengan kata lain memilki korelasi
positif yang signifikan antara skor item dengan skor totalnya.

Suatu butir item dikatakan valid jika skor item yang bersangkutan berkorelasi positif
yang signifikan dengan skor total. Untuk menentukan valid tidaknya suatu butir item
dapat digunakan teknik korelasi product moment dan korelasi point biserial.
Penyebab Invaliditas

Ancaman utama terhadap validitas instrumen adalah:

1) Ketakterwakilan konstruk

Menunjukkan bahwa tugas yang diukur dalam penilaian tidak mencakup dimensi
penting dari konstruk. Oleh karena itu, hasil tes tersebut tidak mungkin untuk
mengungkapkan kemampuan siswa sebenarnya dalam konstruk yang hendak diukur
oleh instrumen;

2) Penyimpangan keragaman konstruk berarti bahwa instrumen tersebut mengukur


terlalu banyak variabel, dan kebanyakan variabel tersebut tidak relevan terhadap isi
konstruk.

Jenis penyimpangan validitas seperti ini mencakup dua bentuk, yaitu penyimpangan
kemudahan konstruk (Construct irrelevant easiness) dan penyimpangan kesukaran
konstruk (Construct irrelevant difficulty).

Penyimpangan kemudahan konstruk terjadi ketika faktor-faktor luar seperti kata-kata


kunci atau bentuk instrumen memungkinkan seseorang untuk menjawab benar dengan
cara yang tidak sesuai dengan konstruk yang diukur, dan penyimpangan kesukaran
konstruk terjadi bila aspek-aspek luar dari tugas membuat tingkat kesukaran tugas
tidak sejalan terhadap sebagian atau keseluruhan anggota kelompok.

Sementara bila terjadi penyimpangan keragaman konstruk yang pertama menyebabkan


seseorang memperoleh skor yang lebih tinggi dibanding dengan kemampuan yang
sebenarnya, dan terjadinya penyimpangan keragaman konstruk yang kedua
menyebabkan seseorang memperoleh skor yang lebih rendah dibanding dengan
kemampuan yang sebenarnya

B. KESUKARAN BUTIR (P).

Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal yang
terlalu mudah tidak merangsang siswa untuk mempertinggi usaha pemecahannya.
Sebaliknya soal yang terlalu sukar akan menyebabkan siswa menjadi putus asa dan
tidak mempunyai semangat untuk mencoba lagi karena diluar jangkauannya.

Seorang akan menjadi hafal akan kebiasaan gurunya dalam pembuatan soal. Dengan
kebiasaaan ini maka siswa akan belajar giat untuk menghadapi ulangan dengan guru
yang terbiasa memberikan soal sukar, sedangkan siswa akan malas belajar bila akan
ujian dengan guru yang terbiasa dengan soal ulangan yang mudah-mudah.

Bilangan yang menunjukkan sukar dan mudahnya sesuatu soal disebut dengan indeks
kesukaran. Besarnya indeks kesukaran antara 0,00 sampai dengan 1,0. Indeks
kesukaran ini menunjukkan taraf kesukaran soal. Soal dengan indeks kesukaran 0,00
menunjukkan kalau soal itu terlalu sukar, sebaliknya indeks 1,0 menunjukkan bahwa
soalnya terlalu mudah. Indeks kesukaran butir yang baik berkisar antara 0,3-0,7 paling
baik pada 0,5.

Dalam istilah evaluasi, indeks kesukaran ini diberi simbol P singkatan ari proporsi.
Dengan demikian maka soal dengan P = 0,70 lebih mudah jika dibandingkan dengan P
= 0,20. sebaliknya soal dengan P = 0,30 lebih sukar daripada soal dengan P = 0,80.

Rumusan mencari indeks kesukaran menurut Daryanto (2005,180) adalah :

Dimana :
P = indeks kesukaran

B = banyaknya siswa yang menjawab soal itu dengan betul

JS = jumlah seluruh siswa peserta tes.

Misalkan :

Jumlah siswa peserta tes dalam suatu kelas ada 40 orang.dari 40 orang siswa tersebut
12 orang dapat mengerjakan soal no 1 dengan betul. Maka indeks kesukarannya
adalah:

Berarti soal ini berada dalam kategori sedang

Berdasarkan ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan


sebagai berikut :

- soal dengan P 0,00 sampai 0,30 adalah soal sukar

- soal dengan P 0,30 sampai 0,70 adalah soal sedang

- soal dengan P 0,70 sampai 1,00 adalah soal mudah

Walaupun demikian, ada yang berpendapat bahwa soal-soal yang dianggap baik yaitu
soal-soal dengan tingkat kesukaran sedang yaitu 0,30-0,70. tapi perlu diketahui bahwa
soal-soal yang terlalu mudah atau terlalu sukar, lalu tidak berarti tidak boleh digunakan.
Hal ini tergantung penggunaannya. Jika dari pengikut banyak, kita menghendaki yang
lulus hanya sedikit, kita ingin siswa yang top, maka lebih baik mengambil butir-butir tes
yang sukar.

Sebaliknya jika kekurangan pengikut ujian, kita pilihkan soal-sola ujian yang mudah.
Tambahan lagi, soal yang mudah akan membangkitkan semangat siswa yang lemah dan
soal yang sukar akan menambah gairah belajar bagi siswa yang pandai.

1. DAYA PEMBEDA (D)


Daya pembeda soal yaitu kemampuan sesuatu soal untuk membedakan antara siswa
yang berkemampuan tinggi dengan siswa yang berkemampuan rendah. Angka yang
menunjukkan besarnya daya pembeda disebut indeks diskriminasi ( D), dan nilainya
berkisar antara 0,00 sampai 1,00. Pada daya pembeda ini berlaku tanda negatif yang
digunakan jika sesuatu soal “terbalik” menunjukkan kualitas testee yaitu anak pandai
disebut bodoh dan anak bodoh disebut pandai.

Dengan demikian ada tiga titik pada daya pembeda yaitu:

Bagi suatu soal yang dapat dijawab benar oleh siswa kemampuan tinggi dan siswa
kemampuan rendah, maka soal itu tidak baik karena tidak punya daya pembeda.
Demikian juga jika semua kelompok bawah menjawab salah dan siswa berkemampuan
tinggi juga sama-sama menjawab salah, maka soal itu tidak mempunyai daya beda
sama sekali. Cara menentukan daya pembeda ( nilai D )

Cara menentukan daya pembeda ( nilai D )yaitu perlu dibedakan antara kelompok kecil
( kurang dari 100 ) dan kelompok besar ( 100 orang ke atas ).

a. Untuk kelompok besar

Mengingat biaya dan waktu menganalisis, maka untuk kelompok besar biasanya hanya
diambil dua kutub saja yaitu 27% skor teratas sebagai kelompok atas (JA) dan 27 % skor
terbawahsebagai kelompok bawah ( JB)

b. Untuk kelompok kecil

Seluruh kelompok tes di bagi dua sama besar, 50% kelompok atas dan 50% kelompok
bawah

Contoh :
Seluruh pengikut tes dideretkan mulai dari skor teratas sampai kepada skor terendah,
lalu di bagi dua.

Rumus Mencari Daya Pembeda menurut Daryanto ( 2005, 186) yaitu :

Dimana :

D = Daya pembeda

J = jumlah peserta tes

JA = banyak peserta kelompok atas

JB = banyak peserta kelompok bawah

BA = banyaknya peserta kelompok atas yang menjawab soal itu dengan benar

BB = banyak peserta kelompok bawah yang menjawab soal dengan benar

PA = proporsi peserta kelompok atas yang menjawab benar ( ingat P sebagai indeks
kesukaran )

PB = Proporsi peserta kelompok bawah yang menjawab benar


Contoh :

Dari hasil analisis tes yang terdiri dari 10 butir soal yang dikerjakan oleh 20 orang siswa,
didapat skor sebagai berikut:
A=5 F=6 K=7 P=3

B=7 G=6 L=5 Q=8

C=8 H=6 M=3 R=8

D=5 I=8 N=7 S=6

E = 10 J=7 O=9 T=6

Dari angka yang belum teratur tersebut kemudian dibuat urutan penyebaran, dari skor
yang paling tinggi ke skor yang paling rendah.
Uraian ini menunjukkan adanya kelompok atas ( JA) dan kelompok bawah ( JB).
Pada uraian di atas dapat ditunjukkan kelompok A dan B. Dan hal ini mempermudah
menentukan BA dan BB.
Dimana

BA = Banyaknya siswa yang menjawab benar pada kelompok atas A dan

BB = banyaknya siswa yang menjawab benar pada kelompok bawah B

Seperti yang diketahui, soal yang baik adalah soal yang dapat membedakan antara
anak berkemampuan tinggi dengan anak berkemampuan rendah, dilihat dari dapat atau
tidaknya ia mengerjakan soal tes.

Bila diperhatikan tabel diatas, dilihat khusus untuk butir soal no satu, dari kelompok
atas yang menjawab benar adalah 8 orang, dari kelompok bawah yang menjawab betul
adalah 3 orang. Dan diterapkan rumus daya pembeda maka :

JA = 10

JB = 10

PA = 0,8

PB = 0,9

BA =8

BB =9

Maka D = PA – P B
= 0,8 – 0,9

D = 0,1

Dengan demikian maka daya pembeda untuk soal no 1 adalah 0,1 dan ini berarti butir
soal no satu ini jelek.

Klasifikasi daya pembeda yaitu ;

D = 0,00 – 0,20 : jelek

D = 0,20 – 0,40 : cukup

D = 0,40 – 0,70 : baik

D = 0,70 – 1,00 : baik sekali

D = negatif, semuanya tidak baik, jadi semua butir soal yang mempunyai nilai D negatif
sebaiknya dibuang saja.

D. FUNGSI DISTRAKTOR

Disebut juga dengan pola jawaban atau fungsi pengecoh, yaitu distribusi siswa dalam
hal menentukan pilihan pada soal bentuk pilihan ganda. Fungsi distraktor ini diperoleh
dengan menghitung banyaknya siswa yang memilih pilihan jawaban a, b, c, d dan e
yang tidak memiliki pilihan manapun. Dalam istilah evaluasi disebut omit disingkat O.

Dari pola jawaban soal dapat ditentukan apakah pengecoh berfungsi sebagai pengecoh
dengan baik atau tidak. Pengecoh yang tidak dipilih sama sekali oleh siswa berarti
pengecoh itu jelek, dan terlalu menyolok menyesatkan. Sebaliknya sebuah distraktor
dapat dikatakan berfungsi dengan baik apabila distraktor tersebut mempunyai daya
tarik yang besar bagi pengikut-pengikut tes yang kurang memahami konsep atau
kurang menguasai bahan. Dengan melihat pola jawaban soal, dapat diketahui :

a. taraf kesukaran soal

b. taraf pembeda soal

c. baik tidaknya distraktor.

Sesuatu distraktor dapat diperlakukan dengan 3 cara yaitu :


a. diterima karena sudah baik

b. ditolak karena tidak baik

c. ditulis kembali karena kurang baik.

Kekurangannya mungkin hanya terletak pada rumusan kalimatnya sehingga hanya


perlu ditulis kembali, dengan perubahan seperlunya.

Menulis soal adalah suatu kesukaran yang sulit, sehingga apabila masih dapat distraktor
dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5 % pengikut tes.

Contoh perhitungan :

Dari analisis sebuah item, pola diketahui sebagai berikut ;

Dari pola jawaban soal ini dapat dicari :

1. P = 21/60 = 0,35

2. D = PA – PB = 15/30 – 6/30 = 0,30

3. distraktor : semua distraktornya sudah berfungsi dengan baik karena sudah dipilih
oleh lebih dari 5% pengikut tes.

4. dilihat dari segi omit 9 kolom pilihan paling kanan) adalah baik. Sebuah item
dikatakan baik jika omitnya tidak lebih dari 10% pengikut tes.

( 5% dari pengikut tes = 5% x 60 orang = 3 orang). Sebenarnya ketentuan ini hanya


berlaku untuk tes pilihan ganda dengan 5 alternatif dan p = 0,80. tetapi demi
kepraktisan diberlakukan untuk semua.

E. RELIABILITAS
Reliabilitas instrumen adalah keadaan instrumen yang menunjukkan hasil pengukuran
yang reliable (tidak berubah-ubah, konsisten). Instrumen yang reliable adalah instrumen
yang apabila digunakan untuk mengukur subyek atau objek yang sama pada waktu
yang berbeda dan pengukuran dilakukan oleh orang yang berbeda hasilnya tetap sama.

Beberapa faktor penting yang mempengaruhi reliabilitas suatu tes yaitu:

1. Kemampuan peserta tes atau subjek uji coba. Makin heterogen atau makin
berbeda kemampuan peserta tes makin tinggi reliabilitas tes.
2. Semakin besar jumlah peserta tes semakin besar reliabilitas, karena semakin
banyak peserta tes maka semakin beragam kemampuannya.
3. Panjang pendeknya tes. Jumlah item tes yang banyak dengan mengkaji
beberapa tujuan akan lebih reliable dibandingkan dengan jumlah item yang
sedikit, karena akan lebih representatif. Namun jumlah item tes yang terlalu
banyak akan melelahkan dan mengganggu konsentrasi sehingga hasil yang
diperoleh tidak tepat lagi.
4. Evaluasi yang subjektif juga akan menurunkan reliabilitas.
5. Hal yang berhubungan dengan penyelenggaraan tes.
Adanya hal-hal yang mempengaruhi hasil tes ini semua, secara tidak langsung akan
mempengaruhi reliabilitas soal tes.

Reliabilitas instrumen dinyatakan dengan koefisien reliabilitas. Instrumen yang reliable


adalah instrumen yang memiliki koefisien reliabilitas minimal 0,70. Sebaiknya koefisien
reliabilitas instrumen 0,80 atau lebih. Koefisien reliabilitas instrumen dihitung dengan
menggunakan rumus tertentu.

A. Pengujian Reliabilitas Tes Bentuk Objektif

Pada tes belajar bentuk objektif, ada tiga macam metode yang dapat digunakan untuk
menentukan taraf reliabilitas.

1. Metode atau teknik ulangan (test-retest method) atau single test-double trial
method.
Instrumen penelitian test-retest dilakukan dengan cara mencobakan instrumen dua kali
pada responden. Jadi dalam hal ini instrumennya sama, respondennya sama, dan
waktunya yang berbeda. Reliabilitas diukur dari koefisien korelasi antara percobaan
pertama dengan yang berikutnya. Bila koefisien korelasi positif dan signifikan maka
instrumen tersebut reliable. Pengujian cara ini sering juga disebutstability, yaitu
seberapa stabil skor yang diperoleh individu apabila dilakuakn pengujian dalam waktu
yang berbeda. Rumus yang dapat digunakan untuk menentukan reliabiltas test dengan
metode test-retest antara lain adalah Product Momen Correlation. Yaitu sebagai berikut:

Dimana:
X = skor test pertama

Y = skor test kedua

N = jumlah peserta tes

Cara lain yang dapat digunakan dengan teknik tes retes ini adalah tekinik korelasi rank-
order dari Spearmen menggunakn rumus:

Dimana:

ρ = koefisien korelasi

D = difference (beda antara rank skor hasil tes I dengan rank skor hasil tes II)

= RI – RII
N = banyaknya peserta tes.

1. Metode Belah Dua (split-half method) atau Single Test Single Trial Method
Dalam menggunakan metode ini pendidik atau evaluator hanya menggunnakan sebuah
tes dan dicobakan satu kali. Oleh sebab itu disebut juga singel-test-singel-trial
method. Pada metode ini tes yang diberikan dibagi/dibelah menjadi dua bagian. Jumlah
item yang diberikan harus genap sehingga dapat dibagi dua dan tiap kelompok memiliki
jumlah item/butir soal yang sama jumlahnya.

Untuk menentukan reliabilitas seluruh tes dapat digunakan rumus Spearman-Brown


sebagai berikut:

Rumus Spearman Brown:

Dimana:

korelasi antara skor-skor setiap belahan tes.

koefisien reliabilitas tes.


Cara lain yang juga dapat digunakan pada metode singel-test-singel-trial adalah formula
Rulon, Flanagan, Kuder-Richardson, Hoyt.

1. Metode Bentuk Paralel atau Metode Double Test Double Trial


Pada metode ini dipergunakan dua buah tes yang mempunyai kesamaan tujuan, tingkat
kesukaran, dan susunan, tetapi butir-butir soal berbeda. Pengujian reliabilitas dengan
cara ini cukup dilakukan sekali, tetapi instrumennya dua, pada responden yang sama,
waktu yang sama, instrumen berbeda. Reliabiltas instrumen dihitung dengan cara
mengkorelasikan antara data instrumen yang satu dengan data instrumen yang
dijadikan equivalen. Bila koefisien korelasi positif dan signifikan maka instrumen
tersebut reliable.

Kelemahan dari metode ini adalah kesukaran dalam penyusunan item yang parallel
dengan item pada tes pertama, selain itu juga membutuhkan biaya yang lebih mahal
dan memakan waktu yang lebih lama.

Rumus yang dapat digunakan untuk menentukan reliabilitas dengan metode parallel ini
adalah Product Moment Correlation dan Rank Order Correlation.

B. Pengujian Reliabilitas Tes Bentuk Uraian

Pengujian reliabilitas tes bentuk uraian tidak dapat dilakukan seperti contoh di atas.
Butir soal uraian menghendaki gradualisasi penilaian. Barangkali butir soal nomor 1
penilaian terendah adalah 0 dan penilaian tertinggi adlah 10, tetapi soal nomor 2
mungkin diberi nilai tertinggi hanya 5 dan butir soal nomor 3 penilaian tertinggi
misalnya 5 dan sebagainya.

Untuk keperluan mencari reliabilitas tes perlu juga dilakukan analisa item seperti halnya
tes bentuk Obkektif. Skor untuk masing-masing item dicantumkan pada kolom item
menurut apa adanya. Rumus yang digunakan adlah rumus alpha sebagai berikut.

Keterangan:

∑σ2i = jumlah varians skor tiap-tiap item


σ2t = varians total

Anda mungkin juga menyukai