Eval

Analisi Butir Soal
Menurut Kamus Besar Bahasa Indonesia analisis adalah penguraian suatu pokok atas berbagai
bagiannya dan penelaahan bagian itu sendiri serta hubungan antar bagian untuk memperoleh
pengertian yang tepat dan pemahaman arti keseluruhan.
Analisis butir soal yang dalam bahasa inggris disebut item analiysis dilakukan terhadap
empirik. Maksudnya, analisis itu baru dapat dilakukan apabila suatu tes telah dilaksanakan dan
hasil jawaban terhadap butir-butir soal telah kita peroleh. Analisis butir soal adalah suatu
kegiatan analisis untuk menentukan tingkat kebaikan butir-butir soal yang terdapat dalam
suatu tes sehingga informasi yang dihasilkan dapat kita pergunakan untuk memperbaiki butir
soal dan tes tersebut.
Identifikasi terhadap setiap butir item soal dilakukan dengan harapan akan menghasilkan
berbagai informasi berharga, yang pada dasarnya akan merupakan umpan balik (feed back)
guna melakukan perbaikan, pembenahan, dan penyempurnaan kembali terhadap butir-butir
soal, sehingga pada masa-masa yang akan yang akan dating tes hasil belajar yang disusun atau
dirancang oleh guru itu betul-betul dapat menjalankan fungsinya sebagai alat pengukur hasil
belajar yang memiliki kualitas yang tinggi.
Aiken dalam Suprananto (2012) berpendapat bahwa kegiatan analisis butir soal merupakan
kegiatan penting dalam penyusunan soal agar diperoleh butir soal yang bermutu. Tujuan
kegiatan ini adalah:
Mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum
digunakan,
Meningkatkan kualitas butir tes melalui revisi atau membuang soal yang tidak efektif,
Mengetahui informasi diagnostik pada siswa apakah mereka telah memahami materi yang
telah diajarkan.
Soal yang bermutu adalah soal yang dapat memberikan informasi setepat-tepatnya tentang
siswa mana yang telah menguasai materi dan siswa mana yang belum menguasai materi.
Selanjutnya menurut Anastasia dan Urbina (1997) dalam Suprananto (2012), analisis butir soal
dapat dilakukan secara kualitatif (berkaitan dengan isi dan bentuknya) dan kuantitatif
(berkaitan dengan ciri-ciri statistiknya). Analisis kualitatif mencakup pertimbangan validitas
isi dan konstruksi, sedangkan analisis kuantitatif mencakup pengukuran validitas dan
reliabilitas butir soal, kesulitan butir soal serta diskriminasi soal. Kedua teknik ini masing-
masing memiliki keunggulan dan kelemahan, oleh karena itu teknik terbaik adalah
menggunakan atau memadukan keduanya.
Teknik Analisis Butir Soal
Analisis soal dilakukan untuk mengetahui berfungsi atau tidaknya sebuah soal. Analisis pada
umumnya dilakukan melalui dua cara, yaitu analisis kualitatif (qualitatif control) dan analisis
kuantitatif (quantitatif control).
Analisis Butir Soal Secara Kualitatif

Pada prinsipnya analisis butir soal secara kualitatif dilaksanakan berdasarkan kaidah penulisan
soal (tes tertulis, perbuatan, dan sikap). Penelaahan ini biasanya dilakukan sebelum soal
digunakan atau diujikan. Aspek yang diperhatikan dalam penelaahan secara kualitatif
mencakup aspek materi, konstruksi, bahasa atau budaya, dan kunci jawaban.
Ada beberapa teknik yang digunakan untuk menganalisis butir soal secara kualitatif, yaitu
teknik moderator dan teknik panel. Teknik moderator merupakan teknik berdiskusi yang
didalamnya terdapat satu orang sebagai penengah. Berdasarkan teknik ini, setiap butir soal
didiskusikan secara bersama-sama dengan beberapa ahli.
Sedangkan teknik panel adalah teknik menelaah butir soal berdasarkan kaidah penulisan butir
soal. Kaidah itu diantaranya adalah materi, kontruksi, bahasa atau budaya, kebenaran kunci
jawaban. Caranya beberapa penelaah diberikan beberapa butir soal yang akan ditelaah, format
penelaahan, dan pedoman penelaahan.
Dalam menganalisis butir soal secara kualitatif penggunaan format penelaahan soal akan
membantu dan mempermudah prosedur pelaksanaannya. Format penelaahan soal digunakan
sebagai dasar untuk menganalisis setiap butir soal.
Analisis Butir Soal Secara Kuantitatif

Penelaahan soal secara kuantitatif adalah penelaahan butir soal didasarkan pada bukti empirik.
Salah satu tujuan utama pengujian butir-butir soal secara emperik adalah untuk mengetahui
sejauh mana masing-masing butir soal membedakan antara mereka yang tinggi
kemampuannya dalam hal yang didefinisikan oleh kriteria dari mereka yang rendah
kemampuannya.
Data empirik ini diperoleh dari soal yang telah diujikan. Ada dua pendekatan dalam analisis
secara kuantitatif yaitu pendekatan secara klasik dan modern.
Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi dari
jawaban peserta tes guna meningkatkan mutu butir soal yang bersangkutan dengan
menggunakan teori tes klasik. Pada teori tes klasik, analisis item tes dilakukan dengan
memperhitungkan kedudukan item dalam suatu kelas atau kelompok. Karakteristik atau
kualitas item sangat tergantung pada kelompok dimana diujicobakan sehingga kualitas item
terikat pada sampel responden atau peserta tes yang memberikan respons (sample bounded).
Ada beberapa kelebihan analisis butir soal secara klasik adalah murah, sederhana, familiar,
dapat dilaksanakan sehari-hari dengan cepat menggunakan komputer dan dapat menggunakan
beberapa data dari peserta tes.
Analisis butir soal secara modern adalah penelaahan butir soal dengan menggunakan teori
respon butir atau item response theory. Teori ini merupakan suatu teori yang menggunakan
fungsi matematika untuk menghubungkan antara peluang menjawab benar suatu butir dengan
kemampuan siswa.
Teori ini muncul karena adanya beberapa keterbatasan pada analisis secara klasik, yaitu
Tingkat kemampuan dalam teori klasik adalah true score. Artinya, jika suatu tes sulit maka
tingkat kemampuan peserta tes akan rendah.sebaiknya, jika suatu tes mudah maka tingkat
kemampuan peserta tes tinggi.
Tingkat kesukaran butir soal didefinisikan sebagai proporsi peserta tes yang menjawab benar.
Mudah atau sulitnya butir soal tergantung pada kemampuan peserta tes. Daya pembeda,
reliabilitas, dan validitas tes tergantung pada kondisi peserta tes.
Validitas
Karakter pertama dan memiliki peranan sangat penting dalam instrument evaluasi adalah
valid. Suatu instrument dikatakan valid, seperti yang duterangkan oleh Gay (1983) dan
Johnson & Johnson (2002), apabila instrument yang digunakan dapat mengukur apa yang
seharusnya diukur (Sukardi, 2008).
Pernyataan serupa juga disampaikan oleh Scarvia B. Anderson (dalam Arikunto, 1997) bahwa
“A test is valid if it measures what is purpose to measure”. Atau jika diartikan krang lebih,
sebuah tes dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur. Dalam
bahasa Indonesia “Valid” disebut dengan istilah “Sahih”.
Menurut Sukardi (2008: 31) validitas instrument suatu evaluasi, tidak lain adalah derajat yang
menunjukkan dimana suatu tes mengukur apa yang hendak diukur. Validitas suatu instrument
evaluasi mempunyai beberapa makna penting diantaranya seperti berikut: Validitas
berhubungan dengan ketepatan interpretasi hasil tes atau instrument evaluasi untuk group
individual dan bukan instrument itu sendiri.
Validitas diartikan sebagai derajat yang menunjukkan kategori yang bisa mencakup kategori
rendah, menengah dan tinggi. Prinsip suatu tes valid, tidak universal. Validitas suatu tes yang
perlu diperhatikan oleh para peneliti adalah bahwa Ia hanya valid untuk suatu tujuan tertentu
saja.
Macam-macam Validitas
Menurut Sukardi (2008) secara metodologis validitas suatu tes dapat dibedakan menjadi empat
macam, yaitu validitas isi, validitas konstruk, validitas konkruen dan validitas prediksi.
Macam-macam validitas tersebut akan diuraikan sebagai berikut:
Validitas isi
Yang dimaksud validitas isi ialah derajat dimana sebuah tes evaluasi mengukur cakupan
substansi yang ingin diukur. Untuk mendapatkan validitas isi memerlukan dua spek penting,
yaitu valid isi dan valid teknik sampling.Valid isi mencakup khususnya, hal-hal yang berkaitan
dengan apakah item-item evaluasi menggambarkan pengukuran dalam cakupan yang ingin
diukur. Sedangkan validitas teknik sampling pada umunya berkaitan dengan bagaimanakah
baiknya suatu sampel tes mempresentasikan total cakupan isi (Sukardi, 2008).
Sedangkan Arikunto (1997: 64) sebuah tes dikatakan memiliki validitas isi apabila mengukur
tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan. Oleh
karena materi yang diberikan tertera dalam kurikulum maka validitas isi juga disebut validitas
kurikuler.
Validitas Konstruk
Validitas konstruk merupakan derajat yang menunjukkan suatu tes mengukur sebuah konstruk
sementara atau Hyptotetical construct. Secara definitife, konstruk merupakan suatu sifat yang
tidak dapat diobservasi, tetapi kita dapat merasakan pengaruhnya melalui salah satu atau dua
indera kita (Sukardi, 2008).
Sedangkan Arikunto(1997: 64) sebuah tes dikatakan memiliki validitas konstruksi apabila
butir-butir soal yang membangun tes tersebut mengukur setiap aspek berfikir seperti
disebutkan dalam tujuan instruksional khusus. Dengan kata lain jika butir-butir soal mengukur
aspek berfikir tersebut sudah sesuai dengan aspek berfikir yang menjadi tujuan instruksional.
Validitas Konkruen
Validitas konkruen adalah derajat dimana skor dalam suatu tes dihubungkan dengan skor lain
yang telah dibuat. Tes dengan validitas konkruen biasanya diadministrasi dalam
waktu yang sama atau dengan criteria valid yang sudah ada. Sering kali juga terjadi bahwa tes
dibuat atau dikembangkan untuk pekerjaan yang sama seperti beberapa tes lainnya, tetapi
dengan cara yang lebih mudah dan lebih cepat. Validitas konkruen ditentukan dengan
membangun analisis hubungan dan perbedaan (Sukardi, 2008).
Validitas Prediksi
Validitas prediksi adalah derajat yang menunjukkan suatu tes dapat memprediksi tentang
bagaimana baik seseorang akan melakukan suatu prospek atau tugas atau pekerjaan yang
direncanakan. Validitas prediksi suatu tes pada umumnya ditentukan dengan membangun
hubungan antara skor tes dan beberapa ukuran keberhasilan dalam situasi tertentu yang
digunakan untuk memprediksi keberhasilan, yang selanjutnya disebut sebagai predictor.
Sedangkan tingkah laku yang diprediksi disebut criterion (Sukardi, 2008).
Sedangkan menurut Arikunto(1997: 66) memprediksi artinya meramal, dan meramal selalun
mengenai hal yang akan datang jika sekarang belum terjadi. Sebuah tes memiliki validitas
prediksi atau validitas ramalan apabila mempunyai kemampuan untuk meramalkan apa yang
akan terjadi pada masa yang akan datang.
Faktor-faktor yang Mempengaruhi Validitas
Banyak faktor yang dapat mempengaruhi hasil tes evaluasi tidak valid. Beberapa faktor
tersebut secara garis besar dapat dibedakan menurut sumbernya, yaitu faktor internal dari tes,
faktor eksternal tes, dan faktor yang berasal dari siswa yang bersangkutan.
Faktor yang berasal dari dalam tes

Arahan tes yang disusun dengan makna tidak jelas sehingga dapat mengurangi validitas tes
Kata-kata yang digunakan dalam struktur instrument evaluasi, tidak terlalu sulit
Item tes dikonstruksi dengan jelas.
Tingkat kesulitan item tes tidak tepat dengan materi pembelajaran yang diterima siswa.
Waktu yang dialokasikan tidak tepat, hal ini termasuk kemungkinan terlalu kurang atau terlalu
longgar.
Jumlah item terlalu sedikit sehingga tidak mewakili sampel
Jawaban masing-masing item evaluasi bisa diprediksi siswa
Faktor yang berasal dari administrasi dan skor tes.

Waktu pengerjaan tidak cukup sehingga siswa dalam memberikan jawaban dalam situasi
tergesa-gesa.
Adanya kecrangan dalam tes sehingga tidak membedakan antara siswa yang belajar dengan
melakukan kecurangan.
Pemberian petunjuk dari dari pengawas yang tidak dapat dilakukan pada semua siswa.
Teknik pemberian skor yang tidak konsisten.
Siswa tidak dapat memngikuti arahan yang diberikan dalam tes baku.
Adanya joki (orang lain bukan siswa) yang masuk dalam menjawab item tes yang diberikan.
Faktor yang berasal dari jawaban siswa

Seringkali terjadi bahwa interpretasi terhadap item-item tes evaluasi tidak valid, karena
dipengaruhi oleh jawaban siswa dari pada interpretasi item-item pada tes evaluasi (Sukardi,
2008).
Cara Mengetahui Validitas Alat Ukur

Sebuah tes dikatakan memiliki validitas jika hasilnya sesuai dengan kriterium, dalam arti
memilki kesejajaran antara hasil tes tersebut dengan kriterium. Teknik yang digunakan untuk
mengetahui kesejajaran adalah dengan teknik korelasi product moment yang dikemukakan
oleh pearson (Arikunto, 1997)
Reliabelitas
Pengertian
Menurut Sukardi (2008: 43) relaibelitas adalah karakter lain dari evaluasi. Reliabelitas juga
dapat diartikan sama dengan konsistensi atau keajegan. Suatu instrument evaluasi dikatakan
mempunyai nilai reliabelitas tinggi, apabila tes yang dibuat mempunyai hasil konsisten dalam
mengukur yang hendak diukur.
Sehubungan dengan reliabelitas ini Scarvia B. Anderson dan kawan-kawan (dalam Arikunto,
1997) menyatakan bahwa persyaratan bagi tes, yaitu validitas dan reliabelitas ini penting.
Dalam hal ini validitas lebih penting, dan reliabelitas ini perlu, karena menyokong
terbentuknya validitas. Sebuah tes mungkin reliable tapi tidak valid. Sebaliknya tes yang valid
biasanya reliable.
Tipe-tipe Reliabelitas
Menurut Sukardi (2008) Ada beberapa tipe reliabelitas yang digunakan dalam kegiatan
evaluasi dan masing-masing reliebelitas mempunyai konsistensi yang berbeda-beda. Beberap
tipe reliebelitas di antaranya: tes-retes, ekivalen, dan belah dua yang ditentukan melalui
korelasi.
Berbagai tipe tersebut akan diuraikan sebagai berikut:
Relibalelitas Dengan Tes-Retes
Reliabelitas tes-retes tidak lain adalah derajat yang menunjukkan konsistensi hasil sebuah tes
dari waktu ke waktu. Tes-Retes menunjukkan variasi skor yang diperoleh dari
penyelenggaraan satu tes evaluasi yang dilaksanakan dua kali atau lebih, sebagai akibat
kesalahan pengukuran. Dengan kata lain, kita tertarik dalam mencari kejelasan bahwa skor
siswa mencapai suatu tes pada waktu tertentu adalah sama hasilnya, ketika siswa itu dites lagi
dengan tes yang sama. Dengan melakukan tes-retes tersebut. Seorang guru akan mengetahui
seberapa jauh konsistensi suatu tes mengukur apa yang ingin diukur (Sukardi, 2008).
Sedangkan Arikunto (1997: 88) Metode tes ulang (tes-retes) dilakukan untuk menghindari dua
penyusunan dua seri tes. Dalam menggunakan teknik atau metode ini pengetes hanya memiliki
satu seri tes tapi dicobakan dua kali. Oleh karena tesnya satu dan dicobakan dua kali, maka
metode ini dapat disebut juga dengan single-test-double-trial- method.
Reliebelitas tes retes dapat dilakukan dengan cara seperti berikut:

Selenggarakan tes pada suatu kelompok yang tepat sesuai dengan rencana.
Setelah selang waktu tertentu, misalnya satu minggu atau dua minggu, lakukan kembali tes
yang sama dengan kelompok yang sama tersebut.
Korelasikan kedua hasil tes tersebut.
Jika hasil koefisien menunjukkan tinggi, berarti reliabilias tes adalah bagus. Sebaliknya, jika
korelasi rendah, berarti tes tersebut mempunyai konsistensi rendah (Sukardi, 2008).
Reliabelitas Dengan Bentuk Ekivalensi
Sesuai dengan namanya yaitu ekivalen, maka tes evaluasi yang hendak diukur reliabelitasnya
dibuat identik dengan tes acuan. Setiap tampilannya, kecuali substansi item yang ada, dapat
berbeda. Kedua tes tersebut sebaliknya mempunyai karate yang sama.
Karakteristik yang dimaksud misalnya mengukur variabel yang sama, mempunyai jumlah item
sama, struktur sama, mempunyai tingkat kesulitan dan mempunyai petunjuk, cara penskoran,
dan interpretasi yang sama (Sukardi 2008).
Pernyataan serupa juga disampaikan oleh Arikunto (1997: 87) tes paralel atau equivalent
adalah dua buah tes yang mempunyai kesamaan tujuan, tingkat kesukaran dan susunan, tetapi
butir-butirnya berbeda. Dalam istilah bahasa Inggris disebut Alternate-forms method (parallel
forms).
Tes reliabelitas secara ekivalen dapat dilaksanakan dengan mengikuti langkah-langkah sebagai
berikut:
Tentukan sasaran yang hendak dites
Lakukan tes yang dimaksud kepada subjek sasaran tersebut.
Administrasinya hasilnya secara baik.
Dalam waktu yang tidak terlalu lama, lakukan pengetesan yang kedua kalinya pada kelompok
tersebut
Korelasikan kedua hasil skor tersebut (Sukardi, 2008).
Perlu diketahui juga bahwa tes ekivalensi mempunyai kelemahan yaitu bahwa membuat dua
buah tes yang secara esensial ekivalen adalah sulit. Akibatnya akan selalu terjadi kesalahan
pengukuran (Sukardi, 2008). Pernyataan lain juga disampaikan oleh Arikunto (1997: 88)
kelemahan dari metode ini adalah pengetes pekerjaannya berat karena harus menyusun dua
seri tes. Lagi pula harus tersedia waktu yang lama untuk mencobakan dua kali tes.
Reliebilitas Dengan Bentuk Belah Dua
Menurut Sukardi (2008: 47) Reliabilitas belah dua ini termasuk reliabilitas yang mengukur
konsistensi internal. Yang dimaksud konsistensi internal adalah salah satu tipe reliabilitas yang
didasarkan pada keajegan dalam setiap item tes evaluasi. Relibilitas belah dua ini
pelaksanaanya hanya satu kali.
Cara melakukan reliabilitas belah dua pada dasarnya dapat dilakukan dengan urutan sebagai
berikut:
Lakukan pengetesan item-item yang telah dibuat kepada subjek sasaran.
Bagi tes yang ada menjadi dua atas dasar dua item, yang paling umum dengan membagi item
dengan nomor ganjil dengan item dengan nomor genap pada kelompok tersebut.
Hitung skor subjek pada kedua belah kelompok penerima item genap dan item ganjil.
Korelasikan kedua skor tersebut, menggunakan formula korelasi yang relevan dengan teknik
pengukuran (Sukardi, 2008).
Untuk mengetahui seluruh tes harus digunakan rumus Spearman-Brown (Arikunto, 1997).
Faktor-Faktor Yang Mempengaruhi Reliabilitas Instrumen
Menurut Sukardi (2008:51-52) koefisien reliabilitas dapat dipengaruhi oleh waktu
penyelenggaraan tes-retes. Interval penyelenggaraan yang terlalu dekat atau terlalu jauh, akan
mempengaruhi koefisien reliabilitas. Faktor-faktor lain yang juga mempengaruhi reliabilitas
instrument evaluasi di antaranya sebagai berikut::
Panjang tes, semakin panjang suatu tes evaluasi, semakin banyak jumlah item materi
pembelajaran diukur.
Penyebaran skor, koefisien reliabelitas secara langsung dipengaruhi oleh bentuk sebaran skor
dalam kelompok siswa yang di ukur. Semakin tinggi sebaran, semakin tinggi estimasi
koefisien reliable.
Kesulitan tes, tes normative yang terlalu mudah atau terlalu sulit untuk siswa, cenderung
menghasilkan skor reliabilitas rendah.
Objektifitas, yang dimaksud dengan objektif yaitu derajat dimana siswa dengan kompetensi
sama, mencapai hasil yang sama
5.
Parameter Tes
Sebagaimana telah disebut sebelumnya, bahwa item tes yang baik adalah item yang memenuhi
syarat sebagaimana kriteria atau karakteristik item tes yang baik. Karakteristik item yang
dimaksud adalah tingkat kesulitan atau kesukaran, daya pembeda, dan efektivitas pengecoh.
Tingkat Kesulitan atau Kesukaran

Tingkat kesukaran soal adalah peluang menjawab benar suatu soal pada tingkat kemampuan
tertentu yang biasanya dinyatakan dalam bentuk indeks. Tingkat kesukaran dinyatakan dalam
indeks kesukaran (dificulty index), yaitu angka yang menunjukkan proporsi siswa yang
menjawab benar soal tersebut. Semakin besar indeks tingkat kesukaran yang diperoleh dan
hasil hitungan, berarti semakin mudah soal itu.
Dalam hal ini, item yang baik adalah item yang tingkat kesukarannya dapat diketahui, tidak
terlalu sukar dan tidak terlalu mudah. Sebab, tingkat kesukaran item itu memiliki korelasi
dengan daya pembeda. Bilamana item memiliki tingkat kesukaran yang maksimal, maka daya
pembedanya akan rendah, demikian pula bila item itu terlalu mudah maka tidak akan memiliki
daya pembeda.
Oleh karena itu, sebaiknya tingkat kesukaran soal itu dipertahankan dalam batas yang mampu
memberikan daya pembeda. Namun, jika terdapat tujuan khusus dalam penyusunan tes, maka
tingkat kesukaran itu bisa dipertimbangkan. Misalnya, tingkat kesukaran item untuk tes
sumatif berbeda dengan tingkat kesukaran pada tes diagnostik.
Untuk menghitung taraf kesukaran soal dari suatu tes dipergunakan rumus sebagai berikut: TK
=U+L
T
Keterangan:
U = jumlah siswa yang termasuk kelompok pandai (upper group) yang menjawab benar
untuk tiap soal.
L = jumlah siswa yang termasuk kurang (lower group) yang menjawab benar untuk tiap
soal.
T = jumlah siswa dari kelompok pandai dan kelompok kurang (jumlah upper group dan
lower group)
Misalkan suatu tes yang terdiri atas N soal yang diberikan kepada 40 siswa. Dari hasil tes
tersebut, tiap-tiap soal dianalisis taraf kesukarannya. mula-mula hasil tes itu kita susun
kedalam peringkat, kemudian kita ambil 25% (10 lembar jawaban siswa kelompok pandai),
dan 10 lembar jawaban siswa dari kelompok yang kurang pandai. Kemudian kita tabulasikan.
Misalkan dari tabulasi soal kita peroleh hasil sebagai berikut: yang menjawab benar dari
kelompok pandai ada 9 siswa, dan yang menjawab benar dari kelompok kurang pandai ada 4
siswa.
Dengan menggunakan rumus diatas, maka taraf kesukaran atau TK dari soal adalah: TK = U
+ L = 9 + 4 = 0,65 atau 65%
T 20
Jadi dapat disimpilkan bahwa nilai dari TK atau tingkat kesukarannya adalah 65%.
Sedangkan dalam bukunya Drs. H. Daryanto, rumus untuk mencari taraf kesukaran atau
indeks kesukaran adalah:
P = B JS
Keterangan:
P = indeks kesukaran.
B = banyaknya siswa yang menjawab soal itu dengan benar. JS = jumlah
seluruh siswa peserta tes.
Contoh:
Jumlah siswa peserta tes dalam suatu kelas ada 40 siswa. Dari 40 siswa tersebut terdapat 12
siswa yang mampu mengerjakan soal no. 1 dengan benar. Maka berapa indeks kesukarannya?
Jawab:
P = B JS
= 12
40
= 0,30
Menurut ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan sebagai
berikut:
Soal dengan P 0,00 sampai 0,30 adalah soal sukar.
Soal dengan P 0,30 sampai 0,70 adalah soal sedang.
Soal dengan P 0,70 sampai 1,00 adalah soal mudah.
Daya Pembeda
Perhitungan daya pembeda adalah pengukuran sejauh mana suatu butir soal mampu
membedakan peserta didik yang sudah menguasai kompetensi dengan peserta didik yang
belum atau kurang menguasai kompetensi berdasarkan kriteria tertentu. Semakin tinggi
koofisien daya pembeda suatu butir soal, semakin mampu butir soal tersebut membedakan
antara peerta didik yang menguasai kompetensi dengan pesertan didik yang kurang menguasai
kompetensi.
Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi. Daya pembeda
suatu soal tes dapat dihitung dengan menggunakan rumus sebagai berikut: DP = U – L
½ T Keterangan:
DP = indeks DP atau daya pembeda yang dicari.
U = jumlah siswa yang termasuk dalam kelompok pandai yang mampu menjawab benar
untuk tiap soal.
L = jumlah siswa yang termasuk kurang yang menjawab benar untuk tiap soal. T =
jumlah siswa keseluruhan.
Contoh:
Dari hasil tes lomba olimpiade IPS, jumlah siswa yang dites adalah 40 siswa, sedangkan tes
tersebut terdiri dari 20 soal. Setelah hasil tes tersebut diperiksa, kemudian disusun kedalam
peringkat untuk menentukan 25% siswa yang termasuk kelompok pandai (upper group) dan
25% siswa yang termasuk kelompok kurang (lower group).
Kemudian hasil tes tersebut ditabulasikan dengan menggunakan format tabulasi jawaban tes,
kemudian hasil tabulasi dari kedua kelompok tersebut dimasukkan kedalam format analisis
soal tes, sehingga kita dapat menghitung tingkat kesukaran dan daya pembeda tiap soal yang
kita analisis.
Misalkan dari tabulasi soal no. 1 kita peroleh hasil sebagai berikut: yang menjawab benar dari
kelompok pandai ada 10 siswa, dan yang menjawab benar dari kelompok kurang ada 9 siswa.
Maka daya pembedanya adalah:
DP = U–L
½T
= 10 – 9
½ x (20)
= 1
10
= 0,10
Jadi dapat disimpulkan bahwa indeks pembedanya adalah 0,10.
Dalam bukunya Prof. Dr. Suharsimi Arikunto, dijelaskan mengenai klasifikasi daya pembeda, yaitu:
D = 0,00 – 0,20 = jelek (poor).
D = 0,20 – 0,40 = cukup (satisfactory). D = 0,40 – 0,70 = baik (good).
D = 0,70 – 1,00 = baik sekali (excellent).
Langkah Menguji Soal/instrument
Instrumen atau alat pengumpul data adalah alat yang digunakan untuk mengumpulkan data
dalam suatu penelitian. Data yang terkumpul dengan menggunakan instrumen tertentu
akan dideskripsikan dan dilampirkan atau digunakan untuk menguji hipotesis yang
diajukan dalam suatu penelitian. Instrumen memegang peranan yang sangat penting dalam
menentukan mutu suatu penelitian, karena validitas atau kesahihan data yang diperoleh
akan sangat ditentukan oleh kualitas instrumen yang digunakan, disamping prosedur
pengumpulan data yang ditempuh. Hal ini mudah dipahami karena instrumen berfungsi
mengungkapkan fakta menjadi data, sehingga jika instrumen yang digunakan mempunyai
kualitas yang memadai dalam arti valid dan reliabel maka data yang diperoleh akan sesuai
dengan fakta atau keadaan sesungguhnya di lapangan. Sedang jika kualitas instrumen yang
digunakan tidak baik dalam arti mempunyai validitas dan reliabilitas yang rendah, maka
data yang diperoleh juga tidak valid atau tidak sesuai dengan fakta di lapangan, sehingga
dapat menghasilkan kesimpulan yang keliru. Untuk mengumpulkan data dalam suatu
penelitian, kita dapat menggunakan instrumen yang telah tersedia dan dapat pula
menggunakan instrumen yang dibuat sendiri. Instrumen yang telah tersedia pada umumnya
adalah instrumen yang sudah dianggap baku untuk mengumpulkan data variabel-variabel
tertentu. Dengan demikian, jika instrumen baku telah tersedia untuk mengumpulkan data
variabel penelitian maka kita dapat langsung menggunakan instrumen tersebut, dengan
catatan bahwa teori yang dijadikan landasan penyusunan instrumen tersebut sesuai dengan
teori yang diacu dalam penelitian kita. Selain itu, konstruk variabel yang diukur oleh
instrumen tersebut juga sama dengan konstruk variabel yang hendak kita ukur dalam
penelitian kita. Akan tetapi, jika instrumen yang baku belum tersedia untuk mengumpulkan
data variabel penelitian maka instrumen untuk mengumpulkan data variabel tersebut harus
dibuat sendiri oleh peneliti.
Langkah-langkah Penyusunan dan Pengembangan Instrumen

Untuk memahami konsep penyusunan dan pengembangan instrumen, maka di bawah ini
akan disajikan proses atau langkah-langkah yang ditempuh dalam penyusunan instrumen
dilengkapi dengan bagan proses penyusunan item-item instrumen suatu penelitian. Secara
garis besar langkah-langkah penyusunan dan pengembangan instrumen adalah sebagai
berikut : Berdasarkan sintesis dari teori-teori yang dikaji tentang suatu konsep dari variabel
yang hendak diukur, kemudian dirumuskan konstruk dari variabel tersebut. Konstruk pada
dasarnya adalah bangun pengertian dari suatu konsep yang dirumuskan oleh peneliti.
Berdasarkan konstruk tersebut dikembangkan dimensi dan indikator variabel yang
sesungguhnya telah tertuang secara eksplisit pada rumusan konstruk variabel pada
langkah1.
3.Membuat kisi-kisi instrumen dalam bentuk tabel spesifikasi yang memuat dimensi,
indikator, nomor butir dan jumlah butir untuk setiap dimensi dan indikator.
Menetapkan besaran atau parameter yang bergerak dalam suatu rentangan kontinum dari
suatu kutub ke kutub lain yang berlawanan, misalnya dari rendah ke tinggi, dari negatif ke
positif, dari otoriter ke demokratik, dari dependen ke independen, dan sebagainya.
Menulis butir-butir instrumen yang dapat berbentuk pernyataan atau pertanyaan. Biasanya
butir instrumen yang dibuat terdiri atas dua kelompok yaitu kelompok butir positif dan
kelompok butir negatif. Butir positif adalah pernyataan mengenai ciri atau keadaan, sikap
atau persepsi yang positif atau mendekat ke kutub positif, sedang butir negatif adalah
pernyataan mengenai ciri atau keadaan, persepsi atau sikap negatif atau mendekat ke kutub
negatif.
Butir-butir yang telah ditulis merupakan konsep instrumen yang harus melalui proses
validasi, baik validasi teoretik maupun validasi empirik.
Tahap validasi pertama yang ditempuh adalah validasi teoretik, yaitu melalui pemeriksaan
pakar atau melalui panel yang pada dasarnya menelaah seberapa jauh dimensi merupakan
jabaran yang tepat dari konstruk, seberapa jauh indikator merupakan jabaran yang tepat
dari dimensi, dan seberapa jauh butir-butir instrumen yang dibuat secara tepat dapat
mengukur indikator.
Revisi atau perbaikan berdasarkan saran dari pakar atau berdasarkan hasil panel.
Setelah konsep instrumen dianggap valid secara teoretik atau secara konseptual,
dilakukanlah penggandaan instrumen secara terbatas untuk keperluan ujicoba.
Ujicoba instrumen di lapangan merupakan bagian dari proses validasi empirik. Melalui
ujicoba tersebut, instrumen diberikan kepada sejumlah responden sebagai sampel uji-coba
yang mempunyai karakteristik sama atau ekivalen dengan karakteristik populasi penelitian.
Jawaban atau respon dari sampel uji-coba merupakan data empiris yang akan dianalisis
untuk menguji validitas empiris atau validitas kriteria dari instrumen yang dikembangkan.
Pengujian validitas dilakukan dengan menggunakan kriteria baik kriteria internal maupun
kriteria eksternal. Kriteria internal, adalah instrumen itu sendiri sebagai suatu kesatuan
yang dijadikan kriteria sedangkan kriteria eksternal, adalah instrumen atau hasil ukur
tertentu di luar instrumen yang dijadikan sebagai kriteria.
Berdasarkan kriteria tersebut diperoleh kesimpulan mengenai valid atau tidaknya sebuah
butir atau sebuah perangkat instrumen. Jika kita menggunakan kriteria internal, yaitu skor
total instrumen sebagai kriteria maka keputusan pengujian adalah mengenai valid atau
tidaknya butir instrumen dan proses pengujiannya biasa disebut analisis butir. Dalam kasus
lainnya, yakni jika kita menggunakan kriteria eksternal, yaitu instrumen atau ukuran lain di
luar instrumen yang dibuat yang dijadikan kriteria maka keputusan pengujiannya adalah
mengenai valid atau tidaknya perangkat instrumen sebagai suatu kesatuan.
Untuk kriteria internal atau validitas internal, berdasarkan hasil analisis butir maka butir-
butir yang tidak valid dikeluarkan atau diperbaiki untuk diujicoba ulang, sedang butir-butir
yang valid dirakit kembali menjadi sebuah perangkat instrumen untuk melihat kembali
validitas kontennya berdasarkan kisi-kisi. Jika secara konten butir-butir yang valid tersebut
dianggap valid atau memenuhi syarat, maka perangkat instrumen yang terakhir ini menjadi
instrumen final yang akan digunakan untuk mengukur variabel penelitian kita.
Selanjutnya dihitung koefisien reliabilitas. Koefisien reliabilitas dengan rentangan nilai (0-
1) adalah besaran yang menunjukkan kualitas atau konsistensi hasil ukur instrumen.Makin
tinggi koefisien reliabilitas makin tinggi pula kualitas instrumen tersebut. Mengenai batas
nilai koefisien reliabilitas yang dianggap layak tergantung pada presisi yang dikehendaki
oleh suatu penelitian. Untuk itu kita dapat merujuk pendapat-pendapat yang sudah ada,
karena secara eksak tidak ada tabel atau distribusi statistik mengenai angka reliabilitas
yang dapat dijadikan rujukan.
Perakitan butir-butir instrumen yang valid untuk dijadikan instrumen final
Alur tahapan penyusunan dan pengembangan instrumen dapat dilihat pada Gambar 1
berikut.
Dari bagan tersebut terlihat bahwa untuk keperluan penyusunan dan pengembangan
instrumen pertama-tama adalah penetapan konstruk variabel penelitian yang merupakan
sintesis dari teori-teori yang telah dibahas dan dianalisis yang penyajiannya diuraikan
dalam pengkajian teoretik atau tinjauan pustaka.
Konstruk tersebut dijelaskan dalam definisi konseptual variabel, yang di dalamnya
tercakup dimensi dan indikator dari variabel yang hendak diukur. Berdasarkan konstruk
tersebut ditetapkan indikator-indikator yang akan diukur dari variabel tersebut. Selanjutnya
item-item instrumen dibuat untuk mengukur indikator-indikator yang telah ditetapkan
dengan cara seperti telah dikemukakan pada proses penyusunan dan pengembangan
instrumen point 4 dan 5.
Karena bentuk item-item instrumen yang akan dibuat harus sesuai dengan instrumen yang
dipilih, maka sebelum menulis item-item instrumen terlebih dahulu peneliti harus memilih
jenis instrumen apa yang sesuai untuk mengukur indikator dari variabel yang akan diteliti.
Ada beberapa jenis instrumen yang biasa digunakan dalam penelitian, antara lain
kuesioner, skala (skala sikap atau skala penilaian), tes, dan lain-lain. Kuesioner adalah alat
pengumpul data yang berbentuk pertanyaan yang akan diisi atau dijawab oleh responden.
Beberapa alasan digunakannya kuesioner adalah : (1) kuesioner terutama dipakai untuk
mengukur variabel yang bersifat faktual, (2) untuk memperoleh informasi yang relevan
dengan tujuan penelitian, dan (3) untuk memperoleh informasi dengan validitas dan
reliabilitas setinggi mungkin
Variabel Teori
Konstruk
Defenisi
konseptura
l
Defenisi
operasional
Penetapan
Jenis
Instrumen
Menyusun
butir
Instrumen
Gambar 1. Alur Penyusunan dan Pengembangan Instrumen
Teknik Penyusunan dan Penilaian Butir Instrumen

Secara umum ada beberapa hal yang perlu diperhatikan dalam menulis butir instrumen,
baik instrumen dalam bentuk skala sikap, skala penilaian, maupun tes.
Hal-hal yang perlu diperhatikan di antaranya :
1.Butir harus langsung mengukur indikator, yaitu penanda konsep yang berupa sesuatu
kenyataan atau fakta (das solen) seperti keadaan, perasaan, pikiran, kualitas, kesediaan, dan
sebagainya.
2.Jawaban terhadap butir instrumen dapat mengindikasikan ukuran indikator apakah
keadaan responden berada atau dekat ke kutub positif atau keadaan responden berada atau
dekat ke kutub negatif, misalnya jika berada atau dekat ke kutub positif menandakan sikap
positif, menandakan motivasi tinggi, menandakan kepemimpinan yang efektif,
menandakan intensitas tinggi, menandakan produktivitas tinggi, menandakan gaya
kepemimpinan demokratik, menandakan iklim kerja yang kondusif, dan sebagainya.
Sedang jika berada atau dekat ke kutub negatif menandakan sikap negatif, menandakan
motivasi rendah, menandakan kepemimpinan yang tidak efektif, menandakan intensitas
rendah, menandakan produktivitas rendah, menandakan gaya kepemimpinan otoriter,
menandakan iklim kerja yang tidak kondusif, dan sebagainya.
3.Butir dapat berbentuk pertanyaan atau pernyataan dengan menggunakan bahasa yang
sederhana, jelas, tidak mengandung tafsiran ganda, singkat, dan komunikatif.
4.Opsi dari setiap pertanyaan atau pernyataan itu harus relevan menjawab pertanyaan atau
pernyataan tersebut.
5.Banyaknya opsi menunjukkan panjang skala yang secara konseptual kontinum. Karena
distribusi jawaban responde
secara teoretik mendekati distribusi normal untuk jumlah populasi cukup besar, maka
sebaiknya menggunakan skala ganjil.
Penulisan Butir Tes

Tipe Pilihan Ganda
1.Item hendaklah menanyakan hal yang penting untuk diketahui.
2.Tulislah item yang berisi pernyataan pasti.
3.Utamakan item yang mengandung pernyataan umum yang bertahan lama.
4.Buatlah item yang berisi hanya satu gagasan saja.
5.Buatlah item yang menyatakan inti pertanyaan dengan jelas. Gunakan kalimat sederhana
dan tidak berlebih-lebihan.
6.Sebaiknya item tidak didasari oleh pernyataan negatif.
7.Gunakan bahasa yang jelas, kata yang sederhana, dan pernyataan yang langsung.
8.Item harus memberikan alternatif bagi isi pernyataan yang paling penting.
9.Berikan alternatif jawaban yang jelas berbeda.
10.Alternatif yang ditawarkan hendaknya mempunyai struktur dan arti yang sejajar atau
dalam satu kategori.
Contoh Instrumen Soal
Indikator Pencapaian Bentuk Bentuk Instrumen

Penilaian Instrumen
Tes Tertulis Pilihan I. Pilihlah salah satu jawaban yang menurut kalian paling
Ganda tepat!
Menyebutkan pembentukan
BPUPKI BPUPKI dibentuk pada tanggal…
1 Maret 1945
2 Maret 1945
3 Maret 1945
4 Maret 1945
BPUPKI diketuai oleh …

Menyebutkan keanggotan Soeroso
BPUPKI Koiso
Ichibangase Yosio
Radjiman Wedyodiningrat
Jumlah anggota BPUPKI adalah…

60
64
62
68
Tujuan dibentuknya BPUPKI adalah…
Untuk mempersiapkan kemerdekaan indonesia
Untuk menyelidiki usual-usul mengenai dasar negara
Jelaskan Tujuan Untuk mempelajari, menyelidiki dan mempersiapkan
Pembentukan BPUPKI
hal-hal penting yang berhubungan dengan
pembentukan negara Indonesia
Menjelaskan sidang d. Untuk mengumpulkan usui-usul para anggota
BPUPKI
Pelaksanaan sidang pertama BPUPKI yang membahas tentang
rumusan dasar negara Indonesia dilaksanakan pada tanggal…
31 Mei- 2 Juni 1945
29 Mei- 1 Juni 1945
c. 29 Mei- 31 Mei 1945
d. 29 Mei- 2 Juni 1945
Rumusan Dasar Negara yaitu Persatuan, kekeluargaan

Menyebutkan tokoh yang dirumuskan pada tanggal 31 Mei 1945 oleh…
mengusulkan rumusan Ir Soekarno
dasar negara Mr. Mohammad Yamin
Dr.KRT Radjiman Wedyodiningrat
Soepomo
Berikut ini yang bukan gagasan yang dikemukakan Mr. Muh

Menyebutkan isi usulan Yamin mengenai dasar negara Indonesia pada sidang pertama
dasar negara oleh para BPUPKI pada tanggal 29 Mei 1945 adalah ….
pendiri negara Kekeluargaan
Peri kebangsaan
Peri kemanusiaan
Kesejahteraan rakyat
Perhatikan nama-nama tokoh berikut ini !

Ir. Soekarno
Menyebutkan anggota Mr. A. A. Maramis
Panitia Sembilan Sayuti Melik
Mr. Ahmad Subardjo
Radjiman Wedyodiningrat
H. Agus Salim
Mr. Soepomo
Dari nama tokoh diatas yang termasuk dalam panitia

Eval

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Eval

Diunggah oleh

Hak Cipta:

Format Tersedia

Analisi Butir Soal

Teknik Analisis Butir Soal

Analisis Butir Soal Secara Kualitatif

Analisis Butir Soal Secara Kuantitatif

Faktor-faktor yang Mempengaruhi Validitas

Faktor yang berasal dari dalam tes

Faktor yang berasal dari administrasi dan skor tes.

Faktor yang berasal dari jawaban siswa

Cara Mengetahui Validitas Alat Ukur

Berbagai tipe tersebut akan diuraikan sebagai berikut:

Relibalelitas Dengan Tes-Retes

Reliebelitas tes retes dapat dilakukan dengan cara seperti berikut:

Reliabelitas Dengan Bentuk Ekivalensi

Reliebilitas Dengan Bentuk Belah Dua

Tingkat Kesulitan atau Kesukaran

Langkah Menguji Soal/instrument

Langkah-langkah Penyusunan dan Pengembangan Instrumen

Gambar 1. Alur Penyusunan dan Pengembangan Instrumen

Teknik Penyusunan dan Penilaian Butir Instrumen

Penulisan Butir Tes

Contoh Instrumen Soal

Indikator Pencapaian Bentuk Bentuk Instrumen

BPUPKI diketuai oleh …

Jumlah anggota BPUPKI adalah…

Rumusan Dasar Negara yaitu Persatuan, kekeluargaan

Berikut ini yang bukan gagasan yang dikemukakan Mr. Muh

Perhatikan nama-nama tokoh berikut ini !

Dari nama tokoh diatas yang termasuk dalam panitia

Anda mungkin juga menyukai