Anda di halaman 1dari 10

PAPER EVALUASI PEMBELAJARAN BIOLOGI

ANALISI BUTIR SOAL

OLEH :

NAMA : NURJARIATI FADILAH

NIM : E1A017052

KELAS : B/V

PROGRAM STUDI PENDIDKAN BIOLOGI

FAKULTAS KEGURUAN DAN ILMU PENDIDIKAN

UNIVERSITAS MATARAM

2019
1. Bagaimana melakukan analisis tes dan butir soal.
Salah satu upaya dalam meningkatkan kualitas proses dan hasil belajar sebagai
bagian dari peningkatan kualitas pendidikan dapat dilakukan melalui sistem penilaian.
Dalam penilaian proses dan hasil belajar siswa di sekolah, guru memberikan suatu
evaluasi untuk mengetahui sejauh mana penguasaan materi yang telah dikuasai oleh
siswa selama proses belajar mengajar mengenai materi yang disampaikan.
Idealnya sebelum suatu tes dipergunakan maka tes tersebut harus memenuhi
syarat-syarat sebagi tes yang baik, maka tes yang bersangkutan perlu diuji cobakan.
Namun sebelum diuji cobakan tes tersebut harus memperlihatkan indokator-indikator
sebagai tes yang baik. Dalam hal ini dilakukan suatu analisis butir soal.
Analisis butir soal adalah pengkajian pertanyaan tes agar diperoleh perangkat
pertanyaan yang memiliki kualitas memadai. Analisis yang dilakukan atas dasar uji
coba dinamakan analisis empiris. Sedangkan analisis berdasarkan karakteristik yang
tampak pada tes tersebut tanpa uji coba dinamakan analisis rasional, karena semata-
mata dilakukan atas dasar pertimbangan rasio.

2. Ciri-ciri tes yang baik


Tes yang baik untuk diberikan kepada peserta didik harus memenuhi persyarata. Ciri-
ciri tes yang yang baik terdiri atas :
a. Validitas atau kesahihan mengacu kepada bahwa tes benar-benar mengukur
apa yang ingin diukur. Misalkan: andaikan tes ditujukan untuk mengukur
kemampuan berbicara, maka tesnya harus dalam bentuk tes lisan, bukan
menulis. Secara garis besar ada 2 jenis validitas, yakni validitas logis (logical
validity) dan validitas empiris (empirical validity). Validitas logis merupakan
jenis validitas yang dianalisa secara pemahaman logis apakah tes tersebut
valid berdasarkan teori-teori dari para ahli. Sedangkan validitas empiris
merupakan jenis validitas yang dianalisa berdasarkan data-data empiris. Data
empiris merupakan data pengalaman yang berupa skor/ nilai yang nantinya
akan dikorelasikan.
b. Reliabilitas atau keajegan mengacu kepada konsistensi dari hasil tes.
Meskipun tes tersebut diberikan beberapa kali kepada siswa yang sama,
hasilnya akan tetap/ konsisten. Konsisten tidak harus sama, namun secara
keseluruhan apabila hasil tes turun maka hasil semua peserta tes akan turun
juga, begitu juga sebaliknya. Kondisi konsisten ini diibaratkan orang yang
berbicara konsisten, maka pembicaraan tidak akan berubahubah, sehingga bisa
dipercaya. Begitupula dengan konsisten dalam hal tes ini. Tes yang reliable
(tetap/konsisten), maka tes tersebut dapat dipercaya sebagai alat ukur.
c. Objectivitas mengacu kepada ketetapan/ konsistensi pada sistem penyekoran.
Objectivitas menunjukkan tidak adanya unsur pribadi yang mempengaruhi
penyekoran/ hasil. Jadi, hasil tes benar-benar menunjukkan kemampuan
peserta tes dengan apa adanya.
d. Praktikabilitas mengacu kepada kepraktisan dan kemudahan dalam
pengadministrasian. Praktikablitas menunjukkan bahwa tes mudah
dilaksanakan, mudah diperiksa dan dilengkapi dengan petunjuk yang jelas.
Jadi, tes sifatnya sederhana dan lengkap.
e. Ekonomis menunjukkan bahwa tes tidak memerlukan biaya yang mahal,
waktu yang lama dan tenaga yang banyak. Yang penting tes dapat
diselenggarakan dengan baik.

3. Macam-macam validitas (isi, bahasa, konstruk)


a. Validitas isi (content validity), Validitas isi suatu tes mempermasalahkan
seberapa jauh suatu tes mengukur tingkat penguasaan terhadap isi suatu materi
tertentu yang seharusnya dikuasai sesuai dengan tujuan pengajaran. Dengan
kata lain, tes yang mempunyai validitas isi yang baik ialah tes yang benar-
benar mengukur penguasaan materi yang seharusnya dikuasai sesuai dengan
konten pengajaran yang tercantum dalam Garis-Garis Besar Program
Pengajaran (GBPP). Validitas isi menunjukkan sejauh mana pertanyaan, tugas
atau butir dalam suatu tes atau instrumen mampu mewakili secara keseluruhan
dan proporsional perilaku sampel yang dikenai tes tersebut. Artinya tes
mencerminkan keseluruhan konten atau materi yang diujikan atau yang
seharusnya dikuasai secara proporsional.
Untuk mengetahui apakah tes itu valid atau tidak harus dilakukan
melalui penelaahan kisi-kisi tes untuk memastikan bahwa soal-soal tes itu
sudah mewakili atau mencerminkan keseluruhan konten atau materi yang
seharusnya dikuasai secara proporsional. Oleh karena itu, validitas isi suatu tes
tidak memiliki besaran tertentu yang dihitung secara statistika, tetapi dipahami
bahwa tes itu sudah valid berdasarkan telaah kisi-kisi tes. Oleh karena itu,
wiersma dan Jurs dalam Djaali dan Pudji (2008) menyatakan bahwa validitas
isi sebenarnya mendasarkan pada analisis logika, jadi tidak merupakan suatu
koefisien validitas yang dihitung secara statistika.
Untuk memperbaiki validitas suatu tes, maka isi suatu tes harus
diusahakan agar mencakup semua pokok atau sub-pokok bahasan yang hendak
diukur. Kriteria untuk menentukan proporsi masing-masing pokok atau sub
pokok bahasan yang tercakup dalam suatu tes ialah berdasarkan banyaknya isi
(materi) masing-masing pokok atau sub-pokok bahasan seperti tercantum
dalam kurikulum atau Garis-Garis Besar Program Pengajaran(GBPP).
Validitas isi ini terbagi lagi menjadi dua tipe, yaitu face validity
(validitas muka) dan logical validity (validitas logis).
a) Face Validity (Validitas Muka)
Validitas muka adalah tipe validitas yang paling rendah
signifikasinya karena hanya didasarkan pada penilaian selintas
mengenai isi alat ukur. Apabila isi alat ukur telah tampak sesuai
dengan apa yang ingin diukur maka dapat dikatakan validitas
muka telah terpenuhi.
b) Logical Validity (Validitas Logis)
Validitas logis disebut juga sebagai validitas sampling
(sampling validity). Validitas tipe ini menunjuk pada
sejauhmana isi alat ukur merupakan representasi dari aspek
yang hendak diukur

b. Validitas Konstruk (Construct validity)


Validitas konstruk adalah validitas yang mempermasalahkan seberapa
jauh item-item tes mampu mengukur apa-apa yang benar-benar hendak diukur
sesuai dengan konsep khusus atau definisi konseptual yang telah ditetapkan.
validitas konstruk dihadirkan sebagai alternatif terhadap model kriteria
maupun model isi, dan dalam hal-hal tertentu terdapat kesamaan di antara
mereka. Cronbach & Meehl (1955; 282) mengatakan bahwa validitas konstruk
kapanpun dicakup dalam suatu tes yang diinterpretasikan sebagai suatu ukuran
dari beberapa atribut atau kualitas, yang adalah tidak didefinisikan secara
operasional, dan pada atribut mana tidak memiliki kriteria yang cukup (1955;
299). Technical Recommendation (APA, 1954) dan Cronbach & Meehl
(1955), keduanya telah membicarakan validitas konstruk sebagai satu
tambahan terhadap model kriteria dan model isi dan tidak ada maksud
mengesampingkan.
Validitas konstruk biasa digunakan untuk instrumen-instrumen yang
dimaksudkan mengukur variabel-variabel konsep, baik yang sifatnya
performansi tipikal seperti instrumen untuk mengukur sikap, minat, konsep
diri, lokus control, gaya kepemimpinan, motivasi berprestasi, dan lain-lain,
maupun yang sifatnya performansi maksimum seperti instrumen untuk
mengukur bakat (tes bakat), intelegensi (kecerdasan intelekual), kecerdasan
emosional dan lain-lain.
Untuk menentukan validitas konstruk suatu instrumen harus dilakukan
proses penelaahan teoritis dari suatu konsep dari variabel yang hendak diukur,
mulai dari perumusan konstruk, penentuan dimensi dan indikator, sampai
kepada penjabaran dan penulisan butir-butir item instrumen. Perumusan
konstruk harus dilakukan berdasarkan sintesis dari teori-teori mengenai
konsep variabel yang hendak diukur melalui proses analisis dan komparasi
yang logik dan cermat.
Validitas konstruk biasa digunakan untuk instrumen-instrumen yang
dimaksudkan mengukur variabel-variabel konsep, baik yang sifatnya
performansi tipikal seperti instrumen untuk mengukur sikap, minat, konsep
diri, lokus control, gaya kepemimpinan, motivasi berprestasi, dan lain-lain,
maupun yang sifatnya performansi maksimum seperti instrumen untuk
mengukur bakat (tes bakat), intelegensi (kecerdasan intelekual), kecerdasan
emosional dan lain-lain.
Untuk menentukan validitas konstruk suatu instrumen harus dilakukan
proses penelaahan teoritis dari suatu konsep dari variabel yang hendak diukur,
mulai dari perumusan konstruk, penentuan dimensi dan indikator, sampai
kepada penjabaran dan penulisan butir-butir item instrumen. Perumusan
konstruk harus dilakukan berdasarkan sintesis dari teori-teori mengenai
konsep variabel yang hendak diukur melalui proses analisis dan komparasi
yang logik dan cermat.

4. Cara menentukan validitas test dan butir soal.


Validitas butir menandai bahwa butir tes dapat menjalankan fungsi
pengukurannya dengan baik. Hal ini dapat diketahui dari seberapa besar peran yang
diberikan oleh butir soal tes tersebut dalam mencapai skor seluruh tes. Validitas butir
dapat dihitung dengan menggunakan rumus korelasi point biserial. Korelasi ini untuk
menguji validitas butir tes dengan skor benar 1 dan skor salah 0. Rumus dari korelasi
point biserial adalah:

5. Cara menetukan reliable tes dan butir soal.


Reliabilitas suatu tes pada hakikatnya menguji keajegan pertanyaan tes yang
didalamnya berupa seperangkat butir soal apabila diberikan berulangkali pada objek
yang sama. Suatu tes dikatakan reliabel apabila dilakukan beberapa kali pengujian
menunjukkan hasil yang relatif sama.
Jika jumlah soal ganjil maka tidak mungkin dengan belah dua tetapi harus
dengan rumus yang lain, yaitu yaitu rumus KR 20 dan rumus KR-21. Rumus KR-20
digunakan untuk menghitung reliabilitas speedy test, yaitu tes kecepatan. Rumus KR-
21 lebih tepat digunakan untuk power test yang memberi kesempatan kepada siswa
untuk dapat menampilkan kemampuannya secara maksimal. Prosedur menghitung
reliabilitas dilakukan dengan menghubungkan setiap butir dalam satu tes dengan
butir-butir lainnya dalam tes itu sendiri secara keseluruhan. Untuk menganalisis
reliabilitas soal tes dalam penelitian ini digunakan rumus Kuder Richardson (KR-21)
yaitu:
Batas minimal reliabilitas adalah harga standar error dikalikan 1,96 yang
merupakan harga Z untuk peluang 95%. Jadi, alat tes dikatakan reliabel jika r11>SE
x 1,96.

6. Analisi homogenitas.
Uji homogenitas adalah pengujian mengenai sama tidaknya variansi-variansi dua
buah distribusi atau lebih. Uji homogenitas yang akan dibahas dalam tulisan ini
adalah Uji Homogenitas Variansi dan Uji Bartlett. Uji homogenitas dilakukan untuk
mengetahui apakah data dalam variabel X dan Y bersifat homogen atau tidak.
Langkah-langkah menghitung uji homogenitas :

1. Mencari Varians/Standar deviasi Variabel X dan Y, dengan rumus :

2. Mencari F hitung dengan dari varians X dan Y, dengan rumus :

Catatan:
Pembilang: S besar artinya Variance dari kelompok dengan variance terbesar
(lebih banyak).
Penyebut: S kecil artinya Variance dari kelompok dengan variance terkecil (lebih
sedikit).
Jika variance sama pada kedua kelompok, maka bebas tentukan pembilang dan
penyebut.
3. Membandingkan F hitung dengan Tabel F: F Tabel dalam Excel pada tabel
distribusi F, dengan:
 Untuk varians dari kelompok dengan variance terbesar adalah dk
pembilang n-1.
 Untuk varians dari kelompok dengan variance terkecil adalah dk penyebut
n-1.
 Jika F hitung < Tabel F: F Tabel dalam Excel, berarti homogeny
 Jika F hitung > Tabel F: F Tabel dalam Excel, berarti tidak homogen
4. Kemudian dilakukan penghitungan, dengan rumus yang ada.
5. Kemudian dicari F hitung.

7. Analisis kesukaran.
Ada beberapa dasar pertimbangan dalam menentukan proporsi jumlah soal
kategori mudah, sedang. " dan sukar Pertimbangan pertama adalah adanya
kesembangan, yakni jumlah soal sama unluk ketiga kategon tersebut Antinya, soal
mudah, sedang. dan sukar, jumiahnya seimbang Misainya tes obiektif pilhan berganda
dalam pelajaran matematika disusun sebanyak 60 pertanyaan Dari ke-60 pertanyaan
fersebut, soal kategor mudah sebanyak 20, kalegorn sedang 20, dan kategori sukar 20
Pertimbangan kedua propors jumlah soal untuk ketiga kategon tersebut didasarkan
atas kurva normal Artinya, sebagian soal berada dalam I kategon sedang sebagian lag:
termasuk ke dalam kategon mudah dan sukar dengan proporsi yang I seimbang
Pertandingan antara soal mudah-sedano-sukar bisa dbuat 3-4-3, artinya 30 % soal
kategori mudah, 40 Ss kategon sedang. dan 30 % kaiegorn sukar Perbandingan lain
yang termasuk sejenis dengan propors d atas misalnya 3-5-2 Artinya. 30 % soal
kategori mudan. 50 % kategon sedang. dan 20 % kategon sukar. I Cara melakukan
analsis untuk menentukan tingkat kesukaran soal adalah dengan menggunakan rumus
I sebagat berikut :
Cara menentukan Tingkat Kesukaran
Untuk menghitung tingkat kesukaran tiap butir soal digunakan persamaan:
P= J x B
dengan: P adalah indeks kesukaran, B adalah banyaknya siswa yang menjawab soal
dengan benar, dan Jx adalah jumlah seluruh siswa peserta tes
Dalam literatur lain disebutkan bahwa Tingkat kesukaran tes adalah
pernyataan tentang seberapa mudah atau seberapa sukar sebuah butir tes itu bagi
testee atau siswa terkait. i Tingkat kesukaran merupakan salah satu ciri tes yang perlu
diperhatikan, karena tingkat kesukaran I tes menunjukan seberapa sukar atau
mudahnya buti-butir tes atau tes secara keseluruhan yang telah diselenggarakan Butir
tes yang baik adalah butir yang memiliki tingkat kesukaran yang sedang. yaitu yang
dapat dijawab dengan benar oleh sekitar 40 sampai 80 % peserta tes Sebab butir tes
yang hanya dijawab oleh 10 % atau bahkan 90 % akan sulit dibedakan, manakah
kelompok yang benar-benar mampu dan kelompok yang benar-benar kurang mampu
dalam menjawab soal Butir tes harus diketahui tingkat kesukarannya, karena setiap
pembuat tes perlu mengetahui apakah soal itu sukar, sedang atau mudah Tingkat
kesukaran itu dapat dilihat dari jawaban siswa i Semakin sedikit jumlah siswa yang
dapat menjawab soal itu dengan benar, berarti soal itu termasuk sukar dan sebaliknya
semakin banyak siswa yang dapat menjiawab soal itu dengan benar. berarti itu
mengindikasikan soal itu tidak sukar atau soal itu mudah.
Dalam proses analisis les, seorang guru hendakny a meninjau ulang validitas
dan susunan redaksional butir tes yang dibuatnya Jika ternyata bulir tes/soal tidak
valid maka keputusan yang harus diambil adalah membuang butir tes tersebut Dan jka
butir tes itu alid, maka perlu diadakanI revisi terhadap susunan redaksi tes Vald yang
dimaksud di sini adalah terdapat keterwakilan dan relevansi dengan kemampuan yang
harus diukur sesuai GBPP yang diberlakukan Tingkat kesukaran buitir tes dinyatakan
dengan indeks berkisar antara 0.00 sampai dengan 1.00

8. Analisis daya beda.


Daya Beda Menganais daya pembeda artinya mengkijl oal soal tes dari sepi
kesangqupan tes tersebut dalam membedakan siswa yang termasuk ke dalam kategori
lemahi/rendah dan kategori kuat/tingl prestasinya Artinya, bila soal tersebut diberikan
kepada anak yang mampu, hasilinya rendah. Tetapi bla l dberkan kepada anak yang
lemah, haslinya lebh ing: Atau bila diberikan kepada kedua kategori siswa I lersebut
haslinya sama saja Dengan demikian, les yang tidak memiky daya pembeda lidak
akan menghasilikan gambaran hasil yang sesua dengan kemampuan siswa yaing
sebenarmya. Sunguh aneh bila l anak pandat bdak us. tetapi anak bodoh us dengan
baik anpa diakukan manipulasi oieh si penia atau d luar faktor kebetulan Cara yang
biasa dilakulkan dalam analis daya pembeda adalah dengan mengunakan tabel atau
knteria I dan Rose dan Stanley Rumusnya adalah
Daya pembeda butir soal dihitung dengan menggunakan persamaan:
DP = BA – BB
JA JS
dengan DP merupakan Indeks daya pembeda, BA adalah banyaknya peserta
tes kelompok atas yang menjawab soal dengan benar, BB adalah banyaknya peserta
tes kelompok bawah yang menjawab soal dengan benar, JA merupakan banyaknya
peserta tes kelompok atas, dan JB adalah banyaknya peserta tes kelompok bawah

9. Analisis pengecoh.
Menganalisis fungsi pengecoh (distractor) dikenal dengan istilah menganalisis
pola penyebaran jawaban butir soal pada soal bentuk pilihan ganda. Pola tersebut
diperoleh dengan menghitung banyaknya testee yang memilih pilihan jawaban butir
soal atau yang tidak memilih pilihan manapun (blangko). Dari pola penyebaran
jawaban butir soal dapat ditentukan apakah pengecoh berfungsi dengan baik atau
tidak. Suatu pengecoh dapat dikatakan berfungsi dengan baik jika paling sedikit
dipilih oleh 5 % pengikut tes.
Cara melakukan analisis pengecoh Pertimbangan terhadap analisis pengecoh:
a. Diterima, karena sudah baik
b. Ditolak, karena tidak baik
c. Ditulis kembali, karena kurang baik.

10. Efektivitas fungsi option.


Pada soal bentuk pilihan-ganda ada alternatif jawaban (opsi) yang merupakan
pengecoh, jadi pengecoh disini adalah jawaban dari soal yang bisa mengecoh jawaban
yang sebenarnya. Option atau alternatif itu jumlahnya berkisar antara tuga sampai
dengan lima buah, dan dari kemungkinan-kemungkinan jawab yang terpasang pada
setiap butri item itu, salah satu di antaranya adalah merupakan jawaban betul (= kunci
jawaban); sedangkan sisanya adalah merupakaan jawaban salah. Jawaban-jawaban
salah itulah yang biasa dikenal dengan istilah distractor (distraktor = pengecoh)

Anda mungkin juga menyukai