Anda di halaman 1dari 14

MAKALAH

EVALUASI PEMBELAJARAN KIMIA


“ANALISIS BUTIR SOAL”

DISUSUN OLEH:

Hanna Salwa Putri

22176006

DOSEN PEMBIMBING:

Dr. Andromeda, M.Si

PROGRAM STUDI PENDIDIKAN KIMIA

SEKOLAH PASCASARJANA

UNIVERSITAS NEGERI PADANG

2023
DAFTAR ISI

DAFTAR ISI...................................................................................................................ii
DAFTAR TABEL...........................................................................................................iii
BAB I PENDAHULUAN
1.1 Latar Belakang...........................................................................................1
1.2 Rumusan Masalah......................................................................................1
BAB II PEMBAHASAN
2.1 Validitas Soal.............................................................................................2
2.2 Reliabilitas Soal.........................................................................................5
2.3 Daya Pembeda Soal...................................................................................6
2.4 Indeks Kesukaran Soal...............................................................................7
2.5 Distraktor Soal..........................................................................................................8
BAB III PENUTUP
3.1 Kesimpulan..................................................................................................10
3.2 Saran............................................................................................................10
DAFTAR PUSTAKA.....................................................................................................11

ii
DAFTAR TABEL

Tabel 1 Kriteria Validitas Instrumen Tes........................................................................4


Tabel 2 Klasifikasi Tingkat Reliabilitas Tes...................................................................6
Tabel 3 Kriteria Indeks Daya Pembeda Soal..................................................................7
Tabel 4 Klasifikasi Tingkat Kesukaran...........................................................................8

iii
BAB I
PENDAHULUAN

1.1 Latar Belakang


Istilah tes berasal dari bahasa Perancis kuno: testum dengan arti piring untuk
meyisihkan logam-logam mulia. Dalam bahasa Inggris dengan test, dalam bahasa
Indonesia diterjemahkan menjadi tes yang berarti ujian atau percobaan.
Menurut Anne Anastasi dalam bukunya Psychological Testing yang dikutip oleh
Anas Sudijono, yang dimaksud dengan tes adalah alat pengukur yang mempunyai
standar yang obyektif sehingga dapat digunakan secara meluas, serta dapat betul-brtul
digunakan untuk mengukur dan membandingkan keadaan psikis atau tingkah laku
individu.
Dari penjelasan tersebut kiranya dapat dipahami bahwa dalam pendidikan, tes
adalah cara atau prosedur dalam rangka pengukuran dan penilaian di bidang pendidikan
yang digunakan untuk mengetahui kemampuan kognitif dan psikomotorik, yang
berbentuk pemberian tugas atau serangkaian tugas berupa pertanyaan atau perintah oleh
tester sehingga dapat dihasilkan nilai yang melambangkan tingkah laku atau prestasi
testee, nilai yang dicapai dapat dibandingkan dengan nilai standar tertentu (Wening,
2010).
Tes dapat dengan berbagai cara. Syarat suatu tes adalah: memiliki validitas yang
baik, reliabilitas yang tinggi, tingkat kesukaran yang baik, daya beda yang dapat
membedakan siswa berkemampuan tinggi atau rendah serta opsi yang berkualitas.
1.2 Rumusan Masalah
Adapaun rumusan masalah adalah sebagai berikut:
1. Bagaimana validitas suatu soal?
2. Bagaimana reliabilitas suatu soal?
3. Apa itu daya pembeda soal?
4. Apa itu indeks kesukaran?
5. Apa fungsi distraktor dari soal?

1
BAB II
PEMBAHASAN

2.1 Validitas Soal


Menurut Arikunto (1999), validitas adalah suatu ukuran yang menunjukkan
tingkat kesahihan suatu tes. Suatu tes dikatakan valid apabila tes tersebut mengukur apa
yang hendak diukur. Tes memiliki validitas yang tinggi jika hasilnya sesuai dengan
kriteria, dalam artian memiliki kesejajaran antara tes dan kriteria.
Sebelum dilakukannya tes, hendaknya derajat validitas diukur berdasarkan kriteria
tertentu terlebih dahulu oleh guru. Untuk melihat apakah tes tersebut valid, harus
membandingkan skor peserta didik yang didapat dengan skor yang dianggap sebagai
nilai baku. Jika kedua skor mendekati, maka soal dikatakan valid. Validitas suatu tes
erat kaitannya dengan tujuan penggunaan tes. Tetapi, validitas tidak berlaku umum.
Artinya, apabila informasi yang sesuai mampu diberikan oleh suatu tes serta dapat
digunakan untuk mencapai tujuan tertentu, maka tes itu valid untuk tujuan tersebut.
Ada dua unsur penting dalam validitas. Pertama, validitas menunjukkan suatu
derajat, ada yang sempurna, sedang, maupun rendah. Kedua, validitas selalu
dihubungkan dengan suatu keputusan atau tujuan spesifik. R.L Thorndike dan H.P
Hagen (1997) berpendapat bahwa validitas selalu berhubungan dengan keputusan
atau kegunaan tertentu.
Gronlund (1995) mengatakan validitas hasil tes dipengaruhi oleh tiga faktor, (1)
faktor instrumen evaluasi, (2) faktor administrasi evaluasi dan penskoran, (3) faktor dari
jawaban peserta didik.
Validitas terbagi ke dalam tiga kategori, yaitu validitas isi (content validity),
validitas konstrak (construct validity), dan validitas kriteria (criteria-related validity).
a. Validitas Isi (Content Validity)
Validitas isi adalah validitas yang diestimasi melalui uji kelayakan
atau relevansi isi tes denganc ara analisis rasional oleh orang yang
berkompeten atau melalui expert judgement (Azwar, 2015). Mardapi (2008)
berpendapat bahwa kesahihan isi dapat dilihat dari kisi-kisi tes, yaitu
matriks yang menunjukkan bahan tes serta tingkat berpikir yang terlibat
dalam mengerjakan tes. Kesahihan ini ditelaah sebelum tes digunakan.

2
3

Berdasarkan pendapat di atas, dapat dikatakan bahwa validitas isi


lebih berkaitan dengan kesesuaian item tes dengan materi yang akan diukur.
Keterkaitan antara item tes dengan materi ini memang hanya dapat diuji
kelayakannya oleh pakar yang berkompeten pada materi tersebut. Walaupun
akan bersifat subyektif, namun penilaian dari ahli perlu dilakukan untuk
melihat apakah tes telah mencakup keseluruhan isi kawasan kemampuan
yang akan diukur menurut sundut pandang dari mater tersebut. Penilaian
ahli sangat diperlukan karena penilain tersebut dapat
dipertanggungjawabkan.
Azwar (2015) menjelaskan bahwa validitas isi juga berkaitan dengan
item-item yang harus relevan dengan tujuan yang hendak diukur, yakni
item-item yang tidak keluar dari batasan tujuan ukur. Walaupun isinya
komprehensif, tetapi bila tes tersebut mengikutsertakan pula item-item yang
tidak relevan dan berkaitan dengan hal-hal di luar tujuan ukurnya, maka
validitas tes tersebut tidaklah dapat dikatakan memenuhi ciri-ciri validitas
yang sesungguhnya.
Validitas isi dibagi menjadi dua, yaitu validitas tampang (face
validity) dan validitas logis (logical validity). Validitas tampang bersifat
kualitatif dan judgmental karena berasal dari penilaian ahli. Sedangkan
validitas logis bersifat kuantitatif, yang dilakukan dengan menghitung
seberapa tinggi kesepakatan para ahli.
b. Validitas Konstruk (Construct Validity)
Azwar (2015) menjelaskan bahwa validitas konstruk membuktikan
apakah hasil pengukuran yang diperoleh melalui item-item ters berkorelasi
tinggi dengan konstruk teoritik yang mendasari penyususnan tes tersebut.
Selanjutnya Subali (2012) mengemukakan bahwa persoalan yang dihadapi
dalam pemenuhan validitas konstruk dalam ranah kognitif bukan hanya
terbatas pada kesesuaian item dengan indikator dengan pencapaian
kompetensi. Persoalan yang mendasar adalah apakah sejumlah kompetensi
yang diukur berada dalam satu dimensi.
Berdasarkan pengertian tersebut, dapat dipahami bahwa validasi
konstruk berkaitan dengan konstruk dari item yang dikembangkan, yang
4

disesuaikan dengan kompetensi yang hendak diketahui. Agar dapat


mengetahui validitas konstruk ini tentu yang dilakukan adalah menjabarkan
apa yang hendak diukur.
c. Validitas Kriteria (Criteria-related Validity)
Validitas ini ditentukan berdasarkan kriteria, baik kriteria internal
maupun kriteria eksternal. Validitas kriteria diperoleh melalui hasil uji coba
tes kepada responden yang setara denngan responden yang akan dievaluasi
atau diteliti. Contoh penggunakan validitas kriteria adalah tes inteligensi
yang berkorelasi dengan rata-rata nilai akademis. Asumsinya, jika
inteligensi seseorang tinggi maka yang terjadi adalah dia akan mendapatkan
nilai akademis yang bagus (Arikunto, 2016).
Untuk menguji validitas setiap butir soal, maka skor-skor yang ada pada
butir yang dimaksud dikorelasikan dengan skor totalnya. Skor tiap butir soal
dinyatakan dengan skor X dan skor total dinyatakan sebagai skor Y. Dengan
diperolehnya indeks validitas setiap butir soal, dapat diketahui butir-butir soal
manakah yang memenuhi syarat dilihat dari indeks validitasnya. Untuk menguji
validitas instrumen dapat menggunakan rumus korelasi product moment dengan
angka kasar, yaitu:
N ∑ XY (∑ X )( ∑ Y )
r xy =
√ {N ∑ X −¿ ¿ ¿¿
2

Dari rumus di atas, rxy merupakan koefisien korelasi antara variabel X dan
variabel Y, N merupakan jumlah siswa uji coba, X adalah skor-skor tip butir
soal. Untuk menginterpretasikan tingkat validitas, Arikuto (1991)
mengategorikan koefisien korelasi pada kriteria sebagai berikut:
Tabel 1. Kriteria Validitas Instrumen Tes
Nila r Interpretasi
0,81 – 1,00 Sangat Tinggi
0,61 – 0,80 Tinggi
0,41 – 0,60 Cukup
0,21 – 0,40 Rendah
0,00 – 0,20 Sangat rendah
5

Setelah harga koefisien validitas tiap butir soal diperoleh, perlu dilakukan
uji signifikansi untuk mengukur keberartian koefisien korelasi berdasarkan
distribusi kurva normal dengan menggunakan statistik uji-t dengan persamaan:

t =r xy
√ N −2
1−¿ ¿
¿

Nilai t merupakan nili hitung koefisien validitas, rxy adalah nilai korelasi
tiap butir soal, dan N adalah jumah siswa uji coba. Kemudian hasil di atas
dibandingkan dengan nilai t dari tabel pada taraf kepercayaan 95% dan derajat
kebebasan (dk) = N-2. Jika thitung > ttabel maka koefisien validitas butir soal pada
taraf signifikansi yang dipakai.
2.2 Reliabilitas Soal
Reliabilitas berasal dari kata reliability yang bermakna sejauh mana hasil
suatu pengukuran dapat dipercaya. Suatu hasil pengukuran hanya dapat
dipercaya apabila dalam beberapa kali pelaksanaan pengukuran terhadap
kelompok subjek yang sama, diperoleh hasil pengukuran yang relatif sama,
selama aspek yang diukur dalam diri subyek memang belum berubah
(Sudaryono,2017). Menurut Arikunto (2013) pengertian reliabiltas berhubungan
dengan masalah ketepatan hasil tes. Didukung oleh Arifin (2012) yang
berpendapat bahwa reliabilitas merupakan tingkat atau derajat konsistensi dari
suatu alat pengukur atau instrumen.
Arifin (2012) mengemukakan bahwa reliabilitas dibedakan atas dua
macam yaitu: reliabilitas konsistensi tanggapan dan reliabilitas gangguan item.
Cronbach menyatakan ada tiga mekanisme untuk memeriksa reliabilitas:
1. Teknik test retest adalah pengetesan dua kali dengan menggunakan suatu tes
yang sama pada waktu yang berbeda.
2. Teknik belah dua, pada teknik pengukuran dilakukan dengan dua kelompok
item yang setara pada saat yang sama.
3. Bentuk ekivalen, di sini pengukuran dilakukan dengan menggunakan dua tes
yang dibuat setara kemudian diberikan kepada peserta didik dalam waktu
yangn bersamaan. Skor kedua kelompok item dikorelasikan untuk
mendapatkan reliabilitas.
6

Kriteria untuk menentukan tinggi rendahnya reliabilitas suatu perangkat


tes, menurut Arikunto (2001) dapat dilihat pada rentangan koefisien korelasi
sebagai berikut:
Tabel 2. Klasifikasi Tingkat Reliabilitas Tes
Nilai Koefisien Korelasi Kategori Reliabilitas
0,80 – 1,00 Sangat tinggi
0,60 – 0,79 Tinggi
0,40 – 0,59 Cukup
0,20 – 0,39 Rendah
0,00 – 0,19 Sangat rendah

2.3 Daya Pembeda Soal


Daya pembeda soal adalah indeks yang menunjukkan tingkat kemampuan
butir soal membedakan kelompok yang berprestasi tinggi (kelompok atas) dari
kelompok berprestasi rendah (kelompok bawah) diantara para peserta tes (Zainul
dkk, 1997). Tujuan pokok mencari daya pembeda adalah untuk menentukan
apakah butir soal memiliki kemampuan membedakan kelompok dalam aspek
yang diukur, sesuai dengan perbedaan yang ada pada kelompok itu.
Sudijono (2009) berkata bahwa mengetahui daya pembeda item itu
penting sekali, sebab salah satu dasar yang dipegangi untuk menyusun butir-
butir item tes hasil belajar adalah adanya anggapan, bahwa kemampuan antar
peserta didik itu berbeda-beda, dan bahwa butir-butir item tes hasil belajar itu
haruslah mampu memberikan hasil tes yang mencerminkan adanya perbedaan-
perbedaan kemampuan peserta didik.
Daya pembeda dapat diketahui dengan melihat besar kecilnya angka
indeks diskriminasi item. Angka indeks diskriminasi item adalah sebuah angka
atau bilangan yang menunjukkan besar kecilnya daya (discriminatory power)
yang dimiliki oleh sebutir item. Discriminatory power pada dasarnya dihitung
atas dasar pembagian peserta didik ke dalam dua kelompok, yaitu kelompok atas
(the higher group) yang tergolong pandai dan kelompok bawah (the lower
group) yaitu kelompok peserta didik yang tergolon tidak pandai (Sudijono,
2009).
Perhitungan daya pembeda dibedakan antara kelompok kecil dan
kelompok besar. Kelompok kecil merupakan kelompok yang terdiri kurang dari
100 orang, sebaliknya kelompok besar adalah kelompok yang terdiri lebih dari
7

100 orang. Untuk kelompok kecil, seluruh kelompok peserta didik dibagi
menjadi dua sama besar, 50% kelompok atas (JA) dan kelompok bawah (JB).
Seluruh pengikut tes, dideretkan mulai dari skor teratas sampai terbawah lalu
dibagi dua. Untuk kelompok besar, mengingat biaya dan waktu untuk
menganalisis, maka untuk kelompok besar biasanya hanya diambil kedua
kutubnya saja, yaitu 27% skor teratas sebagai JA dan 27% skor terbawah
sebagai JB (Arikunto,2013).
Untuk menghitung daya pembeda butir soal menurut Arikunto (1999)
dapat menggunakan persamaan:
B A BB
DP= −
J A JB
dengan DP merupakan daya pembeda soal, BA adalah banyaknya peserta tes kelompok
atas yang menjawab soal dengan benar, BB adalah banyaknya peserta tes kelompok
bawah yang menjawab soal dengan benar, JA adalah banyaknya peserta tes kelompok
atas, dan JB adalah banyaknya peserta tes kelompok bawah.
Setelah nilai daya pembeda diperoleh maka nilai tersebut diinterpretasikan
pada kriteria indeks pembeda soal sebagai berikut:
Tabel 3. Kriteria Indeks Daya Pembeda Soal
DP Kualifikasi
Jelek
0,00 – 0,19
Cukup
0,20 – 0,39
Baik
0,40 – 0,69
Baik sekali
0,70 – 1,00
Tidak baik, harus
Negatif
dibuang.

2.4 Indeks Kesukaran Soal


Indeks kesukaran atau tingkat kesukaran soal dimaksudkan untuk
mengetahui apakah soal tersebut tergolong mudah atau sukar. Tingkat
kesukarana dalah bilangan yang menunjukkan sukar atau mudahnya suatu soal
(Arikunto, 2013). Sedangkan menurut Crocker dan Algina yang dikutip oleh
Purwanto tingkat kesukaran dapat didefinisikan sebagai proporsi peserta didik
peserta tes yang menjawab benar. Bermutu atau tidaknya butir-butir soal
pertama-tama dapat diketahui dari derajat kesukaran atau taraf kesulitan yang
dimiliki oleh masing-masing butir soal. Butir-butir soal dapat dikatakan baik
8

apabila butir-butir soal tersebut tidak terlalu sukar dan tidak terlalu mudah.
Dengan kata lain, derajat kesukarannya sedang atau cukup (Sudijono,2009).
Menurut Sudaryono indeks kesukaran butir soal memiliki dua kegunaan,
yaitu kegunaan bagi pendidikan dan kegunaan bagi pengujian dan pengajaran.
Kegunaan bagi pendidikan adalah:
a. Sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi
masukan kepada peserta didik tentang hasil belajar mereka.
b. Memperoleh informasi tentang penekanan kurikulum atau mencurigai butir
soal yang bias.
Adapun kegunaan bagi pengujian dan pengajaran adalah:
a. Pengenalan konsep yang diperlukan untuk diajarkan ulang.
b. Tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum sekolah.
c. Memberi masukan kepada peserta didik.
d. Tanda-tanda kemungkinan adanya butir soal yang bias.
e. Merakit tes yang memiliki ketepatan daya soal.

Untuk menghitung tingkat kesukaran tiap butir soal, digunakan


persamaan:
B
P=
Jx
dengan: P adalah indeks kesukaran, B adalah banyaknya siswa yang menjawab soal
dengan benar, dan Jx adalah jumlah seluruh siswa peserta tes.
Indeks kesukaran diklasifikasikan seperti tabel berikut:
Tabel 4. Klasifikasi Tingkat Kesukaran
P-P Klasifikasi
0,00 – 0,29 Soal sukar
0,30 – 0,69 Soal sedang
0,70 – 1,00 Soal mudah
(Arikunto, 1999).
2.5 Distraktor Soal
Analisis butir soal juga dilakukan dengan memperhatikan pengecoh.
Pengecoh (distractor) juga dikenal dengan istilah penyesat atau penggoda adalah
pilihan jawaban yang bukan merupakan kunci jawaban.
Tujuan utama dari pemasangan distractor pada setiap butir soal adalah
agar dari sekian banyak peserta didik yang mengikuti tes ada yang tertarik untuk
9

memilihnya, sebab mereka menyangka bahwa distractor yang mereka pilih itu
merupakan jawaban betul. Jadi peserta didik terkecoh, menganggap bahwa
distractor yang terpasang pada item itu sebagai kunci jawaban item, padahal
bukan (Sudijono, 2009).
Distractor baru dapat dikatakan telah menjalankan fungsinya dengan baik,
apabila distraktor tersebut memiliki daya tarik sedemikian rupa, sehingga peserta
didik merasa bimbang dan ragu-ragu sehingga akhirnya mereka terkecoh untuk
memilih distraktor sebagai jawaban betul, sebab mereka mengira jawaban
tersebut sebagai kunci jawaban yang betul, padahal bukan (Sudijono,2009).
Butir soal yang baik, pengecohnya akan dipilih secara merata oleh peserta
didik yang menjawab salah. Sebaliknya butir soal yang kurang baik,
pengecohnya akan dipilih secara tidak merata. Jika semua peserta didik
menjawab benar pada butir soal tertentu (sesuai kunci jawaban) maka indeks
pengecohnya (IP) = 0 yang berarti soal tersebut jelek, dengan demikian
pengecoh tidak berfungsi (Arifin, 2012).
Menganalisis fungsi distraktor sering dikenal dengan istilah lain, yaitu
menganalisis pola penyebaran jawaban item. Adapun yang dimaksud dengan
pola jawaban item adalah suatu pola yang dapat menggambarkan bagaimana
peserta didik menentukan pilihan jawaban terhadap kemungkinan-kemungkinan
jawaban yang telah dipasangkan pada setiap butir item (Sudijono, 2009).
Sebuah pengecoh dikatakan berfungsi baik jika dipilih minimal oleh 5%
pesera didik. Contoh:
Pilihan Jawaban A B C* D E O Jumlah
Kelompok Atas 5 7 15 3 3 0 33
Kelompok Bawah 8 8 6 5 7 3 37
Jumlah 13 15 21 8 10 3 70
O = Omitted (tidak menjawab), C* = kunci jawaban
Pengecoh A : 13/7 x 100% > 5%, berfungsi
B : 15/70 x 100% > 5%, berfungsi
D : 8/70 x 100% > 5%, berfungsi
E : 10/70 x 100% > 5%, berfungsi
BAB III
PENUTUP

3.1 Kesimpulan
Berdasarkan penjabaran materi yang telah dilakukan, maka dapat ditarik
kesimpulan sebagai berikut:
1. Validitas adalah suatu ukuran yang menunjukkan tingkat kesahihan suatu
tes. Suatu tes dikatakan valid apabila tes tersebut mengukur apa yang
hendak diukur. Tes memiliki validitas yang tinggi jika hasilnya sesuai
dengan kriteria, dalam artian memiliki kesejajaran antara tes dan kriteria.
2. Suatu hasil pengukuran hanya dapat dipercaya apabila dalam beberapa kali
pelaksanaan pengukuran terhadap kelompok subjek yang sama, diperoleh
hasil pengukuran yang relatif sama, selama aspek yang diukur dalam diri
subyek memang belum berubah.
3. Daya pembeda soal adalah indeks yang menunjukkan tingkat kemampuan
butir soal membedakan kelompok yang berprestasi tinggi (kelompok atas)
dari kelompok berprestasi rendah (kelompok bawah) diantara para peserta
tes.
4. Indeks kesukaran atau tingkat kesukaran soal dimaksudkan untuk
mengetahui apakah soal tersebut tergolong mudah atau sukar. Tingkat
kesukarana dalah bilangan yang menunjukkan sukar atau mudahnya suatu
soal.
5. Analisis butir soal juga dilakukan dengan memperhatikan pengecoh.
Pengecoh (distractor) juga dikenal dengan istilah penyesat atau penggoda
adalah pilihan jawaban yang bukan merupakan kunci jawaban.
3.2 Saran
Dalam penyusunan makalah ini, masih jauh dari kata sempurna. Penulis
mengharapkan kritik dan saran yang membangun untuk materi yang telah
dipaparkan.

10
DAFTAR PUSTAKA

Arikunto, S. 1999. Prosedur Penelitian Suatu Pendekatan Praktek. Jakarta: Rineka


Cipta.
Thorndike, R.L., and Hagen, E.B. 1997. Measurement and Evaluation in Psychology
and Education. New York: Wiley and Son.
Azwar, S. 2015. Reliabilitas dan Validitas. Yogyakarta: Pustaka Pelajar.
Mardapi, D. 2008. Teknik Penyusunan Instrumen Tes dan Non Tes. Yogyakarta: Mitra
Cendikia Offset.
Subali, B. 2012. Prinsip Asesmen dan Evaluasi Pembelajaran. Yogyakarta: UNY Press.
Arikunto, S. 2016. Prosedur Penelitian Suatu Pendekatan Praktik. Jakarta: Rineka
Cipta.
Arikunto, S. 1991. Prosedur Penelitian: Suatu Pendekatan Praktik (Cetakan Ketujuh).
Jakarta: Rineka Cipta.
Sudaryono, Dr. 2017. Metodologi Penelitian. Depok: PT. Raja Grafindo Husada.
Sudijono, A. 2009. Pengantar Evaluasi Pendidikan. Jakarta: Rajagrafindo.

11

Anda mungkin juga menyukai