Kelompok 3
Puji Syukur kita panjatkan kehadirat Allah SWT. Tuhan semesta alam,yang telah
melimpahkan rahmat dan hidayahnya kepada kita semua. Sehingga makalah ini dapat kami
selesaikan dengan sebaik-baiknya.
Shalawat serta salam tak lupa kita curahkan kepada Baginda Tercinta Nabi
Muhammad SAW yang telah membawa kita dari zaman jahiliyah menuju zaman Islamiah
yang tentunya kita nanti-nantikan syafaatnya di hari kiamat.
Makalah ini kami buat untuk memenuhi tugas mata kuliah Teknik Evaluasi
Pembelajaran. Kami ucapkan Terima kasih kepada dosen pengampu mata kuliah
Pengembangan kurikulum pai dan juga kepada teman mahasiswa secara langsung maupun
tidak langsung memberikan motivasi membantu kami dalam pengembangan makalah ini.
Dan kami menyadari pentingnya akan sumber bacaan referensi internet yang telah
membantu dalam memberikan informasi yang akan menjadi bahan makalah.
Kami menyadari bahwa masih banyak kekurangan dalam penulisan makalah ini
sehingga kami mengharapkan kritik dan saran yang bersifat membangun dan
penyempurnaan dalam makalah ini. Kami mohon maaf jika didalam makalah ini terdapat
banyak kesalahan dan kekurangan, karena kesempurnaan hanya milik Allah SWT, dan
kekurangan itu itu pasti milik kita sebagai manusia. Semoga maklah yang kami buat
bermanfaat bagi kita semua.
Penulis
i
DAFTAR ISI
PENDAHULUAN
A. LATAR BELAKANG
Keberhasilan pendidikan sangat ditentukan oleh proses pembelajaran. Untuk
mengukur keberhasilan proses pembelajaran diperlukan evaluasi dan proses analisis dari
evaluasi. Manfaat dari analisis evaluasi untuk mengetahui kekuatan dan kelemahan
pembelajaran dalam rangka meningkatkan proses pembelajaran. Karena itu begitu
pentingnya guru mengadakan analisis butir soal Validitas, Reliabilitas, Tingkat Kesukaran
dan Daya Beda.
Hasil dari proses penilaian perlu dilakukan analisis, untuk melihat validitas dan efektivitas
instrument, serta untuk mengetahui kelemahan dan kekuatan proses pembelajaran. Ada tiga
sasaran pokok ketika guru melakukan analisis terhadap hasil belajar, yaitu terhadap guru,
siswa dan prosedur pembelajaran. Fungsi analisis untuk guru terutama untuk mendiagnosis
keberhasilan pembelajaran dan sebagai bahan untuk merevisi dan mengembangkan
pembelajaran dan tes. Bagi siswa, analisis diharapkan berfungsi mengetahui keberhasilan
belajar, mendiagnosa mengoreksi kesalahan belajar, serta Memotivasi siswa belajar lebih
baik.
Pada makalah ini akan dibahas mengenai analisis soal berupa validitas, daya beda, indeks
kesukaran, fungsi distraktor, dan reliabilitas yang berguna sebagai pedoman bagi
pendidikan dalam melakukan analisis soal terutam untuk soal objektif.
B. RUMUSAN MASALAH
1. Apa saja Konsep dan macam-macam Validitas?
2. Apa saja Konsep dan macam-macam Reabilitas?
3. Apa yang di maksud dengan Uji Taraf Kesukaran?
4. Apa yang di maksud Uji daya Pembeda?
5. Ap aitu Analisis Pengecoh (disktraktor)?
2
C. TUJUAN
3
BAB II
PEMBAHASAN
4
Dengan keadaan itu validitas logis dapat dicapai apabila instrument disusun mengikuti
ketentuan yang ada. Validitas logis yang dapat dicapai oleh sebuah instrumen terdiri dari
dua yaitu :
a) Validitas Isi
Validitas isi bagi sebuah instrumen menunjuk suatu kondisi sebuah instrument yang
disusun berdasarkan isi materi pelajaran yang dievaluasi. Sebuah tes dikatakan memiliki
validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi
pelajaran yang di berikan. Oleh karena materi yang diajarkan tertera dalam kurikulum
maka validitas ini sering disebut juga dengan validitas kurikuler.
Validitas isi dapat diusahakan tercapainya sejak saat penyusunan dengan cara merinci
materi kurikulum atau materi buku pelajaran.
b) Validitas Konstruk
Validitas konstruk sebuah instrumen menunjukkan suatu kondisi sebuah instrumen yang
disusun berdasarkan konstruk-konstruk aspek kejiwaan yang seharusnya dievaluasi.
Sebuah tes dikatakan memiliki validitas konstruk apabila butir-butir soal yang membangun
tes tersebut mengukur setiap aspek berfikir seperti yang disebutkan dalam tujuan
instruksional khusus. Dengan kata lain jika butir-butir soal mengukur aspek berfikir
tersebut sudah sesuai dengan aspek berfikir yang menjadi tujuan instruksional.
2. Validitas Empiris
Mengandung arti kata pengalaman. Sebuah instrument dikatakan memiliki validitas
empiris apabila sudah di uji dengan pengalaman. Sebagai contoh, seseorang dapat diakui
jujur oleh masyarakat lain apabila dalam pengalaman dia diakui memang jujur.
Pada Validitas empiris terdiri dari dua cara yang dilakukan untuk mengujinya sehingga dia
menjadi valid. Pengujian itu dilakuakn dengan membandingkan kondisi instrumen yang
bersangkutan dengan suatu ukuran. Kriteria yang digunakan adalah :
a) Validitas Konkuren
Disebut juga dengan validitas “yang ada sekarang ‘tetapi lebih dikenal dengan validitas
empiris. Sebuah instrument dikatakan memiliki validitas empiris jika hasilnya sesuai
dengan pengalaman. Jika ada istilah :sesuai” tentu ada dua hal yang dipasangkan, dimana
5
dalam hal ini hasil tes dipasangkan dengan hasil pengalaman. Pengalaman selalu mengenai
hal yang telah lampau sehingga data pengalaman tersebut sekarang sudah ada.
Dalam membandingkan hasil sebuah tes maka diperlukan suatu alat pembanding. Maka
hasil tes merupakan sesuatu yang dibandingkan. Contoh : seorang guru ingin mengetahui
apakah tes sumatif yang disusun sudah valid atau belum. Untuk ini perlu sebuah kreteria
masa lalu yang datanya sekarang dimiliki. Misalnya nilai ulangan harian atau nilai semester
yang lalu.
b) Validitas prediksi
Prediksi artinya meramal. Dengan meramal selalu mengenai hal yang akan datang jadi
sekarang belum terjadi. Sebuah tes dikatakan memiliki validitas prediksi apabila
mempunyai kemampuan untuk meramalkan apa yang terjadi pada masa yang akan datang.
Misalnya tes masuk perguruan tinggi adalah sebuah tes yang diperkirakan dapat
meramalkan keberhasilan peserta tes dalam mengikuti kuliah di masa yang akan datang.
Calon yang tersaring berdasarkan hasil tes diharapkan mencerminkan tinggi rendahnya
kemampuan mengikuti kuliah. Jika nilai tesnya tinggi tentu menjamin keberhasilan kelak.
Sebaliknya seorang calon dikatakan tidak lulus tes karena memiliki nilai tes yang rendah
jadi diperkirakan akan tidak mampu mengikuti perkuliahan yang akan datang. a. Sebagai
alat pembanding validitas prediksi adalah nilai-nilai yang diperoleh setelah peserta tes
mengikuti pelajaran diperguruan tinggi. Jika ternyata siapa yang memiliki nilai tes lebih
tinggi gagal dalam ujian semester I dibandingkan dengan yang dahulu nilai tesnya lebih
rendah maka tes masuk yang dimaksud tidak memiliki validitas.
6
• Walizer (1987): Reliabilitas adalah keajegan pengukuran, artinya sejauh mana
instrumen atau alat pengukur dapat diandalkan dalam mengukur suatu konsep.
• Sugiharto dan Situnjak (2006): Reliabilitas mengacu pada kemampuan instrumen
untuk menghasilkan data yang dapat dipercaya dan menggambarkan informasi
yang sesuai dengan kondisi lapangan.
• Ghozali (2009): Reliabilitas merujuk pada kehandalan alat ukur dalam mengukur
suatu konstruk atau variabel. Suatu kuesioner dikatakan reliabel jika jawaban yang
diberikan oleh individu konsisten dari waktu ke waktu.
• Masri Singarimbun: Reliabilitas menunjukkan sejauh mana suatu alat pengukur
dapat dipercaya atau diandalkan. Jika alat pengukur dapat mengukur gejala yang
sama dan memberikan hasil pengukuran yang konsisten saat digunakan berulang
kali, maka alat pengukur tersebut dapat dianggap reliable.
• Sumadi Suryabrata (2004): Reliabilitas menggambarkan sejauh mana hasil
pengukuran yang diperoleh dari suatu alat atau instrumen dapat dipercaya. Hasil
pengukuran yang reliabel memiliki tingkat konsistensi dan stabilitas yang baik.
Dari serangkaian penjelasan tersebut dapat dipahami bahwa reliabilitas adalah konsep yang
mengacu pada sejauh mana suatu alat pengukur atau instrumen dapat diandalkan dalam
menghasilkan hasil yang konsisten dan akurat dari waktu ke waktu. Ini mencerminkan
stabilitas, konsistensi, dan kemampuan alat pengukur untuk mengukur konsep atau variabel
tertentu dengan baik.
Seperti yang telah dijelaskan sebelumnya, reliabilitas adalah suatu konsep pengukuran
yang dapat diandalkan, yang ditandai dengan adanya konsistensi dari hasil pengukuran.
Sebuah tes dianggap memiliki reliabilitas yang baik apabila memenuhi syarat berikut:
Tes dianggap memiliki reliabilitas yang baik jika hasil skornya cukup akurat dan konsisten
ketika diberikan pada kelas yang berbeda atau pada waktu yang berbeda. Ini berarti bahwa
tes tersebut dapat menghasilkan hasil yang serupa di berbagai situasi yang berbeda, baik
dalam hal kelas yang berbeda maupun ketika diulang pada waktu yang berbeda.
7
2. Stabilitas Skor
Suatu tes dianggap reliable jika skor yang diperoleh dari dua tes yang dilakukan pada jarak
waktu yang berbeda tidak memiliki perbedaan yang signifikan. Dalam konteks ini,
reliabilitas terkait dengan kemampuan tes untuk menghasilkan skor yang tetap mendekati
saat diulang pada waktu yang berbeda, menunjukkan adanya stabilitas dalam hasil
pengukuran.
3. Pengukuran Independen
Reliabilitas dapat dihitung dengan membandingkan dua atau lebih pengukuran independen
yang diperoleh dari tes yang sama untuk setiap anggota kelompok. Ini berarti bahwa
reliabilitas bisa dinilai dengan membandingkan hasil dari berbagai pengukuran yang
dilakukan dengan instrumen yang sama untuk setiap individu dalam kelompok.
Dengan kata lain, sebuah tes dianggap memiliki reliabilitas yang baik ketika dapat
menghasilkan skor yang konsisten dan stabil di berbagai situasi, baik dalam hal kelompok
yang berbeda maupun dalam pengukuran yang berulang pada waktu yang berbeda.
Reliabilitas juga dapat dinilai melalui perbandingan hasil pengukuran independen yang
diperoleh dari tes yang sama. Semua ini menunjukkan tingkat keandalan dan konsistensi
dari tes dalam mengukur konsep atau variabel yang diinginkan.
Jenis-Jenis Reliabilitas
Reliabilitas adalah keandalan sistem pengukuran yang dapat dibedakan menjadi tiga,
antara lain sebagai berikut:
8
2. Reliabilitas Terwakili (Representative Reliability)
Jenis reliabilitas ini berfokus pada konsistensi jawaban atau respons terhadap indikator atau
pertanyaan yang sama di antara kelompok yang berbeda. Dalam hal ini, tes atau instrumen
yang sama diberikan kepada kelompok yang berbeda untuk melihat apakah indikator atau
pertanyaan yang sama menghasilkan jawaban yang serupa. Tujuannya adalah untuk
mengevaluasi sejauh mana instrumen tersebut dapat memberikan hasil yang konsisten dan
dapat diandalkan di berbagai konteks atau kelompok yang berbeda.
Secara keseluruhan, ketiga jenis reliabilitas ini bertujuan untuk mengukur sejauh mana
suatu instrumen pengukuran dapat diandalkan dalam menghasilkan hasil yang konsisten
dan akurat. Setiap jenis reliabilitas fokus pada aspek yang berbeda dalam menilai
konsistensi hasil pengukuran dari berbagai sudut pandang.
9
menentukan sejauh mana skor tes yang pertama dan kedua berkorelasi. Jika koefisien
korelasinya tinggi, maka dapat dianggap bahwa tes memiliki reliabilitas yang baik.
10
Pemilihan metode reliabilitas tergantung pada sifat tes, tujuan pengukuran, dan
jenis data yang dikumpulkan. Penggunaan lebih dari satu metode dapat memberikan
gambaran yang lebih lengkap tentang reliabilitas suatu instrumen.
11
dapat diandalkan. Pretest membantu mengidentifikasi masalah potensial dalam instrumen
dan memungkinkan untuk melakukan perbaikan sebelum pengukuran utama dilakukan.
C. Tingkat Kesukaran
Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar.
Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi usaha
pemecahannya. Sebaliknya soal yang terlalu sukar akan menyebabkan siswa menjadi
12
putus asa dan tidak mempunyai semangat untuk mencoba lagi karena diluar
jangkauannya.
Seorang akan menjadi hafal akan kebiasaan gurunya dalam pembuatan soal.
Dengan kebiasaaan ini maka siswa akan belajar giat untuk menghadapi ulangan dengan
guru yang terbiasa memberikan soal sukar, sedangkan siswa akan malas belajar bila
akan ujian dengan guru yang terbiasa dengan soal ulangan yang mudah-mudah.
Bilangan yang menunjukkan sukar dan mudahnya sesuatu soal disebut dengan
indeks kesukaran. Besarnya indeks kesukaran antara 0,00 sampai dengan 1,0. Indeks
kesukaran ini menunjukkan taraf kesukaran soal. Soal dengan indeks kesukaran 0,00
menunjukkan kalau soal itu terlalu sukar, sebaliknya indeks 1,0 menunjukkan bahwa
soalnya terlalu mudah. Indeks kesukaran butir yang baik berkisar antara 0,3-0,7 paling
baik pada 0,5.
Dalam istilah evaluasi, indeks kesukaran ini diberi simbol P singkatan ari
proporsi. Dengan demikian maka soal dengan P = 0,70 lebih mudah jika dibandingkan
dengan P = 0,20. sebaliknya soal dengan P = 0,30 lebih sukar daripada soal dengan P
= 0,80.
Rumusan mencari indeks kesukaran menurut Daryanto (2005,180) adalah :
Dimana :
P = indeks kesukaran
B = banyaknya siswa yang menjawab soal itu dengan betul
JS = jumlah seluruh siswa peserta tes.
D. Daya Pembeda
Daya pembeda soal adalah kemampuan suatu butir soal dapat membedakan antara
warga belajar/siswa yang telah menguasai materi yang ditanyakan dan warga belajar/siswa
yang tidak kurang/belum menguasai materi yang ditanyakan. Manfaat daya pembeda butir
soal adalah
seperti berikut ini.
1) Untuk meningkatkan mutu setiap butir soal melalui data empiriknya. Berdasarkan
indeks daya pembeda, setiap butir soal dapat diketahui apakah butir soal itu baik, direvisi,
atau ditolak.
13
2) Untuk mengetahui seberapa jauh setiap butir soal dapat mendeteksi/membedakan
kemampuan siswa, yaitu siswa yang telah memahami atau belum memahami materi yang
diajarkan guru. Apabila suatu butir soal tidak dapat membedakan kedua kemampuan siswa
itu,
• Butir soal itu memiliki 2 atau lebih kunci jawaban yang benar
• Kompetensi yang diukur tidak jelas
• Pengecoh tidak berfungsi
Materi yang ditanyakan terlalu sulit, schingga banyak siswa yang menebak
Sebagian besar siswa yang memahami materi yang ditanyakan berpikir ada yang salah
informasi dalam butir soalnya
ada tiga titik pada daya pembeda yaitu:
Bagi suatu soal yang dapat dijawab benar oleh siswa kemampuan tinggi dan siswa
kemampuan rendah, maka soal itu tidak baik karena tidak punya daya pembeda. Demikian
juga jika semua kelompok bawah menjawab salah dan siswa berkemampuan tinggi juga
sama-sama menjawab salah, maka soal itu tidak mempunyai daya beda sama sekali. Cara
menentukan daya pembeda ( nilai D )
Cara menentukan daya pembeda ( nilai D )yaitu perlu dibedakan antara kelompok
kecil ( kurang dari 100 ) dan kelompok besar ( 100 orang ke atas ).
14
BA = banyaknya peserta kelompok atas yang menjawab soal itu dengan benar
BB = banyak peserta kelompok bawah yang menjawab soal dengan benar
PA = proporsi peserta kelompok atas yang menjawab benar ( ingat P sebagai indeks
kesukaran )
PB = Proporsi peserta kelompok bawah yang menjawab benar
E. Pengecoh (Distraktor)
Analisis Fungsi Distraktor Pengertian distraktor yaitu, “Distractor are classified
as the incorrect answer in amultiple-choice question.”. Dalam setiap tes obyektif selalu
digunakan alternatif jawabanyang mengandung 2 unsur sekaligus, yaitu jawaban tepat dan
jawaban yang salah sebagai penyesat (distraktor).Tujuan pemakaian distraktor ini adalah
mengecohkan mereka yang kurang mampuatau tidak tahu untuk dapat dibedakan dengan
yang mampu. Oleh karena itu, distraktor yang baik adalah yang dapat dihindari oleh anak-
anak yang pandai dan terpilih oleh anak-anak yang kurang pandai.40 Dan apabila terpilih
minimal 5% dari jumlah peserta.Dari pola jawaban soal dapat ditentukan apakah pengecoh
(distractor) berfungsi sebagai pengecoh dengan baik atau tidak. Pengecoh yang tidak
dipilih sama sekali oleh testee berarti bahwa pengecoh itu jelek, terlalu menyolok
menyesatkan. Sebaliknya sebuah distraktor dikatakan berfungsi dengan baik apabila
distraktor tersebut mempunyai daya tarik yang besar bagi pengikut tes yang kurang
memahami konsep atau kurang menguasai materi .Suatu distraktor dapat diperlakukan
dengan 3 cara:a. Diterima, karena sudah baik. b. Ditolak, karena tidak baik.
Distraktor yaitu suatu pola yang dapat menggambarkan bagaimana testee menentukan
pilihan jawabannya terhadap kemungkinan-kemungkinan jawab yang telah dipasangkan
pada setiap butir item (Anas Sudijono: 2011:387). Distraktor sekurang-kurangnya dipilih
oleh 2,5% dari seluruh peserta tes. Distraktor butir soal dilihat dari nilai Prop. Endorsing
hasil analisis output program ITEMAN versi 4.30. hasil analisis menunjukkan bahwa butir
soal yang dianalisis apakah distraktornya berfungsi dengan efektif atau tidak efektif.
Distraktor dikatakan berfungsi dengan baik apabila dipilih sekurang-kurangnya 2,5% dari
peserta tes atau bernilai 0,025. Keberfungsian soal efektif apabila seluruh distraktor pada
satu soal berfungsi dengan baik.
15
BAB III
PENUTUP
A. KESIMPULAN
Teknik analisis kualitas instrumen evaluasi dilakukan dengan uji validitas, uji
realibilitas, daya beda instrument dan tingkat kesukaran instrumen. Validitas
instrument mengacu pada sejauh mana instrument mengukur apa yang seharusnya
diukur, sedangkan realibilitas instrument mengacu pada seberapa konsisten instrument
dalam mengukur. Daya pembeda Instrumen mengacu pada seberapa baik instrument
dalam membedakan antara siswa yang berprestasi tinggi dan rendah, sedangkan
tingkat kesukaran instrument mengacu pada seberapa sulit instrument bagi siswa untuk
menjawab. Instrumen evaluasi yang berkualitas tinggi sangat penting untuk
menghasilkan produk lulusan yang baik.
B. SARAN
Demikian yang dapat saya paparkan mengenai materi yang menjadi pokok bahasan
dalam makalah ini, tentunya masih banyak kekurangan dan kelemahannya, kerena
terbatasnya pengetahuan dan kurangnya rujukan atau referensi yang ada hubungannya
dengan judul makalah ini. Semoga makalah ini berguna bagi penulis pada khususnya
juga para pembaca.
16
DAFTAR PUSTAKA
17