EVALUASI PEMBELAJARAN
Oleh kelompok 4:
Lailatulfitri (E1Q021031)
UNIVERSITAS MATARAM
2023
KATA PENGANTAR
Puji syukur Kehadirat Tuhan Yang Maha Esa yang telah melimpahkan rahmat, hidayah
dan inayah-Nya, sehingga dapat menyelesaikan Makalah Evaluasi Pembelajaran Fisika. Makalah
ini disusun dengan maksimal dan mendapat bantuan dari berbagai sumber dan ibu Ni Nyoman
Sri Putu Verawati S.Pd M.Pd selaku dosen Evaluasi Pembelajaran Fisika sehingga dapat
memperlancar pembuatan maklah ini. Untuk itu kami ucapkan terima kasih.
Terlepas dari semua itu, kami sadar banyak kekurangan dalam penyusunan maupun
isinya untuk itu kami mengharapkan saran dan tanggapan yang membangun pada makalah ini.
Demikian laporan ini kami susun agar dapat diterima dan bermanfaat bagi pembacanya.
Kata Pengantar
DAFTAR ISI
BAB II : PEMBAHASAN
2.1 VALIDITAS
2.2 REABILITAS
2.3 TINGKAT KESUKARAN SOAL
2.4 DAYA PEMBEDA SOAL
DAFTAR PUSTAKA
BAB I
PEMBAHASAN
VALIDITAS
A. PENGERTIAN
Ketentuan penting dalam validitas adalah bahwa hasilnya harus sesuai dengan
keadaan yang dievaluasi. Data evalusasi yang baik sesuai dnegan kenyataan disebut data
valid. Instrument evaluasi dipersyaratkan valid agar hasil yang diperoleh dari kegiatan
evaluasi valid.
1. Macam-macam validitas
Di dalam buku Encyclopedia ofEducational Evaluation yang ditulis oleh Scarvia
B. Anderson dan kawan-kawan disebutkan “a test is valid if it measures what it purpose
to measure.” Atau diartikan lebih kurang demikian : sebuah tes dikatakan valid apabila
tes tersebut mengukur apa yang hendak diukur. Dalam Bahasa Indonesia “valid” disebut
dengan istilah “sahih.”
Sebenarnya pembicaraan validitas ini bukan ditekankan pada tes itu sendiri tetapi pada
hasil pengetesan atau skornya.
Contoh :
Skor yang diperoleh dari hasil mengukur kemampuan mekanik akan
menunjukkan kemampuan seseorang dalam memegang dan memperbaiki mobil, bukan
pengetahuan orang tersebut dalam hal yang berkaitan dengan mobil. Tes yang mengukur
pengetahuan tentang mobil bukanlah tes yang sahih untuk mekanik.
Secara garis besar ada dua macam validitas, yaitu validitas logis dan validitas
empiris.
a. Validitas logis
Istilah “validitas logis” mengandung kata “logis” yang berasal dari kata
“logika”, yang berarti penalaran. Validitas logis untuk sebuah instrument
evaluasi menunjuk pada kondisi bagi sebuah instrument yang memenuhi
persyaratan valid berdasarkan hasil penalaran.
Validitas logis dapat dicapai apabila instrument disusun mengikuti
ketentuan yang ada. Validitas logis tidak perlu diuji kondisinya, tetapi
langusng diperoleh sesudah instrument tersebut selesai disusun. Ada dua
macam validitas logis yang dapat dicapai oleh sebuah instrument, yaitu :
validitas isi dan validitas konstrak (construct validity). Validitas isi
menunjuk suatu kondisi sebuah instrument yang disusun berdasarkan isi
materi pelajaran yang dievaluasi. Validitas konstrak menunjuk suatu kondisi
sebuah instrument yang disusun berdasarkan konstrak aspek-aspek kejiwaan
yang seharusnya dievaluasi.
b. Validitas Empiris
Istilah “validitas empiris” memuat kata “empiris” yang artinya “pengalaman”.
Contoh : seseorang dapat dikatakan kreatif apabila dari pengalaman
dibuktikan bahwa orang tersebut sudah banyak menghasilkan ide-ide baru
yang diakui berbeda dari hal-hal yang sudah ada. Dari contoh tersebut bahwa
validitas empiris tidak dapat diperoleh hanya dengan menyusun instrumenn
berdasarkan ketentuan seperti halnya validitas logis, tetapi harus dibuktikan
melalui pengalaman.
Secara keseluruhan kita mengenal adanya empat validitas, yaitu :
1) Validitas isi ( content validity )
Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan
khusus tertentu yang sejajar dengan materi atau isi pelajaran yang
diberikan.
2) Validitas konstruksi ( construct validity )
Sebuah tes dikatakan memiliki validitas konstruksi apabila butir-butir soal
yang menbangun tes tersebut mengukur setiap aspek berpikir seperti yang
disebutkan dalam Tujuan Instruksional Khusus.
3) Validitas “ada sekarang” ( concurrent validity )
Validitas ini lebih umum dikenal dengan validitas empiris. Sebuah tes
dikatakan memiliki validitas empiris jika hasilnya sesuai dengan
pengalaman. Jika ada istilah “sesuai” tentu ada dua hal yang dipasangkan.
Dalam membandingkan hasil sebuah tes maka diperlukan suatu kriterium
atau alat banding. Maka hasil tes merupakan sesuatu yang dibandingkan.
4) Validitas Prediksi
Memprediksi artinya meramal, sebuah tes dikatakan memiliki validitas
ramalan apabila mempunyai kemampuan untuk meramalkan apa yang
akan terjadi pada masa yang akan datang. Misalnya, tes masuk Perguruan
Tinggi adalah sebuah tes yang diperkirakan mampu meramalkan
keberhasilan peserta tes dalam mengikuti kuliah di masa yang akan
datang. Sebagai alat pembanding validitas prediksi adalah nilai-nilai
yang diperoleh setelah peserta tes. Jika ternyata siapa yang memiliki nilai
tes lebih tinggi gagal dalam ujian semester 1 dibandingkan dengan yang
dahulu nilai tesnya lebih rendah, maka tes masuk yang diamskud tidak
memiliki validitas prediksi.
2. Cara Mengetahui Validitas Alat Ukur
Teknik yang digunakan untuk mengetahui kesejajaran adalah teknik korelasi product
moment yang dikemukakan oleh Pearson. Rumus korelasi product moment ada 2 macam,
yaitu :
a. Korelasi product moment dengan simpangan
b. Korelasi product moment dengan angka kasar
Rumus korelasi product moment dengan simpangan :
∑𝑥𝑦
𝑟𝑥𝑦 = (∑2)(∑2)
√
𝑥 𝑦
Dimana :
rxy = koefisien korelasi antara variable X dan Y, duia variable yang dikorelasikan ( x = X – dan y
=Y
X2 = kuadrat dari x
Dengan rumus simpangan dalam mengerjakan perkalian atau penjumlahan jika diperoleh 3
atau angka di belakang koma dilakukan pembulatan ke atas. Perbedaa ini snagat kecil
sehingga dapat diabaikan. Berikut keterangannya terkait penjelasan diatas :
- Korelasi positif menunjukkan adanya hubungan sejajar antara dua hal. Misalnya, hal
pertama nilainya naik, hal kedua ikut naik, sebaliknya jika hal pertama turun, yang
kedua ikut turun.
- Korelasi negative menunjukkan adanya hubungan kebalikanantara dua hal. Misalnya
hal pertama nilainya naik, justru yang kedua turun. Sebaliknya jika yang pertama turun,
yang kedua naik.
Penafsiran harga koefisien korelasi ada 2 cara, yaitu :
- Dengan melihat harga r dan diinterpretasikan misalnya korelasi tinggi, cukup, dann
sebaginya.
- Dengan berkonsultasi ke tabel harga kritik r product moment sehingga dapat diketahui
signifikan tidaknya korelasi tersebut. Jika harga r lebih kecil dari harga kritik dalam
tabel, maka korelasi tersebut tidak signifikan. Begitu juga arti sebaliknya.
3. Validitas butir soal atau validitas item
Validitas item adalah sebuah item yang mempunyai dukungan yang besar terhdap skor
total. Item memiliki validitas yang tinggi jika skor pada item memounyai kesejajaran
dengan skor total.
Untuk soal-soal bentuk objektif skor untuk item biasa diberikan dengan 1 ( bagi item
yang dijawab benar ) dan 0 ( item yang dijawab salah ), sedangkan skor total selanjutnya
merupakan jumlah dari skor untuk semua item yang membangun soal tersebut.
Rumus korelasi product moment dengan angka kasar :
𝑁𝛴 × 𝑌 − (𝛴𝑋)(𝛴𝑌)
𝑟𝑋𝑦 =
√{𝑁∑𝑋2 − (𝛴𝑥)2}{𝑁𝛴𝑌−2(𝛴𝑌)2}
Cara-cara lain untuk menghitung validitas item dengan menggunakan rumus ypb , yaitu :
𝛾𝑝𝑏𝑖 = 𝑀𝑝 − 𝑝
𝑀1 √
𝑞
𝑠𝑡
A. PENGERTIAN
1. Arti Realibilitas bagi sebuah tes
Suatu tes dapat dikatakan mempunyai taraf kepercayaan yang tinggi jika tes tersebut
dapat memberikan hasil yang tetap. Atau seandainya hasilnya berubah-ubah, perubahan
yang terjadi dapat dikatakan tidak berarti. Jika validitas terkait dengan ketetapan objek
yang tidak lain adalah tidak menyimpangnya data dari kenyataan, artinya bahwa data
tersebut benar, maka konsep realibilitas terkait dengan pemotretan berkali-kali.
Intstrumen yang baik adalah instrument yang dapat dengan ajeg memberikan data yang
sesuai dengan kenyataan.
Beberapa hal yang sedikit banyak memengaruhi hasil tes dikelompokkan menjadi 3,
sebagai berikut :
a. Halyang berhubungan dengan Tes itu sendiri, yaitu Panjang Tes dan Kualitas Butir-
Butir Soalnya
Tes yang terdiri dari banyak butir, tentu saja lebih valid dibandingkan dengan tes
yang hnya terdiri dari beberapa butir soal. Tinggi rendahnya validitas menunjukkan
tinggi rendahnya reliabilitas tes. Dengan demikian maka semakin panjang tes, aka
reliabilitasnya semakin tinggi. Dalam menghitung besarnya realibilitas dapat dihitung
menggunakan rumus Spearman-Brown.
………….rumus beserta keteranngan halaman 102……..
b. Hal yang berhubungan dengan Tercoba ( testee )
Suatu tes yang dicobakan kepada kelompok yang terdiri dari banyak siswa akan
mencerminkan keragaman hasil yang menggambarkan besar kecilnya reliabilitas tes.
Tes yang dicobakan kepada bukan kelompok terpilih, akan menunjukkan reliabilitas
yanglebih besar daripada yang dicobakan pada kelompok tertentu yang diambil secara
dipilih.
c. Hal yang berhubungan dengan Penyelenggara Tes
Sudah disebutkan bahwa faktor penyelenggara tes yang bersifat administrative, sangat
menentukan hasil tes. Adanya hal-hal yang memengaruhi hasil tes ini smeua, secara
langsung akan ememngaruhi reliabilitas soal tes.
2. Cara-cara Mencari Besarnya Reliabilitas
a. Metode Bnetuk Pararel ( Equivalent )
Tes pararel atau tes ekuivalen adalah dua buah tes yang mempunyai kesamaan
tujuan, tingkat kesukaran, dan susunan, tetapi butir-butir soalnya berbeda. Dalam
menggunakan metode tes pararel ini pengetes harus menyiapkan dua buah tes, dan
masing-masing dicobakan pada kelompok siswa yang sama. Oleh karena itu, ada
orang menyebutkab sebagai double tes-double-trial. Kelemahan dari metode ini
adalah pengetes pekerjaannya berat karena harus menyusun duaseri tes. Lagi pula
harus tersedia waktu yang lama untuk mencobakan dua kali tes.
b. Metode Tes Ulang ( Test-retest Method )
Metode tes ulang dilakukan orang untuk menghindari penyusunan dua seri tes.
Dalam menggunakan teknik atau meotde ini pengetes hanya memiliki satu seri
tes, tetapi dicobakan dua kali. Oleh karena tesnya hanya satu dan dicobakan dua
kali, maka meotde ini dapat disebut dengan single-test-double-trial method.
c. Metode Belah Dua atau Split-half Method
Dalam menggunakan metode ini pengetes hanya menggunakan sebuah tes dan
dicobakan satu kali. Oleh karena itu, disebut juga single-tes-single-trial method.
Berbeda dengan metode pertama dan kedua yang setelah ditemukannya koefisien
korelasi langsung ditafsirkan itulah koefisien reliabilitas, maka dengann metode
ketiga ini tidak dapat demikian. Untuk mengetahui reliabilitas selurus tes harus
digunakan rumus Spearman-Brown sebagai berikut :
2𝑟1⁄ 1⁄
𝑟11 = (1 + 𝑟2 2
1⁄ 1⁄ )
2 2
Dimana:
𝑟1⁄ 1⁄ = korelasi antara skor-sekor setiap belahan tes
2 2
𝑟11 = koefisien realibilitas yang sudah disesuaikan
1. Membelah atas item genap dan item ganjil yang selanjutnya disebut belahan
ganjil-genap.
2. Membelah atas item awal dan item akhir yaitu separo jumlah pada nomor-
nomor awl dam separo nomor-nomor akhir yang selanjutnya disebut belahan
awal-akhir.
Untuk mencari reliabilitas suatu soal dilakukan dengan langkah-langkah sebagai berikut :
∑𝐵2 (𝛴𝑥𝑡)2
𝐽𝑘 = −
𝑁 𝑘×𝑁
Keterangan:
𝑘 = 𝑏𝑎𝑛𝑦𝑎𝑘 𝑖𝑡𝑒𝑚
Keterangan:
dengan menggunakan tabel analisis item yang di gunakan untuk mencari relibilitas tengan
rumus dapat di cari realibilitas dengan rumus hoyt.
Di mana:
PENGERTIAN
Tingkat kesukaran butir soal adalah proporsi antara banyaknya peserta tes yang
menjawab butir soal dengan benar dengan banyaknya peserta tes. Hal ini berarti makin
banyak peserta tes yang menjawab butir soal dengan benar maka makin besar indeks
tingkat kesukaran, yang berarti makin mudah butir soal itu. Sebaliknya makin sedikit
peserta tes yang menjawab butir soal dengan benar maka soal tersebut makin sukar
(Azwar, 2006 :129).
Tinggi rendahnya tingkat kesukaran suatu butir soal dapat disebabkan oleh kerumitan
pokok soal dan kondisi pilihan jawaban yang disediakan. Dalam arti keluasan pertanyaan
soal sering membingungkan peserta tes dan alternatif jawaban yang homogen atau
kalimat soal sulit dipahami atau mempunyai pengertian ganda bagi peserta tes (Sirait,
2009 : 301).
Tingkat kesukaran soal berkaitan dengan persentase peserta yang menjawab soal
dengan benar. Semakin mudah butir soal, makin besarlah persentasenya. Jika tingkat
kesukaran 70 % (p=0,70), soal tersebut dianggap lebih mudah dibandingkan jika tingkat
kesukaran soalnya 15 % (p=0,15).yang paling baik adalah soal yang mempunyai tingkat
kesukaran 0,50 ( Anastasi dan Susan Urbina, 2007 : 128).
Menganalisis jawaban siswa pada tiap butir soal pra tindakan dengan rumus sebagai berikut :
Berikut tabel yang menunjukkan jumlah soal yang masuk ke dalam kategori soal mudah, sedang,
dan sukar.
PENGERTIAN
Daya pembeda soal adalah kemampuan soal dengan skornya dapat membedakan
peserta tes dari kelompok tinggi dan kelompok rendah. Dengan kata lain makin tinggi
daya pembeda soal makin banyak peserta dari kelompok tinggi yang dapat menjawab
soal dengan benar dan makin sedikit peserta tes dari kelompok rendah yang dapat
menjawab soal dengan benar. Agar dapat diterima maka nilai D (discrimination: daya
pembeda soal) adalah 0,30 atau lebih. Sedangkan untuk dapat dinyatakan cukup
memuaskan adalah 0,40 ke atas (Dali S. Naga, 2002 : 67).
1. Menentukan jumlah siswa yang masuk kelompok atas dan kelompok bawah jumlah
siswa kelompok atas dan bawah adalah 27 % x jumlah siswa.
Maka, jumlah soal yang termasuk kategori daya pembeda baik sekali, baik,cukup,
dan buruk adalah sebagai berikut:
Jumlah Kategori Daya Pembeda
Soal Baik Sekali Baik Cukup Buruk
20 - 6 9 5
Presentase - 30% 45% 25%
DAYA PEMBEDA SOAL SIKLUS I
1. Menentukan jumlah siswa yang masuk kelompok atas dan kelompok bawah
jumlah siswa kelompok atas dan bawah adalah 27% x jumlah siswa.
2. Menganalisis daya pembeda pada tiap butir soal pada siklus I dengan rumus
sebagai berikut :
Maka, jumlah soal yang termasuk kategori daya pembeda baik sekali, baik,cukup,
dan buruk adalah sebagai berikut:
Jumlah Kategori Daya Pembeda
Soal Baik Sekali Baik Cukup Buruk
20 - 7 9 4
Presentase - 35% 45% 20%
DAYA PEMBEDA SOAL SIKLUS II
1. Menentukan jumlah siswa yang masuk kelompok atas dan kelompok bawah
jumlah siswa kelompok atas dan bawah adalah 27% x jumlah siswa.
2. Menganalisis daya pembeda pada tiap butir soal pada siklus II dengan rumus
sebagai berikut :
6 8 6 0,22 Cukup
7 3 2 0,11 Buruk
8 7 3 0,44 Baik
9 8 3 0,56 Baik
10 4 3 0,11 Buruk
11 8 3 0,56 Baik
12 9 9 0 Buruk
13 7 3 0,44 Baik
14 5 2 0,33 Cukup
15 9 7 0,22 Cukup
16 8 3 0,56 Baik
17 9 2 0,78 Baik Sekali
18 9 7 0,22 Cukup
19 4 2 0,22 Cukup
20 9 7 0,22 Cukup
Maka, jumlah soal yang termasuk kategori daya pembeda baik sekali, baik,cukup,
dan buruk adalah sebagai berikut:
Jumlah Kategori Daya Pembeda
Soal Baik Sekali Baik Cukup Buruk
20 1 6 9 4
Presentase 5% 30% 45% 20%
DAFTAR PUSTAKA
Hanifah, N. 2014. Perbandingan Tingkat Kesukaran, Daya Pembeda butir Soal dan
Reliabilitas Tes bentuk Pilihan Ganda Biasa dan Pilihan Ganda Asosiasi Mata
Pelajaran Ekonomi. Jurnal Universitas Indraprasta PGRI 6 (1): 46-47.