T1 Individu Evaluasi

1
DAFTAR ISI
DAFTAR ISI............................................................................................................................................ 1
BAB I ....................................................................................................................................................... 2
KAJIAN TEORI ..................................................................................................................................... 2
A. Penilaian, Asesmen, Pengukuran Dan Tes................................................................................... 2
1. Pengertian, Tujuan dan Fungsi Penilaian ................................................................................. 2
2. Pengertian, Bentuk, Jenis, Proses dan Teknik Asesmen .......................................................... 5
3. Pengertian Pengukuran ............................................................................................................ 9
4. Pengertian Testing ................................................................................................................... 9
B. Validitas, Reliabilitas ................................................................................................................. 10
1. Validitas ................................................................................................................................. 10
2. Reliabilitas ............................................................................................................................. 12
C. Bias dan Standar Error ............................................................................................................... 18
1. Bias ......................................................................................................................................... 18
2. Standart Error Measurement ................................................................................................. 18
BAB II.................................................................................................................................................... 20
PEMBAHASAN .................................................................................................................................... 20
A. Matrik Perbedaan Penilaian Assesmen, Pengukuran, dan Testing ............................................ 20
B. Matriks Perbandingan Validitas, Reliabilitas, Bias, Standar Error ............................................ 26
DAFTAR PUSTAKA ............................................................................................................................ 31
2
BAB I
KAJIAN TEORI
A. Penilaian, Asesmen, Pengukuran Dan Tes

1. Pengertian, Tujuan dan Fungsi Penilaian
a. Pengertian Penilaian
Penilaian adalah salah satu aspek yang paling penting dalam pembelajaran. pembelajaran
dilakukan melalui perencanaan, pelaksanaan dan penilaian. Penilaian merupakan proses
pengumpulan informasi untuk memantau kemajuan dan membuat keputusan pendidikan.
Penilaian mungkin termasuk tes, tetapi juga mencakup metode seperti observasi, wawancara,
perilaku pemantauan, dan lain-lain (Kizlik, 2012:1). Banyak ahli mendeskripsikan tentang
penilaian diantaranya :
1) Sudiono, Anas (2005) mengemukakan bahwa secara harfiah kata evaluasi berasal dari
bahasa Inggris evaluation, dalam bahasa Indonesia berarti penilaian. Akar katanya
adalah value yang artinya nilai. Jadi istilah evaluasi menunjuk pada suatu tindakan
atau suatu proses untuk menentukan nilai dari sesuatu.
2) Frey, Barbara A., and Susan W. Alman. (2003): Evaluation is The systematic process
of collecting, analyzing, and interpreting information to determine the extent to which
pupils are achieving instructional objectives. (Artinya: Evaluasi adalah proses
sistematis pengumpulan, analisis, dan interpretasi informasi untuk menentukan sejauh
mana siswa yang mencapai tujuan instruksional).
3) Mardapi, Djemari (2003), penilaian adalah kegiatan menafsirkan atau
mendeskripsikan hasil pengukuran.
4) Zainul, Asmawi dan Noehi Nasution (2001), mengartikan penilaian adalah suatu
proses untuk mengambil keputusan dengan menggunakan informasi yang diperoleh
melalui pengukuran hasil belajar baik yang menggunakan tes maupun nontes.
5) Menurut Reynolds, Livingston, & Willson (1999: 3) penilaian (Assesment) adalah
beberapa prosedur sistematis untuk mengumpulkan informasi yang dapat digunakan
untuk membuat kesimpulan tentang karakteristik seseorang atau objek.
Dari berbagai pengertian penilaian diatas dapat disimpulkan bahwa penilaian merupakan
kegiatan mengumpulkan informasi mengenai peserta didik melalui serangkaian pengukuran hasil
belajar melalui tes maupun non tes.
3
b. Tujuan Penilaian
Pelaksanaan penilaian hasil belajar pada proses belajar mengajar bertujuan untuk:
1) Mengetahui kemajuan belajar siswa, baik sebagai individu maupun anggota
kelompok/kelas setelah siswa mengikuti pendidikan dan pembelajaran dalam jangka
waktu yang telah ditentukan.
2) Mengetahui tingkat efektifitas dan efisiensi berbagai komponen pembelajaran yang
dipergunakan guru dalam jangka waktu tertentu. Komponen pembelajaran itu misalnya
menyangkut perumusan materi pembelajaran, pemilihan metode pembelajaran, media,
sumber belajar, dan rancangan sistem penilaian yang dipilih.
3) Menentukan tindak lanjut pembelajaran bagi siswa, dan
4) Membantu siswa untuk memilih sekolah, pekerjaan, dan jabatan yang sesuai dengan
bakat, minat, perhatian, dan kemampuannya.
Dengan mengetahui tercapai tidaknya tujuan pembelajaran, dapat diambil tindakan
perbaikan proses pembelajaran dan perbaikan siswa yang bersangkutan. Dengan kata lain, hasil
penilaian tidak hanya bermanfaat untuk mengetahui tercapai tidaknya perubahan tingkah laku
siswa, tetapi juga sebagai umpan balik bagi upaya memperbaiki proses pembelajaran. Dalam
penilaian ini dilihat sejauh mana keefektifan proses pebelajaran dalam mengupayakan perubahan
tingkah laku siswa. Oleh sebab itu, penilaian hasil dan proses belajar saling berkaitan satu sama
lain sebab hasil belajar yang dicapai siswa merupakan akibat dari proses pembelajaran yang
ditempuhnya (pengalaman belajarnya).
c. Fungsi Penilaian
Penilaian merupakan salah satu bagian yang penting dalam kegiatan pembelajaran.
Dikatakan bagian penting, karena kegiatan ini akan menjadi cermin untuk melihat perkembangan
atau kemajuan belajar siswa dari waktu ke waktu. Secara umum, fungsi penilaian adalah sebagai
berikut:
1) Alat untuk mengetahui tercapai-tidaknya tujuan pembelajaran. Dengan fungsi ini maka
penilaian harus mengacu pada rumusan-rumusan tujuan pembelajaran sebagai penjabaran
dari kompetensi mata pelajaran
2) Umpan balik bagi perbaikan proses belajar-mengajar. Perbaikan mungkin dilakukan dalam
hal tujuan pembelajaran, kegiatan atau pengalaman belajar siswa, strategi pembelajaran
yang digunakan guru, media pembelajaran, dan lain-lain.
4
3) Dasar dalam menyusun laporan kemajuan belajar siswa kepada para orang tuanya. Dalam
laporan tersebut dikemukakan kemampuan dan kecakapan pelajar siswa dalam berbagai
bidang studi atau mata pelajaran dalam bentuk nilai-nilai prestasi yang dicapainya.
Selain ketiga fungsi diatas, penilaian juga mempunyai fungsi sebagai berikut:
1) Penilaian berfungsi selektif
Dengan cara mengadakan penilaian, guru mempunyai cara untuk mengadakan seleksi atau
penilaian terhadap siswanya. Penilaian itu sendiri mempunyai berbagai tujuan, antara lain:
a) untuk memilih siswa yang dapat diterima di sekolah tertentu.
b) untuk memilih siswa yang dapat naik ke kelas atau tingkat berikutnya.
c) untuk memilih siswa yang seharusnya mendapat beasiswa.
d) untuk memilih siswa yang sudah berhak meninggalkan sekolah, dan sebagainya.
2) Penilaian berfungsi diagnostic
Apabila alat yang digunakan dalam penilaian cukup memenuhi persyaratan, maka dengan
melihat hasilnya, guru akan mengetahui kelemahan siswa. Di samping itu, diketahui pula
sebab-musabab kelemahan itu. Jadi, dengan mengadakan penilaian, sebenarnya guru
mengadakan diagnosis kepada siswa tentang kebaikan dan kelemahannya.
3) Penilaian berfungsi sebagai penempatan
Sistem baru yang kini banyak dipopulerkan di negara barat, adalah sistem belajar sendiri.
Belajar sendiri dapat dilakukan dengan cara mempelajari sebuah paket belajar, baik itu
berbentuk modul maupun paket belajar yang lain. Sebagai alasan dari timbulnya sistem ini
adalah adanya pengakuan yang besar terhadap kemampuan individual. Setiap siswa sejak
lahirnya telah membawa bakat sendiri-sendiri sehingga pelajaran akan lebih efektif apabila
disesuaikan dengan pembawaan yang ada. Akan tetapi disebabkan karena keterbatasan sarana
dan tenaga, pendidikan yang bersifat individual kadang-kadang sukar sekali dilaksanakan.
Pendekatan yang lebih bersifat melayani perbedaan kemampuan, adalah pengajaran secara
kelompok. untuk dapat menentukan dengan pasti di kelompok mana seorang siswa harus
ditempatkan, digunakan suatu penilaian.
4) Penilaian berfungsi sebagai pengukur keberhasilan
Fungsi keempat dari penilaian ini dimaksudkan untuk mengetahui sejauh mana suatu
program berhasil diterapkan. Keberhasilan program ditentukan oleh beberapa faktor yaitu
faktor guru, metode mengajar, kurikulum, sarana, dan sistem administrasi.
5
2. Pengertian, Bentuk, Jenis, Proses dan Teknik Asesmen

a. Pengertian Asesmen
Asesmen (assessment) menurut Stiggins dalam Ana ( 2012) sebagai penilaian proses,
kemajuan, dan hasil belajar siswa (outcomes). Pengertian lain diungkapkan oleh Kumano (2001)
dalam Ana (2012) merupakan istilah yang tepat untuk penilaian proses belajar siswa. Namun
meskipun proses belajar siswa merupakan hal penting yang dinilai dalam asesmen, faktor hasil
belajar juga tetap tidak dikesampingkan. Gabel (1993) dalam Ana mengkategorikan asesmen ke
dalam kedua kelompok besar yaitu asesmen tradisional dan asesmen alternatif. Asesmen yang
tergolong tradisional adalah tes benar-salah, tes pilihan ganda, tes melengkapi, dan tes jawaban
terbatas. Sementara itu yang tergolong ke dalam asesmen alternatif (non-tes) adalah essay/uraian,
penilaian praktek, penilaian proyek, kuesioner, inventori, daftar Cek, penilaian oleh teman
sebaya/sejawat, penilaian diri (self assessment), portofolio, observasi, diskusi dan interviu
(wawancara).
Lebih lanjut asesmen merupakan sarana yang secara kronologis membantu guru dalam
memonitor siswa (Wiggins, 1984 dalam Ana 2012) menyatakan. Resnick (1985) menyatakan
bahwa pada hakikatnya asesmen menitikberatkan penilaian pada proses belajar siswa. Sejalan
dengan itu Marzano et al. (1994) dalam Ana (2012) menyatakan bahwa dalam mengungkap
penguasaan konsep siswa, asesmen tidak hanya mengungkap konsep yang telah dicapai, akan
tetapi juga tentang proses perkembangan bagaimana suatu konsep tersebut diperoleh. Dalam hal
ini asesmen tidak hanya dapat menilai hasil dan proses belajar siswa, akan tetapi juga kemajuan
belajarnya.
b. Bentuk-bentuk Assesment
Bentuk assesment yang digunakan antara lain sebagai berikut:

1) Asesmen Konvensional
Secara konvensional, evaluasi terhadap suatu kemampuan (pengetahuan atau
keterampilan) siswa dilakukan dengan suatu proses pengukuran terhadap kemampuan
tersebut menggunakan teknik tes.
2) Asesmen Alternatif. Teknik pengukuran untuk mengevaluasi kemampuan siswa
dengan menggunakan teknik pengukuran non-tes.
6
3) Asesmen Otentik. Salah satu bentuk asesmen alternatif yang teknik pengukurannya
meminta siswa untuk mengaplikasikan pengetahuan atau menunjukkan keterampilan
sebagaimana pengetahuan atau keterampilan itu dipakai dalam dunia nyata.
4) Asesmen Kinerja. Bentuk asesmen alternatif lain yang teknik pengukurannya
memberikan kesempatan kepada siswa untuk menciptakan berbagai situasi untuk
siswa atau menciptakan berbagai situasi agar siswa dapat menunjukkan
kemampuannya dalam mengaplikasikan pengetahuan dan keterampilannya dalam
berbagai situasi (Marzano, 1992).
c. Jenis-jenis Assesment
Jenis-jenis assesment yang digunakan antara lain sebagai berikut:
1) Evaluasi Formatif, yakni penilaian yang dilaksanakan pada setiap akhir pokok
bahasan, tujuannya untuk mengetahui tingkat penguasaan siswa terhadap pokok
bahasan tertentu.
2) Evaluasi Sumatif, yaitu penilaian yang dilakukan pada akhir satuan program tertentu,
(catur wulan, semester atau tahun ajaran), tujuannya untuk melihat prestasi yang
dicapai peserta didik selama satu program.
3) Evaluasi Diagnostik, yaitu penilaian yang dilakukan untuk melihat kelemahan siswa
dan faktor-faktor yang diduga menjadi penyebab, dilakukan untuk keperluan
pemberian bimbingan belajar dan pengajaran remidial.\
4) Evaluasi penempatan (placement), yaitu penilaian yang ditujukan untuk menempatkan
siswa sesuai dengan bakat, minat, dan kemampuannya, misalnya dalam pemilihan
jurusan atau menempatkan anak pada kerja kelompok dan pemilihan kegiatan
tambahan.
5) Evaluasi Seleksi, yakni penilaian yang ditujukan untuk menyaring atau memilih orang
yang paling tepat pada kedudukan atau posisi tertentu. Evaluasi ini dilakukan kapan
saja diperlukan.
d. Proses Asesment
Dalam Peraturan Pemerintah Nomor 19, Tahun 2005 (PP No. 19/2005), penilaian
pendidikan pada jenjang pendidikan dasar dan menengah terdiri atas:
7
1) Penilaian Hasil Belajar oleh Pendidik

Penilaian hasil belajar oleh pendidik dilakukan secara berkesinambungan untuk
memantau proses, kemajuan, perbaikan hasil dalam bentuk ulangan harian, ulangan
tengah semester, ulangan akhir semester, dan ulangan kenaikan kelas. Penilaian oleh
pendidik ini digunakan untuk (1) menilai pencapaian kompetensi peserta didik, (b)
bahan penyusunan laporan kemajuan hasil belajar, dan (c) memperbaiki proses
pembelajaran.
2) Penilaian Hasil Belajar oleh Satuan Pendidikan
Penilaian hasil belajar oleh satuan pendidikan bertujuan menilai pencapaian standar
kompetensi lulusan untuk semua mata pelajaran. Penilaian hasil belajar ini berlaku
untuk mata pelajaran pada kelompok mata pelajaran agama dan akhlak mulia,
kelompok mata pelajaran kewarganegaraan dan kepribadian, kelompok mata pelajaran
estetika, dan kelompok mata pelajaran jasmani, olah raga, dan kesehatan merupakan
penilaian akhir untuk menentukan kelulusan peserta didik dari satuan pendidikan.
Penilaian akhir mempertimbangkan hasil penilaian peserta didik oleh pendidik.
Dilaksanakan untuk semua mata pelajaran pada kelompok ilmu pengetahuan dan
teknologi dilakukan melalui ujian sekolah/madrasah untuk menentukan kelulusan
peserta didik dari satuan pendidikan. Untuk dapat mengikuti ujian sekolah/madrasah,
peserta didik harus mendapatkan nilai yang sama atau lebih besar dari nilai batas
ambang kompetensi yang dirumuskan oleh BSNP.
3) Penilaian Hasil Belajar oleh Pemerintah
Penilaian hasil belajar oleh pemerintah bertujuan untuk menilai pencapaian
kompetensi lulusan secara nasional pada mata pelajaran tertentu dalam kelompok mata
pelajaran ilmu pengetahuan teknologi dan dilakukan dalam bentuk ujian nasional.
Ujian nasional dilakukan secara obyektif, berkeadilan, akuntabel, dan diadakan
sekurang-kurangnya satu kali dan sebanyak-banyaknya dua kali dalam satu tahun
pelajaran. Penyelenggaraannya oleh pemerintah diserahkan kepada BSNP.
e. Teknik Assesment
1) Teknik tes adalah seperangkat tugas yang harus dikerjakan oleh orang yang dites, dan
berdasarkan hasil menunaikan tugas-tugas tersebut, akan dapat ditarik kesimpulan tentang
8
aspek tertentu pada orang tersebut. Tes dapat berupa tes tertulis, tes lisan, dan tes praktik
atau tes kinerja.
i. Tes tertulis adalah tes yang menuntut peserta tes memberi jawaban secara tertulis
berupa uraian ataupun objektif. Tes uraian yaitu pertanyaan yang menuntut jawaban
dalam bentuk uraian dengan menggunakan bahasa sendiri. Tes Tertulis Uraian ada
dua yaitu tes Terbatas/tertutup/terstruktur dan tes Bebas terbuka. Tes objektif berupa
Pilihan Ganda yaitu pertanyaan dengan beberapa pilihan jawaban dimana salah
satunya benar; Benar–Salah yaitu pertanyaan dengan dua pilihan jawaban seperti
benar dan salah, setuju dan tidak setuju, ya dan tidak, dan lain sebagainya;
Menjodohkan dengan cara memilih yaitu dua kelompok pertanyaan yang paralel dan
dijawab dengan menjodohkan pertanyaan di kelompok satu dengan pertanyaan di
kelompok lain; Isian singkat, Isian panjang, dan Isian klosur dengan cara Mengisi.
ii. Tes lisan adalah tes yang dilaksanakan melalui komunikasi langsung (tatap muka)
antara peserta didik dengan pendidik. Pertanyaan dan jawaban diberikan secara lisan.
iii. Tes praktik (kinerja) adalah tes yang meminta peserta didik melakukan
perbuatan/mendemonstasikan/ menampilkan keterampilan.
2) Teknik nontes dapat dilakukan dengan observasi baik secara langsung ataupun tak
langsung, angket ataupun wawancara, skala sikap, daftar periksa (cek-lis), kuisioner,
catatan anekdotal, portofolio, catatan sekolah, jurnal, cuplikan kerja. Teknik non tes ini
digunakan sebagai pelengkap dan digunakan sebagai pertimbangan tambahan dalam
pengambilan keputusan penentuan kualitas hasil belajar, teknik ini dapat bersifat lebih
menyeluruh pada semua aspek kehidupan anak.
f. Standar-Standar Assesment
Standar asesmen (NSES, 2003) antara lain:

1) Menggunakan berbagai perangkat dan strategi asasesmen untuk mencapai tujuan-tujuan
penting pembelajaran yang diarahkan dengan metode pembelajaran dan kebutuhan
siswa.
2) Menggunakan hasil-hasil multi asesmen untuk mengarahkan dan memodifikasi
pengajaran, lingkungan kelas, atau proses asesmen.
3) Menggunakan hasil-hasil asesmen sebagai wahana bagi siswa-siswa untuk menganalisis
pembelajaran diri mereka, melakukan analisis refleksi diri terhadap kerja mereka.
9
3. Pengertian Pengukuran
Menurut Cangelosi (1995) dalam Ana (2012) yang dimaksud dengan pengukuran
(Measurement) adalah suatu proses pengumpulan data melalui pengamatan empiris untuk
mengumpulkan informasi yang relevan dengan tujuan yang telah ditentukan. Dalam hal ini guru
menaksir prestasi siswa dengan membaca atau mengamati apa saja yang dilakukan siswa,
mengamati kinerja mereka, mendengar apa yang mereka katakan, dan menggunakan indera
mereka seperti melihat, mendengar, menyentuh, mencium, dan merasakan. Menurut Zainul dan
Nasution (2001) dalam Ana (2012) pengukuran memiliki dua karakteristik utama yaitu: 1)
penggunaan angka atau skala tertentu; 2) menurut suatu aturan atau formula tertentu.
Measurement (pengukuran) merupakan proses yang mendeskripsikan performance siswa
dengan menggunakan suatu skala kuantitatif (system angka) sedemikian rupa sehingga sifat
kualitatif dari performance siswa tersebut dinyatakan dengan angka-angka (Alwasilah et al.1996
dalam Ana, 2012). Pernyataan tersebut diperkuat dengan pendapat yang menyatakan bahwa
pengukuran merupakan pemberian angka terhadap suatu atribut atau karakter tertentu yang
dimiliki oleh seseorang, atau suatu obyek tertentu yang mengacu pada aturan dan formulasi yang
jelas. Aturan atau formulasi tersebut harus disepakati secara umum oleh para ahli (Zainul &
Nasution, 2001 dalam Ana, 2012). Dengan demikian, pengukuran dalam bidang pendidikan
berarti mengukur atribut atau karakteristik peserta didik tertentu. Dalam hal ini yang diukur
bukan peserta didik tersebut, akan tetapi karakteristik atau atributnya. Senada dengan pendapat
tersebut, Secara lebih ringkas, Arikunto dan Jabar (2004) menyatakan pengertian pengukuran
(measurement) sebagai kegiatan membandingkan suatu hal dengan satuan ukuran tertentu
sehingga sifatnya menjadi kuantitatif.
Measurement dapat dilakukan dengan cara tes atau non-tes. Amalia (2003) dalam Ana
(2012) mengungkapkan bahwa tes terdiri atas tes tertulis (paper and pencil test) dan tes lisan.
Sementara itu alat ukur non-tes terdiri atas pengumpulan kerja siswa (portofolio), hasil karya
siswa (produk), penugasan (proyek), dan kinerja (performance).
4. Pengertian Testing
Tes (test) merupakan suatu alat penilaian dalam bentuk tulisan untuk mencatat atau
mengamati prestasi siswa yang sejalan dengan target penilaian (Alwasilah, 1996 dalam Ana
2012)). Jawaban yang diharapkan dalam tes menurut Sudjana dan Ibrahim (2001) dapat secara
tertulis, lisan, atau perbuatan. Menurut Zainul dan Nasution (2001) tes didefinisikan sebagai
10
pertanyaan atau tugas atau seperangkat tugas yang direncanakan untuk memperoleh informasi
tentang suatu atribut pendidikan atau suatu atribut psikologis tertentu. Setiap butir pertanyaan
atau tugas tersebut mempunyai jawaban atau ketentuan yang dianggap benar. Dengan demikian
apabila suatu tugas atau pertanyaan menuntut harus dikerjakan oleh seseorang, tetapi tidak ada
jawaban atau cara pengerjaan yang benar dan salah maka tugas atau pertanyaan tersebut
bukanlah tes.
Tes merupakan salah satu upaya pengukuran terencana yang digunakan oleh guru untuk
mencoba menciptakan kesempatan bagi siswa dalam memperlihatkan prestasi mereka yang
berkaitan dengan tujuan yang telah ditentukan (Calongesi, 1995 dalam Ana, 2012). Tes terdiri
atas sejumlah soal yang harus dikerjakan siswa. Setiap soal dalam tes menghadapkan siswa pada
suatu tugas dan menyediakan kondisi bagi siswa untuk menanggapi tugas atau soal tersebut. Tes
menurut Arikunto dan Jabar (2004) merupakan alat atau prosedur yang digunakan untuk
mengetahui atau mengukur sesuatu dengan menggunakan cara atau aturan yang telah ditentukan.
Dalam hal ini harus dibedakan pengertian antara tes, testing, testee, tester. Testing adalah saat
pada waktu tes tersebut dilaksanakan (saat pengambilan tes). Sementara itu Gabel (1993)
menyatakan bahwa testing menunjukkan proses pelaksanaan tes. Testee adalah responden yang
mengerjakan tes. Mereka inilah yang akan dinilai atau diukur kemampuannya. Sedangkan Tester
adalah seseorang yang diserahi tugas untuk melaksanakan pengambilan tes kepada responden.
(dalam Ana, 2012)
B. Validitas, Reliabilitas
1. Validitas
Validitas ini untuk mengetahui apakah tes yang diberikan itu sesuai dengan tujuan yang
telah dirumuskan seperti yang dikatakan Suharsimi Arikunto bahwa penilaian harus sesuai
dengan keadaan yang dipenilaian. Validitas sebuah tes dapat diketahui dari hasil pemikiran
logical validity dan validitas empiris empirical validity. Validitas adalah suatu ukuran yang
menunjukkan tingkat-tingkat kevalidan atau kesahihan suatu instrumen. (Suharsimi Arikunto,
2005: 144) . Ada tiga jenis validitas antara lain:
1. Congruent validity :
korelasi hasil tes dari :
a. mata pelajaran yang sama
b. sampel yang sama
c. Waktu berbeda
11
2. Congcurent validity
Korelasi hasil tes dari :
a. mata pelajaran berbeda
b. sampel sama
c. waktu sama atau berbeda
3. Predictive validity
Korelasi hasil tes dengan hasil tes selanjutnya dengan sampel yang sama pada tingkat lebih
lanjut.
Untuk menghitung validitas instrumen yaitu dengan cara menghitung koefisien validitas,
menggunakan rumus :
N XY  ( X)(  Y)
rXY 
N X   X N Y
2 2 2
 ( Y) 2 
rxy = Koefisien korelasi antara variabel X dan variabel Y
X = Skor tiap item dari responden uji coba variabel X
Y = Skor tiap item dari responden uji coba variabel Y
N = Jumlah responden
Nilai koefisien korelasi yang didapatkan diinterpretasi untuk menentukan validitas tes,
seperti terdapat pada Tabel 2
Tabel 3.5 Makna Koefisien Korelasi Product Moment
No Besarnya nilai r Interpretasi
1 0,80 - 1,00 Sangat tinggi
2 0,60 - 0,80 Tinggi
3 0,40 - 0,60 Cukup
4 0,20 - 0,40 Rendah
5 0,00 - 0,20 Sangat rendah
Sumarna Surapranata (2004:59)
Setelah diketahui koefisien korelasi (r), kemudian dilanjutkan dengan taraf signifikansi
korelasi dengan menggunakan rumus distribusi tstudent, yaitu :
𝑟√𝑛 − 2
𝑡=
√1 − 𝑟 2
dimana : r = koefisien korelasi dan n = jumlah responden yang diujicoba
12
Kemudian jika thitung>ttabel pada taraf signifikansi = 0,05, maka dapat disimpulkan
item soal tersebut valid pada taraf yang ditentukan.
2. Reliabilitas
Uji reliabilitas bertujuan untuk menguji ketepatan atau keajegan alat dalam mengukur apa
yang akan diukur. Menurut Nasution, S (2000: 104), “Reliabilitas dari alat ukur adalah penting,
karena apabila alat ukur yang digunakan tidak reliabel dengan sendirinya tidak valid”. Jadi tes
reliabel jika tes/alat itu dipercaya, konsisten atau stabil dan produktif.
1. Dengan metoda dua tes yang parallel dan setaraf (ekuivalen) diberikan kepada sekolompok
siswa. Hasil dari kedua tes tersebut kemudian dicari korelasinya. (metoda Pearson atau
metoda spearmen)
2. Dengan metoda satu tes sebuah tes diberikan 2 x kepada sekolompok siswa yang sama
tetapi dalam waktu yang berbeda. Kedua hasil tes itu kemudian dicari korelasinya
3. Metoda :Split –half suatu tes dibagi menjadi dua bagian yang sama tingkat kesukaranya,
sama isi dan bentuknya. Kemudian dilihat skor masing-masing bagian perubahan paruhan
tersebut
Pengujian reliabilitas instrumen penelitian dapat dilakukan secara eksternal maupun
internal.Secara eksternal pengujian dapat dilakukan dengan test-retest (stability), equivalent, dan
gabungan keduanya.Secara internal, reliabilitas instrumen dapat diuji dengan menganalisis
konsistensi butir-butir yang ada pada instrumen dengan teknik tertentu.
a. Test-retest
Pengujian ini dilakukan dengan cara mencobakan instrumen beberapa kali pada
koresponden. Jadi dalam hal ini instrumennya sama, responden sama, dan waktu yang
berbeda. Reliabiitas diukur dari koefisien korelasi antara percobaan pertama dengan yang
berikutnya.Bila koefisien korelasi positif dan signifikan maka instrumen tersebut sudah
dinyatakan reliabel.
b. Ekuivalen
Instrumen yang ekuivalen adalah pernyataan yang secara bahasa berbeda, tetapi maksudnya
sama. Pengujian dengan cra ini cukup dilakukan sekali, tetai instrumennya dua, pada
responden yangsama, waktu yang juga sama, dan instrumen berbeda.
c. Gabungan
13
Pengujian reliabilitas ini dilakukan dengan cara mencobakan dua instrumen yang ekuivalen
itu beberapa kali ke responden yang sama. Reliabilitas instrumen dilakukan dengan
mengkorelasikan dua instrumen, setelah itu dikorelasikan pada penguian kedua, dan
selanjutnya dikorelasikan secara silang.
d. Internal consistency
Pengujian dengan cara ini dilakukan dengan cara mencobakan instrumen sekali saja.
Kemudian data yang diperoleh dianalisis dengan teknik tertentu.Hasil analisis dapat
digunakan untuk memprediksi reliabilitas instrumen. Berikut rumus-rumus untuk uji
relianilitas instrumen.
Rumus Spearman Brown:
2𝑟𝑏
ri = 1+𝑟𝑏
di mana:
ri = reliabilitas insternal seluruh instrument
rb = korelasi product moment antara belahan pertama dan kedua
Rumus KR. 20 (Kuder Richardson)
𝑘 𝑠𝑡2 − 𝛴𝑝𝑖𝑞𝑖
Ri = (𝑘−1) { }
𝑠𝑡2
Di mana:
K = jumlah item dalam instrumen
Pi = proporsi banyaknya subyek yang menjawab pada item 1
Q1 = 1 – pi
𝑠12 = varians total
Rumus KR 21
𝑘 𝑀(𝐾− 𝛴𝑀
Ri = (𝑘−1) {1 − }
𝑘𝑠𝑡2
Di mana:
K = jumlah item dalam instrumen
M = mean skor total
𝑠12 = varians total
Analisis Varian Hoyt (Anova Hoyt)
𝑀𝐾𝑒
Ri= 1 – 𝑀𝐾𝑠
14
Di mana:
MKs = mean kuadrat antara obyek
MKe = mean kuadrat kesalahan
Ri = reliabilitas instrument
Rumus Alpha
𝑛 𝑏 2
r = (𝑛−1) (1 − )
2 𝑡
dengan
(𝑥)2
𝑥 2 − 𝑁
2 = 𝑁
Dimana
r adalah reliabilitas tes secara keseluruhan,
n adalah jumlah butir instrumen,
b2 adalah jumlah varians butir instrumen,
2t adalah varians total,
x adalah jumlah skor peserta,
(x)2 adalah jumlah kuadrat skor peserta, dan
N adalah jumlah peserta
Klasifikasi indeks reliabilitas soal dapat dilihat pada Tabel 3.8.
Tabel 3. Klasifikasi Indeks Reliabilitas Instrument
No Indeks Reliabilitas Klasifikasi
1 0,00-0,20 Sangat rendah
2 0,20-0,40 Rendah
3 0,40-0,60 Sedang
4 0,60-0,80 Tinggi
5 0,80-1,00 Sangat tinggi
Slameto (2011:215)
Selain validitas dan realibilitas asesmen ada juga yang dinamakan daya beda dan indeks
kesukaran :
15
Tingkat Kesukaran Soal (p)
Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sulit. Bilangan
yang menunjukkan sukar atau mudahnya soal disebut Indeks Kesukaran (difficult index). Tingkat
kesukaran ini dapat digunakan sebagai suatu indikator untuk menentukan adanya perbedaan
kemampuan peserta tes.
Prosedur yang dilakukan untuk menentukan indeks kesukaran soal menurut Slameto
(1999: 218) adalah:
a) Mengumpulkan tes uji coba yang dikerjakan oleh siswa.
b) Menganalisis tes yang dikerjakan siswa.
c) Mengurutkan skor yang diperoleh siswa dari skor tertinggi sampai terendah.
d) Mengambil atau menetapkan 27% siswa kelompok tertinggi dan 27% siswa kelompok
terendah.
e) Menghitung jawaban benar untuk setiap soal baik dari kelompok atas ataupun kelompok
bawah.
f) Menghitung indeks kesukaran soal memakai program Microsoft Excel dengan menggunakan
rumus yang dikemukan oleh Arikunto (2002):
𝐵
𝑃=
𝐽𝑠
Keterangan :
P = proporsi menjawab benar atau tingkat kesukaran
B= Banyak siswa yang menjawab benar
Js = Jumlah siswa
Indeks kesukaran dapat diklasifikasikan dalam Tabel 2.
Tabel 2. Klasifikasi Tingkat Kesukaran Soal (p)
No. Tingkat Kesukaran (p) Keterangan
1. p < 0,3 Sukar
2. 0,3 ≤ p ≤ 0,7 Sedang
3. p > 0,7 Mudah
Sumber : Suryabrata (2004: 21)
Daya Beda Soal (D)

16
Arikunto (2010 : 211) menyatakan bahwa “daya pembeda soal adalah kemampuan soal
untuk membedakan siswa yang berkemampuan tinggi dengan yang berkemampuan rendah”.
Indeks yang digunakan dalam membedakannya adalah indeks daya pembeda (item
discrimination).
Untuk menghitung daya beda soal, seluruh skor hasil tes diurut mulai dari yang tertinggi
sampai yang terendah, kemudian diambil dua kelompok sama besar, yaitu 27% kelompok atas
dan 27% kelompok bawah. Jadi dari 32 orang siswa dibagi 8 orang kelompok atas dan 8 orang
kelompok bawah.
Rumus untuk menghitung daya beda menurut Arikunto (2002) adalah:

∑𝐴 ∑𝐵
𝐷= −
𝑛𝐴 𝑛𝐵
Keterangan :
D = Indeks daya pembeda
∑ 𝐴 = jumlah jawaban benar dari kelompok atas
∑ 𝐵 = jumlah jawaban benar dari kelompok bawah
nA = jumlah siswa yang termasuk kelompok atas
nB = jumlah siswa yang termasuk kelompok bawah
Klasifikasi indeks daya beda soal dapat dilihat pada Tabel 3.
Tabel 3. Klasifikasi Indeks Daya Beda Soal
No. Indeks Daya Beda Klasifikasi

1. 0,00 ≤ D < 0,20 Jelek
2. 0,20 ≤ D < 0,40 Cukup
3. 0,40 ≤ D < 0,70 Baik
4. 0,70 ≤ D < 1,00 Baik Sekali
5. Negatif (-) Tidak baik (dibuang)
Sumber : Suryabrata (2004: 47)
kriteria daya pembeda:

D ≥ 0,3 = soal diterima
D = 0,10 s.d 0,29 = soal direvisi
D < 0,10 = soal ditolak (Surapranata 2005)
Kualitas Pengecoh (Distraktor)

17
Pada tes pilihan ganda ada beberapa option/alternatif jawaban yang sengaja dimasukkan
sebagai pengecoh (distraktor). Butir soal yang baik, pengecohnya akan dipilih secara merata oleh
siswa-siswa yang menjawab salah. Sebaliknya, butir soal yang buruk, pengecohnya akan dipilih
secara tidak merata. Pengecoh dianggap baik bila jumlah siswa yang memilih pengecoh itu sama
atau mendekati jumlah ideal.
Indeks pengecoh dihitung dengan rumus yang dikemukakan dalam panduan anates (2003)
𝒏𝑷𝒄
𝑰𝑷𝒄 = 𝒙 𝟏𝟎𝟎%
(𝑵 − 𝒏𝑩)/(𝑨𝒍𝒕 − 𝟏)
Dengan
IPc = Indeks Pengecoh/Distraktor
nPc = Jumlah siswa yang memilih pengecoh itu
N = Jumlah seluruh subyek yang ikut tes
nB = Jumlah subyek yang menjawab benar pada butir soal itu
Alt = Banyak alternatif jawaban/option (3, 4, atau 5)
Kualitas pengecoh berdasar Indeks Pengecoh sebagai berikut:

Sangat baik: IPc = 76% - 125%
Baik: Ipc = 51% - 75% atau 126% - 150%
Kurang baik: Ipc = 26% - 50% atau 151% - 175%
Buruk: IPc = 0% - 25% atau 176% - 200%
Sangat buruk: IPc = lebih dari 200%
Keterangan Kualitas Pengecoh

Keterangan:
** kunci jawaban
++ sangat baik,
+ baik,
- kurang baik,
-- buruk,
--- sangat buruk.
18
C. Bias dan Standar Error

1. Bias
Bias adalah sebuah penyajian bahan yang dipenuhi prasangka. Ia juga berarti kesalahan
yang konsisten dalam memperkirakan sebuah nilai. Ada dua tipe bias: bias sampel dan bias
pengukuran. Bias pengukuran berurusan dengan masalah apakah metode pengumpulan data yang
dipilih telah sesuai sehingga data yang dikumpulkan merupakan yang paling mewakili
kenyataan. Untuk mengpenilaian teknik pengumpulan data, pengukuran harus dilakukan dengan
seteliti mungkin. Tidak boleh ada tambahan pada lingkungan yang dapat mempengaruhi hasil.
Selain itu, eksperimen harus dirancang untuk mengisolasi pengaruh dari banyak faktor lainnya.
Bias dari penilai terjadi ketika nilai-nilai atau prasangka dari si penilai mempengaruhi
penilaian. Bias penilaian ini mungkin saja secara tidak sadar atau malah disengaja. Jika seorang
manajer sangat tidak suka dengan suku bangsa tertentu, maka bias ini cenderung mengganggu
informasi penilaian untuk beberapa orang. Agama, usia, jenis kelamin, penampilan fisik, atau
klasifikasi bawaan lainnya mungkin direfleksikan dalam penilaian jika proses penilaian tidak
dirancang dengan semestinya. Pemeriksaan pada penilaian terhadap manajer ditingkat yang lebih
tinggi, mungkin bisa membantu mengatasi persoalan ini.
2. Standart Error Measurement

Standard error dari mean (SEM) adalah standar deviasi sampel estimasi mean sebuah
populasi mean. Ini juga dapat dilihat sebagai standar deviasi kesalahan dalam mean sampel
relatif terhadap mean sebenarnya, sejak mean sampel merupakan penduga yang tidak bias. SEM
biasanya diperkirakan dengan estimasi sampel penduduk deviasi standar (deviasi standar sampel)
dibagi dengan akar kuadrat dari ukuran sampel (dengan asumsi statistik nilai-nilai kemerdekaan
dalam sampel): di mana s adalah deviasi standar sampel (yaitu, sampel perkiraan berdasarkan
standar deviasi dari populasi), dan n adalah ukuran (jumlah pengamatan) sampel. Standar
kesalahan juga dapat didefinisikan sebagai standar deviasi dari kesalahan.
Standar error memberikan langkah-langkah sederhana ketidakpastian dalam nilai dan sering
digunakan karena:
1. Jika error standar kuantitas dari beberapa individu kemudian dikenal standard error dari
beberapa fungsi dari kuantitas dapat dengan mudah dihitung dalam banyak kasus;
2. Mana distribusi probabilitas dari nilai yang diketahui, dapat digunakan untuk menghitung
pendekatan yang baik untuk yang tepat dan
19
3. Mana distribusi probabilitas tidak diketahui, hubungan seperti Chebyshev 's atau
ketidaksetaraan Vysochanskiï-Petunin dapat digunakan untuk menghitung interval
keyakinan konservatif
4. Sebagai ukuran sampel yang cenderung tak terhingga teorema limit sentral menjamin
bahwa distribusi sampling mean asimtotik normal.
Rumus yang diberikan di atas untuk standard error mengasumsikan bahwa ukuran sampel
jauh lebih kecil daripada ukuran populasi, sehingga populasi dapat dianggap efektif dalam
ukuran tak terbatas. Ketika sampling fraksi besar (sekitar sebesar 5% atau lebih), perkiraan
kesalahan harus dikoreksi menggunakan "populasi terbatas koreksi" menjelaskan tambahan
diperoleh presisi sampling dekat dengan persentase yang lebih besar dari populasi. Efek dari FPC
adalah bahwa kesalahan menjadi nol ketika ukuran sampel n adalah sama dengan ukuran
populasi N.
20
BAB II
PEMBAHASAN
A. Matrik Perbedaan Penilaian Assesmen, Pengukuran, dan Testing
PENILAIAN ASSESMENT PENGUKURAN TESTING

Pengertian Pengertian Pengertian Pengertian
a. Sudiono, Anas (2005) a. Stiggins dalam Ana ( a. Menurut Guilford (1982), a. Tes menurut Endang Poerwanti
mengemukakan bahwa secara 2012) sebagai pengukuran (measurement) (2006) adalah cara penilaian yang
harfiah kata evaluasi berasal dari penilaian proses, adalah proses penetapan dirancang dan dilaksanakan kepada
bahasa Inggris evaluation, dalam kemajuan, dan hasil ukuran terhadap suatu gejala siswa pada waktu dan tempat
bahasa Indonesia berarti penilaian. belajar siswa menurut aturan tertentu tertentu serta dalam kondisi yang
Akar katanya adalah value yang (outcomes). b. Menurut Allen & Yen memenuhi syarat-syarat tertentu
artinya nilai. Jadi istilah evaluasi b. Kumano (2001) (1979: 2) pengukuranyang jelas.
menunjuk pada suatu tindakan atau dalam Ana (2012) (measurement) adalah
b. Menurut Allen dan Yen (1979:
suatu proses untuk menentukan merupakan istilah penetapan angka bagi
1), tes adalah alat untuk memperoleh
nilai dari sesuatu. yang tepat untuk individu dengan cara
data tentang perilaku individu.
b. Frey, Barbara A., and Susan W. penilaian proses sistematis yang
c. Menurut Djemari Mardapi
Alman. (2003): Evaluation is The belajar siswa. Namun mencerminkan sifat
(2008: 71) tes menambahkan bahwa
systematic process of collecting, meskipun proses (karakteristik) dari individu.tes merupakan sejumlah pertanyaan
analyzing, and interpreting belajar siswa yang memiliki jawaban benar atau
information to determine the extent merupakan hal c. Menurut Miller (2008: 2), salah.
to which pupils are achieving penting yang dinilai pengukuran adalah deskripsi
instructional objectives. (Artinya: dalam asesmen, faktor kuantitatif prestasi individu d. Pada AERA, APA & NCME
Evaluasi adalah proses sistematis hasil belajar juga dari peserta didik pada tes (Reynolds, Livingston, &
pengumpulan, analisis, dan tetap tidak tunggal atau beberapa tes Willson,1999: 3), menjelaskan tes
interpretasi informasi untuk dikesampingkan. penilaian. adalah suatu prosedur dimana
menentukan sejauh mana siswa c. Gabel (1993) dalam sampel perilaku dari individu
yang mencapai tujuan Ana mengkategorikan d. Menurut Saifuddin Azwar didapatkan, dievaluasi, dan dinilai
instruksional). asesmen ke dalam (2010: 3) pengukuran adalah menggunakan prosedur standar.
c. Mardapi, Djemari (2003), kedua kelompok besar suatu prosedur pemberian
penilaian adalah kegiatan yaitu asesmen angka terhadap atribut atau e. Menurut Harun Rasyid & Mansur
menafsirkan atau mendeskripsikan tradisional dan variabel suatu kontinum. (2008: 11), beberapa istilah yang
21

hasil pengukuran. asesmen alternatif. sering digunakan dalam kaitan
d. Zainul, Asmawi dan Noehi e. Sementara itu, menurut dengan tes, yaitu testing, testee, dan
Nasution (2001), mengartikan Bentuk assesment yang Anas Sudijono (2011: 4) tester. Testing adalah waktu dimana
penilaian adalah suatu proses untuk digunakan antara lain pengukuran dapat diartikan tes dilaksanakan, atau waktu
mengambil keputusan dengan sebagai berikut: sebagai kegiatan untukpelaksanaan tes. Testee adalah orang
menggunakan informasi yang a. Asesmen mengukur sesuatu. Pada yang dikenai tes, atau orang yang
diperoleh melalui pengukuran hasil Konvensional hakekatnya, kegiatan ini mengerjakan tes. Sedangkan tester
belajar baik yang menggunakan tes b.Asesmen Alternatif adalah membandingkan adalah orang yang melakukan tes,
maupun nontes. c. Asesmen Otentik. sesuatu dengan atau atas atau pelaksana tes.
e. Menurut Reynolds, Livingston, & d.Asesmen Kinerja. dasar ukuran tertentu. f. Berdasarkan definisi sebelumnya,
Willson (1999: 3) penilaian (Marzano, 1992). f. Pengukuran maka dapat dikemukakan bahwa tes
(Assesment) adalah beberapa (measurement) menurutadalah cara yang dipergunakan atau
prosedur sistematis untuk Endang Poerwanti (2006) prosedur yang ditempuh dalam
mengumpulkan informasi yang Jenis-jenis Assesment adalah proses pemberian pengukuran dan penilaian sehingga
dapat digunakan untuk membuat Jenis-jenis assesment angka atau usaha memperoleh dihasilkan skor yang
kesimpulan tentang karakteristik yang digunakan antara deskripsi numerik dari suatu menggambarkan tingkah laku atau
seseorang atau objek. lain sebagai berikut: tingkatan dimana seorang kemampuan individu.
a. Evaluasi Formatif siswa telah mencapai
Fungsi penilaian b.Evaluasi Sumatif karakteristik tertentu. Hasil Teknik tes
1. Penilaian Berfungsi Selektif c. Evaluasi Diagnostik penilaian dapat berupa nilai 1. Teknik tes adalah seperangkat
a. Untuk memilih siswa yang dapat d.Evaluasi penempatan kualitatif dan nilai kuantitatif. tugas yang harus dikerjakan oleh
diterima di sekolah tertentu. (placement) Pengukuran berhubungan orang yang dites, dan berdasarkan
b. Untuk memilih siswa yang dapat e. Evaluasi Seleksi dengan proses pencarian atau hasil menunaikan tugas-tugas
naik ke kelas atau tingkat penentuan nilai kuantitatif tersebut, akan dapat ditarik
berikutnya. tersebut. kesimpulan tentang aspek tertentu
c. Untuk memilih siswa yang g. Berdasarkan beberapa pada orang tersebut.
seharusnya mendapat beasiswa. definisi sebelumnya, maka a. Tes tertulis adalah tes yang
d. Untuk memilih siswa yang sudah dapat dikemukakan bahwa menuntut peserta tes memberi
berhak meninggalkan sekolah, pengukuran adalah proses jawaban secara tertulis berupa
dan sebagainya. pemberian angka atau uraian ataupun objektif.
2. Penilaian Berfungsi Diagnostic deskripsi numerik kepada 1) Tes uraian. Tes Tertulis Uraian
a. guru akan mengetahui individu. Hasil dari ada dua yaitu tes
22

kelemahan pengukuran adalah angka. Terbatas/tertutup/terstruktur dan
siswa. Jadi dengan mengadakan Oleh karena itu, dapat tes Bebas terbuka.
penilaian, sebenarnya guru dipahami bahwa pengukuran 2) Tes objektif berupa Pilihan
melakukan diagnosis kepada bersifat kuantitatif. Ganda; Benar–Salah;
siswa tentang kebaikan dan Menjodohkan; Isian singkat, Isian
kelemahannya. panjang, dan Isian klosur dengan
b. Menemukan kesulitan belajar cara Mengisi.
dan prestasi yang bisa b. Tes lisan adalah tes yang
dikembangkan serta sebagai alat dilaksanakan melalui komunikasi
diagnosis perlu tidak siswa langsung (tatap muka) antara
mengikuti remedial atau peserta didik dengan pendidik.
program pengayaan. Pertanyaan dan jawaban
c. Menemukan kelemahan dan diberikan secara lisan.
kekurangan proses pembelajaran c. Tes praktik (kinerja) adalah tes
yang telah dilakukan ataupun yang meminta peserta didik
yang sedang berlangsung. melakukan
3. Penilaian Berfungsi Sebagai perbuatan/mendemonstasikan/
Penempatan menampilkan keterampilan.
a. Penempatan disini lebih Teknik nontes dapat dilakukan
bersifat pada pengajaran dengan observasi baik secara
secara berkelompok. langsung ataupun tak langsung,
b. untuk dapat menentukan angket ataupun wawancara, skala
dengan pasti di kelompok sikap, daftar periksa (cek-lis),
mana seorang siswa harus kuisioner, catatan anekdotal,
ditempatkan. portofolio, catatan sekolah, jurnal,
c. Membantu peserta didik cuplikan kerja.
memahami dirinya dan
membuat keputusan tentang
langkah pemilihan program,
pengembangan kepribadian,
dan penjurusan.
4. Penilaian Berfungsi Sebagai
23

Pengukur Keberhasilan
a. mengetahui sejauh mana suatu
program berhasil diterapkan.
b. Menggambarkan sejauh mana
seorang peserta didik telah
menguasai suatu kompetensi.
Proses asesment
1. Penilaian Hasil Belajar oleh
Pendidik
Penilaian hasil belajar oleh pendidik
dilakukan secara berkesinambungan
untuk memantau proses, kemajuan,
perbaikan hasil dalam bentuk ulangan
harian, ulangan tengah semester,
ulangan akhir semester, dan ulangan
kenaikan kelas.
Satuan Pendidikan
Penilaian hasil belajar oleh satuan
pendidikan bertujuan menilai
pencapaian standar kompetensi lulusan
untuk semua mata pelajaran. Penilaian
hasil belajar ini berlaku untuk mata
pelajaran pada kelompok mata
pelajaran agama dan akhlak mulia,
kelompok mata pelajaran
kewarganegaraan dan kepribadian,
kelompok mata pelajaran estetika, dan
kelompok mata pelajaran jasmani,
olah raga, dan kesehatan.
24

Pemerintah
Penilaian hasil belajar oleh pemerintah
bertujuan untuk menilai pencapaian
kompetensi lulusan secara nasional.
Standar asesmen (NSES, 2003)

antara lain:
1. Menggunakan berbagai perangkat
dan strategi asasesmen untuk
mencapai tujuan-tujuan penting
pembelajaran yang diarahkan
dengan metode pembelajaran dan
kebutuhan siswa.
2. Menggunakan hasil-hasil multi
asesmen untuk mengarahkan dan
memodifikasi pengajaran,
lingkungan kelas, atau proses
asesmen.
3. Menggunakan hasil-hasil asesmen
sebagai wahana bagi siswa-siswa
untuk menganalisis pembelajaran
diri mereka, melakukan analisis
refleksi diri terhadap kerja
mereka.
Pergeseran penekanan asesment

dalam pendidikan fisika sebagai
berikut:
1. Hal yang dikurangi Hal yang
diutamakan.
25

2. Menilai yang mudah diukur
Menilai yang paling berharga.
3. Menilai pengetahuan yang
memiliki ciri yang jelas-Menilai
pengetahuan yang kaya dan
berstruktur baik.
4. Menilai pengetahuan yang
bersifat ilmiah-Menilai
pemahaman dan pemikiran
ilmiah.
5. Menilai untuk mempelajari apa
yang tidak dipahami siswa-
Menilai untuk mempelajari apa
yang dipahami siswa.
6. Hanya melakukan penilaian atas
pencapaian-Menilai pencapaian
dan peluang untuk belajar.
7. Penilaian akhir dilakukan oleh
guru Siswa terlibat dalam
penilaian yang sedang
berlangsung atas hasil kerjanya
dan hasil kerja temannya.
8. Pengembangan penilaian
eksternal hanya oleh ahli Guru
terlibat dalam pengembangan
penilaian eksternal.
(Sumber: Nuryani Y.
Rustaman)
26
B. Matriks Perbandingan Validitas, Reliabilitas, Bias, Standar Error
VALIDITAS RELIABILITAS BIAS STANDAR ERROR

Menurut beberapa ahli Ada beberapa pengertian dari Bias atau differential item Standar error atau Kesalahan
pengertian validitas adalah: reliabilitas yakni: functioning (DIF) adalah soal baku pengukuran menurut
a. KBBI (1966:1116) 1. Menurut Endang Kurniawan yang membedakan kelompok. teori tes klasik dinyatakan
menyatakan bahwa valid & Endah Mutaqimah (2009: DIF muncul ketika ada dua dengan kesalahan baku
adalah shahih, berlaku, dan 46), reliabilitas adalah kelompok seperti kelompok pengukuran (Standar Error of
menurut cara yang ketetapan atau keajegan suatu jenis kelamin, suku, atau Measurement/SEM). SEM
semestinya. tes apabila diteskan kepada kelompok usia memiliki pada teori tes klasik dihitung
b. Nunnaly (1972) subyek yang sama. peluang yang berbeda dalam dengan rumus berikut:
menyatakan bahwa validitas 2. Miller (2008: 67) menjawab soal.
senantiasa dikaitkan dengan menyebutkan bahwa
DIF bisa juga muncul Keterangan:
penelitian empiris dan reliabilitas (r) dinyatakan
dikarenakan perbedaan
pembuktiannya bergantung sebagai koefisien korelasi
pengetahuan, kemampuan, atau
kepada macam validitas (ukuran suatu hubungan) dari
keterampilan. Bila hal ini
yang digunakan. skala 0,00 (tidak terdapat
terjadi maka soal dikatakan
c. Anastasi (1988) hubungan) sampai 1 Besarnya SEM
telah bias terhadap kelompok
menyatakan bahwa validitas (hubungan positif yang tergantung pada indeks
tertentu.
adalah suatu tingkatan yang sempurna). kehandalan tes, semakin kecil
menyatakan bahwa suatu 3. Rachmat Sudarsono DIF terkadang dapat merusak nilai SEM, maka tes tersebut
alat ukur telah sesuai mengatakan reliabilitas hasil penilaian dan dikatakan semakin dapat diandalkan
27

dengan apa yang diukur. (reliability) suatu alat ukur sangat tidak adil karena atau reliabel.
d. Gronlund (1985) yang menunjukkan akurasi membedakan kelompok
menyatakan bahwa validitas dan ketepatan atau berdasarkan hasil atau nilai
berkaitan dengan hasil suatu konsistensi suatu alat ukur. yang diperoleh peserta tes.
alat ukur, menunjukkan
tingkatan, dan bersifat Untuk menentukan
khusus sesuai dengan tujuan reliabilitas tes dipakai rumus
pengukuran yang akan Kude Richarson KR 21 yang
dilakukan. dilakukan Suharsimi (2012: 117)
 n   M (n  M ) 
r11    1   ..(1)
1. Macam-Macam Validitas  n  1  nS 2 
Validitas dapat dikelompokkan NX 2  ( X ) 2
S2 
menjadi validitas logis dan N ( N  1) ..(2)
validitas empiris. Keterangan :
a. Validitas logis r11 : reliabilitas tes secara keseluruhan
N : jumlah butir soal
Istilah validitas logis M : rata-rata skor tes
mengandung kata logis yang N : jumlah pengikut tes
S2 : varians total
berasal dari kata logika yang
berarti penalaran.
1. Validitas isi sering juga
disebut validitas kurikulum
yang mengandung arti
28

bahwa suatu alat ukur
dipandang valid apabila Klasifikasi Indeks Reliabilitas
sesuai dengan isi kurikulum Soal
No Reliabilitas Klasifikasi
yang hendak diukur atau
menunjukkan suatu kondisi
1
0,80<r11  1,00 Sangat Tinggi
2
0,60<r11  0,80 Tinggi
sebuah instrumen yang 3

0,40<r11  0,60 Sedang
disusun berdasarkan isi

4
0,20<r11  0,40 Rendah
5
0,00<r11  0,20 Sangat rendah
materi pelajaran yang
dievaluasi.
Sumber: Slameto (1998: 215)
2. validitas konstruksi sebuah
instrumen yang berkaitan
dengan fenomena dan objek
yang abstrak, tetapi
gejalanya dapat diamati.
b. Validitas Empiris
Istilah validitas memuat kata
empiris yang artinya
pengalaman. Sebuah Instrumen
dapat dikatakan memiliki
validitas empiris apabila sudah
diuji dari pengalaman. Ada dua
29

macan validitas empiris yaitu:
1) Concurrent validity. Pada
validitas ini kriteria yang
digunakan sebagai
pembanding kondisi
instrumen yang sudah
tersedia di masa sekarang.
Predictive Validity yaitu
instrumen yang kondisinya
sesuai dengan kriteria yang
diramalkan akan terjadi di
waktu yang akan datang.
Rumus korelasi dengan

simpangan
Keterangan:
rxy: koefisien korelasi antara

variabel x dan variabel y, dua
variabel lain yang dikorelasikan
∑xy: jumlah perkalian antara x
dan y
30

2
x : kuadrat dari x
y2: kuadrat dari y
a. Rumus korelasi dengan

angka kasar
Keterangan:
rxy: koefisien korelasi antara

variabel x dan variabel y, dua
variabel lain yang dikorelasikan
∑xy: jumlah perkalian antara x
dan y
X2: kuadrat dari x
Y2: kuadrat dari y
N : jumlah
Tabel 8. Klasifikasi Koefisien
Korelasi
No Angka Makna
Korelasi
1 0,80<r11  1,00 Sangat Tinggi
2 0,60<r11  0,80 Tinggi
3 0,40<r11  0,60 Cukup
4 0,20<r11  0,40 Rendah
5 0,00<r11  0,20 Sangat rendah
Sumber:DimodifiksaiSurapranat
a (2005: 59)
31
DAFTAR PUSTAKA
Ana, Ratna Wulan. Pengertian Dan Esensi Konsep Evaluasi, Asesmen, Tes, Dan Pengukuran.
Tersedia online di
http://file.upi.edu/Direktori/SPS/PRODI.PENDIDIKAN_IPA/197404171999032-
ANA_RATNAWULAN/pengertian_asesmen.pdf. diakses pada 13 Februari 2016.
Frey, Barbara A., and Susan W. Alman. (2003). Formative Evaluation Through Online Focus
Groups, in Developing Faculty to use Technology, David G. Brown (ed.), Anker
Publishing Company: Bolton, MA
Kizlik, Bob. 2012. Measurement, Assessment, and Evaluation in Education. Online
http://www.adprima.com/measurement.htm (diakses tanggal 13 februari 2016)
Mardapi, Djemari. 2003. Desain Penilaian dan Pembelajaran Mahasiswa. Makalah Disajikan
dalam Lokakarya Sistem Penjaminan Mutu Proses Pembelajaran tanggal 19 Juni 2003 di
Universitas Gadjah Mada Yogyakarta
Sudiono, Anas. 2001. Pengantar Evaluasi Pendidikan. Jakarta: PT.Grafindo persada
Zainul, Asmawi dan Noehi Nasution. 2001. Penilaian Hasil Belajar. Jakarta: Departemen
Pendidikan Nasional
Suharsimi Arikunto,. 2002. Dasar-dasar Evaluasi Pendidikan (edisi Revisi). PT Bumi Aksara:
Jakarta.
Suharsimi, A & Jabar. 2004. Evaluasi Program Pendidikan. Jakarta: Bumi Aksara
Sutarman, Adi. 2013. Pengertian Pengukuran, Asesmen, Penilaian, dan Evaluasi. http://melajah-
online.blogspot.com/2013/09/pengertian-pengukuran-asesmen-penilaian.html.
Surapranata, Sumarna. 2005. Analisis validitas, Reliabilitas, dan Interpretasi Hasil Tes. Bandung:
Remaja Rosdakarya.

T1 Individu Evaluasi

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

T1 Individu Evaluasi

Diunggah oleh

Hak Cipta:

Format Tersedia

1

A. Penilaian, Asesmen, Pengukuran Dan Tes

2. Pengertian, Bentuk, Jenis, Proses dan Teknik Asesmen

Bentuk assesment yang digunakan antara lain sebagai berikut:

1) Penilaian Hasil Belajar oleh Pendidik

Standar asesmen (NSES, 2003) antara lain:

Tingkat Kesukaran Soal (p)

Daya Beda Soal (D)

Rumus untuk menghitung daya beda menurut Arikunto (2002) adalah:

No. Indeks Daya Beda Klasifikasi

kriteria daya pembeda:

Kualitas Pengecoh (Distraktor)

Kualitas pengecoh berdasar Indeks Pengecoh sebagai berikut:

Keterangan Kualitas Pengecoh

C. Bias dan Standar Error

2. Standart Error Measurement

A. Matrik Perbedaan Penilaian Assesmen, Pengukuran, dan Testing

PENILAIAN ASSESMENT PENGUKURAN TESTING

PENILAIAN ASSESMENT PENGUKURAN TESTING

PENILAIAN ASSESMENT PENGUKURAN TESTING

PENILAIAN ASSESMENT PENGUKURAN TESTING

PENILAIAN ASSESMENT PENGUKURAN TESTING

Standar asesmen (NSES, 2003)

Pergeseran penekanan asesment

PENILAIAN ASSESMENT PENGUKURAN TESTING

B. Matriks Perbandingan Validitas, Reliabilitas, Bias, Standar Error

VALIDITAS RELIABILITAS BIAS STANDAR ERROR

VALIDITAS RELIABILITAS BIAS STANDAR ERROR

VALIDITAS RELIABILITAS BIAS STANDAR ERROR

sebuah instrumen yang 3

disusun berdasarkan isi

VALIDITAS RELIABILITAS BIAS STANDAR ERROR

Rumus korelasi dengan

rxy: koefisien korelasi antara

VALIDITAS RELIABILITAS BIAS STANDAR ERROR

a. Rumus korelasi dengan

rxy: koefisien korelasi antara

Sudiono, Anas. 2001. Pengantar Evaluasi Pendidikan. Jakarta: PT.Grafindo persada

Anda mungkin juga menyukai