Anda di halaman 1dari 63

Validitas Alat Evaluasi By ishaq madeamin on Minggu, 05 Juni 2011

Salah satu komponen terpenting yang menentukan hasil dari pelaksanaan evaluasi adalah kualitas alat evaluasi yang digunakan. Baik digunakan dalam proses penelitian yang menggunakan metode kuantitatif maupun evaluasi dalam proses bukan dalam bentuk penelitian. Alat evaluasi yang digunakan dalam proses-proses yang disebutkan di atas (termasuk instrumen tes) dapat disebut berkualitas apabila memenuhi beberapa kriteria, diantaranya: 1. Validitas, 2. Reliabilitas, [baca 1 dan baca 2] 3. Objektivitas dan Kepraktisan [baca] Validitas Validitas memiliki pengertian valid, sahih, atau tepat. Suatu alat evaluasi dikatakan valid (sahih) jika alat evaluasi tersebut mampu mengevaluasi apa yang seharusnya dievaluasi. Atau, dengan kata lain alat evaluasi (instrumen) tersebut memiliki tingkat kevalidan apabila memiliki ketepatan dalam melakukan evaluasi. Bahasa sederhananya "alat evalusi atau instrumen-instrumen yang digunakan bertujuan untuk mengukur apa yang seharusnya di ukur." Dalam menganalisis tingkat validitas alat evaluasi (termasuk instrumen) tergantung jenis alat evaluasi yang digunakan. Misalkan alat evaluasi dalam bentuk buku siswa, LKS, dan sbg. maka lebih cocok diukur tingkat kesahihannya dengan menggunakan pendapat pakar atau jika alat

evalusi dalam bentuk tes lebih baik menggunakan validator siswa dalam hal ini dilakukan uji coba kepada siswa. Beberapa jenis validasi berdasarkan cara-cara melakukan pengukuran tingkat validitas sebuah alat evaluasi, yaitu validitas teoritik (validitas logika) dan validitas empirik (validitas kriterium). 1. Validitas Teoritik (Validitas Logika) Validitas teoritik atau validitas logika lebih menekankan pada tingkat ketepatan alat evaluasi ditinjaui dari isi (materi) alat evaluasi tersebut. Oleh karena itu validitas teoritik lebih tepat dilakukan dengan meminta pertimbangan para pakar. Tentunya pakar yang dimaksud adalah orang-orang yang memiliki keahliaan pada bisangnya. Misalnya mengukur validitas sebuah media pembelajaran komputer, maka pakar yang dimaksud adalah ahli yang berkecimpung pada dunia media pembelajaran baik dari segi pekerjaan atau keahlian berdasarkan gelar tingkat pendidikan. Berikut jenis-jenis validitas teoritik: o Validitas Isi Validitas isi berkenan dengan tingkat ketepatan alat evaluasi tersebut ditinjau dari segi materi. Suatu alat evaluasi dikatakan memiliki validitas isi jika mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang dievaluasi. o Validitas Konstruksi Validitas konstruksi berkenan dengan kesesuaian butir dengan tujuan pembelajaran khusus (atau indikator hasil belajar). Suatu alat evalusi dikatakan memiliki validitas konstruksi jika butir-butir pertanyaan atau pernyataan pada alat evaluasi tersebut mengukur tujuan pembelajaran khusus (atau indikator hasil belajar) yang telah ditetapkan Beberapa diantaranya yang diukur validitasnya dalam validitas teoritik adalah tujuan, isi materi, bahasan, dll. Beberapa format validitas (lembaran penilaian) untuk/dari validator biasanya digabungkan antara validitas isi maupun validitas konstruksi. 2. Validitas Empirik (Validitas Kriterium) Validitas empirik atau validitas kriterium adalah validitas yang bertujuan untuk mengukur ketepatan sebuah alat evalusi berdasarkan kriterium tertentu. Validitas kriterium lebih banyak menggunakan validator dari subjek walaupun tidak menutup kemungkinan menggunakan (validatornya) adalah ahli. Validitas kriterium juga memliki dua jenis, yaitu: o Validitas Banding Validitas banding disebut demikian jika alat evaluasi tersebut tepat mengukur dengan berdsarakan pengalaman.

Validitas Ramalan Validitas ramalan adalah validitas yang tepat mengukur dalam memprediksi kejadian di masa mendatang.

Jika proses pengumpulan data hasil penilaian validator maka selanjutnya adalah menganalisis hasil penilaian tersebut. Analisis tersebut dimaksudkan untuk menentukan korelasi antara skor yang dikumpulkan melalui alat evaluasi tersebut dengan skor yang telah ada atau melalui alat ukur lainnya, tentunya alat ukur yang telah dibakukan dan diasumsikan memiliki tingkat validitas yang tinggi. Beberapa jenis analisis yang dapat digunakan untuk menentukan koefisien validitasnya, antara lain: 1. Korelasi Product Moment Korelasi Product Moment, dengan persamaan: dengan Simpangan

Keterangan: rxy adalah koefisien korelasi antara variabel X dan variabel Y o x adalah selilih antara X dengan X rata-rata (x =X-Xrata-rata) o y adalah selilih antara X dengan X rata-rata (y =Y-Yrata-rata) 2. Korelasi Product Moment dengan Angka Korelasi Product Moment dengan Angka Kasar, dengan persamaan:
o

Kasar

Keterangan, N adalah banyaknya subjek 3. Korelasi Metode Korelasi Metode Ranking, dengan persamaan: Ranking

Keterangan: N adalah jumlah subjek dan d adalah selisih rangking antara X dan Y Hasil analisis data dalam menentukan koefisien validitasnya selanjutnya dicocokan dengan kriteria validitas dari alat evaluasi tersebut, yaitu: Koefisien validitas 0,80 - 1,00 0,60 - 0,80 0,40 - 0,60 0,20 - 0,40 0,00 - 0,20 < 0,00 Kriteria Sangat tinggi Tinggi Sedang Rendah Sangat rendah Tidak valid

Apakah dengan kriteria Sangat Rendah, Rendah, dan Sedang masuk pada kategori valid atau tidak?, Untuk menghindari rendahnya tingkat validitas terutama pada kategori valid Rendah dan Sangat Rendah atau berada pada koefisien validitas di bawah nilai 0,40 dikategorikan tidak valid hal ini bertujuan untuk mempertahankan tingkat kesahihan alat evaluasi tersebut, sedangkan pada koefisien validitas 0,40-0,60 (kriteria sedang) dikategorikan valid setelah sebelumnya diadakan revisi terhadap alat evaluasi tersebut.

Rabu, 07 Juli 2010 OBYEK, SUBYEK DAN ALAT-ALAT EVALUASI A. OBYEK EVALUASI PENDIDIKAN

Yang dimaksud dengan obyek atau sasaran evaluasi pendidikan adalah segala sesuatu yang bertalian dengan kegiatan atau proses pendidikan, yang dijadikan titik pusat perhatian atau pengamatan, karena pihak penilai (evaluator) ingin memperoleh informasi tentang kegiatan atau proses pendidikan tersebut (Anas Sudijono : 2003). Sedangkan Suharmi Arikunto menjelaskan Obyek atau sasaran Penilaian adalah segala sesuatu yng menjadi titik pusat pengamatan karena penilai ingin informasi tentang sesuatu tersebut.

Salah satu cara untuk mengenal atau mengetahui obyek dari evaluasi adalah dengan cara menyoroti dari tiga segi, yaitu dari segi Input, Transpormasi, dan Output. Dibawah ini akan diuraikan secara rinci tentang obyek dari evaluasi pendidikan.

1. Input Dalam dunia Pendidikan, khususnya dalam proses pembelajaran disekolah, input atau bahan mentah yang siapa untuk diolah, tidak lain adalah para calon peserta didik, seperti calon siswa, calon mahasiswa dan sebagainya. Dilihat dari segi input ini, maka obyek evaluasi pendidikan meliputi empat aspek, yaitu (1) kemampuan, (2) kepribadian, (3) sikap, dan (4) inteligensi.

a. Kemampuan Untuk dapat mengikuti program dalam suatu lembaga atau sekolah atau institusi, maka calon peserta didik harus memiliki kemampuan yang sesuai atau memadai, sehingga dalam mengikuti proses pembelajaran pada program pendidikan tertentu itu nantinya, peserta didik tidak akan mengalami banyak hambatan atau esulitan. Alat Ukur yang digunakan untuk mengukur kemapuan ini disebut tes kemampuan atau aptitude test (Anas Sudijono : 2003). b. Kepribadian Kepribadian adalah sesuatu yang terdapat pada diri seseorang manusia dan menampakan bentuk dalam tingkah laku. Sebelum mengikuti program pendidikan tertentu, para calon peserta didik perlu terlebih dahulu dievaluasi kepribadiannya masing-masing, sebab baik buruknya kepribadian mereka secara psikologis akan dapat mempengaruhi keberhasilan mereka dalam mengikuti program pendidikan tertentu. Alat untuk mengetahui kepribadian seseorang disebut tes kepribadian atau personality test.

c. Sikap Sebenarnya sikap ini merupakan bagian dari tingkah laku manusia sebagai gejala atau gambaran kepribadian yang memancar keluar. Namun karena sikap ini merupakan sesuatu yang paling menonjol dan sangat dibutuhkan dalam pergaulan, maka banyak orang yang mengiginkan informasi khusus tentangnya. Karena itu maka aspek sikap perlu dinilai atau dievaluasi terlebih dahulu bagi para calon tenaga pendidik sebelum mengikuti program pendidian tertentu. Untuk menilai sikap tersebut digunaan alat berupa tes sikap (attitude test), atau sering dikenal dengan skala sikap (attitude scale), sebabb test tersebut berbentuk skala. d. Inteligensi Untuk megetahui tingkat inteligensi ini menggunakan tes inteligensi yang sudah banyak diciptakan oleh para ahli. Dalam hal ini yang terkenal adalah tes buatan Binet dan Simon yang dikenal dengan test Binet-Simon. Selain itu ada juga tes lainya seperti SPM, Tintum dan sebagainya. Dari hasil tes akan diketahui IQ (inteligensi Quotien) orang tersebut. IQ bukanlah inteligensi. IQ berbeda dengan inteligensi karena IQ hanyalah angka yang memberikan petunjuk tinggi rendahnya inteligensi seseorang. 2. Transpormasi Apabila disoroti dari segi transpormasi, maka obyek dari evaluasi pendidikan itu meliputi: a. Kurikulum atau materi pelajaran b. Metode mengajar atau teknik penilaian c. Sarana atau media pendidikan d. Sistem administrasi e. Guru atau unsure-unsur personal lainnya yang terlibat dalam proses pendidikan. Transpormasi dapat di ibaratkan sebagai mesin pengolah yang bertugas untuk mengubah bahan mentah menjadi bahan jadi, aan memegang peranan yang sangat penting. Ia dapat menjadi faktor penentu yang dapat menyebabkan keberhasilan atau kegagalan dalam upaya pencapaian tujuan pendidikan yang telah ditentukan, karena itu obyek-obyek yang termasuk dalam transformasi itu perlu dinilai atau dievaluasi secara berkesinambungan. Kurikulum yang tidak sejalan dengan tujuan pendidikan yang ingin dicapai, dapat menyebabkan terjadinya kegagalan dalam pencapaian tujuan pendidikan tersebut. Penggunaan metode-metode mengajar yang kurang tepat, teknik penilaian yang tidak memperhatikan memperhatikan prinsip-prinsip dasar evaluasi itu sendiri, sarana pendidikan yang tidak atau kurang memadai, sistim administrasi yang bersifat acak-acakan, pimpinan lembaga pedidikan, tenaga pengajar atau karyawan yang tidak professional, semua itu akan sangat mempengaruhi proses pengolahan bahan mentah menjadi bahan jadi yang siap untuk dipakai.

3. Output Adapun yang dari segi output yang menjadi sasaran evaluasi pendidikan adalah tingkat pencapaian atau prestasi belajar yang behasil diraih oleh masing-masing peserta didik, setelah mereka terlibat dalam proses pendidikan selama jangka waktu yang telah ditentukkan. Untuk mengetahui seberapa jauh tingkat pencapaian atau prestasi belajar yang diraih oleh peserta didik itu, digunakan alat yang berupa Test Prestasi Belajar atau Test Hasil Belajar, yang biasa dikenal dengan istilah tes pencapaian (achievement test). B. SUBYEK EVALUASI PENDIDIKAN Subyek atau pelaku evaluasi pendidikan adalah orang yang melakuakan pekerjaan evaluasi dalam bidang pendidikan. Dalam kegiatan evaluasi pendidikan dimana sasaran evaluasinya adalah prestasi belajar, maka subyek evaluasinya adalah guru atau dosen yang mengasuh mata pelajaran tertentu. Jika evaluasi yang dilakuakn tersebut sasarannya adalah sikap peserta didik, maka subyek evaluasinya adalah guru atau petugas yang sebelum melaksanakan evaluasi tentang sikap itu, terlebih dahulu telah memperoleh pendidikan atau latihan (training) mengenai cara-cara menilai sikap seseorang.adapun apabila yang dievaluasi adalah kepribadian peserta didik, dimana pengukuran tentang kepribadian itu dilakukan dengan instrument berupa tes yang sifatnya baku (standardized test), maka subbyek evaluasinya tidak bias lain kecuali seorang psikolog; yaitu seorang yang memang telah dididik untuk menjadi tenaga ahli yang professional dibidang psikolog. Hal ini disebabkan oleh kenyataan bahwa disamping alat-alat evaluasi yang digunakan untuk mengukur kepribadian seseorang itu sifatnya rahasia, juga hasilhasil pengukuran yang diperoleh dari tes kepribadian itu, hanya dapat diiinterpretasikan dan disimpulkan oleh para psikolog tersebut, tidak mungkin dapat dikerjakan oleh orang lain. C. ALAT-ALAT EVALUASI Secara gasir besar, maka alat-alat evaluasi yang digunakan dapat digolongkan menjadi dua macam, yaitu tes dan non tes. Dibawah ini akan dijelaskan secara rinci macam-macam tes dan non tes 1. Teknik Test Dibawah ini ada beberapa pendapat dari para ahli mengenai pengertian tes. a. Dalam bukunya Evaluasi Pendidikan, Drs. Amin Daien Indrakusuma mengatakan bahwa tes adalah suatu alat atau prosedur yang sistematis dan obyektif untuk memperoleh data-data atau keterangan-keterangan yang diinginkan tentang seseorang, dengan cara yang boleh dikatakan tepat dan cepat. b. Dalam bukunya Teknik-teknik Evaluasi, mucthar Bukhori mengatakan tes ialah suatu percobaan yang diadakan untuk mengetahui ada atau tidaknya hasil-hasil pelajaran tertentu pada seseorang murid atau kelompok murid.

c. Dalam buku Encyclopedia of Educational Evaluation, Scarvia B. Anderson mengatakan Test is comprehensive assessment of an individual or to an antire program evaluation effort (tes adalah penilaian yang kompherensif-terhadap seorang individu atau keseluruhan usaha evaluasi program. Test berfungsi untuk mengukur siswa dan untuk mengukur keberhasilan program pengajaran. Tes hasil belajar dibedakan atas beberapa jenis. Dan pembagian jenis-jenis tes ini dapat ditinjau dari beberapa sudut pandang. Berdasarkan atas jumlah peserta atau pengikut tes, maka tes dibedakan atas dua jenis, yaitu: 1) Tes individual 2) Tes kelompok Ditinjau dari 1) Tes buatan guru segi penyusunannya, tes dibedakan atas tiga jenis yaitu:

2) Tes buatan orang lain yang tidak distandarisasi 3) Tes standar atau tes yang sudah distandarisasi Ditinjau dari bentuk pertanyan yang diberikan tes dapat dibedakan atas dua jenis, yaitu: 1) Tes subjektif Tes ini sering pula diartikan sebagai tes essay yaitu tes hasil belajar yang terdiri dari suatu pertanyaan atau suruhan yang menghendaki jawaban yang bersifat uraian dan atau penjelasan. Secara umum tes uraian ini adalah pertanyaan yang menuntut siswa menjawabnya dalam bentuk menguraikan, penjelasan, mendiskusikan, membandingkan, memberi alasan, dan bentuk lain sejenis sesuai dengan tuntutan pertanyaan dengan menggunakan kata-kata dan bahasa sendiri. Dengan demikian, dalam tes ini dituntut kemampuan siswa dalam mengekspresikan gagasannya melalui bahasa tulisan. Kebaikan tes essay Dapat untuk mengukur hasil belajar yang kompleks antara lain : a. Aplikasi Prinsip b. Interpretasi hubungan c. Mangenal dan menyatakan informasi d. Mengenal relevansi dari suatu informasi

e. Merumuskan dan mengenal hipotesis f. Merumuskan dan mengenal kesimpulan yang sahih g. Mengindentifikasi asumsi yang mendasarkan suatu kesimpulan Kelemahan tes essay a. Reliabilitas rendah b. Perlu banyak waktu c. Jawaban erkadang seenaknya dan juga banyak membaca sehingga mubazir d. Jawaban peserta tes tidak mampu mewakili aspek tingkah laku atau sikap sebagai hasil belajar Penggunaan tes essay yang tepat : 1. Jumlah siswa relative sedikit 2. Jika waktu/ kesempatan untuk memprsiapkan soal-soal terbatas / sanggat mendesak 3. Jika mengiginkan informasi tentang sikap, nilai atau pendapat dari peserta tes 4. Jika ingin memperoleh pengalaman belajar dari siswa 2) Tes obyektif Maksudnya adalah adalah tes yang dalam pemeriksaannya dapat dilakukan secara objektif. Hal ini memang dimaksudkan untuk mengatsi kelemahan-kelemahan dari tes bentuk essay. Dalam penggunaan tes- objektif ini jumlah soal yang diajukan jauh lebih banyak dari pada tes essay. Tes objektif disebut juga dengan istilah short answer test atau new type test. Yang terdiri dari item-item yang dapat dijawab dengan cara memilih diantara alternatif jawaban yang dianggap benar dan paling benar. Tes obyektif ada beberapa jenis, yaitu: True-False (benar Salah) Multiple choice (pilihan ganda) Matching (mencocokan) Completion (penyelesaian) Kebaikan tes obyektif

a. Tes obyektif item-item yang dapat dijawab dengan memilih alternative-alternatif yang telah tersedia, maka tes obyektif dapat dijawab dengan cepat. b. Reliabilitas skor yang diberikan terhadap perkerjaan anak-anak dapat dijamin sepenuhnya. c. Dapat dikoreksi dengan cepat, dengan kunci jawaban yang sudah ada. Kelemahan tes obyektif a. Siswa akan menerka-nerka dalam menjawab soal. b. Di butuhkan biaya yang cukup besar untuk mencetak atau menstensil tes tersebut

Ditinjau untuk mengukur siswa, maka dibedakan atas tiga macam test, yaitu : 1) Tes Diagnostik Tes Diagnostik adalah tes yang digunakan untuk mengetahui kelemahan-kelemahan siswa sehingga berdasarkan kelemahan-kelemahan tersebut dapat dilakukan pemberian perlakuan yang tepat. 2) Tes Formatif Dari kata from yang merupakan dasar dari istilah foematif maka evaluasi formatif dimaksudkan untuk mengetahui sejauh mana siswa telah terbentu setelah mengikuti sesuatu program tertentu. Dalam kedudukannya seperti ini tes formatif dapat juga dipandang sebagai tes diagnostik pada akhir pelajaran. Evaluasi formatif mempunyai manfaat baik bagi siswa, guru, maupun bagi program itu sendiri. a) Manfaat bagi siswa Untuk mengetahui apakah siswa sudah menguasai bahan program secara menyeluruh. Merupakan penguatan (reinforcement) bagi siswa. Usaha perbaikan. Sebagai diagnose.

b) Manfaat bagi guru Mengetahui sejauh mana bahan yang diajarkan sudah dapat diterima oleh siswa. Mengetahui bagian mana dari bahan pelajaran yang belum pelajaran yang belum menjadi milik siswa. Dapat meramalkan sukses atau tidaknya seluruh program yang akn diketahui. c) Manfaat bagi program itu

Setelah diadakan test formatif maka diperoleh hasil. Dari hasil tersebut dapat diketahui. Apakah program yang diberikan merupakan program yang tepat dalam arti sesuai dengan kecakapan anak. Apakah program tersebut membutuhkan pengetahuan-pengetahuan prasyarat yang belum diperhitungkan. Apakah diperlukan alat, sarana dan prasarana untuk mempertinggi hasil yang akan dicapai. Apakah metode, pendekatan dan alat evaluasi yang digunakan sudah tepat.

3) Tes Sumatif Evaluasi sumatif atau tes sumatif merupakan tes yang dilaksanakan setelah berakhirnya sekelompok program atau sebuah program yang lebih besar. Manfaat test sumatif, ialah: Untuk menentukan nilai. Untuk menentukan seorang anak dapat atau tidaknya mengikuti kelompok dalam menerima program berikutnya.

Ditinjau jenis tes hasil belajar dari segi bentuk jawaban atau bentuk respon, maka tes hasil belajar dibedakan atas dua jenis yaitu ; 2. Tes tidakan, yaitu apabila jawaban atau respon yang diberikan oleh anak itu berbentuk tingkah laku. 3. Tes verbal, yaitu apabila jawaban atau respon yang diberikan oleh anak berbentuk bahasa lisan maupun bahasa tulisan. Sebuah tes yang dapat dikatakan baik sebagai alat pengukur harus memilki persyaratan tes, yaitu memiliki: 1) Validitas Sebuah tes disebut valid apabila tes tersebut dapat tepat mengukur apa yang hendak diukur. Contoh, untuk mengukur partisipasi siswa dalam proses belajar mengajar, bukan diukur melalui nilai yang diperoleh pada waktu ulangan, tetapi dilihat melalui: kehadiran, terpusatnya perhatian pada pelajaran, ketepatan menjawab pertanyaan-pertanyaan yang diajukan oleh guru dalam arti relevan pada permasalahannya. 2) Reliabilitas Berasal dari kata asal reliable yang artinya dapat dipercaya. Tes dapat dikatakan dapat dipercaya jika memberikan hasil yang tetap apabila diteskan berkali-kali. Sebuah tes dikatakan reliabel

apabila hasil-hasil tes tersebut menunjukan ketetapan. Jika dihubungkan dengan validitas, maka: Validitas adalah ketepatan dan reliabilitas adalah ketetapan. 3) Objektivitas Sebuah dikatakan memiliki objektivitas apabila dalam melaksanakan tes itu tidak ada faktor subjektif yang mempengaruhi. hal ini terutama terjadipada sistem scoringnya. Apabila dikaitkan dengan reliabilitas maka objektivitas menekankan ketetapan pada sistem scoringnya, sedangkan reliabilitas menekankan ketetapan dalam hasil tes. 4) Prakitikabilitas Sebuah tes dikatakan memiliki praktibilitas yang tinggi apabila tes tersebut bersifat praktis dan mudah pengadministrasiannya. tes yang baik adalah yang: mudah dilaksanakan, mudah pemeriksaannya, dan dilengkapi dengan petunjuk-petunjuk yang jelas. 5) Ekonomis Yang dimaksud ekonomis disini ialah bahwa pelaksanaan tes tersebut tidak membutuhkan ongkos atau biaya yang mahal, tenaga yang banyak, dan waktu yang lama. 2. Teknik Non Tes Yang tergolong teknik non tes adalah: Skala bertingkat (rating scala) Kuesioner (questioner) Daftar cocok (check-list) Wawancara (interview) Pengamatan (observation) Riwayat hidup

Dibawah ini akan diuraikan secara rinci macam-macam teknik non test. a. Skala bertingkat (rating scala) Skala menggambaran suatu nilai yang berbentuk angka terhadap suatu hasil pertimbangan. Seperti Oppenheim mengatakan Rating gives a numerical value to some kind of judgement, maka suatu skala selalu disajikan dalam bentuk angka. Atau dengan kata lain yang dimaksud dengan skala bertingkat atau rating scala adalah tes yang digunakan untuk mengukur kemampuan anak didik berdasarkan tingkat tinggi rendahnya penguasaan dan penghayatan pembelajaran yang telah diberikan b. Kuesioner (questioner)

Kuesioner (questioner) juga sering dikenal sebagai angket. Pada dasarnya, kuesioner adalah sebuah daftar pertanyaan yang harus diisi oleh orang yang akan diukur (responden. Dengan kuesioner ini ini orang dapat diketahui tentang keadaan/data diri, pengalaman, pengetahuan, sikap atau pendapatnya dan lain-lain. Kuesioner dapat dibagi menjadi beberapa macam yang dapat dilihat dari beberapa segi,, yaitu: 1) Ditinjau dari segi siapa yang menjawab Kuesioner langsung adalah kuesioner yang dijawab langsung oleh orang yang diminta jawabannya. Kuesioner tidak langsung adalah kuesioner tidak langsung dijawab oleh secara tidak langsung oleh orang yang dekat dan mengetahui si penjawab seperti contoh, apabila yang hendak dimintai jawaban adalah seseorang yang buta huruf maka- dapat dibantu oleh anak, tetangga atau anggota keluarganya. 2) Ditinjau dari segi cara menjawab Kuesioner terbuka adalah daftar pertanyaan dimana si penjawab diperkenankan memberikan jawaban dan pendapat nya secara terperinci sesuai dengan apa yang ia ketahui. Kuesioner tertutup adalah daftar pertanyaan yang memiliki dua atau lebih jawaban dan si penjawab hanya memberikan tanda silang (X) atau cek () pada awaban yang ia anggap sesuai. c. Daftar cocok (check-list) Daftar cocok adalah suatu tes yang berbentuk daftar pertanyaan yang akan dijawab dengan membubuhkan tad cocok (x) pada kolom yang telah disediakan. d. Wawancara (interview) Wawancara adalah semua proses tanya jawab lisan, dimana dua orang atau lebih berhadaphadapan secara fisik, yang satu dapat melihat muka yang lain, mendengar dengan telinganya sendiri suaranya. e. Pengamatan (observation) Pengamatan adalah teknik evaluasi yang dilakukan dengan cara meneliti secara cermat dan sistematis. Dengan menggunakan alat indra dapat dilakukan pengamatan terhadap aspek-aspek tingkah laku siswa disekolah. Oleh karena pengamatan ini bersifat langsung mengenai aspekaspek pribadi siswa, maka pengamtan memiliki sifat kelebihan dari alat non tes lainnya. Pengamatan atau observasi terdiri dari 3 macam yaitu : 1) observasi partisipan yaitu pengamat terlibat dalam kegiatan kelompok yang diamati. 2) Observasi sistematik, pengamat tidak terlibat dalam kelompok yang diamati.

3) Observasi eksperimental, pengamat tidak berpartisipasi dalam kelompok. f. Riwayat hidup Riwayat hidup adalah salah satu tehnik non tes dengan menggunakan data pribadi seseorang sebagai bahan informasi penelitian. Dengan mempelajari riwayat hidup maka subjek evaluasi akan dpat menarik suatu kesimpulan tentang kepribadian, kebiasaan dan sikap dari objek yang dinilai.

PROSEDUR PENYUSUNAN HASIL BELAJAR Posted on 30 Juni 2008 by Abdul Majid 1. Langkah-Langkah dalam Penyusunan Tes Hasil Belajar Adapun beberapa Langkah-langkah dalam penyusunan tes hasil belajar adalah : 1. mendefinisikan tujuan-tujuan pembelajaran dan lingkup bahan ajar yang mestinya diungkap 2. menyusun kisi-kisi 3. membuat atau menulis soal sekaligus dengan kunci jawaban. Mengadakan pemeriksaan terhaadap butir soal secara rasional. 4. mengorganisasikan tes menurut tipe-tipe soal yang dibuat. 5. membuat petunjuk pengerjaan soal. 6. mengadakan uji coba (try out) 7. merevisi soal 8. mengorganisasikan kembali soal dalam bentuk final 9. memperbanyak soal 2. Jenis Tes Hasil Belajar Secara garis besar terdapat tiga jenis hasil belajar yakni : tes tertulis, tes lisan dan tes tindakan. Dalam tes tertulis ada dua perangkat alat yang harus disediakan yakni lembar soal yang sudah lengkap dengan petunjuk pegerjaannya dan lembar jawaban yang akan diisi oleh siswa. Sedangakan didalalam tes lisan dilakukan dalam suatu komunikasi langsung antara tester dan testi. Pada tes ini tester mengajukan persoalan secara lisan dan testi harus menjawab pertanyaan-pertanyaan secara lisan pula. Perangkat yang digunakan adalah pokok-pokok pertanyaan yang akan diajukan dan pedoman penyekoran jawaban. Berdeda dengan kedua tes diatas, isi uji dalam tes tindakan tidak disajikan dalam bentuk pertannyaan melainkan dalam bentuk tugas. Dalam hal ini testi melakukan suatu kegiatan berdasarkan intruksi atau petunjuk tertentu dan tester mengamati keterampilan testi dalam menyelesaikan tugas tersebut. Hal yang harus disiapkan disini adalah petunjuk atau intruksi tentang kegiatan yang harus dilakukan, dan perlengkapan atau alat-alat praktek yang diperlukan, serta pedoman pengamatan (pedoman penilaian). Lazimnya tes tindakan ini disebut ujian praktek. Pemiihan jenis-jenis ts yang harus digunakan tergantung pada banyak factor yang perlu dipertimbangkan: Pertama : pertimbangan terhadap aspek perilaku atau bahan ajar yang akan diungkap.

Kedua : pertimbangan terhadapa waktu yang tersedia. Ketiga : pertimbangan jumblah peserta tes. Keempat : pertimbangan terhadap kelengkapan fasilitas yang dibutuhkan. 3. Penyusunan Tes Hasil Belajar a. Peryusunan Tes Tertulis Pada dasarnya ada dua bentuk soal tes tertulis yang lazim kita gunakan yakni: tes uraian dan tes objektif. 1. Tes Uraian Tes uraian merupakan suatu bentuk soal yang harus dijawab atau dipecahkan oleh testi dengan cara mengemukan pendapat secara terurai. Dalam tes ini memungkinkan timbulnya variasi dalam jawaban yang diberikan oleh testi (siswa) karena jawaban yang diberikan bersifat subjektif. Tes uraian biasanya digunakan untuk mengukur kemampuan kognitif yang relative tinggi dan kompleks. Adapun keunggulan dan kelemahan tes uraian yaitu: Keunggulan : a. Dapat mengungkap aspek-aspek pengetahuan atau perilaku yang kompleks secara leluasa b. Menuntut siswa untuk mengintegrasikan pengetahuan dalam menjawab persoalan c. Menunutut kreatifitas siswa untuk mengorganisasikan sendiri jawabannya. d. Dapat melihat jalan pikiran siswa dalam menjawab persoalan. e. Tidak memberi kesempatan kepada siswa untuk menebak jawaban. Kelemahan: a. Ruang lingkup yang diungkap sangat terbatas. b. Memungkinkan timbulnya keragaman dalam memberikan jawaban sehingga tidak ada rumusan benar yang pasti. c. Lebih memberikan peluang untuk bersifat subjektif d. Proses penyekoran sering terganggu oeh factor-faktor lain diluar maksut pengukuran, misalnya keindahan dan kerapian tulisan. 2. Tes Objektif

Berbeda dengan tes uraian, tugas-tugas dan persoalan-pesoalan dalam tes objektif sudah terstruktur, sehingga jawaban terhadap soal-soal tersebut sudah dapat ditentukan secara pasti. Adapun keunggulan-keunggulan dan kelemahan-kelemahan tes objektif adalah : Keunggulan : a. Waktu yang dibutuhkan relative lebih singkat b. Panjang pendeknya suatu tes (banyak sedikitnya butir soal) bisa berpengaruh terhadap kadar reliabilitas c. Proses pensekoran dapat dilakukan secara mudah karena kunci jawaban dapat dibuat secara pasti d. Proses penilaian dapat dilakukan secara objektif karena kunci jawaban sudah dapat ditentukan secara pasti. Kelemahan : a. Terdapat kemungkinan untuk dapat menebak jawaban dengan tepat. Tidak dapat mengetahui jalan pikiran testi dalam menjawab suatu pesoalan. b. Membatasi kreativitas siswa dalam menyusun jawaban sendiri. c. Bahan ajar yang diungkap dengan ts objektif, pada umumnya lebih terbatas pada hal-hal yang factual. b. Penyusunan Tes Lisan Pada dasarnya tes lisan sama dengan tes uraian, perbedaannya terletak pada pelaksanaannya. Tes lisan dilakukan dalam suatu komunikasi langsung antara tester dan testi. Tes lisan digunakan untuk mengevaluasi hasil belajar berupa kemampuan untuk mengemukakan pendapat-pendapat atau gagasan-gagasan secara lisan. Jika bahan ajar yang diajukan sama maka ideal sekali kalau siswa mendapat perangkat soal yang sama, tetapi hal ini sulit untuk dilakukan secara serempak terhadap semua testi oleh tester yang sama. Adapun keunggulan-keunggulan dan kelemahan dari tes lisan adalah : Keunggulan : a. 1. Mengukur kemampuan berpikir taraf tinggi secara lebih leluasa. 2. Memungkinkan untuk melakukan pengecekan 3. Tak ada kesempatan untuk menyontek

Kelemahan : 1. 2. 3. 4. 5. Lebih memungkinkan untuk terjadinya ketidakadilan Memungkinkan penguji untuk menyimpang dari lingkup bahan ajar yang diujikan Membutuhkan waktu yang relative lebih lama Memerlukan banyak format intrumen Peluang subjektivitas dalam penilaian lebih terbuka.

c. Penyusunan Tes Tindakan Tes tindakan dimaksutkan untuk mengukur keterampilan siswa dalam melakukan suatu kegiatan. Dalam tes tindakan persoalan disajikan dalam bentuk tugas yang harus dikerjakan oleh testi. Pada intinya ada dua unsur yang yang bisa dijadikan bahan penilaian dalam tes tidakan yaitu: proses dan produk. Adapun keunggulan dan kelemahan dari tes tindakan ini adalah : Keunggulan : 1. Cocok untuk mengukur aspek perilaku psikomotor 2. Dapat digunakan untuk mengecek kesesuaian antara pengetahuan, teori, dan keterampilan mempraktekkannya. 3. Tak ada kesempatan untuk menyontek Kelemahan : 1. Lebih sulitdalam mengadakan pengukuran 2. Memerlukan biaya yang relative lebih besar 3. Memerlukan waktu yang relatif

Menganalisis Hasil Test Posted on 20 Juni 2008 by Masyhuri Arifin MENGANALISIS HASIL TES 1. Menilai tes yang dibuat sendiri Guru yang sudah banyak berpengalaman, mengajar dan menyusun soal-soal tes, juga masih sukar menyadari bahwa tesnya masih belum sempurna. Oleh karena itu cara yang paling baik adalah secara jujur melihat hasil yang diperoleh oleh siswa. Ada 4 cara untuk menilai tes, yaitu: a. Meneliti secara jujur soal-soal yang sudah disusun, kadang-kadang dapat diperoleh jawaban tentang ketidak jelasan perintah atau bahasa, taraf kesukaran, dan lain-lain keadaan soal tersebut. Pertanyaan-pertanyaan tersebut antara lain: 1) Apakah banyaknya soal untuk tiap topik sudah seimbang ? 2) Apakah semua soal menanyakan bahan yang telah diajarkan ? 3) Apakah soal yang kita susun tidak merupakan pertanyaan yang membingungkan (dapat disalah tafsirkan) ? 4) Apakah soal itu tidak sukar untuk dimengerti ? 5) Apakah soal itu dapat dikerjakan oleh sebagian besar siswa ? b. Mengadakan analisis soal (item analysis). Analisis soal adalah suatu prosedur Yang sistematis, yang akan memberikan informasi-informasi yang sangat khusus terhadap butir tes yang kita susun. Faedah mengadakan analisis soal: 1) Membantu kita dalam mengidentifikasi butir-butir soal yang jelek. 2) Memperoleh informasi yang akan dapat digunakan untuk menyempurnakan soal-soal untuk kepentingan lebih lanjut. 3) Memperoleh gambaran secara selintas tentang keadaan yang kita susun. c. Mengadakan checking validitas. Validitas yang paling penting dari tes buatan Guru adalah validitas kurikuler. d. Mengadakan checking reliabilita. Salah satu indikator untuk tes yang

Mempunyai realibilitas yang tinggi adalah bahwa kebanyakan dari soal-soal tes itu mempunyai daya pembeda yang tinggi. 2. Analisis Butir Soal (Item Analysis) Tiga masalah yang berkaitan dengan analisis soal, yaitu : a. Taraf kesukaran Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi usaha memecahkannya. Sabaliknya soal yang terlalu sukar akan menyebabkan siswa menjadi putus asa dan tidak mempunyai semangat untuk mencoba lagi karena di luar jangkauannya. Bilangan yang menunjukkan sukar dan mudahnya sesuatu soal disebut indeks kesukaran (difficulty index) dengan simbol P proporsi. Besarnya indeks kesukaran antara 0,00 sampai dengan 1,0. Indeks kesukaran menunjukkan taraf kesukaran soal. Soal dengan indeks kesukaran 0,0 menunjukkan bahwa soal itu terlalu sukar, sebaliknya indeks 1,0 menunjukkan bahwa soalnya terlalu mudah. Rumus mencari P adalah : Dimana P = indeks kesukaran B = banyaknya siswa yang menjawab soal itu dengan betul JS = Jumlah seluruh siswa peserta tes Latihan : Ada 20 orang dengan nama kode A s.d. T yang mengajarkan tes yang terdiri dari 20 soal. Jawaban tesnya dianalisis dan jawaban tertera seperti berikut ini. (1 = jawaban betul; 0 = jawaban salah) SISWA Nomor Soal Skor Siswa 1 A B C 2 3 4 5 6 7 8 9 10 11 1 1 0 0 1 0 1 1 0 1 0 1 0 0 1 0 1 1 0 0 1 1 0 0 1 1 1 1 0 1 12 13 14 15 1 0 1 0 1 1 1 1 1 0 0 1 1 0 1 16 17 18 19 1 1 1 0 1 0 0 1 1 1 1 0 1 1 1 20 13 11 14 :

D 0 1 0 0 1 1 0 1 0 0 0 1 1 1 E 1 1 0 0 1 0 1 1 0 1 1 1 1 1 F 0 0 0 1 1 1 0 1 0 0 1 1 1 0 G 1 0 0 1 0 0 1 1 0 1 0 1 1 1 H 0 0 0 1 0 0 1 1 0 0 0 1 1 0 I 1 1 1 1 1 0 1 1 0 1 0 1 1 0 J 0 1 1 1 1 0 1 1 0 0 1 1 1 1 K 1 1 0 0 0 0 1 1 0 1 0 1 1 0 L 0 0 1 0 0 1 0 0 0 0 0 0 1 0 M 1 0 0 0 1 0 1 1 1 1 1 1 1 0 N 0 1 1 0 1 1 1 1 0 1 1 1 1 1 O 1 1 0 0 1 0 1 0 1 0 0 1 1 0 P 0 1 0 1 1 1 1 0 0 0 0 1 1 1 Q 1 0 0 0 0 0 0 1 0 1 1 1 1 0 R 0 1 0 1 1 0 1 1 0 1 1 1 1 0 S 1 1 0 1 1 0 1 1 1 0 0 1 1 1 T 0 1 0 1 1 0 1 1 0 0 0 1 1 1 JUMLAH 10 14 4 9 15 6 18 17 3 11 10 18 20 10 9 7 10 14 13 13 Contoh penggunaan

0 0 0 1 1 0 0 0 0 1 1 1 0 0 0 1 0

0 1 0 1 0 1 1 1 0 0 0 0 0 0 0 0 0

0 1 1 1 1 1 0 1 1 1 1 1 0 0 0 1 0

1 1 0 0 0 0 1 0 0 1 1 1 0 1 1 1 1

1 1 0 1 1 1 1 1 0 0 1 1 1 1 0 0 0

0 0 0 1 1 0 0 0 0 1 1 0 1 1 1 1 1

9 14 8 13 9 17 13 10 4 13 16 12 10 9 11 14 10

Misalnya jumlah siswa peserta tes dalam suatu kelas ada 40 orang. Dari 40 orang siwa tersebut 12 orang yanh dapat mengerjakan soal nomor 1 dengan betul. Maka indeks kesukarannya adalah : Dari tabel yang disajikan tersebut, dapat ditafsirkan bahwa: Soal nomor 1 mempunyai taraf kesukaran - Soal nomor 9 adalah soal yang tersukar karena hanya dapat dijawab betul oleh 2 orang Indeks kesukaran sering Soal dengan P 1,00 sampai Soal dengan P 0,30 sampai - Soal dengan P 0,70 sampai 1,00 adalah soal mudah b. Daya Pembeda Daya pembeda soal adalah kemampuan sesuatu soal untuk membedakan antara siswa yang pandai (berkemampuan tinggi) dengan siswa yang bodoh (berkemampuan rendah). Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi (D). Kisaran indeks diskriminasi antara 0,00 sampai 1,00. Tetapi indeks kesukaran tidak mengenal tanda (-), diklasifikasikan 0,30 adalah soal 0,70 adalah soal sbb: sukar sedang

dan indeks diskriminasi ada tanda negatif.Tanda negatif ini digunakan jika suatu soal terbalik menunjukkan kualitas testee.Yaitu anak pandai disebut bodoh dan anak bodoh disebut pandai. Ada tiga titik daya pembeda yaitu: -1,00 0,00 1,00 Daya pembeda Negatif rendah (positif) daya pembeda daya pembeda tinggi

Cara menentukan daya pembeda ( nilai D) Untuk ini perlu dibedakan antara kelompok kecil (kurang dari 100) dan kelompok besar (100 orang ke atas). a). Untuk kelompok kecil Seluruh kelompok testee dibagi dua sama besar, 50 % kelompok atas dan 50 % kelompok bawah. Kemudian seluruh pengikut tes ,dideretkan mulai dari skor teratas sampai terbawah, lalu dibagi 2. b). Untuk kelompok besar Untuk kelompok besar biasanya hanya diambil kedua kutubnya saja yaitu 27 % skor teratas sebagai kelompok atas (JA) dan 27 % skor terbawah sebagai terbawah (JB). Rumus Mencari D (Indeks diskriminasi) adalah : Keterangan J = Jumlah peserta tes JA = banyaknya peserta kelomppok atas JB = banyaknya peserta kelompok bawah BA = banyaknya peserta kelompok atas yang menjawab soal itu dengan benar BB = banyaknya peserta kelompok bawah yang menjawab soal itu dengan benar PA = proporsi peserta kelompok atas yang menjawab benar PB = Proporsi peserta kelompok bawah yang menjawab benar. c. Pola jawaban soal :

Pola jawaban soal adalah distribusi testee dalam hal menentukan pilihan jawaban pada soal bentuk pilihan ganda. Pola jawaban soal diperoleh dengan menghitung banyaknya testee yang memilih jawaban a,b,c, , atau datau yang tidak memilih pilihan manapun (blangko). Dengan melihat pola jawaban soal , dapat diketahui : 1) Taraf kesukaran soal. 2) Daya pembeda soal. 3) Baik dan tidaknya distraktor. Sesuatu distraktor dapat diperlakukan dengan tiga cara : a. Diterima, karena sudah baik. b. Ditolak, karena tidak baik. c. Ditulis kembali, karena kurang baik.

BAB 1 PENDAHULUAN Guru tidak dapat efektif jika tidak dapat mengukur secara akurat pencapaian siswanya. Mengukur secara akurat ini penting sebab guru tidak dapat membantu siswanya secara efektif jika tidak mengetahui pengetahuan dan ketrampilan yang dikuasai siswanya dan pelajaran apa yang masih menjadi masalah bagi siswanya. Hal yang sama pentingnya adalah guru tidak dapat memperbaiki jika tidak memperoleh indikasi efektifitas dalam mengajar. MENGUKUR PENCAPAIAN Yang dimaksud dengan pencapaian adalah pengetahuan, pengertian, dan ketrampilan yang dikuasai sebagai hasil pengalaman pendidikan khusus. Kita mengartikan pengetahuan sebagai bagian tertentu dari informasi. Pengertian mempunyai implikasi kemampuan mengekspresikan pengetahuan ini ke berbagai cara, melihat hubungan dengan pengetahuan lain, dan dapat mengaplikasikannya ke situasi baru, contoh dan masalah. Ketrampilan kita artikan mengetahui bagaimana mengerjakan sesuatu . Mengapa mengukur Kita mengukur untuk menggambarkan pengetahuan dan ketrampilan siswa atau sebagai dasar untuk mengambil keputusan. Terdapat beberapa alasan mengapa mengukur pencapaian siswa. Umpan Balik Fungsi penting pada tes pencapaian adalah memberikan umpan balik dengan mempertimbangkan efektifitas pembelajaran. Pengetahuan pada performance siswa membantu guru untuk mengevaluasi pembelajaran mereka dengan menunjuk area dimana pembelajaran telah efektif dan area dimana siswa belum menguasai. Informasi ini dapat dignakan untuk merencanakan pembelajaran selanjutnya dan memberikan nasehat untuk metode pembelajaran alternatif. Umpan balik memberikan beberapa fungsi. Pertama menginformasikan kepada guru dan siswa mengenai tingkat performance siswa pada suatu pembelajaran. Kedua memberikan informasi diagnostic yang dapat digunakan untuk merencanaka pembelajaran selanjutnya, dan atau remedial. Ketiga dengan mempertimbangkan hasil beberapa tes, kita dapat memperoleh pengukuran kemajuan dan perbaikan siswa. Selain sebagai umpan balik alasan mengukur pencapaian adalah untuk memberikan motivasi, menentukan peringkat, profisiensi adalah memberikan sertifikat bahwa siswa telah mencapai tingkat kemampuan (minimal ) dalam suau bidang tertentu.. Hasil pencapaian tes dapat juga digunakan pada evaluasi pembelajaran.

Kapan mengukur pencapaian Pada permulaan pembelajaran Untuk merencanakan pembelajaran yang efektif kita harus mempertimbangakan kemampuan dan karakteristik siswa. Informasi ini dapat diperoleh dari tes pencapaian. Selain itu informasi yang diperoleh adalah penguasaan materi prasyarat. Hal lain yang dapat disaring dari tes pencapaian ini adalah mengukur pengetahuan siswa mengenai materi yang telah diajarkan. Selama pembelajaran. Tes yang diberikan selama pembelajaran digunakan untuk menentukan bagaimana kemajuan pembelajaran. Informasi ini kemudian dapat digunakn unuk memodifikasi pembelajaran langsung dan belajar. Dan hal ini digunakan sebagai evaluasi formative. Pada akhir pembelajaran Tes ini akan mengukur seberapa bagus materi telah dipelajari dengan membandingkan satu siswa dengan siswa lain atau dengan beberapa profisiensi standar. Untuk guru pengukuran ini digunakan sebagi evaluasi sumatif. Biasanya evaluasi ini digunakan sebagai dasar penentuan tingkatan ( grade ). Bagaimana mengukur pencapaian Beberapa metode yang tersedia adalah Informal dan metode Observasional contohnya pengetahuan yang terlihat dari performance verbal dalam kelas, menjawab pertanyaan, kontribusi dalam diskusi, pertanyaan yang diajukan dsb. ; guru membuat tes sendiri contoh dengan kuis mingguan, pop kuis, tes unit dsb. ; dan tes standar. MERENCANAKAN TES Dalam merencanakan tes kita harus mengetahui karakteristik instrumen mengukur yang baik. Apa tujuan tes dan informasi apa yang ingin diperoleh dalam tes sangat penting diperhatikan dalam merencanakan tes. Hal- hal yang harus diperhatikan dalam merencanakan tes adalah : Relevansi Tes harus mengukur hasil yang merefleksikan pencapaian tujuan dan tujuan khusus suatu kursus. Tes harus mengandung materi yang telah diajarkan,selain tu tes juga mengukur hanya pengetahuan dan ketrampilan yang telah diajarkan dalam kursus Pengambilan sampel yang tepat. Setiap item tes harus merefleksikan hasil pembelajaran yang diinginkan. Jika hal ni tidak mungin maka tes harus mencakup sampling representatitif hasil pembelajaran ang penting. Kondisi standar Jika pengguna tes tidak menggunakan tes dibawah kondisi yang sama ( waktu yang diberikan sama, tingkat kesukaran dan content sama dsb ), perbedaan faktor akan mempengaruhi

performance sehingga skor mereka tidak dapat langsung dibandingkan. Kesukaran yang sesuai Kesukaran item didefinisikan sebagai persentase manusia yang menjawab item dengan benar.Kesukaran item ditentukan beberapa hal antara lain umur siswa. Dalam mastery testing item yang bagus akan dijawab benar oleh siswa yang menguasai materi. Dalam keadaan lain kesukaran item digunakan untuk menentukan grade, tujuan testing untuk membedakan antara siswa yang memiliki berbagai tingkat pengetahuan mengenai suatu subyek. Konsistensi Konsistensi atau reliability adalah hal penting dalam tes karena jika tes tidak menguur secar konsisten skor individu akan bervariasi dari waktu ke waktu.s Skor yang penuh arti Skor akan memberikan informasi yang berguna, skor yang akurat akan menggambarkan pencapaian siswa dan dapat digunakan untuk mengambil keputusan. Dalam merencanakan suatu tes terdapat tiga metode. Metode I merencanakan tes content/ skill. Pengukuran pencapaian disini dengan memperhatikan pengetahuan (dimensi isi) dan proses kognitif (dimensi skill). Jika kita akan mengembangkan dimensi skill dalam perencanaan kita harus dapat mengidentifikasi dan mengklasifikasikan kognitif skill. Klasifikasi yang diberikan menggunakan Taxonomy of Educational Objectives : Cognitive Domain dari Bloom : pengetahuan, pemahaman, aplikasi, analisis, sintesis, evaluasi. Metode ke II adalah sampling objective yang mengukur pencapaian hasil pembelajaran yang diinginkan dan lebih menekankan kepada tujuan khusus perilaku. Pendekatan ketiga adalah pendekatan kombinasi dengan mengembangkan content/skill tes dengan mengidentifikasi perilaku yang tepat pada setiap sel konten/ skill. ALTERNATIVE - CHOICE ITEM; SHORT ANSWER, ESSAY, AND PROBLEM ITEMS Ketika membuat tes guru dapat memilih bermacam-macam tipe item seperti true false, short answer, multiple choice, essay, problem. Format yang diseleksi tergantung pada subyek, siswa, tujuan kursus, dan tujuan tes. Untuk menghasilkan item yang bagus harus : mengambil materi penting, item harus jelas dan sederhana, yakin bagaimana siswa merespon, item harus independen, flexibel, item yang jelek harus di edit dan direvisi. Multiple choice item Multiple choice item terdiri dari stem dan nomor respon yang mungkin. Stem mungkin kalimat yang tidak lengkap atau pertanyaan. Jika stem merupakan kalimat yang tidak lengkap, tugas siswa adalah melengkapi dengan pernyataan yang paling tepat. Jika item merupakan pertanyaan, kita harus memberikan alternatif jawaban yang mungkin. Siswa disuruh memilih alternatif yang benar atau paling tepat. Alternatif jawaban terdiri dari jawaban yang benar dan beberapa pengecoh. True -False item True False item adalah kalimat deklarative, siswa menilai pernyataan yang disajikan benar atau

salah. Erdapat beberapa argumen mengenai True-False item ini; pertama True-False item ini hanya dapat mengukur pengetahuan saja. Argumen kedua True-False item bersifat ambigo. Seringkali ke ambigo-an ini dirasakan oleh siswa yang tidak mempunyai pengetahuan yang dibutuhkan untuk menjawapab item. Argumen ketiga pendidik yakin bahwa siswa dapat memperoleh skor tinggi dengan menebak, karena hanya dua pilihan maka siswa mempunyai kesempatan 50 % untuk mendapatkan jawaban benar atau salah dengan menebak. Matching Item Matching terdiri dari dua paralel daftar, yang satu berisi stimulus atau stem yang lain berisi respon yang mngkin.Tugas siswa adalah mencocokkkan bentuk dari dua daftar, hal ini adalah menyeleksi respon ang paling cocok untuk setiap stimulus. Stimulus dapat menggunakan pernyataan verbal. Bagaimanapun, matching item cocock untuk beberapa tipe materi. Short answer Short answer memberikan beberapa tipe item yang akan direspon siswa dengan kata, phrase, kalimat, simbol atau nomer. Short-answer item yang sering digunakan adalah melengkapi item dengan kalimat atau beberapa kata yang hilang. Essay Question. Essai question terdiri dari pernyataan, seringkali beberapa kalimat panjang yang menggambarkan situasi dan atau problem. Tugas siswa adalah menulis essay untuk menjawab problem yang dituju. Jawaban ini mungkin satu paragraf atau beberapa halaman. Perbedaan antara short answer dengan essay question adalah panjangnya respon yang dibutuhkan. Pada essay question lebih ditekankan pada mengorganisasikan dan menggabungkan materi. Problem dapat dilakukan pendekatan dengan berbagai cara. Problems Dalam beberapa cara problem memberikan fungsi yang sama dalam kursus matematika dan science sebagai essay question yang dikerjakan dalam studi sosial dan kursus humanity. Situasi dan atau beberapa informasi disajikan dan tugas siswa adalah memberikan solusi. Mengadministrasikan dan Mensekor test Mempersiapkan tes Setelah anda menulis item, bebrapa langkah tambahan harus dilengkapi sebelum tes diadministrasikan : 1) menyeleksi bagian item untuk dirangkum pada tes dan menyusun dalam bentuk yang akan diberikan kepada siswa; 20 mempersiapkan lembar jawaban; 3) menulis tujuan tes; 4) menentukan batasan waktu; 5) mengembangkan prosedur skoring dan aturan. Menyusun Tes Memilih item dimana konten dan skill atau tujuan khusus mewakili proporsi seperti yang diinginkan. Setelah itu yang perlu difikirkan adalah bagaimana menyajikan item kepada siswa.

Lembar jawaban Terdapat pilihan antara merespon pada tes itu sendiri atau pada lembar jawaban terpisah.Menjawab pada lembar tes hanya drekomendasikan pada siswa yang masih kecil, karena ini akan mengurangi jawaban yang salah dan tidak membuat bingung anak-anak. Menggunakan jawaban yang terpisah akan memberi keuntungan, dimana guru dapat mengecek jawaban tanpa harus melihat materi tes. Petunjuk Jika siswa tidak mengenal prosedur testing, petunjuk harus diberikan pada permulaan tes. Batasan Waktu Ketika mengukur pencapaian, kita lebih menginginkan keuatan tes dari pada kecepatannya. Sebagai implikasinya siswa harus memperoleh cukup waktu untuk menyelesaikan tes. Mengadministrasikan Tes Setting fisik. Tes akan diadministrasikan dalam kelas. Kondisi sama yang mendukung efektifitas belajar harus dilanjutkan selama tes. Ruang harus tenang, lampu terang, ventilasi bagus dan bebas interupsi. Iklim Psikologi Membuat iklim positif dalam atmosfer kelas, sehingga siswa dapat menghadapi situasi tes dengan relax. Hal ini dapat dilakukan dengan memberi pengertian alasan tes dilakukan dan meyakinkan siswa bahwa persiapan tes yang bagus akan membantu siswa. Menskor Tes Ketika menskor tujuannya adalah memperoleh tujuan dan skor yang adil.Seluruh proses harus dirancang untuk memberikan informasi apa yang dapat dilakukan siswa untuk membimbing mereka menuju studi selanjutnya. Bimbingan dan saran yang dibuat harus membantu pencapaian tujuan.

ANALISA TES ITEM INDIVIDU Tujuan analisa item adalah mengevaluasi kualitas item tes. Dengan mengobservasi bagaimana siswa merespon berbagai item, kita dapat mengetahui mana soal yang sukar mana item yang mudah. Analisa item secara umum berkaitan dengan tiga aspek item. Pertama adalah kesukaran item. Index kesukaran item didefinisikan sebagai proporsi siswa yang menjawab item dengan benar. Komponen yang kedua adalah menentukan kekuatan item. Index pembeda item menyatakan apakah item membedakan antara siswa yang mempunyai pengetahuan banyak dan siswa dengan pengetahuan sedikit pada materi yang di tes kan. Komponen ketiga dari analisa item adalah evaluasi distraktor. Analisa ini tepat digunakan pada pilihan ganda dan mencocokkan item.

RELIABILITAS DAN VALIDITAS. Realibilitas Reliabilitas tes memberikan konsistensi pada apa yang diukur. Reliabilitas berkaitan dengan pertanyaan selanjutnya. Apakah siswa akan mendapat skor yang sama jika diberikan tes pada dua kejadian yang berbeda/; apakah siswa mendapat skor sama jika diberikan dua bentuk tes yang berbeda; seberapa stabil skor yang didapat. Dalam mengukur konsistensi dikenal standar kesalahan pengukuran dimana hal ini sebagai index terdapat seberapa kesalahan pengukuran pada skor individu. Validitas Disini dikenal konten validitas yang berkaitan dengan seberapa bagus contoh item tes mendefinisikan domain pengetahuan, ketrampilan atau kemampuan. Validitas konstruk berkaitan dengan seberapa bagus tes mengukur variabel psikologi. Validitas yang berhubungan dengan criterion yang berkaitan dengan seberapa bagus skor tes memprediksi kinerja (nn tes).Tipe validitas yang relevan dengan tes pencapaian dalam kelas adalah konten validitas, yang memberikan spesifikasi mengenai pengetahuan dan ketrampilan apa yang ingin diukur. METODE LAIN YANG DIGUNAKAN UNTUK MENGUKUR PENCAPAIAN Selain menggunakan tes secara tertulis, guru dapat menilai pencapaian siswa. Metode ini digunakan untk melihat kemampuan dan ketrampilan yang tidak dapat diukur secara efektif dengan tes tertulis. Metode yang dilakukan dengan melakukan observasi. Observasi ini akan mengenalkan kita pada proses atau metode dalam mempertunjukkan kinerja , mengenalkan pada hasil, dimana hal itu akan memberikan informasi yang dibutuhkan untuk memperbaiki kinerja siswa dan memfasilitasi belajar mereka. STANDAR PENCAPAIAN TES Norm Reference Tes Pada norm reference tes skor diinterpretasikan dengan membandingkan kinerja individu pada skor yang didapat pada peserta tes lain.Kelompok orang yang digunakan untuk pembanding dinamakan kelompok norma. Content Referenced Test Pendekatan ini mempunyai beberapa nama seperti criterion reference, objective referenced, domain referenced. Faktor penting yang ditekankan disini adalah skor diinterpretasikan kedalam terms tingkat penguasaan siswa pada konten domain spesifik. Pada CRT kita membuat beberapa item untuk mengukur setiap tujuan yang penting, tidak hanya contoh item yang menyajikan konten domain. GRADING (memberikan peringkat) Walaupun penentuan peringkat yang digunakan pada saat ini jauh dari sempurna, hal ini memberikan bukti yang dibutuhkan untuk membuat beberapa keputusan penting dalam pendidikan. Semua prosedur disarankan, termasuk mengeliminasi peringkat. Apa yang dibutuhkan untuk memperbaiki proses penentuan peringkat, adalah menspesifikasi secara lebih

jelas dasar dan arti dari peringkat dan prosedur lembaga untuk meyakinkan bahwa berbagai instruktur menggunakan prosedur yang dapat dibandingkan dalam penentuan peringkat. Jika standar prosedur diikuti, penentuan peringkat akan dengan bagus mengukur pencapaian relatif siswa atau penguasaan isi. MENGGUNAKAM TES PENCAPAIAN DALAM PMBELAJARAN Mengukur pencapaian adalah memperoleh informasi pada pembelajarab individu siswa., apa yang mereka tahu, apa yang dapat mereka lakukan, bagaimana kemajuan belajarnya dan sebagainya. Poin pertama dalam proses pembelajaran adalah kita membutuhkan informasi mengenai individu siswa pada permulaan pembelajaran. Informasi ini dapat digunakan untuk membantu kita merencanakan pembelajaran, agar siswa lebih mudah beradaptasi pada pembelajaran kita yang berkaitan dengan kemampuan, pengetahuan, dan ketrampilannya. Infomasi kedua yang dibutuhkan adalah penguasaan pengetahuan prasyarat dan ketrampilan. Informasi ketiga yang dibutuhkan adalah materi apa dalam pelajaran yang sudah diketahui siswa. Evaluasi Pembelajaran. Tes pencapaian yang paling banyak digunakan adalah mengukur belajar individu sisiwa. Tetapi untuk tujuan lain dapat juga digunakan untuk mengukur efektifitas metode pembelajaran, materi dan instruktur. Dalam evaluasi formatif, kita dapat menentukan materi apa yang telah dikuasai siswa, kesalahan apa yang dibuat siswa, dan problem belajar apa yang dialami siswa. Karena tujuan utama dari evaluasi formatif adalah mengidentifikasi problem belajar dan memodifikasi pembelajaran untuk membantu siswa belajar, penugasan dan tes harus mengacu pada content reference/ citerion reference.Hal ini difokuskan pada penguasaan siswaterhadap materi tujuan khusus, tidak membandingkan siswa dengan siswa lain. Pada evaluasi sumatif , instrumen pengukuran biasanya akan ditentukan oleh tujuan pembelajaran pada suatu kursus. Jika tujuannya adalah mengajarkan motor skill, tes performance akan lebih tepat. Jika tujuannya adalah menilai kemampuan siswa untuk mengorganisasikan dan mengintegrasikan materi, essay test akan lebih tepat. Jika tujuan anda adalah merangking siswa, tes harus dibuat lebih luas, harus mempunyai distribusi skor yang luas, dan harus diinterpretasikan dengan cara norma refference. Komentarku (My comment) Setelah membaca buku Frederick. G. Brown yang berjudul Measuring Classroom Achievement dapat ditarik suatu kesimpulan bahwa buku ini memberikan suatu gambaran umum mengenai pengukuran pencapaian siswa dalam kelas. Pembahasan mengenai pengukuran pencapaian ini dimulai dari mengapa, kapan, dan bagaimana mengukur pencapaian tersebut hingga bagaimana merencanakan sebuah tes, jenis-jenis tes, bagaimana menskor, menganalisa skor, standar tes pencapaian tes, penentuan peringkat dan penggunaan tes pencapaian dalam pembelajaran.

Secara umum buku ini cukup bagus digunakan sebagai pegangan untuk orang- orang yang berkecimpung dalam dunia pendidikan, seperti dosen, guru, mahasiswa pendidikan dan orangorang yang mempunyai perhatian terhadap dunia pendidikan. Untuk orang-orang yang tidak mempunyai latar belakang ilmu pendidikan dan membuat langkah baru dalam dunia pendidikan, buku ini akan sangat bermanfaat karena meskipun buku ini termasuk buku lama(1981) tetapi bahasa yang digunakan mudah di pahami serta mencakup substansi materi yang cukup luas. Jika dibandingkan dengan buku- buku lain seperti buku yang ditulis oleh Norman E. Grondlund dalam bukunya Constructing Achievement Tes serta buku Evaluation to Improve Learning yang ditulis Benyamin S. Bloom, materi yang membahas mengenai tes pencapaian seperti bagaimna merencanakan tes, menyusun tes, jenis-jenis tes, kriteria yang digunakan, bagaimana menskor, menganalisa dan mengevaluasinya, ke tiga buku tersebut memberikan penjelasan yang hampir sama walaupun menggunakan bahasa yang berbeda, hanya untuk poin- pon tertentu saja mereka mempunyai sedikit perbedaan. Jika terdapat pertanyaan buku manakah yang terbagus dari tiga buku tersebut maka saya akan mengatakan bahwa yang terbaik adalah jika kita menggabungkan inti materi yang terdapat pada ketiga materi tersebut dimana kita mengambil hal-hal yang cocok dengan pendapat kita. Norman E. Gronlund dalam bukunya Constructing Achievement Tests mengatakan bahwa objective tes seperti multiple choice, true- False, short answer hanya bagus untuk mengukur hasil belajar pada tingkat pengetahuan, pemahaman, aplikasi, dan analisis, tetapi tidak tepat untuk sintesa dan evaluasi. Sedangkan dalam buku Measuring Classroom Achievement dikatakan bahwa adalah salah jika ada pendapat bahwa multiple choice yang merupakan salah satu jenis dari objective tes hanya dapat digunakan untuk tes pengetahuan dan materi faktual. Multiple choice dapat digunakan untuk mengukur level cognitive skill yang lebih tinggi yaitu dengan menggunakan pernyataan yang merupakan situasi baru, informasi maupun contoh. Saya setuju dengan pendapat yang disampaikan oleh Frederick G. Brown tersebt bahwa semua jenis tes yang termasuk dalam kategori objective tes sebenarnya dapat digunakan untuk mengetahui hasil belajar siswa baik pada tingkat pengetahuan, pemahaman, aplikasi, analisa sistesa maupun evaluasi. Banyak guru mengatakan bahwa di Indonesia untuk siswa tingkat sekolah dasar sampai sekolah menengah atas guru membuat tes hasil belajar hanya untuk mengukur pengetahuan, pemahaman, dan aplikasi saja, karena multiple choice hanya bisa mengukur tiga level kognitif itu saja. Menurut saya semua jenis tes obyektif dapat mengukur 6 tingkat cognitive skill, hanya yang perlu dipertimbangkan adalah efisien dan efektifkah tes tersebut digunakan untuk mengukur tingkat cognitive yang diinginkan. Ketrampilan dalam membuat stem pada soal- soal tes multiple choice akan sangat menentukan apakah tes tersebut dapat digunakan untuk mengukur tingkat cognitif skill yang lebih tinggi atau tidak karena membuat tes untuk mengetahi hasil belajar pada tingkat pengetahuan akan lebih mudah. Dalam membandingkan antara objective tes dan essay tes Frederick G. Brown dan Norman E.

Grondlund memberikan pandangan yang sama bahwa dalam obyektif tes item yang digunakan bisa lebih luas dengan mengambil sampel konten yang mewakili, sedangkan dalam essay tes item yang digunakan lebih terbatas sukar untuk mengambil sampel yang mewakili seluruh materi sehingga respon yang didapat akan lebih mendalam pada area yang ditanyakan. Dalam memberikan skoring objective tes lebih obyektif, sederhana, dan reliabilitasnya tinggi, sedangkan essay tes penilaiannya lebih subyektif misalnya panjangnya respon, kualitas tulisan, akan menentukan penilaian. Karena faktor tersebut maka penilaian dalam essay tes tidak reliabel. Untuk mengadakan evaluasi formatif multile choice kurang cocok digunakan. Ketidak tepatan ini disebabkan tes multiple choice tidak mengukur kedalaman materi sehingga memberi kesempatan kepada siswa untuk menebak jawaban saja. Sedangkan dalam evaluasi formatif ini guru ingin mengetahui apa yang telah dicapai siswa dengan cara menggali lebih dalam kompetensi siswa yang merupakan manifestasi dari hasil belajar. Dengan mengetahui kompetensi siswa, maka kelemahan dan kekuatan akan dapat terdeteksi. Kemajuan siswa, kemampuan minimum siswa , kemampuan guru mengajar akan terlihat dalam evaluasi ini sehingga baik atau buruknya proses belajar akan terlihat disini. Evaluasi formatif ini berfungsi sebagai umpan balik bagi guru dan siswa, jika hasil belajar siswa bagus maka akan diadakan pembelajaran selanjutnya tetapi jika hasil belajar siswa buruk maka akan diadakan perbaikan dalam pembelajaran. Evaluasi formatif sangat cocok menggunakan tes essay karena tes ini akan mengukur kemampuan /kinerja siswa disesuaikan dengan tujuan pembelajaran. Sehingga untuk materi yang akan diukur siswa akan memberikan respon yang tak terbatas sesuai dengan pengetahuan dan kemampuan yang dimilikinya karena jawaban yang diberikan tidak terstruktur. Karena memberikan kemungkinan jawaban yang yang tidak menuju kesatu arah saja/ konvergen serta memberi kesempatan kepada siswa untuk merespon tanpa dibatasi maka tes essay ini dapat digunakan untuk mengukur cognitive pada level analisis, sintesis dan evaluasi, dimana hal ini sangat sukar dilakukan dalam tes multiple choice. Akan tetapi penggunaan tes essay ini mempunyai kelemahan yaitu hanya mungkin memberikan materi yang terbatas serta butir soal yang tidak terlalu banyak mengingat jawabannya yang tak terstruktur. Dalam penilaiannyapun cenderung besifat subyektif contohnya jika seorang guru mempunyai murid kesayangan maka nilai yang diberikan akan tinggi, atau jika dengan melihat tulisan yang jelek saja guru sudah enggan memerikasa sehingga nilai yang diperoleh siswa akan tidak memadai walaupun jawaban tersebut mencerminkan kompetensi siswa yang tinggi. Oleh karena itulah esay tes ini kurang reliabel dibandingkan multiple choice. Dalam kaitannya dengan EBTANAS atau UMPTN dimana evaluasi yang dilakukan berguna untuk pengambilan keputusan maka evaluasi yang cocok digunakan adalah evaluasi sumatif. Untuk mengukur kemampuan siswa tes yang paling tepat digunakan adalah multiple choice, karena dalam tes multiple choice memberikan kemungkinan pemberian materi yang banyak, selain itu butir soal yang banyakpun tidak akan bermasalah. Pemberian materi serta butir soal yang banyak ini sangat diperlukan mengingat dalam evaluasi sumatif ini bertujuan untuk verifikasi apakah siswa akan lulus atau tidak lulus sehingga butir pertanyaan akan mencakup seluruh materi pelajaran yang sudah ditetapkan dalam kurikulum. Dalam evaluasi sumatif ini

tidak perlu melihat kedalaman materi yang dikuasai siswa, yang terpenting bahwa siswa menguasai seluruh materi yang tercakup dalam kurikulum meskipun tidak secara mendalam karena respon yang harus diberikan pun terbatas, sehingga tidak membutuhkan pemikiran yang lebih meluas dan kreatif/divergen. Karena tes multiple choice membutuhkan pemikiran yang konvergen/menuju ke satu arah maka akan sangat sukar untuk mengukur cognitive pada level analisis, sintesis, dan evaluasi. Dalam penilaian, tes multiple choice akan lebih mudah dilakukan karena sudah terdapat kunci jawaban sehingga penilaian akan lebih bersifat obyektif dan dengan sendirinya akan lebih reliabel dibandingkan dengan essay tes. Dalam kaitannya dengan kriteria penilaian, evaluasi formatif akan tepat menggunakan Criterion Refference dimana penilaian dilakukan tidak dengan membandingkan individu satu dengan individu lain dalam satu kelompok, tetapi mengukur kompetensi minimum anak dalam satu area tertentu. Contoh: jika seorang anak mampu mengerjakan 6 soal dari 10 soal, maka anak tersebut dapat menguasai materi sebanya 60 %. Dengan emikian anak tersebut dapat melanjutkan pembelajaran selanjutnya karena dianggap telah mencapai kompetensi minimum dalam pembelajaran tersebut. Tetapi seandainya anak hanya dapat mengerjakan 3 soal dari 10 soal yang ada, maka anak tersebut hanya menguasai 30 % saja dari materi pembelajaran tersebut, sehingga dianggap belum mempunyai kompetensi minimum dalam materi pembelajaran tersebut, sehingga perlu dilakukan program perbaikan/ remedial. Untuk evaluasi sumatif, kriteria penilaian yang tepat adalah Norm Refference, dimana kedudukan siswa satu dibandingkan dengan siswa lain dalam kelas. Contoh : seorang anak dengan nilai 9 belum tentu merupakan anak yang terpintar dikelas, karena teman- teman dalam kelompoknya mendapat nilai 10 semua. Seperti dalam penerimaan mahasiswa melalui UMPTN kriteria yang digunakan adalah Norm Refference serta evaluasi yang digunakan adalah evaluasi sumatif. Karena yang dilakukan adalah menyeleksi saja maka tidak akan mencerminkan kompetensi siswa pada bidang/ fakultas yang dipilihnya. Kriteria penilaian dengan menggunakan Criterion Refference dapat juga dilakukan untuk tes penempatan yaitu untuk mengukur prerequisit entry skill dimana sample mencakup prerequisit entry behavior dimana tes yang digunakan adalah tes yang mudah. Tes penempatan juga digunakan untuk menentukan entry performance pada tujuan kursus dengan cara menyeleksi sample yang representative pada tujuan kursus, disini tipe item yang digunakan lebih luas dan lebih sukar serta dengan menggunakan kriteria penilaian Norm Reference. Dalam tes diagnostik kriteria penilaian yang digunakan adalah Criterion Refference. Jenis tes yang digunakan adalah tes obyektif dan tes essay dimana tujuannya adalah untuk menentukan kesukaran belajar sedangkan sample yang digunakan mencakup sampel tugas yang berdasar pada sumber kesalahan belajar.

CARA MENGOLAH SKOR/NILAI DAN MENCARI NILAI AKHIR A. CARA MENGOLAH SKOR ATAU NILAI 1. Menskor dan Menilai Menskor dan menilai merupakan pekerjaan yang menuntut ketekunan yang luar biasa dari penilai, ditambah dengan kebijaksanaan-kebijaksanaan tertentu. Nama lain dari menskor adalah memberi angka. Dalam hal pekerjaan menskor atau menentukan angka, dapat digunakan tiga macam alat bantu yaitu :

Pembantu menentukan jawaban yang benar, disebut kunci jawaban. Pembantu menyeleksi jawaban yang benar dan salah, disebut kunci scoring. Pembantu menentukan angka, disebut pedoman penilaian. 2. Perbedaan antara Skor dan Nilai Sebelum sampai pada pembahasan tentang cara mengolah skor atau nilai, perlu dijelaskan terlebih dahulu tentang perbedaan antara skor dan nilai. Hal ini didasarkan pada pertimbangan bahwa kadang-kadang orang menganggap bahwa skor itu sama dengan nilai, padahal pengertian seperti itu belum tentu benar. Skor adalah hasil pekerjaan menskor (= memberikan angka) yang diperoleh dengan jalan menjumlahkan angka-angka bagi setiap butir item yang oleh testee telah dijawab dengan benar, dengan mempertimbangkan bobot jawaban benarnya. Contoh berikut ini kiranya akan memperjelas pernyataan di atas. Misalkan tes hasil belajar dalam bidang studi bahasa inggris menyajikan lima butir soal tes uraian dimana untuk setiap butir soal yang dijawab dengan benar diberikan bobot 10. Siswa bernama Rina, untuk kelima butir soal tes uraian tersebut memberikan jawaban sebagai berikut: Untuk butir soal no.1 dapat dijawab dengan sempurna, sehingga diberikan skor 10. Untuk butir soal no.2 hanya dijawab benar separohnya, sehingga skor yang diberikan adalah 5 Untuk butir soal no.3 ,hanya sekitar seperempat bagian saja yang dapat dijawab dengan benar, sehingga diberikan skor 2,5 Untuk butir soal no.5 dijawab benar sekitar tiga perempatnya, sehingga diberikan skor 7,5.

Dengan demikian untuk kelima butir tes uraian tersebut, Rina mendapatkan skor sebesar = 10 + 5 +2,5 + 7,5 = 30. Angka 30 disini belum dapat disebut nilai, sebab

angka 30 itu masih merupakan skor mentah. Untuk dapat disebut nilai masih memerlukan pengolahan atau pengubahan.1[1] Nilai adalah angka ubahan dari skor dengan menggunakan acuan tertentu, yakni acuan normal atau acuan standar. Pengubahan skor menjadi nilai dapat dilakukan untuk skor tunggal, misalnya sesudah memperoleh skor ulangan harian atau untuk skor gabungan dari beberapa ulangan dalam rangka memperoleh nilai. Adapun yang dimaksud dengan nilai adalah angka (bias juga huruf), yang merupakan hasil ubahan dari skor yang sudah dijadikan satu dengan skor-skor lainnya, serta disesuaikan pengaturannya dengan standar tertentu. Itulah sebabnya mengapa nilai sering disebut skor standar. Nilai pada dasarnya adalah angka atau huruf yang melambangkan seberapa jauh atau seberapa besar kemampuan yang telah ditunjukan oleh testee terhadap materi atau bahan yang diteskan, sesuai dengan tujuan intruksional khusus yang telah ditentukan. Nilai pada dasarnya juga melambangkan penghargaan yang diberikan oleh tester kepada testee atas jawaban benar yang diberikan oleh testee dalam tes hasil belajar. Dari uraian diatas jelaslah bahwa untuk sampai kepada nilai, skor-skor hasil tes yang pada hakikatnya masih merupakan skor-skor mentah itu perlu diolah lebih dahulu sehingga dapat diubah menjadi skor yang sifatnya baku atau standar. 3. Norm Referenced dan Criterion - Referenced Dari sederetan skor yang telah diubah maka dapat diperoleh gabungannya, misalnya gabungan antara nilai ulangan ke-1, ke-2, ke-3, dan seterusnya, yang merupakan catatan untuk dirata-rata dan menggambarkan penguasaan siswa terhadap materi yang diajarkan atau menggambarkan sejauh mana siswa mencapai tujuan intruksional umum dari satu unit bahan yang dipelajari dalam satu ukuran waktu. Sebelum ini telah disinggung sedikit tentang penggunaan norm referenced dan criterion referenced. Didalam penggunaan criterion referenced, siswa dibandingkan dengan sebuah standar tertentu, yang dalam uraian sebelum ini, dibandingkan dengan standar mutlak. Dalam penggunaan norm-referenced, prestasi belajar seorang siswa dibandingkan dengan siswa lain dalam kelompoknya. Kualitas seseorang sangat dipengaruhi oleh kualitas kelompoknya. Seorang siswa yang apabila terjun ke kelompok A termasuk hebat, mungkin jika pindah ke kelompok lain hanya menduduki kualitas sedang saja. Ukurannya adalah relatife. Oleh karena itu, maka dikatakan pula diukur dengan standar-relatif atau norma kelompok.

Dasar pikiran dari penggunaan standar ini adalah adanya asumsi bahwa disetiap populasi yang heterogen, tentu terdapat: 1) 2) 3) Kelompok baik Kelempok sedang kelompok kurang Apabila standar relative dan standar mutlak ini dihubungkan dengan pengubahan skor menjadi nilai, akan terlihat demikian : Dengan standar mutlak Pemberian skor terhadap siswa, didasarkan atas pencapaian siswa terhadap tujuan yang ditentukan. Nilai diperoleh dengan mencari skor rata-rata langsung dari skor asal (skor mentah).

a)

Contoh : Dari ulangan ke-1, memperoleh skor 60 (mencapai 60 % tujuan ) Dari ulangan ke-2, memperoleh skor 80 (mencapai 80 % tujuan ) Dari ulangan ke-3, memperoleh skor 50 (mencapai 50 % tujuan ) Maka nilai siswa tersebut : Dan dibulatkan menjadi 63. = 63,3

b) -

Dengan standar relative Pemberian skor terhadap siswa juga didasarkan atas pencapaian siswa terhadap tujuan yang ditentukan. Nilai dapat diperoleh dengan 2 cara : Mengubah skor dari tiap-tiap ulangan lalu diambil rata-ratanya. Menjumlah skor tiap-tiap ulangan, baru diubah kenilai.2[2]

4.

Mengolah Nilai Beberapa Skala Penilaian: Skala Bebas

a.

Ani, seorang pelajar disuatu SMU, pada suatu hari berlari-lari kegirangan setelah menerima kembali kertas ulangan dari guru Matematika. Diamatinya sekali lagi angka yang tertera dikertas itu. Benar ia tidak salah liat! Pada sudut atas kertas itu tertulis angka 10, yaitu angka yang diperoleh Ani dengan ulangan itu. Pada waktu ulangan memang Ani merasa ragu-ragu mengerjakannya. Rumus yang digunakan sedikit ingat sedikit lupa. Dan ketika seluruh umus hampir teringat, waktu yang disediakan telah habis. Seberapa selesai soal itu dikerjakan kertas ulangan harus dikumpulkan. Setelah tiba di luar kelas, Ani berdiskusi dengan kawan-kawannya. Ternyata cara mengerjakan dan pendapatnya tidak sama dengan yang lain. Tetapi mereka juga tidak yakin mana yang betul. Oleh karena itu, ketika kertas ulangan dikembalikan dan ia mendapat 10, ia kegirangan. Ditunjukannya kertas itu kepada kawan-kawannya. Baru sampai bertemu 4 kawannya, wajahnya sudah menjadi malu tersipi-sipu. Apa sebabnya ? Rupanya ia menyadari kebodohannya karena setelah melihat angka yang diperoleh keempat orang kawannya, ternyata kepunyaan Ani yang paling sedikit. Ada kawannya yang mendapat 15,20,bahkan ada yang 25. Dan kata Guru. pekerjaan Tika yang mendapat angka 25 itulah yang betul. Dan gambaran ini tampak bahwa dalam pikiran Ani, terpancang suatu pengertian bahwa anka 10 adalah angka tertinggi yang mungkin dicapai. Ini memang lazim. Mungkin bukan hanya Ani saja yang berpikiran demikian. Padahal pada waktu ulangan matematika ini, guru memberikan angka paling tinggi 25 kepada mereka yang dapat mengerjakan seluruh soal dengan betul. Cara pemberian angka seperti ini tidak salah. Hanya sayangnya, guru tersebut barangkali perlu menerangkan kepada para siswanya, cara mana yang digunakan untuk memberi angka atau skor. Ia baru pindah dari sekolah lain. Ia sudah bebas menggunakan skala bebas, yaitu skala yang tidak tetap. Adakalanya skor tertinggi 20, lain kali 25, dan lain kali lagi 50. Ini semua tergantung dari banyak dan bentuk soal. Jadi angka tertinggi dan skala yang digunakan tidak selalu sama. b. Skala 1-10 Pada umumnya guru-guru di Indonesia mempunyai kebiasaan menggunaka skala 1 10 untuk laporan prestasi belajar siswa dalam rapor. Adakalanya juga digunakan skala 1 100, sehingga memungkinkan bagi guru untuk memberikan penilaian yang lebih halus. Dalam skala 1 10, guru jarang memberikan angka pecahan, misalnya 5,5. Angka 5,5 tersebut kemudian dibulatkan menjadi 6. Padahal angka 6,4 pun akan dibulatkan menjadi 6. Dengan demikian maka rentangan angka 5,5

sampai dengan 6,4 ( selisih hampir 1 ) akan keluar dirapor dalam satu wajah, yaitu angka 6. c. Skala 1 100 Memang di seyogiakan bahwa angka itu merupakan bilangan bulat. Dengan menggunakan skala 1 10 maka bilangan bulat yang ada masih menunjukan penilaian yang agak kasar. Ada sebenarnya hasil prestasi yang berada diantara kedua angka bulat itu. Untuk itulah maka dengan menggunakan skala 1 100, dimungkinkan melakukan penilaian yang lebih halus karena terdapat 100 bilangan bulat.Nilai 5,5 dan 6,4 dalam skala 1 10 yang biasanya dibulatkan menjadi 6, dalam skala 1 100 ini boleh dituliskan 55 dan 64.3[3] Skala huruf Di samping penilaian yang dinyatakan dengan angka, kita mengenal pula penilaian yang dinyatakan dengan huruf. Seperti penilaian yang dilakukan oleh guru taman kanak- kanak dan atau guru-guru disekolah dasar kelas I dan kelas II, mereka menggunakan nilai huruf A, B, C dan D.4[4] Penggunaan huruf dalam penilaian akan terasa lebih tepat digunakan karena tidak ditafsirkan sebagai arti perbandingan. Huruf tidak menunjukan kuantitas, tetapi dapat digunakan sebagai symbol untuk menggambarkan kualitas. Oleh karena itu, dalam mengambil jumlah rata-rata, akan dijumpai kesulitan. Padahal dalam pengisian rapor, kita tidak dapat terlepas dari pekerjaan mengambil rata-rata. 5. Distribusi Nilai Distribusi niali yang dimiliki oleh siswa-siswanya dalam suatu kelas didasarkan pada dua macam standar, yaitu: a. Distribusi Nilai Berdasarkan Standar Mutlak Dengan dasar bahwa hasil belajar siswa dibandingkan dengan sebuah standar mutlak atau dalam hal ini skor tertinggi yang diharapkan, maka tingkat penguasaan siswa akan terlihat dalam berbagai bentuk kurva. Apabila soal-soal yang dibuat guru terlalu mudah, sebagian besar siswa akan dapat berhasil mengerjakan soal-soal itu dan tingkat pencapaiannya tinggi. Sebaliknya apabila soal-soal tes termasuk yang sukar maka pencapaian siswa juga sebaliknya pula. Namun demikian dengan standar mutlak ini mungkin pula diperoleh gambar kurva

d.

nomal jika soal-soal tes disusun oleh guru dengan tepat seperti gambaran kecakapan siswa-siswanya. Berikut adalah kurva kemungkinan prestasi siswa berdasarkan standar mutlak:

Kurva gambaran jika soal disusun dengan mudah,

10

Kurva gambaran jika soal disusun terlalu sulit. 10

Kurva yang disusun tepat. 2% 14% 34% 14% 2%

Untuk melihat penyebaran atau distribusi nilai siswa-siswa dalam satu kelas, terlebih dahulu skor-skor yang diperoleh dari ulangan disusun urut dari yang paling tinggi ke yang paling rendah. b. Distribusi Nilai Berdasarkan Standar Relatif Menggunakan standar relative atau norm-referenced, kedudukan seorang selalu dibandingkan dengan kawan-kawannya dalam kelompok. Dalam norm-referenced selalu tergambar dalam kurva normal. Hal ini didasarkan apabila distribusi skor tergambar dalam kurva juling positif, yang kurang sempurna adalah soal-soal tesnya, yaitu terlalu sukar. Dengan demikian nilai siswalalu direntangkan dari nilai tinggi ke nilai rendah, dengan sebagian besar terletak pada nilai sedang, dan demikian pula sebaliknya. Ubahan nilai dari skor-skor yang mengumpul dibawah atau pun diatas dapat dilihat dalam gambar-gambar berikut:

= = 6.

nilai berdasarkan standar mutlak. nilai berdasarkan standar relative.

Standar Nilai Dari distribusi nilai, kita dapat membicarakan masalah standar nilai. a) Standard Nines/Stanines Menurut Gronlund dalam distribusi nilai ini skor-skor siswa direntangkan menjadi 9 nilai (Standard Nines/Stanines) seperti berikut: STANINE 9 4% 8 7% 7 12% 6 17% 5 20% 4 17% 3 12% 2 7% 1 4% INTERPRETASI Tinggi (4%) Diatas (19%) rata-rata

Rata-rata (54%)

Dibawah rata (19%)

rata-

Rendah (4%)

Dengan adanya persentase yang ditentukan inilah maka semua situasi skor siswa dapat direntangkan menjadi nilai 1-9 diatas. b) Standar Enam. Selain dengan stanadar Sembilan (stanines), ada pula yang menggunakan standar enam. Dalam hal ini, hanya berkisar antara 4-9, berikut persentasi penyebaran nilainya:

STANDAR ENAM 9 8 7 6 5 4

Interpretasi 5% 10% 20% 40% 20% 5% Baik sekali Baik Lebih dari cukup Cukup Kurang Kurang sekali

Penyebaran nilai denga standar enam yang dimaksud, adalah berikut: 10% siswa yang mendapat nilai tertinggi diberi nilai 9 20% dibawahnya diberi 8 40% dibawahnya diberi 7 20% dibawahnya diberi 6 5% dibawahnya diberi 5 5% dibawahnya diberi 4 Dalam hal yang sangat khusus dimana siswa yang dianggap sangat cerdas ataupun sangat kurang, dapat diberikan nilai 10 atau 3. c) Standar Eleven (Stanel) Standar ini dikembangkan oleh Fakultas Ilmu Pendidikan UGM yang sesuai dengan system penilaian di Indonesia. Dengan stanel ini, system penilaian membagi skala menjadi 11 golongan yaitu angka-angka dari 0-10, yang satu sama lain berjarak sama. Tiap-tiap angka menempati interval sebesar 0,55 SD, bertitik tolak dari Mean = 5 yang menempati jarak antara -3,025 SD sampai +3,025 SD. Bilangan-bilangan persentil untuk menentukan titik dalam Stanel ini adalah: P1, P3, P8, P21, P39, P61, P79, P92, P97 & P99. Dasar pemikiran Stanel ini dalah bahwa jarak praktis dalam kurva normal adalah 6 SD yang terbagi atas 11 skala. 11 skala = 6 SD Skala = = 6/11 SD 0,55 SD

STANEL ,0 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 ,10

,1

d) Standar Sepuluh Untuk mengubah skor menjadi nilai, diperlukan dahulu: Mean (rata-rata skor) Deviasi Standar (simpangan Baku) Tabel konversi angka kedalam nilai berskala 1-10 Tahap-tahap yang dilalui dalam mengubah skor mentah menjadi nilai berskala 1-10 adalah sebagai berikut: Menyusun distribusi frekuensi dari angka-angka atau skor-skor mentah. Menghitung rata-rata skor (mean). Menghitung Deviasi Standar. Mentransformasi (mengubah) angka-angka mentah kedalam nilai skala 1-10. e) Standar Lima kembali kepada Grondlund selain ia mengemukakan penyebaran nilai dengan angka, juga mengemukakan penyebaran nilai dengan huruf yang digambarkan dengan kurva normal sebagai berikut5[5]:

-1,5 F 7% B. 1. 24% D C B 7% A

-0.5

0,5

1,5

38% 24%

MENCARI NILAI AKHIR Fungsi Nilai Akhir Secara garis besar, nilai mempunyai 4 fungsi:

a.

Fungsi instruksional. Pemberian nilai merupakan suatu pekerjaan yang bertujuan untuk memberikan suatu balikan (feed back/ umpan balik) yang mencerminkan seberapa jauh seorang siswa telah mencapai tujuan yang ditetapkan dalam pengajaran atau system instruksional. Apabila pemberian nilai dapat dilakukan dengan cermat dan terperinci, maka akan lebih mudah diketahui pula keberhasilan dan kegagalan siswa disetiap bagian tujuan. Nilai rendah yang diperoleh oleh seseorang atau beberapa siswa, jika disajikan dalam keadaan yang terperinci akan dapat membantu siswa dalam usaha memperbaiki dan member motivasi peningkatan prestasi berikutnya. Bagi pengelola pengajaran, sajian terperinci nilai siswa dapat berfungsi menunjukkan bagian-bagian proses pengajaran mana yang perlu diperbaiki.

b.

Fungsi informative. Memberikan nilai siswa kepada orang tuanya mempunyai arti bahwa orang tua siswa tersebut menjadi tahu akan kemajuan dan prestasi anak-anak mereka disekolah. Catatan ini akan sangat berguna, dengan catatan nilai untuk orang tua siswa maka:

Orang tua menjadi sadar akan keadaan putra-putri mereka untuk kemudian lebih baik memberikan bantuan berupa perhatian, dorongan atau bimbingan. Hubungan orang tua dengan sekolah menjadi baik. c. Fungsi bimbingan Pemberian nilai kepada siswa akan mempunyai arti besar bagi pekerjaan bimbingan. Dengan perincian gambaran nilai siswa, petugas bimbingan akan segera tahu bagian-bagian mana dari usaha siswa disekolah yang masih memerlukan bantuan. Catatan lengkap yang juga mencakup tingkat (rating) dalam kepribadian siswa serta sifat-sifat yang berhubungan dengan rasa social akan sangat membantu siswa dalam pengarahannya sebagai pribadi seutuhnya. d. Fungsi administrative Fungsi administrative dalam penilaian mencakup: Menentukan kenaikan dan kelulusan siswa. Memindahakan atau menempatkan siswa. Memberikan beasiswa. Memberiakn rekomendasi untuk melanjutkan belajar. Memberikan gambaran tentang prestasi siswa atau lulusan kepada para calon pemakai tenaga. 2. Faktor-Faktor yang Turut di Perhitungkan dalam Penilaian

Unsur umum dalam penilaian yang menyangkut faktor-faktor yang harus dipertimbangkan adalah: a. Prestasi / pencapaian (achievement). Nilai prestasi harus mencerminkan tingkat-tingkatan siswa sejauh mana telah dapat mencapai tujuan yang ditetapkan disetiap bidang studi. Simbol yang digunakan untuk menyatakan nilai, baik huruf maupun angka hanya merupakan gambaran tetang prestasi saja. Unsure pertimbangan atau kebijaksanaan guru tentang usaha dan tingkah laku siswa tidak boleh diikut sertakan. b. Usaha (effort). Usaha siswa Terpisah dari nilai prestasinya, guru dapat menyampaikan laporannya kepada orang tua siswa. Laporan atau nilai tidak boleh dicampuri dengan nilai prestasi sama sekali. Aspek pribadi dan social Unsure ini juga perlu dilaporkan terutama yang berhubungan dengan berlangsungnya proses belajar-mengajar. Rentang nilai sebaiknya tidak usah lebar-lebar (lebih baik 610). Lebih baik lagi jika diterangkan dengan khusus dan jelas sehingga mudah di mengerti oleh guru pembimbing dan siapa saja. Kebiasaan bekerja. Yang dimaksud disini adalah hal-hal yang berhubungan dengan kebiasaan melakukan tugas. Misalnya, segera mengerjakan PR. Keuletan dalam usaha, bekerja teliti, kerapihan kerja dan sebagainya. Cara Menentukan nilai Akhir Tiap guru mempunyai pendapatnya sendiri dalam menentukan nilai akhir. Hal ini sangant dipengaruhi oleh pandanagn mereka terhadap pentingnya dan tidaknya bagian, kegiatan yang dilakukan siswa. Yang dimaksudkan dengan kegiatan-kegiatan siswa misalnya: menyelesaikan tugas, mengikuti diskusi, mengikuti ujian, menghadiri pelajaran, dan sebagainya. Penentuan nilai akhir ini dilakukan terutama pada waktu guru akan mengisi rapor atau STTB. Biasanya dalam menentukan nilai akhirini guru sudah dibimbing oleh suatu peraturan atau pedoman yang dikeluarkan oleh pemerintah atau kantor/badan yang membawahinya. Ada beberapa cara menentuakn nilai akhir, diantaranya: a. Untuk memperoleh nilai akhir, perlu diperlukan nilai tes formatif dan tes sumatif dengan rumus:

c.

d.

3.

Keterangan: NA = F S = = Nilai akhir. Nilai tes formatif. Nilai tes sumatif.

Jadi nilai akhir diperoleh dari rata-rata nilai tes formtaif (diberikan bobot satu) dijumlahkan dengan nilai tes sumatif (diberi bobot dua) kemudian dibagi 3. b. NA = 2T + 3H + 5U 10

Nilai akhir diperoleh dari nilai tugas, nilai ulangan harian dan nilai ulangan umum dengan bobot 2, 3, dan 5. Jadi jika dituliskan dalam rumus menjadi:

Keterangan: T H U c. = = = Nilai tugas. Nilai ulangan harian (rata-ratanya). Nilai ulangan umum.

Nilai Akhir untuk STTB diproleh dari rata-rata nilai ulangan harian (diberi bobot satu) dan nilai EBTA (diberi bobot 2) kemudian dibagi 3. Rumus:

Dimana : H = jumlah nilai ulangan harian

E nH

= =

nilai EBTA frekuensi ulangan harian

Selanjutnya didalam kurikulum SMA tahun 1984 disebutkan cara menentukan nilai akhir bukan hanya didasarkan atas hasil kegiatan kurikuler saja, tetapi juga kokurikuler. Rumusnya :

NA = 2p + 2q +r 5

Keterangan : p q r = = = nilai tes sub sumatif nilai tes sumatif nilai ko-kurikuler.

Merata-ratakan hasil penilaian sumatif dengan hasil penilaian formatif. Setelah hasil-hasil penilain formatif diubah kedalam nilai berskala 1 10, kemudian untuk setiap siswa dicari rata-rata hasil penilaian formatif dalam semester yang bersangkutan. Nilai rata-rata ini selanjutnya dijumlahkan dengan nilai tes sumatif dan kemudian hasil penjumlahan dibagi dua. Hasil yang terakhir inilah yang akan merupakan nilai akhir bagi setiap siswa yang nantinya dijadikan nilai raport. Perlu dikemukakan disini bahwa apabila pada nilai akhir terdapat pecahan kurang dari setengah, maka nilai itu di bulatkan kebawah. Kalau pecahannya setengah,

nilai akhir tetap seperti itu. Sedangkan dalam pecahan lebih dari setengah, maka nilai dibulatkan ke atas.6[6]

DAFTAR PUSTAKA Arikunto, Suahrsimi. 2010. Dasar-dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara. Purwanto, M. Ngalim. 2010. Prinsip-prinsip dan Teknik Evaluasi Pengajaran. Bandung: Remaja Rosda karya, Sudijono, Anas. 2001. Pengantar Evaluasi Pendidikan, Jakarta: Raja Grafindo Persada

EVALUASI PROGRAM PEMBELAJARAN 1. Pendahuluan Mutu pendidikan dipengaruhi banyak faktor, yaitu siswa, pengelola sekolah (kepala sekolah, guru, staf, dan dewan/komite sekolah), lingkungan (orangtua, masyarakat, dan sekolah), kualitas pembelajaran, dan kurikulum (Suhartoyo, 2005:2). Hal senada juga dikemukakan oleh Mardapi (2003:8) bahwa usaha peningkatan kualitas pendidikan dapat ditempuh melalui peningkatan kualitas pembelajaran dan kualitas sistem penilaian. Keduanya saling terkait, sistem pembelajaran yang baik akan menghasilkan kualitas belajar yang baik. Selanjutnya sistem penilaian yang baik akan mendorong guru untuk menentukan strategi mengajar yang baik dan memotivasi siswa untuk belajar yang lebih baik. Salah satu faktor yang penting untuk mencapai tujuan pendidikan dengan demikian adalah proses pembelajaran yang dilakukan, sedangkan salah satu faktor penting untuk efektivitas pembelajaran adalah faktor evaluasi baik terhadap proses maupun hasil pembelajaran. Evaluasi dapat mendorong siswa untuk lebih giat belajar secara terus menerus dan juga mendorong guru untuk lebih meningkatkan kualitas proses pembelajaran serta mendorong sekolah untuk lebih meningkatkan fasilitas dan kualitas manajemen sekolah.

Sehubungan dengan hal tersebut, maka di dalam pembelajaran dibutuhkan guru yang tidak hanya mampu mengajar dengan baik tetapi juga mampu melakukan evaluasi dengan baik. Kegiatan evaluasi sebagai bagian dari program pembelajaran perlu lebih dioptimalkan. Evaluasi tidak hanya bertumpu pada penilaian hasil belajar, tetapi juga perlu penilaian terhadap input, output, maupun kualitas proses pembelajaran itu sendiri. Optimalisasi sistem evaluasi menurut Mardapi (2003:12) memiliki dua makna, yaitu 1) sistem evaluasi yang memberikan informasi yang optimal dan 2) manfaat yang dicapai dari evaluasi. Manfaat yang utama dari evaluasi adalah meningkatkan kualitas pembelajaran dan selanjutnya akan terjadi peningkatan kualitas pendidikan. Bidang pendidikan ditinjau dari sasarannya, evaluasi ada yang bersifat makro dan ada yang mikro. Evaluasi yang bersifat makro sasarannya adalah program pendidikan, yaitu program yang direncanakan untuk memperbaiki bidang pendidikan. Evaluasi mikro sering digunakan di tingkat kelas, khususnya untuk mengetahui pencapaian belajar peserta didik. Pencapaian belajar ini bukan hanya yang bersifat kognitif saja, tetapi juga mencakup semua potensi yang ada pada peserta didik. Jadi sasaran evaluasi mikro adalah program pembelajaran di kelas dan yang menjadi penanggungjawabnya adalah guru (Mardapi, 2000:2). Konteks program pembelajaran di sekolah menurut Mardapi (2003:8) bahwa keberhasilan program pembelajaran selalu dilihat dari hasil belajar yang dicapai siswa. Di sisi lain evaluasi pada program pembelajaran membutuhkan data tentang pelaksanaan pembelajaran dan tingkat ketercapaian tujuannya. Keberhasilan program pembelajaran selalu dilihat dari aspek hasil belajar, sementara implementasi program pembelajaran di kelas atau kualitas proses pembelajaran itu berlangsung jarang tersentuh kegiatan penilaian.

2. Pembelajaran Pembelajaran yang sering juga disebut dengan belajar mengajar, sebagai terjemahan dari istilah instructional terdiri dari dua kata, belajar dan mengajar. Belajar adalah suatu proses yang ditandai dengan adanya perubahan pada diri seseorang. Hal ini sesuai dengan pendapat Woolfolk dan Nicolich (1984:159) yang mengatakan bahwa learning is a change in a person that comes about as a result of experience. Belajar adalah perubahan dalam diri seseorang yang berasal dari hasil pengalaman. Perubahan sebagai hasil proses belajar dapat ditunjukkan dalam berbagai bentuk seperti berubah pengetahuan, kecakapan, dan kemampuan, daya reaksi, dan daya penerimaan yang ada pada individu (Sujana dan Ibrahim, 2004:28). Menurut aliran behavioristik, kegiatan belajar terjadi karena adanya kondisi/stimulus dari lingkungan. Kegiatan belajar merupakan respons/reaksi terhadap kondisi/stimulus lingkungannya. Belajar tidaknya seseorang tergantung kepada faktor kondisional dari

lingkungan. Lingkungan dapat berupa lingkungan keluarga, masyarakat maupun lingkungan sekolah. Lingkungan sekolah terdiri dari guru, media pembelajaran, buku teks, kurikulum, teman sekelas, peraturan sekolah, maupun sumber-sumber belajar lainnya. Salah seorang tokoh aliran behavioristik, Gagne dalam Gredeer dan Margaret (1986:121) mengemukakan bahwa belajar terdiri dari tiga komponen penting, yaitu kondisi internal (internal conditions of learning), kondisi eksternal (external conditions of learning), dan hasil belajar (outcomes of learning). Komponen-komponen tersebut dilukiskan dalam bentuk Gambar 1.

Gambar 1 Komponen Belajar (Gagne dalam Gredeer dan Margaret, 1986:121) Sama halnya dengan belajar, mengajar pun pada hakikatnya adalah suatu proses, yakni proses mengatur, mengorganisir lingkungan yang ada di sekitar siswa sehingga menumbuhkan dan mendorong siswa melakukan kegiatan belajar. Hal ini dipertegas oleh Sudjana (2002:29) yang menyatakan bahwa mengajar adalah suatu proses mengatur dan mengorganisasi lingkungan yang ada di sekitar siswa sehingga dapat menumbuhkan dan mendorong siswa melakukan kegiatan belajar. Berdasarkan tinjauan proses, pembelajaran terdapat dua kegiatan yang terjadi dalam satu kesatuan waktu dengan pelaku yang berbeda. Pelaku belajar adalah siswa sedangkan pelaku pengajar (pembelajar) adalah guru. Kegiatan siswa dan kegiatan guru berlangsung dalam proses yang bersamaan untuk mencapai tujuan instruksional tertentu. Jadi dalam proses pembelajaran terjadi hubungan yang interaktif antara guru dengan siswa dalam ikatan tujuan instruksional. Karena pelaku dalam proses pembelajaran adalah guru dengan siswa, maka keberhasilan proses pembelajaran tidak terlepas dari faktor guru dan siswa.

3. Evaluasi Program 1. Tes, Pengukuran, Penilaian, dan Evaluasi Ada tiga istilah yang sering digunakan dalam evaluasi, yaitu tes, pengukuran, dan penilaian (test, measurement, and assessment). Tes merupakan salah satu cara untuk menaksir besarnya kemampuan seseorang secara tidak langsung, yaitu melalui respons seseorang terhadap stimulus atau pertanyaan (Mardapi, 1999:2). Tes merupakan salah satu alat untuk melakukan pengukuran, yaitu alat untuk mengumpulkan informasi karakteristik suatu objek. Obyek ini bisa berupa kemampuan peserta didik, sikap, minat, maupun motivasi. Respons peserta tes terhadap sejumlah pertanyaan menggambarkan kemampuan dalam bidang tertentu. Tes merupakan bagian tersempit dari evaluasi. Pengukuran (measurement) dapat didefinisikan sebagai the process by which information about the attributes or characteristics of thing are determinied and differentiated (Oriondo dan Antonio, 1998:2). Guilford dalam Griffin dan Nix (1991:3) mendefinisi pengukuran dengan assigning numbers to, or quantifying, things according to a set of rules. Sementara itu Ebel dan Frisbie (1986:14) berpendapat pengukuran dinyatakan sebagai proses penetapan angka terhadap individu atau karakteristiknya menurut aturan tertentu. Hal senada dikemukakan Allen dan Yen dalam Mardapi (2000:1) mendefinisikan pengukuran sebagai penetapan angka dengan cara yang sistematik untuk menyatakan keadaan individu. Dengan demikian, esensi dari pengukuran adalah kuantifikasi atau penetapan angka tentang karakteristik atau keadaan individu menurut aturan-aturan tertentu. Keadaan individu ini bisa berupa kemampuan kognitif, afektif, dan psikomotor. Pengukuran memiliki konsep yang lebih luas dari pada tes. Guru dapat mengukur karakteristik suatu objek tanpa menggunakan tes, misalnya dengan pengamatan, rating scale atau cara lain untuk memperoleh informasi dalam bentuk kuantitatif. Penilaian (assessment) memiliki makna yang berbeda dengan evaluasi. The Task Group on Assessment and Testing (TGAT) mendeskripsikan asesmen sebagai semua cara yang digunakan untuk menilai unjuk kerja (performance) individu atau kelompok (Griffin dan Nix, 1991:3). Popham (1995:3) mendefinisikan asesmen dalam konteks pendidikan sebagai sebuah usaha secara formal untuk menentukan status siswa berkenaan dengan berbagai kepentingan pendidikan. Boyer dan Ewel dalam Stark dan Thomas (1994:46) mengemukakan assessment is processes that provide information about individual students, about curricula or programs, about institutions, or about entire systems of institutions. Asesmen sebagai proses yang menyediakan informasi tentang individu siswa, tentang kurikulum atau program, tentang institusi atau segala sesuatu yang berkaitan dengan sistem

institusi.. Berdasarkan pendapat di atas disimpulkan bahwa asesmen atau penilaian merupakan kegiatan menafsirkan data hasil pengukuran. Evaluasi memiliki makna yang berbeda dengan penilaian, pengukuran maupun tes. Stufflebeam (2003) mengemukakan bahwa: Evaluation is the process of delineating, obtaining, and providing descriptive and judgmental information about the worth and merit of some objects goals, design, implementation, and impact in order to guide decision making, serve needs for accountability, and promote understanding of the involved phenomena.

Evaluasi merupakan suatu proses menyediakan informasi yang dapat dijadikan sebagai pertimbangan untuk menentukan harga dan jasa (the worth and merit) dari tujuan yang dicapai, desain, implementasi, dan dampak untuk membantu membuat keputusan, membantu pertanggung jawaban dan meningkatkan pemahaman terhadap fenomena. Menurut rumusan tersebut, inti dari evaluasi adalah penyediaan informasi yang dapat dijadikan sebagai bahan pertimbangan dalam mengambil keputusan. Sementara itu National Study Committee on Evaluation dalam Stark dan Thomas (1994:12) menyatakan bahwa evaluation is the process of ascertaining the decision of concern, selecting appropriate information, and collecting and analyzing information in order to report summary data useful to decision makers in selecting among alternatives. Evaluasi merupakan suatu proses atau kegiatan pemilihan, pengumpulan, analisis dan penyajian informasi yang dapat digunakan sebagai dasar pengambilan keputusan serta penyusunan program selanjutnya. Hal ini dipertegas oleh Griffin dan Nix (1991:3) menyatakan: Measurement, assessment, and evaluation are hierarchial. The comparison of observation with the criteria is a measurement, the interpretation and description of the evidence is an assessment and the judgement of the value or implication of the behavior is an evaluation.

Pengukuran, penilaian, dan evaluasi bersifat hierarkis. Evaluasi didahului dengan penilaian (assessment), sedangkan penilaian didahului dengan pengukuran. Pengukuran diartikan sebagai kegiatan membandingkan hasil pengamatan dengan kriteria, penilaian (assessment) merupakan kegiatan menafsirkan dan mendeskripsikan hasil pengukuran, sedangkan evaluasi merupakan penetapan nilai atau implikasi perilaku. Brikerhoff dalam Mardapi (2000)

menjelaskan bahwa evaluasi merupakan proses yang menentukan sejauh mana tujuan pendidikan dapat dicapai. Lebih lanjut Brikerhoff dalam Mardapi (2000) mengemukakan dalam pelaksanaan evaluasi terdapat tujuh elemen yang harus dilakukan, yaitu: 1) focusing the evaluation (penentuan fokus yang akan dievaluasi), 2) designing the evaluation (penyusunan desain evaluasi), 3) collecting information (pengumpulan informasi), 4) analyzing and interpreting (analisis dan interpretasi informasi), 5) reporting information (pembuatan laporan), 6) managing evaluation (pengelolaan evaluasi), dan 7) evaluating evaluation (evaluasi untuk evaluasi). Berdasarkan pengertian tersebut menunjukkan bahwa dalam melakukan evaluasi, evaluator pada tahap awal harus menentukan fokus yang akan dievaluasi dan desain yang akan digunakan. Hal ini berarti harus ada kejelasan apa yang akan dievaluasi yang secara implisit menekankan adanya tujuan evaluasi, serta adanya perencanaan bagaimana melaksanakan evaluasi. Selanjutnya, dilakukan pengumpulan data, menganalisis dan membuat interpretasi terhadap data yang terkumpul serta membuat laporan. Selain itu, evaluator juga harus melakukan pengaturan terhadap evaluasi dan mengevaluasi apa yang telah dilakukan dalam melaksanakan evaluasi secara keseluruhan. Weiss dalam Oriondo dan Antonio (1998) menyatakan the purpose of evaluation research is to measure the effect of program against the goals it set out accomplish as a means of contributing to subsuquest decision making about the program and improving future programming. Ada empat hal yang ditekankan pada rumusan tersebut, yaitu: 1) menunjuk pada penggunaan metode penelitian, 2) menekankan pada hasil suatu program, 3) penggunaan kriteria untuk menilai, dan 4) kontribusi terhadap pengambilan keputusan dan perbaikan program di masa mendatang. Berdasarkan pendapat di atas disimpulkan bahwa evaluasi merupakan proses yang sistematis dan berkelanjutan untuk mengumpulkan, mendeskripsikan, menginterpretasikan dan menyajikan informasi untuk dapat digunakan sebagai dasar membuat keputusan, menyusun kebijakan maupun menyusun program selanjutnya. Adapun tujuan evaluasi adalah untuk memperoleh informasi yang akurat dan obyektif tentang suatu program. Informasi tersebut dapat berupa proses pelaksanaan program, dampak/hasil yang dicapai, efisiensi serta pemanfaatan hasil evaluasi yang difokuskan untuk program itu sendiri, yaitu untuk mengambil keputusan apakah dilanjutkan, diperbaiki atau dihentikan. Selain itu, juga dipergunakan untuk kepentingan penyusunan program berikutnya maupun penyusunan kebijakan yang terkait dengan program. Bidang pendidikan ditinjau dari sasarannya, evaluasi ada yang bersifat makro dan ada yang mikro. Evaluasi yang bersifat makro sasarannya adalah program pendidikan, yaitu program yang direncanakan untuk memperbaiki bidang pendidikan. Evaluasi mikro sering digunakan di tingkat kelas, khususnya untuk mengetahui pencapaian belajar siswa. Pencapaian belajar ini

bukan hanya yang bersifat kognitif saja, tetapi juga mencakup semua potensi yang ada pada siswa. Jadi sasaran evaluasi mikro adalah program pembelajaran di kelas dan yang menjadi penanggungjawabnya adalah guru (Mardapi, 2000:2).

2. Model-model Evaluasi Program Pembelajaran Ada banyak model evaluasi yang dikembangkan oleh para ahli yang dapat dipakai dalam mengevaluasi program pembelajaran. Berbagai model sebagaimana yang dikemukakan oleh Kirkpatrick (2009) adalah: 1. Jack PhillPS Five Level ROI Model, 2. Daniel Stufflebeams CIPP Model (Context, Input, Process, Product), 3. Robert Stakes Responsive Evaluation Model, 4. Robert Stakes Congruence-Contingency Model, 5. Kaufmans Five Levels of Evaluation, 6. CIRO (Context, Input, Reaction, Outcome), 7. PERT (Program Evaluation and Review Technique), 8. Alkins UCLA Model, 9. Michael Scrivens Goal-Free Evaluation Approach, 10. Provuss Discrepancy Model, 11. Eisners Connoisseurship Evaluation Models, 12. Illuminative Evaluation Model, 13. Portraiture Model.

Berbagai model tersebut di atas akan diuraikan model yang populer dan banyak dipakai sebagai strategi atau pedoman kerja dalam pelaksanaan evaluasi program pembelajaran, yaitu 1) Evaluasi Model Kirkpatrick (Kirkpatrick Four Levels Evaluation Model), 2) Evaluasi Model CIPP (Context, Input, Prosess, and Product), dan 3) Evaluasi Model Stake (Model Couintenance). 1. Evaluasi Model Kirkpatrick Kirkpatrick salah seorang ahli evaluasi program pelatihan dalam bidang pengembangan sumber daya manusia (SDM). Model evaluasi yang dikembangkan oleh Kirkpatrick dikenal dengan istilah Kirkpatrick Four Levels Evaluation Model. Evaluasi terhadap efektivitas program pelatihan (training) menurut Kirkpatrick (1998) mencakup empat level evaluasi, yaitu: level 1 reaction, level 2 learning, level 3 behavior, dan level 4 result.

1. Evaluasi Reaksi (Evaluating Reaction) Mengevaluasi terhadap reaksi peserta pelatihan berarti mengukur kepuasan peserta (customer satisfaction). Program pelatihan dianggap efektif apabila proses pelatihan dirasa menyenangkan dan memuaskan bagi peserta pelatihan sehingga mereka tertarik termotivasi untuk belajar dan berlatih. Dengan kata lain peserta pelatihan akan termotivasi apabila proses pelatihan berjalan secara memuaskan bagi peserta yang pada akhirnya akan memunculkan reaksi dari peserta yang menyenangkan. Sebaliknya apabila peserta tidak merasa puas terhadap proses pelatihan yang diikutinya maka mereka tidak akan termotivasi untuk mengikuti pelatihan lebih lanjut. Partner (2009) mengemukakan the interest, attention and motivation of the participants are critical to the success of any training program, people learn better when they react positively to the learning environment. Disimpulkan bahwa keberhasilan proses kegiatan pelatihan tidak terlepas dari minat, perhatian, dan motivasi peserta pelatihan dalam mengikuti jalannya kegiatan pelatihan. Orang akan belajar lebih baik manakala mereka memberi reaksi positif terhadap lingkungan belajar. Kepuasan peserta pelatihan dapat dikaji dari beberapa aspek, yaitu materi yang diberikan, fasilitas yang tersedia, strategi penyampaian materi yang digunakan oleh instruktur, media pembelajaran yang tersedia, jadwal kegiatan sampai menu, dan penyajian konsumsi yang disediakan. Mengukur reaksi dapat dilakukan dengan reaction sheet dalam bentuk angket sehingga lebih mudah dan lebih efektif. 2. Evaluasi Belajar (Evaluating Learning) Kirkpatrick (1998:20) mengemukakan learning can be defined as the extend to which participans change attitudes, improving knowledge, and/or increase skill as a result of attending the program. Terdapat tiga hal yang dapat instruktur ajarkan dalam program pelatihan, yaitu pengetahuan, sikap maupun keterampilan. Peserta pelatihan dikatakan telah belajar apabila pada dirinya telah mengalami perubahan sikap, perbaikan pengetahuan maupun peningkatan keterampilan. Oleh karena itu untuk mengukur efektivitas program pelatihan maka ketiga aspek tersebut perlu untuk diukur. Tanpa adanya perubahan sikap, peningkatan pengetahuan maupun perbaikan keterampilan pada peserta pelatihan maka program dapat dikatakan gagal. Penilaian evaluating learning ini ada yang menyebut dengan penilaian hasil (output) belajar. Oleh karena itu dalam pengukuran hasil belajar (learning measurement) berarti penentuan satu atau lebih hal berikut: 1) pengetahuan yang telah dipelajari, 2) perubahan sikap, dan 3) keterampilan yang telah dikembangkan atau diperbaiki.

3. Evaluasi Tingkah Laku (Evaluating Behavior) Evaluasi pada level ke 3 (evaluasi tingkah laku) ini berbeda dengan evaluasi terhadap sikap pada level ke 2. Penilaian sikap pada evaluasi level 2 difokuskan pada perubahan sikap yang terjadi pada saat kegiatan pelatihan dilakukan sehingga lebih bersifat internal, sedangkan penilaian tingkah laku difokuskan pada perubahan tingkah laku setelah peserta kembali ke tempat kerja. Apakah perubahan sikap yang telah terjadi setelah mengikuti pelatihan juga akan diimplementasikan setelah peserta kembali ke tempat kerja, sehingga penilaian tingkah laku ini lebih bersifat eksternal. Perubahan perilaku apa yang terjadi di tempat kerja setelah peserta mengikuti program pelatihan. Dengan kata lain yang perlu dinilai adalah apakah peserta merasa senang setelah mengikuti pelatihan dan kembali ke tempat kerja? Bagaimana peserta dapat mentrasfer pengetahuan, sikap dan keterampilan yang diperoleh selama pelatihan untuk diimplementasikan di tempat kerjanya? Karena yang dinilai adalah perubahan perilaku setelah kembali ke tempat kerja maka evaluasi level 3 ini dapat disebut sebagai evaluasi terhadap outcomes dari kegiatan pelatihan. 4. Evaluasi Hasil (Evaluating Result) Evaluasi hasil dalam level ke 4 ini difokuskan pada hasil akhir (final result) yang terjadi karena peserta telah mengikuti suatu program. Termasuk dalam kategori hasil akhir dari suatu program pelatihan di antaranya adalah kenaikan produksi, peningkatan kualitas, penurunan biaya, penurunan kuantitas terjadinya kecelakaan kerja, penurunan turnover (pergantian) dan kenaikan keuntungan. Beberapa program mempunyai tujuan meningkatkan moral kerja maupun membangun teamwork (tim kerja) yang lebih baik. Dengan kata lain adalah evaluasi terhadap impact program (pengaruh program). Tidak semua pengaruh dari sebuah program dapat diukur dan juga membutuhkan waktu yang cukup lama. Oleh karena itu evaluasi level 4 ini lebih sulit di bandingkan dengan evaluasi pada level-level sebelumnya.

2. Evaluasi Model CIPP Konsep evaluasi model CIPP (Context, Input, Prosess, and Product) pertama kali dikemukakan oleh Stufflebeam tahun 1965 sebagai hasil usahanya mengevaluasi ESEA (The Elementary and Secondary Education Act). Konsep tersebut ditawarkan Stufflebeam dengan pandangan bahwa tujuan penting evaluasi adalah bukan membuktikan tetapi untuk memperbaiki.

Hal ini dipertegas oleh Madaus dkk (1983:118) yang mengemukakan the CIPP approach is based on the view that the most important purpose of evaluation is not to prove but to improve. Evaluasi model CIPP dapat diterapkan dalam berbagai bidang, seperti pendidikan, manajemen, perusahaan serta dalam berbagai jenjang baik itu proyek, program maupun institusi. Dalam bidang pendidikan Stufflebeam (2003) menggolongkan sistem pendidikan atas empat dimensi, yaitu context, input, process, dan product, sehingga model evaluasi yang ditawarkan diberi nama CIPP model yang merupakan singkatan ke empat dimensi tersebut. Sudjana dan Ibrahim (2004:246) menerjemahkan masing-masing dimensi tersebut dengan makna: 1. Context, situasi atau latar belakang yang mempengaruhi jenis-jenis tujuan dan strategi pendidikan yang akan dikembangkan dalam sistem yang bersangkutan, situasi ini merupakan faktor eksternal, seperti misalnya masalah pendidikan yang dirasakan, keadaan ekonomi negara, dan pandangan hidup masyarakat, 2. Input, sarana/modal/bahan dan rencana strategi yang ditetapkan untuk mencapai tujuan pendidikan, komponen input meliputi siswa, guru, desain, saran, dan fasilitas, 3. Process, pelaksanaan strategi dan penggunaan sarana/modal/bahan di dalam kegiatan nyata di lapangan, komponen proses meliputi kegiatan pembelajaran, pembimbingan, dan pelatihan, 4. Product, hasil yang dicapai baik selama maupun pada akhir pengembangan sistem pendidikan yang bersangkutan, komponen produk meliputi pengetahuan, kemampuan, dan sikap (siswa dan lulusan).

Aspek yang dievaluasi dan prosedur pelaksanaan evaluasi model CIPP menurut Stufflebeam dalam Oliva (1992:491) seperti pada Tabel 1.

Tabel 1 Aspek dan Prosedur Pelaksanaan Evaluasi Model CIPP Context Evaluation Obyek (sasaran) Mendefinisikan operasional context, mengidentifikasi dan Input Evaluation Mengidentifikasi dan memperkirakan kapabilitas sistem, strategi Process Evaluation Mengidentifikasi dan memperkirakan di dalam proses, tentang Product Evaluation Menghubungkan informasi outcomes dengan obyek dan informasi

Context Evaluation memperkirakan kebutuhan dan mendiagnosa masalah, memprediksi kebutuhan dan peluang

Input Evaluation input yang sekarang tersedia, dan mendesain untuk implementasi strategi

Process Evaluation kerusakan di dalam desain prosedur atau implementasi, menyediakan informasi sebelum program diputuskan dan memperbaiki dokumen even prosedural dan aktivitas Memonitoring setiap aktivitas yang berpotensi terdapat tantangan secara prosedural, dan memberikan tanda untuk antisipasi, untuk memperoleh informasi yang spesifik untuk memutuskan suatu program, dan mendeskripsikan proses yang aktual

Product Evaluation context, input, dan process

Metode

Mendeskripsikan context, membandingkan dengan yang sebenarnya dan mengawasi input dan output, membandingkan kemungkinan dan ketidakmungkinan sistem kerja, dan menganalisa penyebab ketidakmungkinan dan ketidaksesuaian kenyataan dengan tujuan (harapan)

Mendeskripsikan dan menganalisis SDM dan sumber daya material yang tersedia, solusi strategis, dan desain prosedur untuk relevansi, kemungkinan kegiatan yang dapat dilaksanakan, dan kebutuhan ekonomi dalam rangkaian kegiatan

Mendefinisikan operasional dan mengukur kriteria asosiasi dengan obyektif dan membandingkan hasil pengukuran dengan standar sebelum dilakukan antisipasi, dan menginterpretasi outcomes berdasarkan dokumen informasi context, input, dan process Untuk memutuskan

Hubungan pengambilan

Memutuskan dalam hal

Memilih sebagai

SDM Untuk implementasi

Context Evaluation keputusan dengan proses perubahan menyajikan perangkat, tujuan asosiasi, dengan mendiskusikan kebutuhan dan peluang, dan sasaran asosiasi untuk perubahan perencanaan kebutuhan

Input Evaluation pendukung, solusi strategis, dan desain prosedural untuk perubahan struktur kerja (aktivitas)

Process Evaluation dan memperbaiki desain program dan prosedur untuk efektivitas proses kontrol

Product Evaluation dalam kegiatan secara kontinu, menghentikan (mengakhiri), modifikasi, mengatur kembali fokus perubahan aktivitas dengan tahapan materi yang lain dalam proses perubahan untuk mengatur kembali aktivitas perubahan

Stufflebeam dalam naskah yang dipresentasikan pada Annual Conference of the Oregon Program Evaluation Network (OPEN) Portland tahun 2003, memperluas makna evaluasi product menjadi impact evaluation (evaluasi pengaruh), effectiveness evaluation (evaluasi efektivitas), sustainability evaluation (evaluasi keberlanjutan), dan transportability evaluation (evaluasi transformasi) (Stufflebeam, 2003:59-62).

3. Evaluasi Model Stake (Model Couintenance) Stake menekankan adanya dua dasar kegiatan dalam evaluasi, yaitu description (deskripsi) dan judgement (pertimbangan), serta membedakan adanya tiga tahap dalam program pendidikan, yaitu antecedent (program pendahulu/masukan/context), transaction (transaksi/kejadian/process), dan outcomes (hasil/result). Stake dalam Tayibnapis (2000:19) berpendapat menilai suatu program pendidikan harus melakukan perbandingan yang relatif antara program satu dan program yang lain, atau perbandingan yang absolut yaitu membandingkan suatu program dengan standar tertentu.

Penekanan yang umum atau hal yang penting dalam model ini adalah bahwa evaluator yang membuat penilaian tentang program yang dievaluasi. Lebih lanjut Stake dalam Tayibnapis (2000:20) menyatakan bahwa description di satu pihak berbeda dengan judgement di lain pihak. Dalam model ini antecendent (masukan) transaction (proses) dan outcomes (hasil) data di bandingkan tidak hanya untuk menentukan apakah ada perbedaan antara tujuan dengan keadaan yang sebenarnya, tetapi juga dibandingkan dengan standar yang absolut untuk menilai manfaat program.

3. Cakupan Evaluasi Program Pembelajaran Evaluasi program pembelajaran menurut Soetopo (2007:137) adalah pemberian estimasi terhadap pelaksanaan pembelajaran untuk menentukan keefektifan dan kemajuan dalam rangka mencapai tujuan pembelajaran yang telah ditetapkan. Memperoleh gambaran yang komprehensif tentang efektivitas program pembelajaran, terdapat tiga komponen yang perlu dijadikan obyek evaluasi, yaitu a) desain program pembelajaran, b) implementasi program pembelajaran, dan c) hasil program pembelajaran yang dicapai. 1. Desain Program Pembelajaran Desain program pembelajaran dinilai dari 1) aspek tujuan yang ingin dicapai ataupun kompetensi yang akan dikembangkan, 2) strategi pembelajaran yang akan diterapkan, dan 3) isi program pembelajaran. 1. Kompetensi yang akan dikembangkan Salah satu aspek dari program pembelajaran yang dijadikan obyek evaluasi adalah kompetensi yang akan dikembangkan, khususnya kompetensi dasar dari mata pelajaran yang bersangkutan. Ada beberapa kriteria yang dapat digunakan untuk menilai kompetensi dasar yang akan dikembangkan, yaitu a) menunjang pencapaian kompetensi standar kompetensi maupun kompetensi lulusan, b) jelas rumusan yang digunakan (observable), c) mampu menggambarkan dengan jelas perubahan tingkah laku yang diharapkan diri siswa, dan d) mempunyai kesesuaian dengan tingkat perkembangan siswa. 2. Strategi pembelajaran Ada beberapa kriteria yang dapat digunakan untuk menilai strategi pembelajaran yang direncanakan, yaitu a) kesesuaian dengan kompetensi yang akan dikembangkan, b) kesesuaian dengan kondisi belajar mengajar yang diinginkan, c) kejelasan rumusan, terutama mencakup aktivitas guru maupun siswa dalam proses pembelajaran, dan d) kemungkinan keterlaksanaan dalam kondisi dan alokasi waktu yang ada.

3. Isi program pembelajaran Isi program pembelajaran yang dimaksud adalah pengalaman belajar yang akan disiapkan oleh guru maupun yang harus diikuti siswa. Ada beberapa kriteria yang dapat digunakan untuk menilai isi program pembelajaran, yaitu a) relevansi dengan kompetensi yang akan dikembangkan, b) relevansi dengan pengalaman murid dan lingkungan, c) kesesuaian dengan tingkat perkembangan siswa, d) kesesuaian dengan alokasi waktu yang tersedia, dan e) keautentikan pengalaman dengan lingkungan hidup siswa.

2. Implementasi Program Pembelajaran Selain desain program pembelajaran, proses implementasi program atau proses pelaksanaan pun perlu dijadikan obyek evaluasi, khususnya proses belajar dan pembelajaran yang berlangsung di lapangan. National Council for the Social Studies (2006:4) mengemukakan evaluation istrument should measure both content and process. Disimpulkan bahwa evaluasi dalam social studies seharusnya mengukur isi maupun proses pembelajaran. Sedangkan mengenai standar evaluasi proses pembelajaran Sudjana dan Ibrahim (2004:230-232) menampilkan sejumlah kriteria yang dapat digunakan untuk mengevaluasi proses belajar dan pembelajaran yaitu 1) konsistensi dengan kegiatan yang terdapat dalam program pembelajaran, 2) keterlaksanaan oleh guru, 3) keterlaksanaan dari segi siswa, 4) perhatian yang diperlihatkan para siswa terhadap pembelajaran yang sedang berlangsung, 5) keaktifan para siswa dalam proses belajar, 6) kesempatan yang diberikan untuk menerapkan hasil pembelajaran dalam situasi yang nyata, 7) pola interaksi antara guru dan siswa, dan 8) kesempatan untuk mendapatkan umpan balik secara kontinu.

3. Hasil Program Pembelajaran Selain desain program dan implementasi, komponen ketiga yang perlu dievaluasi adalah hasil-hasil yang dicapai oleh kegiatan pembelajaran. Hasil yang dicapai ini dapat mengacu pada pencapaian tujuan jangka pendek (ouput) maupun mengacu pada pencapaian tujuan jangka panjang (outcome). Outcome program pembelajaran tidak kalah pentingnya dengan output, karena dalam outcome ini akan dinilai seberapa jauh siswa mampu mengimplementasikan kompetensi yang dipelajari di kelas ke dalam dunia nyata (realworld) dalam memecahkan berbagai persoalan hidup dan kehidupan dalam masyarakat. 4. Penutup

Mengevaluasi keberhasilan program pembelajaran tidak cukup hanya dengan mengadakan penilaian terhadap hasil belajar siswa sebagai produk dari sebuah proses pembelajaran. Kualitas suatu produk pembelajaran tidak terlepas dari kualitas proses pembelajaran itu sendiri. Evaluasi terhadap program pembelajaran yang disusun dan dilaksanakan guru sebaiknya menjangkau penilaian terhadap: 1) desain pembelajaran, yang meliputi kompetensi yang dikembangkan, strategi pembelajaran yang dipilih, dan isi program, 2) implementasi program pembelajaran atau kualitas pembelajaran, dan 3) hasil program pembelajaran. Penilaian terhadap hasil program pembelajaran tidak cukup terbatas pada hasil jangka pendek atau output tetapi sebaiknya juga menjangkau outcome dari program pembelajaran. Berbagai model evaluasi program dapat dipilih oleh guru maupun sekolah untuk mengadakan evaluasi terhadap keberhasilan program pembelajaran. Pemilihan suatu model evaluasi akan tergantung pada kemampuan evaluator, tujuan evaluasi serta untuk siapa evaluasi itu dilaksanakan. Sistem evaluasi harus difokuskan dengan jelas pada proses perbaikan daripada pertanggungjawaban untuk produk akhir. Sistem ini harus dioperasikan dekat dengan titik intervensi (obyek yaitu sekolah) untuk perubahan. Pendekatan analisis evaluasi pembelajaran dikembangkan dalam memenuhi kebutuhan sekolah. Kompleksitas permasalahan yang dihadapi evaluasi di bidang pendidikan harus ditangani dengan analisis multivariat sehingga dapat memberikan bimbingan kepada pengawas sebagai upaya perubahan.

DAFTAR RUJUKAN

Ebel, R. L., dan Frisbie, D. A. 1986. Essential of Educational Measurement. New Jersey: Prentice Hall, Inc. Gredeer, B., dan Margaret, E. 1986. Learning and Instruction: Theory into Practice. New York: Macmillan Publising. Griffin, P., dan Nix, P. 1991. Educational Assessment and Reporting. Sydney: Harcout Brace Javanovich Publisher. Kirkpatrick, D. L. 1998. Evaluating Training Programs: The Four Levels. San Francisco: Berrett-Koehler Publisher, Inc. Kirkpatrick, D. L. 2009. Kirkpatricks Training Evaluation Model (online). (http://www.businessballs.com/kirkpatricklearningevaluationmodel.htm, diakses 23 Oktober 2009). Madaus, G. F., Scriven, M. S., dan Stuffebeam, D. L. 1993. Evaluation Models, Viewpoints on Educational and Human Services Evaluation. Boston: Kluwer-Nijhoff Publishing. Mardapi, D. 1999. Pengukuran, Penilaian, dan Evaluasi. Makalah disajikan dalam Penataran Evaluasi Pembelajaran Matematika SLTP untuk Guru Inti Matematika di MGMP SLTP, PPPG Matematika Yogyakarta, Yogyakarta, 8-23 November. Mardapi, D. 2000. Evaluasi Pendidikan. Makalah disajikan dalam Konvensi Pendidikan Nasional, Universitas Negeri Jakarta, Jakarta, 19-23 September. Mardapi, D. 2003. Kurikulum 2004 dan Optimalisasi Sistem Evaluasi Pendidikan di Sekolah. Makalah disajikan dalam Seminar Nasional Kurikulum 2004 Berbasis Kompetensi, Universitas Ahmad Dahlan, Yogyakarta, 10 Januari. Oliva, P. F. 1992. Developing the Curriculum. New York: Harper Collins Publishers. Oriondo, L. L., dan Antonio, E. M. D. 1998. Evaluating Educational Outcomes (Test, Measurment, and Evaluation). Florentino St: Rex Printing Company. Partner, C. 2009. Implementing the Kirkpatrick Evaluation Model (http://www.coe.wayne.edu/eval/pdf, diakses 23 Oktober 2009). Plus (online).

Popham, W. J. 1995. Classroom Assessment. Boston: Allyn and Bacon. Soetopo, H. 2007. Evaluasi Program Supervisi Pendidikan. Dalam Imron, A., Burhanuddin, dan Maisyaroh (Eds.), Supervisi Pendidikan dan Pengajaran: Konsep, Pendekatan, dan Penerapan Pembinaan Profesional (hlm. 136-149). Malang: Fakultas Ilmu Pendidikan Universitas Negeri Malang. Stark, J. S., dan Thomas, A. 1994. Assessment and Program Evaluation. Needham Heights: Simon & Schuster Custom Publishing. Stufflebeam, D. L. 2003. The CIPP Model for Evaluation: the Article Presented at the 2003 Annual Conference of the Oregon Program Evaluators Network (OPEN) 3 October 2003 (online). (http://www.wmich.edu, diakses 23 Oktober 2009). Sudjana, N. 2002. Dasar-dasar Proses Belajar dan Mengajar. Bandung: Sinar Baru Algesindo. Sudjana, N., dan Ibrahim. 2004. Penelitian dan Penilaian Pendidikan. Bandung: Sinar Baru Algesindo. Suhartoyo, E. 2005. Pengalaman Peningkatan Mutu Pendidikan melalui Pengembangan Budaya Sekolah di SMAN 1 Kasihan Bantul. Makalah disajikan dalam Seminar Nasional Peningkatan Mutu Pendidikan melalui Pengembangan Budaya Sekolah, Universitas Negeri Yogyakarta, Yogyakarta, 23 November. Tayibnapis, F. Y. 2000. Evaluasi Program. Jakarta: Rineka Cipta. Woolfolk, A. E., dan Nicolich, L. M. 1984. Educational Psychology for Teacher. Englewood Cliffs: Prentice Hall Inc. Diposkan oleh IMAM GUNAWAN di 16:52