Anda di halaman 1dari 26

TUGAS EVALUASI PEMBELAJARAN MATEMATIKA 1 VALIDITAS DAN RELIBILITAS

Dosen Pengampu : Drs. Agus M. Yasin M.Pd

Disusun Oleh :

1. Riska F.L. 2. Sika W. 3. Sodik T. 4. Sri Retnoningrum

(09411.256) (09411.271) (09411.275) (09411.277)

PROGRAM STUDI PENDIDIKAN MATEMATIKA FAKULTAS PENDIDIKAN MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT KEGURUAN ILMU PENDIDIKAN PGRI MADIUN 2012

Kata Pengantar
Puja dan puji syukur kami ucapkan kepada Allah SWT yang telah memberikan keridhoan-Nya kepada kami sehingga kami dapat menyusun makalah yang berjudul Validitas Dan Relibilitas. Makalah ini disusun untuk memenuhi tugas matakuliah EVALUASI PEMBELAJARAN MATEMATIKA 1. Kami menyusun makalah ini berdasarkan berbagai sumber yang telah kami peroleh yaitu dari pustaka dan artikel-artikel dari internet. Pada kesempatan ini, tidak lupa kami mengucapakan terima kasih kepada Bapak Drs. Agus M. Yasin M.Pd selaku Dosen EVALUASI PEMBELAJARAN MATEMATIKA 1 yang telah membimbing kami, serta pihak-pihak yang telah ikut serta dalam penyusunan makalah ini. Dengan adanya makalah ini semoga bermanfaat bagi kita semua dan dapat menambah wawasan mengenai EVALUASI PEMBELAJARAN

MATEMATIKA 1. Penyusun dapat menyadari bahwa makalah ini jauh dari sempurna, oleh karena itu diharapkan koreksi, saran perbaikan dan kritik yang membangun demi kesempurnaan makalah kami.

Madiun , Januari 2012

Penyusun

Daftar Isi
HALAMAN JUDUL ................................................................................... i KATA PENGANTAR ................................................................................. ii DAFTAR ISI ............................................................................................. iii BAB I : PENDAHULUAN .................................................................. 1 A. Latar Belakang .................................................................. 1 B. Rumusan Masalah ............................................................. 1 C. Tujuan ............................................................................... 2 D. Manfaat ............................................................................. 2 BAB II : PEMBAHASAN .................................................................... 3 A. Pengertian Manajemen ...................................................... 3 B. Pengertian Manajemen Pendidikan .................................... 3 C. Tujuan Manajemen Pendidikan .......................................... 4 D. Fungsi Manajemen Pendidikan .......................................... 4 E. Prinsip-Prinsip Manajemen Pendidikan.............................. 7 F. Manajemen Pendidikan Sekolah Menengah Kejuruan ........ 9 G. Bidang Pendidikan Sekolah Menengah Kejuruan ............. 14 BAB III : PENUTUP............................................................................ 20 A. Simpulan ......................................................................... 20 B. Saran ............................................................................... 20 DAFTAR PUSTAKA................................................................................ 21

BAB I PENDAHULUAN A. Latar Belakang Validitas Dan Relibilitas merupakan faktor yang terpenting dalam menyelenggarakan pendidikan dan pengajaran di sekolah yang keberhasilannya diukur oleh prestasi nilai dari siswanya, oleh karena itu dalam

penyelenggaraannya di sekolah komponen-komponen terkait seperti: guruguru, Orang tua siswa dan anak didik/siswa harus berfungsi optimal dan khususnya pada siwanya itu sendiri. Manajemen pendidikan mempunyai pengertian kerja sama untuk mencapai tujuan pendidikan. Seperti kita ketahui, tujuan pendidkan itu merentang dari tujuan yang sederhana sampai dengan tujuan yang kompleks, tergantung lingkup dan tingkat pengertian pendidikan yang dimaksud. Setiap organisasi termasuk organisasi pendidikan seperti Sekolah akan sangat memerlukan manajemen untuk mengatur/mengelola kerjasama yang terjadi agar dapat berjalan dengan baik dalam pencapaian tujuan, untuk itu pengelolaannya mesti berjalan secara sistematis melalui tahapan-tahapan dengan diawali oleh suatu rencana sampai tahapan berikutnya dengan menunjukan suatu keterpaduan dalam prosesnya, dengan mengingat hal itu, maka makna pentingnya manajemen semakin jelas bagi kehidupan manusia termasuk bidang pendidikan.

B.

Rumusan Masalah

1. Apa pengertian manajemen? 2. Apa pengertian manajemen pendidikan? 3. Apa tujuan manajemen pendidikan? 4. Apa saja fungsi manajemen pendidikan? 5. Apa saja prinsip-prinsip manajemen pendidikan ? 6. Bagaimana manajemen pendidikan Sekolah Menengah Kejuruan? 7. Bagaimana struktur organisasi di Sekolah Menengah Kejuruan ? 8. Bagaimana bidang pendidikan Sekolah Menengah Kejuruan ?

C.

Tujuan

1. 2. 3. 4. 5. 6. 7. 8.

Dapat mengetahui pengertian manajemen Dapat mengetahui pengertian manajemen pendidikan Dapat mengetahui tujuan manajemen pendidikan Dapat mengetahui ruang lingkup manajemen pendidikan Dapat mengetahui fungsi manajemen pendidikan Dapat mengetahui prinsip-prinsip manajemen pendidikan Dapat mengetahui manajemen pendidikan Sekolah Menengah Kejuruan Dapat mengetahui bidang pendidikan Sekolah Menengah Kejuruan

D.

Manfaat

1. Penyelenggara pendidikan di sekolah diharapkan dapat mengaplikasikan pengetahuan manajemen dan manajemen pendidikan sekolah menengah kejuruan sehingga dapat mencapai tujuan pendidikan. Dengan mengetahui manajemen pendidikan sekolah menengah kejuruan, kepala sekolah mampu melaksanakan manajemen yang merujuk pada fungsi-fungsi manajemen.

BAB II KAJIAN TEORI


A. VALIDITAS I. Pengertian Validitas Secara bahasa konsep validitas adalah kesahihan; kebenaran yang diperkuat oleh bukti atau data yang sesuai. Secara istilah definisi validitas antara lain :  Kesesuaian antara definisi operasional dengan konsep yang mau diukur

 Validitas dapat dimaknai sebagai ketepatan dalam memberikan interpretasi terhadap hasil pengukurannya.  Validitas sebuah tes menyangkut apa yang diukur tes dan seberapa baik tes itu bisa mengukur. Validitas sebuah tes memberitahu kita tentang apa yang bisa kita simpulkan dari skor-skor tes. Berdasarkan definisi tersebut dapat dikemukakan bahwa sebenarnya validitas adalah suatu proses untuk mengukur dan menggambarkan objek atau keadaan suatu aspek sesuai dengan fakta. Dalam konsep validitas setidaknya terdapat dua makna yang terkandung di dalamnya, yaitur relevans dan accuracy. Relevansi menunjuk pada kemampuan instrumen untuk

memerankan fungsi untuk apa instrumen tersebut dimaksudkan (what it is intended to measure). Accuracy menunjuk ketepatan instrumen untuk mengidentifikasi. Aspek-aspek yang diukur secara tepat, yang berarti dapat

menggambarkan keadaan yang sebenarnya. Kedudukan validitas sangat penting dalam suatu kegiatan termasuk dalam evaluasi pembelajaran karena menyangkut hasil pembelajaran dilandasi dan di dukung oleh fakta-fakta yang representatif. Apabila tidak ada validitas maka suatu proses maupun hasil pembelajaran tidak akan berjalan objektif melainkan subjektif hal ini tentu akan merugikan semua pihak terutama siswa.

II. Macam Macam Validitas Istilah validitas ternyata memiliki keragaman kategori. Ebel (dalam Nazir 1988) membagi validitas menjadi: 1. Concurrent Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan kinerja. 2. Construct Validity adalah validitas yang berkenaan dengan kualitas aspek psikologis apa yang diukur oleh suatu pengukuran serta terdapat evaluasi bahwa suatu konstruk tertentu dapat dapat menyebabkan kinerja yang baik dalam pengukuran. 3. Face Validity adalah validitas yang berhubungan apa yang nampak dalam mengukur sesuatu dan bukan terhadap apa yang seharusnya hendak diukur. 4. Factorial Validity dari sebuah alat ukur adalah korelasi antara alat ukur dengan faktor-faktor yang yang bersamaan dalam suatu

kelompok atau ukuran-ukuran perilaku lainnya, dimana validitas ini diperoleh dengan menggunakan teknik analisis faktor. 5. Empirical Validity adalah validitas yang berkenaan dengan hubungan antara skor dengan suatu kriteria. Kriteria tersebut adalah ukuran yang bebas dan langsung dengan apa yang ingin diramalkan oleh pengukuran. 6. Intrinsic Validity adalah validitas yang berkenaan dengan penggunaan teknik uji coba untuk memperoleh bukti kuantitatif dan objektif untuk mendukung bahwa suatu alat ukur benar-benar mengukur apa yang seharusnya diukur. 7. Predictive Validity adalah validitas yang berkenaan dengan hubungan antara skor suatu alat ukur dengan kinerja seseorang di masa mendatang. 8. Content Validity adalah validitas yang berkenaan dengan baik buruknya sampling dari suatu populasi. 9. Curricular Validity adalah validitas yang ditentukan dengan cara menilik isi dari pengukuran dan menilai seberapa jauh pengukuran tersebut merupakan alat ukur yang benar-benar mengukur aspek-aspek sesuai dengan tujuan instruksional.

Sementara itu, Kerlinger (1990) membagi validitas menjadi tiga yaitu content validity (validitas isi), construct validity (validitas konstruk), dan criterion-related validity (validitas berdasar kriteria). 1) Validitas isi Validitas isi merupakan validitas yang diperhitumgkan melalui pengujian terhadap isi alat ukur dengan analisis rasional. Pertanyaan yang dicari jawabannya dalam validasi ini adalah "sejauhmana itemitem dalam suatu alat ukur mencakup keseluruhan kawasan isi objek yang hendak diukur oleh alat ukur yang bersangkutan?" atau berhubungan dengan representasi dari keseluruhan kawasan. Pengertian "mencakup keseluruhan kawasan isi" tidak saja menunjukkan bahwa alat ukur tersebut harus komprehensif isinya akan tetapi harus pula memuat hanya isi yang relevan dan tidak keluar dari batasan tujuan ukur.

Walaupun isi atau kandungannya komprehensif tetapi bila suatu alat ukur mengikutsertakan pula item-item yang tidak relevan dan berkaitan dengan hal-hal di luar tujuan ukurnya, maka validitas alat ukur tersebut tidak dapat dikatakan memenuhi ciri validitas yang sesungguhnya. Apakah validitas isi sebagaimana dimaksudkan itu telah dicapai oleh alat ukur, sebanyak tergantung pada penilaian subjektif individu. Dikarenakan estimasi validitas ini tidak melibatkan komputasi statistik, melainkan hanya dengan analisis rasional maka tidak diharapkan bahwa setiap orang akan sependapat dan sepaham dengan sejauhmana validitas isi suatu alat ukur telah tercapai. Selanjutnya, validitas isi ini terbagi lagi menjadi dua tipe, yaitu face validity (validitas muka) dan logical validity (validitas logis). a. Face Validity (Validitas Muka) Validitas muka adalah tipe validitas yang paling rendah signifikasinya karena hanya didasarkan pada penilaian selintas mengenai isi alat ukur. Apabila isi alat ukur telah tampak sesuai dengan apa yang ingin diukur maka dapat dikatakan validitas muka telah terpenuhi. Dengan alasan kepraktisan, banyak alat ukur yang pemakaiannya terbatas hanya mengandalkan validitas muka. Alat ukur atau instrumen psikologi pada umumnya tidak dapat menggantungkan kualitasnya hanya pada validitas muka. Pada alat ukur psikologis yang fungsi pengukurannya memiliki sifat menentukan, seperti alat ukur untuk seleksi karyawan atau alat ukur pengungkap kepribadian (asesmen), dituntut untuk dapat membuktikan validitasnya yang kuat.

b. Logical Validity (Validitas Logis) Validitas logis disebut juga sebagai validitas sampling (sampling validity). Validitas tipe ini menunjuk pada sejauhmana isi alat ukur merupakan representasi dari aspek yang hendak diukur. Untuk memperoleh validitas logis yang tinggi suatu alat ukur harus dirancang sedemikian rupa sehingga benar-benar berisi

hanya item yang relevan dan perlu menjadi bagian alat ukur secara keseluruhan. Suatu objek ukur yang hendak diungkap oleh alat ukur hendaknya harus dibatasi lebih dahulu kawasan perilakunya secara seksama dan konkrit. Batasan perilaku yang kurang jelas akan menyebabkan terikatnya item-item yang tidak relevan dan tertinggalnya bagian penting dari objek ukur yang seharusnya masuk sebagai bagian dari alat ukur yang

bersangkuatan. Validitas logis memang sangat penting peranannya dalam penyusunan tes prestasi dan penyusunan skala, yaitu dengan memanfaatkan blue-print atau tabel spesifikasi. 2) Validitas Konstruk Validitas konstruk adalah tipe validitas yang menunjukkan sejauhmana alat ukur mengungkap suatu trait atau konstruk teoritis yang hendak diukurnya (Allen & Yen, dalam Azwar 1986). Pengujian validitas konstruk merupakan proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai trait yang diukur. Walaupun pengujian validitas konstruk biasanya memerlukan teknik analisis statistik yang lebih kompleks daripada teknik yang dipakai pada pengujian validitas empiris lainnya, akan tetapi validitas konstruk tidaklah dinyatakan dalam bentuk koefisien validitas tunggal. Konsep validitas konstruk sangatlah berguna pada alat ukur yang mengukur trait yang tidak memiliki kriteria eksternal. Dukungan terhadap adanya validitas konstrak, menurut Magnusson, dapat dicapai melalui beberapa cara antara lain : a. Studi mengenai perbedaan diantara kelompok-kelompok yang menurut teori harus berbeda. Apabila teori mengatakan bahwa antara suatu kelompok dengan kelompok lainnya harus memiliki skor yang berbeda. b. Studi mengenai pengaruh perubahan yang terjadi dalam diri individu dan lingkungannya terhadap hasil tes. Apabila teori mengatakan bahwa hasil tes dipengaruhi oleh kondisi subjek dikarenakan faktor kematangan.

c. Studi mengenai korelasi diantara berbagai variabel yang menurut teori mengukur aspek yang sama. Studi ini dapat diperluas dengan mengikutsertakan korelasi antara berbagai skor tes yang mengukur aspek yang berbeda. d. Studi mengenai korelasi antaraitem atau antar belahan tes. Interkorelasi yang tinggi antarbelahan dari suatu tes dapat dianggap sebagai bukti bahwa tes mengukur satu variabel satuan (unitary variable). 3) Validitas Berdasar Kriteria Pendekatan validitas berdasar kriteria menghendaki

tersedianya kriteria eksternal yang dapat dijadikan dasar pengujian skor alat ukur. Suatu kriteria adalah variabel perilaku yang akan diprediksikan oleh skor alat ukur. Untuk melihat tingginya validitas berdasar kriteria dilakukan komputasi korelasi antara skor alat ukur dengan skor kriteria. Dilihat dari segi waktu untuk memperoleh skor kriterianya, prosedur validasi berdasar kriteria menghasilkan dua macam validitas yaitu validitas prediktif (predictive validity) dan validitas konkuren (concurrent validity). a. Validitas Prediktif Validitas prediktif sangat penting artinya bila alat ukur dimaksudkan untuk berfungsi sebagai prediktor bagi kinerja di masa yang akan datang. Contoh situasi yang menghendaki adanya prediksi kinerja ini antara lain adalah dalam bimbingan karir; seleksi mahasiswa baru, penempatan karyawan, dan semacamnya. Contohnya adalah sewaktu kita melakukan pengujian validitas alat ukur kemampuan yang digunakan dalam

penempatan karyawan. Kriteria yang terbaik antara lain adalah kinerjanya setelah ia betul-betul ditempatkan sebagai karyawan dan melaksanakan tugasnya selama beberapa waktu. Skor kinerja karyawan tersebut dapat diperoleh dari berbagai cara, misalnya menggunakan indeks produktivitas atau rating yang dilakukan oleh atasannya.

Koefisien korelasi antara skor alat ukur dan kriteria merupakan petunjuk mengenai saling hubungan antara skor alat ukur dengan skor kriteria dan merupakan koefisien validitas prediktif. Apabila koefisien ini diperoleh dari sekelompok individu yang merupakan sampel yang representatif, maka alat ukur yang telah teruji validitasnya akan mempunyai fungsi prediksi yang sangat berguna dalam prosedur alat ukur di masa datang. Prosedur validasi prediktif pada umumnya memerlukan waktu yang lama dan mungkin pula biaya yang tidak sedikit dikarenakan prosedur ini pada dasarnya bukan pekerjaan yang dianggap selesai setelah melakukan sekali tembak, melainkan lebih merupakan kontinuitas dalam proses pengembangan alat ukur. Sebagaimana prosedur validasi yang lain, validasi prediktif pada setiap tahapnya haruslah diikuti oleh usaha peningkatan kualitas item alat ukur dalam bentuk revisi, modifikasi, dan penyusunan item-item baru agar prosedur yang dilakukan itu mempunyai arti yang lebih besar dan bukan sekedar pengujian secara deskriptif saja.

b. Validitas Konkuren Apabila skor alat ukur dan skor kriterianya dapat diperoleh dalam waktu yang sama, maka korelasi antara kedua skor termaksud merupakan koefisien validitas konkuren. Suatu contoh dimana validitas konkuren layak diuji adalah apabila kita menyusun suatu skala kecemasan yang baru. Untuk menguji validitas skala tersebut kita dapat mengunakan skala kecemasan lain yang telah lebih dahulu teruji validitasnya, yaitu dengan alat ukur TMAS (Tylor Manifest Anxiety Scale). Validitas konkuren merupakan indikasi validitas yang memadai apabila alat ukur tidak digunakan sebagai suatu

prediktor dan merupakan validitas yang sangat penting dalam situasi diagnostik. Bila alat ukur dimaksudkan sebagai prediktor maka validitas konkuren tidak cukup memuaskan dan validitas prediktif merupakan keharusan.

Pengujian Validitas Item Tes Hasil Belajar Sebuah item dapat dikatakan telah memiliki validitas yang tinggi atau dapat dinyatakan valid, jika skor-skor pada butir item yang bersangkutan memiliki kesesuaian atau kesejajaran arah dengan skor totalnya (Suharsimi A, 1995). Untuk menyimpulkan bahwa item-item valid atau tidak, dapat digunakan teknik korelasi sebagai teknik analisisnya. Sebuah item dapat dinyatakan valid, apabila skor item (variabel bebas) yang bersangkutan terbukti mempunyai korelasi positif yang signifikan dengan skor totalnya (variabel terikat). Untuk interpretasi terhadap rpbi digunakan db sebesar (N nr), pada taraf signifikan 5% atau 1% selanjutnya dibandingkan dengan tabel nilai r product moment. Contoh : Misalnya 20 siswa mengikuti ulangan matematika. Jumlah item 10 butir dengan bentuk multiple choice, dimana untuk setiap item yang dijawab betul diberi skor 1, sedangkan untuk setiap butir item yang dijawab salah diberi skor 0. Setelah ulangan berakhir, dilakukan pengkoreksian dan dihitung skornya, diperoleh data sebagaimana tertera pada tabel berikut ini.

Tabel 1 Penyebaran Skor Hasil Ulangan Matematika Dari 20 Siswa untuk 10 Butir Item

Nama Siswa A B C D

1 0 1 0 1

Skor Untuk Butir Item Nomor : 2 3 4 5 6 7 8 9 1 0 1 1 0 1 0 1 0 0 1 1 0 1 1 1 1 0 0 1 0 1 0 1 0 1 1 1 0 1 1 1

10 1 1 1 1

Skor Total (xt) 3 7 6 10

E F G H I J K L M N O P Q R S T 20 = N

1 0 1 1 0 1 0 0 0 1 1 0 1 0 1 0 10

0 1 0 0 1 1 1 1 1 0 0 1 0 1 0 1 12

1 0 0 1 0 1 1 1 0 1 0 0 1 0 0 1 10

1 0 1 1 1 1 1 0 0 1 1 1 1 1 1 0 14

0 0 1 1 0 1 1 1 1 0 1 0 1 1 1 0 13

1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 0 15

0 0 1 1 0 1 1 1 1 0 1 0 1 0 1 1 12

1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 16

1 0 1 1 0 1 0 1 0 1 1 0 1 0 1 0 12

1 0 1 1 1 1 0 0 0 1 1 1 1 1 1 1 16

7 3 8 9 5 10 6 5 4 7 8 5 9 6 8 4 130 = xt

Untuk menguji validitas item untuk 10 butir tem tes hasil belajar tersebut di atas, maka tabel diatas perlu disempurnakan menjadi tabel analisis yang dapat digunakan untuk mencari : Mp, Mt, SDt, p dan q. Tabel 2 Persiapan Perhitungan Untuk Analisis Validitas Item Nama Siswa A B C D E F G H I J K L M N 1 0 (1) 0 (1) (1) 0 (1) (1) 0 (1) 0 0 0 (1) 2 1 0 1 1 0 1 0 0 1 1 1 1 1 0 Skor Untuk Butir Item Nomor : 3 0 1 0 1 1 0 0 1 0 1 1 1 0 1 4 0 0 1 1 1 0 1 1 1 1 1 0 0 1 5 0 1 1 1 0 0 1 1 0 1 1 1 1 0 6 1 0 0 1 1 1 1 1 1 1 1 0 0 1 7 0 1 0 1 0 0 1 1 0 1 1 1 1 0 8 0 1 1 1 1 1 1 1 1 1 0 0 1 1 9 0 1 1 1 1 0 1 1 0 1 0 1 0 1 10 1 1 1 1 1 0 1 1 1 1 0 0 0 1 xt 3 (7) 6 10 (7) 3 (8) (9) 5 xt2 9 49 36 100 49 9 64 81 25

(10) 100 6 5 4 (7) 36 25 16 49

O P Q R S T 20 = N

(1) 0 (1) 0 (1) 0

0 1 0 1 0 1

0 0 1 0 0 1

1 1 1 1 1 0

1 0 1 1 1 0

1 1 1 1 1 0

1 0 1 0 1 1

1 1 1 1 1 0

1 0 1 0 1 0

1 1 1 1 1 1

(8) 5 (9) 6 (8) 4

64 25 81 36 64 16 934 = xt2

10= 12= 10= 14= 13= 15= 12= 16= 12= 16= 130 N1 N2 N3 N4 N5 N6 N7 N8 N9 N10 = xt

B. RELIABILITAS I. Pengertian Reliabilitas Reliabilitas diterjemahkan dari kata reliability. Menurut John M. Echols dan Hasan Shadily (2003: 475) Reliabilitas adalah hal yang dapat dipercaya. Popham (1995: 21) menyatakan bahwa Reliabilitas adalah "...the degree of which test score are free from error measurement". Dalam pandangan Brennan (2001: 295) Reliabilitas merupakan karakteristik skor, bukan tentang tes ataupun bentuk tes. Menurut Sumadi Suryabrata (2004: 28) Reliabilitas menunjukkan sejauhmana hasil pengukuran dengan alat tersebut dapat dipercaya. Hasil pengukuran harus reliabel dalam artian harus memiliki tingkat konsistensi dan kemantapan. Dalam pandangan Aiken (1987: 42) sebuah tes dikatakan reliabel jika skor yang diperoleh oleh peserta relatif sama meskipun dilakukan pengukuran berulang-ulang. Untuk memperoleh skor yang sama, maka tidak boleh ada kesalahan pengukuran. Dengan demikian, keandalan sebuah alat ukur dapat dilihat dari dua petunjuk yaitu kesalahan baku pengukuran dan koefisien reliabilitas. Kedua statistik tersebut masing-masing memiliki kelebihan dan keterbatasan (Feldt & Brennan, 1989: 105).

Reliabilitas merujuk pada konsistensi skor yang dicapai oleh orang yang sama ketika mereka diuji-ulang dengan tes yang sama pada kesempatan yang berbeda, atau dengan seperangkat butir-butir ekuivalen (equivalent items) yang berbeda, atau di bawah kondisi pengujian yang berbeda. a. Reliabilitas Tes Retes Metode paling jelas untuk menemukan reliabilitas skor tes adalah dengan mengulang tes yang sama pada kesempatan kedua. Reliabilitas tes ulang menunjukkan sejauh mana skor pada tes dapat

digeneralisasikan untuk berbagai kesempatan yang berbeda; makin tinggi reliabilitasnya, makin rentanlah skor terhadap perubahan seharihari yang acak dalam kondisi peserta tes atau lingkungan testing. b. Reliabilitas Bentuk Alternatif Satu cara untuk menghindari kesulitan yang ditemukan dalam reliabilitas tes dan tes ulang adalah melalui penggunaan bentuk-bentuk tes lainnya. Dengan demikian, orang yang sama bisa ditest dengan satu bentuk pada kesempatan pertama dan dengan bentuk lainnya yang ekuivalen pada kesempatan kedua. Korelasi antara skor-skor yang didapatkan pada dua bentuk itu merupakan koefisien reliabilitas tes. Perlu dicatat bahwa koefisien reliabilitas semacam itu adalah ukuran stabilitas temporal dan konsistensi respons terhadap berbagai butir soal contoh (atau bentuk-bentuk tes). c. Reliabilitas Belah Separuh (Split-Half Reliability) Dengan cara ini, dua skor didapatkan untuk setiap orang dengan membagi tes menjadi paruhan-paruhan yang ekuivalen. Jenis reliabilitas ini kadangkala disebut koefisien konsistensi internal, karena hanya dibutuhkan penyelenggaraan tunggal atas satu bentuk tes saja. Untuk mendapatkan reliabilitas belah-separuh, masalah pertamanya adalah bagaimana membagi tes dalam rangka mendapatkan paruhanparuhan yang paling ekuivalen.

Efek

yang

akan

dihasilkan

pada

koefisiennya

dengan

memperpanjang atau memperpendek sebuah tes, dapat diperkirakan dengan rumus Spearman-Brown.

d.

Reliabilitas Kuder-Richardson dan Koefisien Alpha Metode ini didasarkan pada konsistensi respons terhadap semua butir soal dalam tes. Konsistensi antar soal ini dipengaruhi oleh dua sumber varians kesalahan : (1) pencuplikan isi (sebagaimana dalam bentuk alternatif dan reliabilitas belah separuh) ; dan (2) heterogenitas dari domain yang disampelkan. Semakin homogen domainnya, semakin tinggilah konsistensi antar soal. Dari berbagai rumus yang diturunkan dalam artikel aslinya, rumus yang paling luas diterapkan, umumnya dikenal sebagai rumus 20 Kuder-Richardson.Rumus Kuder-Richardson dapat diterapkan pada tes-tes yang soal-soalnya diskor benar atau salah, atau tergantung pada suatu sistem all or none (semua atau tidak sama sekali) lainnya.

e.

Reliabilitas Pemberi Skor Reliabilitas pemberi skor dapat ditentukan dengan memiliki sampel lembaran tes yang diskor secara terpisah oleh dua penguji. Dengan demikian dua skor yang didapatkan oleh masing-masing peserta tes ini kemudian dikorelasikan dengan cara biasa, dan koefisien korelasi yang dihasilkannya adalah ukuran reliabilitas pemberi skor. Jenis reliabilitas ini umumnya dihitung ketika instrumen-instrumen yang diskor secara subjektif digunakan dalam riset.

C. DAYA BEDA Daya beda adalah analisis yang mengungkapkan seberapa besar butir tes dapat membedakan antara siswa kelompok tinggi dengan siswa kelompok rendah. Salah satu ciri butir yang baik adalah yang mampu membedakan antara kelompok atas (yang mampu) dan kelompok bawah (kurang mampu). Karena itu butir tes harus diketahui daya bedanya. Siswa yang termasuk kelompok tinggi adalah siswa yang mempunyai rata-rata skor paling baik. Siswa yang termasuk

kelompok rendah adalah siswa yang mempunyai rata-rata skor yang rendah. Kelompok siswa yang pandai sering disebut dengan istilah kelompok Upper, dan kelompok siswa yang kurang pandai sering disebut dengan istilah Lower. Tingkat daya pembeda butir-butir tes dinyatakan dalam skala indeks -1,00 sampai dengan 1,00. -1,00 0 1,00 Penjelasan : y Indeks -1,00 berarti butir tes terbalik, siswa kurang pandai dalam kelompok Lower dapat menjawab butir tes dengan sempurna, dan kelompok yang paling pandai dalam Upper tidak ada satupun yang mampu menjawab dengan benar. y Indeks 0,00 berarti butir tes tidak dapat membedakan siswa yang pandai dengan yang kurang pandai. Atau kemampuan kelompok pandai (Upper) sama dengan kemampuan kelompok kurang pandai (Lower). y Indeks 1,00 berarti butir tes secara sempurna dapat membedakan siswa berdasarkan tingkat kemampuannya. Adapun rumus yang digunakan untuk menghitung daya pembeda butir tes adalah : DB = U L Nup x skor maks DB = Daya Beda U = Kelompok Tinggi L = Kelompok Rendah Nup = Jumlah siswa Upper dan Lower

Langkah-langkah yang dilakukan untuk menganalisis daya pembeda butir tes adalah sebagai berikut : 1. Mengurutkan jawaban siswa mulai dari yang tertinggi sampai dengan yang terendah. 2. Membagi kelompok Atas dan kelompok Bawah masing-masing 25 % atau 30 % atau 40 %. 3. Memberi skor 1 untuk setiap jawaban yang benar dan 0 untuk jawaban yang salah pada tes pilihan ganda. Sedangkan pada tes essay diberikan skor sesuai pada rentangan yang ditentukan. 4. Menghitung daya beda dengan rumus yang telah ditentukan.

Contoh

Dalam evaluasi tes yang menggunakan bentuk pilihan ganda dan essay diperoleh skor siswa dan daya beda sebagai berikut : NO NAMA 1 1 2 3 4 5 6 7 8 9 10 11 12 Tukul Jojon Kirun Santi Joko Rani Pilus Rara Karyo Dody Didin Soro 1 1 1 1 1 1 1 1 1 1 1 1 4 4 4 1 0,00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 1 0,00 SKOR PILIHAN GANDA 2 1 1 1 1 1 1 0 0 0 0 0 0 4 0 4 1 1,00 3 1 1 1 0 0 0 0 0 0 0 0 0 3 0 4 1 0,75 4 1 1 1 1 1 1 1 1 1 0 0 0 4 1 4 1 0,75 5 5 5 5 4 3 3 3 3 2 2 1 1 19 6 4 5 0,65 SKOR ESSAY 6 6 6 6 5 5 4 3 3 3 2 2 2 23 9 4 6 0,58 7 8 10 10 9 9 8 8 7 7 5 5 5 3 38 18 4 10 0,50 25 (UPPER) 25 24 21 19 18 15 15 12 (LOWER) 10 9 7 95 38 28 26 TOTAL

UPPER LOWER JUMLAH SISWA U/P SKOR MAKS DAYA BEDA

Secara lebih terperinci tentang penafsiran daya beda butir soal dapat diperhatikan sebagai berikut : 0,70 1,00 = baik sekali 0,40 0,69 = baik 0,20 0,39 = cukup 0,00 0,19 = jelek -1,00 0,00 = jelek sekali

Untuk butir soal yang ideal, daya bedanya berkisar antara 0,2 hingga 1,00. sehingga apabila ditemukan daya beda butir yang negatif, sebaiknya guru mengganti butir tersebut apabila hendak dimunculkan dalam tes berikutnya. Karena daya beda negatif memberi pengertian

bahwa kelompok lower (kurang mampu) lebih baik dari pada kelompok upper (paling baik) sebesar angka negatif yang diperoleh.

Analisis butir soal atau analisis item adalah pengkajian pertanyaanpertanyaan tes agar diperoleh perangkat pertanyaan yang memiliki kualitas yang memadai. Ada dua jenis analisis butir soal, yakni analisis tingkat kesukaran soal dan analisis daya pembeda, di samping validitas dan reliabilitas. Menganalis tingkat kesukaran soal artinya mengkaji soalsoal tes dari segi kesulitannya sehingga dapat diperoleh soal-soal mana yang termasuk mudah, sedang, dan sukar. Sedangkan menganalisis daya pembeda artinya mengkaji soal-soal tes dari segi kesanggupan tes tersebut dalam membedakan siswa yang termasuk ke dalam kategori lemah/rendah dan kategori kuat/tinggi prestasinya.

1. Analisis tingkat kesukaran Asumsi yang digunakan untuk memperoleh kualitas soal yang baik, di samping memenuhi validitas dan reliabilitas, adalah adanya keseimbangan dari tingkat kesulitan soal tersebut. Keseimbangan yang dimaksudkan adalah adanya soal-soal yang termasuk mudah, sedang, dan sukar secara proporsional. Tingkat kesukaran soal dipandang dari kesanggupan atau kemampuan siswa dalam menjawabnya, bukan dilihat dari sudut guru sebagai pembuat soal. Persoalan yang penting dalam melakukan analisis tingkat kesukaran soal adalah penentuan proporsi dan kriteria soal yang termasuk mudah, sedang, dan sukar. Ada beberapa dasar pertimbangan dalam menentukan proporsi jumlah soal kategori mudah, sedang, dan sukar. Pertimbangan pertama adalah adanya keseimbangan, yakni jumlah soal sama untuk ketiga kategori tersebut. Artinya, soal mudah, sedang, dan sukar, jumlahnya seimbang. Misalnya tes objektif pilihan berganda dalam pelajaran matematika disusun sebanyak 60 pertanyaan. Dari ke-60 pertanyaan tersebut, soal kategori mudah sebanyak 20, kategori sedang 20, dan kategori sukar 20. Pertimbangan kedua proporsi jumlah soal untuk ketiga kategori tersebut didasarkan atas kurva normal. Artinya, sebagian soal berada dalam kategori sedang, sebagian lagi termasuk ke dalam kategori mudah dan sukar dengan proporsi yang seimbang. Perbandingan antara soal mudah-sedang-sukar bisa dibuat 3-4-3, artinya 30 % soal kategori mudah, 40 % kategori sedang, dan 30 %

kategori sukar. Perbandingan lain yang termasuk sejenis dengan proporsi di atas misalnya 3-5-2. Artinya, 30 % soal kategori mudah, 50 % kategori sedang, dan 20 % kategori sukar.

Cara melakukan analisis untuk menentukan tingkat kesukaran soal adalah dengan menggunakan rumus sebagai berikut : I = B.N I B N = indek kesulitan untuk setiap butir soal = banyaknya siswa yang menjawab benar setiap butir soal = banyaknya siswa yang memberikan jawaban pada soal yang dimaksudkan Kriteria yang digunakan adalah makin kecil indeks yang diperoleh, makin sulit soal tersebut. Sebaliknya, makin besar indeks yang diperoleh, makin mudah soal tersebut. Kriteria indeks kesulitan soal itu adalah sebagai berikut : 0 - 0,30 = soal kategori sukar. 0,31 - 0,70 = soal kategori sedang. 0,71 - 1,00 = soal kategori mudah. Contoh: :

Guru IPS memberikan 10 pertanyaan pilihan berganda dengan komposisi 3 mudah, 4 soal sedang, dan 3 soal sukar. Jika dilukiskan, susunan soalnya adalah sebagai berikut :

NO. SOAL

ABILITAS YANG DIUKUR

TINGKAT KESULITAN SOAL Mudah Sedang Mudah Sedang Sukar Sukar Mudah Sedang Sedang Sukar

1 2 3 4 5 6 7 8 9 10

Pengetahuan Aplikasi Pemahaman Analisis Evaluasi Sintesis Pemahaman Aplikasi Analisis Sintesis

Kemudian soal tersebut diberikan kepada 20 orang siswa dan tidak seorangpun yang tidak mengisi seluruh pertanyaan tersebut. Setelah diperiksa, hasilnya adalah sebagai berikut :

No. Soal

Banyaknya siswa yang menjawab (N) Kategori Banyaknya siswa yang menjawab betul soal (B) N B 18 12 10 20 6 4 16 11 17 5 B/N 0,9 0,6 0,5 1,0 0,3 0,2 0,8 0,55 0,85 0,25 Mudah Sedang Sedang Mudah Sukar Sukar Mudah Sedang Mudah Sukar

1 2 3 4 5 6 7 8 9 10

20 20 20 20 20 20 20 20 20 20

Dari sebaran di atas, ternyata ada tiga soal yang meleset, yakni soal nomor 3 yang semula diproyeksikan ke dalam kategori mudah, setelah dicoba ternyata termasuk ke dalam kategori sedang. Demikian juga soal nomor 4 yang semula diproyeksikan sedang ternyata termasuk ke dalam kategori mudah. Soal nomor 9 semula diproyeksikan sedang, ternyata termasuk ke dalam kategori mudah. Sedangkan 7 soal lainnya sesuai dengan proyeksi semula. Atas dasar tersebut, ketiga soal di atas harus diperbaiki kembali. y y y soal no. 3 diturunkan ke dalam kategori mudah, soal no. 4 dinaikkan ke dalam kategori sedang, soal no. 9 dinaikkan ke dalam kategori sedang.

Cara lain dalam melakukan analisis tingkat kesukaran soal adalah dengan menggunakan tabel Rose dan Stanley.

2. Analisis daya pembeda Analisis daya pembeda mengkaji butir-butir soal dengan tujuan untuk mengetahui kesanggupan soal dalam membedakan siswa yang tergolong mampu (tinggi prestasinya) dengan siswa yang tergolong kurang atau lemah prestasinya. Artinya, bila soal tersebut diberikan kepada anak yang mampu, hasilnya rendah. Tetapi bila diberikan kepada anak yang lemah, hasilnya lebih tinggi. Atau bila diberikan kepada kedua kategori siswa tersebut, hasilnya sama saja. Dengan demikian, tes yang tidak memiliki daya pembeda tidak akan menghasilkan gambaran hasil yang sesuai dengan kemampuan siswa yang sebenarnya. Sungguh aneh bila anak pandai tidak lulus, tetapi anak bodoh lulus dengan baik tanpa dilakukan manipulasi oleh si penilai atau di luar faktor kebetulan.

Cara yang biasa dilakukan dalam analisis daya pembeda adalah dengan menggunakan tabel atau kriteria dari Rose dan Stanley : Rumusnya adalah : SR ST SR = jumlah siswa yang menjawab salah kelompok rendah ST = jumlah siswa yang menjawab salah kelompok tinggi Contoh : Tes pilihan ganda dengan option 4 diberikan kepada 30 siswa. Jumlah soal 15. setelah diperiksa, datanya adalah sebagai berikut :

No.soal

Jumlah siswa Jumlah siswa SR ST yang menjawab salah kelompok rendah (SR) yang menjawab salah kelompok tinggi (ST) 1 1 2 1 1 5 5 3 5 1

Keterangan

1 2 3 4 5

6 6 5 6 2

6 7 8 9 10 11 12 13 14 15

5 2 7 7 4 3 6 2 6 5

1 1 1 1 2 1 1 1 1 2

4 1 6 6 2 2 5 1 5 3

Kriteria

pengujian

daya

penbeda

adalah

sebagai

berikut

Bila SR ST sama atau lebih besar dari nilai tabel, artinya butir soal itu mempunyai daya pembeda. Dari data di atas, batas pengujian adalah 5, yakni yang pertama dalam tabel di atas dengan jumlah N (28 - 31), n = 8 pada option 4. Dengan demikian dapat disimpulkan sebagai berikut :
No.item 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 SR ST 5 5 3 5 1 4 1 6 6 2 2 5 1 5 3 Batas nilai tabel 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 Keterangan Diterima Diterima Ditolak Diterima Ditolak Ditolak Ditolak Diterima Diterima Ditolak Ditolak Diterima Ditolak Diterima Ditolak

Dari kesimpulan di atas hanya soal nomor 1, 2, 4, 8, 9, 12, dan 14 yang memenuhi daya pembeda, sedangkan soal nomor lainnya tidak

memiliki daya pembeda. Dari contoh di atas dapat disimpulkan bahwa cara menghitung daya pembeda adalah dengan menempuh langkah sebagai berikut : a. Memeriksa jawaban soal semua siswa peserta tes. b. Membuat daftar peringkat hasil tes berdasarkan skor yang dicapainya. c. Menentukan jumlah sampel sebanyak 27 % dari jumlah peserta tes untuk kelompok siswa pandai (peringkat atas) dan 27 % untuk kelompok siswa kurang pandai (peringkat bawah). d. Melakukan analisa butir soal, yakni menghitung jumlah siswa yang menjawab salah dari semua nomor soal, baik pada kelompok pandai maupun pada kelompok kurang. e. Menghitung selisih jumlah siswa yang salah menjawab pada kelompok kurang dengan kelompok pandai (SR - ST). f. Membandingkan nilai selisih yang diperoleh dengan nilai Tabel Ross dan Stanley. g. Menentukan ada tidaknya daya pembeda pada setiap nomor soal dengan kriteria memiliki daya pembeda bila nilai selisih jumlah siswa yang menjawab salah antara kelompok kurang dengan kelompok pandai (SR - ST) sama atau lebih besar dari nilai tabel.

Butir soal yang tidak memiliki daya pembeda diduga terlalu mudah atau terlalu sukar sehingga perlu diperbaiki atau diganti dengan pertanyaan lain. Idealnya semua butir soal memiliki daya pembeda dan tingkat kesukaran. Tes yang telah dibakukan di samping memenuhi validitas dan reliabilitas, juga memenuhi tingkat kesukaran dan daya penbeda.

D. TINGKAT KESUKARAN Tingkat kesukaran tes adalah pernyataan tentang seberapa mudah atau seberapa sukar sebuah butir tes itu bagi testee atau siswa terkait. Tingkat kesukaran merupakan salah satu ciri tes yang perlu diperhatikan, karena tingkat kesukaran tes menunjukkan seberapa sukar atau mudahnya butir-butir tes atau tes secara keseluruhan yang telah diselenggarakan. Butir tes yang baik adalah

butir yang memiliki tingkat kesukaran yang sedang, yaitu yang dapat dijawab dengan benar oleh sekitar 40 sampai 80 % peserta tes. Sebab butir tes yang hanya dijawab oleh 10 % atau bahkan 90 %, akan sulit dibedakan, manakah kelompok yang benar-benar mampu dan kelompok yang benar-benar kurang mampu dalam menjawab soal. Butir tes harus diketahui tingkat kesukarannya, karena setiap pembuat tes perlu mengetahui apakah soal itu sukar, sedang atau mudah. Tingkat kesukaran itu dapat dilihat dari jawaban siswa. Semakin sedikit jumlah siswa yang dapat menjawab soal itu dengan benar, berarti soal itu termasuk sukar dan sebaliknya semakin banyak siswa yang dapat menjawab soal itu dengan benar, berarti itu mengindikasikan soal itu tidak sukar atau soal itu mudah.

Dalam proses analisis tes, seorang guru hendaknya meninjau ulang validitas dan susunan redaksional butir tes yang dibuatnya. Jika ternyata butir tes/soal tidak valid, maka keputusan yang harus diambil adalah membuang butir tes tersebut. Dan jika butir tes itu valid, maka perlu diadakan revisi terhadap susunan redaksi tes. Valid yang dimaksud di sini adalah, terdapat keterwakilan dan relevansi dengan kemampuan yang harus diukur sesuai GBPP yang diberlakukan.

KESIMPULAN

Kesimpulan yang dapat ditarik dari penjabaran di atas adalah sebagai berikut : 1. Validitas adalah sebuah proses yang harus dilalui instrumen agar dapat diketahui apakah instrumen yang sudah dikonstruksi telah mengukur aitem yang seharusnya diukur. Cara mengetahuinya melalui validitas isi (muka dan logik), konstrak, dan kriteria (prediktif dan konkruen). 2. Reliabilitas adalah sebuah proses yang harus dilalui instrumen untuk mengetahui keandalan atau keajegan dari sebuah instrumen. Dengan kata lain, instrumen yang baik akan menarik jawaban/data yang sama walaupun diberikan di waktu dan kondisi yang berbeda. Cara mengetahuinya melalui reliabilitas tes retes, bentuk alternatif, belah dua, Kuder-Richardson dan koefisien alpha, dan pemberi skor.