2. Penilaian Pendidikan
Dalam pendidikan, ada awalnya pengertian evaluasi pendidikan selalu dikaitkan dengan prestasi
belajar siswa. Definisi yang pertama dikembangkan oleh Ralph Tyler (1950). Ahli ini
mengatakan bahwa evaluasi merupakan sebuah proses pengumpulan data untuk menentukan
sejauh mana, dalam hal apa, dan bagian mana tujuan tercapai. Jika belum, bagaimana yang
belum dan apa sebabnya. Definisi ini diperluaskan oleh dua ahli lain, yakni Cronbach dan
Stufflebeam. Tambahan definisi tersebut adalah bahwa proses evaluasi bukan sekedar
mengukur sejauh mana tujuan tercapai, digunakan untuk membuat keputusan.
1. Subjek Evaluasi
Dalam keterangan ini yang di maksud dengan subjek evaluasi adalah orang yang melakukan
pekerjaan evaluasi. Siapa yang dapat di sebut sebagai subjek evaluasi untuk setiap tes, di
tentukan oleh suatu aturan pembagian tugas atau ketentuan yang berlaku.
Ada pandangan lain yang mengatakan subjek evaluasi adalah siswa, yakni orang yang di
evaluasi, dalam hal ini yang di pandang sebagai objek evaluasi adalah mata pelajarannya.
Pandangan lain mengatakan siswa sebagai objek evaluasi dan guru sebagai subjek evaluasi.
2.Sasaran Evaluasi
Adapun sasaran evaluasi di sini mencakup beberapa sasaran penilaian untuk unsure-unsurnya,
meliputi : Input, Transformasi dan Out put.
a.In Put
Berkenaan dengan hal ini ada beberapa aspek yang harus di perhatikan untuk mencapai hasil
yang di inginkan, yaitu :
ØKemampuan
Jika sebuah institusi menginginkan out put yang berguna bagi nusa dan bangsa maka haruslah
memperhatikan atau memilah-milah kemampuan dari beberapa calon murid. Adapun tes yang
di gunakan adalah tes kemampuan.
ØKepribadian
Kepribadian adalah sesuatau yang terdapat pada diri manusia serta tampak bentuknya dalam
tingkah laku, sehingga seorang pendidik akan mengetahui satu-persatu calon peserta
didiknya. Adapun alat yang di pakai adalah tes kepribadian.
ØSikap
Sikap adalah bagian dari tingkah laku manusia yang menggambarkan kepribadian seseorang,
akan tetapi karena sikap ini sangat menonjol dalam pergaulan maka banyak orang yang ingin
tahu lebih dalam informasi khusus terkait dengannya. Adapun alat yang di pakai adalah tes
sikap.
ØIntelegensi
Dalam hal ini para ahli seperti binet dan simon menciptakan tes buatan yang di kenal dengan tes
binet-simon yang dapat mengetahui IQ seseorang, karena IQ bukanlah intelegensi.
b.Transformasi
Di sini ada beberapa unsur yang dapat menjadi sasaran atau objek pendidikan demi di
perolehnya hasil pendidikan yang di harapkan, yaitu :
O Kurikulum/materi
O Media
O Sistem administrasi
c.Out Put
Penilaian atas lulusan suatu sekolah di lakukan untuk mengetahui seberapa jauh tingkah
pencapaian atau prestasi belajar mereka selama mengikuti program tersebut dengan
menggunakan tes pencapaian.
1. Prinsip Evaluasi
Ada satu prinsip umum dan penting dalam kegiatan evaluasi, yaitu adanya triangulasi atau
hubungan erat tiga komponen, yaitu:
Kegiatan belajar-mengajar yang dirancang dalam bentuk rencana mengajar disusun oleh guru
dengan mengacu pada tujuan yang hendak dicapai. Dengan demikian, anak panah yang
menunjukkan hubungan antara keduanya mengarah pada tujuan dengan makna bahwa KBM
mengacu pada tujuan, tetapi juga mengarah dari tujuan ke KBM, menunjukkan langkah dari
tujuan dilanjutkan pemikirannya ke KBM.
Evaluasi adalah kegiatan pengumpulan data untuk mengukur sejauh mana tujuan sudah tercapai.
Dengan makna demikian maka anak panah berasal dari evaluasi menuju ke tujuan. Di lain
sisi, jika dilihat dari langkah, dalam menyusun alat evaluasi ia mengacu pada tujuan yang
sudah dirumuskan.
Seperti yang sudah disebutkan dalam poin (a), KBM dirancang dan disusun dengan mengacu
pada tujuan yang telah dirumuskan. Telah disebutkan pula dalam poin (b) bahwa alat evaluasi
juga disusun dengan mengacu pada tujuan. Selain mengacu pada tujuan, evaluasi juga harus
mengacu atau disesuaikan dengan KBM yang dilaksanakan. Sebagai misal, jika kegiatan
belajar-mengajar dilakukan oleh guru dengan menitikberatkan pada keterampilan,
evaluasinya juga harus mengukur tingkat keterampilan siswa, bukannya aspek pengetahuan.
2.Alat Evaluasi
Secara garis besar, maka alat-alat evaluasi yang digunakan dapat digolongkan menjadi dua
macam, yaitu tes dan non tes. Dibawah ini akan dijelaskan secara rinci macam-macam tes
dan non tes.
1) Skala Bertingkat
Skala menggambarkan suatu nilai yang berbentuk angka terhadap suatu hasil pertimbangan.
Sebagai contoh adalah skor yang diberikan oleh guru di sekolah untuk menggambarkan
tingkat prestasi belajar siswa.
2)Kuesioner
Kuesioner (questionaire) juga sering dikenal sebagai angket. Pada dasarnya, kuesioner adalah
sebuah daftar pertanyaan yang harus diisi oleh orang yang akan diukur.
b.Teknik Tes
Dibawah ini ada beberapa pendapat dari para ahli mengenai pengertian tes.
1.Dalam bukunya “Evaluasi Pendidikan”, Drs. Amin Daien Indrakusuma mengatakan bahwa tes
adalah suatu alat atau prosedur yang sistematis dan objektif untuk memperoleh data-data atau
keterangan-keterangan yang diinginkan tentang seseorang, dengan cara yang boleh dikatakan
tepat dan cepat.
2.Dalam bukunya “ Teknik-teknik Evaluasi”, Mucthar Bukhori mengatakan tes ialah suatu
percobaan yang diadakan untuk mengetahui ada atau tidaknya hasil-hasil pelajaran tertentu
pada seorang murid atau kelompok murid.
Dari beberapa kutipan dan uraian di atas dapat disimpulkan bahwa tes merupakan suatu alat
pengumpul informasi tetapi jika dibandingkan dengan alat-alat yang lain, tes ini bersifat lebih
resmi karena penuh dengan batasan-batasan
Ditinjau dari segi kegunaan untuk mengukur siswa, maka dibedakan atas adanya tiga macam tes,
yaitu:
1.Tes diagnostic. Tes Diagnostik adalah tes yang digunakan untuk mengetahui kelemahan-
kelemahan siswa sehingga berdasarkan kelemahan-kelemahan tersebut dapat dilakukan
pemberian perlakuan yang tepat.
1.Tes Formatif. Dari kata “form” yang merupakan dasar dari istilah “formatif”maka evaluasi
formatif dimaksudkan untuk mengetahui sejauh mana siswa telah terbentuk setelah mengikuti
sesuatu program tertentu. Dalam kedudukannya seperti ini tes formatif dapat juga dipandang
sebagai tes diagnostik pada akhir pelajaran. Evaluasi formatif mempunyai manfaat baik bagi
siswa, guru, maupun bagi program itu sendiri.
2. Tes Sumatif merupakan tes yang dilaksanakan setelah berakhirnya sekelompok program atau
sebuah program yang lebih besar.
1. Pengertian
Istilah tes berasal dari bahasa Prancis Kuno yaitu “testum” yang berarti piring untuk
menyisihkan logam mulia. Dalam bahasa Indonesia tes diterjemahkan sebagai ujian atau
percobaan.
Menurut Arikunto (2010: 53), tes merupakan alat atau prosedur yang digunakan untuk
mengetahui atau mengukur sesuatu dalam suasana, dengan cara dan aturan-aturan yang sudah
ditentukan.
Suharsismi Arikunto (2008: 57-62) menyatakan bahwa suatu tes dapat dikatakan baik apabila
memenuhi lima syarat yaitu:
a. Validitas merupakan ketepatan, tes yang sebagai alat ukur dikatakan valid jika tes itu tepat
pada hasil belajar dan akan menghasilkan yang valid pula.
b. Reliabilitas, jika memberikan hasil yang tetap dari suatu tes, tidak terpengaruh oleh apapun.
c. Objektifitas berarti tidak ada unsur pribadi yang mempengaruhinya, tidak ada unsur
subjektifitas yang mempengaruhi tes tersebut.
d. Praktikabilitas, tes ini merupakan tes yang praktis, mudah dan tidak mengecoh. Mudah
pelaksanaannya, mudah diperiksa, dan dilengkapi dengan petunjuk sehingga dapat diberikan
kepada orang lain.
e. Ekonomis, bahwa pelaksanaan tes tidak membutuh biaya yang mahal dan tidak membuang
waktu.
BAB V : VALIDITAS
Validitas adalah suatu ukuran yang menunjukkan tingkat-tingkat kevalidan atau kesahihan suatu
instrument. Suatu instrument yang valid atau sahih mempunyai validitas tinggi, sebaliknya,
instrument yang kurang valid berarti memiliki validitas rendah.
Menurut Suharsimi ada dua jenis validitas yaitu validitas logis dan validitas empiris. Sementara
validitas itu terbagi menjadi beberapa4 yaitu validitas isi, validitas konstrak, validitas “ada
sekarang” dan validitas predictive.
Yaitu pengujian terhadap isi yang terkandung dalam tes hasil belajar tersebut. Sebuah tes
dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan
materi atau isi pelajaran yang diberikan.Validitas isi merupakan validitas yang
diperhitungkan melalui pengujian terhadap isi alat ukur dengan analisis rasional. Pertanyaan
yang dicari jawabannya dalam validasi ini adalah “sejauh mana item-item dalam suatu alat
ukur mencakup keseluruhan kawasan isi objek yang hendak diukur oleh alat ukur yang
bersangkutan?” atau berhubungan dengan representasi dari keseluruhan kawasan.
Validitas isi dapat diusahakan tercapainya sejak saat penyusunan dengan cara merinci materi
kurikulum atau meteri buku pelajaran. Yaitu sejauh mana tes hasil belajar sebagai alat
pengukur hasil belajar peserta didik, isinya telah dapat mewakili secara representatif terhadap
keseluruhan materi atau bahan pelajaran yang harus diuji.
Secara etimologis, kata kontruksi mengandung arti susunan, kerangka atau rekaan. Sebuah tes
dikatakan memiliki validitas kontruksi apabila butir- butir soal yang membangun tes tersebut
mengukur setiap aspek berfikir seperti yang disebutkan dalam Tujuan Instruksional Khusus.
Pengujian validitas konstrak merupakan proses yang terus berlanjut sejalan dengan
perkembangan konsep mengenai trait yang diukur. Hasil estimasi validitas konstrak tidak
dinyatakan dalam bentuk suatu koefisien validitas.
Dengan kata lain jika butir- butir soal mengukur aspek berfikir tersebut sudah sesuai dengan
aspek berfikir yang menjadi tujuan instruksional.
Sebagai contoh jika rumusan Tujuan Instruksional Khusus (TIK), “Siswa dapat mengenal tata
cara memandikan mayat”, maka butir soal pada tes merupakan perintah bagaimana cara
memandikan mayat dengan baik.
Istilah “Validitas empiris” memuat kata “empiris” yang artinya “pengalaman” sebuah instrumen
dapat dikatakan memiliki validitas empiris apabila sudah diuji dari pengalaman. Yang
dimaksud dengan validitas empiris adalah ketepatan mengukur yang didasarkan pada hasil
analisis yang bersifat empirik. Sedangkan menurut Ebel bahwa Empirical Validity adalah
validitas yang berkenaan dengan hubungan antara skor dengan suatu kriteria. Kriteria tersebut
adalah ukuran yang bebas dan langsung dengan apa yang ingin diramalkan oleh pengukuran.
Jadi empirical validity adalah validitas yang berkenaan dengan hubungan antara skor dengan
suatu kriteria. Kriteria tersebut adalah ukuran yang bebas dan langsung dengan apa yang
ingin diramalkan oleh pengukuran. Bertitik tolak dari itu maka tes hasil belajar dapat
dikatakan telah memiliki validitas empirik apabila berdasarkan hasil analisis yang dilakukan
terhadap data hasil pengamatan dilapangan, terbukti bahwa tes hasil belajar itu dengan secara
tepat telah dapat mengukur hasil belajar yang seharusnya diungkap atau diukur lewat tes hasil
belajar tersebut.
Setiap kali kita menyebutkan istilah “ramalan” maka didalamnya akan terkandung pengertian
mengenai “sesuatu yang bakal terjadi masa yang akan datang “ atau sesuatu yang pada saat
sekarang belum terjadi dan baru akan terjadi pada waktu-waktu yang akan datang. Apabila
istilah ramalan dikaitkan dengan validitas tes maka yang dimaksut dengan validitas ramalan
dari suatu tes adalah suatu kondisi yang menunjukkan seberapa jauhkah sebuah tes telah
dapat dengan secara tepat menunjukkan kemampuannya untuk meramalkan apa yang bakal
terjadi pada masa yang akan datang.
Jadi pada dasarnya tes yang dilakukan adalah dengan memberikan bentuk soal, item dan sarat
yang diberikan harus memiliki tujuan akhir yang akan ditempuh sehingga proses atau hasil
yang dicapai dapat diprediksi sebelumnya.
Tes sebagai alat pengukur dapat dikatakan telah memiliki validitas bandingan apabila tes
tersebut dalam kurun waktu yang sama dengan secara tepat telah mampu menunjukkan
adanya hubungan yang searah antara tes pertama dengan tes berikutnya. Menurut Suharsimi
dalam hal ini tes dipasangkan dengan hasil pengalaman. Pengalaman selalu mengenai hal
yang telah lampau sehingga data pengalaman tersebut sekarang sudah ada.
Validitas bandingan juga sering dikenal dengan istilah : validitas sama saat, validitas
pengalaman atau validitas ada sekarang. Dikatakan sama saat sebab validitas tes itu
ditentukan atas dasar data hasil tes yang pelaksanaannya dilakukan pada kurun waktu yang
sama. Dikatakan validitas pengalaman sebab validitas tes tersebut ditentukan atas dasar
pengalaman yang telah diperoleh. Adapun dikatakan sebagai validitas ada sekarang sebab
setiap kali kita menyebut istilah pengalaman maka istilah itu akan selalu kita kaitkan dengan
hal-hal yang telah ada atau hal-hal yang telah terjadi pada waktu yang lalu, sehingga data
mengenai pengalaman masa yang lalu itu pada saat ini sudah ada di tanggan.
Jadi dalam rangka menguji validitas bandingan, data yang mencerminkan pengalaman yang
diperoleh masa yang lalu itu, kita bandingkan dengan data hasil tes yang diperoleh sekarang
ini. Jika hasil tes yang ada sekarang ini mempunyai hubungan searah dengan hasil tes
berdasarkan pengalaman yang lalu, maka tes yang memiliki karakteristik seperti itu dapat
dikatakan telah memiliki validitas bandingan.
BAB VI : REALIBILITAS
Reliabilitas adalah ketetapan suatu tes apabila diteskan kepada subyek yang sama. Untuk
mengetahui ketetapan ini pada dasarnya dilihat kesejajaran hasil.
Kriterium yang digunakan untuk mengetahui ketetapan ada yang berada diluar tes (consistency
external) dan pada tes itu sendiri (consistency internal).
Tes parallel atau tes ekuivalen adalah dua buah tes yang mempunyai kesamaan tujuan, tingkat
kesukaran, dan susunan, tetapi butir-butir soalnya berbeda. Dalam istilah bahasa inggris
disebut alternate-forms method (parallel forms).
Metode tes ulang dilakukan orang untuk menghindari penyusunan dua seri tes. Dalam
menggunakan teknik atau metode ini pengetes hanya memiliki satu seri tes tetapi dicobakan
dua kali. Oleh karena tesnya hanya satu dan dicobakan dua kali, maka metode ini dapat
disebut dengan single-test-double-trial method. Kemudian hasil dari kedua tes tersebut
dihitung korelasinya.
Kelemahan penggunaan metode dua tes dua kali percobaan dan satu tes dua kali
percobaandiatasi dengan metode ketiga ini yaitu metode belah dua. Dalam menggunakan
metode ini pengetes hanya menggunakan sebuah tes yang dicobakan satu kali. Oleh karena
itu, disebut juga single-test-single-trial method.
Taksonomi Bloom
Menurut taksonomi Bloom ini tujuan pendidikan dibagi menjadi beberapa domain (ranah,
kawasan), dan setiap domain tersebut dibagi kembali ke dalam pembagian yang lebih rinci
berdasarkan hirarkhinya. Domain-domain tersebut antara lain:
a. Cognitive Domain (Ranah Kognitif), yang berisi perilaku-perilaku yang menekankan aspek
intelektual, seperti pengetahuan, pengertian, dan keterampilan berpikir. Dalam ranah ini
hirarkinya adalah pengetahuan (knowledge), pemahaman (comprehension), aplikasi
(application), analisis (analysis), sintesis (synthesis), dan evaluasi (evaluation).
b. Affective Domain (Ranah Afektif) berisi perilaku-perilaku yang menekankan aspek perasaan
dan emosi, seperti minat, sikap, apresiasi, dan cara penyesuaian diri. Dalam ranah ini
hirarkinya adalah pandangan atau pendapat (opinion) dan sikap atau nilai (attitude, value)
Tes adalah salah satu bentuk instrumen evaluasi untuk mengukur seberapa besar kemampuan
siswa dalam memahami dan menguasai pokok-pokok materi yang sudah diajarkan. Tes ada
yang dibuat oleh seorang guru yang kemudian disebut tes buatan guru dan ada tes yang sudah
memenuhi standar suatu satuan pendidikan maupun lembaga pendidikan yang kemudian
disebut tes terstandar.
a. Aptitude test
b. Achievement tes
Perbedaan antara dua tes ini sebenearnya tidak tegas, soal – soal mengenai kedua tes tersebut
sering kali saling melingkupi ( overlap ). Untuk kedua macam tes ini biasanya menggunakan
hitung – hitungan dan perbendaharaan kata – kata dan sekelompok tes dari kedua macam tes
ini biasanya juga menguji tentang keterampilan membaca. Kesamaan yang lain adalah bahwa
keduanya telah digunakan untuk meramalkan hasil untuk yang masa akan dating, walaupun
pada umumnya jika kita menggunakan tes prestasi penilai melihat apa yang telah diperoleh
setelah siswa ( tercoba ) itu diberi suatu pelajaran.
Di antara tes prestasi yang digunakan di sekolah ada yang dinamakan tes prestasi standar. Dalam
salah satu kamus, arti kata ”standar” adalah: “A degree of level of requirement, excellence,
or attainment”.
Standar untuk siswa dapat dimaksudkan sebagai suatu tingkat kemampuan yang harus dimiliki
bagi suatu program tertentu. Mungkin standar bagi suatu kursus A berbeda dengan B. Jadi
standar ini dapat dibuat “keras” maupun “lunak” tergantung dari yang
mempunyai kebijaksanaan.
Prosedur yang digunakan untuk menyusun tes standar untuk tes prestasi melalui cara langsung
yang ditumbuhkan dari tes yang digunakan di kelas. Sedangkan spesifikasi yang digunakan
untuk menentukan isi dalam tes bakat biasanya didasarkan atas analisis job (jabatan) atau
analisis tugas yang merupakan tuntutan calon pekerjaannya. Disamping itu juga
mempertimbangkan sifat-sifat yang ada pada manusia. Analisis jabatan analisis tugas yang
dilakukan biasanya tidak tidak didasarkan atas satu kurikulum, tetapi diambil dari
masyarakat.
1. Bentuk-Bentuk Tes
a. Tes subyektif. Secara umum soal subyektif adalah pertanyaan yang menuntut peserta didik
menjawab dalam bentuk menguraikan, menjelaskan, mendiskusikan, membandingkan,
memberikan alasan, dan bentuk lain yang sejenis sesuai dengan tuntutan pertanyaan dengan
menggunakan kata-kata dan bahasa sendiri. Jumlah soal-soal bentuk subyektif biasanya tidak
banyak, hanya sekitar 5-10 buah soal dalam waktu kurang lebih 90-120 menit. Soal-soal
bentuk ini menuntut kemampuan peserta didik untuk dapat mengorganisir, menginterpretasi,
dan menghubungkan pengertian-pengertian yang telah dimiliki.
b. Tes objektif. Tes objektif adalah tes yang dalam pemeriksaannya dapat dilakukan secara
objektif (Arikunto, 1995 : 165). Karena sifatnya yang objektif maka penskorannya dapat
dilakukan dengan bantuan mesin. Soal ini tidak memberi peluang untuk memberikan
penilaian yang bergradasi karena dia hanya mengenal benar dan salah. Apabila respons siswa
sesuai dengan jawaban yang dikehendaki maka respons tersebut benar dan biasa diberi skor
1. Apabila kondisi yang terjadi sebaliknya, maka respons siswa salah dan biasa diberi skor 0.
Jawaban siswa bersifat mengarah kepada satu jawaban yang benar (convergence).
a. Bentuk Tes Benar Salah (True-False Test). Tes benar salah adalah bentuk tes yang
mengajukan beberapa pernyataan yang bernilai benar atau salah. Biasanya ada dua pilihan
jawaban yaitu huruf B yang berarti pernyataan tersebut benar dan S yang berarti pernyataan
tersebut salah. Tugas peserta tes adalah menentukan apakah pernyataan tersebut benar atau
salah.
c. Menjodohkan (Matching Test). Menjodohkan terdiri atas satu sisi pertanyaan dan satu sisi
jawaban, setiap pertanyaan mempunyai jawaban pada sisi sebelahnya. Siswa ditugaskan
untuk memasangkan atau mencocokkan, sehingga setiap pertanyaan mempunyai jawaban
yang benar.
ü Cara Memberikan Skor: Penskoran pada tes menjodohkan tidak diberikan denda terhadap
jawaban yang salah. Skor = Jumlah jawaban benar
d. Tes Isian (Complementary Test). Tes isian terdiri dari kalimat yang dihilangkan (diberi titik-
titik). Bagian yang dihilangkan ini yang diisi oleh peserta tes merupakan pengertian yang
diminta agar pernyataan yang dibuat menjadi pernyataan yang benar.
Contoh:
(2) Para filsuf zaman modern menegaskan bahwa pengetahuan tidak berasal dari kitab suci atau
ajaran agama, tidak juga dari para penguasa, tetapi dari diri manusia sendiri. Namun tentang
aspek mana yang berperan ada beda pendapat. Aliran ……………….. beranggapan bahwa
sumber pengetahuan adalah rasio: kebenaran pasti berasal dari rasio (akal). Aliran
……………, sebaliknya, meyakini pengalamanlah sumber pengetahuan itu, baik yang batin,
maupun yang inderawi.
Pengukuran ranah afktif tidak dapat diukur seperti halnya ranah kognitif, karena dalam ranah
afektif kemampuan yang diukur adalah, Menerima (memperhatikan), merespon, menghargai,
mengorganisasi, dan karakteristik suatu nilai.Sedangkan tujuan penilaian afektif adalah :
a. Untuk mendapatkan umpan balik (feedback) baik bagi guru maupun siswa sebagai dasar
untuk memperbaiki proses belajar mengajar dan mengadakan program perbaikan (remedial
program) bagi anak didiknya.
b. Untuk mengetahui tingkat perubahan tingkah laku anak didik yang dicapai antara lain
diperlukan sebagai bahan bagi : perbaikan tingkah laku anak didik, pemberian laporan kepada
orang tua, dan penentuan lulus tidaknya anak didik.
c. Untuk menempatkan anak didik dalam situasi belajar mengajar yang tepat, sesuai dengan
tingkat pencapaian dan kemampuan serta karakteristik anak didik.
d. Untuk mengenal latar belakang kegiatan belajar dan kelainan tingkah laku anak didik.
Guru yang sudah banyak berpengalaman, mengajar dan menyusun soal-soal tes, juga masih
sukar menyadari bahwa tesnya masih belum sempurna. Oleh karena itu cara yang paling baik
adalah secara jujur melihat hasil yang diperoleh oleh siswa.
Ø Meneliti secara jujur soal-soal yang sudah disusun, kadang-kadang dapat diperoleh jawaban
tentang ketidak jelasan perintah atau bahasa, taraf kesukaran, dan lain-lain keadaan soal
tersebut. Pertanyaan-pertanyaan tersebut antara lain:
Ø Mengadakan analisis soal (item analysis). Analisis soal adalah suatu prosedur Yang
sistematis, yang akan memberikan informasi-informasi yang sangat khusus terhadap butir tes
yang kita susun. Faedah mengadakan analisis soal:
Analisis butir soal yang dalam bahasa inggris disebut item analiysis dilakukan terhadap
empirik.Maksudnya, analisis itu baru dapat dilakukan apabila suatu tes telah dilaksanakan
dan hasil jawaban terhadap butir-butir soal telah kita peroleh.
Untuk mengetahui kapan soal dikatakan baik, kurang baik, dan soal yang jelek sangat
berhubungan dengan analisis soal, yaitu taraf kesukaran, daya pembeda, dan pola jawaban
soal.
a. Taraf Kesukaran
Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal yang terlalu
mudah tidak merangsang siswa untuk mempertinggi usaha memecahkannya. Sebaliknya soal
yang terlalu sukar akan menyebabkan siswa menjadi putus asa dan tidak mempunyai
semangat untuk mencoba lagi karena di luar jangkauannya.
Bilangan yang menunjukkan sukar dan mudahnya sesuatu soal disebut indeks kesukaran.
Besarnya indeks kesukaran antara 0,00 sampai dengan 1,0. Soal yang indeks kesukaran 0,0
menunjukkan bahwa soal itu terlalu sukar, sebaliknya indeks 1,0 menunjukkan bahwa
soalnya terlalu mudah.
Didalam istilah evaluasi, indeks kesukaran diberi simbol P (proporsi). Rumus mencari P adalah :
P = B JS
Dimana :
Menurut ketentuan yang sering diikuti, indeks kesukaran sering diklasifikasikan sebagai
berikut :
b. Daya Pembeda.
Daya pembeda soal adalah kemampuan sesuatu soal untuk membedakan antara siswa yang
berkemampuan tinggi dengan siswa yang berkemampuan rendah.
Angka yang menunjukkan besarnya daya pembeda disebut indeks diskriminasi, indeks
diskriminasi ini sama dengan indeks kesukaran yaitu berkisar antara 0,00 sampai 1,00. Hanya
bedanya, indeks kesukaran tidak mengenal tanda negatif tetapi pada indeks diskriminasi ada
tanda negatif.
Jika seluruh kelompok atas (pandai) dapat menjawab soal dengan benar, sedang seluruh
kelompok bawah (bodoh) menjawab salah, maka soal tersebut mempunyai diskriminasi
paling besar, yaitu 1,00. Sebaliknya jika semua kelompok atas menjawab salah, tetapi semua
kelompok bawah menjawab betul, maka nilai diskriminasinya adalah -1,00. Tetapi jika siswa
kelompok atas dan siswa kelompok bawah sama-sama menjawab benar atau sama-sama
menjawab salah, maka soal tersebut mempunyai nilai diskriminasi 0,00 karena tidak
mempunyai daya pembeda sama sekali.
Dimana :
BA = banyaknya peserta kelompok atas yang menjawab soal itu dengan benar
BB BA/JA = banyaknya peserta kelompok bawah yang menjawab soal itu dengan benar.
PA = BB/JB = proporsi peserta kelompok atas yang menjawab benar ( P sebagai indeks
kesukaran).
Pola jawaban yang dimaksud adalah distribusi testee dalam hal menentukan pilihan jawaban
pada soal bentuk pilihan ganda. Pola jawaban soal diperoleh dengan menghitung banyaknya
testee yang memilih pilihan jawaban a, b, c, atau d atau yang tidak memilih pilihan manapun.
Dari pola jawaban soal dapat ditentukan apakah pengecoh (distractor) berfungsi sebagai
pengecoh dengan baik atau tidak. Pengecoh yang tidak dipilih sama sekali oleh testee berarti
bahwa pengecoh itu jelek, sebaliknya sebuah distraktor dapat dikatakan berfungsi dengan
baik apabila distraktor tersebut mempunyai daya tarik yang besar bagi pengikut – pengikut
tes yang kurang memahami konsep atau kurang menguasai bahan.
Kekurangan suatu soal mungkin hanya terletak pada rumusan kalimatnya sehingga hanya perlu
ditulis kembali, dengan perubahan seperlunya.