Analisis Butir Soal

http://evaluasipendidikan.blogspot.
com/search/label/Pengantar
%20Evaluasi
Analisis Butir Soal

untuk melakukan analisis terhadap sebuah butir soal ada dua pendekatan yang
bisa digunakan yaitu dengan teori tes klasik dan teori respon butir. selain itu, soal
juga dapat di analisis dengan menggunakan analisis kualitatif (teoritis) dan
kuantitatif (empiris). Insya Allah penulis akan sedikit membahas keempat hal
tersebut. akan tetapi untuk saat ini, penulis akan membahas analisis soal dengan
cara kualitatif atau teoritis.
Analisis secara kualitatif dilakukan dengan melakukan penelaahan terhadap

setiap butir soal dari aspek materi, konstruksi dan bahasa. Aspek materi yang
ditelaah berkaitan dengan substansi keilmuan yang ditanyakan dalam butir tes
serta tingkat kemampuan yang sesuai dengan tes. Analisis konstruksi
dimaksudkan untuk melihat hal-hal yang berkaitan dengan kaidah penulisan tes.
Analisis bahasa dimaksudkan untuk menelaah tes berkaitan dengan
penggunaan bahasa Indonesia yang baik dan benar menurut Ejaan Yang
Disempurnakan (EYD).
Telaah secara kualitatif dilakukan oleh tiga orang yang memiliki kompetensi
sesuai dengan aspek materi konstruksi dan bahasa. Setiap penelaah melakukan
analisis terhadap setiap butir soal berdasarkan kriteria yang telah ditetapkan
sebelumnya dengan menuliskan huruf “Y” jika butir sesuai dengan kriteria dan
huruf “T” jika butir tidak sesuai dengan kriteria yang telah ditetapkan.
Hasil telaah kemudian dirangkum untuk selanjutnya ditentukan kualitas butir

secara teoretis dengan menggunakan kriteria sebagai berikut:
a. Butir tes yang baik yaitu butir yang memenuhi semua kriteria yang telah
ditentukan.
b. Butir tes yang kurang baik yaitu butir yang hanya memenuhi sebanyak-
banyaknya 3 kriteria aspek konstruksi serta 1 kriteria aspek materi dan bahasa.
c. Butir tes yang tidak baik yaitu butir yang tidak memenuhi semua kriteria yang
telah ditetapkan pada aspek materi 1 dan 3, atau lebih dari 3 untuk aspek
konstruksi serta lebih dari 1 kriteria pada aspek bahasa.
Dari rangkuman hasil telaah kualitatif selanjutnya dapat ditentukan butir mana
yang sudah atau belum memenuhi kriteria pada aspek materi, konstruksi dan
bahasa. Dengan demikian dapat diambil kesimpulan tentang butir yang baik dan
tidak baik.
Berikut contoh check list analisis kualitatif:
a. Materi
1. Tes sesuai indikator
2. Pilihan jawab homogen dan logis
3. Hanya ada satu kunci jawaban yang tepat
b. Konstruksi
4. Pokok tes dirumuskun secara singkat dan jelas
5. Rumusan pokok tes dan pilihan jawaban
7. Pokok tes tidak memberi petunjuk ke kunci jawaban
8. Pokok tes bebas dari pernyataan yang bersifat negatif ganda
9. Gambar/grafik/table diagram dan sejenisnya jelas berfungsi
10.Panjang rumusan jawaban relatif
11.Pilihan jawaban tidak menggunakan pernyataan "semua jawaban di atas
salah" atau "semua jawaban di atas benar".
12.Pilihan jawaban yang berbentuk angka atau waktu disusun berdasarkan
urutan besar kecilnya angka atau kronologis
13.Butir tes tidak tergantung pada jawaban sebelumnya
c. Bahasa
14.tes menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia
15.tes menggunakan bahasa yang komunikatif
16.tes tidak menggunakan bahasa yang berlaku setempat
17.pilihan jawaban tidak mengulang kata/kelompok kata yang sama yang bukan
merupakan satu kesa
Reliabilitas: Pendekatan Tes Ulang

Reliabilitas diterjemahkan dari kata reliability. Menurut John M. Echols dan Hasan
Shadily (2003: 475) reliabilitas adalah hal yang dapat dipercaya. Popham (1995: 21)
menyatakan bahwa reliabilitas adalah "...the degree of which test score are free from
error measurement". Dalam pandangan Brennan (2001: 295) reliabilitas merupakan
karakteristik skor, bukan tentang tes ataupun bentuk tes. Menurut Sumadi Suryabrata
(2004: 28) reliabilitas menunjukkan sejauhmana hasil pengukuran dengan alat tersebut
dapat dipercaya. Hasil pengukuran harus reliabel dalam artian harus memiliki tingkat
konsistensi dan kemantapan. Dalam pandangan Aiken (1987: 42) sebuah tes dikatakan
reliabel jika skor yang diperoleh oleh peserta relatif sama meskipun dilakukan
pengukuran berulang-ulang. Untuk memperoleh skor yang sama, maka tidak boleh ada
kesalahan pengukuran. Dengan demikian, keandalan sebuah alat ukur dapat dilihat dari
dua petunjuk yaitu kesalahan baku pengukuran dan koefisien reliabilitas. Kedua statistik
tersebut masing-masing memiliki kelebihan dan keterbatasan (Feldt & Brennan, 1989:
105)
Berdasarkan sejarah, reliabilitas sebuah instrumen dapat dihitung melalui dua cara yaitu
kesalahan baku pengukuran dan koefisien reliabilitas (Feldt & Brennan: 105). Kedua
statistik di atas memiliki keterbatasannya masing-masing. Kesalahan pengukuran
merupakan rangkuman inkonsistensi peserta tes dalam unit-unit skala skor sedangkan
koefisien reliabilitas merupakan kuantifikasi reliabilitas dengan merangkum konsistensi
(atau inkonsistensi) diantara beberapa kesalahan pengukuran.
Dalam kerangka teori tes klasik, suatu tes dapat dikatakan memiliki reliabilitas yang
tinggi apabila skor tampak tes tersebut berkorelasi tinggi dengan skor murninya sendiri.
Interpretasi lainnya adalah seberapa tinggi korelasi antara skor tampak pada dua tes yang
pararel. (Saifuddin Azwar, 2006: 29). Reliabilitas menurut Ross E. Traub (1994: 38) yang
disimbolkan oleh dapat didefinisikan sebagai rasio antara varian skor murni dan varian
skor tampak . Secara matematis teori di atas dapat ditulis :
Reliabilitas alat ukur tidak dapat diketahui dengan pasti tetapi dapat diperkirakan. Dalam
mengestimasi reliabilitas alat ukur, ada tiga cara yang sering digunakan yaitu (1)
pendekatan tes ulang, (2) pendekatan dengan tes pararel dan (3) pendekatan satu kali
pengukuran.
Pendekatan tes ulang merupakan pemberian perangkat tes yang sama terhadap
sekelompok subjek sebanyak dua kali dengan selang waktu yang berbeda. Asumsinya
adalah bahwa skor yang dihasilkan oleh tes yang sama akan menghasilkan skor tampak
yang relatif sama. Estimasi dengan pendekatan tes ulang akan menghasilkan koefisien
stabilitas. Untuk memperoleh koefisien reliabilitas melalui pendekatan tes ulang dapat
dilakukan dengan menghitung koefisien korelasi linear antara distribusi skor subyek pada
pemberian tes pertama dengan skor subyek pada pemberian tes kedua. Pendekatan tes
ulang sangat sesuai untuk mengukur ketrampilan terutama ketrampilan fisik.
Misalnya seorang guru hendak melihat reliabilitas tes yang telah dibuatnya. Setelah
melakukan dua kali pengukuran didapatkan skor tes sebagai berikut:
Koefisien reliabilitas test di atas dapat dihitung dengan menggunakan formula korelasi
produk momen dari Pearson sebagai berikut:
Dengan demikian, korelasi sebesar 0,954 menggambarkan bahwa reliabilitas tes cukup
tinggi.
Salah satu kelemahan mendasar dari teknik test-retest adalah carry-over effect. Masalah
ini disebabkan oleh adanya kemungkinan pada test yang kedua dipengaruhi oleh test
pertama. Misalnya, jika peserta tes masih ingat dengan soal-soal dan bahkan jawaban
ketika dilakukan test pertama. Hal ini dapat meningkatkan korelasi serta overestimasi
terhadap PXX’.
Pengukuran, Penilaian dan Evaluasi Pendidikan

a. Pengukuran
Pengukuran dapat diartikan dengan kegiatan untuk mengukur sesuatu. Pada

hakekatnya, kegiatan ini adalah membandingkan sesuatu dengan atau sesuatu
yang lain (Anas Sudijono, 1996: 3) Jika kita mengukur suhu badan seseorang
dengan termometer, atau mengukur jarak kota A dengan kota B, maka
sesungguhnya yang sedang dilakukan adalah mengkuantifikasi keadaan
seseorang atau tempat kedalam angka. Karenanya, dapat dipahami bahwa
pengukuran itu bersifat kuantitatif
Maksud dilaksanakan pengukuran sebagaimana dikemukakan Anas Sudijono

(1996: 4) ada tiga macam yaitu : (1) pengukuran yang dilakukan bukan untuk
menguji sesuatu seperti orang mengukur jarak dua buah kota, (2) pengukuran
untuk menguji sesuatu seperti menguji daya tahan lampu pijar serta (3)
pengukuran yang dilakukan untuk menilai. Pengukuran ini dilakukan dengan
jalan menguji hal yang ingin dinilai seperti kemajuan belajar dan lain sebagainya.
Dalam dunia pendidikan, yang dimaksud pengukuran sebagaimana disampaikan

Cangelosi (1995: 21) adalah proses pengumpulan data melalui pengamatan
empiris. Proses pengumpulan ini dilakukan untuk menaksir apa yang telah
diperoleh siswa setelah mengikuti pelajaran selama waktu tertentu. Proses ini
dapat dilakukan dengan mengamati kinerja mereka, mendengarkan apa yang
mereka katakan serta mengumpulkan informasi yang sesuai dengan tujuan
melalui apa yang telah dilakukan siswa.
Menurut Mardapi (2004: 14) pengukuran pada dasarnya adalah kegiatan
penentuan angka terhadap suatu obyek secara sistematis. Karakteristik yang
terdapat dalam obyek yang diukur ditransfer menjadi bentuk angka sehingga
lebih mudah untuk dinilai. aspek-aspek yang terdapat dalam diri manusia seperti
kognitif, afektif dan psikomotor dirubah menjadi angka. Karenanya, kesalahan
dalam mengangkakan aspek-aspek ini harus sekecil mungkin. Kesalahan yang
mungkin muncul dalam melakukan pengukuran khususnya dibidang ilmu-ilmu
sosial dapat berasal dari alat ukur, cara mengukur dan obyek yang diukur.
Pengukuran dalam bidang pendidikan erat kaitannya dengan tes. Hal ini
dikarenakan salah satu cara yang sering dipakai untuk mengukur hasil yang
telah dicapai siswa adalah dengan tes. Selain dengan tes, terkadang juga
dipergunakan nontes. Jika tes dapat memberikan informasi tentang karakteristik
kognitif dan psikomotor, maka nontes dapat memberikan informasi tentang
karakteristik afektif obyek.
b. Penilaian
Penilaian merupakan bagian penting dan tak terpisahkan dalam sistem
pendidikan saat ini. Peningkatan kualitas pendidikan dapat dilihat dari nilai-nilai
yang diperoleh siswa. Tentu saja untuk itu diperlukan sistem penilaian yang baik
dan tidak bias. Sistem penilaian yang baik akan mampu memberikan gambaran
tentang kualitas pembelajaran sehingga pada gilirannya akan mampu membantu
guru merencanakan strategi pembelajaran. Bagi siswa sendiri, sistem penilaian
yang baik akan mampu memberikan motivasi untuk selalu meningkatkan
kemampuannya.
Dalam sistem evaluasi hasil belajar, penilaian merupakan langkah lanjutan

setelah dilakukan pengukuran. informasi yang diperoleh dari hasil pengukuran
selanjutnya dideskripsikan dan ditafsirkan. Karenanya, menurut Djemari Mardapi
(1999: 8) penilaian adalah kegiatan menafsirkan atau mendeskripsikan hasil
pengukuran. Menurut Cangelosi (1995: 21) penilaian adalah keputusan tentang
nilai. Oleh karena itu, langkah selanjutnya setelah melaksanakan pengukuran
adalah penilaian. Penilaian dilakukan setelah siswa menjawab soal-soal yang
terdapat pada tes. Hasil jawaban siswa tersebut ditafsirkan dalam bentuk nilai.
Menurut Djemari Mardapi (2004: 18) ada dua acuan yang dapat dipergunakan
dalam melakukan penilaian yaitu acuan norma dan acuan kriteria. Dalam
melakukan penilaian dibidang pendidikan, kedua acuan ini dapat dipergunakan.
Acuan norma berasumsi bahwa kemampuan seseorang berbeda serta dapat
digambarkan menurut kurva distribusi normal. Sedangkan acuan kriteria
berasumsi bahwa apapun bisa dipelajari semua orang namun waktunya bisa
berbeda.
Penggunaan acuan norma dilakukan untuk menyeleksi dan mengetahui dimana

posisi seseorang terhadap kelompoknya. Misalnya jika seseorang mengikuti tes
tertentu, maka hasil tes akan memberikan gambaran dimana posisinya jika
dibandingkan dengan orang lain yang mengikuti tes tersebut. Adapun acuan
kriteria dipergunakan untuk menentukan kelulusan seseorang dengan
membandingkan hasil yang dicapai dengan kriteria yang telah ditetapkan terlebih
dahulu. Acuan ini biasanya digunakan untuk menentukan kelulusan seseorang.
Seseorang yang dikatakan telah lulus berarti bisa melakukan apa yang terdapat
dalam kriteria yang telah ditetapkan dan sebaliknya. Acuan kriteria, ini biasanya
dipergunakan untuk ujian-ujian praktek.
Dengan adanya acuan norma atau kriteria, hasil yang sama yang didapat dari
pengukuran ataupun penilaian akan dapat diinterpretasikan berbeda sesuai
dengan acuan yang digunakan. Misalnya, kecepatan kendaraan 40 km/jam akan
memiliki interpretasi yang berbeda apabila kendaraan tersebut adalah sepeda
dan mobil.
c. Evaluasi
Pengukuran, penilaian dan evaluasi merupakan kegiatan yang bersifat hierarki.
Artinya ketiga kegiatan tersebut dalam kaitannya dengan proses belajar
mengajar tidak dapat dipisahkan satu sama lain dan dalam pelaksanaannya
harus dilaksanakan secara berurutan.
Evaluasi Menurut Suharsimi Arikunto (2004: 1) adalah kegiatan untuk

mengumpulkan informasi tentang bekerjanya sesuatu, yang selanjutnya
informasi tersebut digunakan untuk menentukan alternatif yang tepat dalam
mengambil keputusan. Dalam bidang pendidikan, evaluasi sebagaimana
dikatakan Gronlund (1990: 5) merupakan proses yang sistematis tentang
mengumpulkan, menganalisis dan menafsirkan informasi untuk menentukan
sejauhmana tujuan pembelajaran telah dicapai oleh siswa. Menurut Djemari
Mardapi (2004: 19) evaluasi adalah proses mengumpulkan informasi untuk
mengetahui pencapaian belajar kelas atau kelompok.
Dari pendapat di atas, ada beberapa hal yang menjadi ciri khas dari evaluasi
yaitu: (1) sebagai kegiatan yang sistematis, pelaksanaan evaluasi haruslah
dilakukan secara berkesinambungan. Sebuah program pembelajaran
seharusnya dievaluasi disetiap akhir program tersebut, (2) dalam pelaksanaan
evaluasi dibutuhkan data dan informasi yang akurat untuk menunjang keputusan
yang akan diambil. Asumsi-asumsi ataupun prasangka. bukan merupakan
landasan untuk mengambil keputusan dalam evaluasi, dan (3) kegiatan evaluasi
dalam pendidikan tidak pernah terlepas dari tujuan-tujuan pembelajaran yang
telah ditetapkan sebelumnya. Karena itulah pendekatan goal oriented
merupakan pendekatan yang paling sesuai untuk evaluasi pembelajaran.
http://evaluasipendidikan.blogspot.com/2008/03/validitas-tes.html
Validitas Tes
Dalam kehidupan sehari-hari, manusia senantiasa dihadapkan pada masalah keakuratan
sebuah informasi. Informasi yang diterima manusia setiap hari sangat banyak dengan
sumber yang semakin beragam. Koran dan televisi adalah dua sumber informasi utama
saat ini. Dengan semakin banyaknya sumber-sumber informasi yang senantiasa
berkembang, maka muncul sebuah pertanyaan mendasar tentang sejauhmana informasi
yang diperoleh tersebut dapat dipercaya?
Dalam penelitian-penelitian sosial, keakuratan informasi yang diperoleh sangat

mempengaruhi keputusan yang akan diambil. Sayangnya, akurasi informasi dalam
penelitian-penelitian sosial tersebut tidak mudah diperoleh disebabkan sulitnya
mendapatkan operasionalisasi konsep mengenai variabel yang hendak diukur. Untuk
mengungkap aspek-aspek yang hendak diteliti, maka diperlukan alat ukur yang baik dan
berkualitas. Alat ukur tersebut dapat berupa skala atau tes. Sebuah tes yang baik
sebagaimana disampaikan oleh Syaifuddin Azwar (2006 : 2) harus memiliki beberapa
kriteria antara lain valid, reliable, standar, ekonomis dan praktis.
Dalam Standards for Educational and Psychological Testing validitas adalah "... the
degree to which evidence and theory support the interpretation of test scores entailed by
proposed uses of tests " (1999: 9). Sebuah tes dikatakan valid jika ia memang mengukur
apa yang seharusnya diukur (Allen & Yen, 1979: 95). Dalam bahasa yang hampir sama
Djemari Mardapi (2004: 25) menyatakan bahwa validitas adalah ukuran seberapa cermat
suatu tes melakukan fungsi ukurnya. Menurut Nitko & Brookhart (2007: 38) kevalidan
sebuah alat ukur tergantung pada bagaimana hasil tes tersebut diinterpretasikan dan
digunakan. Dalam pandangan Samuel Messick (1989: 13) validitas merupakan penilaian
menyeluruh dimana bukti empiris dan logika teori mendukung pengambilan keputusan
serta tindakan berdasarkan skor tes atau model-model penilaian yang lain
Jika dikaitkan dengan bidang psikologi, penggunaan validitas dapat dijumpai dalam tiga
konteks yaitu validitas penelitian, validitas soal dan validitas alat ukur. Validitas
penelitian merupakan derajad kesesuaian hasil penelitian dengan keadaan sebenarnya.
Validitas soal berkaitan dengan kesesuaian antara suatu soal dengan soal lain. Sedangkan
validitas alat ukur merujuk pada kecermatan ukurnya suatu tes (Sumadi Suryabrata, 2004:
40).
Menurut Allen & Yen (1979: 95) validitas tes dapat dibagi kedalam tiga kelompok utama
yaitu : (1) validitas isi (content validity), (2) validitas konstruk (construct validity) dan (3)
validitas kriteria (criterion related validity). Meskipun idealnya validasi dapat dilakukan
dengan memakai semua bentuk validitas tes tersebut, tetapi pengembang tes dapat
memilih bentuk validasi dengan melihat tujuan pengembangan tes (Kumaidi, 1994: 58).
Validitas isi menunjuk pada sejauhmana isi perangkat soal tersebut mengukur apa yang
seharusnya diukur. Dalam kaitannya dengan kegiatan pembelajaran menurut Djemari
Mardapi (1996: 22) validitas ini adalah kesesuaian antara materi ujian dan materi yang
telah dipelajari. Pengujian validitas isi tidak melalui analisis statistik melainkan analisis
rasional yaitu dengan melihat apakah butir-butirnya telah sesuai dengan batasan domain
ukur yang telah ditetapkan sebelumnya.
Allen & Yen (1979: 95) membagi validitas isi kedalam dua kelompok yaitu face validity
(validitas muka) dan logical validity (validitas logis). Validitas muka dapat dicapai jika
tampilan tes tersebut telah meyakinkan untuk mengungkap atribut yang hendak diukur.
Adapun validitas logis menunjukkan sejauhmana isi tes mengungkapkan representasi dari
ciri-ciri atribut yang hendak diukur.
Validitas konstruk merujuk pada sejauhmana suatu tes mengukur suatu konstruk teoretik
atau trait yang hendak diukurnya (Allen & Yen, 1979: 108) konstruk dalam pengertian ini
adalah berkaitan dengan aspek-aspek psikologi seseorang khususnya aspek kognitif,
afektif dan psikomotor.
Ada beberapa cara yang bisa digunakan untuk menguji validitas konstruk. Misalnya
dengan melakukan pencocokan antara aspek-aspek berpikir yang terkandung dalam tes
hasil belajar dengan aspek-aspek berpikir yang hendak diungkap oleh tujuan instruksional
khusus. Pengujian yang lebih sederhana tentang validitas konstruk adalah malalui
pendekatan multi trait multi-method (Saifuddin Azwar 2003: 176). Pendekatan ini akan
menghasilkan bukti validitas diskriminan yang ditunjukkan dengan rendahnya korelasi
antar skor yang mengukur trait yang berbeda bila digunakan metode yang sama dan
validitas konvergen yang ditunjukkan oleh tingginya korelasi skor-skor tes yang
mengukur trait yang sama dengan menggunakan metode yang berbeda.
Contoh mengenai estimasi koefisien validitas berdasarkan metode multitrait multimethod
adalah sebagaimana disampaikan Fred N. Kerlinger (1973:742) tentang matriks
hubungan antara sikap sosial. Ada dua instrument berbeda yang digunakan untuk
mengukur liberalisme (L) dan konservatisme (C) dalam hubungannya dengan sikap sosial
seseorang yaitu dengan pernyataan sikap biasa (metode 1) dan referen (metode 2)
menggunakan referensi-referensi sikap seperti sepatah kata atau frase singkat. Korelasi
antara kedua instrument tersebut disajikan dalam bentuk matriks multitrait-multimethod
berikut :
Dalam contoh tersebut secara teoritis dituntut adanya korelasi negative atau mendekati
nol antara L dan C. korelasi antara L1 dengan C1 adalah -0,07 serta antara L2 dengan C2
adalah -0,09 yang berarti bahwa keduanya hampir selaras dengan teorinya. Korelasi
silang antara L dan C yakni korelasi antara L pada metode 1 dan C pada metode 2 atau
antara L1 dan C2 adalah -0,37 dan ini lebih tinggi daripada yang diprediksikan oleh
teorinya (-0,30). Maka, dengan perkecualian korelasi silang yang besarnya -0,37 antara
L1 dan C2 validitas konstruk dalam skala sikap itu terdukung.
Validitas kriteria merupakan validitas yang disusun berdasarkan kriteria yang telah ada
sebelumnya. Dalam validitas kriteria, kesahihan alat ukur dilihat dari sejauhmana hasil
pengukuran tersebut sama dengan hasil pengukuran alat lain yang dijadikan kriteria.
Biasanya, dalam pengukuran psikologis, yang dijadikan kriteria, adalab hasil Pengukuran
lain yang telah dianggap sebagai alat ukur yang baik misalnya tes Stanford Binnet atau
tes Weschler.
Validitas kriteria dibedakan menjadi dua macam yaitu berdasarkan kapan kriteria itu
dapat dimanfaatkan. Jika dimanfaatkan dalam waktu dekat maka disebut validitas
konkurent (concurrent validity) dan jika dimanfaatkan diwaktu yang akan datang disebut
validitas prediktif (predictive validity).
Untuk memperoleh validitas kriteria, diperlukan pengujian dengan menggunakan
korelasi. Validitas kriteria ditunjukkan dengan angka korelasi antara skor pada alat yang
dipergunakan dengan skor yang dihasilkan dari alat yang dijadikan kriteria. Tetapi dalam
ujian masuk perguruan tinggi misalnya, koefisien validitas ditunjukkan dengan skor pada
saat ujian masuk dengan skor yang diperoleh pada saat seseorang telah belajar selama
beberapa waktu tertentu.
Menurut Sumadi Suryabrata, (2004: 46) dalam menafsirkan koefisien validitas yang
didapat dari mengkorelasikan skor alat ukur dengan kriterianya sebaiknya dilakukan
melalui koefisien determinasi yaitu koefisien korelasi kuadrat. Jadi jika diperoleh
koefisien korelasi sebesar 0,5, maka koefisien determinasinya adalah sebesar 0,25.
semakin tinggi angka koefisien determinasi, maka semakin tinggi pula kecermatan
prediksinya.
http://evaluasipendidikan.blogspot.com/2008/03/evaluasi-program-sebuah-
pengantar.html
Evaluasi Program: Sebuah Pengantar
a. Pengertian evaluasi
Menurut Suharsimi Arikunto (2004 : 1) evaluasi adalah kegiatan untuk

mengumpulkan informasi tentang bekerjanya sesuatu, yang selanjutnya
informasi tersebut digunakan untuk menentukan alternatif yang tepat dalam
mengambil keputusan. Fungsi utama evaluasi dalam hal ini adalah menyediakan
informasi-informasi yang berguna bagi pihak decision maker untuk menentukan
kebijakan yang akan diambil berdasarkan evaluasi yang telah dilakukan.
Menurut Worthen dan Sanders (1979 : 1) evaluasi adalah mencari sesuatu yang
berharga (worth). Sesuatu yang berharga tersebut dapat berupa informasi
tentang suatu program, produksi serta alternatif prosedur tertentu. Karenanya
evaluasi bukan merupakan hal baru dalam kehidupan manusia sebab hal
tersebut senantiasa mengiringi kehidupan seseorang. Seorang manusia yang
telah mengerjakan suatu hal, pasti akan menilai apakah yang dilakukannya
tersebut telah sesuai dengan keinginannya semula.
Menurut stufflebeam dalam worthen dan sanders (1979 : 129) evaluasi adalah :
process of delineating, obtaining and providing useful information for judging
decision alternatives. Dalam evaluasi ada beberapa unsur yang terdapat dalam
evaluasi yaitu : adanya sebuah proses (process) perolehan (obtaining),
penggambaran (delineating), penyediaan (providing) informasi yang berguna
(useful information) dan alternatif keputusan (decision alternatives).
Dari pengertian-pengertian tentang evaluasi yang telah dikemukakan beberapa
orang diatas, kita dapat menarik benang merah tentang evaluasi yakni evaluasi
merupakan sebuah proses yang dilakukan oleh seseorang untuk melihat sejauh
mana keberhasilan sebuah program. Keberhasilan program itu sendiri dapat
dilihat dari dampak atau hasil yang dicapai oleh program tersebut.
Karenanya, dalam keberhasilan ada dua konsep yang terdapat didalamnya yaitu
efektifitas dan efisiensi. Efektifitas merupakan perbandingan antara output dan
inoutnya sedangkan efisiensi adalah taraf pendayagunaan input untuk
menghasilkan output lewat suatu proses (Sudharsono 1994 : 2)
Dalam evaluasi terdapat perbedaan yang mendasar dengan penelitian meskipun

secara prinsip, antara kedua kegiatan ini memiliki metode yang sama.
Perbedaan tersebut terletak pada tujuan pelaksanaannya. Jika penelitian
bertujuan untuk membuktikan sesuatu (prove) maka evaluasi bertujuan untuk
mengembangkan (improve).
Terkadang, penelitian dan evaluasi juga digabung menjadi satu frase, penelitian
evaluasi. Sebagaimana disampaikan oleh Sudharsono (1994 : 3) penelitian
evaluasi mengandung makna pengumpulan informasi tentang hasil yang telah
dicapai oleh sebuah program yang dilaksanakan secara sistematik dengan
menggunakan metodologi ilmiah sehingga darinya dapat dihasilkan data yang
akurat dan obyektif.
b. Tujuan evaluasi program
Setiap kegiatan yang dilaksanakan mempunyai tujuan tertentu. demikian juga

dengan evaluasi. Menurut Suharsimi Arikunto (2004 : 13) ada dua tujuan
evaluasi yaitu tujuan umum dan tujuan khusus. Tujuan umum diarahkan kepada
program secara keseluruhan sedangkan tujuan khusus lebih difokuskan pada
masing-masing komponen.
Implementasi program harus senantiasa di evaluasi untuk melihat sejauh mana

program tersebut telah berhasil mencapai maksud pelaksanaan program yang
telah ditetapkan sebelumnya. Tanpa adanya evaluasi, program-program yang
berjalan tidak akan dapat dilihat efektifitasnya. Dengan demikian, kebijakan-
kebijakan baru sehubungan dengan program itu tidak akan didukung oleh data.
Karenanya, evaluasi program bertujuan untuk menyediakan data dan informasi
serta rekomendasi bagi pengambil kebijakan (decision maker) untuk
memutuskan apakah akan melanjutkan, memperbaiki atau menghentikan
sebuah program.
c. Hakekat Evaluasi Program
Menurut John L Herman dalam Tayibnapis (1989 : 6) program adalah segala

sesuatu yang anda lakukan dengan harapan akan mendatangkan hasil atau
manfaat. Dari pengertian ini dapat ditarik benang merah bahwa semua
perbuatan manusia yang darinya diharapkan akan memperoleh hasil dan
manfaat dapat disebut program.
Menurut Suharsimi Arikunto (2004 : 2) program dapat dipahami dalam dua

pengertian yaitu secara umum dan khusus. Secara umum, program dapat
diartikan dengan rencana atau rancangan kegiatan yang akan dilakukan oleh
seseorang di kemudian hari. Sedangkan pengertian khusus dari program
biasanya jika dikaitkan dengan evaluasi yang bermakna suatu unit atau kesatuan
kegiatan yang merupakan ralisasi atau implementasi dari suatu kebijakan,
berlangsung dalam proses berkesinambungan dan terjadi dalam satu organisasi
yang melibatkan sekelompok orang.
Menilik pengertian secara khusus ini, maka sebuah program adalah rangkaian
kegiatan yang dilaksanakan secara berkesinambungan secara waktu
pelaksanaannya biasanya panjang. Selain itu, sebuah program juga tidak hanya
terdiri dari satu kegiatan melainkan rangkaian kegiatan yang membentuk satu
sistem yang saling terkait satu dengan lainnya dengan melibatkan lebih dari satu
orang untuk melaksanakannya.
Menurut Isaac dan Michael (1984 : 6) sebuah program harus diakhiri dengan
evaluasi. Hal ini dikarenakan kita akan melihat apakah program tersebut berhasil
menjalankan fungsi sebagaimana yang telah ditetapkan sebelumnya. Menurut
mereka, ada tiga tahap rangkaian evaluasi program yaitu : (1) menyatakan
pertanyaan serta menspesifikasikan informasi yang hendak diperoleh, (2)
mencari data yang relevan dengan penelitian dan (3) menyediakan informasi
yang dibutuhkan pihak pengambil keputusan untuk melanjutkan, memperbaiki
atau menghentikan program tersebut.
Berdasarkan pengertian diatas, maka evaluasi program sebagaimana dimaknai

oleh Kirkpatrick dapat dimaknai sebagai sebuah proses untuk mengetahui
apakah sebuah program dapat direalisasikan atau tidak dengan cara mengetahui
efektifitas masing-masing komponennya melalui rangkain informasi yang
diperoleh evaluator (Kirkpatrick 1996 : 3). Tetapi, pengambil keputusan itu sendiri
bukanlah evaluator melainkan pihak lain yang lebih berwenang. Evaluator hanya
menyediakan informasi-informasi yang dibutuhkan oleh pengambil kebijakan
(decision maker)
d. Model-model evaluasi
Ada banyak model yang bisa digunakan dalam melakukan evaluasi program
khususnya program pendidikan. Meskipun terdapat beberapa perbedaan antara
model-model tersebut, tetapi secara umum model-model tersebut memiliki
persamaan yaitu mengumpulkan data atau informasi obyek yang dievaluasi
sebagai bahan pertimbangan bagi pengambil kebijakan. (Suharsimi Arikunto dan
Cecep Safruddin Abdul Jabbar : 2004). Menurut Stephen Isaac dan Willian B.
Michael ( 1984 : 7) model-model evaluasi dapat dikelompokan menjadi enam
yaitu :
1. Goal Oriented Evaluation
Dalam model ini, seorang evaluator secara terus menerus melakukan pantauan
terhadap tujuan yang telah ditetapkan. Penilaian yang terus-menerus ini menilai
kemajuan-kemajuan yang dicapai peserta program serta efektifitas temuan-
temuan yang dicapai oleh sebuah program. Salah satu model yang bisa mewakili
model ini adalah discrepancy model yang dikembangkan oleh Provus. Model ini
melihat lebih jauh tentang adanya kesenjangan (Discrepancy) yang ada dalam
setiap komponen yakni apa yang seharusnya dan apa yang secara riil telah
dicapai.
2. Decision Oriented Evaluation
Dalam model ini, evaluasi harus dapat memberikan landasan berupa informasi-
informasi yang akurat dan obyektif bagi pengambil kebijakan untuk memutuskan
sesuatu yang berhubungan dengan program. Evaluasi CIPP yang dikembangkan
oleh stufflebeam merupakan salah satu contoh model evaluasi ini. Model CIPP
merupakan salah satu model yang paling sering dipakai oleh evaluator. Model ini
terdiri dari 4 komponen evaluasi sesuai dengan nama model itu sendiri yang
merupakan singkatan dari Context, Input, Process dan Product.
Evaluasi konteks (context evaluation) merupakan dasar dari evaluasi yang
bertujuan menyediakan alasan-alasan (rationale) dalam penentuan tujuan
(Baline R. Worthern & James R Sanders : 1979) Karenanya upaya yang
dilakukan evaluator dalam evaluasi konteks ini adalah memberikan gambaran
dan rincian terhadap lingkungan, kebutuhan serta tujuan (goal).
Evaluasi input (input evaluation) merupakan evaluasi yang bertujuan
menyediakan informasi untuk menentukan bagaimana menggunakan
sumberdaya yang tersedia dalam mencapai tujuan program. Evaluasi proses
(process evaluation) diarahkan pada sejauh mana kegiatan yang direncanakan
tersebut sudah dilaksanakan. Ketika sebuah program telah disetujui dan dimulai,
maka dibutuhkanlah evaluasi proses dalam menyediakan umpan balik
(feedback) bagi orang yang bertanggungjawab dalam melaksanakan program
tersebut
Evaluasi Produk (product evaluation) merupakan bagian terakhir dari model
CIPP. Evaluasi ini bertujuan mengukur dan menginterpretasikan capaian-
capaian program. Evaluasi produk menunjukkan perubahan-perubahan yang
terjadi pada input. Dalam proses ini, evaluasi produk menyediakan informasi
apakah program itu akan dilanjutkan, dimodifikasi kembali atau bahkan akan
dihentikan
3. Transactional Evaluation
Dalam model ini, evaluasi berusaha melukiskan proses sebuah program dan
pandangan tentang nilai dari orang-orang yang terlibat dalam program tersebut.
4. Evaluation Research
Sebagaimana disebutkan diatas, penelitian evaluasi memfokuskan kegiatannya
pada penjelasan dampak-dampak pendidikan serta mencari solusi-solusi terkait
dengan strategi instruksional.
5. Goal Free Evaluation
Model yang dikembangkan oleh Michael Scriven ini yakni Goal Free Evaluation
Model justru tidak memperhatikan apa yang menjadi tujuan program
sebagaimana model goal oriented evaluation. Yang harus diperhatikan justru
adalah bagaimana proses pelaksanaan program, dengan jalan mengidentifikasi
kejadian-kejadian yang terjadi selama pelaksanaannya, baik hal-hal yang positif
maupun hal-hal yang negatif.
6. Adversary Evaluation
Model ini didasarkan pada prosedur yang digunakan oleh lembaga hukum.
Dalam prakteknya, model adversary terdiri atas empat tahapan yaitu :
1. Mengungkapkan rentangan isu yang luas dengan cara melakukan survey
berbagai kelompok yang terlibat dalam satu program untuk menentukan
kepercayaan itu sebagai isu yang relevan.
2. Mengurangi jumlah isu yang dapat diukur.
3. Membentuk dua tim evaluasi yang berlawanan dan memberikan kepada
mereka kesempatan untuk berargumen.
4. Melakukan sebuah dengar pendapat yang formal. Tim evaluasi ini kemudian
mengemukakan argument-argumen dan bukti sebelum mengambil keputusan
http://evaluasipendidikan.blogspot.com/2008/03/abstrak-tesis.html
Abstrak Tesis: Karakteristi Butir Soal UN Bahasa Indonesia SMA Prodi IPA TP
2005/2006 di Prop SULUT
DJUNAIDI LABABA: Karakteristik Butir Soal Ujian Nasional Bahasa Indonesia
SMA Program Studi IPA Tahun Pelajaran 2005/2006 di Propinsi Sulawesi Utara.
Tesis. Yogyakarta: Program Pascasarjana, Universitas Negeri Yogyakarta, 2007.
Penelitian ini bertujuan untuk mengungkapkan karakteristik butir soal Ujian

Nasional Bahasa Indonesia SMA Program Studi IPA tahun pelajaran 2005/2006
serta untuk membuat pemetaan berkaitan dengan kualitas pendidikan antara
kabupaten/kota di Propinsi Sulawesi Utara.
Objek penelitian ini adalah Paket Tes 01 dan 03 Ujian Nasional Bahasa
Indonesia SMA program studi IPA tahun pelajaran 2005/2006. Sumber data
utama adalah 1.234 lembar jawaban siswa pada Paket 01 dan 2.842 lembar
jawaban Paket 03. Data dianalisis dengan menggunakan pendekatan kualitatif
dan kuantitatif. Pendekatan kualitatif dilakukan dengan menganalisis aspek
materi, konstruksi dan bahasa. Pendekatan kuantitatif dilakukan dengan Teori
Tes Klasik dan Teori Respon Butir 1 parameter (Rasch Model).
Hasil analisis kualitatif menunjukkan bahwa setiap butir yang terdapat pada
Paket Tes 01 dan 03 berkualitas baik. Pada Paket 01 lima butir soal dan pada
Paket 03 satu butir soal tidak memenuhi kriteria pada aspek konstruksi. Hasil
analisis dengan Teori Tes Klasik menunjukkan bahwa kedua Paket Tes
terkategori tidak baik. Sebanyak 20 butir (40%) pada Paket 01 dan 17 butir
(34%) pada Paket 03 masuk kategori baik dari sisi tingkat kesukaran. Jumlah
butir dengan daya beda yang baik untuk Paket 01 dan 03 berturut-turut sebanyak
16 dan 17 butir (32% dan 34%). Keefektifan distraktor untuk Paket 01 dan 03
berfungsi pada sebanyak 28 dan 35 butir (56% dan 70%). Hasil analisis
berdasarkan teori respon butir menunjukkan sebanyak 40 butir (80%) Paket 01
dan 37 butir (74%) Paket Tes03 cocok dengan model. Sebanyak 30 butir (60%)
Paket 01 dan 35 butir (70%) pada Paket 03 memiliki tingkat kesukaran sedang.
Dengan demikian, berdasarkan teori respon butir 1 parameter Paket 01 masuk
kategori cukup baik dan Paket 03 masuk kategori baik. Hasil pemetaan
pendidikan berdasarkan Paket 01 menunjukkan bahwa daerah dengan kualitas
pendidikan tertinggi adalah Kabupaten Minahasa Utara, diikuti Kabupaten
Minahasa Selatan, Kabupaten Talaud, dan Kota Tomohon. Untuk Paket 03,
daerah dengan kualitas pendidikan tertinggi adalah kota Manado. Selanjutnya
diikuti oleh Kabupaten Minahasa, Kabupaten Bolaangmongondow, Kabupaten
Sangihe dan Kota Bitung.
ABSTRACT
DJUNAIDI LABABA: The Characteristics of National Assessment Test Items of

Bahasa Indonesia for Senior High School Science Program 2005/2006 in North
Sulawesi Province. Thesis. Yogyakarta: Graduate School, State University of
Yogyakarta, 2007.
This research was aimed to reveal the characteristics of National Examination

test items of Bahasa Indonesia for Senior High School in 2005/2006 and to map
the educational quality among the regencies/cities in North Sulawesi Province.
The subject of this research was Test Packages 01 and 03 of National

Examination of Bahasa Indonesia for Senior High School in 2005/2006. The data
source was 1,234 answer sheets of Package 01 and 2,842 answer sheets of
Package 03. The data were analyzed using the qualitative and quantitative
approaches. The qualitative approach was used for analyzing the material,
construction, and language aspects. The quantitative approach was used
applying the Classical Test Theory and one parameter Item Response Theory
(Rasch Model).
The result of the analysis shows that all of the items in Packages 01 and 03 are
good. Five items in Package 01 and one item in Package 03 do not fulfill the
criteria of the construction aspects. The result using the Classical Test Theory
shows that both of the packages are not good. There are 20 items (40%) in
Package 01 and 17 items (34%) in Package 03 categorized good viewed from
the indices of item difficulty. The number of items with good discrimination power
for Packages 01 and 03 is 16 and 17 items (32% and 34%). The distractor
effectiveness of Packages 01 and 03 functions at 28 and 35 items (56% and
70%). The result of the analysis using the Item Response Theory shows that 40
items (80%) in Package 01 and 37 items (74%) in Package 03 fit with the model.
There are 30 items (60%) in Package 01 and 35 items (70%) in Package 03
having a medium difficulty level. Thereby, according to one parameter Item
Response Theory, Package 01 is categorized quite good and Package 03 is
categorized good. The result of the mapping out of the educational quality
according to Package 01 shows that the region with the highest quality of
education is North Minahasa Regency followed by South Minahasa Regency,
Talaud Regency and Tomohon City. For Package 03, the highest educational
quality region is Manado City, followed by Minahasa Regency,
Bolaangmongondow Regency, Sangihe Regency, and Bitung City.
Untuk mendapatkan Naskah Thesis ini secara utuh silahkan hubungi saya di :
evaluasipendidikan@yahoo.co.id dengan memberikan alasan akan digunakan
untuk keperluan apa. Insya Allah kala digunakan untuk kebaikan, naskah
tersebut akan dikirimkan lewat e-mail saudara
Topik Inti:
1. Pengertian evaluasi, evaluasi pendidikan dan kedudukannya dalam system

pendidikan Islam.
2. Fungsi, Tujuan dan Kegunaan Evaluasi Pendidikan Islam
3. Teknik-teknik Evaluasi Pendidikan Islam (tes dan non tes)
4. Bentuk tes dan teknik penulisannya
5. Penyusunan instrument nontes
6. Validitas tes
7. Reliabilitas tes
8. Teknik penskoran dan konversi nilai
9. Analisis butir soal menurut teori tes klasik
10. Praktik analisis soal menggunakan komputer
11. Pelaporan hasil tes dan pengembangannya
12. Praktik lapangan (menyusun tes dan melaksanakan ujicoba lapangan)
Referensi:
Buku wajib
1. Anas Sudijono. (2005). Pengantar evaluasi pendidikan. Jakarta: Raja Grafindo
Persada
2. Djemari Mardapi. (2004). Penyusunan Tes Hasil Belajar. Yogyakarta: Program
Pascasarjana Universitas Negeri Yogyakarta
3. Dali S. Naga. (1992). Pengantar Teori Sekor Pada Pengukuran Pendidikan.
Jakarta: Raja Grafindo Persada
4. Crocker, L. (1992). Item analysis. Dalam Alkin M.C. (Eds.), Encyclopedia of
educational research. (pp. 652-657). New York: Macmillan Library reference
USA.
5. Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory.
Monterey, California: Brooked/Cole Publishing Company.
Buku Anjuran
1. American Psychological Association, American Educational Research
Association & National Council on Measurement in Education. (1999). Standards
for educational and psychological testing. Washington: American Educational
Research Association
2. Gronlund, N. E., & Linn, R. L. (1990). Measurement and evaluation in teaching
6th edition. New York: Collier Macmillan Publishers.
3. Linn, R. L. (Eds.), (1989). Educational measurement third edition. (pp. 13-103).
New York: McMillan
4. Saifuddin Azwar. (2003). Tes prestasi : fungsi dan pengembangan
pengukuran prestasi belajar. Yogyakarta: Pustaka Pelajar.
5. Cangelosi, J. A. (1990). Merancang tes untuk menilai prestasi siswa.
Bandung: Penerbit ITB.
Penyusunan Instrumen Nontes

Teknis nontes adalah suatu alat penilaian yang biasanya dipergunakan untuk
mendapatkan informasi tertentu tentang keadaan peserta tes (Inggris: testee)
dengan tidak menggunakan tes. Hal ini berarti bahwa jawaban yang diberikan
oleh peserta tes tidak bisa dikategorikan sebagai jawaban benar atau salah
sebagaimana interpretasi jawaban tes. Dengan teknik nontes maka penilaian
atau evaluasi hasil belajar peserta didik dilakukan tanpa “menguji” peserta didik
melainkan dilakukan dengan cara tertentu.
Penilaian yang dilakukan dengan teknis nontes terutama bertujuan untuk
memperoleh informasi yang berkaitan dengan evaluasi hasil belajar peserta didik
dari segi ranah sikap hidup (affective domain) dan ranah ketrampilan
(psychomotoric domain). David Krathwohl (1974), sebagaimana dikutip Anas
Sudijono (2005 : 54) mengembangkan taksonomi mengenai ranah afektif ini
dengan membaginya kedalam lima jenjang yaitu : (1) receiving (menerima) (2)
responding (merespon) (3) valuing (menilai atau memaknai), (4) organization
(mengorganisasi) dan (5) characterization by a value or value complex
(karakterisasi dengan suatu nilai atau nilai yang kompleks).
Kemampuan psikomotor (psychomotoric domain) adalah kemampuan yang

berhubungan dengan gerak yaitu kemampuan dalam menggunakan otot-otot
seperti berjalan, lari, melompat, berenang, melukis, membongkar dan memasang
peralatan dan lain sebagainya. Dalam dunia psikologi, kemampuan psikomotor
dibagi kedalam lima tingkatan yaitu gerak refleks, gerakan dasar, kemampuan
perseptual, kemampuan fisik, gerakan trampil dan komunikasi nondiskursip (Sax,
1980: 76).
Gerak reflek adalah gerakan yang muncul tanpa sadar. Gerakan dasar adalah
gerakan yang mengarah pada ketrampilan kompleks yang khusus seperti berlari
dan berjalan. Kemampuan perseptual merupakan kombinasi kemampuan kognitif
dan kemampuan motor, kemampuan fisik adalah kemampuan untuk
mengembangkan gerakan yang paling terampil seperti gerakan tari ataupun
olahrega ekstrim tertentu. Sedangkan komunikasi nondiskursip adalah
kemampuan berkomunikasi dengan menggunakan bahasa gerakan.
Kemampuan terakhir ini berhubungan dengan kemampuan mengucapkan kata-
kata berbahasa asing.
Dalam dunia pendidikan teknik nontes yang sering digunakan adalah

pengamatan (observasi), dan terkadang, seorang guru juga menggunakan
wawancara. Dalam penelitian-penelitian sosial, teknik nontes biasanya juga
digunakan untuk mendapatkan informasi mengenai keadaan obyek penelitian.
Teknik nontes yang sering digunakan dalam penelitian-penelitian sosial
penelitian adalah kuesioner.
Teknik pengamatan atau observasi merupakan salah satu bentuk teknik nontes
yang biasa dipergunakan untuk menilai sesuatu melalui pengamatan terhadap
objeknya secara langsung, seksama dan sistematis. Pengamatan
memungkinkan untuk melihat dan mengamati sendiri kemudian mencatat
perilaku dan kejadian yang terjadi pada keadaan sebenarnya.
Menurut Moleong (2005 : 176) pengamatan dapat dibedakan menjadi dua yaitu
pengamatan berperanserta dan tidak berperanserta. Dalam pengamatan yang
tidak berperanserta, seseorang hanya melakukan satu fungsi yaitu mengamati
tetapi pada pengamatan berperanserta seseorang disamping mengamati juga
menjadi anggota dari obyek yang diamati.
Pengamatan dapat pula dibagi atas pengamatan terbuka dan tertutup. Terbuka
jika obyek yang diamati mengetahui bahwa mereka sedang diamati dan
sebaliknya. Selain itu pengamatan juga dibagi pada latar alamiah (pengamatan
tak terstruktur) dan latar buatan (pengamatan terstruktur). Pengamatan ini
biasanya dapat dilakukan pada eksperimen. Dalam pengamatan berstruktur,
kegiatan pengamatan itu telah diatur sebelumnya. Isi, maksud, objek yang
diamati, kerangka kerja, dan lain-lain, telah ditetapkan sebelum kegiatan
pengamatan dilaksanakan. Oleh karena itu, kegiatan pencatatan hanya
dilakukan terhadap data-data yang sesuai dengan cakupan bidang kebutuhan
seperti yang telah ditetapkan sejak semula. Lain halnya dengan pengamatan tak
berstrukur, dalam melakukan pengamatannya, si pengamat tidak dibatasi oleh
kerangka kerja yang telah dipersiapkan sebelumnya. Setiap data yang muncul
yang dianggap relevan dengan tujuan pengamatannya langsung dicatat. Dengan
demikian, data yang diperoleh lebih mencerminkan keadaan yang
sesungguhnya. Perilaku siswa dalam keadaan seperti itu bersifat wajar, apa
adanya dan tidak dibuat-buat.
Teknik pengamatan jika dilakukan untuk melihat apakah perbuatan siswa sudah
benar atau tidak dapat dikategorikan sebagai teknik tes. Misalnya jika dalam
praktek olahraga seorang guru akan melihat apakah cara melempar lembing
seseorang sudah sesuai dengan teori atau tidak, maka pengamatan jenis ini
terkategori sebagai teknik tes. Tetapi jika pengamatan dilakukan terhadap aspek
afektif seperti cara seorang siswa bersikap terhadap guru, menjaga kebersihan,
perhatian terhadap tugas-tugas sekolah dan sebagainya, maka teknik ini
termasuk teknik nontes.
Wawancara atau interview merupakan salah satu alat penilaian nontes yang
dipergunakan untuk mendapatkan informasi tertentu tentang keadaan responden
dengan jalan tanya-jawab sepihak. Dikatakan sepihak karena pertanyaan-
pertanyaan yang diajukan dalam kegiatan wawancara itu hanya berasal dari
pihak pewawancara saja, sementara responden hanya bertugas sebagai
penjawab. Maksud diadakan wawancara sebagaimana dikutip Moleong dari
Lincoln dan Guba (1985 : 266) antara lain mengkonstruksi mengenai orang,
kejadian, organisasi, perasaan, motivasi, tuntutan, kepedulian dan lain
sebagainya.
Ada banyak pembagian wawancara yang dilakukan para ahli. salah satu
diantaranya adalah membagi wawancara kedalam dua bentuk yaitu wawancara
bebas dan wawancara terpimpin. Yang dimaksud wawancara terpimpin adalah
suatu kegiatan wawancara yang pertanyaan-pertanyaan serta kemungkinan-
kemungkinan jawabannya itu telah dipersiapkan pihak pewawancara, responden
tinggal memilih jawaban yang sudah dipersiapkan pewawancara. Sebaliknya
dalam wawancara bebas, responden diberi kebebasan untuk menjawab
pertanyaan-pertanyaan pewawancara sesuai dengan pendapatnya tanpa terikat
oleh ketentuan-ketentuan yang telah dibuat pewawancaranya.
Kuesioner merupakan bentuk lain dari teknik nontes. Secara umum, ada dua
jenis kuesioner yaitu kuesioner tertutup dan terbuka. Kuesioner tertutup adalah
kuesioner yang telah disediakan alternatif jawabannya sehingga responden
tinggal memilih yang sesuai dengan keadaan dirinya. Sedangkan kuesioner
terbuka adalah kuesioner yang jawabannya belum disediakan sehingga
responden bebas menuliskan apa yang dia rasakan. Satu hal yang menjadi ciri
utama kuesioner adalah dalam kuesioner tidak ada jawaban benar atau salah.
Salah satu contoh kuesioner tertutup adalah :
Umur anda saat ini adalah :

a. 15 – 20 tahun
b. 20 – 25 tahun
c. 25 – 30 tahun
d. 35 – 35 tahun
Adapun contoh kuesioner terbuka adalah :

Setiap idul fitri tiba, ribuan orang seperti digerakkan untuk beridulfitri di kampung
halamannya. Uraikanlah menurut pendapat anda apa yang menjadi penyebab
pulangkampungnya orang yang ada diperantauan ketika Idul Fitri tiba!
Ada beberapa alasan kenapa kuesioner sering dipergunakan orang dalam

mengumpulkan informasi tertentu yaitu : (1) butir-butir kuesioner dapat diberikan
kepada responden secara serentak sehingga lebih efektif, (2) butir-butir dalam
kuesioner lebih menjamin keseragaman baik perumusan kata, isi maupun
urutannya serta kuesioner lebih memudahkan dalam memberikan jawaban, (3)
kuesioner memudahkan sumber data dalam memberikan jawaban serta
kepraktisan serta relative lebih murah dibandingkan metode nontes yang lain.

Analisis Butir Soal

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Butir Soal

Diunggah oleh

Hak Cipta:

Format Tersedia

http://evaluasipendidikan.blogspot.

Analisis Butir Soal

Analisis secara kualitatif dilakukan dengan melakukan penelaahan terhadap

Hasil telaah kemudian dirangkum untuk selanjutnya ditentukan kualitas butir

Reliabilitas: Pendekatan Tes Ulang

Pengukuran, Penilaian dan Evaluasi Pendidikan

Pengukuran dapat diartikan dengan kegiatan untuk mengukur sesuatu. Pada

Maksud dilaksanakan pengukuran sebagaimana dikemukakan Anas Sudijono

Dalam dunia pendidikan, yang dimaksud pengukuran sebagaimana disampaikan

Dalam sistem evaluasi hasil belajar, penilaian merupakan langkah lanjutan

Penggunaan acuan norma dilakukan untuk menyeleksi dan mengetahui dimana

Evaluasi Menurut Suharsimi Arikunto (2004: 1) adalah kegiatan untuk

Dalam penelitian-penelitian sosial, keakuratan informasi yang diperoleh sangat

Evaluasi Program: Sebuah Pengantar

Menurut Suharsimi Arikunto (2004 : 1) evaluasi adalah kegiatan untuk

Dalam evaluasi terdapat perbedaan yang mendasar dengan penelitian meskipun

b. Tujuan evaluasi program

Setiap kegiatan yang dilaksanakan mempunyai tujuan tertentu. demikian juga

Implementasi program harus senantiasa di evaluasi untuk melihat sejauh mana

c. Hakekat Evaluasi Program

Menurut John L Herman dalam Tayibnapis (1989 : 6) program adalah segala

Menurut Suharsimi Arikunto (2004 : 2) program dapat dipahami dalam dua

Berdasarkan pengertian diatas, maka evaluasi program sebagaimana dimaknai

2. Decision Oriented Evaluation

5. Goal Free Evaluation

Penelitian ini bertujuan untuk mengungkapkan karakteristik butir soal Ujian

DJUNAIDI LABABA: The Characteristics of National Assessment Test Items of

This research was aimed to reveal the characteristics of National Examination

The subject of this research was Test Packages 01 and 03 of National

1. Pengertian evaluasi, evaluasi pendidikan dan kedudukannya dalam system

Penyusunan Instrumen Nontes

Kemampuan psikomotor (psychomotoric domain) adalah kemampuan yang

Dalam dunia pendidikan teknik nontes yang sering digunakan adalah

Umur anda saat ini adalah :

Adapun contoh kuesioner terbuka adalah :

Ada beberapa alasan kenapa kuesioner sering dipergunakan orang dalam

Anda mungkin juga menyukai