Realbilitas Tes, Tingkat Kesukaran Dan Daya Pembeda

BAB I
PENDAHULUAN
1.1 Latar Belakang
Secara harfiah kata evaluasi berasal dari bahasa inggris evaluation yang dalam
bahasa Indonesia berarti penilaian. Akar katanya adalah value yang berarti
nilai.Dengan demikian secara harfiah, evaluasi pendidikan dapat di artikan sebagai
penilaian dalam (bidang) pendidikan atau penilaian mengenai hal-hal yang
berkaitan dengan kegiatan pendidikan.
Adapun dari segi istilah, evaluasi itu menunjuk kepada atau mengandung
pengertian suatu tindakan atau suatu proses untuk menentukan nilai dari
sesuatu.Maka evaluasi pendidikan itu dapat di artikan sebagai suatu tindakan atau
kegiatan atau suatu proses menentukan nilai dari segala sesuatu dalam dunia
pendidikan (yaitu segala sesuatu yang berhubungan dengan yang terjadi di lapangan
pendidikan). Atau singkatnya evaluasi pendidikan adalah kegiatan atau proses
penentuan nilai pendidikan, sehingga dapat di ketahui mutu atau hasil-hasilnya.
Sebelum melanjutkan pembicaraan tentang evaluasi pendidikan secara lebih
luas dan mendalam, terlebih dahulu perlu di pahami bahwa dalam praktek sering
kali terjadi kerancuan atau tumpang tindih dalam penggunaan istilah evaluasi,
penilaian dan pengukuran.Kenyataan seperti itu memang dapat di pahami, mengigat
bahwa di antara ketiga istilah tersebut saling terkait sehingga sulit untuk di bedakan.
Dalam evaluasi terdapat beberapa teknik pengujian reliabilitas tes hasil belajar,
tingkat kesukaran soal dan daya pembeda yang akan kami bahas dalam makalah ini.
1.2 Rumusan Masalah

1. Apa pengertian reliabilitas ?
2 Apa saja jenis reliabilitas?
3 Apa saja faktor-faktor yang mempengaruhi reliabilitas?5
4 Apa Pengertian tingkat kesukaran?
5 Bagaimana Menganalisis tingkat kesukaran soal?
6 Apa Pengertian Daya pembeda?
1
7 Bagaimana Manganalisis daya pembeda soal?
1.3 Tujuan
1. Agar mahasiswa mengetahui pengertian reliabilitas.
2. Apa saja jenis reliabilitas.
3. Apa saja faktor yang mempengaruhi reliabilitas
4. Agar Mahasiswa mengetahui pengertian Tingkat Kesukaran
5. Agar mahasiswa memahami cara menganalisis tingkat kesukaran soal
6. Agar mahasiswa mengetahui pengertian Daya Pembeda
7. Agar mahsiswa memahami cara menganalisis daya pembeda soal
2
BAB II
PEMBAHASAN
2.1 Pengertian Reliabilitas
Kata reliabillitas dalam bahasa Indonesia di ambil dari reliability dalam
bahasa inggris, berasal dari kata, reliable yang artinya dapat di percaya. “reliabilitas”
merupakan kata benda, sedangkan “reliable” merupakan kata sifat atau keadaan.
Reliabilitas merupakan penerjemahan dari kata reliability yang mempunyai
asal kata rely dan ability. Pengukuran yang memiliki reliabilitas tinggi disebut
sebagai pengukuran yang reliabel (reliable).Walaupun reliabilitas mempunyai
berbagai arti seperti kepercayaan, keterandalan, keajegan, kestabilan dan
konsistensi, namun ide pokok yang terkandung dalam konsep reliabilitas adalah
sejauh mana hasil pengukuran dapat dipercaya.
Dari beberapa pengertian di atas jadi reliabilitas tes merupakan suatu alat ukur
yang digunakan untuk mengetahui konsistensi pengukuran tes yang hasilnya
menunjukan keajegan.Seorang dikatakan dapat di percaya apabila orang tersebut
berbicara ajeg, tidak berubah-ubah pembicaraannya dari waktu ke waktu.Dalam
sebuah tes pentingnya diamati keajegan dan kepastian tes tersebut dilihat dari hasil
tes yang didapat.
Reliabilitas berhubungan dengan masalah kepercayaan. Suatu tes dikatakan
mempunyai taraf kepercayaan yang tinggi jika tes tersebut dapat memberikan hasil
yang tetap. Pengertian reliabilitas tes, berhubungan dengan masalah ketetapan hasil
tes. Jadi, reliabilitas adalah ketetapan suatu tes apabila diteskan kepada subjek yang
sama. Jika keadaan si A mula-mula berada lebih rendah dibandingkan dengan si B,
maka jika diadakan pengukuran ulang, si A juga berada lebih rendah dari B. Itulah
yang dikatakan tetap, yaitu sama dalam kedudukan siswa di antara anggota
kelompok yang lain. Tentu saja tidak dituntut semuanya tetap. Besarnya ketetapan
itulah menunjukkan tingginya reliabilitas instrumen.
Sehubungan dengan reliabilitas ini, Scarvia B Anderson dan kawan-kawan
menyatakan bahwa persyaratan bagi tes, yaitu validitas dan reliabilitas ini
penting.Dalam hal ini validitas lebih penting, dan reliabilitas ini perlu, karena
3
menyokong terbentuknya validitas. Sebuah tes mungkin reliabel tetapi tidak valid.
Sebaliknya, sebuah tes yang valid biasanya reliabel.
2.2 Cara Mencari Reliabilitas Test

a) Metode bentuk paralel (equivalent)
Tes paralel atau tes equivalent adalah dua buah tes yang mempunyai kesamaan
tujuan, tingkat kesukaran, dan susunan, tetapi butir-butir soalnya berbeda.
Dua buah tes paralel misalnya tes matematika seri A yang akan dicari
reliabilitasnya dan tes seri B diteskan kepada sekelompok siswa yang sama, kemudian
hasilnya dikorelasikan. Koefisien korelasi dari kedua tes inilah yang menunjukkan
koefisien reliabilitas tes seri A. Jika koefisiennya tinggi maka tes tersebut sudah
reliabel dan dapat digunakan sebagai alat pengetes yang terandalkan.
Dalam menggunakan metode tes paralel ini pengetes harus menyiapkan dua
buah tes, dan masing-masing dicobakan pada kelompok siswa yang sama.
Penggunaan metode ini baik karena siswa dihadapkan kepada dua macam tes
sehingga tidak ada faktor “masih ingat soalnya” yang dalam evaluasi disebut adanya
practice-effect dan carry-over effect, artinya ada faktor yang dibawa oleh pengikut tes
karena sudah mengerjakan soal
tersebut.
Kelemahan dari metode ini adalah bahwa pengetes pekerjaannya berat karena
harus menyusun dua seri tes dan harus tersedia waktu yang lama untuk mencobakan
dua kali tes.
b) Metode tes ulang (test-retest method)
Metode tes ulang adalah sebuah tes yang dicobakan dua kali. Untuk tes yang
banyak mengungkap pengetahuan (ingatan) dan pemahaman, cara ini kurang
mengena karena tercoba akan masih ingat akan butir-butir soalnya. Jika tenggang
waktu terlalu sempit, siswa masih banyak ingat materi. Sebaliknya kalau tenggang
waktu terlalu lama, maka faktor-faktor atau kondisi tes sudah akan berbeda, dan siswa
sendiri barangkali sudah mempelajari sesuatu. Tentu saja faktor-faktor ini akan
berpengaruh pula terhadap reliabilitas.
4
Pada umumnya hasil tes yang kedua cenderung lebih baik daripada hasil tes
pertama. Hal ini tidak mengapa karena pengetes harus sadar akan adanya practice effect
dan carry over effect.Yang penting adalah adanya kesejajaran hasil atau ketetapan hasil
yang ditunjukkan oleh koefisien korelasi yang tinggi.
c) Metode belah dua atau split-half method

Dalam menggunakan metode ini pengetes hanya menggunakan sebuah tes yang
dicobakan satu kali. Berbeda dengan metode pertama dan kedua yang setelah
diketemukan koefisien korelasi langsung ditafsirkan itulah koefisien reliabilitas, maka
dengan metode ketiga tidak demikian. Pada waktu membelah dua dan mengkorelasikan
dua belahan, baru reliabilitas separo tes. Untuk mengetahui reliabilitas seluruh tes harus
digunakan rumus Spearman Brown sebagai berikut:
𝑁𝑟12
rn =
1+(𝑁−1)𝑟12
Keterangan :
Rn = Koefisien Korelasi seluruh tes
N = Perbandingan antara panjang tes seluruhnyadengan panjang tes yang
dikorelasikan
R12 = Koefisien korelasi antara sebagian tes denganbagian tes lainnya.
a. Cara membelah butir soal (Banyaknya butir soal harus genap) :

a) membelah atas item-item genap dan item-item ganjil yang selanjutnya disebut
belahan ganjil-genap.
b) membelah atas item-item awal dan item-item akhir yaitu separo jumlah pada
nomor-nomor awal dan separo pada nomor-nomor akhir yang selanjutnya
disebut belahan awal-akhir.
2.3 Cara Mencari Reliabilitas Tes Bentuk Uraian
Menilai soal bentuk uraian tidak dapat dilakukan dengan menilai hanya “benar” atau
“salah” seperti tes bentuk objektif. Sesuatu butir soal uraian menghendaki gradualisasi
5
penilaian. Misalnya butir soal nomor 1 penialaian terendah 0 tertinggi 8, tetapi butir
soal nomor 2 nilai tertinggi hanya 5, dan butir soal nomor 3 sampai 10 dan sebagainya.
Untuk keperluan mencari reliabilitas soal keseluruhan perlu juga dilakukan analisis
butir soal seperti halnya soal bentuk objektif. Skor untuk masing-masing butir soal
dicantumkan pada kolom item menurut apa adanya. Rumus yang digunakan adalah
rumus alpha sebagai berikut:
𝑛 ∑𝜎12
𝑟11 = ( ) (1 − 2 )
𝑛−1 𝜎1
Dimana :
∑𝜎12 = Jumlah varians skor tiap -tiap item
R11 = Reliabilitas yang dicari
𝜎12 = Varians total
2.4 Faktor-faktor yang mempengaruhi Reliabilitas

Reliabilitas dapat dipengaruhi oleh waktu penyelenggaran tes-retes. Interval
penyelengaraan yang terlalu dekat atau jauh, akan mempengruhi koefisien
reliabilitas. Faktor-factor lain yang mempengaruhi di antaranya;
1. Panjang test, semakin panjang test evaluasi, semakin banyak jumlah item
materi pembelajaran diukur. Ini menunjukan dua kemungkinan yaitu test
semakin mendekati kebenaran, dan dalam memgikuti test, semakin kecil siswa
menebak. Berarti semakin tinggi koefisien reliabilitas.
2. Penyebaran skor koefisien reliabiltas secara langsung dipengeruhioleh bentuk
sebaranskor dalam kelompok siswa yang diukur. Semakin tinggi sebaran
semakin tingi estimasi koefisien reliabilitas. Hal ini tejadi karena posisi skor
siswa, secara individual mempunyai kedudukan sama pada tes retest
lain,sebagai acuan.
3. Kesulitan test; test normative yang terlalu mudah atau terlalu sulitskor untuk
siswa cenderung menghasilkan reliabilitas rendah. Fenomena tersebut, akan
menghasilkan sebaran skor yang cenderung terbatas pada salah satu sisi.
Untuk test yang terlalu mudah skor jawaban siswa akan mengumpul ada sisi
atas, untuk tes terlalu sulit skor jawaban siswa akan cenderung mengumpul
6
pada ujung bawah. Dua kejadian tersebut mempunyai kesamaan yaitu bahwa
perbedaan di antara individu adalah kecil dan cenderung tidak relevan
4. Objektivitas; yang di maksud objekif yaitu derajat dimana siswa dengan
kompetensi sama mencapai hasil sama. Ketika prosedur test evaluasi memiliki
objektivitas tinggi, maka reliabilitas test tidak dipengaruhi oleh prosedur teknik
penskoran. Item test objektif yang dihasilkan tidak dipengaruhi pertimbangan
atau opini seorang evaluator.
2.5 Tingkat Kesukaran

Analisis tingkat kesukaran dimaksudkan untuk mengetahui apakah bentuk soal
tergolong mudah atau sukar. Tingkat kesukaran adalah bilangan yang menunjukan
sukar atau mudahnya suatu soal. (Arikunto, 1999: 207). Selain itu juga Tingkat
kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat
kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks.
Menurut Witherington dalam bukunya berjudul psychological Education,
mengatakan bahwa sudah atau belum memadainya derajat kesukaran item tes hasil
belajar dapat diketahui dari besar kecilnya angka yang melambangkan tingkat
kesulitan dari item tersebut. Angka yang dapat memberikan petunjuk mengenai
tingkat kesukaran item itu dikenal dengan istilah difficulty index ( angka index
kesukaran item), yang dalam dunia evaluasi hasil belajar umumnya dilambangkan
dengan huruf P, yaitu singkatan dari kata proportion( proporsi =proposa). Indeks
tingkat kesukaran ini pada umumnya dinyatakan dalam bentuk proporsi yang
besarnya berkisar 0,00 - 1,00. Semakin besar indeks tingkat kesukaran yang
diperoleh dari hasil hitungan, berarti semakin mudah soal itu. Suatu soal memiliki
TK= 0,00 artinya bahwa tidak ada siswa yang menjawab benar dan bila memiliki
TK= 1,00 artinya bahwa siswa menjawab benar. Perhitungan indeks tingkat
kesukaran ini dilakukan untuk setiap nomor soal. Pada prinsipnya, skor rata-rata
yang diperoleh peserta didik pada butir soal yang bersangkutan dinamakan tingkat
kesukaran butir soal itu.
Fungsi tingkat kesukaran butir soal biasanya dikaitkan dengan tujuan tes. Misalnya
untuk keperluan ujian semester digunakan butir soal yang memiliki tingkat
7
kesukaran sedang, untuk keperluan seleksi digunakan butir soal yang memiliki
tingkat kesukaran tinggi/sukar, dan untuk keperluan diagnostik biasanya digunakan
butir soal yang memiliki tingkat kesukaran rendah/mudah.
2.5.1 Cara Menentukan Tingkat Kesukaran
a. Untuk menghitung tingkat kesukaran tiap butir soal digunakan
persamaan:
𝐵
P=
𝐽𝑥
Keterangan : P = Indeks kesukaran

B = Banyak siswa yang menjawab soal dengan benar, dan
Jx = Jumlah seluruh siswa peserta tes
Indeks kesukaran di klasifikasikan sebagai beriku :

P-P Klasifikasi
0,00 – 0,29 Soal Sukar
0,30 - 0,69 Soal Sedang
0,70 – 1,00 Soal Mudah
b. Cara lain yang digunakan untuk menentukan tingkat kesukaran soal

Untuk mencari derajat kesukaran (DK) suatu item dapat dilakukan dengan jalan
mengadakan analisis item-item, (items analysis). Ada beberapa cara yang dapat
dilakukan dalam analisis item tersebut. Salah satu cara yang dapat ditempuh adalah
dengan prosedur sebagai berikut :
1. Susunlah lembar jawaban siswa-siswa. Lembar jawaban yang mendapat
skor paling tinggi ditaruh paling atas, dibawahnya adalah lembar jawaban
yang mendapat skor paling rendah diletakkan paling bawah.
2. Ambillah 27% lembar jawaban dari atas, 27% lembar jawaban yang diambil
dari atas ini kita sebut kelompok atas. Dan ambil pula 27% lembar jawaban
dari bawah.27% lembar jawaban dari bawah ini kita sebut kelompok bawah.
Sisanya yang ditengah-tengah sebanyak 46% kita sisihkan, karena tidak
diikutkan dalam analisis.
8
3. Buatlah tabel seperti di bawah ini :
No. Soal WL WH WL + WH WL-WH
1
2
3
Dst.
Keterangan :
WL = Jumlah individu kelompok bawah (27% dari bawah) yang tidak
menjawab atau menjawab salah pada item tertentu
WH = Jumlah individu kelompok atas (27% dari atas) yang tidak menjawab
atau menjawab salah pada item tertentu
4. Isilah kolom-kolom tabel tersebut dengan data yang diperoleh.
5. Derajat Kesukaran (DK) atau Degrees of Difficulty (DD) dapat dicari
dengan rumus :
𝑤𝐿 +𝑤𝐻
DK = × 100%
𝑛𝐿 +𝑛𝐻
Keterangan :
DK = Derajat Kesukaran
nL = Jumlah kelompok Bawah
nH = Jumlah Kelompok Atas
Derajat kesukaran yang baik adalah derajat kesukaran yang bergerak antara
25% sampai 75%. Item yang mempunyai derajat kesukaran dibawah 25%
berarti bahwa item tersebut terlalu mudah. Sebaliknya item yang
mempunyai dearjat kesukaran di atas 75% bearti bahwa item tersebut terlalu
sukar.
2.6 Daya Pembeda

Daya pembeda (item discriminination) adalah untuk menentukan dapat
tidaknya suatu soal membedakan kelompok dalam aspek yang diukur sesuai
9
dengan perbedaan yang ada dalam kelompok itu. Indeks yang digunakan dalam
membedakan antara peserta tes yang berkemampuan tinggi dengan peserta tes yang
berkemampuan rendah. Indeks ini menunjukkan kesesuaian antara fungsi soal
dengan fungsi tes secara keseluruhan. Jadi Daya pembeda soal adalah kemampuan
suatu butir soal dapat membedakan antara warga belajar/siswa yang telah
menguasai materi yang ditanyakan dan warga belajar/siswa yang
tidak/kurang/belum menguasai materi yang ditanyakan.
Daya pembeda item itu dapat diketahui melalui atau dengan melihat besar
kecilnya angka indeks diskriminasi item. Angka indeks diskriminasi item adalah
sebuah angka yang menunjukkan besar kecilnya daya pembeda yang dimiliki oleh
sebutir item. Daya pembeda pada dasarnya dihitung atas dasar pembagian siswa ke
dalam dua kelompok, yaitu kelompok atas yakni kelompok yang tergolong pandai,
dan kelompok bawah, yaitu kelompok siswa yang tergolong bodoh. Dalam
hubungan ini, jika sebutir item memiliki angka indeks diskriminasi item dengan
tanda positif, hal ini merupakanm petunjuk bahwa butir item tersebut telah memiliki
daya pembeda, dalam arti bahwa siswa yang termasuk kategori pandai lebih banyak
yang dapat menjawab dengan betul terhadap butir item yang bersangkutan,
sedangkan siswa yang termasuk kategori bodoh lebih banyak yang menjawab salah.
Jika sebutir item angka indeks diskriminasinya = 0,00 (nihil), maka hal ini
menunjukkan bahwa butir item yang bersangkutan tidak memiliki daya pembeda
sama sekali, dalam arti bahwa jumlah siswa kelompok atas yang jawabannya betul
(atau salah) sama dengan jumlah siswa kelompok bawah yang jawabannya betul.
Jadi diantara kedua kelompok siswa tersebut tidak ada perbedaannya sama sekali,
atau perbedaannya sama dengan nol. Adapun apabila angka indeks diskriminasi
item dari sebutir item bertanda negatif, maka pengertian yang terkandung
didalamnya adalah, bahwa butir item yang bersangkutan lebih banyak dijawab betul
oleh siswa kelompok bawah ketimbang siswa kelompok atas. Dengan demikian ada
tiga titik pada daya pembeda yaitu:
Daya beda (DB) atau Discrimanting Power (DP) dapat dicari dengan rumus :
10
𝑤𝐿 − 𝑤𝐻
DB =
𝑛
Keterangan :
DB = Daya Beda
n = Jumlah kelompok atas atau kelompok bawah
Daya beda ideal adalah daya beda 0,40 ke atas. Namun untuk ulangan-
ulangan harian, Msih dapat ditolerir daya beda sebesar 0,20.
11
BAB III
PENUTUP
3.1 Simpulan
3.2 Saran
12
DAFTAR RUJUKAN
Nurkancana, Wayan dan Sunarta, PPN. 1992. Evaluasi Hasil Belajar. Surabaya:
Usana Offset Printing
Arikunto, Suharsimi. 2001. Dasar-Dasar Pendidikan. Jakarta: PT. Ikrar
Mandiriabadi
Arikunto,Suharsimi. 2003. Dasar-Dasar Evaluasi Pendidikan,Jakarta: Bumi
Aksara.
Sudijono, Anas. 2011. Evaluasi Pendidikan. Rajawali Pers: Jakarta

Arifin, Zainal. 2011. Evaluasi Pembelajaran. Bandung: Remaja Rosdakarya
13

Realbilitas Tes, Tingkat Kesukaran Dan Daya Pembeda

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Realbilitas Tes, Tingkat Kesukaran Dan Daya Pembeda

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB I

1.1 Latar Belakang

1.2 Rumusan Masalah

2.2 Cara Mencari Reliabilitas Test

b) Metode tes ulang (test-retest method)

c) Metode belah dua atau split-half method

a. Cara membelah butir soal (Banyaknya butir soal harus genap) :

2.3 Cara Mencari Reliabilitas Tes Bentuk Uraian

2.4 Faktor-faktor yang mempengaruhi Reliabilitas

2.5 Tingkat Kesukaran

Keterangan : P = Indeks kesukaran

Indeks kesukaran di klasifikasikan sebagai beriku :

b. Cara lain yang digunakan untuk menentukan tingkat kesukaran soal

2.6 Daya Pembeda

Sudijono, Anas. 2011. Evaluasi Pendidikan. Rajawali Pers: Jakarta

Anda mungkin juga menyukai