Anda di halaman 1dari 16

BAB I

PENDAHULUAN
A. Latar Belakang
Analisis butir soal atau analisis item adalah pengkajian
pertanyaanpertanyaan tes agar diperoleh perangkat pertanyaan yang memiliki
kualitas yang memadai (Sudjana, 2006). Menganalisis butir soal merupakan
suatu kegiatan yang harus dilakukan guru untuk meningkatkan mutu soal yang
dibuat. Kegiatan ini merupakan proses pengumpulan, peringkasan, dan
penggunaan informasi dari jawaban siswa untuk membuat keputusan tentang
setiap penilaian. Soal yang bermutu adalah soal yang dapat memberikan
informasi setepat-tepatnya sesuai dengan tujuannya di antaranya dapat
menentukan peserta didik mana yang sudah atau belum menguasai materi yang
diajarkan guru (Sartika, 2013).
Dalam analisis butir soal terdapat dua istilah yang digunakan yaitu
karakteristik dan spesifikasi butir soal. Analisis soal secara kuantitatif
menekankan pada karakteristik internal tes melalui data yang diperoleh secara
empiris (Supriadi, 2007). Dalam menentukan karakteristik butir soal, pada
umumnya dipertimbangkan tiga hal, yaitu: (1) tingkat kesukaran, (2) daya beda,
dan (3) berfungsi tidaknya pilihan jawaban atau pengecoh (Ratnaningsih, 2011).
Karakter-karakter butir soal tersebut sangat menentukan kualitas butir soal.
Mengukur tingkat kesukaran, daya pembeda, dan pengecoh diharapkan akan
mampu memberikan informasi yang akurat tentang kemapuan siswa yang
sebenarnya. Pengukuran tingkat pengecoh soal dipergunakan pada analisis soal
pilihan ganda yang memiliki alternatif jawaban lebih dari satu, sedangkan pada
soal uraian tidak memiliki pengecoh soal.
Kedudukan evaluasi dalam proses belajar mengajar sangat penting dan
tidak dapat dipisahkan. Demikian juga, agar proses evaluasi itu berfungsi dengan
semestinya dan sesuai tujuan, maka alat evaluasi itu sendiri harus baik. Hal ini
seringkali dilupakan oleh para praktisi pendidikan di lapangan, mereka hanya
berhenti pada pelaporan hasil evaluasi tanpa merasa perlu untuk mengetahui

1
seberapa baik alat evaluasi yang telah mereka gunakan. Alat evaluasi yang
dimaksud adalah tes hasil belajar yang berisi butir-butir soal (item soal).
Menurut Adiputra (2011) pelaksanaan ujian akhir semester di Kabupaten
Gianyar hanya penyusunan soal saja yang terkoordinir dengan baik. Selanjutnya
bagaimana hasilnya, apakah soal yang digunakan sudah memenuhi standar yang
disyaratkan tidak pernah diadakan pengujian lebih lanjut. Semua diserahkan
kepada sekolah masing-masing, sehingga yang terjadi hanyalah penyeragaman
soal saja tanpa pemikiran yang lebih mendalam tentang bagaimana sebuah tes
harus di buat, dilaksanakan, dan dianalisis agar menjadi tes yang memenuhi
syarat untuk dijadikan tes dengan standar tertentu.
Rahmawati (2012) juga mengatakan kenyataan di lapangan menunjukkan
bahwa selama ini kegiatan analisis butir-butir soal jarang dilakukan Itulah
sebabnya materi, konstruksi soal, bahasa, validitas, reliabilitas, dan analisis butir
soal yang terdiri dari tingkat kesukaran, daya pembeda, dan distraktor soal sering
dikatakan rendah. Lebih tepatnya kualitasnya tidak diketahui secara pasti.

B. Rumusan Masalah
Berdasarkan latar belakang diatas maka rumusan masalah pada makalah ini:
A. Perlunya analisis butir soal
B. Karakteristik butir soal
C. Karakteristik perangkat tes

C. Tujuan Penulisan
Berdasarkan Rumusan masalah maka tujuan penulisan makalah ini:
A. Menjelaskan perlunya analisis butir soal
B. Menjelaskan karakteristik butir soal
C. Menjelaskan karakteristik perangkat tes

2
BAB II
PEMBAHASAN
A. Perlunya Analisis Butir Soal
Butir soal sebagai suatu instrument dalam bentuk tes harus memiliki
kualitas agar hasil ukur dapat di pertanggung jawabkan. Oleh karena itu,
sebelum soal digunakan terlebih dahulu di uji cobakan dan berdasarkan hasil uji
coba tersebut di lakukan analisis butir soal. Jadi, menganalisis butir soal
merupakan suatu kegiatan yang harus dilakukan tester untuk memperoleh butir-
butir soal yang berkualitas. Kegiatan tersebut merupakan proses pengumpulan,
peringkasan, dan penggunaan informasi dari jawaban tester untuk membuat
keputusan tentang setiap penilaian (Nitko, 1996).
Tujuan analisis butir soal adalah untuk mengkaji dan menelaah setiap butir
soal agar diperoleh soal yang bermutu sebelum soal digunakan. Untuk
memperoleh butir soal yang berkualitas dapat dilakukan dengan cara melakukan
refisi atau membuang soal yang tidak baik atau efektif (Aiken, 1998). Soal yang
berkualitas adalah soal yang dapat memberikan informasi setepat-tepatnya
sesuai dengan tujuan pembelajaran, yaitu dapat menentukan peserta didik mana
yang sudah menguasai materi (tuntas) dan yang belum menguasai materi (tidak
tuntas).
Ada beberapa alasan mengapa diperlukan analisis butir soal. Menurut
Zainul, dkk 1997 alasan tersebit antara lain:
1. Untuk mengetahui kekuatan dan kelemahan butir tes, sehingga dapat
dilakukan seleksi dan revisi butir soal.
2. Untuk menyediakan informasi tentang spesifikasi butir soal secara lengkap,
sehingga akan lebih memudahkan bagi pembuat soal dalam menyusun
perangkat soal yang akan memenuhi kebutuhan ujian dalam bidang dan
tingkat tertentu.
3. Untuk segera dapat mengetahui masalah yang terkandung dalam butir soal,
seperti: kemenduaan butir soal, kesalahan meletakkan kunci jawaban, soal
yang terlalu sukar dan terlalu mudah, atau soal yang mempunyai daya beda
rendah.

3
4. Untuk dijadikan alat guna menilai butir soal yang akan di simpan dalam
bank soal.
Jadi, dapat disimpulkan bahwasanya analisis butir soal itu sangat perlu
dilakukan, karena dengan melakukan analisis butir soal seorang guru dapat
mengetahui kekuatan dan kelemahan butir tes, dan juga dapat mengetahui
masalah yang terkandung dalam butir soal sebelum soal itu digunakan.

B. Karakteristik Butir Soal


Dalam membicarakan analisis butir soal ini terdapat beberapa karakteristik
yaitu:
1. Tingkat Kesukaran (TK)
Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu
soal pada tingkat kemapuan tertentu yang biasanya dinyatakan dalam
bentuk indeks. Indeks tingkat kesukaran ini pada umumnya dinyatakan
dalam bentuk proporsi yang besarnya berkisar 0,00 – 1,00 (Aiken, 1994).
Semakin besar indeks tingkat kesukaran yang diperoleh dari hasil hitungan,
berarti semakin mudah soal itu. Jika soal memiliki tingkat kesulitan = 0,00
artinya bahwa tidak ada testee yang menjawab benar dan bila memiliki TK
= 1,00 berarti bahwa semua testee menjawab benar.
Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu
sukar. Soal yang terlalu mudah tidak merangsang testee untuk mempertinggi
usaha memecahkannya. Sebaliknya soal yang terlalu sukar akan
menyebabkan testee menjadi putus asa dan tidak mempunyai semangat
untuk mencoba lagi karena di luar jangkauan nya (Arikunto, 2009).
Untuk mengetahui tingkat kesulitan soal dilakukan dengan menguji
coba tes ( sejumlah butir soal ) kepada peserta didik / testee dengan
menetapkan skor 1 untuk yang menjawab benar setiap butir soal, dan skor 0
untuk setiap butir soal yang dijawab salah. Selanjutnya di hitung dengan
rumus :

𝐵
P=
𝐽𝑆

4
P : indeks kesukaran
B : banyaknya testee yang menjawab dengan benar
JS : jumlah seluruh peserta tes (testee)
Dalam menafsirkan indeks kesukaran menurut Arikunto (2007)
menggunakan ketentuan sebagai berikut:
a. Soal dengan P 0,00 sampai dengan 0,30 adalah soal sukar
b. Soal dengan P 0,31 sampai dengan 0,70 adalah soal sedang
c. Soal dengan P 0,71 sampai dengan 1,00 adalah soal mudah
Contoh :
Tes mata pelajaran bahasa inggris dalam bentuk pilihan jamak dengan
jumlah butir soal sebanyak 60 butir, di ikuti oleh 40 testee. Soal nomor 5
dijawab benar oleh 32 testee dan soal nomor 15 di jawab benar oleh 12
testee.
Tentukan tingkat kesulitan kedua soal tersebut dan jelaskan.
32 12
P5 = = 0,80 P15 = = 0,30
40 40
Berdasarkan perhitungan diatas diketahui indeks kesulitan soal no 5 = 0,80
dan soal no 15 = 0,30. Ini berarti bahwa soal no 5 termasuk kategori soal
mudah dan soal no 15 termasuk kategori sukar.
Untuk menghitung tingkat kesukaran soal bentuk uraian dilakukan dengan
cara menghitung berapa persen peserta didik yang gagal menjawab benar
atau dibawah batas lulus untuk tiap-tiap soal. Untuk menafsirkan tingkat
kesukaran soalnya dapat digunakan kretia sebagai berikut :
1) Jika jumlah peserta didik yang gagal mencapai 27% termasuk mudah.
Jika jumlah peserta dididk yang gagal antara 28% sampai dengan 72%
termasuk sedang.
2) Jika jumlah peserta didik yang gagal 72% ke atas, termasuk sukar.
Contoh:
Soal uaraian sebanyak 5 butir diteskan kepada 30 testee. Nilai
maksimum ditentukan 10 dan nilai minimum 0, batas kelulusan
ditentukan nilai 6. Untuk soal no 3, jumlah testee yang mendapat nilai 0-
5 = 10 orang (berarti gagal), nilai ≥ 6 sebanyak 20 orang.

5
Jadi,tingkat kesukaran soal no 3 adalah (TK) = 10/30 x 100% = 33,33%.
Tingkat kesukaran 33,33 berada di antara 28 dan 72, berarti soal termasuk
sedang.

2. Daya Beda Butir Soal


Daya beda (discriminating power) yang di tulis dengan symbol D
adalah kemampuan butir soal membedakan teste yang memiliki kemampuan
tinggi dan rendah. Daya beda berhubungan dengan tingkat kemampuan butir
soal untuk membedakan dengan baik perilaku testee dalam mengerjakan tes
yang dikembangkan (Anastasi dan Urbina, 1997).
Angka yang menunjukkan besarnya daya pembeda di sebut indeks
diskriminasi, disingkat dengan D. indeks diskriminasi (daya pembeda) ini
berkisar antara -1,00 sampai 1,00. Jadi, dalam daya beda ada tanda negative
(-).
Daya pembeda pada dasarnya dihitung atas dasar pembagian testee
kedalam dua kelompok, yaitu kelompok atas yakni kelompok testee yang
tergolong pandai atau berkemampuan tinggi, dan kelompok bawah, yaitu
kelompok testee yang tergolong berkemampuan rendah. Jika butir soal
memiliki angka indeks diskriminasi engan tanda positif, hal ini merupakan
petunjuk bahwa butir soal tersebut memiliki daya pembeda, dalam arti
bahwa testee yang termasuk kategori pandai lebih banyak yang dapat
menjawab dengan benar pada butir soal tersebut, sedangkan testee yang
temasuk ketegori berkemampuan rendah lebih banyak yang menjawab
salah.
Jika sebutir item angka indeks deskriminasinya = 0,00 (nihil), maka
ini menunjukkan bahwa butir soal yang bersangkutan tidak memiliki daya
pembeda sama sekali, karena jumlah testee kelompok atas yang jawabannya
benar sama dengan jumlah testee kelompok bawah yang jawabannya benar.
Jadi, diantara kedua kelompok testee tidak ada pembeda sama sekali, atau
pembedanya sama dengan nol (0). Sedangkan apabila angka indeks
diskriminasi butir soal bertanda negative (-), maka berarti butir item yang

6
bersangkutan lebih banyak dijawab benar oleh testee kelompok bawah dari
pada testee kelompok atas.
Daya beda dapat ditentukan dengan rumus sebagai berikut:
𝐵𝐴 𝐵𝐵
D= - = PA – PB
𝐽𝐴 𝐽𝐵

D = Besarnya daya benda yang di cari


JA = Jumlah kelompok atas
JB = Jumlah kelompok bawah
BA = Banyaknya testee yang menjawab benar dari kelompok atas
BB = Banyaknya testee yang menjawab benar dari kelopok bawah
PA = Proporsi testee kelompok atas yang menjawab benar
PB = Proporsi testee kelompok bawah yang menjawab benar
Menurut Nasution (2001) untuk menentukan kelompok atas dan
kelompok bawah adalah sebagai berikut:
a. Jika jumlah testee ≤ 20 maka jumlah kelompok atas dan bawah masing-
masing 50%
b. Jika jumlas testee 21-40 jumlah kelompok atas dan bawah masing-
masing 33,3%
c. Jika jumlah testee ≥ 41 maka jumlah kelompok atas dan bawah masing-
masing 27%

Menurut Arikunto (2008), kriteria tingkat daya beda yang baik, perlu
di revisi, atau di buang adalah seperti berikut:

a. 0,00 – 0,20 jelek


b. 0,21 – 0,40 cukup soal diterima tapi perlu di perbaiki
c. 0,41 – 0,70 baik
d. 0,71 – 1,00 baik sekali

3. Keberfungsian Pengecoh
Instrumenst berbentuk tes dan objektif, selain harus memenuhi syarat-
syarat memiliki tingkat kesulitan dan daya pembeda, juga harus mempunyai
pengecoh atau distractor yang efektif. Yang di sebut dengan pengecoh
adalah piliah jawaban yang bukan merupakan kunci jawaban.

7
Butir soal yang baik pengecohnya akan dipilih secara merata oleh
testee yang menjawab salah. Sebaliknya, butir soal yang kurang baik,
pengecohnya akan dipilih secara tidak merata. Pengecoh dianggap baik bila
jumlah testee yang memilih pengecoh itu sama atau mendekati jumlah ideal.
Indeks pengecoh dihitung dengan rumus:
𝑃
IP = 100%
( 𝑁−𝐵 ):( 𝑛−1)

Keterangan :
IP = Indeks pengecoh
P = Jumlah peserta didik yang memilih pengecoh
N = Jumlah peserta didik yang ikut tes
B = Jumlah peserta didik yang menjawab benar
n = Jumlah pilihan jawab
1 = Bilangan tetap
Adapun kriteria kualitas pengecoh berdasarkan indeksnya adalah
sebagai berikut:

76% - 125% atau 126 % - 150% = Sangat Baik


51% - 75% atau 126% - 150% = Baik
26% - 50% atau 151% - 175 % = Kurang Baik
0% - 25% atau 176% - 200% = Jelek
Lebih dari 200% = Sangat Jelek
Apabila semua peserta didik menjawab benar (sesuai kunci jawaban),
pada nomor butir soal tertentu,maka IP = 0 yang berarti soal tersebut
jelek.ini berarti pengecoh pada soal tersebut tidak berfungsi.

C. Karakteristik Perangkat Tes


1. Validitas Instrument
Validitas berkenaan dengan ketetapan alat ukur terhadap gejala yang
diukur,sehingga betul-betul mengukur apa yang seharusnya diukur.sebagai
contoh, teste ingin mengukur kemampuan testee dalam matematika,teste
memberikan soal dengan kalimat yang panjang dan yang berbelit- belit
sehingga sulit diangkap maknanya. Akibat teste tidak dapat menjawab,karna
tidak dapat memahami pertanyaannya. Contoh lain, peneliti ingin mengukur

8
kemampuan berbicara, tapi ditanya mengenai tata bahasa. Alat ukur tersebut
tidak tepat atau valid.
Validitas merupakan hasil atau produk dari validasi. Validasi adalah
suatu kegiatan yang dilakukan oleh pembuat atau penyusun instrument
dengan mengumpulkan data secara emperis, berdasarkan data tersebut
dilakukan analisis untuk mengetahui kualitas instrumen.
Menurut Arikunto (2007), secara garis besar ada dua macam validitas
yaitu
a. Validitas Logis
Validitas logis terbagi atas 2 adalah sebagai berikut :
1) Validitas Isi
Validitas isi berkenaan dengan kesanggupan instrument
mengukur isi yang akan diukur. Artinya, alat ukur tersebut mampu
mengungkap isi suatu gejala atau fenomena yang hendak
dikur.misalnya tes hasil belajar mata pelajaran ekonomi,harus bisa
mengungkap isi materi mata pelajaran tersebut. Hal ini bisa
dilakukan dengan cara menyusun tes yang bersumber dari kurikulum
mata pelajaran yang hendak diukur.
Pengujian jenis validitas ini dilakukan secara logis dan rasional
karena itu disebut juga rational validity. Batasan content validity ini
mengagambarkan sejauh mana tes mampu mengukur materi
pelajaran yang telah diberikan secara representatief dari perubahan-
perubahan perilaku yang diharapkan terjadi pada diri peserta didik
(testee).
2) Validitas Konstrak (Construct Validity)
Validitas konstrak bangun pengertian berkenaan dengan
kesanggupan alat ukur untuk mengukur konsep atau pengertian-
pengerian yang terkandung dalam fenomena atau materi yang
diukurnya.misalnya pengertian yang terkandung dalam kosep
sikap,minat,dan motivasi sebagai kajian yang akan ukur,maka harus
jelas apa yang hendak dikur.

9
Menetapkan dimensi dan indikator suatu konsep dapat
dilakukan dalam dua cara, yakni:
a) Menggunakan pemahaman atau logika berfikir atas dasar teori-
teori konsep yang akan diukur
b) Menggunakan pengalaman emperisnya, yakni apa yang terjadi
dalam kehidupan nyata.
Contoh: Konsep mengenai hubungan sosial dilihat dari
pengalaman, indikator emperisnya adalah yang terkait dengan:
i. Kemampuan dalam bergaul dengan banyak orang
ii. Disukai atau memiliki banyak teman
iii. Menghargai pendapat orang lain
iv. Memiliki kepedulian denagan orang lain
v. Tidak memaksakan kehendak
vi. Dapat bekerja sama dengan siapapun, dan lain- lain.
Apabila hasil pengukuran menunjukkan indikator-indikator yang
tidak berhubungan secara positif satu sama lain, berarti ukuran
tersebut tidak memiliki validitas bangun pengertian.atas dasar itu
indikatornya perlu ditinjau atau diperbaiki kembali.
Penetapan jumlah sampel uji coba dapat mengacu pada pendapat
Nunnaly(1970), bahwa untuk mengurangi resiko kehilangan butir-
butir intrumen dan agar memungkinkan untuk mengeliminasi
faktor- faktor yang tidak dikendaki maka dalam analisis instrument
direkomendasikan untuk digunakan sampel 5-10 kali jumlah butir
instrument.
b. Validitas Emperis
Validitas emperis terdiri dari validitas ada sekarang dan validitas
prediktif.
1) Validitas Ada Sekarang
Validitas ini umumnya dikenal dengan validitas
emperis.sebuah tes dikatakan memiliki validitas emveris jika
hasilnya sesuai kenyataan yang terjadi. Ada istilah sesuai,tentu ada

10
dua hal yang dibandingkan.seorang guru atau tester membuat tes
hasil belajar, jika akan dilihat tingkat vadilitasnya, maka hasi
tesnya dibandingkan dengan hasil tes yang terdahulu yang sudah
ada (ada sekarang concurrent). Misalnya seorang guru ingin
mengetahui apakah tes sumatif yang disusun sudah valid atau
belum.
2) Validitas Prediktif
Validitas prediktif adalah kemampuan suatu tes dapat
memprediksi apa yang terjadi dimasa yang akan datang. Misalnya
tes seleksi masuk perguruan tinggi adalah tes yang diperkirakan
mampu meramalkan keberhasilan peserta tes dalam mengikuti
kuliah dimasa yang akan datang. Calon yang tersaring berdasarkan
hasil tes dihapkan memiliki kemampuan mengikuti kuliah. Jika
mereka yang memperoleh nilai tesnya tinggi dan ternyata setelah
menempu kuliah beberapa semester memiliki nilai dengan indeks
prestasi tinggi, maka berarti tes seleksi masuk perguruan tinggi
tersebut memiliki validitas prediktif yang tinggi.
Sebaliknya jika ternyata mereka memiliki nilai indeks prestasi
rendah, maka berarti tes masuk perguruan tinggi memiliki validitas
prediktif yang rendah atau tidak memiliki validitas prediktif.untuk
mengetahui tingkat validitas prediktif, maka dikorelasikan antara
perolehan skor tes dengan pencapaian skor prestasi yang
diprediksikan.

2. Menghitung Validitas
Untuk mengetahui tingkat validitas empiris berdasarkan data dari
hasil uji coba instrument, maka dapat digunakan perhitungan statistik.
Pengertian umum dari validitas butir soal adalah di katakana valid apabila
mempunyai dukungan yang besar terhadap skor total. Skor pada setiap
butir soal menyebabka skor total menjadi tinggi atau rendah. Dengan kata
lain, sebuah butir soal memiliki validitas yang tinggi jika skor pada butir

11
soal tersebut mempunyai kesejajaran dengan skor total. Kesejajaran ini
dapat di artikan dengan korelasi, sehingga untuk mengetahui validitas item
digunakan rumus korelasi.
a. Menghitung Validitas Data Diskrit (Dikotomi)
Pada butir soal yang memiliki skor dikotomi, yaitu 1 dan 0
seperti pada tes objektif, maka rumus yang digunakan untuk
menghitung koefisien korelasi menggunakan rumus korelasi poin
biserial.
𝑀𝑝−𝑀1 𝑝
𝑟𝑝𝑏𝑖 = √𝑞
𝑆𝑡

Keterangan :
𝑟𝑝𝑏𝑖 = Koefisiensi korelasi biseral
M = Rerata skor dari subjek yang menjawab betul bagi item yang
dicari validitasnya
M = Rerata skor total
S = Standar deviasi dari skor total
p = Proporsisi siswa yang menjawab benar dibagi jumlah seluruh siswa
q = Proporsi siswa yang menjawab salah ( q = 1 – p )
b. Menghitung Validitas Data Kontinum
Apabila bentuk soalnya tes subjektif atau soal uraian atau skor
angket yang datanya kontiniu, yaitu 0 – 10 atau 1 – 5, maka
menghitung koefisien korelasi menggunakan rumus Korelasi Product
Moment dengan rumus sebagai berikut:

𝑛 ∑ 𝑋𝑌 − (∑ 𝑋)(∑ 𝑌)
𝑟=
√[𝑛 ∑ 𝑋 2 − (∑ 𝑋)2 ][𝑛 ∑ 𝑌 2 (∑ 𝑌)2 ]

Keterangan :
𝑟 : koefisien korelasi
X : skor masing – masing butir soal
Y : skor total responden
c. Mengitung Validitas dengan Kriterium
Apabila kita ingin mengetahui validitas instrument yang sudah
baku atau terstandar, maka kita dapat menghitung mengkorelasi skor
instrumen buatan kita dengan skor terstandar kemudian kalikan
dengan tingkat validitas skor standar.
12
3. Reliabilitas
Reliabilitas instrument atau alat ukur adalah ketetapan,keejegan
atau konsistensi alat ukur tersebut dalam mengukur objek yang diukur.
Menurut sudjana (2004), reliabilitas alat penilaian tersebut dalam menilai
apa yang dinilainya. Artinya, kapan pun saat alat penilaian tersebut
digunakan akan memberikan hasil yang relative sama.

4. Menghitung Realibitas Konsistensi Tanggapan Responden


a. Menghitung realibilitas dengan teknik test – retest ( tes ulang )
Cara menghitung koefisien stabilitas tersebut adalah sebagai berikut :
1) Buatlah tabel frekuensi yang berisi nomor, nama testee, hasil tes
pertama (X), hasil tes kedua (Y), kuadrat hasil tes pertama (X2),
kuadrat hasil tes kedua (Y2), perkalian antara hasil tes pertama dan
kedua (XY).
2) Jumlahkan X, Y, X2, Y2, XY.
3) Masukkan angka-angka yang diperoleh kedalam rumus berikut:
𝑛 ∑ 𝑋𝑇 − (∑ 𝑥)(∑ 𝑌)
𝑟𝑥𝑦 =
√{𝑛 ∑ 𝑥 2 − (∑ 𝑥)2 }{𝑛 ∑ 𝑦 2 − (𝑛 ∑ 𝑦)2 }
b. Menghitung Reliabilitas dengan Teknik Belah Dua
Berbeda dengan metode pertama setelah diketemukan koefisien korelasi
langsung ditafsirkan sebagai koefisien reliabilitas, pada metode ini
mengkorelasikan dua belahan tes untuk mengetahui reliabilitas separuh
tes. Selanjutnya digunakan rumus Spear man Brown untuk melihat
reliabilitas (Arikunto: 2007)

2𝑥𝑟1/21/2
𝑟11 = ( )
(1 + 𝑟1/21/2 )

Keterangan :
𝑟1/21/2 : Koefisien antara skor-skor setiap belahan tes
𝑟11 : Koefisien reliabilitas yang sudah disesuaikan

13
c. Menghitung Reliabilitas dengan Teknik Ekivalen Atau Paralel
Dikatakan oleh Arikunto (2007) tes paralel atau ekuivalen adalah dua
buah tes yang mempunyai kesamaan tujuan, tingkat kesukaran dan
susunan, tetapi butir-butirnya berbeda.

5. Menghitung Reliabilitas Konsistensi Gabungan Butir Soal


Sedangkan untuk menghitung koefisien reliabilitas konsistensi gabungan
butir soal yang banyak digunakan adalah sebagai berikut.
a. Menghitung Reliabilitas dengan Rumus KR 20
Uji reliabilitas untuk data dikotomi (0 dan 1), dikembangkan oleh kuder
dan Richardson, dan dikenal dengan rumus KR-20 dan KR-21

𝑛 𝑆 2 − ∑ 𝑝𝑞
𝑟11 =( )( )
𝑛−1 𝑆2

Keterangan:
𝑟11 : 𝑅𝑒𝑎𝑙𝑖𝑏𝑖𝑙𝑖𝑡𝑎𝑠 𝑡𝑒𝑠 𝑠𝑒𝑐𝑎𝑟𝑎 𝑘𝑒𝑠𝑒𝑙𝑢𝑟𝑢ℎ𝑎𝑛
𝑝: 𝑃𝑟𝑜𝑝𝑜𝑟𝑠𝑖 𝑠𝑢𝑏𝑗𝑒𝑘 𝑦𝑎𝑛𝑔 𝑚𝑒𝑛𝑗𝑎𝑤𝑎𝑏 𝑏𝑒𝑛𝑎𝑟 𝑏𝑢𝑡𝑖𝑟 𝑠𝑜𝑎𝑙
𝑞: 𝑃𝑟𝑜𝑝𝑜𝑟𝑠𝑖 𝑠𝑢𝑏𝑗𝑒𝑘 𝑦𝑎𝑛𝑔 𝑚𝑒𝑛𝑗𝑎𝑤𝑎𝑏 𝑠𝑎𝑙𝑎ℎ 𝑏𝑢𝑡𝑖𝑟 𝑠𝑜𝑎𝑙 (𝑞 = 1 − 𝑝)
∑ 𝑝𝑞 : 𝐽𝑢𝑚𝑙𝑎ℎ ℎ𝑎𝑠𝑖𝑙 𝑘𝑎𝑙𝑖 𝑝 𝑑𝑎𝑛 𝑞
𝑛: 𝐵𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑖𝑡𝑒𝑚
𝑆: 𝑆𝑡𝑎𝑛𝑑𝑎𝑟 𝑑𝑒𝑣𝑖𝑎𝑠𝑖 (𝑎𝑘𝑎𝑟 𝑣𝑎𝑟𝑖𝑎𝑛𝑠)
b. Menghitung Reliabilitas dengan Rumus Kr 21
Rumus KR 21 adalah sebagai berikut:

𝑛 𝑋̅𝑡 − (𝑛 − 𝑋̅𝑡 )
𝑟11 = ( ) (1 − )
𝑛−1 𝑛𝑆𝑡2

Keterangan :
𝑛: Banyaknya item
𝑋̅𝑡 : Rerata skor soal
c. Menghitung Reliabilitas dengan Alpha Cronbach
Jika skor butir soal UTS atau instrument bersifat kontinium (misalnya
soal uraian dengan skor 0 – 10 atau skla sikap dengan skor 1- 5), maka
rumus yang digunakan untuk menghitung koefisien korelasi antara skor

14
setiap butir soal atau instrument dengan skor total totalnya adalah
sebagai berikut:

𝑛 ∑ 𝜎𝑖2
𝑟𝑥𝑦 = ( ) (1 − 2 )
𝑛−1 𝜎𝑡

Keterangan:
𝑛: 𝑏𝑎𝑛𝑦𝑎𝑘 𝑠𝑜𝑎𝑙 (𝑖𝑡𝑒𝑚)
∑ 𝜎𝑖2 : 𝑗𝑢𝑚𝑙𝑎ℎ 𝑣𝑎𝑟𝑖𝑎𝑛𝑠 𝑠𝑘𝑜𝑟 𝑡𝑖𝑎𝑝 − 𝑡𝑖𝑎𝑝 𝑏𝑢𝑡𝑖𝑟 𝑠𝑜𝑎𝑙
𝜎𝑡2 : Varians total

Rumus Varians

(∑ 𝑋𝑖 )2
∑ 𝑋𝑖 −
𝜎𝑡2 = 𝑛
𝑛

15
BAB III
PENUTUP
A. Kesimpulan
Analisis butir soal merupakan suatu kegiatan yang harus dilakukan tester
untuk memperoleh butir-butir soal yang berkualitas. Tujuan analisis butir soal
adalah untuk mengkaji dan menelaah setiap butir soal agar diperoleh soal yang
bermutu sebelum soal digunakan. Dalam membicarakan analisis butir soal ini
terdapat beberapa karakteristik yaitu:
1. Tingkat kesukaran (TK)
2. Daya butir soal
3. Keberfungsian Pengecoh
Dalam karakteristik perangkat tes terdapat:
1. Validitas instrument
2. Menghitung validitas
3. Realibilitas
4. Menghitung realibitas konsistensi tanggapan responden
5. Menghitung realibitas konsistensi gabungan butir soal
B. Saran
Dalam pembuatan makalah ini masih jauh dari kata sempurna dan masih
banyak kesalahan dari pembuatan makalah ini. Jadi, pemakalah sangat
mengharapkan saran, kritikan dan masukan dari para pembaca agar pembuatan
makalah yang selanjutnya lebih baik lagi dan semoga makalah ini bermanfaat
bagi pembaca.

16

Anda mungkin juga menyukai