Instrumen Kita

A.
Kompilasi 1 (seleksi item/butir)
Menurut Azwar (2005: 11) menunjukkan alur kerja dalam penyusunan skala
psiklogis :Mendasarkan hasil analisis item, maka item-item yang tidak memenuhi
persyaratan psikometris akan disingkirkan atau diperbaiki lebih dahulu sebelum
dapat menjadi bagian dari skala. Di sisi lain, item-item yang memenuhi persyaratan
juga tidak dengan sendirinya disertakan ke dalam skala, sebab proses kompilasi
skala masih harus mempertimbangkan proporsionalitas komponen-komponen
skala sebagaimana dideskripsikan oleh blue-print-nya. Dari sini bisa dipahami,
bahwa dalam mengumpulkan (mengkompilasi) item-item yang memenuhi
persyaratan untuk menjadi bagian dari skala perlu memperhatikan :
1) Apakah suatu sitem memenuhi persyaratan psikometris atau tidak, dan

2) Proposionalitas komponen-komponen skalaseperti tertera dalam blue-print.
B. Analisis Butir
1. Pengertian analisis butir
Aiken dalam Suprananto (2012) berpendapat bahwa kegiatan analisis butir soal
merupakan kegiatan penting dalam penyusunan soal agar diperoleh butir soal yang
bermutu. Tujuan kegiatan ini adalah:
1. Mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu
sebelum digunakan,
2. Meningkatkan kualitas butir tes melalui revisi atau membuang soal yang tidak
efektif,
3. Mengetahui informasi diagnostik pada siswa apakah mereka telah memahami
materi yang telah diajarkan.
Soal yang bermutu adalah soal yang dapat memberikan informasi
setepat-tepatnya tentang siswa mana yang telah menguasai materi dan siswa mana
yang belum menguasai materi. Selanjutnya menurut Anastasia dan Urbina (1997)
dalam Suprananto (2012), analisis butir soal dapat dilakukan secara kualitatif
(berkaitan dengan isi dan bentuknya) dan kuantitatif (berkaitan dengan ciri-ciri
statistiknya). Analisis kualitatif mencakup pertimbangan validitas isi dan
konstruksi, sedangkan analisis kuantitatif mencakup pengukuran validitas dan
reliabilitas butir soal, kesulitan butir soal serta diskriminasi soal. Kedua teknik ini
masing-masing memiliki keunggulan dan kelemahan, oleh karena itu teknik terbaik
adalah menggunakan atau memadukan keduanya.
2. Manfaat kegiataan butir soal
Berdasarkan pendapat yang diungkapkan oleh Anastasia dan Urbina (1997)
dalam Suprananto (2012), analisis butir soal memiliki banyak manfaat, diantaranya
yakni:
1.Membantu pengguna tes dalam mengevaluasi kualitas tes yang digunakan,
relevan bagi penyusunan tes informal seperti tes yang disiapkan guru untuk siswa
dikelas,
2.Mendukung penulisan butir soal yang efektif,secara materi dapat memperbaiki
tes di kelas,
3.Meningkatkan validitas soal dan reliabilitas.
Linn dan Gronlund (1995) dalam Suprananto (2012: 163), menambahkan
bahwa pelaksanaan kegiatan analisis butir soal, biasanya didesain untuk menjawab
pertanyaan-pertanyaan berikut:
1. Apakah fungsi soal sudah tepat?
2. Apakah soal telah memiliki tingkat kesukaran yang tepat?
3. Apakah soal bebas dari hal-hal yang tidak relevan?
4. Apakah pilihan jawabannya efektif?
Berdasarkan uraian di atas menunjukkan bahwa analisis butir soal memberikan
manfaat:
1. Menentukan soal-soal yang cacat atau tidak berfungsi dengan baik,
2. Meningkatkan butir soal melalui tiga komponen analisis yaitu, tingkat
kesukaran, daya pembeda dan pengecoh soal,
3. Merevisi soal yang tidak relevan degan materi yang diajarkan, ditandai dengan
banyaknya anak yang tidak dapat menjawab butir soal tertentu.
3. Macam-macam Analisis Butir Soal
1. Teknik Analisis Secara Kualitatif
Ada beberapa teknik yang dapat digunakan untuk menganalisis butir soal secara
kualitatif, yakni teknik moderator dan panel:
Teknik moderator merupakan teknik berdiskusi yang didalamnya terdapat satu
orang sebagai penengah. Berdasarkan teknik ini, setiap butir soal didiskusikan
secara bersama dengan beberapa ahli, seperti guru yang mengajarkan materi, ahli
materi, penyusun atau pengembang kurikulum, ahli penilaian, ahli bahasa dan
orang yang memiliki latar belakang psikologi. Teknik ini sangat baik, karena
didiskusikan dan ditelaah secara bersama-sama, namun teknik tersebut memiliki
kelemahan karena memerlukan waktu lama untuk mendiskusikan setiap satu butir
soal.
Teknik berikutnya adalah teknik panel. Teknik panel merupakan suatu teknik
yang menelaah butir soal berdasarkan kaidah penulisan butir soal. Kaidah itu
diantaranya materi, kontruksi, bahasa atau budaya, kebenaran kunci jawaban atau
pedoman penskoran. Caranya beberapa penelaah diberikan butir-butir soal yang
akan ditelaah, format penelaahan dan pedoman penilaian atau penelaahan. Tahap
awal, semua orang yang terlibat dalam kegiatan penelaahan disamakan
persepsinya, kemudian mereka bekerja sendiri-sendiri di tempat berbeda. Para
penelaah dipersilahkan memperbaiki langsung pada teks soal dan memberikan nilai
pada setiap butir soal dengan kriteria soal baik, perlu diperbaiki atau diganti
(Suprananto, 2012).
2. Teknik Analisis Secara Kuantitatif
Penelaahan soal secara kuantitatif adalah penelaahan butir soal berdasarkan
pada data empirik. Data empirik ini diperoleh dari soal yang telah diujikan. Ada dua
pendekatan dalam analisis secara kuantitatif, yaitu pendekatan secara klasik dan
modern.
Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui
informasi dari jawaban peserta tes guna meningkatkan mutu butir soal yang
bersangkutan dengan menggunakan teori klasik. Kelebihan dari analisis ini yakni,
murah, sederhana, familiar, dapat dilaksanakan sehari-hari dengan cepat
menggunakan komputer dapat menggunakan data dari beberapa peserta tes atau
sampel kecil. Hal tersebut telah dikemukakan oleh Millman dan Greene (1993)
dalam Suprananto, (2012).
Selanjutnya analisis butir soal secara modern adalah penelaahan butir soal
dengan menggunakan teori respon butir atauItem Response Theory (IRT). Teori ini
merupakan suatu teori yang menggunakan fungsi matematika untuk
menghubungkan antara peluang menjawab benar suatu butir dengan kemampuan
siswa.
Analisis kualitas butir soal dapat dibagi menjadi 2, yaitu;
1. Tingkat Kesukaran Soal (Difficulty Index)
Menurut Arifin (2009) perhitungan tingkat kesukaran soal adalah pengukuran
seberapa besar derajat kesukaran suau soal. Jika suatu soal memiliki tingkat
seimbang (proposional), maka dapat dikatakan bahwa soal tersebut baik. Suatu soal
tes hendaknya tidak terlalu sukar dan tidak pula terlalu mudah.
a) Menghitung Tingkat Kesukaran Soal Bentuk Objektif
Untuk menghitung tingkat kesukaran soal bentuk obyektif dapat digunakan dengan
cara, yaitu: menggunakan rumus tingkat kesukaran (TK):
Keterangan:
WL = jumlah peserta didik yang menjawab salah dari kelompok bawah
WH = jumlah peserta didik yang menjawab salah dari kelompok atas
nL = jumlah kelompok bawah
nH = jumlah kelompok atas
Sebelum menggunakan rumus di atas, harus diitempuh terlebih dahulu
langkah-langkah sebagai berikut:
1) Menyusun lembar jawaban peserta didik dari skor tertinggi sampai dengan
skor terendah,
2) Mengambil 27% lembar jawaban dari atas yang selanjutnya disebut kelompok
atas (higher group), dan 27% lembar jawaban dari bawah yang selanjutnya disebut
kelompok bawah (lower group). Sisa sebanyak 46% disisihkan,
3) Membuat tabel untuk mengetahui jawaban (benar atau salah) dari setiap
peserta didik, baik untuk kelompok atas maupun kelopok bawah. Jika jawaban
peserta didik benar diberi tanda plus (+), sebaliknya jika jawaban peserta didik
salah maka diberi simbol minus(-).
b) Menghitung Tingkat Kesukaran Untuk Soal Bentuk Uraian

Cara menghitung tingkat kesukaran untuk soal bentuk uraian adalah menghitung
berapa persen peserta didik yang gagal menjawab benar atau di bawah batas lulus
(passing grade) untuk tiap-tiap soal. Untuk menafsirkan tingkat kesukaran soalnya
dapat digunakan kriteria sebagai berikut:
1. Jika jumlah peserta didik yang gagal mencapai 27%, termasuk mudah;
2. jika jumlah peserta didik yang gagal antara 28%-72%, termasuk sedang;
3. jika jumlah peserta didik yang gagal 73% ke atas, termasuk sukar.
Contoh:
33 orang peserta didik dites dengan lima soal bentuk uraian. Skor
maksimum ditentukan 10 dan skor minimum 0. Jumlah peserta didik yang
memperoleh 0-5 = 10 orang (berarti gagal), nilai 6 = 12 orang dan nilai 7-10 = 11
orang.
Jadi, tingkat kesukaran
Tingkat kesukaran 30,3 % berada diantara 28%-72%, berarti soal tersebut
termasuk sedang. catatan batas lulus ideal = 6 (skala 0-10) (Arifin, 2009: 273).
2. Analisis Daya Pembeda

Daya pembeda item menurut Sudijono (1996), adalah kemampuan suatu butir
item tes hasil belajar untuk dapat membedakan antara testee yang berkemampuan
tinggi (pandai) dengan testee yang berkemampuan rendah (kurang pandai),
sedemikian rupa sehingga sebagian besar testee yang memiliki kemampuan tinggi
untuk menjawab butir soal tersebut lebih banyak dapat menjawab dengan benar,
sementara testee yang berkemampuan rendah untuk menjawab butir soal tersebut
sebagian besar tidak dapat menjawab dengan benar. Tujuan mengetahui daya
pembeda adalah agar butir-butir soal tersebut mampu memberikan hasil yang
mencerminkan adanya perbedaan-perbedaan kemampuan yang ada pada kalangan
testee, karena pada dasarnya kemampuan antara satu testee dengan testee yang lain
adalah berbeda-beda.
Lebih lanjut menurut Sudijono (1996), daya pembeda dapat diketahui melalui
angka indeks diskriminasi item. Angka indeks diskriminasi (diberi lambing d besar
= D) adalah sebuah angka atau bilangan yang menunjukkan besar kecilnya daya
pembeda (discrimination power) yang dimiliki oleh sebutir item.
Seperti halnya indeks kesukaran item, maka indeks diskriminasi item besarnya
berkisar antara 0 (nol) sampai dengan 1 (satu). Namun di antara keduanya terdapat
perbedaan yang mendasar yaitu angka indeks kesukaran item tidak mungkin
mengenal tanda negatif (-) sedangkan pada daya pembeda dapat bertanda negatif
(-). Apabila sebutir item memiliki tanda positif (+), maka butir item tersebut
memiliki daya pembeda yang berarti testee yang termasuk kategori pandai lebih
banyak dapat menjawab dengan benar butir soal yang bersangkutan, sedangkan
testee yang termasuk kategori kurang pandai lebih banyak menjawab salah.
Apabila sebutir item memiliki angka indeks diskriminasi = 0,00 (nihil), maka hal
ini menunjukkan bahwa butir item yang bersangkutan tidak memiliki daya
pembeda sama sekali, yang berarti bahwa jumlah testee kelompok atas yang
menjawab benar (atau salah) sama dengan jumlah testee kelompok atas yang
menjawab dengan benar. Jadi di antara kedua kelompok testee tersebut tidak ada
perbedaannya sama sekali atau perbedaannya = 0. Apabila angka indeks
diskriminasi item dan sebutir item bertanda negatif (-), maka butir item lebih
banyak dijawab benar oleh testee kelompok bawah dari pada oleh kelompok atas,
atau testee yang sebenarnya termasuk dalam kategori pandai lebih banyak
menjawab salah sedangkan testee yang sebenarnya dalam kategori kurang panda
lebih banyak yang menjawab dengan benar.
Dengan demikian, menurut Arikunto (2006) terdapat tiga titik pada daya pembeda
yaitu
-1,00 0,00 -1,00
daya pembeda negatif tidak ada daya pembeda daya
pembeda positif
Untuk mengetahui indeks manakah yang dapat menyatakan bahwa sebutir soal
dapat dikatakan sebagai butir soal yang memiliki daya pembeda yang baik, menurut
Sudijono (1996) dapat digunakan patokan sebagai berikut
Indeks Diskriminasi Klasifikasi Interpretasi

Item (D)
< 0,20 Poor Butir soal memiliki

daya pembeda
lemah (tidak
memiliki daya
pembeda yang
baik)
0,20 – 0,40 Satisfactory Butir soal memiliki

daya pembeda
cukup (sedang)
0,40 – 0,70 Good Butir soal memiliki

daya pembeda yang
baik
0,70 – 1,00 Excellent Butir soal memiliki

daya pembeda
sangat baik
Bertanda negatif (-) - Buti soal tidak

memiliki daya
pembeda
Dalam Arikunto (2006) disebutkan bahwa seluruh pengikut tes (testee)

dikelompikkan menjadi 2 kelompok, yaitu kelompok pandai atau kelompok atas
(upper group) dan kelompok kurang pandai atau kelompok bawah (lower group).
Cara menentukan daya pembeda (D) dapat dilakukan dengan 2 cara yakni perlu
dibedakan antara kelompok kecil (<100) dan kelompok besar (>100).
Untuk kelompok kecil
Seluruh kelompok testee dibagi 2 sama besar, 50% kelompok atas dan 50%
kelompok bawah.
B. Pengertian Reliabilitas
Kata reliabilitas dalam bahasa Indonesia

yang digunakan saat ini, sebenarnya diambil dari kata reliability dalam bahasa
Inggris dan berasal dari kata reliable yang artinya dapat dipercaya,keajegan,
konsisten, keandalan, kestabilan. Suatu tes dapat dikatakan reliabel jika tes
tersebut menunjukkan hasil yang dapat dipercaya dan tidak bertentangan.
Menurut Sugiono (2005) Reliabilitas adalah serangkaian pengukuran atau

serangkaian alat ukur yang memiliki konsistensi bila pengukuran yang dilakukan
dengan alat ukur itu dilakukan secara berulang. Reabilitas tes adalah tingkat
keajegan (konsitensi) suatu tes, yakni sejauh mana suatu tes dapat dipercaya untuk
menghasilkan skor yang ajeg, relatif tidak berubah walaupun diteskan pada situasi
yang berbeda-beda. Sedangkan Sukadji (2000) mengatakan bahwa reliabilitas
suatu tes adalah seberapa besar derajat tes mengukur secara konsisten sasaran
yang diukur. Reliabilitas dinyatakan dalam bentuk angka, biasanya sebagai
koefisien. Koefisien tinggi berarti reliabilitas tinggi.
Menurut Nursalam (2003) Reliabilitas adalah kesamaan hasil pengukuran

atau pengamatan bila fakta atau kenyataan hidup tadi diukur atau diamati
berkali–kali dalam waktu yang berlainan. Alat dan cara mengukur atau mengamati
sama–sama memegang peranan penting dalam waktu yang bersamaan.
Menurut Arifin (1991), suatu tes dapat dikatakan andal (reliable) jika tes
tersebut mempunyai hasil yang taat asas (konsisten). Sedangkan Sudjana (2004)
mengatakan bahwa reliabilitas suatu tes adalah ketepatan atau kejegan tes tersebut
dalam menilai apa adanya, artinya kapan pun tes tersebut digunakanakan
memberikan hasil yang sama atau relatif sama.
Berdasarkan beberapa pendapat tentang reliabilitas di atas, maka dapat

diambil kesimpulan bahwa reliabilitas adalah suatu pengukuran terhadap suatu tes
yang melihat apakah tes tersebut dapat mengukur apa yang seharusnya di ukur.
1. Jenis- Jenis Reliabilitas
Salah satu syarat agar hasil suatu tes dapat dipercaya adalah tes tersebut harus
mempunyai reliabilitas yang memadai. Oleh karena itu Jaali dan Pudji (2008)
membedakan reliabilitas menjadi 2 macam, yaitu :
 Reliabilitas Konsistensi tanggapan, dan

 Reliabilitas konsistensi gabungan item
1. Reliabilitas Konsistensi Tanggapan
Reliabilitas ini selalu mempersoalkan mengenai tanggapa responden atau

objek terhadap tes tersebut apakah sudah baik atau konsisten. Dalam artian
apabila tes yang telah di cobakan tersebut dilakukan pengukuran kembali terhadap
obyek yang sama, apakah hasilnya masih tetap sama dengan pengukuran
sebelumnya. Jika hasil pengukuran kedua menunjukkan ketidakonsistenan, maka
hasil pengukuran tersebut tidak mengambarkan keadaan obyek yang
sesungguhnya. Untuk mengetahui apakah suatu tes atau instrument tersebut sudah
mantap atau konsisten, maka tes/instrument tersebut harus diuji kepada obyek
ukur yang sama secara berulang-ulang.
Ada tiga mekanisme untuk memeriksa reliabilitas tanggapan responden terhadap

tes (Jaali ; 2008) yaitu :
 Teknik test-retest ialah pengetesan dua kali dengan menggunakan suatu tes
yang sama pada waktu yang berbeda.
 Teknik belah dua ialah pengetesan (pengukuran) yang dilakukan dengan
dua kelompok item yang setara pada saat yang sama.
 Bentuk ekivalen ialah pengetesan (pengukuran) yang dilakukan dengan
menggunakan dua tes yang dibuat setara kemudian diberikan kepada
responden atau obyek tes dalam waktu yang bersamaan.
2. Reliabilitas Konsistensi Gabungan Item
Reabilitas ini terkait dengan konsistensi antara item-item suatu tes atau
instrument.. Apabila terhadap bagian obyek ukur yang sama, hasil pengukuran
melalui item yang satu kontradiksi atau tidak konsisten dengan hasil ukur melalui
item yang lain maka pengukuran dengan tes (alat ukur) sebagai suatu kesatuan itu
tidak dapat dipercaya. Untuk itu jika terjadi hal demikian maka kita tidak bisa
menyalahkan obyek ukur, melainkan alat ukur (tes) yang dipersalahkan, dengan
mengatakan bahwa tes tersebut tidak reliable atau memiliki reliabilitas yang
rendah.
Koefisien reliabilitas konsistensi gabungan item dapat dihitung dengan

menggunakan 3 rumus (Jaali 2008), yakni :
 Rumus Kuder-Richardson, yang dikenal dengan nama KR-20 dan KR-21.

 Rumus koefisien Alpha atau Alpha Cronbach.
 Rumus reliabilitas Hoyt, yang menggunakan analisis varian.
2. Contoh perhitungan Reliabilitas Instrumen .
1. Bentuk Urayan
Jika skor butir instrumen atau soal tes kontinum (misalnya skala sikap atau
soal bentuk uraian dengan skor butir 1-5 atau skor soal 0-10) dan diberi simbol Xi
dan skor total instrumen atau tes diberi simbol Xt, maka rumus yang digunakan
untuk menghitung koefesien korelasi antara skor butir instrumen atau soal dengan
skor total instrumen atau skor total tes adalah sebagai berikut:
Keterangan:
rit = koefisien korelasi antara skor butir soal dengan skor total.
xi = jumlah kuadrat deviasi skor dari Xi
xt = jumlah kuadrat deviasi skor dari Xt
Data hasil uji coba adalah sebagai berikut:
Nomor Butir Pertanyaan

Nomor Responden1 2 3 4 5 6 7 Jumlah
1 5 4 3 5 3 5 3 28
2 5 4 3 4 3 4 3 26
3 4 4 2 4 3 4 3 24
4 4 3 3 3 4 3 4 24
5 5 5 3 4 5 5 4 31
6 3 3 2 3 2 3 1 17
7 3 3 2 3 2 2 2 17
8 3 2 2 3 2 2 2 16
9 2 2 1 2 1 2 1 11
10 2 1 1 1 1 1 1 8
Jumlah 36 31 22 32 26 31 24 202
Penyelesaian:
Untuk n=10 dengan alpha sebesar 0,05 didapat nilai table r=0,631. Karena nilai
koefesien korelasi antara skor butir dengan skor total untuk semua butir lebih
besar dari 0,631, maka semua butir mempunyai korelasi signifikan dengan skor
total tes. Dengan demikian maka semua butir tes dianggap valid atau dapat
digunakan untuk mengukur hasil belajar.
3. Uji reliabilitas
Dari soal diatas, selanjutnya akan dihitung koefesien reliabilitas dengan

menggunakan rumus koefesien Alpha, yaitu:
Keterangan:
rii = koefisien reliabilitas tes
k = cacah butir
= varian skor butir
= varian skor total
Koefisien reliabilitas dari contoh diatas dapat dihitung dengan cara

pertama-tama dihitung varian butir sebagai berikut:
Nomor butir Varian Butir

1 1,24
2 1,29
3 0,56
4 1,16
5 1,44
6 1,69
7 1,24
Jumlah 8,62
Jadi koefesien reliabilitas tes (dengan 7 butir) pada contoh diatas adalah 0,97
4. Bentuk Objektif
Jika skor butir soal diskontinum (misalnya soal bentuk objektif dengan skor
butir soal 0 atau 1) maka kita menggunakan koefesien korelasi biserial dan rumus
yang digunakan untuk menghitung koefesien korelasi biserial antara skor butir
soal dengan skor total tes adalah:
Keterangan:
rbis(i) = koefesien korelasi beserial antara skor butir soal nomor i dengan skor
total
X1 = rata-rata skor total responden yang menjawab benar butir soal nomor i
Xt = rata-rata skor total semua responden
st = standar deviasi skor total semua responden
pi = proporsi jawaban yang benar untuk butir soal nomor I
qi = proporsi jawaban yang salah untuk butir soal nomor i
Contoh hasil uji coba adalah sebagai berikut:

Nomor Responden Jumlah
1 2 3 4 5 6 7
1 1 1 1 1 0 0 0 4
2 1 1 0 1 1 1 0 5
3 0 1 1 1 0 0 0 3
4 1 1 0 0 0 0 0 2
5 0 1 0 0 0 0 0 1
6 1 1 1 1 1 1 1 7
7 1 1 1 1 1 1 0 6
8 0 0 0 0 0 0 0 0
9 1 1 0 0 1 0 0 3
10 1 1 1 1 1 0 0 5
Jumlah 7 9 5 6 5 3 1 36
Xt = 3,60
St = 2,107
Nomor Butirr-butir r-tabel Status

1 0,70 0,63 Valid
2 0,57 0,63 Tidak valid
3 0,66 0,63 Valid
4 0,81 0,63 Valid
5 0,76 0,63 Valid
6 0,75 0,63 Valid
7 0,54 0,63 Tidak valid
Ternyata dari tujuh butir soal tes ada 5 butir yang valid dan dua butir tidak
valid. Oleh karena itu perlu dilakukan perhitungan untuk menghitung koefesien
antara skor butir dengan skor total baru (5 butir), sebagai berikut:
Data hasil uji coba adalah sebagai berikut:

Nomor Responden Jumlah
1 3 4 5 6
1 1 1 1 0 0 3
2 1 0 1 1 1 4
3 0 1 1 0 0 2
4 1 0 0 0 0 1
5 0 0 0 0 0 0
6 1 1 1 1 1 5
7 1 1 1 1 1 5
8 0 0 0 0 0 0
9 1 0 0 1 0 2
10 1 1 1 1 0 4
Jumlah 7 5 6 5 3 26
Xt = 2,6
St = 1,8
Untuk n = 10 dengan alpha sebesar 0,05 didapat nilai table r = 0,631. Karena
niai koefesien korelasi biserial antara skor butir dengan skor total untuk semua
butir lebih besar dari 0,631, maka semua butir mempunyai korelasi biserial yang
signifikan dengan skor total tes. Dengan demikian maka semua butir tes (5 butir)
dianggap valid atau dapat digunakan untuk mengukur hasil belajar.
5. Uji Reliabilitas
Selanjutnya akan dihitung koefesien reliabilitas dengan menggunakan rumus

KR-20, sebagai berikut:
Keterangan:
rii = koefesien reliabilitas tes

k = cacah butir
piqi = varian skor butir
pi = proporsi jawaban yang benar untuk butir nomor I
qi = proporsi jawaban yang salah untuk butir nomor i
= varian skor total
Koefesien reliabitas dari contoh diatas adalah:

Pertama-tama dihitung varian butir (piqi) sebagai berikut:
Nomor butirpi qi piqi

1 0,7 0,3 0,21
3 0,5 0,5 0,25
4 0,6 0,4 0,24
5 0,5 0,5 0,25
6 0,3 0,7 0,21
Jumlah 1,16
= 1,16
St = 3,24
Jadi koefesien reliabilitas tes (dengan 5 butir) pada contoh diatas adalah 0,80.
6. Kepraktisan Suatu Instrumen
Dalam kamus besar bahasa Indonesia kepraktisan diartikan sebagai suatu yang
bersifat praktis atau efisien. Arikunto (2010) mengartikan kepraktisan dalam
evaluasi pendidikan merupakan kemudahan-kemudahan yang ada pada instrument
evaluasi baik dalam mempersiapkan, menggunakan, menginterpretasi/
memperoleh hasil, maupun kemudahan dalam menyimpanya.
Kepraktisan juga merupakan salah satu ukuran suatu instrumen evaluasi

dikatakan baik atau tidak. Bila guru menggunakan esay tes untuk mengukur
tanggapan siswa terhadap suatu produk pembelajaran, dan jumlah siswa yang
dibimbingnya mencapai dua ratus orang, maka upaya ini cenderung tidak praktis.
Diperlukan cara lain untuk menilai tanggapan siswa tersebut, misalnya dengan tes
lisan terhadap hasil diskusi kelompok. Kepraktisan diartikan pula sebagai
kemudahan dalam penyelenggaraan, membuat instrumen, dan dalam pemeriksaan
atau penentuan keputusan yang objektif, sehingga keputusan tidak menjadi bias
dan meragukan. Kepraktisan dihubungkan pula dengan efisien dan efektifitas
waktu dan dana. Sebuah tes dikatakan baik bila tidak memerlukan waktu yang
banyak dalam pelaksanaannya, dan tidak memerlukan dana yang besar atau
mahal.
Kepraktisan sebuah alat evaluasi lebih menekankan pada tingkat efisiensi dan
efektivitas alat evaluai tersebut, beberapa kriteria yang dikemukakan oleh Gerson,
dkk dalam mengukur tingkat kepraktisan, diantaranya adalah:
 Waktu yang diperlukan untuk menyusun tes tersebut

 Biaya yang diperlukan untuk menyelenggarakan tes tersebut
 Waktu yang diperlukan untuk melaksanakan tes
 Tingkat kesulitas menyusun tes
 Tingkat kesulitan dalam proses pemeriksaan tes
 Tingkat kesulitan melakukan intrepetasi terhadap hasil tes
Kepraktisan alat evaluasi akan memberikan manfaat yang besar bagi

pelaksanaan maupun bagi peserta didik karena dirancang sedemikian sistematis
terutama materi instrumen tersebut.
Berkaitan kepraktisan dalam penelitian pengembangan Van den Akker (1999:10)

menyatakan :
“Practically refers to the extent that user (or other expert) consider the
intervention as appealing and usable in ‘normal’ conditions”
Artinya, kepraktisan mengacu pada tingkat bahwa pengguna (atau

pakar-pakar lainnya) mempertimbangkan intervensi dapat digunakan dan disukai
dalam kondisi normal.
Untuk mengukur tingkat kepraktisan yang berkaitan dengan pengembangan

instrument berupa materi pembelajaran, Nieveen (1999) berpendapat bahwa untuk
mengukur kepraktisannya dengan melihat apakah guru (dan pakar-pakar lainnya)
mempertimbangkan bahwa materi mudah dan dapat digunakan oleh guru dan
siswa. Khusus untuk pengembangan model yang dikembangkan dalam penelitian
pengembangan, model tersebutdikatakan praktis jika para ahli dan praktisi
menyatakan bahwa secara teoritis bahwa model dapat diterapkan di lapangan dan
tingkat keterlaksanaannya model tersebut termasuk kategori “baik”. Istilah “baik”
ini masih memerlukan indikator-indikator yang diperlukan untuk menentunkan
tingkat “kebaikan” dari keterlaksanaan model yang di kembangkan.
Berkaitan dengan kepraktisan di tinjau dari apakah guru dapat melaksanakan

pembelajaran di kelas. Biasanya peneliti dan observer mengamati aktivitas yang
dilakukan guru dalam pelaksanaan pembelajaran. Misalnya, melihat kegiatan guru
dalam mempersiapkan siswa untuk belajar, memeriksa pekerjaan siswa, dll.
7. Efek Potensial (Efektivitas)
Menurut Reigeluth (1999), aspek penting dalam keefektifan (efek potensial)

dari suatu instrument, teori, atau model adalah mengetahui tingkat/derajat dari
penerapan teori, atau model dalam suatu situasi tertentu. Tingkat keefektifan ini
menurut Mager, biasanya dinyatakan dengan suatu skala numeric yang didasarkan
pada kriteria tertentu. (Reiguluth, 1999).
Berkaitan dengan keefektifan pengembangan instrument, model, teori dalam

dunia pendidikan, Van den Akker (1999:10) menyatakan :
“Effectiveness refer to the extent that the experiences and outcomes with the
intervention are consistent with the intended aims”
Artinya, keefektifan mengacu pada tingkatan bahwa pengalaman dan hasil

intervensi konsisten dengan tujuan yang dimaksud.
Keefektifan suatu bahan ajar biasanya dilihat dari poitensial efek berupa
kualitas hasil belajar, sikap., dan motivasi peserta didik. Menurut Akker (1999)
(dalam Yazid) ada dua aspek keefektivan yang harus dipenuhi oleh suatu bahan
ajar. Yakni :
a. Ahli dan praktisi berdasarkan pengalamannya menyatakan bahwa bahan

ajar tersebut efektif.
b. Secara operasional bahan ajar tersebut memberikan hasil sesuai yang
diharapkan.
Menurut Suryadi (2005) (dalam Yazid), bahan ajar dapat dikatakan efektif
apabila :
1. Rata-rata siswa aktif dalam aktivitas pembelajaran.

2. Rata-rata siswa aktif dalam mengerjakan tugas.
3. Rata-rata siswa efektif dalam keefektifan relatif penguasaan bahan
pengajaran.
4. Respon siswa terhadap pembelajaran yang dilaksaakan baik/positif
5. Respon guru terhadap pembelajaran yang dilaksanakan baik/positif
C. VALIDITAS
1.Pengertian Validitas.
Menurut Azwar (1986) validitas berasal dari kata validity yang mempunyai
arti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan
fungsi ukurnya. Menurut Arikunto (1999) validitas adalah suatu ukuran yang
menunjukkan tingkat kesahihan suatu tes. Menurut Nursalam (2003) validitas
adalah suatu ukuran yang menunjukkan tingkat kevalidan atau kesahihan suatu
instrumen. Berdasarkan beberapa pendapat tentang pengertian validitas di atas,
maka dapat diambil kesimpulan bahwa validitas adalah suatu standar ukuran yang
menunjukkan ketepatan dan kesahihan suatu instrumen.
Menurut Arikunto (1999) suatu tes dikatakan valid apabila tes tersebut
mengukur apa yang hendak diukur. Tes memiliki validitas yang tinggi jika
hasilnya sesuai dengan kriteria, dalam arti memiliki kesejajaran antara tes dan
kriteria.
Sisi lain dari pengertian validitas adalah aspek kecermatan pengukuran. Suatu
alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi
juga harus memberikan gambaran yang cermat mengenai data tersebut.
kecilnya di antara subjek yang satu dengan yang lain. Sebagai contoh, dalam
bidang pengukuCermat berarti bahwa pengukuran itu dapat memberikan
gambaran mengenai perbedaan yang sekecil- ran aspek fisik, bila kita hendak
mengetahui berat sebuah cincin emas maka kita harus menggunakan alat
penimbang berat emas agar hasil penimbangannnya valid, yaitu tepat dan cermat.
Sebuah alat penimbang badan memang mengukur berat, akan tetapi tidaklah
cukup cermat guna menimbang berat cincin emas karena perbedaan berat yang
sangat kecil pada berat emas itu tidak akan terlihat pada alat ukur berat badan.
Demikian pula kita ingin mengetahui waktu tempuh yang diperlukan dalam
perjalanan dari satu kota ke kota lainnya, maka sebuah jam tangan biasa adalah
cukup cermat dan karenanya akan menghasikan pengukuran waktu yang valid.
Akan tetapi, jam tangan yang sama tentu tidak dapat memberikan hasil ukur yang
valid mengenai waktu yang diperlukan seorang atlit pelari cepat dalam menempuh
jarak 100 meter dikarenakan dalam hal itu diperlukan alat ukur yang dapat
memberikan perbedaan satuan waktu terkecil sampai kepada pecahan detik
yaitu stopwatch.
Menggunakan alat ukur yang dimaksudkan untuk mengukur suatu aspek

tertentu akan tetapi tidak dapat memberikan hasil ukur yang cermat dan teliti akan
menimbulkan kesalahan atau eror. Alat ukur yang valid akan memiliki tingkat
kesalahan yang kecil sehingga angka yang dihasilkannya dapat dipercaya sebagai
angka yang sebenarnya atau angka yang mendekati keadaan sebenarnya.
2. Jenis-jenis Validitas
Menurut Sudijono (2009) terdapat berbagai jenis validitas, antara lain:
1. Pengujian Validitas Tes Secara Rasional

Validitas rasional adalah validitas yang diperoleh atas dasar hasil pemikiran,
validitas yang diperoleh dengan berpikir secara logis.
A. Validitas Isi (Content Validity)

Validitas isi dari suatu tes hasil belajar adalah validitas yang diperoleh setelah
dilakukan penganalisisan, penelususran atau pengujian terhadap isi yang
terkandung dalam tes hasil belajar tersebut. Validitas isi adalah yang ditilik dari
segi isi tes itu sendiri sebagai alat pengukur hasil belajar yaitu: sejauh mana tes
hasil belajar sebagai alat pengukur hasil belajar peserta didik, isisnya telah dapat
mewakili secara representatif terhadap keseluruhan materi atau bahkan pelajaran
yang seharusnya diteskan (diujikan).
Salah satu cara yang di gunakan untuk menentukan validitas adalah dengan
mengkaji isi tes itu. Sebuah tes misalnya terdiri atas 25 soal penjumlahan dan
pengurangan sangat baik di gunakan untuk mengukur kemampuan matematika di
bandingkan dengan tes yang terdiri atas 10 soal tentang olah raga tetapi tidak ada
hal-hal yang berkaitan dengan penjumlahan dan pengurangan. Validitas isi di
tentukan dengan melihat apakah soal-soal yang di gunakan telah menunjukkan
sampel atribut yang di ukur. Dengan demikian menurut Guion (1997), validitas isi
sangat bergantung kepada dua hal yaitu tes itu sendiri dan proses yang
mempengaruhi dalam merespon tes. Sebagi contoh misalnya tes tertulis yang di
persiapkan untuk pekerjaan mungkin tidak menyajikan pengukuran yang valid
untuk kemampuan pegawai melakuka pekerjaan, sekalipun mungkin saja tes itu
sudah merupakan alat yang valid untuk mengukur pengetahuan tentang apa yang
harus di kerjakan.
Salah satu cara untuk memperoleh validitas isi adalah dengan melihat
soal-soal yang membentuk tes itu. Jika keseluruhan soal nampak mengukur apa
yang seharusnya tes itu di gunakan, tidak di ragukan lagi bahwa validitas isi sudah
terpenuhi.
Dalam dunia pendidikan, sebuah tes di katakan memiliki isi apabila

mengukur sesuai dengan domain dan tujuan khusus tertentu yang sama dengan isi
pelajaran yang telah di berikan di kelas. Soal matematika di katakan valid apabila
hanya mengukur kemampuan matematika, bukan mengukur kemampuan bahasa.
Ketika kita mengatakan aka mengukur kemampuan X Peserta tes, kita harus
mengukur atribut karakteristik khusus yang berkaitan dengan X peserta tes yang
akan di ukur (Guion, 1977). Sebagai contoh, sebuah tes di rancang untuk
mengukur kemampuan bermain bola basket dalam mata pelajaran Penjaskes
misalnya, tentunya hal yang di ukur haruslah antara lain berkaitan dengan
kemampuan berlari, membawa bola, menembak bola, dan mendreble bola. Hal-hal
yang di ukur mungkin sangat luas seperti untuk kemampuan membaca misalnya,
atau bahkan sangat sempit seperti untuk kemmpuan penjumlahan. Tabel 1 berikut
ini menunjukkan domain yang di ukur dalam pengetahuan alam terpadu. Tentu
saja, tidak semua domain yang akan di ukur dalam tes harus sama dengan tabel 1.
TABEL
Deskripsi domain yang hendak di ukur dalam tes IPA terpadu
Kemampuan yang Bumi

Fisika Biologi Kimia Jumlah
di ukur Antariksa
Mengamati 1 1 - - 2
Mengukur 1 - 1 1 3
Menbaca Tabel - 1 1 1 3
Membaca Diagram 1 1 - 1 3
Membaca Grafik 1 1 - - 2
Membaca/Interpretasi 1 - 1 1 3
Mengklasifikasi 1 - 1 - 2
Menginfering 1 1 1 - 3
Memprediksi - 1 - 1 2
Menyimpulkan - 1 1 1 3
Merancang percobaan - 1 1 1 3
Reasoning 1 1 1 1 4
Problem solving 1 1 1 1 4
Berfikir kritis 1 - 1 1 3
Jumlah 10 10 10 10 40
Sebagian ahli tes berpendapat bahwa tidak ada satupun pendekatan statistic
yang dapat digunakan untuk menentukan validitas isi suatu tes. Menurut Guion
(1997), validitas isi hanya dapat ditentukan berdasarkan judgment para ahli.
Prosedur yang dapt di gunakan antara lain:
1) Mendefinisikan domain yang hedak diukur

2) Menentukan domain yang akan diukur oleh masing-masing soal
3) Membandingkan masing-masing soal dengan domain yang sudah di tetapkan.
Sekalipun prosedur ini Nampak sederhana, tetapi dalam praktek terkadang

sulit dilakukan. Kesulitan utama dalam prosedur ini adalah mendefinisikan
domain yang hendak di ukur. Dalam buku tentang pedoman penulisan tes tertulis,
domain ini sama halnya dengan kisi-kisi. Sebagi contoh misalnya, dalam
menentukan soal fisika yang berkaitan dengan problem solving atau reasoning,
beberapa ahli mungkin masih berdebat apakah suatu soal benar-benar telah masuk
dalam kategori problem solving atau reasoning. Hal yang paling penting adalah
adanya kesepakatan antara beberapa penulis tentang kemampuan yang di ukur
oleh suatu soal.
B. Validitas konstruksi (Construct Validity)

Validitas konstruksi dapat diartikan sebagai validitas yang ditilik dari segi
susunan, kerangka atau rekaannya. Adapun secara terminologis, suatu tes hasil
belajar dapat dinyatakan sebagai tes yang telah memiliki validitas konstruksi,
apabila tes hasil belajar tersebut telalh dapat dengan secara tepat mencerminkan
suatu konstruksi dalam teori psikologis.
Validitas konstruk mengandung arti bahwa suatu alat ukur dikatakan valid
apabila tidak cocok dengan konstruksi teoritik dimana tes itu di buat. Dengan kata
lain sebuah tes di katakan memiliki validitas konstruksi apabila soal-soalnya
mengukur setiap aspek berfikir seperti yang di uaraikan dalam standar kompetensi,
kompetensi dasar, maupun indicator yang terdapat dalam kurikulum. Soal yang
dapat di kembangkan dari kisi-kisi seperti Nampak pada table 2.2 haruslah
beruapa soal yang sesuai dengan kemampuan mendeskripsikan berbagai bentuk
pasar menurut struktur, mengidentifikasikan kebaikan dan keburukan
bebtuk-bentuk pasar, serta memberi contoh berbagai bentuk pasar.
Konstruksi yang di maksud pada validitas ini bukanlah merupakan konstruksi

seperti bangunan atau susunan, tetapi berupa rekaan psikologis yang berkaitan
dengan aspek-aspek ingatan, pemahaman, aplikasi, analisis, sintesis, dan evaluasi.
Konstruksi sebagaimana Nampak pada tabel 2 merupakan contoh kompetensi
dasar, hasil belajar, dan indicator yang terdapat dalam kurikulum 2004.
TABEL 2
Kisi-kisi kompetensi Ekonomi SMA Kelas X
KOMPETENSI MATERI INDIKATOR PENILAIAN

DASAR POKOK JENIS BENTUK
Mendeskripsika Bentuk-bentuk · Mendeskripsikan Tertulis Uraian
n berbagai pasar berbagai bentuk pasar
bentuk pasar menurut struktur
menurut · Mengidentifikasikan Tertulis Uraian
struktur ciri-ciri berbagai
bentuk pasar
· Mengidentifikasi Tertulis Uraian
kebaikan dan
keburukan
bentuk-bentuk pasar.
· Memberi contoh Tertulis Uraian
berbagai bentuk pasar
Validitas Kriteria
Validitas kriteria atau validitas empriris (Criterion-Related Validity)

ditentukan berdasarkan kriteria, baik kriteria internal maupun kriteria eksternal.
Validitas kriteria dihasilkan melalui hasil uji coba tes pada responden yang setara
dengan responden yang akan dievaluasi atau diteliti.
Validitas kriteria merupakan ukuran validitas yang ditentukan dengan cara

membandingkan skor tes dengan kinerja tertentu pada ukuran luar atau yang lain.
Contoh penggunaan validitas kriteria yaitu tes intelijensi yang berkorelasi dengan
rata-rata nilai akademis. Dengan asumsi, apabila intelijensi seseorang tinggi maka
yang terjadi yaitu dia akan memperoleh nilai akademis yang bagus.
C. Validitas Prediksi (Predictive validity)
Predictive validity menunjukkan kepada hubungan antara tes skor yang di

peroleh peserta tes dengan keadaan yang akan terjadi di waktu yang akan datang.
Sebuah dikatakan memiliki validitas prediksi apabila mempunyai kemampuan
untuk memprediksikan apa yang akan terjadi di masa yang akan datang.
Contoh sederhana misalnya apa yang terjadi pada penerimaan peserta tes
berdasarkan hasil tes seleksi setelah mereka lulus SMA. Peserta tes yang memiliki
nilai yang bagus di tes seleksi tersebut lalu di terima diperguruan tinggi, di
perkirakan akan berhasil ketika mereka belajar di perguruan tinggi. Apabila hal itu
terjadi, maka tes masuk perguruan tinggi tersebut dikatakan memiliki validitas
prediksi bagus. Sebaliknya, apabila hasil di perguruan tinggi kurang baik, maka
tes seleksi di maksud tidak memiliki validitas yang bagus.
D. Validitas Konkuren (Concurrent validity)

Validitas concurrent atau validity ada sekarang menunjuk pada hubungan
antara tes skor dengan yang dicapai dengankeadaan sekarang. Validitas ini dikenal
sebagai validitas empiris. Sebuah tes dikatakan memiliki concurent validity
apabila hasilnya sesuai dengan pengalaman. Tabel 3 berikut ini menunjukkan
validitas konkuren untuk berbagai macam penilaian berbasis kelas.
TABEL 3
Validitas konkuren untuk beberapa penilaian berbasis kelas
Perbandingan Korelasi
Ujian akhir nasional dan kuis di kelas 0.56
Ujian akhir nasional dan tugas 0.20
Soal benar salah dan pilihan ganda 0.31
Soal uraian dan benar salah 0.48
Soal pilihan ganda dan uraian 0.29-0.38
Teori dan praktek 0.35
4 buah soal uraian 0.13-0.32
Ujian dan studi kasus 0.41
Soal uraian dan kasus 0.61
Soal uraian dan tugas 0.54
Soal uraian dan partisipasi di kelas 0.10
Partisipasi di kelas dan studi kasus 0.70
Cara Menghitung Validitas
Untuk menguji validitas tipa butir soal maka skor yang ada pada butir yang
dimaksud dikorelasikan dengan skor total. Skor tiap butir soal dinyatakan skor X
dan skor total dinyatakan skor Y, dengan didapatkannya indeks validitas tiap butir
soal, bisa diketahui butir soal mana yang memenuhi syarat dapat dilihat dari
indeks validitasnya.
Tentukan koefisien korelasi antara skor hasil tes yang akan diuji validitasnya
dengan hasil tes yang terstandar yang dimiliki orang yang sama dengan
menggunakan rumus korelasi produk momen. Rumus Korelasi Produk Momen:
Hitung koefisien validitas instrumen yang diuji (r-hitung), yang memiliki

nilai sama dengan korelasi hasil langkah sebelumnya dikali koefisien validitas
instrumen terstandar.
Bandingkan nilai koefisien validitas dengan nilai koefisien korelasi Pearson

atau tabel Pearson (r-tabel) pada taraf signifikansi a (biasanya dipilih 0,05) dan n
= banyaknya data yang sesuai.
Kriterianya yaitu:
Instrumen valid, apabila r-hitung = r-tabel dan Instrumen tidak valid, apabila
r-hitung < r-tabel
Tentukan kategori validitas instrumen yang mengacu pada pengklasifikasian
validitas yang dikemukakan oleh Guilford:
0,80 < rxy 1,00 validitas sangat tinggi (sangat baik)
0,60 < rxy 0,80 validitas tinggi (baik)
0,40 < rxy 0,60 validitas sedang (cukup)
0,20 < rxy 0,40 validitas rendah (kurang)
0,00 < rxy 0,20 validitas sangat rendah (jelek)
rxy 0,00 tidak valid
 Pengujian Validitas Tes Secara Empirik
a. Validitas empirik (Empiric Validity)

Validitas empirik adalah ketepatan mengukur yang didasarkan pada hasil
analisis yang bersifat empirik. Dengan kata lain, validitas empirik adalah
validitas yang bersumber pada atau diperoleh atas dasar pengamatan di
lapangan.
b.Validitas ramalan (Predictive validity)

Validitas ramalan adalah suatu kondisi yang menunjukkan seberapa jauhkah
sebuah tes telah dapat dengan secara tepat menunjukkan kemampuannya
untuk meramalkan apa yang bakal terjadi pada masa mendatang.
c.Validitas bandingan (Concurrent Validity)

Tes sebagai alat pengukur dapat dikatakan telah memiliki validitas bandingan
apabila tes tersebut dalam kurun waktu yang sama dengan secara tepat
mampu menunjukkan adanya hubungan yang searah, antara tes pertama
dengan tes berikutnya.
D. Kompilasi 1 (seleksi item/butir)
Mendasarkan hasil analisis item, maka item-item yang tidak memenuhi

dapat menjadi bagian dari skala. Di sisi lain, item-item yang memenuhi persyaratan
juga tidak dengan sendirinya disertakan ke dalam skala, sebab proses kompilasi
skala masih harus mempertimbangkan proporsionalitas komponen-komponen
skala sebagaimana dideskripsikan oleh blue-print-nya. Dari sini bisa dipahami,
bahwa dalam mengumpulkan (mengkompilasi) item-item yang memenuhi
persyaratan untuk menjadi bagian dari skala perlu memperhatikan :
1) apakahsuatuitem memenuhi persyaratan psikometris atau tidak, dan
2) proposionalitaskomponen-komponenskalaseperti tertera dalam blue-print.
E. Kompilasi II
Item - item terpilih yang jumlahnya disesuaikan jumlah yang telah

dispesifikasikan blueprint, selanjutnya dilakukan uji reliabilitas. Apabila
koefisien reliabilitas skala ternyata belum memuaskan, maka penyusun skala dapat
kembali kelangkah kompilasi dan merakit ulang skala dengan lebih
mengutamakan item- item yang memiliki daya beda tinggi sekalipun perlu
mengubah proporsi item dalam masing-masing komponen.
Cara lain yang bisa dilakukan yaitu dengan menambah jumlah item pada
setiap komponen secara proporsional dengan (bilaperlu) menurunkan sedikit
criteria seleksi item. Hal ini dilakukan terutama jika jumlah item dalam skala belum
begitu banyak. Secara umum, penambahan jumlah item akan meningkatkan
koefisien reliabilitas skala.
Proses validasi pada hakekatnya merupakan proses berkelanjutan. Pada
Skala-skala yang akan digunakan secara terbatas, pada umumnya dilakukan
pengujian validitas berdasarkan kriteria. Sedang pada skala yang akandigunakan
secara luas biasa diperlukan proses analisis faktor dan validasi silang (cross
validation).Pada akhirnya, format akhir skala seyogyanya ditata dalam tampilan
yang menarik namun tetap memudahkan bagi responden untuk membaca dan
menjawabnya.
Hal-hal yang perlu diperhatikan seperti disarankanAzwar (2005 :15)
(1) perlu dilengkapi dengan pengerjaan dan lembar jawab yang terpisah,
(2) ukurankertas yang digunakan juga perlu disesuaikan dengan panjangnya skala,
agar berkas skala tidak nampak terlalu tebal yang menyebabkan responden
kehilangan motivasi.
(3) ukuran huruf sebaiknya juga perlu
mempertimbangkan usia responden, seyogyanya tidak menggunakan huruf yang
ukurannya terlalu kecil agar responden yang tergolong lanjutusia tidak kesulitan
untuk membaca.
F. Kompilasi Final ( Format Final )
Format akhirskaladirakitdalambentuktampilan yang

menariknamuntetapmemudahkanbagirespondenuntukmembacadanmenjawabnya.
Dalambentuk final berkasskaladilengkapidenganpetunjukpengerjaandanmungkin
pula lembarjawaban yang terpisah.
SOAL ESSAY/GANDA
1. Apa yang dimaksut dengan tes reliabilitas ?
Menurut Sugiono (2005) Reliabilitas adalah serangkaian pengukuran atau

serangkaian alat ukur yang memiliki konsistensi bila pengukuran yang
dilakukan dengan alat ukur itu dilakukan secara berulang. Reabilitas tes
adalah tingkat keajegan (konsitensi) suatu tes, yakni sejauh mana suatu tes
dapat dipercaya untuk menghasilkan skor yang ajeg, relatif tidak berubah
walaupun diteskan pada situasi yang berbeda-beda.
2. Apa yang dimaksut dengan tes validitas ?
Menurut Azwar (1986) validitas berasal dari kata validity yang mempunyai
arti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan
fungsi ukurnya. Menurut Arikunto (1999) validitas adalah suatu ukuran yang
menunjukkan tingkat kesahihan suatu tes.
3. Jelaskan secara singat pengertian dari analisis butir?

Aiken dalam Suprananto (2012) berpendapat bahwa kegiatan analisis butir
soal merupakan kegiatan penting dalam penyusunan soal agar diperoleh
butir soal yang bermutu.
4. Sebutkan macam-macam teknik dalam analisis butir?
Secara kualitatif dan kuantitatif.
5. Dalam mengalisis butir soal dibagi menjadi 2 salah satunya berdasarkan
tingkat kesukaran soal secara objektif, jelaskan rumusnya!
Keterangan:
WL = jumlah peserta didik yang menjawab salah dari kelompok bawah

WH = jumlah peserta didik yang menjawab salah dari kelompok atas
nL = jumlah kelompok bawah
nH = jumlah kelompok ata
1. Yang mempersoalkan mengenai tanggapa responden atau objek terhadap
tes tersebut apakah sudah baik atau konsisten. Adalah pengertian dari ?
a. Reliabilitas Konsistensi tanggapan

b. Reliabilitas konsistensi gabungan item
c. Reliabilitas Dinamis
d. Reliabilitas Responden
2. Pengetesan dua kali dengan menggunakan suatu tes yang sama pada waktu
yang berbeda adalah pengertian dari teknik ?
a. Teknik belah dua

b. Bentuk ekivalen
c. Teknik test-retest
d. Teknik kongruen
3. Istilah blue printdalam skala psikologi adalah skala yang di sajikan dalam
bentuk tabel yang memuat uraian komponen-komponen atribut yang harus
dibuat itemnya,proporsi item dalam masing-masing komponen, dan dalam
kasus yang lebih lengkap memuat juga indikator-indikator.....
a. Kepercayaan.
b. Belajar.
c. Potensi.
d. perilaku.
4. Berikut yang termasuk dalam komponen blue print, kecuali....

a. Aspek.
b. Indikator perilaku.
c. Subjek.
d. Favourable.
5. hal yang perlu diperhatikan dalam mengumpulkan (mengkompilasi)
item-item untuk memenuhi persyaratan yang menjadi bagian dari skala
adalah.....
a. Item harus sesuai dengan persyaratan psikometris.
b. Item tidak harus sesuai dengan persyaratan psikometris.
c. Proposionalitas komponen-komponen skala seperti tertera dalam angket
d. a dan c benar.
6. Mendasarkan hasil analisis item, maka item-item yang tidak memenuhi

persyaratan psikometris akan disingkirkan atau diperbaiki lebih dahulu
sebelum dapat menjadi bagian dari skala. Maksud “psikometris” dalam
kalimat tersebut adalah...
a. sebuah pernyataan mengenai kesamaan antar individu dan kelompok.
b. sebuah pernyataan mengenai perbedaan antara individu dan kelompok.
c. Sebuah pernyataan mengenai hubungan timbal balik individu dengan
lingkungannya
d. Sebuah pernyataan mengenai penyesuaian diri subjek terhadap
lingkungannya.
bentuk tabel yang memuat uraian komponen-komponen atribut yang harus
dibuat itemnya,proporsi item dalam masing-masing komponen, dan dalam
kasus yang lebih lengkap memuat juga indikator-indikator.....
a. Kepercayaan.
b. Belajar.
c. Potensi.
d. perilaku.

a. Aspek.
b. Indikator perilaku.
c. Subjek.
d. Favourable.
9.Hal yang perlu diperhatikan dalam mengumpulkan (mengkompilasi) item-item

untuk memenuhi persyaratan yang menjadi bagian dari skala adalah.....
e. Item harus sesuai dengan persyaratan psikometris.
f. Item tidak harus sesuai dengan persyaratan psikometris.
g. Proposionalitas komponen-komponen skala seperti tertera dalam angket
h. a dan c benar.
10. Mendasarkan hasil analisis item, maka item-item yang tidak memenuhi
dapat menjadi bagian dari skala. Maksud “psikometris” dalam kalimat tersebut
adalah...
e. sebuah pernyataan mengenai kesamaan antar individu dan kelompok.
f. sebuah pernyataan mengenai perbedaanantaraindividudankelompok.
g. Sebuah pernyataan mengenai hubungan timbal balik individu dengan
lingkungannya
h. Sebuah pernyataan mengenai penyesuaian diri subjek terhadap
lingkungannya.
bentuk tabel yang memuat uraian komponen-komponen atribut yang harus dibuat
itemnya,proporsi item dalam masing-masing komponen, dan dalam kasus yang
lebih lengkap memuat juga indikator-indikator.....
e. Kepercayaan.
f. Belajar.
g. Potensi.
h. perilaku.
e. Aspek.
f. Indikator perilaku.
g. Subjek.
h. Favourable.
13. hal yang perlu diperhatikan dalam mengumpulkan (mengkompilasi) item-item

untuk memenuhi persyaratan yang menjadi bagian dari skala adalah.....
a. Item harus sesuai dengan persyaratan psikometris.
b. Item tidak harus sesuai dengan persyaratan psikometris.
c. Proposionalitas komponen-komponen skala seperti tertera dalam angket
d. a dan c benar.
14.Mendasarkan hasil analisis item, maka item-item yang tidak memenuhi

dapat menjadi bagian dari skala. Maksud “psikometris” dalam kalimat tersebut
adalah...
a. sebuah pernyataan mengenai kesamaan antar individu dan kelompok.
b. sebuah pernyataan mengenai perbedaanantaraindividudankelompok.
c. Sebuah pernyataan mengenai hubungan timbal balik individu dengan
lingkungannya
d. Sebuah pernyataan mengenai penyesuaian diri subjek terhadap
lingkungannya.
1. Azwar, S. (2005). Sikap Manusia : Teori dan Pengukurannya.Yogyakarta :
PustakaPelajar
2. Arifin, Zaenal. 2009. Evaluasi Pembelajaran. Bandung: PT. Remaja Rosda
Karya.
3. Arifin, Zaenal.(1991). Evaluasi Instruksional.Bandung: PT. Remaja
Rosdakarya
4. Arikunto, Suharsimi. (2010) Dasar-Dasar Evaluasi Pendidikan. Bumi
Aksara : Yogyakarta.
5. Djali, dan Puji Muljono. (2008). Pengukuran dalam Bidang Pendidikan.
PT. Gramedia : Jakarta.
6. Nieveen, Nienke.1999. Prototyping to Reach Product Quality. In J. vam
den Akker,R Branch,K Gustafson, N Nieveen and Tj.Plomp (Eds). Design
Approaches and Tools in Education and Training (hlm. 125-136).
Dodrecht : Kluwer Academic Publisher
7. Nursalam. (2003). Konsep & Penerapan Metodologi Penelitian Ilmu
Keperawatan: Pedoman Skripsi, Tesis, dan Instrumen Penelitian
Keperawatan.Jakarta. Salemba Medika
8. Rochmad. (2011). Model Pengembangan Perangkat Pembelajaran
Matematika. FMIPA UNNES : Semarang
9. Sudjana, D. (2004).manjemen Program Pendidikan Untuk Pendidikan
Nonformal dan Pengembangan Sumber Daya Manusia. Bandung : Falah
Production.
10. Sukadji, S. (2000). Menyusun dan Mengevaluasi Laporan Penelitian,
Jakarta : UI-Press
11. Komalasari, G. dkk. 2016. AsesmenTeknik Non Tes dalam Perspektif BK
Komprehensif. Jakarta: Indeks
12. Prayitno .2004 .AplikasiInstrumentasi .Padang : UNP.
13. Prayitno. 2012. Seri PanduanLayanandanKegiatanPendukungKonseling.
Padang:Program

Instrumen Kita

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Instrumen Kita

Diunggah oleh

Hak Cipta:

Format Tersedia

A.

Kompilasi 1 (seleksi item/butir)

1) Apakah suatu sitem memenuhi persyaratan psikometris atau tidak, dan

b) Menghitung Tingkat Kesukaran Untuk Soal Bentuk Uraian

2. Analisis Daya Pembeda

Indeks Diskriminasi Klasifikasi Interpretasi

< 0,20 Poor Butir soal memiliki

0,20 – 0,40 Satisfactory Butir soal memiliki

0,40 – 0,70 Good Butir soal memiliki

0,70 – 1,00 Excellent Butir soal memiliki

Bertanda negatif (-) - Buti soal tidak

Dalam Arikunto (2006) disebutkan bahwa seluruh pengikut tes (testee)

Kata reliabilitas dalam bahasa Indonesia

Menurut Sugiono (2005) Reliabilitas adalah serangkaian pengukuran atau

Menurut Nursalam (2003) Reliabilitas adalah kesamaan hasil pengukuran

Berdasarkan beberapa pendapat tentang reliabilitas di atas, maka dapat

1. Jenis- Jenis Reliabilitas

 Reliabilitas Konsistensi tanggapan, dan

1. Reliabilitas Konsistensi Tanggapan

Reliabilitas ini selalu mempersoalkan mengenai tanggapa responden atau

Ada tiga mekanisme untuk memeriksa reliabilitas tanggapan responden terhadap

2. Reliabilitas Konsistensi Gabungan Item

Koefisien reliabilitas konsistensi gabungan item dapat dihitung dengan

 Rumus Kuder-Richardson, yang dikenal dengan nama KR-20 dan KR-21.

2. Contoh perhitungan Reliabilitas Instrumen .

xi = jumlah kuadrat deviasi skor dari Xi

xt = jumlah kuadrat deviasi skor dari Xt

Data hasil uji coba adalah sebagai berikut:

Nomor Butir Pertanyaan

Dari soal diatas, selanjutnya akan dihitung koefesien reliabilitas dengan

rii = koefisien reliabilitas tes

= varian skor butir

= varian skor total

Koefisien reliabilitas dari contoh diatas dapat dihitung dengan cara

Nomor butir Varian Butir

Contoh hasil uji coba adalah sebagai berikut:

Nomor Butir Pertanyaan

Nomor Butirr-butir r-tabel Status

2 0,57 0,63 Tidak valid

3 0,66 0,63 Valid

4 0,81 0,63 Valid

5 0,76 0,63 Valid

6 0,75 0,63 Valid

7 0,54 0,63 Tidak valid

Data hasil uji coba adalah sebagai berikut:

Nomor Butir Pertanyaan

Selanjutnya akan dihitung koefesien reliabilitas dengan menggunakan rumus

rii = koefesien reliabilitas tes

= varian skor total

Koefesien reliabitas dari contoh diatas adalah:

Nomor butirpi qi piqi

3 0,5 0,5 0,25

4 0,6 0,4 0,24

5 0,5 0,5 0,25

6 0,3 0,7 0,21

6. Kepraktisan Suatu Instrumen

Kepraktisan juga merupakan salah satu ukuran suatu instrumen evaluasi

 Waktu yang diperlukan untuk menyusun tes tersebut

Kepraktisan alat evaluasi akan memberikan manfaat yang besar bagi

Berkaitan kepraktisan dalam penelitian pengembangan Van den Akker (1999:10)

Artinya, kepraktisan mengacu pada tingkat bahwa pengguna (atau

Untuk mengukur tingkat kepraktisan yang berkaitan dengan pengembangan

Berkaitan dengan kepraktisan di tinjau dari apakah guru dapat melaksanakan