Disusun oleh:
Devi Maharani Ananda Wijaya
2111031454
20 / 3K
KETENTUAN
Berdasarkan data di atas buatlah 5 kesimpulan penting tentang perangkat tes tersebut !
----------Selamat bekerja-------
JAWABAN:
1. Kajian Teoritik dan Empirik tentang:
A. Kajian Teoritik
1) Pengertian Validitas
a) Secara Umum
Validitas berasal dari kata validity yang mempunyai arti sejauh mana
ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurannya.
Atau Menurut modul Prof. Agung, Sebuah tes dikatakan valid apabila tes
tersebut mengukur apa yang hendak diukur (ketetapan alat ukur dengan
hal yang diukur).
2) Validitas Isi
1. Suharsimi Arikunto (2010: 155), validitas isi adalah validitas yang
pembuktiannya berdasarkan isi (Content-Related Evidence), yakni
proses penentuan seberapa jauh suatu instrumen menunjukkan
kerelevansian dan keterwakilan terhadap ranah yang diukur. Suatu
alat ukur dikatakan memiliki validitas isi apabila isi materi dari alat
ukur yang digunakan sesuai dengan kajian pustaka yang digunakan.
2. Sugiyono (2007), Definisi validitas isi yaitu validitas yang dilakukan
dengan membandingkan antara isi instrumen dengan mata pelajaran
yang telah diajarkan.
3. Azwar (2012), Validitas isi adalah validasi yang bisanya dijalankan
melalui pengujian terhadap kelayakan atau relevansi isi tes
terkait topik penelitian tertentu kepada responden dan informan yang
berkompeten.
Jadi, dapat kita simpulkan bahwa validitas isi adalah kesesuaian atau
relevansi alat ukur jika dipandang dari segi isi materi yang disampaikan
dalam pembelajaran dan diharapkan dikuasai oleh siswa. Oleh karena
sangat penting untuk menyelidiki secara menyeluruh dan berulang-ulang
apa yang diharapkan dan materi apa yang disampaikan. Hal ini
dikarenakan isi instrumen harus sesuai, mewakili materi yang
disampaikan, dan dikuasai oleh siswa. Keefektifan validitas isi
menunjukkan kemampuan suatu tes atau instrument pertanyaan, tugas,
atau item untuk mewakili secara penuh dan proporsional perilaku sampel
yang diuji. Validitas isi digunakan untuk mengukur kemampuan belajar
atau kebeerhasilan belajar.
3) Validitas Konstruksi
1. Menurut Suharsimi Arikunto (2010: 158), validitas konstruk
merupakan proses penentuan sejauh mana performansi tes dapat
diinterpretasikan dalam kaitannya dengan satu atau sejumlah
konstruk psikologis. Artinya, sebuah instrumen dikatakan memiliki
validitas konstruk apabila butir-butir soal dalam 18 instrumen yang
digunakan untuk mengukur setiap aspek tertera dalam indikator yang
terdapat dalam kajian pustaka yang digunakan.
2. Menurut Sugiyono (2007), Definisi validitas konstruk adalah uji
validitas yang menggunakan pendapat dari ahli (judgement experts)
yang biasanya dilakukan dengan diminta untuk mengemukakan
pendapatnya terkait instrumen yang telah disusun. Sehingga untuk
batasan jumlah tenaga ahli yang dibutuhkan minimal 3 orang dan
sesuai dengan lingkup yang diteliti.
3. Menurut Azwar (2005), Validitas konstruk adalah sebuah gambaran
yang menunjukkan sejauhmana alat ukur itu menunjukkan hasil yang
sesuai dengan teori.
Jadi, dapat disimpulkan bahwa, validitas konstruksi adalah
kerangka dari suatu konsep yang bisa diartikan sebagai salah satu jenis
validitas yang berkaitan dengan kesanggupan suatu alat ukur dalam
mengukur objek penelitian menggunakan konsep yang diukurnya.
Validitas konstruk diperoleh dengan cara mengkorelasikan skor dari
setiap butir pernyataan dengan skor total dari keseluruhan butir.
Korelasi yang tinggi dan positif menunjukkan kesesuaian antara fungsi
item dengan skala keseluruhan. Konstruk merupakan konsep atau
gagasan, konsep atau pemikiran intelektual tentang objek yang
berhubungan baik dengan aspek kognitif, emosional, dan psikomotorik
suatu tujuan.
B. Kajian Empirik
1) Validitas Butir
Menurut Suharsimi Arikunto (2002: 156) validitas butir soal adalah
estimasi kualitas butir-butir soal sebuah alat tes atau yang dimaksudkan
untuk menguji efektifitas butir-butir soal. Butir soal dikatakan memiliki
tingkat validitas yang tinggi jika skor pada item mempunyai kesejajaran
dengan skor total.
Validitas butir (item validity) merupakan validitas yang
mempersoalkan derajat kesesuaian antara suatu butir dengan
perangkat butir-butir lain
yang diukur dengan korelasi antara skor pada butir dengan skor pada
perangkat butir, yang sering dihitung dengan korelasi biserial. Isi
validitas butir meliputi:
(1) tingkat kesukaran butir;
(2) daya pembeda butir; dan
(3) efektivitas distraktor.
Validitas butir digunakan dalam analisis butir untuk menguji
pengukuran guna memperbaiki alat ukur. Melalui validitas butir, ada
butir yang dapat dipertahankan di dalam alat ukur serta ada butir yang
perlu dibuang, diperbaiki, atau diganti. Diharapkan melalui uji coba dan
perbaikan yang berulang-ulang, akan memperoleh alat ukur yang baik
dan dapat dipercaya.
2) Reliabilitas
1. Menurut Dr. Saifudin Azwar (2011:4), Reliabilitas merupakan
penerjemah dari kata reliability yang mempunyai asal
kata rely dan ability. Pengukuran yang memiliki reliabilitas tinggi
disebut sebagai pengukuran yang reliabel. Konsep reliabilitas adalah
sejauh mana hasil suatu pengukuran dapat dipercaya seperti
pendapat dari Masri Singarimbun, realibilitas adalah indeks yang
menunjukkan sejauh mana suatu alat ukur dapat dipercaya atau dapat
diandalkan. Bila suatu alat pengukur dipakai dua kali untuk
mengukur gejala yang sama dan hasil pengukuran yang diperoleh
relative konsisten, maka alat pengukur tersebut reliable. Dengan kata
lain, realibitas menunjukkan konsistensi suatu alat pengukur di
dalam pengukur gejala yang sama.
2. Menurut Sugiyono (2017: 130), menyatakan bahwa uji reliabilitas
adalah sejauh mana hasil pengukuran dengan menggunakan objek
yang sama, akan menghasilkan data yang sama.
3. Menurut Azwar (2011), Reliabilitas berasal dari kata reliability yang
berarti sejauh mana hasil suatu pengukuran memiliki keterpercayaan,
keterandalan, keajegan, konsistensi, kestabilan yang dapat dipercaya.
Hasil ukur dapat dipercaya apabiladalam beberapakali pengukuran
terhadap kelompok subjek yang sama diperoleh hasil yang relatif
sama.
Dari pengertian ahli diatas dapat kita simpukan bahwa reliabilitas tes
merupakan suatu alat ukur yang digunakan untuk mengetahui
konsistensi pengukuran tes yang hasilnya menunjukan keajegan
(konsisten). Seorang dikatakan dapat di percaya apabila orang tersebut
berbicara konsistensi, tidak berubah-ubah pembicaraannya dari waktu
ke waktu. Dalam sebuah tes pentingnya diamati keajegan dan kepastian
tes tersebut dilihat dari hasil tes yang didapat.
Cara Menentukan Reliabilitas
1. Metode belah dua (split-half method)
Dalam pelaksanaanya seorang penilai hanya melakukan
ujian satu kali terhadap sejumlah peserta, sehingga tidak ada
pengaruh/bias dari instrumen terdahulu. Jumlah butir soal yang
diberikan harus genap sehingga dapat dibagi dua dan tiap
kelompok mempunyai jumlah butir yang sama. Di samping itu,
perlu diingat dan diperhatikan bahwa kedua subkelompok
instrumen hendaklah mempunyai tingkat kesukaran butir (item)
dan isi (content) yang setara dan seimbang, kalau memang tidak
bisa dibuat sama. Artinya, distribusi butir soal pada kedua
kelompok sub-instrumen (yang sudah dibagi dua) mencakup luas
dan tingkat kesukaran yang hampir sama.Dengan metode belah dua
ini, koefisien reliabilitas akan menunjukkan internal konsistensi
butir soal dalam keseluruhan instrumen. Cara membelah/membagi
dua instrumen tersebut dapat dilakukan dengan cara:
a) Nomor genap dan ganjil
b) Awal dan akhir (50% bagian awal dan 50% bagian
akhir) Untuk menentukan reliabilitas kedua kelompok
bagian instrumen itu dapat menggunakan Product
Moment Correlation, sedangkan untuk mencari
reliabilitas
keseluruhan instrumen dapat digunakan rumus Spearman
Brown berikut:
c) Rulon’s Formula
Rulon adalah penemu rumus ini. Ia mengembangkan model
sederhana dalam menentukan reliabilitas suatu instrumen;
dengan suatu asumsi bahwa reliabilitas itu merupakan proporsi
dari variance yang sebenarnya dalam suatu instrumen. Rumus
yang digunakan sebagai berikut:
Keterangan:
d = perbedaan antara skor belahan awal dan akhir untuk tiap
yang diuji.
dd= SD berbeda
dt= SD total skor
d2d= Varian beda
d2t= Varian total
Tahap pertama, instrumen di kelompokkan menjadi
awal dan akhir, seperti pada rumus Pearson Product
Moment Correlation. Dengan cara demikian, reliabilitas
yang di dapat adalah untuk total score (skor total), sehingga
Spearman Brown Formula tidak perlu digunakan.
d) Flanagan Formula
Secara konseptual, rumus yang dikemukakan Flanagan tidak
jauh berbeda dari Rulon’s Formula. Ia menjelaskan bahwa
kesalahan variance merupakan jumlah variance dari kedua
belahan (genap dan ganjil). Dengan dasar itu ia
mengemukakan rumus sebagai berikut:
Keterangan:
Keterangan:
Mt = Mean skor total
St = Standar deviasi skor total
k = Jumlah soal
g) Metode Hoyt
Berbeda dengan cara terdahulu dengan membelah/membagi
item menjadi dua kelompok, maka Hyot menggunakan
pendekatan Anava (analysis of variance) dalam menentukan
reliabilitas instrumen. Pendekatan jenis ini juga dikembangkan
oleh Jackson dan Alexander. Rumus yang dikemukakan Hoyt
sebagai berikut:
Keterangan:
rtt = reliabilitas seluruh soal
Vr = varians sisa (reminder)
Ve = varians responden (examinee)
h) Koefisien Alpha
Rumus ini dikembangkan oleh Cronbach dan dapat digunakan untuk
menentukan reliabilitas melalui konsistensi internal (internal
consistency) suatu instrumen.
Rumus:
Keterangan:
rtt = reliabilitas instrument k =
jumlah butir soal bagian
𝜎𝑖2 = jumlah variance butir soal
𝜎𝑡2 = variance skor soal
Karakteristik Reliabilitas
1. Reliabilitas merupakan milik dari satu set nilai tes bukan milik tes itu
sendiri, artinya suatu tes dikatakan baik apabila dapat menghasilkan
skor yang cukup akurat, apabila tes tersebut diberikan pada kelas
tertentu, maka bisa juga menghasilkan skor yang cukup konsisten
bila diberikan pada kelas yang berbeda atau ketika diberikan pada
kelas yang sama pada waktu yang berbeda.
2. Suatu tes dikatakan reliable jika dua buah tes dilakukan pada jarak
waktu yang berbeda dan menunjukkan skor yang tidak jauh berbeda.
3. Reliabilitas dapat dinyatakan untuk dua atau lebih pengukuran
independen yang diperoleh dari tes yang sama untuk setiap anggota
kelompok.
3) Tingkat Kesukaran
1. Saifudin Azwar (2006:129), mengatakan bahwa tingkat kesukaran butir
soal adalah proporsi antara banyaknya peserta tes yang menjawab butir
soal dengan benar dengan banyaknya peserta tes. Hal ini berarti makin
banyak peserta tes yang menjawab butir soal dengan benar maka makin
besar indeks tingkat kesukaran, yang berarti makin mudah butir soal itu.
Sebaliknya makin sedikit peserta tes yang menjawab butir soal dengan
benar maka soal tersebut makin sukar.
2. HJX. Fernades (2004:60), mengatakan tingkat kesukaran butir soal
diukur oleh persentase siswa yang menjawab soal dengan benar. Jika
soal mudah maka indeks kesukaran lebih tinggi. Soal dengan nilai p
yang mendekati 0 adalah soal yang sangat sulit, sedangkan soal dengan
nilai p mendekati 1 adalah soal yang sangat mudah. Indeks tingkat
kesukaran yang sangat baik adalah 0,3 sampai 0,7.
3. Karno To (2003: 11), “Tingkat kesukaran menunjukkan apakah butir
soal tergolong sukar, sedang atau mudah. Tes yang baik memuat kira-
kira 25% soal mudah, 50% soal sedang dan 25% soal sukar”.
4. Menurut Suharsimi Arikunto (2013: 223), “Soal yang baik adalah soal
yang tidak terlalu mudah atau tidak terlalu sukar”. Soal yang terlalu
mudah tidak merangsang siswa untuk memecah soal. Sebaliknya soal
yang terlalu sukar akan menyebabkan siswa menjadi putus asa dan tidak
mempunyai semangat untuk mencoba lagi karena di luar jangkauannya.
Jadi dapat disimpulkan tingkat kesukaran adalah bilangan yang
menunjukkan sukar atau mudahnya soal.
Jadi dapat disimpulkantingkat kesukaran butir soal adalah proporsi antara
banyaknya peserta tes yang menjawab butir soal dengan benar dengan
banyaknya peserta tes. Hal ini berarti makin banyak peserta tes yang
menjawab butir soal dengan benar maka makin besar indeks tingkat
kesukaran, yang berarti makin mudah butir soal itu. Sebaliknya makin
sedikit peserta tes yang menjawab butir soal dengan benar maka soal
tersebut makin sukar. Akan tetapi dalam menentukan tingkat kesukaran
soal perlu diperhatikan apa tujuan kita membuat soal jika untuk tujuan
seleksi mungkin memilih soal yang sukar sedangkan jika untuk mengukur
kemampuan seseorang mungkin membuat soal yang tidak terlalu mudah
(agar siswa terangsang untuk memecahkan masalah) dan tidak terlalu
sukar (agar siswa tidak putus asa menyelesaikan suatu persoalan).
Keterangan:
P = indeks kesukaran
nB = banyaknya siswa yang mejawab soal itu dengan benar
N = jumlah seluruh siswa peserta tes
Dalam menginterpretasikan hasil perhitungan tingkat kesukaran soal dapat
menggunakan kriteria sebagai berikut:
- 0% – 15% = sangat sukar
- 16% – 30% = sukar
- 31% – 70% = sedang
- 71% - 85% = mudah
- 86% - 100% = sangat mudah
Taraf kesukaran tes merupakan tingkat kesulitan tes yang dipandang dari
kemampuan siswa untuk menjawab soal tersebut, yang artinya tes tersebut
akan lebih banyak dapat dijawab benar oleh siswa yang pandai dan lebih
banyak dijawab salah oleh siswa yang kurang pandai. Taraf kesukaran tes
yang baik yaitu antara 20% - 80% atau 30% - 70%. Tingkat kesukaran soal
dipandang dari kesanggupan atau kemampuan siswa dalam menjawabnya,
bukan dilihat dari segi guru dalam melakukan analisis pembuat soal.
Fungsi tingkat kesukaran butir soal dikaitkan dengan tujuan tes, sebagai
contoh untuk keperluan ujian semester digunakan butir soal yang memiliki
tingkat kesukaran sedang, untuk keperluan seleksi digunakan butir soal
yang memiliki tingkat kesukaran tinggi/sukar, dan untuk keperluan
diagnostik biasanya digunakan butir soal yang memiliki tingkat kesukaran
rendah/mudah. Tingkat kesukaran butir soal memiliki 2 kegunaan, yaitu
kegunaan bagi guru dan kegunaan bagi pengujian dan pengajaran.
Kegunaannya bagi guru adalah:
a) Sebagai pengenalan konsep terhadap pembelajaran ulang dan memberi
masukan kepada siswa tentang hasil belajar mereka
b) Memperoleh informasi tentang penekanan kurikulum atau mencurigai
terhadap butir soal yang biasa.
Adapun kegunaannya bagi pengujian dan pengajaran adalah:
1) Pengenalan konsep yang diperlukan untuk diajarkan ulang.
2) Tanda-tanda terhadap kelebihan dan kelemahan pada kurikulum
sekolah.
3) Memberi masukan kepada siswa.
4) Tanda-tanda kemungkinan adanya butir soal yang biasa.
5) Merakit tes yang memiliki ketepatan data soal.
4) Daya Beda
1. Menurut Arikunto (2015:226) “daya pembeda soal adalah
kemampuan sesuatu soal untuk membedakan antara siswa yang
berkemampuan tinggi dengan siswa yang berkemampuan rendah.
2. Menurut Suharsimi Arikunto (2007:211), “daya pembeda soal adalah
kemampuan sesuatu soal untuk membedakan siswa yang pandai
(berkemampuan tinggi) dengan siswa yang bodoh (berkemampuan
rendah)”.
Jadi dapat disimpulkan bahwa daya pembeda adalah kemampuan
suatu butir soal dapat membedakan antara warga belajar/siswa yang telah
menguasai materi yang ditanyakan dan warga belajar/siswa yang
tidak/kurang/belum menguasai materi yang ditanyakan.Angka yang
menunjukkan besarnya daya pembeda disebut indeks diskriminasi (D),
dan nilainya berkisar antara 0,00 sampai 1,00. Pada daya pembeda ini
berlaku tanda negatif yang digunakan jika sesuatu soal “terbalik”
menunjukkan kualitas testee yaitu anak pandai disebut bodoh dan anak
bodoh disebut pandai. Dengan demikian ada tiga titik pada daya pembeda
yaitu: bagi suatu soal yang dapat dijawab benar oleh siswa kemampuan
tinggi dan siswa kemampuan rendah, maka soal itu tidak baik karena
tidak punya daya pembeda. Demikian juga jika semua kelompok bawah
menjawab salah dan siswa berkemampuan tinggi juga sama-sama
menjawab salah, maka soal itu tidak mempunyai daya beda sama sekali.
Manfaat Daya Pembeda
Manfaat daya pembeda butir soal adalah seperti berikut ini:
- Untuk meningkatkan mutu setiap butir soal melalui data empiriknya.
Berdasarkan indeks daya pembeda, setiap butir soal dapat diketahui
apakah butir soal itu baik, direvisi, atau ditolak.
- Untuk mengetahui seberapa jauh setiap butir soal dapat
mendeteksi/membedakan kemampuan siswa, yaitu siswa yang telah
memahami atau belum memahami materi yang diajarkan guru.
Apabila suatu butir soal tidak dapat membedakan kedua kemampuan
siswa itu,maka butir soal itu dapat dicurigai "kemungkinannya" seperti
berikut ini.
1. Kunci jawaban butir soal itu tidak tepat.
2. Butir soal itu memiliki 2 atau lebih kunci jawaban yang benar.
3. Kompetensi yang diukur tidak jelas Pengecoh tidak berfungsi.
4. Materi yang ditanyakan terlalu sulit, schingga banyak siswa yang
menebak.
5. Sebagian besar siswa yang memahami materi yang ditanyakan
berpikir ada yang salah.
Cara menentukan daya pembeda (nilai D)
Untuk ini perlu dibedakan antara kelompok kecil (kurang dari 100)
dan kelompok besar (100 orang ke atas).
a) Untuk kelompok Kecil
Seluruh kelompok testee dibagi dua sama besar, 50% kelompok besar
(100 orang ke atas).
Contoh:
Seluruh pengikut tes, dideretkan mulai dari skor teratas sampai
terbawah, lalu dibagi 2.
b) Untuk Kelompok Besar
Mengingat biaya dan waktu untuk menganalisa, maka untuk
kelompok besar biasanya hanya diambil kedua kutubnya saja, yaitu
27% skor teratas sebagai kelompok atas (JA) dan 27% terbawah
sebagai kelompok bawah (JB).
JA = Jumlah Kelompok Atas
JB = Jumlah Kelompok Bawah.
Contoh :
Dalam mana:
J = jumlah peserta tes
JA = banyaknya peserta kelompok atas
JB = banyaknya peserta kelompok bawah
BA = banyaknya peserta kelompok atas yang menjawab soal itu
dengan benar
BB = banyaknya peserta kelompok bawah yang menjawab soal itu
benar
𝐵𝐴
PA = = proporsi peserta kelompok atas yang menjawab benar
𝐽𝐴
Keterangan :
P = indeks kesukaran
nB = banyaknya siswa yang mejawab soal itu dengan benar
N = jumlah seluruh siswa peserta tes
Dalam menginterpretasikan hasil perhitungan tingkat kesukaran soal dapat
menggunakan kriteria sebagai berikut:
- 0% – 15% = sangat sukar
- 16% – 30% = sukar
- 31% – 70% = sedang
- 71% - 85% = mudah
- 86% - 100% = sangat mudah
No P. Kelompok atas P. Kelompok Bawah P. Rata- Keterangan
Butir rata
2 P = 15 x 100%= 75% P = 10 x 100%= 50% 62,5% sedang
20 20
13 P = 19 x 100%= 95% P= 8
x 100%= 40% 67,5% sedang
20 20
keterangan:
J = jumlah peserta tes
JA = banyaknya peserta kelompok atas
JB = banyaknya peserta kelompok bawah
BA = banyaknya peserta kelompok atas yang menjawab soal itu dengan benar
BB = banyaknya peserta kelompok bawah yang menjawab soal itu benar
𝐵𝐴
PA =
𝐽𝐴 = proporsi peserta kelompok atas yang menjawab benar (ingat, P
sebagai indeks kesukaran).
𝐵𝐵
PB = = proporsi peserta kelompok bawah yang menjawab benar.
𝐽𝐵
13 P = 19 x 100%= 95% P= 8
x 100%= 40% 55%
20 20
Berdasarkan analisis data diatas berdasarkan kajian yang ada pada soal no 1 dapat
ditarik kesimpulan sebagai berikut.
a) Berdasarkan teori (Fernandes, 1984, h.26) tes yang baik adalah tes yang memiliki
taraf kesukaran antara 0,25-0,75. Sampel butir soal diatas termasuk tes yang
kurang baik karena, memiliki rata-rata indeks tingkat kesukaran (∑ 𝑃. 𝑟𝑎𝑡𝑎 −
𝑟𝑎𝑡𝑎: 𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑠𝑎𝑚𝑝𝑒𝑙 = 632,5% : 8 =79,06%. Untuk menjadikan tes agar
menjadi baik mungkin perlu ditambahkan butir soal yang sangat sukar, sukar
ataupun sedang.
b) Berdasarkan teori ( Fernandes , 1984 , h.27 ) jika " D " negatif terhadap hal
tersebut sangat jelek dan harus dibuang . Tes yang baik apabila memiliki D antara
0,15-0,20 atau lebih ( Fernandes , 1984 , h.27 ) . Sampel butir soal diatas termasuk
tes yang kurang baik karena, memiliki rata-rata indeks daya beda
(∑ 𝐷𝑎𝑦𝑎 𝐵𝑒𝑑𝑎: 𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑠𝑎𝑚𝑝𝑒𝑙 = 55% : 8 =6,875%)
c) Berdasarkan teori ( Fernandes , 1984 , h.27 ) jika " D " negatif terhadap hal
tersebut sangat jelek dan harus dibuang . Tes yang baik apabila memiliki D antara
0,15-0,20 atau lebih ( Fernandes , 1984 , h.27 ) . Butir soal nomor 5,12, dan14,
harus dibuang karena memiliki nilai daya beda (D) yang negatif.
d) Butir soal yang paling sukar berdasarkan sampel diatas terletak pada butir soal
nomor 2 karena memiliki indeks tingkat kesukaran 62,5%.
e) Butir soal yang memiliki daya beda tertinggi berdasarkan sampel diatas terletak
pada butir soal nomor 13 karena memiliki indeks daya beda sebesar 55%.