Anda di halaman 1dari 11

Kelompok I

Theresia Cleopatra Valencia Maturbongs 199114020

Kriselda Feriadi 199114055

Regina Vika Rovanie 199114058

Jonathan Krisna Himawan 199114099

RELIABILITAS TES

Koefisien reliabilitas adalah indeks reliabilitas, proporsi yang menunjukkan rasio antara
varian skor sebenarnya pada tes dan varian total.

1. Reliabilitas Test-Retest

● Memeriksa reliabilitas dengan menggunakan alat yang sama untuk mengukur hal
yang sama pada dua titik waktu.
● ·Estimasi reliabilitas test-retest disebut koefisien stabilitas.
● Perubahan dapat terjadi seiring berjalannya waktu, oleh karena itu evaluasi hasil tes
ulang perlu mempertimbangkan kemungkinan fakor-faktor yang mengintervensi
selama pemberian tes.
● Tepat digunakan untuk mengukur reliabilitas tes yang menggunakan ukuran hasil
seperti waktu reaksi atau persepsi.
● Reliabilitas tes-ulang relatif mudah untuk dievaluasi: Lakukan tes yang sama pada
dua kesempatan yang ditentukan dengan baik dan kemudian temukan korelasi antara
skor dari dua administrasi menggunakan metode.
● Pertimbangan detail lain selain metode untuk menghitung koefisien reliabilitas test-
retest, ada satu hal yang harus selalu dipertimbangkan yaitu kemungkinan efek
carryover. Efek ini terjadi ketika sesi pengujian pertama memengaruhi skor dari sesi
kedua. Ketika ada efek carryover, korelasi test-retest biasanya melebih-lebihkan
reliabilitas yang sebenarnya.
● Terkadang korelasi test-retest yang buruk tidak berarti bahwa sebuah tes tidak dapat
diandalkan. Sebaliknya, mereka menyarankan bahwa karakteristik yang diteliti telah
berubah. Salah satu masalah dengan teori tes klasik adalah asumsi bahwa disposisi
perilaku konstan dari waktu ke waktu. Dalam teori uji klasik, variasi ini diasumsikan
sebagai kesalahan.

2. Equivalen

• Memeriksa kesetaraan dengan bentuk tes yang berbeda.

• Koefisien reliabilitas benuk alternatif/pararel disebut koefisien kesetaraan.

• Mirip dengan test-retest :

o Dua kali melaksanakan tes dengan kelompok yang sama,

o Skor tes dapat dipengaruhi oleh faktor-faktor seperti motivasi, kelelahan, dll.

• Tambahan kemungkinan faktor kesalahan : sampel item

→ hasil tes peserta tes bisa menjadi lebih baik / buruk karena item tertentu yang
dimasukkan dalam tes.

• Kekurangan : memakan waktu dan biaya.

• Keunggulan : meminimalisir efek memori untuk konten dari bentuk tes sebelumnya.

a. Bentuk Paralel

- Digunakan jika setiap bentuk tes memiliki rata-rata dan varian yang sama.

- Rata-rata pada skor bentuk paralel berkorelasi dengan skor sebenarnya (true
score).

- Rata-rata pada skor bentuk paralel berkorelasi dengan pengukuran lainnya.

- Jika kedua bentuk tes diberikan pada hari yang sama, sumber variasi hanya
kesalahan acak (random error) dan perbedaan antara bentuk tes. (Urutan
pemberian biasanya diimbangi untuk menghindari efek latihan.). Kadang-
kadang dua bentuk tes diberikan pada waktu yang berbeda. Dalam kasus ini,
kesalahan yang terkait dengan pengambilan sampel waktu juga dimasukkan
dalam perkiraan reliabilitas.

- Metode bentuk paralel memberikan salah satu penilaian reliabilitas yang


paling ketat yang biasa digunakan. Sayangnya, penggunaan bentuk paralel
dalam praktiknya lebih jarang daripada yang diinginkan.

b. Bentuk Alternatif

- Biasanya untuk berhubungan setara dengan variabel seperti konten dan tingkat
kesulitan.

3. Reliabilitas Split-half

• Menghubungkan dua pasang skor dari bagian yang setara pada tes tunggal yang
diberikan satu kali.

• 3 langkah perhitungan koefisien reliabilitas split-half :

1) Membagi tes menjadi dua bagian setara.

cara yang boleh :

- Menetapkan item secara acak ke satu atau lainnya.

- Menetapkan item berdasarkan nomor ganjil genap (odd-even reliability)

- Membagi tes dengan konten sehingga setiap setengahnya berisi item yang
setara dalam konten dan kesulitan.

cara yang dilarang :


Membagi tes secara sederhana di bagian tengah karena dapat meningkatkan /
menurunkan koefisien reliabilitas.

Tujuan membagi dua :

Membuat "mini-parallel-forms" dengan setiap bagiannya yang setara.

2) Menghitung r pearson antara skor kedua bagian tes tersebut.

3) Menyesuaikan reliabilitas split-half menggunakan rumus Spearman-Brown

Tujuan :

Memperkirakan reliabilitas konsistensi internal dari korelasi dua bagian tes


yang diperpanjang atau diperpendek dengan sejumlah item.

Rumus :

Ket :

rSB = reliabilitas yang diatur dengan rumus Spearman-Brown

rxy = Pearson r dalam uji panjang asli

n = jumlah item di versi revisi dibagi dengan jumlah item dalam versi
aslinya

*n menjadi 2 dalam rumus Spearman-Brown untuk penyesuaian keandalan


split-half

rhh = singkatan dari Pearson r skor dalam dua tes setengah

- Biasanya reliabilitas meningkat seiring meningkatnya panjang tes.


- Korelasi yang disesuaikan lebih tinggi daripada korelasi yang tidak
disesuaikan karena perkiraan spearman-brown dua kali lebih lama dari
setengah tes asli.

- Rumus spearman-brown biasa digunakan untuk memperkirakan efek


waktu yang diperpendek dan menentukan jumlah item tes yang diperlukan
untuk mencapai les reliabilitas tertentu (syarat : item baru harus setara
dalam konten dan kesulitan sehingga semakin lama tes masih mengukur
apa yang diukur oleh tes asli).

• Menggunakan koreksi Spearman-Brown tidak selalu disarankan. Misalnya, ketika dua


bagian pengujian memiliki varian yang tidak sama, koefisien alpha (a) Cronbach
(1951) dapat digunakan. Koefisien reliabilitas umum ini memberikan perkiraan
reliabilitas terendah yang dapat diharapkan. Jika alpha tinggi, maka mungkin
berasumsi bahwa reliabilitas tes dapat diterima karena batas reliabilitas terendah
masih tinggi; reliabilitas tidak akan turun di bawah alpha. Sebaliknya, tingkat alfa
rendah memberi lebih sedikit informasi. Karena koefisien alfa hanya menandai batas
bawah untuk reliabilitas, reliabilitas sebenarnya mungkin masih tinggi.

4. Konsistensi Internal

• Derajat korelasi di antara semua item dalam skala

• Ukuran konsistensi antar item dihitung dari satu administrasi dari satu bentuk tes

• Berguna dalam menilai homogenitas tes. (semakin homogen, konsistensi antar item
semakin tinggi)

➢ Homogeneity : faktor tunggal ; satu sifat ; interpretasi skor tes relatif langsung

➢ Heterogeneous : faktor berbeda-beda ; lebih dari satu sifat

a. Formula KR20
- Jika item tes sangat homogen, perkiraan reliabilitas KR-20 dan split-half akan
serupa. Jika item tes lebih heterogen, maka KR20 menghasilkan reliabilitas
yang lebih rendah perkiraan dari metode split-half.

- Statistik pilihan untuk menentukan konsistensi antar butir item dikotomis,


terutama item yang dapat dinilai benar atau salah (cth. item pilihan ganda).

- Rumus :

rKR20 = rumus 20 koefisien reliabilitas Kuder-Richardson

k = jumlah item tes

= varian dari total skor tes

p = proporsi penguji yang lulus item

q = proporsi orang yang gagal item

Σ pq = jumlah produk pq atas semua item

b. Koefisien Alfa

- Dikembangkan oleh Cronbach (1951).

- Dianggap sebagai rata-rata dari semua kemungkinan korelasi split-half,


dikoreksi oleh formula Spearman- Brown.

- Digunakan pada pengujian yang mengandung item non dikotomis.

- Rumus :
ra = koefisien alpha

k = jumlah item

= varian dari satu item

Σ = jumlah varian dari setiap item, dan 2 adalah varian dari skor tes total

= varian dari skor tes total.

- Koefisien alfa biasanya berkisar dari 0 (sama sekali tidak ada kesamaan)
sampai 1 (identik sempurna).

5. Reliabilitas Antar Penilai (inter-scorer)

• Tingkat persetujuan atau konsistensi antara dua atau lebih pencetak skor (atau juri
atau penilai) terkait dengan ukuran tertentu.

• Konsistensi antar penilai dapat ditingkatkan dengan menyediakan penilai dengan


kesempatan untuk diskusi kelompok disertai latihan latihan dan informasi tentang
akurasi penilai.
VALIDITAS TES
A. Definisi Validitas
• Definisi: sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan
fungsi ukurnya.
• Suatu tes atau instrumen pengukur dapat dikatakan mempunyai validitas yang
tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil
ukur yang sesuai dengan maksud dilakukannya pengukuran tersebut.
• Validitas adalah bukti untuk kesimpulan yang dibuat tentang skor tes. Menurut
salah satu ahli pengukuran, secara tradisional, validitas dikonseptualisasikan
dalam tiga jenis kategori bukti: (1) terkait dengan konstruksi, (2) terkait dengan
kriteria, dan (3) terkait dengan konten.
• Tiga pendekatan untuk menilai validitas, masing-masing terkait dengan konten
validitas, validitas terkait kriteria, dan validitas konstruk, adalah :
o Meneliti konten tes.
o Mengaitkan skor yang diperoleh pada tes dengan skor tes lain atau
ukuran lain.
o Melaksanakan analisis komprehensif mengenai :
▪ Bagaimana skor pada tes berhubungan dengan skor dan ukuran
tes lainnya.
▪ Bagaimana skor pada tes dapat dipahami dalam beberapa
kerangka teoritis untuk memahami konstruk yang dirancang
untuk diukur oleh tes tersebut.
B. Jenis Validitas
1. Validitas Tampang (Face Validity)
• Tes dikatakan mempunyai face validity jika item yang ada di dalamnya
cukup relevan dengan tujuan tes sebenarnya sehingga apa yang diukur dalam
tes itu terlihat dari “wajah” tesnya.
• Kurangnya face validity akan berakibat pada kurangnya kepercayaan pada
efektivitas yang dirasakan dari pengujian, dengan konsekuensi penurunan
pada kerja sama atau motivasi peserta tes untuk melakukan yang terbaik
• Face validity sama sekali bukan validitas karena tidak menawarkan bukti
untuk mendukung kesimpulan yang diambil dari nilai tes.
2. Validitas Isi (Content Validity)
• Validitas isi memastikan bahwa pengukuran memasukkan sekumpulan item
yang memadai dan mewakili yang mengungkap konsep.
• Merupakan bukti yang menunjukkan sejauh mana isi tes sesuai dengan
tujuan yang dimaksudkannya.
• Bukti tersebut digunakan untuk menetapkan bahwa pengujian tersebut
mencakup contoh yang representatif atau kritis dari domain konten yang
relevan dan isinya tidak termasuk konten di luar domain tersebut.
• Menetapkan bukti validitas konten untuk sebuah tes, membutuhkan logika
yang baik, keterampilan intuitif, dan ketekunan, karena isi item harus
dievaluasi dengan cermat.
• Construct underrepresentation: menggambarkan kegagalan untuk
menangkap komponen penting dari sebuah konstruksi. Sebagai contoh, jika
suatu tes tentang pengetahuan matematika memasukkan materi aljabar tetapi
tidak memasukkan materi geometri, maka validitas tes tersebut akan
terancam oleh kurangnya representasi konstruk.
• Construct-irrelevant variance: terjadi ketika skor dipengaruhi oleh faktor-
faktor yang tidak relevan dengan konstruk. Misalnya, tes kecerdasan
mungkin dipengaruhi oleh faktor lain, seperti pemahaman bacaan,
kecemasan saat ujian, atau penyakit.
• Lawshe’s Content Validity Ratio (CVR) :
ne – ( N2 )
CVR =
N
2
dibuat pada dasarnya sebagai metode untuk mengukur kesepakatan di antara
penilai atau hakim tentang seberapa penting item tertentu dalam pengadilan
dengan rincian sebagai berikut :
CVR : Rasio Validitas Isi
ne : Jumlah panelis yang mengatakan suatu item itu penting
N : Jumlah panelis seluruhnya
➔ Dalam memvalidasi tes, rasio validitas konten dihitung untuk setiap item.
Dia merekomendasikan bahwa jika jumlah kesepakatan yang diamati
lebih dari 5% kemungkinan besar terjadi karena kebetulan, maka item
tersebut harus dihilangkan
• Budaya mempengaruhi penilaian terhadap kevalidan suatu tes dan item-
itemnya (tergantung dari sudut pandang budaya.dan latar belakang mana
yang kita pakai untuk menilai).
3. Validitas Kriteria (Criterion-related Validity)
• Memberi tahu kita seberapa baik suatu tes dalam menghasilkan skor yang
dapat menunjukkan posisi peserta tes yang paling mungkin pada beberapa
ukuran kriteria tertentu.
• Ditentukan dengan cara membandingkan skor-skor tes dengan kinerja
tertentu pada sebuah ukuran luar. Ukuran luar ini seharusnya memiliki
hubungan teoritis dengan variabel yang diukur oleh tes itu.
• Terpenuhi jika pengukuran membedakan individu menurut suatu kriteria
yang diharapkan diprediksi. Hal tersebut bisa dilakukan dengan
menghasilkan validitas konkuren (concurrent validity) atau validitas
predictive (predictive validity).
a. Validitas Prediktif
Sebuah tes dikatakan memiliki validitas prediksi atau validitas ramalan
apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi
pada masa yang akan datang. Tujuan dari tes ini adalah untuk memprediksi
kemungkinan berhasilnya sebuah kriteria. Misalnya, tes penerimaan
perguruan tinggi dapat memperkirakan atau memprediksi akan seberapa baik
siswa sekolah menengah atau pengikut tes dalam studi perguruan tinggi
mereka mendatang.
b. Validitas Konkuren
Validitas konkuren adalah indeks sejauh mana skor tes terkait dengan
beberapa ukuran kriteria yang diperoleh pada waktu yang sama (secara
bersamaan). Berasal dari penilaian hubungan simultan antara tes dan kriteria,
misalnya seperti antara tes ketidakmampuan belajar dengan kinerja sekolah.
4. Validitas Konstruk (Construct Validity)
• Validitas konstruk adalah penilaian tentang kesesuaian kesimpulan yang
diambil dari skor tes mengenai klasemen individu pada variabel yang disebut
konstruk (ide ilmiah yang dikembangkan atau dihipotesiskan untuk
menggambarkan atau menjelaskan perilaku).
• Ditetapkan melalui serangkaian aktivitas dimana peneliti secara bersamaan
mendefinisikan beberapa konstruk dan mengembangkan instrumen untuk
mengukurnya.
• Melibatkan pengumpulan bukti tentang arti sebuah tes. Hal ini dilakukan
dengan menunjukkan hubungan antara tes dan tes serta ukuran lainnya.
• Apabila susunan tes tersebut telah memenuhi syarat-syarat penyusunan tes,
maka tes tersebut telah memenuhi syarat validitas konstruk.
• Berbagai teknik validasi konstruk dapat memberikan bukti,misalnya, bahwa :
o Bukti homogenitas (seberapa seragam suatu tes dalam mengukur satu
konsep)
o Bukti perubahan seiring usia (jika skor tes dimaksudkan untuk menjadi
ukuran konstruksi yang dapat diharapkan berubah seiring waktu, maka
skor tes juga harus menunjukkan perubahan progresif yang sama dengan
usia untuk dianggap sebagai ukuran yang valid dari konstruk).
o Bukti perubahan pretest-posttest (nilai tes berubah sebagai hasil dari
beberapa pengalaman antara sebelum tes dan sesudah tes).
o Bukti dari kelompok yang berbeda (skor pada tes bervariasi dalam cara
yang dapat diprediksi sebagai fungsi keanggotaan dalam beberapa
kelompok).
o Bukti konvergen ( skor tes yang divalidasi cenderung berkorelasi tinggi
dalam arah yang telah diprediksi dengan skor pada tes yang lebih tua,
lebih tersusun, dan telah divalidasi)
o Bukti diskriminan (hubungan antara skor tes dan / atau variabel lain yang
memiliki skor pada tes yang divalidasi konstruk tidak secara teoritis
berkorelasi)
• Baik bukti konvergen dan diskriminan dari validitas konstruk bisa diperoleh
dengan menggunakan analisis faktor. Analisis faktor adalah istilah singkatan
untuk kelas prosedur matematika yang dirancang untuk mengidentifikasi
faktor-faktor atau variabel tertentu yang ada biasanya atribut, karakteristik,
atau dimensi di mana orang mungkin berbeda.

Anda mungkin juga menyukai