Anda di halaman 1dari 26

Reliability

2020-001 Sahru Ramadhan


2020-013 Fasya Az Zahra
2020-022 Natasya Andimerisa
Reliabilitas
● Reliabilitas merupakan salah satu konsep penting dalam tes yang berhubungan dengan konsistensi atau
replikasi dari nilai tes.
● Menurut Neuman (2013), reliabilitas pengukuran merupakan konsistensi ukuran variabel yang
dapat diandalkan.
● Menurut Neuman (2013), terdapat tiga jenis reliabilitas:
○ Reliabilitas Stabil
➔ Ukuran yang menghasilkan hasil yang konsisten pada waktu yang berbeda dengan asumsi hal
yang diukur tidak berubah dengan sendirinya.
○ Reliabilitas Terwakili
➔ Ukuran yang menghasilkan hasil konsisten untuk kelompok yang berbeda-beda.
○ Reliabilitas Seimbang
➔ Ukuran yang memberikan hasil yang konsisten dengan menggunakan indikator khusus yang
berbeda-beda dengan asumsi bahwa keseluruhan mengukur konstruk yang sama.
Reliabilitas
● Beberapa cara meningkatkan reliabilitas menurut Neuman (2013):
○ Menkonseptualisasikan konstruk dengan jelas
➔ Mengembangkan konsep teoritis yang jelas dan tidak ambigu
○ Menggunakan tingkat pengukuran yang tepat
➔ Indikator pada tingkat yang lebih tinggi atau tingkat yang lebih tepat cenderung lebih dapat
diandalkan dibandingkan ukuran yang kurang tepat atau kurang jelas.
○ Menggunakan indikator majemuk
➔ Menggunakan indikator konstruk lebih dari satu dapat melakukan pengukuran dari rentang isi
definisi konseptual yang lebih luas.
○ Menggunakan uji perintis
➔ Mengembangkan satu atau lebih konsep atau versi pengukuran awal dan mencoba terelbih
dahulu sebelum menerapkan versi akhir dari alat ukur yang menguji hipotesis.
4 Perbedaan Penting
1. Reliabilitas vs Validitas
➔ Validitas berhubungan dengan apa yang diukur secara spesifik, sedangkan reliabilitas berhubungan dengan
konsistensi dari pengukuran tersebut terlepas dari apa yang diukur.
➔ Suatu tes dapat reliabe tanpa harus valid, tetapi suatu tes tidak dapat valid jika tidak reliabel.

2. Penggunaan sehari-hari vs Definisi secara teknis


➔ Dalam penggunaan sehari-hari reliabilitas mengandung banyak arti. Sumber reliabilitas biasanya
mengandung informasi akurat dibandingkan rumor
➔ Definisi secara teknis, reliabilitas memiliki arti konsistensi, replikasi dan keteguhan. Menurut psikometri,
reliabilitas memiliki arti

3. Perubahan asli vs Perubahan sementara

4. Kesalahan konstan vs kesalahan tidak sistematis


➔ Reliabilitas tidak terhitung untuk kesalahan konstan ini.
➔ Reliabilitas hanya berhubungan dengan kesalahan yang tidak sistematis.
➔ Kesalahan konstan yang dimaksud adalah kecenderungan pergerakan kesalahan menuju kearah tertentu.
Faktor yang Mempengaruhi Korelasi
1. Linieritas
2. Homokedastisitas
3. Homogenitas
4. Hanya menentukan posisi relatif dalam kelompok
Metode Penentuan Reliabilitas
1.Test-Retest Reliability (Reliabilitas Tes Ulang)

Test-Retest Reliability adalah sebuah pendekatan untuk mengukur reliabilitas, dimana koefisien reliabilitas ini
diperoleh dengan pemberian tes yang sama menguji individu yang sama pada dua kesempatan terpisah. Dua
kesempatan itu biasanya jarak satu hari hingga satu bulan

2. Inter-Scorer Reliability

Pendekatan ini dipakai untuk menilai kesepakatan antar rater dalam menilai suatu individu. Dengan demikian reliabilitas tersebut
melekat pada skor yang diberikan, bukan pada alat ukurnya. Misalkan dalam suatu kompetisi lompat indah, dua juri menilai seberapa
indah lompatan atlet tersebut. Jika kedua juri tersebut memiliki penilaian yang hampir sama, maka ada kesepakatan penilaian, yang
berarti reliabilitasnya tinggi. Namun sebaliknya, jika juri pertama menilai lompatannya sangat indah sedangkan juri kedua menilai
lompatannya biasa saja, maka tidak ada kesepakatan.
Ada dua teknik untuk estimasi reliabilitas antar rater yang dapat digunakan, yakni dengan koefisien Kappa dari Cohen dan Intraclass
Correlation Coefficients (ICC).
3. Alternate Form Reliability (Reliabilitas Bentuk Alternatif)

Salah satu metode mendapatkan reliabilitas tes adalah dengan reliabilitas bentuk alternatif dimana diberikan dua
buah tes yang paralel atau setara pada kelompok atau individu yang sama namun pada waktu yang berbeda.
Syarat-syarat yang harus dipenuhi di kedua tes pararel adalah kriteria yang digunakan kedua tes sama,
masing-masing tes dikonstruksikan tersendiri, jumlah item isi, dan corak sama, tingkat kesukaran sama, petunjuk
waktu yang disediakan untuk mengerjakan tes, dan contoh-contoh juga sama.

4.Internal Consistency Reliability (Reliabilitas Konsistensi Internal)

internal-consistent reliability yaitu mengukur dua atau lebih konsep yang sama pada waktu yang bersamaan. Selain
itu, internal-consistent reliability juga dapat membandingkan untuk melihat tingkat kesetujuan responden. Ada tiga
jenis cara internal-consistent reliability, yaitu Split-Half Reliability, Kuder-Richardson Formulas dan Coefficient
Alpha:
a. Split-Half Reliability

Rumus Uji Reliabilitas Teknik Belah Dua dilakukan dengan cara membagi tes menjadi dua bagian yang relatif sama
(banyaknya soal sama), sehingga masing-masing test mempunyai dua macam skor, yaitu skor belahan pertama (awal
/ soal nomor ganjil) dan skor belahan kedua (akhir / soal nomor genap). Koefisien reliabilitas belahan tes dinotasikan
dengan r1/2 1/2 dan dapat dihitung dengan menggunakan rumus yaitu korelasi angka kasar Pearson. Selanjutnya
koefisien reliabilitas keseluruhan tes dihitung menggunakan formula Spearman-Brown, yaitu:
Rumus:

b. Kuder-Richardson Formulas
Serangkaian rumus yang dikembangkan oleh G.Fredrick Kuder dan MW Richardson (1937) memberikan ukuran lain
dari internal consistency. Dua rumus ini, angka 20 dan 21, biasa disebut sebagai KR-20 dan KR-21:

Rumus K-20 Rumus K-21


C. Coefficient Alpha/ Cronbach’s alpha

Cronbach’s alpha digunakan untuk mengukur keandalan indikator-indikator yang digunakan dalam kuesioner
penelitian. Cronbach’s Alpha merupakan sebuah ukuran keandalan yang memiliki nilai berkisar dari nol
sampai satu. Menurut Eisingerich dan Rubera (2010: 27) nilai tingkat keandalan Cronbach’s Alpha minimum
adalah 0,70.
Berikut Rumus Cronbach’s alpha:

5. Three Important Conclusions (Tiga Kesimpulan Penting)

Pertama, panjang tes itu penting. Secara umum, semakin lama pengujiannya, semakin dapat diandalkan. Tes yang
sangat singkat seringkali tidak dapat diandalkan. Dalam kasus yang membatasi waktu hampir selalu memiliki keandalan
yang cukup terbatas. Sebagai aturan umum, untuk meningkatkan keandalan, dibutuhkan rentang waktu pengujian yang
lama..
Kedua, adalah bahwa reliabilitas dimaksimalkan dengan persentase peserta ujian menanggapi dengan benar dalam
tes kemampuan kognitif atau menanggapi dalam suatu arah (misalnya, "Ya") dalam tes non kognitif yang mendekati
0,50. Perhatikan bahwa pq sudah maksimal ketika p ¼ .50; pq menurun saat p menjauh dari, 50. Inilah alasannya tes
standar dalam domain kognitif seringkali tampak begitu sulit. Pengembang uji sedang mencoba memaksimalkan
keandalan. Sebenarnya, dengan mempertimbangkan efek menebak jawaban yang benar, nilai target p untuk item
biasanya ditetapkan agak di atas 0,50, tetapi masih pada tingkat yang sulit. Namun, Thorndike (1982) menunjukkan
bahwa sedikit keandalan yang dikorbankan berangkat secara substansial dari p ¼ .50.

Ketiga, korelasi antar item itu penting. Amati efek rata-ratakorelasi antar item pada Tabel 4.10. Pelajaran praktis
yang bisa dipetik adalah: Mendapatkan keandalan konsistensi internal yang baik, gunakan item yang mengukur sifat
yang terdefinisi dengan baik.
6. The Standard Error of Measurement (Kesalahan standar Pengukuran)

Untuk interpretasi praktis, bergantung pada kesalahan standar pengukuran, biasanya disingkat SEM. SEM
dirumuskan sebagai:
SEM= SDx√1-Rxx
dimana r xx adalah reliabilitas tes dan SD x adalah standar deviasi tes untuk grup dimana r ditentukan.
SEM adalah deviasi standar dari jumlah yang diperoleh secara hipotetis tak terbatas skor di sekitar skor sebenarnya
orang tersebut.

a. Confidence Bands (Pita Kepercayaan)


Laporan skor yang dihasilkan komputer sering kali menggunakan confidence bands untuk menginterpretasikan
suatu skor yang diperoleh. Ketika standar kesalahan pengukurannya kecil, confidence band juga sempit
(mengindikasikan reliabilitas tinggi), sehingga kita memiliki keyakinan yang lebih besar bahwa skor yang
diperoleh mendekati skor yang sesungguhnya.
b. Appropriate Units for SEM (Unit Yang Sesuai untuk SEM)

SEM harus dinyatakan dalam unit skor yang digunakan untuk interpretasi. Uji manual seringkali memberikan SEM
hanya pada unit skor mentah. Jika interpretasi menggunakan skor bernorma, maka SEM skor mentah harus
dikonversi ke skor bernorma. Ini bisa dengan mudah dilakukan untuk skor bernorma yang merupakan konversi linier
dari skor mentah, seperti linier skor standar. Tugasnya jauh lebih rumit untuk konversi nonlinier.

c. Standard Error of the Difference (Kesalahan Standar dari Perbedaan Tersebut)

Kesalahan standar pengukuran dengan kasus membandingkan dua skor dapat dipecahkan dengan rumus:
7. Standard Errors: Three Types (Tiga Jenis: Kesalahan standar)

Kesalahan standar pengukuran adalah simpangan baku dari hipotesis populasi skor yang diamati di distribusikan di
sekitar skor sebenarnya untuk individu. Adapun tiga jenis kesalahan standar antara lain:
1.Kesalahan Standar Pengukuran:Indeks kesalahan karena tidak dapat diandalkan
2.Kesalahan Standar Rata-rata:Indeks kesalahan karena pengambilan sampel acak
3.Kesalahan Standar Perkiraan:Indeks kesalahan dalam memprediksi Y dari X

8. Some Special Issues in Reliability (Beberapa Masalah Khusus dalam Reliabilitas)

Adapun masalah khusus dalam reliabilitas, antara lain:


1.Laporan Interpretatif
2.Subscores dan Item Individual
3.Profil
4.Tes yang Mengacu pada Kriteria
Sumber Utama Ketidak-reliabilitas (Unreliability)
•Penilaian Tes (Test Scoring) •Kondisi Administrasi Tes (Test
Error yang disebabkan oleh penguji Administration Conditions)
(subjektivitas, jumlah pelatihan/pengalaman) Error yang disebabkan oleh kondisi saat
dan sistem skoring administrasi tes: suhu ruangan, tingkat
pencahayaan, jumlah ventilasi dan kebisingan

•Konten/Konstruksi Tes (Test


Content/Construction) •Kondisi Personal (Personal Conditions)
Error yang disebabkan oleh item sampling: Error yang disebabkan oleh kondisi sementara
cara item disusun dan penggunaan kata dalam peserta tes: sakit, mood
item
True Score Theory
Reliabilitas tes dapat dirumuskan dalam tiga konteks teoritis yang berbeda, yaitu:
a. Classical Test Theory (CTT)/ Tes Teori Klasik (TTK)
Dinamakan teori tes klasik karena unsur-unsur teori ini sudah dikembangkan dan diaplikasikan sejak
lama, namun tetap bertahan hingga sekarang

b. Item Response Theory (IRT)/ Teori Respon Aitem (TRA)


TRA muncul untuk menjawab keterbatasan dari TTK.
Teori Tes Modern disebut juga dengan Latent-Trait Theory karena teori ini berasumsi bahwa
performansi subjek dalam mengerjakan suatu tes dapat diprediksi dari kemampuannya yang bersifat
laten (terpendam) atau menetap.

c. Generalizability Theory (GT)/ Teori Generalisasi (TG)


Ketepatan generalisasi dari skor yang diamati dari suatu pengukuran terhadap rata-rata skor yang akan
diterima seseorang dalam berbagai kondisi yang ada
Tes Teori Klasik (TTK) Teori Respon Aitem (TRA)

Gambaran ● Analisis sederhana dan ● Disebut juga sebagai tes psikometri modern/ tes teori modern
Umum banyak digunakan ● Prinsip: Relativitas vs Probabilitas
● Fokus pada tes secara ● Asumsi: Unidimensi, Independensi Lokal, Invariansi
keseluruhan ● Item Response Function (IRF),
● X=T+E Item Characteristics Curve (ICC),
Item Information Function (IIF),
Test Informastion Function (TIF) ->Butir/item tes,
subjek/responnya, isi respon subjek)
Teori Generalisasi (TG)

Gambaran
Umum ● Teori ini bisa dipandang sebagai perpanjangan dari teori klasik
melalui aplikasi prosedur analisis varians tertentu (ANOVA)
untuk masalah pengukuran. Dalam prosesnya, teori G mampu
menyajikan koefisien yang menunjukkan reliabitlitas, yang
disebut dengan koefisien generalisasi
● Tahap: (a) studi generalisasi, (b) studi keputusan (decision)
● Universe Score: detail dari situasi pengujian tertentu yang
mencakup: (1) jumlah soal dalam tes, (2) jumlah pelatihan yang
dimiliki penguji, (3) tujuan penyelenggaraan tes
Tes Teori Klasik Teori Respon Aitem (TRA) Teori Generalisasi
(TTK) (TG)

Parameter ● Tingkat kesulitan ● Difficulty ● ketepatan generalisasi


item dari skor yang diamati
● Daya diskriminasi Taraf kesukaran soal: soal bisa dari suatu pengukuran
item dianggap baik kalau item soal terhadap rata-rata skor
● Efektifitas tersebut tidak terlalu sulit dan tidak yang akan diterima
distraktor (soal terlalu mudah. seseorang dalam
pilihan ganda) berbagai kondisi yang
● Reliabilitas (Level ● Discrimination ada
tes)
Daya pembeda soal: soal bisa
dianggap baik kalau item soal
tersebut dapat digunakan untuk
membedakan antara subjek yang
berkemampuan tinggi dari subjek
yang berkemampuan rendah.
Tes Teori Klasik Teori Respon Aitem (TRA) Teori Generalisasi
(TTK) (TG)

Kelebihan ● Analisis lebih ● Parameter butir dan peserta tes ● Mampu menganalisa
sederhana, mudah tidak saling mempengaruhi, berbagai macam
dipahami sehingga memungkinkan melihat error/kesalahan yang
● Pemahamannya kontribusi sewaktu butir tsb terjadi dalam suatu
tidak menuntut ditambahkan atau dikurangi pada pengukuran dan
pengetahuan suatu perangkat dianalisa dalam satu
mendalam ● Memungkinkan peneliti untuk waktu
mengenai fungsi melakukan pengukuran yang
distribusi statistik sangat cermat pada
dan model-model kelompok-kelompok yang
matematiknya ekuivalen namun berbeda kultur
● Sampel yang sehingga dapat diketahui ada
diperlukan bisa bias atau tidak pada hasil
lebih sedikit pengukuran tsb.
dibandingkan
dengan TRA
Tes Teori Klasik Teori Respon Aitem Teori Generalisasi (TG)
(TTK) (TRA)

Kekurangan ● Parameter ● Analisis lebih ● Reliabilitas tes adalah fungsi


tergantung pada kompleks, dan tidak dari keadaan di mana suatu
sampel praktis tes dikembangkan, diujikan,
● Skor mentah dan diinterpretasikan, maka
memiliki makna Generalisasi belum dapat
kuantitatif yang menggantikan TTK karena
lemah reliabilitas suatu tes tidak
berada di dalam tes itu
sendiri
Faktor yang Mempengaruhi Koefisien Reliabilitas
Karena reliabilitas biasanya dinyatakan
sebagai koefisien korelasi, keempat faktor ini
dapat mempengaruhi data reliabilitas:

1. Heteroskedastisitas (heteroscedasticity), Fakta bahwa korelasi adalah masalah posisi


semakin heterogeneous item dalam relatif daripada masalah skor absolut,
sebuah tes, semakin rendah koefisien bukanlah hal yang signifikan untuk
reliabilitas suatu tes. reliabilitas.
2. Variabilitas kelompok, semakin besar
perbedaan individual dalam kelompok, Kelengkungan(curvilinearity), seberapa
semakin reliabel tes tersebut. lengkung sebuah grafik, umumnya tidak
menjadi masalah untuk data reliabilitas.
Faktor yang Mempengaruhi Koefisien Reliabilitas
Robert M Thorndike

1. Variabilitas kelompok yang diberikan tes


2. Level kelompok yang diberikan tes, koefisien reliabilitas yang
diperoleh hanya dapat diaplikasikan pada sampel dengan karakteristik
yang sama/mirip.
3. Panjang tes, semakin panjang tes semakin reliabel suatu tes
4. Teknik atau rumus yang digunakan untuk menghitung reliabilitas
Seberapa Tinggi Seharusnya Reliabilitas?
Tidak ada jawaban sederhana untuk pertanyaan tsb, selain: “Itu tergantung”.
ketika kontribusi tes adl besar terhadap
keputusan penting: penempatan ujian lisensi
profesional, klasifikasi seseorang sebagai
penyandang disabilitas intelektual dalam kasus
forensik.

Ketika reliabilitas berada di dalam


kisaran ini, informasi lainnya harus
melengkapi skor tes. Dengan asumsi
informasi lain memiliki reliabilitas yang
cukup baik, kombinasi informasi ini
penggunaan skor tes akan meningkatkan reliabilitas.
dibatasi hanya untuk membutuhkan konsiderasi yang
penggunaan penelitian. hati-hati dan tentunya harus
dilengkapi dengan informasi
lainnya
Ringkasan
1. Reliabilitas, salah satu konsep terpenting dalam pengujian, berkaitan dengan konsistensi atau replikasi nilai tes.
2. Perbedaan antara reliabilitas dan validitas, rasa keterandalan psikometri (the psychometric sense of reliability)
dan beberapa penggunaan istilah sehari-hari, perubahan nyata dan fluktuasi sementara dalam pengukuran, dan
kesalahan konstan dan kesalahan tidak sistematis.
3. Koefisien korelasi (r) adalah metode yang paling umum untuk menyatakan reliabilitas; karenanya, penting untuk
memahami korelasi dan faktor yang mempengaruhinya.
4. Sumber utama dari varians yang tidak reliabel penilaian tes, konten tes, kondisi administrasi tes, dan kondisi
pribadi peserta ujian.
5. Teori tes klasik menggunakan konsep skor sebenarnya, skor kesalahan, dan skor observasi.
6. Di antara metode yang umum digunakan untuk menentukan reliabilitas adalah tes-ulang, bentuk alternatif,
antar-skor, dan beberapa jenis ukuran konsistensi internal. Setiap metode menangani beberapa, tetapi tidak
semua, sumber ketidak-reliabilitas
Ringkasan
Thank You

Anda mungkin juga menyukai