Anda di halaman 1dari 21

Kelompok 2

RELIABILITAS DAN VALIDITAS


Wa Ode Rifana Ali
Nur Istiqama
Moh. Fikri haykal
Nurfadila Sapsuha
Muhammad Akbar
Melanie Kristiantari
Sejarah dan Teori Reliabilitas

• Reliabilitas berasal dari kata reliability. Pengertian dari


reliabilitas adalah keajegan pengukuran (Walizer, 1987).
Sugiharto dan Situnjak (2006) menyatakan bahwa
instrumen yang digunakan dalam penelitian untuk
memperoleh informasi yang digunakan dapat dipercaya
sebagai alat pengumpulan data dan mampu
mengungkap informasi yang sebenarnya dilapangan.
Dalam penelitian, reliabilitas adalah sejauh mana
pengukuran dari suatu tes tetap konsisten setelah
dilakukan berulang-ulang terhadap subjek dan dalam
kondisi yang sama. Penelitian dianggap dapat diandalkan
bila memberikan hasil yang konsisten untuk pengukuran
yang sama. Tidak bisa diandalkan bila pengukuran yang
berulang itu memberikan hasil yang berbeda-beda.
Model Domain Sampling

• Model domain sampling merupakan konsep


sentral lainnya dalam teori tes klasik. Model
ini mempertimbangkan masalah yang
terbentuk dengan menggunakan jumlah item
yang terbatas untuk mewakili konstruk yang
lebih luas dan kompleks. Tugas kita dalam
analisis reliabilitas ialah untuk memperkirakan
berapa besar kesalahan yang akan kita buat
dengan menggunakan skor dari tes yang lebih
singkat sebagai perkiraan kemampuan yang
sebenarnya.
Teori Respon Item

• Teori respon item merupakan salah satu cara untuk


menilai kelayakan butir dengan membandingkan
rata-rata penampilan butir terhadap tampilan bukti
kemampuan kelompok yang diramalkan oleh
model. Tujuan utama teori respon butir
dikembangkan adalah untuk mengatasi kelemahan
teori tes klasik yang tidak independent terhadap
kelompok peserta yang mengerjakan tes maupun
terhadap tes yang diujikan. Menurut Hambleton
dan Swaminathan dalam Depdiknas (2007 : 19)
menyatakan bahwa tujuan utama teori respon item
adalah memberikan kesamaan antara statistik soal
dan estimasi kemampuan peserta didik.
Ada empat macam model IRT yaitu :
• (1) model satu parameter (Model Rasch), yaitu untuk
menganalisis data yang hanya menitikberatkan pada
parameter tingkat kesukaran coal.
• (2) model dua parameter, yaitu untuk menganalisis data
yang hanya menitikberatkan pada parameter tingkat
kesukaran dan daya pembeda soal,
• (3) model tiga parameter, yaitu untuk menganalisis data
yang menitikberatkan pada parameter tingkat kesukaran
soal, daya pembeda soal, dan menebak (guessing),
• (4) model empat parameter, yaitu untuk menganalisis
data yang menitikberatkan pada parameter tingkat
kesukaran soal, daya beda soal, menebak, dan penyebab
lain
Jenis-jenis Reliabilitas
• 1. Relibilitas stabilitas. Menyangkut usaha memperoleh nilai yang
sama atau serupa untuk setiap orang atau setiap unit yang diukur
setiap saat anda mengukurnya. Reliabilitas ini menyangkut
penggunaan indicator yang sama, definisi operasional, dan prosedur
pengumpulan data setiap saat, dan mengukurnya pada waktu yang
berbeda. Untuk dapat memperoleh reliabilitas stabilitas setiap kali
unit diukur skornya haruslah sama atau hampir sama.

• 2. Reliabilitas ekivalen. Menyangkut usaha memperoleh nilai relatif


yang sama dengan jenis ukuran yang berbeda pada waktu yang
sama. Definisi konseptual yang dipakai sama tetapi dengan satu
atau lebih indicator yang berbeda, batasan-batasan operasional,
paeralatan pengumpulan data, dan / atau pengamat-pengamat. 
Metode Pengujian Reliabilitas
• a. Teknik Paralel (Paralel Form atau Alternate Form)
Teknik paralel disebut juga tenik ”double test double trial”. Sejak awal peneliti harus sudah
menyusun dua perangkat instrument yang parallel (ekuivalen), yaitu dua buah instrument
yang disusun berdasarkan satu buah kisi-kisi. Setiap butir soal dari instrument yang satu
selalu harus dapat dicarikan pasangannya dari instrumen kedua. Kedua instrumen tersebut
diujicobakan semua. Sesudah kedua uji coba terlaksana, maka hasil instrumen tersebut
dihitung korelasinya dengan menggunakan rumus product moment (korelasi Pearson).

• b. Teknik Ulang (Test Re-test)


Disebut juga teknik ”single test double trial”. Menggunakan sebuah instrument, namun
dites dua kali. Hasil atau skor pertama dan kedua kemudian dikorelasikan untuk
mengetahui besarnya indeks reliabilitas.Teknik perhitungan yang digunakan sama dengan
yang digunakan pada teknik pertama yaitu rumus korelasi Pearson. 

• c. Teknik Belah Dua (Split Halve Method)


Disebut juga tenik “single test single trial”. Peneliti boleh hanya memiliki seperangkat
instrument saja dan hanya diujicobakan satu kali, kemudian hasilnya dianalisis, yaitu
dengan cara membelah seluruh instrument menjadi dua sama besar. Cara yang diambil
untuk membelah soal bisa dengan membelah atas dasar nomor ganjil-genap, atas dasar
nomor awal-akhir, dan dengan cara undian. 
Formula Rulon
Rulon (1939) merumuskan suatu formula untuk
mengestimasi reliabilitas belah-dua tanpa perlu
berasumsi bahwa kedua belahan mempunyai varians
yang sama. Menurut Rulon, perbedaan subjek pada
kedua belahan tes akan membentuk distribusi
perbedaan skor dengan varians yang besarnya
ditentukan oleh varians eror masing-masing belahan.
Karena varians eror keseluruhan tes, maka varians eror
tes ini dapat diestimasi lewat besarnya varians
perbedaan skor diantara kedua belahan. Dengan
demikian, dalam melakukan estimasi terhadap
reliabilitas tes, varians perbedaan skor inilah yang perlu
diperhitungkan sebagai sumber eror.
Formula KR
• Rumus KR 20 adalah rumus untuk uji reliabilitas
item yang mirip dengan cronbach alpha. Rumus
ini pertama kali dipublikasikan pada tahun 1937.
• Apabila cronbach alpha dapat digunakan untuk
item soal dengan pilihan jawaban lebih dari 2,
maka rumus KR 20 hanya untuk item soal dengan
pilihan jawaban 2 macam atau yang disebut
dengan dikotomi.
Koefisien Alfa
• Rumus KR20 tidak tepat untuk mengevaluasi konsistensi internal pada beberapa
kasus. Rumus KR20 memerlukan Anda mencari proporsi individu yang dapat
menjawab item dengan “benar”. Ada berbagai jenis tes, ada tes yang tidak
memiliki j awaban yang benar dan salah seperti banyak skala sikap dan
kepribadian. Misalnya, pada kuesioner sikap, Anda mungkin dihadapkan pada
pernyataan seperti, “Saya meyakini hubungan badan di luar pernikahan
merupakan tindakan tidak bermoral.” Anda harus memilih apakah Anda sangat
tidak setuju, tidak setuju, netral, setuju, atau sangat setuju. Tidak ada salah satu
pilihan jawaban ini yang benar ataupun salah. Jawaban Anda mengindikasikan
sikap Anda dalam kontinum setuju dan tidak setuju. Untuk menggunakan
metode Kuder-Richardson dengan jenis item seperti ini, Cronbach
mengembangkan rumus yang memperkirakan konsistensi internal tes dengan
item yang tidak dinilai 0 atau l (benar atau salah). Dalam melakukannya,
Cronbach mengembangkan perkiraan reliabilitas yang lebih umum yang dikenal
dengan koeiisien alfa (coefficient alpha) atau a. Rumus koefisien alfa ialah4
Pendekatan-Pendekatan Estimasi Reliabilitas
• Pendekatan Tes-Retes. Pendekatan ini mengestimasi reliabilitas tes dengan
melakukan tes ulang, kemudian mengkorelasikan hasil tes pertama dengan
hasil tes kedua. Hasil korelasi ini yang merupakan estimasi reliabilitasnya,
sering juga disebut sebagai koefisien stabilitas atau keajegan. Jadi definisi
reliabilitas =keajegan hanya berlaku untuk pendekatan ini.
• Pendekatan Tes Paralel, pendekatan ini mengestimasi reliabilitas dengan
menggunakan dua tes paralel, dua tes yang mengukur hal /konstruk yang
sama, kemudian mengkorelasikan hasil pengetesan dari tes pertama dengan
hasil tes paralelnya. Koefisien korelasi yang didapatkan disebut juga koefisien
ekuivalensi
• Pendekatan Konsistensi Internal, pendekatan ini mengestimasi reliabilitas
dengan membelah tes menjadi beberapa bagian, lalu "mengkorelasikan"
bagian-bagian tersebut. "Korelasi" di sini sebenarnya tidak benar-benar
mengkorelasikan bagian-bagian secara harafiah, tapi menggunakan formula-
formula yang dikembangkan untuk mengestimasi reliabilitasnya. Koefisien yang
diperoleh dinamai juga koefisien konsistensi internal. Pendekatan inilah yang
paling sering digunakan selama ini karena lebih praktis dan ekonomis.
Meskipun demikian pendekatan ini tidak dapat mengestimasi error yang
diakibatkan oleh keadaan temporer karena hanya dilakukan satu kali.
Reliabilitas Dalam Penelitian Observasi Tingkah Laku

• Psikolog dengan orientasi prilaku (behavioral orientation) biasanya tidak


menyukai menggunakan tes psikologi. Mereka lebih suka melakukan observasi
langsung terhadap prilaku. Untuk mengukur agresi, misalnya, mereka akan
mencatat berapa kali anak memukul atau menendang anak lainnya. Pengamat
akan menabulasi jumlah respons yang dapat diobservasi dalam setiap kategori.
Oleh karena itu, akan ada skor tersendiri bagi kata “memukul”, “menemdang”,
dan lainnya.

• Pada praktiknya, sistem observasi prilaku sering kali tidak reliabel karena
perbedaan antara skor sebenarnya dan skor yang dicatat oleh pengamat.
Sebagai contoh, seorang pengamat melewatkan 1 atau 2 kali anak memukul
atau menendang; pengamat lain mencatat semua prilaku tersebut. Masalah
kesalahan yang berhubungan dengan pengamat yang berbeda memberikan
kesulitan yang unik. Untuk memeriksa masalah ini, kita butuh memperkirakan
reliabilitas pengamat (Cordes, 1994). Perkiraan reliabilitas tersebut memiliki
banyak nama, termasuk reliabilitas antar penilai (interater), antar penyekor
(interscorer), antar pengamat (interobserver), dan antar penguji (interjudge).
Semua istilah tersebut memperhitungkan konsistensi antara pengamat yang
berbeda yang mengevaluasi tingkah laku yang sama.
Menghubungkan Sumber Kesalahan Dengan Metode Pengukuran Reliabilitas

Sumber Kesalahan Contoh Metode Cara Mengukur

Tes yang sama diberikan pada 2


Pemilihan waktu Tes-retes korelasi antara nilai yang diperoleh pada 2 waktu
waktu yang berbeda

Item-item yang berbeda


Bentuk pengganti- Korelasi antara bentuk tes yang setara namun memiliki item yang
Pemilihan item digunakan untuk mengukur
Bentuk paralel berbeda
atribut yang sama

1. Belah-separuh 1. Korelasi yang diperbaiki antara setengah bagian tes


Konsistensi Konstitensi item-item dalam
2. KR 2. Lihat apendiks 4.2
internal tes yang sama
3. Alfa 3. Lihat apendiks 4.1

Penguji tes yang Perbedaan pencatatan oleh


Statistik kappa Lihat fleiss (1901)
berbeda penguji
APENDIK 4.1 MENGGUNAKAN KOEFISIEN ALFA UNTUK MEMPERKIRAKAN RELIABILITAS BELAH SEPARUH KETIKA VARIANS U
Rumus : a= 2[ S x2  ( S y21  S y22 ]
S x2
x  11,5
2
S

S
2
y1  4,5

2
y2  3,2 S

APENDIKS 4.2 : PERHITUNGAN RELIABILITAS MENGGUNAKAN KR

20

N  S:   pq 
2

20 
Rumus KR
N  1  S2 

Data :
NS = jumlah peserta tes = 50
N = jumlah item = 6
2 S
= varians (langkah 6) = 2,8
Validitas
• Validitas berasal dari kata validity yang mempunyai arti sejauh mana
ketepatan dan kecermatan suatu alat ukur dalam melakukam fungsi
ukurannya (Azwar 1986). Selain itu validitas adalah suatu ukuran
yang menunjukkan bahwa variabel yang diukur memang benar-
benar variabel yang hendak diteliti oleh peneliti (Cooper dan
Schindler, dalam Zulganef, 2006).
• Sedangkan menurut Sugiharto dan Sitinjak (2006), validitas
berhubungan dengan suatu peubah mengukur apa yang seharusnya
diukur. Validitas dalam penelitian menyatakan derajat ketepatan alat
ukur penelitian terhadap isi sebenarnya yang diukur. Uji validitas
adalah uji yang digunakan untuk menunjukkan sejauh mana alat
ukur yang digunakan dalam suatu mengukur apa yang diukur.
Ghozali (2009) menyatakan bahwa uji validitas digunakan untuk
mengukur sah,  atau valid tidaknya suatu kuesioner. Suatu kuesioner
dikatakan valid jika pertanyaan pada kuesioner mampu untuk
mengungkapkan sesuatu yang akan diukur oleh kuesioner tersebut.
Validitas Tampilan
Validitas tampilan ( face validity) hanya memperlihatkan sebuah pengukuran memiliki
validitas melalui tampilannya. Kami sering menyebutnya sebuah tes memiliki validitas
tampilan apabila item-item memilki hubungan yang masuk akal dengan tujuan tes yang
diinginkan.
Validitas Berdasarkan Bukti Yang Berkaitan Dengan Isi
Pada umumnya,evidensi validitas isi menitik beratkan pada pengukuran dalam bidang
pendidikan. Banyak faktor yang membatasi performa tes anda mengenai sejarah yang
diharapkan anda ketahui. Banyak faktor yang membatasi performa anda pada tes sejarah,
sehingga kesimpulan dosen mengenai pengetahuan anda menjadi kurang valid. Faktor faktor
tersebut meliputi karakteristik item dan pengambilan sempel item
Validitas berdasarkan bukti yang berkaitan dengan kriteria
Evidensi validitas kriteria memberitahu kita seberapa baik tes berkesesuaian dengan kriteria
tertentu. Beberapa bukti dihadirkan oleh korelasi antara tes dan pengukuran kriteria yang
terdefinisi dengan baik. Kriteria adalah standar yang mengikuti tes yang diperbandingkan.
Misalnya, tes pranikah digunakan untuk memprediksi pasangan manakah yang akan memiliki
pernikahan yang sukses dan manakah yang akan bercerai. Kesusksesan pernikahan adalah
kriterianya, tetapi kriteria tersebut tidak dapat diketahui saat pasangan mengerjakan tes
pranikah. Alasan untuk mendapatkan bukti validitas kriteria adalah tes atau pengukuran
digunakan sebagai dasar untuk pengukuran yang sebenarnya kita inginkan.
Evidensi Prediktif dan Konkuren
. Misalnya, SAT digunakan sebagai sebuah bukti validitas prediktif dalam tes penerimaan
mahasiswa baru apabila tes ini memprediksi secara akurat seberapa baik siswa sekolah
menengah atas akan berperilaku selama masa berkuliah di perguruan tinggi. Tujuan dari tes
adalah untuk memprediksi kesuksesan dari kriteria sehingga akan mendapatkan GPA yang
tinggi saat kuliah.
Koefisien Validitas
Koefisien ini memberitahukan besarnya tes yang valid dalam membuat pernyataan mengenai
kriteria. Kuadrat koefisien validitas adalah persentase variasi dari kriteria yang diharapkan
dapat diketahui nantinya berdasarkan pengetahuan atas nilai tes.
Mengevaluasi Koefisien Validitas
Makna dari kriteria adalah studi valid yang berkaitan dengan kriteria menjadi tidak berarti
sama sekali, kecuali kriterianya menjadi valid dan reliabel. Beberapa pembuat tes berusaha
menghubungkan tes mereka dengan tes lain yang tidak diketahui validitasnya. Sekelompok
item yang tidak memiliki makna yang berkolerasi baik dengan sekelompok item tidak bermakna
lainnya akan tetap menjadi tidak bermakna.
Meninjau populasi Subjek pada studi validitas
Alasan lain yang harus diperhatikan dari koefisien validitas adalah studi validitas dapat
diselesaikan pada populasi yang tidak merepresentasikan kelompok pada waktu kesimpulan
dibuat. Misalnya, bebrapa penelitian telah berdebat apakah koefisien validitas untuk intelegensi
dan tes karyawan yang didasarkan pada sampel orang kulit putih akurat ketika digunakan untuk
mengetes siswa Afrika Amerika.
Pastikan jumlah sampel mencukupi
Masalah lain yang harus dilihat adalah koefisien validitas yang didasarkan pada jumlah kasus
yang sedikit. Terkadang, penelitian mengenai validitas yang baik tidak dapat dilakukan karena
terlalu sedikit orang yang mengikuti penelitian. Penelitian validitas yang baik akan
mempresentasikan beberapa bukti untuk validitas silang. Semakin banyak jumlah sampel pada
studi pendahuluan, akan semakin memungkinkan hubungan tersebut pada validitas silang.
Dalam pengujian validitas terhadap kuesioner, dibedakan menjadi 2
• Validitas faktor diukur bila item yang disusun menggunakan
lebih dari satu faktor (antara faktor satu dengan yang lain ada
kesamaan). Pengukuran validitas faktor ini dengan cara
mengkorelasikan antara skor faktor (penjumlahan item dalam
satu faktor) dengan skor total faktor (total keseluruhan
faktor).
• Validitas item ditunjukkan dengan adanya korelasi atau
dukungan terhadap item total (skor total), perhitungan
dilakukan dengan cara mengkorelasikan antara skor item
dengan skor total item. Bila kita menggunakan lebih dari satu
faktor berarti pengujian validitas item dengan cara
mengkorelasikan antara skor item dengan skor faktor,
kemudian dilanjutkan mengkorelasikan antara skor item
dengan skor total faktor (penjumlahan dari beberapa faktor).
Hubungan Antara Reliabilitas dan Validitas

Berusaha untuk mendefinisikan validitas tes dapat menjadi sia-sia apabila tes tidak
reliabei. Secara teoretis, tes seharusnya tidak berkorelasi lebih tinggi dengan variabel lain

daripada korelasi dengan tes itu sendiri. Koefisien validitas maksimal (r12max)antara dua
variabel sama dengan akar dari perkalian reliabilitas masing-masing, atau r 12max = √r11 r22
dengan r11 : dan r22 adalah reliabilitas untuk dua variabel. Karena koefisien validitas
biasanya tidak diharapkan bernilai sangat tinggi, korelasi yang biasa saja antara nilai asli
pada dua karekteristik dapat saja terlewatkan apabila tes untuk masing-masing
karekteristik tidak memiliki reliabilitas tinggi. Tabel 5.1 menunjukkan validitas maksimal
yang dapat diharapkan untuk memberikan berbagai tingkat rehabilitas untuk dua tes.
Pe
Terkadang, kita tidak dapat menunjukkan
mili tes yang reliabel memiliki makna.
han vali
Wa dita
Inte ktu s
rnal 10% 16%
14%

Tak
Terj
elas
kan
60%
Reliabiliias dan validitas adalah konsep yang berhubungan. Figur 5.2 membagi 101: Variasi
dari sebuah nilai tes menjadi bagian yang bcrbeda-beda. Contoh yang digunakan adalah tes
dengan koefisien validitas 0,40. Apabila kita menganggap total variabilitas beberapa
pengukuran seperti performa di perguruan tinggi, setidaknya 16 persen variasi dapat
dijelaskan oleh performa perkiraan tes. Selain itu, juga terdapat variasi pada nilai, bagian
yang dijelaskan oleh kesalahan pengukuran.