Anda di halaman 1dari 27

BAB I

PENDAHULUAN

A. Latar Belakang
Salah satu aspek positif yang ada di Indonesia, adalah muncul
banyaknya para peneliti-peneliti muda yang kini lebih kritis lagi dalam
meneliti objek-objek yang ada. Di Indonesia, banyak sekali para peneliti
ataupun bukan peneliti yang banyak melakukan sebuah riset guna
memenuhi tugas ataupun sebagai pembuktian dari sebuah kejadian. Yang
dimana setiap penelitian tersebut biasanya memerlukan sebuah pengujian
agar nantinya mampu menjadi sebuah hasil ilmiah yang benar-benar valid
dan bersifat real tanpa adanya kebohongan ataupun ketidaknyataan yang
mengesankan data yang diperoleh bersifat dibuat-buat. Agar kajian kita
bisa bersifat real maka kita sebagai seorang peneliti harus menguji terlebih
dahulu hasil penelitian kita yang disebut uji reliabilitas.
Kebanyakan dari kita mengira bahwa jika kita mempunyai
kesimpulan dari hasil penelitian kita terhadap kejadian-kejadian yang
terbatas, maka kesimpulan itu berlaku dengan sempurna untuk seluruh
kejadian yang sejenis. Perkiraan semacam itu belum tentu benar, untuk
menghindari hal-hal yang semacam itu maka kita harus melakukan
reliabilitas, yang berguna untuk menunjukkan kevalidan data dari hasil
sebuah penelitian yang kita lakukan.
Reliabilitas mampu menunjukkan tingkat kepercayaan terhadap
skor sesungguhnya. Reliabilitas ini bisa dicapai melalui tingkat kecocokan
di antara skor pada lebih dari sekali pengukuran. Jika makin cocok dengan
skor sesungguhnya maka makin tinggi tingkat reliabilitasnya. Kalaupun
ada ketidakcocokan itu merupakan kekeliruan yang acak. Jadi
kemungkinan munculnya kesalahan masih tetap ada, namun kemungkinan
itu sangatlah kecil sekali dan tidak akan banyak berpengaruh terhadap
hasil akhir dari sebuah pengujian.

1
B. Rumusan Masalah
1. Apa pengertian Reliabilitas?
2. Apa saja model-model Reliabilitas?
3. Apa itu teori respons item?
4. Apa pengertian dan aspek-aspek dari Validitas?

C. Tujuan Penulisan
1. Untuk mengetahui apa yang dimaksud Reliabilitas
2. Untuk mengetahui Model-model Reliabilitas
3. Untuk mengetahui Teori Respons Item
4. Dan untuk mengetahui pengertian serta aspek-aspek dari Validitas

2
BAB II
PEMBAHASAN
A. Reliabilitas
1. Sejarah dan Teori Reliabilitas
Dalam psikologi, tugas pengukuran lebih sulit. Pertama, penelilti
jarang sekali tertarik untuk mengukur kualitas yang sederhana seperti
lebar suatu benda. Mereka biasanya tertarik pada sifat-sifat yang
kompleks seperti intelegensi atau agretivitas, sesuatu yang tidak dapat
dilihat dan disentuh. Lebih jauh, tanpa penggaris yang dapat mengukur
karakteristik tersebut, peneiti harus menggnakan “penggaris karet” ;
penggaris ini dapat mengulr untuk melebihkan perkiraan beberapa
pengukuran dan memendek untuk merendahkan perkiraan pengukuran
lainnya (Mislevy, 2002; Bootzin & McKnight, 2006). Psikolog harus
memeriksa alat ukur mereka untuk menentukan seberapa “mengaretkah”
alat tersebut. Seorang psikolog yang berusaha memahami perilaku
manusia dengan berdasarkan tes yang tidak reliebel seperti tukang kayu
yang mencoba untuk membangun rumah dengan alat pengukur karet yang
tidak pernah mencatat panjang yang sama untuk potongan papan yang
sama.
Teori kesalahan pengukuran berkembang dengn baik dalam
psikologi. Bukan berarti kesalahn pengukuran hanya terdapat dalam
psikologi. Faktanya, kesalahan pengukuran yang serius terjadi pada
sebgian besar ilmu pasti, sosial, dan biologi. Misalnya sebagai contoh,
pengukuran produksi kotor nasional (ekonomi) dan tekanan darah
(kedokteran) diketahui kurang reliabel dibanding ts psikologi yang
disusun dengan baik.
Psikologi berutang pengembangan tingkat lanut pemeriksaan
reliabilitas dari penelitian awal seorang psikolog inggris, Charles
Spearman. Pada tahun 1733, Abraham De Moivre mengenalkan
pengertian dasar dari kesalahan pengambilan sampel (samplling error)

3
(Stanley, 1971) dan ditahun 1896, Karl Person mengembangkan korelasi
product moment. Teori reliabilitas menempatkan dua konsep ini bersama
dalam konteks pengukuran. Pearson Kontemporer, Spearman sebenarnya
mengerjakan sebagian dasar teori reiabilitas kontemporer dan menerbitkn
hasil kerjanya pada tahun 1904 dalam sebuah artikel yang berjudul “The
Proof and Measurement of Association between Two Things”. Karena
British Journal of Psychology baru ada tahun 1907, pekerjan Spearman
dengan cepat dikenal di Amerika Serikat. Artikel ini menarik perhatian
pionir pengukuran Edward L. Thorndike yang kemudian menulis edisi
pertama An Introduction to the Theory of Mental and Social
Measurements (1904).
Buku Thorndike sanga kompeleks, bahkan oleh standar
kontemporer. Sejak tahun 1904, banyak perkembangan pada kedua sisi
Lautan Atlantik telah membawa perbaikan lebih jauh dalam pemeriksaan
reliabilitas. Perkembangan yang paling penting diantara perkembangan
tersebut ialah artikel artikel Kuder dan Richardson pada tahun 197 yang
mengenalkan beberapa koefisien reliabilitas. Kemudian, cronbach dan
rekan rekannya membuat kemajuan besar dengan mengembangkan
metode-metode untuk mengevaluasi banyak sumber kesalahan dalam
penelitian perilaku. Teori reliabilitas terus berkembang. Di masa sekarng,
model matematis yang kompleks telah dikembangkan untuk
menguantifikasi variabel “laten” berdasarkan beberapa pengukuran
(Bartholomew & Knott, 1999; Bentler, 1990, 1991, 1994). Lebih baru
lagi, teori respons item telah memperoleh keuntungan dari teknologi
komputer untuk meningkatkan pengukuran psikoogis secara signifikan
(Drasgow & Olson-Buchanan, 1999; McDonald, 1999;Michell, 1999).
Akan tetapi itu semua dibentuk berdasarkan banyak ide Spearmn beberap
tahun yang lalu.
- Dasar-dasar Teori Skor Tes
Teori skor tes klasik mengasumsikan bahwa setiap orang memiliki
skor yang sebenarnya yang akan diproleh bila tidak ada kesalahan dalam

4
pengukuran. Akan tetapi, karena alat ukur tidaklah sempurna, skor yang
diperoleh bagi setiap orang hampir selalu berbeda dari kemampuan atau
karakteristik sebenarnya. Perbedaan antara skor yang sebearnya dan skor
yang diperloeh dari pengukuran disebabkan adanya kesalahan pengukuran.
Skor yang diperoleh dari pengukuran disimbolkan (X), memiliki dua
komponen, yaitu skor yang sebenarya (T), dan komponen kesalahan (F),
dirumuskan sebagai berikut :
X=T+E
Atau kita dapat mengatakan bahwa perbedaan antara skor yang kita
peroleh dan yang kita inginkan sama dengan kesalahan pengukuran,
sebaga berikut :
X–T=E
Sebuah asumsi dasar dalam teori tes klasik ialah kesalahan pengukuran
bersifat acak. Seorang tukang kayu yang selalu salah membaca alat
pengukur sebanyak 2 inci akan tetap dapat memotong papan dengan
panjang yang sama. Menggunakan analogi pengukur karet, kita dapat
mengatakan bahwa tukang kayu tersebut bekerja enggunakan penggaris
yang selalu lebih panjang 2 inci. Teori tes klasik, bagaimanapun, dapat
mengatasi masalah pengukur karet ketika pengukur tersebut mengulur dan
memendek secara acak.
Menggunakan pengukur karet, kita tidak akan memperoleh nilai yang
sama untuk setiap pengukuran yang dilakukan. Kita akan memperoleh
penyebaran nilai seperti yang terlihat pada figur 1. Teori dasar sampling
memberitahukan kita bahwa distribusi kesalahan acak bentuknya seperti
lonceng. Oleh karena itu, pusat distribusi menunjukkan skor yang
sebenarnya, dan sebaran disekitar rerata distribusi menunjukkan kesalahan
sampling.

5
FIGUR 1. Distribusi skor pengukuran untuk pengujian berulang
pada orang yang sama rerata distribusi merupakan skor yang sebenarnya,
dan sebran menunjukkan s=distribusi kesalahan acak.

Lalu, di figur 2 menunjukkan tiga distribusi yang berbeda.


Distribusi di sebelah kiri terdapat sebaran yang besar disekitar skor yang
sebenarnya. Dalam kasus seperti ini, anda tidak dapat berpegang pada satu
kali pegukuran karena hasil pengukuran tersebut dapat jauh berbeda dari
skor sebenarnya. Distribusi disebelah kanan menunukkan sebaran kecil di
sekitar skor sebenarnya. Dalam kasus seperti ini, hasil sebagian besar
pengukuran sangat mendakati skor sebenarnya, sehingga penarikan
kesimpulan dari pengukuran yang lebih sedikit menghasilkan kesalahn
yang lebih sedikit dibandingkan kurva disebelah kiri.

FIGUR 2. Tiga distribusi nilai pengukuran. Distribusi sebelah kiri


menunukkan kesalah yang paling besar dan distribusi di sebelah kanan
menunjukkan kesalan yang paling sedikit.

Sebaran disekitar skor sebenarnya pada figur1 dan 2 memberitahu


kia berapa banyak kesalahan yang terjadi dalam pengukuran. Teori tes
klasik berasumsi bahwa sebenarya individu tidak akan berubah dengan

6
pemberian tes yang sama secara berulang. Akan tetapi, karena kesalahan
acak, pemberian tes yang sama secara berulang akan menghasilkan skor
yang berbeda. Kesalah acak bertanggung jawab bagi distribusi skor yang
diperlihatkan pada figur 1 dan 2. Secara teoritis simpangan baku distribusi
kesalahan bagi setiap orang menunjukkan derajat kesalahn pengukuran.
Karena ita biasanya engasumsikan distribusi kesalahan acak akan sama
bagi semua orang, teori tes klasik menggunakan simpangan bau kesalahan
sebagai pengukuran dasar kesalahan. Biasanya disebut kesalahan standar
pengukuran (standard error of measurement).

σ meas

Analogi pengukur karet dapat membantu nda untuk memahami


konsep tersebut. Seumpama anda memiliki sebuah meja yang tingginya 30
inci. Anda mengukur tinggi meja tersebut beerapa kali menggunakan
pengukur besi dan selalu memperoleh hasil pengukuran yag sama, yakni
30 inci. Selanjutnya, anda mencoba untuk mengukur meja tersebut dengan
mengunakan pengukur karet. Pada percobaan pertama, pengukur tersebut
mengulur dan anda encatat hasil pengukuran sebesar 28 inci. Percobaan
berikutnya, pengukur tersebut menciut dan anda emperoleh hasil
penguuran 32inci. Sekarag, anda dalam masalah karenna penguran
berulang menggunakan pengukur karet terebut selalu memberikan
informasi yang berbeda engenai tinggi meja yang diukur.

Ada satu jalan keluar dari masalah ini. Anggap saja pengukur karet
tersebut memanjang dan memendek secara acak, anda dapat mengatakan
distribusi skor yang diperoleh merupakan distribusi normal. Sebagian
besar skor akan mendekati skor aktual atau skor sebenarnya. Skor yang
sangat jauh berbeda akan lebih jarang terjadi, sehingga anda akan jarang
memperoleh nilai serendah 5 inci atau setinggi 5 inci. Rerata distribusi
skor dari pengukuran berulang menggunakan pengukur karet dapat
memperkirakan tinggi meja bahwa simpangan baku memberitahukan kita

7
sesuatu mengenai rata-rata deviasi di sekitar rerata. Kesalah standar
pengukuran memberitahu kita, pada rata-rata. Seberapa besar variasi skor
hasil pengukuran dari skor sebenarnya. Dalam praktiknya, simpangan baku
dari skor pengukuran dan reliabilitas tes digunakan untuk memperkirakan
kesalaan standar pengukuran

2. Model Domain Sampling


Model domain sampling merupakan konsep sentral lainnya dalam
teori tes klasik. Model ini mempertimbangkan masalah yang terbentuk
dengan menggunakan jumlah item yang terbatas untuk mewakili konstruk
yang lebih luas dan kompleks. Sebagai contoh, seumpama kita ingin
mengevaluasi kemampuan pengejaan anda. Teknik yang paling baik ialah
melihat kamus, yaitu meminta anda mengeja seyiap kata dan kemudian
menentukan peresentase pengejaan anda yang benar. Akan tetapi, kita
tidak memiliki banyak waktu untuk pengukuran tersebut. Kita perlu
menemukan cara untuk mengevaluasi kemampuan pengejaan anda tanpa
meminta anda mengeja semua kata di dalam kamus. Untuk memperoleh
evaluasi ini, kita memutuskan untuk menggunakan sampel beberapa buah
kata. Ingat bahwa apa yang berusaha kita peroleh ialah seberapa baik
anda dapat mengeja yang dapat ditentukan dengan persentase ejaan anda
yang benar jika anda diberikan semua kata yang ada dalam bahasa
Inggris. Persentase ini akan menjadi “skor yang sebenarnya”. Tugas kita
dalam analisis reliabilitas ialah untuk memperkirakan berapa besar
kesalahan yang akan kita buat dengan menggunakan skor dari tes yang
lebih singkat sebagai perkiraan kemampuan anda yang sebenarnya.
Model ini mengonseptualisasi reliabilitas sebagai perbandingan
antara varians skor pengukuran dari tes yang lebih singkat dan varians
skor sebenarnya yang lebih lama. Pengukuran dalam model domain
sampling merupakan kesalahan yang dikenalkan dengan menggunakan
sampel item (atau kata-kata dalam pengukuran ini) daripada keseluruhan
domain. Semakin besar jumlah sampel, semakin akurat mewakili domain.

8
Hasilnya semakin besar jumlah item, semakin tinggi reliabilitas. Bagian
berikutnya dari bab ini akan menjelaskan mengenai bagaimana jumlah
item yang lebih besar dapat meningkatkan reliabilitas tes.
Ketika tes disusun, setiap item merupakan sampel kemampuan atau
perilaku yang akan diukur. Tes yang panjang memiliki banyak sampel, tes
yang pendek memiliki sampel lebih sedikit. Akan tetapi setiap item harus
mewakili secara seimbang kemampuan yang diteliti. Misalnya, ketika
mengukur kemampuan pengejaan anda, kita dapat menggunakan 5 kata,
100 kata, atau 500 kata.
Reliabilitas dapat diperkirakan dari korelasi antara skor
pengukuran dan skor sebenarnya. Akan lebih mudah ditentukan bila kita
mengetahui skor sebenarnya. Akan tetapi, menemukan skor sebenarnya
tidak praktis dan hampir tidak mungkin. Dalam contoh pengukuran
kemampuan pengejaan, menemukan skor sebenarnya ialah dengan
menguji individu dengan semua kata yang terdapat dalam bahasa inggris.
Karena skor sebanarnya tidak ada, satu-satunya alternatif kita ialah
memperkirakan item diambil secara acak dari domainnya, setiap tes atau
kelompok item harus menghasilkan perkiraan skor yang sebenarnya yang
tidak bisa karena kesalahan sampling. Akan tetapi, pengambilan sampel
item secara acak yang berbeda dapat memberikan perkiraan yang berbeda
mengenai skor sebenarnya. Distribusi perkiraan ini akan bersifat acak dan
berdistribusi normal. Jika kita menyusun banyak tes dengan mengambil
sampel dari domain yang sama, maka kita akan memperoleh distribusi
normal perkiraan skor sebenarnya yang tidak bias. Untuk memperkirakan
reliabilitias, kita dapat membuat banyak tes paralel secara acak dengan
mebngambil secara acak sampel item berulang kali dari domain yang
sama. Dalam contoh pengukuran kemampuan mengeja, kita dapat
mengambil beberapa daftar kata yang berbeda secara acak dari kamus dan
menjadikan masing-masiing sampel tersebut sebagai tes kemampuan
mengeja yang tidak bias. Kemudian, kita akan menemukan korelasi antara

9
masing-masing tes lainnya. Korelasi tersebut kemudian di cari rata-
ratanya.
3. Teori Respons Item
Mungkin perkembangan baru yang paling relevan dengan
psikometri ialah teoroi respons item. Sebagian besar metode pemeriksaan
reliabilitas bergantung pada teori tes klasik (De Vellis, 2006). Teori tes
klasik telah dipakai selama lebih dari 100 tahun dan berfungsi dengan
baik. Akan tetapi, gerakan pertumbuhan berpaling dari teori tes klasik
dengan berbagai alasan yang berbeda. Pertama, teori tes klasik
mengharuskan untuk memberikan item tes yang sama pada setiap orang.
Untuk sifat seperti intelegensi, jumlah item yang relatif kecil
berkonsentrasi pada level tertentu dari kemampuan individu. Misalnya,
banyak item yang terlalu mudah dan beberapa terlalu sulit. Karena sedikit
item yang berkonsentrasi pada level kemampuan seseorang secara tepat,
reliabilitas skor intelegensi sulit untuk dipercaya.
Pendekatan terbaru dikenal sebagai teori respons item (item
response theory IRT), telah menjadi subjek pertumbuhan yang intens
selama beberapa dekade terakhir. Menggunakan IRT, komputer
digunakan untuk fokus pada rentang kesulitan item yang membantu
memerika level kemampuan individu. Sebagai contoh, jika seseorang
menjawab benar untuk beberapa item yang mudah, komputer secara cepat
dapat berpindah pada item yang lebih sulit. Jika seseorang salah pada
beberapa item yang sulit, komputer kembali pada area kesulitan item
ketika orang tersebut menjawab beberapa item dengan benar dan
beberapa item dengan salah. Kemudian, level kemampuan ini dijadikan
sampel secara intens. Hasil keseluruhan ialah pperkiraan kemampuan
yang lebih dapat dipercaya diperoleh menggunakan tes yang lebih singkat
dengan item yang lebih sedikit. Tentu saja, banyak kesulitan dalam
menggunakan IRT. Misalnya, metode ini membutuhkan bank item yang
telah dievaluasi secara sistematis level kesulitannya (Hays dkk, 2006;

10
Hays dkk, 2007). Pengembangan tes membutuhkan usaha lebih dan
perangkat lunak komputer yang kompleks.
4. Model-model Reliabilitas
Peraturan pemerintah federal menyatakan bahwa sebuah tes harus
reliable sebelum seseorang dapat menggunakan nya sebelum mengambil
keputusan dalam seleksi tenaga kerja dan penempatan pendidikan
(Heubert & Hauser 1999) pada bagian ini kita akan menjutifikasi
kebutuhan akan reabilitas dengan standar yang tinggi.sebagian besar
koefisien reliabilitas ialah korelasi,namun kadang kala lebih bermanfaat
untuk di mendefinisikan reablitas dengan rasio matematisnya.koefisien
reliabilitas ialah rasio (perbandingan) antara varians skor sebenarnya pada
suatu tes dengan varian skor pengukuran:
2
ST
r= 2
SX
Keterangan:
r = releabilitas teoritis dan tes
2
ST = varians skor sebenarnya
S2X = varians skor hasil pengukuran
Kita menggunanakan simbok yunani s2 dari pada S2 sebagai
symbol varians karena di dalam persamaan menggambarkan skor teoritis
dalam populasi dari pada yang sebenar nya di peroleh dari dari
sampel.rasio varians skor sebenarnya dan varian skor pengukuran dapat di
anggap sebagai persentase. dalam kasus ini,merupakan persentase variasi
skor pengukuran yang beratribusi dengan variasi skor yang sebenar
nya.jika kita mengurangi rasio ini dari 1,0,kita akan memperoleh
persentase variasi yang beratribusi dengan kesalahan acak. Juga dapat di
gunakan sebagai penyebut karna
2 2 2
S X =ST + S E
Seumpama anda di berikan tes yang akan di gunakan untuk menyeleksi
orang untuk pekerja tertentu,dan realibilitas tes tersebut ialah 0,40.ketika

11
pemiliki pekerjaan. Memperoleh hasil es dan mulai membandingkan para
pelamar,sebesar 40 persen variasi atau perbedaan antara pelamar dapat di
jelaskan dengan perbedaan nyata di antara pelamar,dan 60 persen di
anggap berasal dari faktor lainnya. Sekarang anda dapat melihat mengapa
pemerintah menuntut standar reliabilitas yang tinggi.
Skor pengukuran dapat berbeda dari skor sebenernya karena
berbagai alasan. Dapat di sebabkan faktor situsional seperti suara
mengganggu yang terlalu keras di ruangan saat mengerjakan tes. Mungki
ruangan terlalu panas atau terlalu dingin.Beberapa orang yang menjalani
tes mungkin sedang flu atau sedang dalam kondisi tertekan.juga,item tes
mungkin tidak mewakili domain.Misalnya,anggap anda dapat mengeja 96
persen kata dalam bahasa inggris dengan benar, tetapi 20 buah item tes
yang di berikan kepada anda termasuk di dalam nya 5 item (20 persen)
tidak dapat anda eja.
Reliabilitas tes biasanya di perkirakan dengan salah satu dari tiga
cara.dalam metode tes-retas (tes-retas),kita melihat konsistensi hasil tes
ketika tes diberikan apa kesempatan yang berbeda.Menggunakan metode
bentuk parallel(parallel forms),kita mengevaluasi tes dari berbagai bentuk
tes yang berbeda.dengan metode konsistensi internal (internal
consistency),kita memeriksa bagaimana performa seseorang pada
sekelompok item yang serupa yang di pilih dari bentuk pengukuran yang
sama.masing –masing pendekatan berdasarkan sumber variabilitas yang
berbeda.kita akan mempelajari masing-masing metode secara terpisah.
- Sampling Waktu : Metode Tes-Retes
Reabilitas tes-retes digunakan untuk mengavaluasi kesalahan yang
berhubungan dengan adminitrasi tes pada dua waktu yang berbeda.jenis
analisis ini bermanfaat hanya jika kita mengukur trait atau karekteristik
yang tidak berubah sepanjang waktu.misalnya,kita biasanya berasumsi
bahwa tes itelegensi mengukur kemampuan umum yang konsisten. Jika tes
IQ di berikan dua kali pada waktu yang berbeda dan di peroleh skor yang
berbeda,kita dapt menyimpulkan perbedaan tersebut merupakan hasil

12
kesalahan pengukuran.biasanya,kita tidak berasumsi bahwa orang tersebut
menjadi lebih pintar atau lebih bodoh di antrara waktu dua tes tersebut.
Tes yang mengukur karakteristiik yang berubah terus-menerus
tidak tepat untuk dievaluasi dengan metode tes-retes. Sebagai contoh, skor
tes Rorschach memberi informasi bagi klinisi bagaimana fungsi klien pada
saat tertentu. Oleh karna itu, perbedaan skor tes Rorschach pada dua waktu
yang berbeda dapat menunjukan satu dari dua hal : (1)perubahan skor
sebenar nya yang di ukur, (2)kesalahan pengukuran.jelas bahwa metode
tes-retas hanya dapat di gunankan untuk mengukur sifat yang stabil .
Reliabilitas tes-retas relative mudah di evaluasi : hanya
mengadminitrasikan tes yang sama pada dua waktu yang berbeda dan
kemudian mencari korelasi antara skor yang di peroleh dengan
menggunakan metode yang diberikan.akan tetapi anda harus meperhatikan
banyak detai lain nya di samping metode untuk menghitung koefisien
reliabilitas tes-retas.memahami dan menggunkan informasi yang di
peroleh dari latihan mekanis Ini membutuhkan pemikiran yang hati-hati.
Satu hal yang harus selalu anda perhatikan ialah kemungkinan adanya efek
lanjutan (carryover effect). Efek ini terjadi jika tes sesi pertama
memengaruhi skor tes sesi kedua.misalnya,individu yang di uji kadang
kala mengingat jawaban mereka dari tes sesi pertama.sebagai contoh kita
Mengajukan pertanyaan pada individu yang dii uji siapa adik dan program
televise grey’Anatomy ? kemudian kita mengajukan pertanyaan yang
berikutnya.Bebe rapa orang yang di uji dapat menonton program telivisi
tersebut waktu tes dan menentukan bahwa jawaban mereka salah pada tes
sesi pertama jika lanjutan,korelasi tes-retes biasanya meningkatkan
perkiraan reliabilitas yang sebenar nya.
Efek lanjutan ini hanya menjadi masalah jika perubahan yang terus
terjadi bersifat dalam kasus perubahan bersifat sistematis,efek lanjutan
tidak merusak reliabilitas.contoh efek lanjutan yang sistematis iyalah jika
skor semua orang meningkat tepat 5 persen dalam hal ini,tidak ada
variabilitas baru yang terjadi.efek lanjutan yang acak terjadi jika

13
perubahan tidak dapat di prediksi dari skor awal atau ketika sesuatu
mempengaruhi beberapa namun tidak semua individu yang di uji jika
sesuatu memengaruhi semua individu yang di uji secara seimbang,maka
hasil pengukuran secara seragam di pengaruhi dan tidak ada kesalahan
yang terjadi.
Efek latihan merupakan salah satu jenis efek lanjutan yang penting.
Beberapa kecakapan meningkat berkat latihan.ketika tes di berikan untuk
kedua kali nya,skor individu yang diuji meningkat karena mereka telah
mempertajam kecakapan mereka dengan memperoleh tes untuk pertama
kali nya. mengajukan pertanyaan yang mudah kepada seseorang yang
mengenai film yang sudah lama dapat menstimulasi mereka untuk berfikir
lebih menganai fil tersebut atau sebenarnya dapat memberikan mereka
informasi. Latihan juga dapat memengaruhi tes ketangkasan
manual:pengalaman memperoleh tes dapat meningkatkan ketangkasan.
Sebagai hasilnya,skor pada adminitrasi tes kedua biasa nya lebih tinggi
dari skor tes pertama mereka.latihan dapat mempengaruhi individu yang di
uji dalam berbagai cara yang berbeda sehingga perubahan tidak konstan
pada keselurahan individu dalam kelompok.banyak faktor lain nya dapat
mengintervensi dan memengruhi skor.misal nya jika sebuah tes diberikan
pada anak usia 4-5 tahun dan skor ke dua dari dua adminitrasi tes ini
berkorelasi sebesar 0,43 maka kita berhadapan dengan banyak
kemungkinan penjelasan dapat berarti (1)tes tersebut memiliki reliabilitas
yang rendah(2)anak mengalami perubahan pada karekteristik yang di ukur
antara 4-5 tahun atau (3)beberapa kombinasi dari reliabilitas yang rendah
dan perubaan pada anak yang bertanggung jawab tas nilai korelasi sebesar
0,43. Lebih jauh sebagian besar eva luasi tes-retes tidak mengindikasikan
pilihan yang paling baik di antara alternative penjelasan.
- Sampling Item : Metode Bentuk Paralel
Membuat tes yang reliable juga mencangkup menyakinkan bahwa
skor tes tidak mewakili kelompok item tertent dari ke seluruhan domain.
Sebagai contoh jika anda mengembangkan tes kemampuan

14
mengeja,kemudian anda memasukkan sekelompok kata tertentu dari
kamus kedalam tes, seperti yang telah kita liat sebelum nya individu yang
di uji dapat memperoleh skor yang berbeda dari ideal nya karna item yang
anda pilih yang beratribusi dengan pemilihan sekelompok item tertentu.
Reliabilitas bentuk parallel membandingkan dua bentuk tes yang ekuivalen
(sepadan)yang mengukur atribut yang sama.kedua bentuk tes ini
menggunakan item yang berbeda :tetapi peraturan yang di gunakan untuk
memilih item dari level kesulitan tertentu adalah sama. Ketika ada dua
bentuk tes seseorang dapat membedakan performanya pada tes yang satu
dengan tes yang lain.beberapa buku teks menyebut proses ini sebagai
reliabilitas bentuk ekuivalen sementara buku lain nya menyebut bentuk
parallel.kadang kedua bentuk tersebut di berikan kepada kelompok orang
yang sama kepada hari yang sama.koefisien korelasi pearson digunakan
untuk memperkirakan reliabilitas. Jika bentuk kedua tes tersebut di berikan
pada hari yang sama berarti cara satu –satunya sumber fariasi nya adalah
kesalahan acak dan ada bentuk perbedaan kedua tes. Pada praktik nya
psikologi tidak tidak selalu memiliki dua bentuk dari sebuah tes.
Seringkali mereka hanya memiliki satu bentuk dan harus memperkirakan
reliabilitas untuk kelompok tunggal item tersebut.
- Metode Belah-Separuh
Dalam reliabilitas belah separuh sebuah tes di berikan dalam dua bagian
yang di skor secara terpisah hasil setengah dari tes tersebut dengan hasil
setengah lainnya. Membagi tes menjadi dua bagian dapat di lakukan
beberapa cara. Jika tes tersebut panjang cara terbaik ialah membagikan
item acak menjadi dua bagian. Akan tetapi untuk mempermudah beberapa
orang lebih untuk menghitung skor pertama dari setengah bagian pertama
item dan skor lain nya setengah bagian kedua.meski mudah metode ini
dapat menimbulkan masalah ketika pada setengah bagian kedua tes lebih
sulit dari pada item di setengah bagian pertama.
Untuk memperkirakan reliabilitas tes anda dapat mencari korelasi
antara dua bagian. Akan tetapi reliabilitas akan di dapat lebih rendah dari

15
reliabilitas yang sebenar nya karena masing-masing subtes hanya setengah
dari panjang tes yang utuh.
Untuk memperbaiki panjang setengah tes ini, anda dapat
menggunakan rumus Spearman-Brown yang memungkinkan anda
memperikirakan beberapa korelasi antara dua bagian jika setiap bagian
memiliki panjang seperti keseluruhan tes :
2r
r yang dikoreksi=
1+r
Dengan r merupakan perkiraan korelasi antara dua bagian tes jika setiap
bagian dianggap memiliki jumlah item yang utuh, dan r adalah korelasi
antara dua bagian tes.
- Formula KR 20
Selain teknik belah separuh, banyak metode lain untuk
memperkirakan konsistensi internal suatu tes. Bertahun-tahun yang lalu,
Kuder dan Richardson (1937) meningkatkan pemeriksaan reliabilitas
dengan mengembangkan metode untuk mengevaluasi reliabilitas dalam
satu kali administrasi tes.
Pendekatan mereka tidak bergantung pada membagi tes secara
acak menjadi dua bagian . keputusan mengenai bagaimana membagi tes ke
dalam dua bagian menyebabkan banyak masalah potensial bagi reliabilitas
belah separuh. Kedua bagian tes dapat memiliki varians yang berbeda.
Metode belah separuh juga membutuhkan setiap bagian untuk dinilai
secara terpisah, dapat membuat pekerjaan bertambah. Teknik Kuder-
Richardson tehindar dari masalah tersebut karena teknik ini secara
simultan memperhitungkan semua cara yang mungkin membagi iitem.
Rumus untuk mengitung reliabilitas tes ketika itemnya dikotomi,
diskor 0 atau 1 (biasanya untuk benar dan salah), dikenal dengan Kuder-
Richardson 20 atau KR 20 atau KR20. Rumus tersebut diberi nama seperti
ini karena rumus keduapuluh yang ditampilkan dalam artikel lain terkenal
Kuder dan Richardson.
Rumus tersebut ialah

16
KR 20=r =
N −1(
N S 2−∑ pq
S
2 )
Keterangan :
KR 20 = perkiraan reliabilitas (r)
N = jumlah item pada tes
2
S = varians skor tes total
P = proposal individu yang menajwab item dengan benar (dihitung
secara terpisah untuk setiap item)
Q = proporsi individu yang menjawab item dengan salah
Untuk setiap item, q = 1 – p
∑pq = jumlah p dikali q untuk setiap item tes
Mempelajari komponen-komponen rumus tersebut akan membuat
anda lebih memahami kerja rumus tersebut. Varians S2 muncul dua kali di
dalam rumus, satu diabgian kanan atas persamaan dan satu dibagian kanan
bawah persamaan. Komponen lainnya dibagian kanan persamaan ialah
∑pq merupakan jumlah hasil perkalian proporsi individu yang menjawab
item dengan benar dan proporsi individu yang menjawab item dengan
salah. Hasil p dikali q merupakan varians item individual. Oleh karena itu,
∑pq merupakan jumlah varians item individual.
Pikirkan mengenai kondisi yang membuat komponen di bagian
sebelah kanan persamaan dapat menjadi lebih besar atau lebih kecil.
Pertama, pikirkan situasi ketika varian S2 sama dengan jumlah varian itiem
individual ( S2=∑ pq ¿ . dalam hal ini, bagian sebelah kanan rumus akan
menjadi 0, dan sebagi hasilnya perkiraan reliabilitas menjadi 0. Hal ini
memberi tahu kita bahwa agar tidak memperoleh reliabilitas bernilai 0,
varians skor tes total harus lebih besar dari jumlah varians item individual.
Hal ini akan terjadi hanya jika item mengukur sifat yang sama. Varians
skor tes total merupakan jumlah varians item dan kovarians antar item.
(Crocker & Algina, 1986).
Satu satunya situasi yang akan membuat jumlah varian item kurang
dari varian skor tes total jika ada kovarians di antara item. Kovarians
terjadi jika item berkorelasi satu sama lain. Makin besar kovarian, makin
kecil ∑pq. Jika item saling berkorelasi, item dapat diasumsikan mengukur
sifat umum yang sama, dan reliabilitas tes akan tinggi. Jika ∑pq mendekati
0, bagian sebelah kanan persamaan akan mendekati 1. Faktor lain dari
rumus ini adalah penyesuaian jumlah item dalam tes. Penyesuaian ini akan
membawa penyesuaian terhadap kesalahan yang lebih besar yang
berhubungan dengan tes yang lebih pendek.

17
Sebagai tambahan KR 20 ' Kuder dan Richardson mengenalkan
rumus 21 atau KR 21' rumus reliabilitas spesial yang tidak membutuhkan
perhitungan p dan q untuk setiap item. KR 21' menggunakan perkiraan
jumlah pq—rerata skor tes. KR 21' didasarkan ebberapa asumsi penting.
Asumsi yang paling penting ialah bahwa semua item sama tingkat
kesulitannya, atau level kesulitan sebesar 50 persen. Kesulitan
didefinisikan sebagai persentasi individu yang berhasil menjawab item
tersebut dengan benar. Praktiknya, asumsi ini jarang terpenuhi, dan
biasanya rumus KR 21merendahkan perkiraan reliabilitas belah separuh :
N
KR 21= ¿
N −1
Dengan semua simbol yang telah dijelaskan sebelumnya.
Bukti matematis telah menunjukkan bahwa rumus KR 20
memberikan perkiraan reliabilitas yang sama yang akan anda dapatkan jika
anda mengambil rata-rata reliabilitas belah-separuh yang diperoleh dengan
membagi tes dalam semua cara yang mungkin (Cronbach, 1951). Anda
akan dapat melihat hal tersebut karna prosedur Kuder-Richardson bersifat
umum, biasanya lebih bermakna dari perkiraan internal consistency
dengan split- half.
- Koefisien Alfa
Rumus KR 20 tidak tepat untuk mengevaluasi konsistensi internal
pada beberapa kasus. Rumus KR 20 memerlukan anda mencari proporsi
individu yang dapat menjawab item dengan “benar”. Ada berbagai jenis
tes, ada tes yang tidak memiliki jawaban benar dan salah seperti banyak
skala sikap dan kepribadian. Misalnya, pada kuesioner sikap, anda
mungkin dihadapkan pada pertanyaan seperti, “Saya meyakini hubungan
badan di luar pernikahan merupakan tindakan tidak bermoral.” Anda harus
memilih apakah anda sangat tidak setuju, tidak setuju, netral, setuju, atau
sangat setuju. Tidak ada salah satu pilihan jawaban ini yang benar ataupun
salah. Jawaban anda mengindikasikan sikap anda dalam kontinum setuju
dan tidak setuju. Untuk menggunakan metode Kuder-Richardson dengan
jeenis item seperti ini, Cronbach mengembangkan rumus yang
memperkirakan konsistensi internal tes dengan item yang tidak dinilai 0
atau 1 (benar atau salah). Dalam melakukannya, Cronbach
mengembangkan perkiraan reliabilitas yang lebih umum yang dikenal
dengan koefisien alfa (coefficient alpha). Rumus koefisien alfa ialah :

)( S −∑ S i
)
2 2
r =a= (N
N−1 S
2

18
Rumus ini tampak sama dengan rumus KR 20 perbedaannya hanya
∑pq diganti dengan ∑ S 2i . Istilah baru S2i , merupakan varians item
individual. Simbol penjumlahan menunjukkan kepada kita bahwa kita
akan menjumlahkan varians item individual. S2 merupakan varian skor tes
total. Satu-satunya perbedaan ialah cara varians ditampilkan. Sebenarnya,
koefisien alfa merupakan kefisien reliabilitas yang lebih umum dari pada
KR 20 karena S2i dapat menggambarkan varians item dalam bentuk benar-
salah atau tidak. Oleh karena itu, koefsien alfa merupakan metode yang
paling umum untuk mencari perkiraan reliabilitas melalui konsistensi
internal.
Semua pengukuran konsistensi internal mengevaluasi keseluruhan
tes jangkauan ketika item yang berbeda pada tes mengukur kemampuan
atau sifat yang sama. Mereka memberikan perkiraan reliabilitas yang
rendah jika tes disusun untuk mengukur beberapa sifat. Menggunakan
model domain sampling, kita menentukan domain yang mewakili suatu
sifat atau karakteristik, dan setiap item merupakan sampel individual dari
karakteristik umum ini. Ketika item tidak mengukur karakteristik yang
sama, tes tidak akan konsisten secara internal.
5. Reliabilitas Dalam penelitian observasi tingkah laku
Psikologi dengan orientasi perilaku biasanya tidak menyukai
menggunakan tes psikologi.mereka lebih suka melakukan observasi
langsung terhadap perilaku.untuk mengukur agresi misalnya mereka akan
mencatat berapakali anak memukul atau menendang anak lain nya.
pengamat akan menabulasi jumlah respon yang dapat di observasi setiap
kategori.oleh karna itu aka nada skor tersendiri bagi kata memukul
menendang dan lain nya. beberapa orang merasa system observasi
perilaku sangat seder hana hinga mereka tidak memiliki masalah
psikometri tetapi mereka memiliki banyak sumber kesalahan karna
mengambil sampel perilaku pada interval waktu tertentu dalam kondisi ini
kesalahan pembilan sampel harus di perhatikan.contoh seorang pengamat
melewatkan 1 sampai 2 kali anak memukul atau menendang:pengamat
lain mencatat semua perilaku tersebut masalah kesalahan yang
berhubungan dengan pengamat yang berbeda memberikan kesulitan yang
unik.metode yang paling umum ialah dengan mencatat persentase
frekuensi dua atau lebih pengamat sependapat.sayang nya metode ini

19
bukan metode yang paling baik paling tidak karena dua alasan pertama
persentase ini tidak memperhatikan level kesepakatan yang di peroleh
probabilitas. Kedua persentase seharusnya tidak dimanipulasi secara
matematis.statitik kappa merupakan metode yang paling baik untuk
memeriksa level kesepakatan di antara beberapa pengamat .statistik kappa
dikenalkan j.cohen (1960) sebagai pengukuran kesepakatan antara dua
pengamat yang masing-masing memberi peringkat sejumlah obyek
menggunakan skala nominal.fleis (1971)mengembangkan metode untuk
menghitung kesepakatan antara banyak pengamat. Kappa
mengindiskasikan kesepakatan sebenarnya sebagai proporsi kesepakatan
potensial mengikuti koreksi probalitas kesepakatan.
6. Menghubungkan sumber kesalahan dengan metode pengukuran
reliabilitas
Tabel dibawah ini mengaitkan sumber kesalahan pengukuran
dengan metode yang digunakan untuk menguji reliabilitas. Ingat bahwa
reliabilitas merupakan istilah umum. Para psikolog menggunakan metode
pengukuran reliabilitas yang berbeda untuk menjelaskan sumber-sumber
kesalahan dalam pengukuran, dan setiap metode memiliki makna yang
berbeda. Sebagaimana dinyatakan dalam tabel ini, salah satu sumber
kesalahan pengukuran adalag pemilihan waktu (time sampling). Tes yang
sama diberikan pada berbagai waktu dapat menghasilkan skor yang
berbeda walaupun diberikan kepada orang yang sama. Sumber kesalahn
ini secara khusus diuji dengan menggunakan metode tes-retes. Sumber
kesalahan lain adalah pemilihan item (item sampling). Konsturuk atau
atribut yang sama dapat diukur dengan menggunakan sakupan item yang
banyak. Misalnya, tidak ada satu item yang digunakan untuk mengukur
intelegensi seseorang, namun beberapa item yang beebeda digunakan
untuk mengukur kontrak umum ini tidak selalu mencerminkan
kemampuan yang sebenarnya. Jenis kesalahan tersebut diuji dengan
menggunakan metode reliabilitas bentuk pengganti atau paralel. Biasanya
korelasi antara dua bentuk tes dihasilkan oleh pengambilan sejumlah item

20
secara random yang diyakini mengukur konstruk tertentu. Korelasi ini
digunakan sebagai suatu perkiraan dari jenis reliabilitas tersebut.

Sumber Kesalahan Contoh Metode Cara Mengukur


Pemilihan waktu Tes yang sama Tes-retes Korelasi antara nilai
diberikan pada dua yang diperoleh pada
waktu yang dua waktu
berbeda
Pemilihan Item Item-item yang Bentuk Korelasi antara bentuk
berbeda digunakan Pengganti tes yang setara namun
untuk mengukur Bentuk Paralel memiliki item yang
atribut yang sama berbeda
Konsistensi Internal Konsistensi item- 1. Belah 1. Korelasi yang
item dalam tes Separuh diperbaiki antara
yang sama 2. KR 20 setengah bagian tes
3. Alfa
Penguji tes yang Perbedaan Statistik Kappa Lihat Fleiss (1981)
berbeda pencatatan oleh
penguji

7. Menggunakan Informasi Reliabilitas


Dengan mempelajari metode dan teori mengenai reliabilitas, seseorang
akan memperoleh manfaat aspek praktis dari pengukuran reliabilitas.
Situasi-situasi yang berbeda membutuhkan level reliabilitas yang berbeda.
- Kesalahan Standar Pengukuran dan Rubber Yardstick
Istilah Rubber Yardstick (alat pengukur karet) digunakan untuk
memperkenalkan konsep kesalahan standar pengukuran. Ingatlah bahwa
psikolog yang menggunakan alat tes yang tidak memiliki reliabilitas
seperti tukang kayu yang bekerja dengan alat pengukur karet yang
menyusut atau memanjang dan salah menunjukkan panjang papan yang
sebenernya. Akan tetapi, bagaimana seluruh pengukur karet berbeda

21
ketidakakuratannya, seluruh pengukuran psikologis juga berbeda
ketidakakuratannya kesalahan standar pengukuran membantu seseorang
memperkirakan derajat ketidakakuratan tes dalam mengukur, yaitu
memberitahukan seberapa besar penyimpangan yang ada dalam sebuah
pengukuran. Semakin besar standar kesalahan pengukuran, kita semakin
tidak yakin terhadap keakuratan atribut yang diukur. Sebaliknya,
kesalahan standar pengukuran yang kecil menunjukkan skor seseorang
mungkin dekat dengan skor yang diukur. Beberapa buku merujuk pada
kesalahan standar pengukuran sebagai kesalahan standar suatu skor. Untuk
menghitung standar pengukuran diperlukan simpangan baku dan koefisien
reliabilitas. Rumusnya :
Sm =S √ 1−r
Keterangan
Sm = standar kesalahan pengukuran
S = skor simpangan baku
R = koefisien reliabilitas
B. Validitas
1. Definisi Validitas
Validitas dapat di definisikan sebagai kesepakatan antara nilai tes atau
pengukuran dan kualitasnya yang dipercaya untuk mengukur. Kadang
kala, validitas didefinisikan sebagai jawaban akan pertanyaan,”apakah tes
mengukur apa yang seharusnya diukur? Untuk menjawab pertanyaan
tersebut, kami menggunakan studi sistematis untuk menentukan apakah
kesimpulan dari hasil tes telah sesuai dengan bukti yang ada. Sepanjang
abad ke-20, psikolog membuat berbagai subkategori dari validitas.
Definisi validitas berkembang, sehingga membuatnya sulit untuk di
tentukan meskipun psikolog yang merujuknya memiliki tipe-tipe validitas
yang membicarakan hal-hal yang jelas berbeda. Meskipun validitas
mendefinisikan makna suatus tes dan pengukuran, istilah itu sendiri mulai
kehilangan maknanya. Pada tahun1985, komite gabungan dari American
Educational Research Association (AERA), American Psychological

22
Association (APA), dan National Council on Mesurement in Education
(NCME) menerbitkan buklet yang berjudul Standards for Educational
and Psychological Testing. Standar tersebut di revisi pada tahun 1999,
kami harus merujuk pada standar ini secara berkala karena standar ini
menyediakan seperangkat petunjuk tes psikologi yang bagus dan telah
mendapatkan persetujuan dari mayoritas kelompok professional.
Pada awal pekerjaannya, komite gabungan membuat berbagai
definisi yang mungkin dari validitas seperti validitas adalah bukti untuk
membuat kesimpulan sebuah nilai tes. Ada tiga tipe bukti: (1) berkaitan
konstruk, (2) berkaitan dengan kriteria, dan (3) berkaitan dengan isi.
Orang-orang memiliki banyak nama lain untuk aspek-aspek validitas
yang berbeda. Akan tetapi, kebanyakan aspek-aspek tercantum dalam
ketiga kategori tersebut.
Standar paling baru menitikberatkan validitas sebagai sebuah unit
konsep yang merepresentasikan semua bukti yang mendukung interpretasi
pengukuran sesuai keinginan. Catatan kesepakatan tersebut
memperingatkan adanya pertentangan dalam memisahkan validitas ke
dalam beberapa kategori, seperti validitas isi, validitas prediktif, dan
validitas kriteria. Meskipun kategori-kategori untuk mengelompokan tipe
tipe validitas yang berbeda dan mudah digunakan, pengguna kategori-
kategori tidak menyiratkan adanya bentuk-bentuk validitas yang berbeda.
Terkadang, psikolog hanya terlalu ketat dalam membuat berbedaan
antarkategori, ketika terkadang, kategori-kategori yang ada menjadi
tumpang tindih.
2. Aspek-aspek Validitas
Pada bagian ini, kami akan mendiskusikan tiga aspek validitas
yang di anjurkan oleh komite gabungan. Pertama, bagaimanapun, kami
menyebut beberapa validitas sebagai validitas tampilan. Komite gabungan
menolak untuk mengenali validitas tampilan sebagai kategori yang sah
Karena tipe ini bukanlah bentuk validitas secara teknis. Istilah tersebut
harus disebutkan karena biasa digunakan dalam literature pengukuran.

23
- Validitas Tampilan
Validitas tampilan (face validity) hanya mempelihatkan bahwa
sebuah pengukuran memiliki validitas melalui tampilannya. Kami sering
kali menyebutkan sebuah tes memiliki validitas melalui tampilan apabila
item-item memiliki hubungan yang masuk akal dengan tujuan tes yang
diinginkan. Misalnya, skala untuk mengukur kecemasan harus
mengikutsertakan item item, seperti “perut saya terasa sakit ketika saya
berpikir tentang menjalani tes” dan “jantung saya mulai berdetak kencang
ketika saya berpikir tentang apapun yang harus saya selesaikan”.
Berdasarkan respon positif untuk item-item di atas, dapatkah kita
menyimpulkan seseorang adalah pencemas? Perlu diingat bahwa validitas
membutuhkan bukti untuk membuat kesimpulan. Pada kasus tersebut, kita
hanya dapat menyimpulkan bahwa seseorang menjawab kedua item
dengan caranya masing-masing. Apabila kita ingin menyimpulkan
seseorang memiliki masalaj kecemasan, maka kita membutuhkan bukti
sistematis yang menunjukan bagaimana respons-respons terhadap item
berhubungan dengan kondisi psikologis dari kecemasan. Validitas
tampilan sama sekali bukan validitas karena tidak menawarkan bukti
untuk mendukung kesimpulan yang di gambarkan dari nilai tes.
Kami tidak menyebutkan validitas tampilan sebagai sesuatu yang
tidak penting. Pada beberapa situasi, sangatlah penting untuk mendapatkan
tes yang “sepertinya” valid. Tampilan tersebut dapat membantu orang
yang di tes karena mereka melihat kesesuaian tes yang di jalani. Misalnya,
anda mengembangkan tes untuk menyaring pelamar untuk program
akuntansi. Item item yang menanyakan mengenai neraca keseimbangan
dan buku besar dapat membuat pelamar lebih termotivasi di banding item-
item mengenai konsumsi bahan bakar. Meskipun demikian, kedua tipe
item dapat mengukur kemampuan penalaran aritmetika yang sama.
- Validitas yang berdasarkan Bukti yang berkaitan dengan Isi
Beberapa kali anda belajar untuk sebuah ujian dan mendapati
hampir setiap saat dosen datang dengan item item aneh yang tidak

24
merepresebtasikan isi dari kuliah? Apabila hal tersebut terjadi, anda
mungkin menjumpai tes dengan miskinnya bukti validitas yang berkaitan
dengan isi. Bukti validitas yang berkaitan dengan isi dari suatu tes atau
pengukuran memepertimbangkan keadekuatan dari tercakupnya
perwakilan domain konsep yang di buat. Sebagai contoh, apabila anda
dites untuk enam bab pertama buku ini, maka bukti validitas yayang
berkaitan dengan isi di hadirkan oleh kesesuaian antara item-item tes dan
informasi dari bab-bab tersebut.
Pada umumnya, evidensi validasi isi (content validity evidence)
menitikberatkan pada pengukuran dalam bidang pendidikan. Nilai tes
sejarahanda seharusnya merepresentasikan pemahaman anda mengenai
sejarah yang di harapkan anda ketahui. Banyak factor membatasi performa
tes anda pada tes sejarah, sehingga kesimpulan dosen mengenai
pengetahuan anda menjadi kurang valid. Faktor-faktor tersebut meliputi
karakteristik item (seperti kosakata yang tidak di mengerti oleh siswa) dan
pengambilan sampel item (seperti item tentang perang dunia I pada tes
kebudayaan cina).
Kami tidak lagi berpikir bukti validitas isi sebagai sesuatu yang
terpisahkan dari tipe bukti validitas lainnya karena batas antara bukti
validitas isi dan tipe lainnya tidak terdefinisi.
Secara jelas (Cook & Beckman,2006; Messick, 1998a, 1998b). meskipun
demikian, bukti validitas isi menawarkan bentuk-bentuk unik. Misalnya
hanya bukti ini selain validitas tampilan yang di dasarkan pada logika
dibandingkan dengan perhitungan statistika.
Kita berusaha untuk memastikan sebuah tes telah terkonstruksi
dengan baik dengan meliah bukti validitas isi (Lihat Contoh Utama 5.1)
misalnya , kami bertanya apakah item merupakan contoh yang adil dari
kemungkinan seluruh isi. Menghadirkan bukti validasi isi untuk suatu tes
membutuhkan logika yang baik, kemampuan intuitif, dan ketekunan. Isi
dari haruslah di evaluasi secara hati-hati. Sebagai contoh, pengembang tes
harus menyadari penggunaan kata-kata untuk item-item dan kelayakan

25
dari tingkat keterbacaan (Messick, 1998a, 1998b). keputusan atas bukti
validasi isi biasanya di buat berdasarkan pendapat seseorang ahli di
bidangnya. Terdapat beberapa metode dalam mengumpulkan pendapat ke
dalam daftar representasi isi. Biasanya, pendapat yang lebih dari satu
mengevaluasi setiap item dengan kecocokan atau relevansinya dengan isi
(Rubio, Berg-Weger,Tebb,Lee &Rauch 2003). Metode statistic seperti
analisis factor juga dapat di gunakan untuk memutuskan apakah item telah
sesuai dengan domain yang berkaitan dengan konsep (Child, 2006).
Dua konsep baru yang relevan dengan bukti valisitas isi ditekankan
pada versi terbaru dari Standards For Educational and Psychological
Testing (AERA, APA, & NCME, 1999):
Ketidak terwakilan konstruk dan variasi ketidakrelevanan
konstruk. Ketidakterwakilan konstruk mendeskripsikan kegagalan untuk
menangkap komponen-komponen penting dari konstruk. Misalnya, apabila
tes pengetahuan matematika hanya memasukan aljabar, sedangkan
geometri tidak, maka validitas tes terancam oleh adanya ketidakterwakilan
konstruk. Variasi ketidakrelevanan konstruk terjadi ketika nilai di
pengaruhi oleh factor-faktor yang tidak relevan untuk konstruk. Misalnya
tes intelegensi dapat di pengaruhi oleh pemahaman membaca, kecemasan
dalam tes, tatau sakit.
Sering kali, nilai tes merefleksikan banyak factor selain yang
seharusnya diukur oleh tes. Sebagai contoh, banyak siswa mengerjakan tes
secara buruk karena cemas atau memiliki masalah membaca. Seseorang
yang membaca secara lambat mungkin mendapatkan nilai yang rendah
pada saat tes karena ia tidak memiliki cukup waktu untuk membaca
keseluruhan pertanyaan. Kita baru dapat membuat kesimpulan secara
umum yang akurat mengenai arti sebenarnya dari nilai tes dengan
melibatkan factor-faktor lain ke dalam tes

26
BAB III
PENUTUP
A. Kesimpulan
Reliabilitas diartikan dengan keajekan atau konsistensi bila mana
tes tersebut diuji berkali-kali hasilnya relatif sama, artinya setelah hasil tes
yang pertama dengan tes yang berikutnya adalah sama. Dan ada beberapa
metode reliabilitas, tingkat reliabilitas suatu instrumen atau tes
dipengaruhi oleh banyak hal antara lain: Jumlah butir soal, waktu yang
diperlukan untuk menyelesaikan test, kondisi saat test berlangsung,
motivasi didalam diri individu, dan lain-lain.

27

Anda mungkin juga menyukai