Suharman
Sekolah Tinggi Agama Islam Negeri Teungku Dirundeng Meulaboh
Email: suharmanalhamid@gmail.com
Abstrak
Proses belajar mengajar yang dilakukan harus selalu melalui proses akhir yaitu
evaluasi agar hasil yang ingin dicapai menjadi lebih baik. Salah satu teknik evaluasi
yang sering digunakan oleh lembaga pendidikan adalah tes prestasi. Tes prestasi adalah
tes yang disusun secara terencana untuk mengungkap performansi maksimal subjek
dalam menguasai bahan-bahan atau materi yang telah diajarkan. Dalam menyusun
instrumen tes untuk tes prestasi, Intrumen tes harus melalui Validitas dan Reliabilitas
Tes. Sehingga tes yang akan disusun bisa sepadan dengan kemampuan seseorang yang
akan diberikan tes. Instrumen tes yang disusun tidak boleh terlalu jauh di bawah atau
di atas kemampuan peserta tes, dan tingkat kesukaran item-item soal sebaiknya berada
pada kategori sedang. Dalam kajian mengenai tes terdapat dua pendekatan yang dapat
digunakan yaitu pendekatan secara klasik (Classical Test Theory/CTT) dan pendekatan
secara modern yang berdasarkan pada Item Response Theory (IRT).
Abstract
Teaching and learning process carried out must always go through the final process of
evaluation, so that the results to be achieved are better. One of evaluation technique that
is often used by educational institutions is achievement tests. Achievement tests are tests
that are arranged in a planned manner to reveal the subject’s maximum performance in
mastering the material or material that has been taught. In compiling test instruments for
achievement tests, the test instrument must go through the Validity and Reliability Test.
So the, test that will be prepared can be commensurate with the ability of someone who
will be given a test. The test instruments that are prepared should not be too far below or
above the ability of the test participants, and the level of difficulty of the items should be
in the medium category. In the study of the test there are two approaches that can be used,
namely the classical approach (CTT) and the modern approach based on Item Response
Theory (IRT).
94 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
diantaranya, Anne Anastasi (2006) yang perilaku yang diukur.
mengatakan bahwa tes pada dasarnya 3. Tes mengukur prilaku. Artinya
merupakan suatu pengukuran yang objektif aitem-aitem dalam tes menghendaki
dan standar terhadap sampel prilaku. agar subjek menunjukkan apa
Frederick G. Brown (1976) menyebutkan yang diketahui atau apa yang telah
pengertian tes sebagai prosedur yang dipelajari subjek dengan cara
sistematik guna mengukur sampel prilaku menjawab pertanyaan-pertanyaan
seseorang. Sedangkan Lee J. Cronbach atau mengerjakan tugas-tugas yang
dalam buku Essentials of psychological dikehendaki oleh tes.
Testing (1970) menyatakan pengertian Suatu tes dikatakan baik manakala
tes yaitu, “...a systematic procedure mampu memberikan hasil ukur yang cermat
for observing a person”s behavior and dan akurat. Oleh karena itu Suryabrata,
describing it with the aid of a numerical (2006), mengemukakan syarat-syarat
scale or a catagory system”. tes yang baik adalah : (1) tes harus valid,
Dari beberapa batasan mengenai artinya tes tersebut hanya mengukur satu
tes tersebut di atas, Azwar (2007) menarik aspek saja atau satu domain saja sehingga
beberapa kesimpulan mengenai pengertian tepat mengukur apa yang hendak di ukur,
tes. (2) tes harus reliabel, yaitu ajek atau
1. Tes adalah prosedur yang sistematik. konsisten, (3) tes harus standar, artinya
Maksudnya (a) aitem-aitem dalam setiap peserta tes (testee) harus mendapat
tes disusun menurut cara dan aturan perlakuan yang sama baik mengenai materi
tertentu, (b) prosedur administrasi tes, penyelenggaraan, pemberian skor, dan
tes dan pemberian angka (scoring) interpretasi hasil tes sehingga seorang
terhadap hasilnya harus jelas dan testee yang mendapat skor tertentu di suatu
dspesifikasikan secara terperinci, tempat akan mendapat skor yang sama di
dan (c) setiap orang yang mengambil tempat lain, (4) tes harus objektif, yaitu
tes harus mendapatkan aitem-aitem penilaian yang dilakukan oleh pemberi
yang sama dalam kondisi yang tes (tester) yang satu dengan yang lain
sebanding. akan sama untuk satu testee, (5) tes harus
2. Tes berisi sampel prilaku. Artinya bersifat diskriminatif, artinya tes harus
(a) betapapun panjangnya suatu tes, dapat mengungkapkan perbedaan suatu
aitem yang ada di dalamnya tidak gejala yang terdapat pada setiap individu.
akan dapat mencakup seluruh isi Lebih lanjut Hayat & Setiadi (1998)
materi yang mungkin di tanyakan, menyatakan bahwa Tes yang baik dapat
dan (b) kelayakan suatu tes didefinisikan sebagai sekumpulan item-
tergantung dari sejauhmana aitem- item yang berkualitas (valid) yang telah
aitem dalam tes itu mewakili secara dikalibrasi dan dipilih untuk membentuk
representatif kawasan (domain) satu instrumen pengukuran.
96 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
(power test) dan tes kecepatan (speed ini memberi gambaran bahwa instrumen
test). Perbedaan tes kemampuan dan tes yang disusun tidak boleh terlalu jauh
tes kecepatan adalah : (1) Prinsip dari di bawah atau di atas kemampuan peserta
power test adalah tidak adanya batasan tes, dan tingkat kesukaran item-item soal
waktu dalam mengerjakan tes. Jika sebaiknya berada pada kategori sedang.
waktu pengerjaan tes tidak dibatasi, maka Sehingga dengan demikian instrumen tes
hasil tes benar-benar mengungkapkan yang disusun nantinya dapat berfungsi
kemampuan seseorang secara maksimal dengan baik.
atau menyeluruh. Pembatasan waktu Adapun fungsi tes prestasi belajar
dalam mengerjakan tes, kemungkinan seperti yang disampaikan Ebel (1991),
akan menyebabkan orang menjadi tidak adalah sebagai berikut : (a) Fungsi utama
dapat menunjukkan kemampuan yang tes prestasi adalah untuk mengukur
dimilikinya secara maksimal, sehingga keberhasilan siswa dalam belajar, (b) Tes
skor yang dihasilkan tidak menunjukkan juga dapat membantu guru dan instruktur
seluruh kemampuan yang sebenarnya dalam membuat nilai yang akurat dan
dari peserta tes tersebut. (2) Pada speed bermakna, (c) Tes prestasi belajar
test yang diukur ialah kecepatan di dalam juga berfungsi untuk memotivasi dan
memikirkan atau mengerjakan suatu tes mengarahkan siswa dalam belajar. Siswa
atau tugas. Tes tersebut biasanya relatif (peserta didik) akan cendrung belajar lebih
mudah, sehingga yang diukur benar-benar giat bila mereka dihadapkan pada waktu-
kecepatan bekerja atau berpikir seseorang. waktu dimana ujian akan berlangsung.
(Puspendik, 2006). Dengan kata lain, mereka akan belajar
Dalam menyusun instrumen tes lebih serius pada materi-materi yang
untuk tes prestasi, hal pertama yang harus menurut pemikiran mereka akan diujikan
diperhatikan adalah bagaimana instrumen pada saat berlangsungnya tes.
tes yang akan disusun tersebut bisa
sepadan dengan kemampuan seseorang D. Validitas dan Reliabilitas Tes
yang akan di berikan tes. Untuk hal ini,
1. Validitas Tes
Hayat (2000), menyatakan bahwa pada tes
Validitas sebuah tes
prestasi belajar sebuah tes dengan jumlah
memberitahukan kepada kita tentang apa
item yang banyak dan seluruh itemnya
yang bisa disimpulkan dari skor-skor tes.
bertaraf kesukaran sedang (on-target) bagi
Dalam kaitan ini kita seharusnya waspada
orang yang menempuh tes, akan mendapat
menerima tes sebagai indeks dari apa
informasi yang lebih teliti mengenai orang
yang diukur. (Anastasi & Urbina, 2006).
yang diukur jika dibandingkan dengan
Validitas menurut Cronbach adalah sebagai
tes yang itemnya sedikit dan tingkat
proses dimana pembuat tes atau pengguna
kesukarannya tidak matching dengan
tes mengumpulkan bukti-bukti untuk
kemampuan peserta tes (off-target). Hal
98 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
lain jika item-item soal mengukur aspek 2) Muatan faktor standar
berpikir tersebut sudah sesuai dengan aspek (standardized loading factors)
berpikir yang menjadi tujuan instruksional lebih besar atau sama dengan
(indikator). 0.70, (standardized ³ 0.70),
Seperti halnya validitas isi, validitas (Wijanto, 2008).
konstruksi dapat diketahui dengan cara c. Validitas “ada sekarang”
merinci dan memasangkan setiap item (concurrent validity)
soal dengan setiap aspek dalam Tujuan Validitas ini lebih umum dikenal
Instruksional Khusus (indikator). dengan validitas emperis. Sebuah tes
Apabila hal tersebut di atas tidak dikatakan memiliki validitas emperis
dapat dilakukan, maka cara yang paling jika hasilnya sesuai dengan pengalaman.
sederhana adalah dengan melalukan Jika ada kata “sesuai” tentu ada dua hal
analisis faktor konfirmatori. Analisis ini yang dipasangkan. Dalam hal ini hasil tes
dilakukan untuk mengetahui validitas dipasangkan dengan hasil pengalaman.
kontruk sebuah tes, sehingga tes yang Pengalaman selalu mengenai hal yang telah
dibagun benar-benar mengukur suatu lampau sehingga data pengalaman tersebut
aspek yang hendak diukur. Analisis faktor sekarang sudah ada, makanya validitas
konfirmatori dapat dilakukan dengan ini disebut validitas “ada sekarang” atau
bantuan program LISREL. concurrent).
Dalam analisis dengan program Dalam membandingkan hasil
LISREL, kriteria yang digunakan untuk sebuah tes maka diperlukan suatu
dapat mengetahui nilai validitas konstruk kriterium atau alat banding. Maka hasil tes
adalah pada besar kecilnya loading factors merupakan sesuatu yang dibandingkan.
yang diperoleh oleh setiap item pada saat d. Validitas prediksi (predictive
dilakukan pengukuran. validity)
Para ahli pengukuran Memprediksi artinya meramal,
mengungkapkan beberapa batasan nilai dengan meramal selalu mengenai hal
loading factors yang dapat digunakan yang akan datang, jadi sekarang belum
untuk menentukan valididtas kostruk suatu terjadi. Sebuah tes dikatakan memiliki
tes diantaranya, Rigdon dan Ferguson, validitas prediksi atau validitas ramalan
1991, serta Doll, Xia Torkzadeh, 1994, apabila mempunyai kemampuan untuk
yang menyatakan bahwa validitas konstruk meramalkan apa yang akan terjadi pada
yang baik adalah yang memiliki : masa yang akan datang.
1) Nilai t muatan faktor (loading Validitas prediksi sangat penting
factors) lebih besar atau sama artinya bila tes yang dimaksudkan berfungsi
dengan nilai kritis ( t-values ³ sebagai prediktor untuk memprediksi
1.96 atau untuk praktisnya ³ suatu keberhasilan di masa yang akan
2.00). datang. Sebagai contoh berdasarkan hasil
100 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
(konsistensi) skor yang diperoleh oleh para dilakukan dengan beberapa pendekatan
subjek yang diukur dengan alat yang sama, umum, diantaranya metode tes-ulang
atau diukur dengan alat yang setara pada (test-retest method), metode tes sejajar
kondisi yang berbeda. (equivalent method), metode konsistensi
Gambaran yang benar-benar ajeg internal (internal consistency method),
pada sebuah instrumen tes memang sangat dan metode belah-dua (split-half method).
sulit untuk diperoleh karena unsur kejiwaan Sebagian para ahli berpendapat bahwa
manusia itu sendiri. Manusia (sebagai pendekatan split-half merupakan bagian
peserta tes) mempunyai kemampuan, dari pendekatan internal concsstency.
kecakapan, sikap dan lain sebagainya yang a. Metode tes ulang (test-retest
cenderung tidak tetap (berubah-rubah) method)
dari waktu ke waktu. Di samping itu ada Metode ini menunjukkan
beberapa faktor ekternal lain yang dapat konsistensi pengukuran dari waktu
mempengaruhi keajegan (reliabilitas) tes ke waktu dan menghasilkan koefisien
seperti yang dikemukan oleh Gulford reliabilitas yang sering disebut koefisien
dalam Arvyaty (2005) adalah, (1) Jumlah stabilitas. Prinsip estimasinya adalah
item dalam suatu tes, semakin banyak item dengan menggunakan suatu instrument
semakin reliabel tes, (2) Waktu untuk pengukur dua kali dengan tenggang waktu
mengerjakan tes, semakin lama semakin tertentu terhadap sekelompok subjek yang
reliabel tes, (3) ketergantungan suatu item sama.
dengan item yang lainnya dalam suatu Kelemahan metode ini adalah
tes akan mengurangi tingkat reliabilitas kurang praktisnya pengenaan tes dua kali
tes, (4) semakin objektif penskoran dan besarnya kemungkinan terjadi efek
hasil tes, semakin reliabel suatu tes, (5) bawaan (carry-over-effects) dari pengenaan
kemungkinan menebak dalam menjawab tes pertama ke kedua. (Azwar, 2007).
item-item pada tes, (6) semakin homogen b. Metode bentuk paralel (equivalent
materi tes semakin reliabel suatu tes. method)
Tinggi rendahnya reliabilitas, Pada metode tes ini digunakan dua
secara emperik ditunjukkan oleh suatu buah tes yang mempunyai kesamaan tujuan,
angka yang disebut koefisien reliabilitas. tingkat kesukaran dan susunan, tetapi item-
Pada awalnya, tinggi rendahnya reliabilitas item soalnya berbeda. Kelemahan dalam
dicerminkan oleh tinggi rendahnya korelasi menggunakan metode ini adalah pengetes
antara dua distribusi skor dari dua alat memiliki beban yang berat karena harus
ukur yang paralel yang dikenakan pada membuat dua instrumen tes yang setara.
sekelompok individu yang sama (Azwar, c. Metode belah dua (split-half
2007). method)
Selanjutnya untuk melakukan Pada metode ini, ada dua cara untuk
estimasi reliabilitas suatu tes dapat membelah item soal yaitu: (a) membelah
102 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
2) Kuder-Richardson-20 (KR-20) dikembangkan oleh Kuder-Richardson,
formula Spearman-Brown, formula error
k st − ∑ pi qi
2
104 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
tingkat kesukaran mendekati 0 atau 1
p=
∑ x maka item item tersebut dikategorikan
Sm N
(2.5) ekstrim. Item item yang ekstrim mudah
Dimana : dan ekstrim sulit tidak memberikan
p proporsi menjawab benar / tingkat informasi yang berguna bagi sebagian
kesuakaran; besar peserta tes. Oleh sebab itu, item item
Σx banyaknya peserta tes yang seperti ini kemungkinan distribusi jawaban
menjawab benar; pada alternatif jawaban ada yang tidak
Sm skor maksimum; memenuhi syarat (Hayat et.al, 1999).
N jumlah peserta tes. b. Daya Beda Item
Sebenarnya dalam teori tes klasik, Daya beda item atau daya pembeda
tingkat kesukaran item dapat dikatakan item adalah kemampuan sesuatu item
sebagai tingkat kemudahan karena untuk membedakan antara siswa yang
semakin tinggi indeks tingkat kesukaran berkemampuan tinggi (pandai) dengan
yang diperoleh oleh satu item/soal maka siswa yang berkemampuan rendah
item tersebut semakin mudah, begitu juga (Arikunto, 2008). Dan lebih rinci lagi
sebaliknya item yang memiliki indeks Crocker & Algina dalam bukunya
tingkat kesukaran makin rendah maka item Introduction To Classical & Modern
tersebut semakin sulit. Besarnya tingkat Test Theory (1986) menyebutkan bahwa
kesukaran berkisar antara 0 sampai dengan secara umum daya pembeda item
1. merupakan kemampuan suatu item dalam
Tingkat kesukaran biasanya membedakan kelompok aspek yang diukur
dibedakan menjadi tiga kategori. Item yang sesuai dengan perbedaan yang ada dalam
memiliki p < 0.3 biasanya disebut dengan kelompok itu. Parameter daya beda item
item sukar. Item yang memiliki p > 0.7 disebut sebagai indeks daya beda yang
biasanya disebut dengan item mudah. Dan hanya dapat diaplikasikan pada item yang
item yang memiliki p antara 0.3 sampai bersifat dikotomus.
dengan 0.7 biasanya disebut sebagai item Angka yang menunjukkan besarnya
sedang, seperti tampak pada tabel dibawah daya beda disebut indeks diskriminasi
ini: disingkat dengan D. Dan besarnya angka
Tabel 2. 2 Kriteria Tingkat Kesukaran yang menunjukkan daya beda item berkisar
Kriteria Tingkat antara -1 sampai dengan +1. Tanda negatif
Kategori Item
Kesukaran (p) menunjukkan bahwa peserta tes yang
p > 0.7 Mudah berkemampuan rendah dapat menjawab
0.30 < p < 0.70 Sedang
benar item tersebut sedangkan peserta tes
p > 0.30 Sukar
yang berkemampuan tinggi menjawab
Sumber : Hayat, et.al., 1999.
salah. Dengan demikian dapat disebutkan
Item item yang memiliki indeks
bahwa daya beda item sama dengan
106 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
dengan menggunakan persamaan : dengan kriteria dan taraf kesukaran.
c. Kehandalan Distraktor
M p − Mt p Yang dimaksud dengan kehandalan
rpbis =
St q (keberfungsian) distraktor disini adalah
(2.8)
distribusi peserta tes dalam menentukan
rpbis koefisien korelasi point biserial; pilihan jawaban pada item bentuk pilihan
Mp mean skor pada tes dari peserta tes ganda. Tes bentuk pilihan ganda terdiri
yang memiliki jawaban benar pada dari item yang berisi permasalahan yang
item item; ditanyakan dan kemungkinan pilihan
Mt mean skor total; jawaban (penyebaran pilihan jawaban).
St standar deviasi pada skor total; Dan dari sekian banyak pilihan jawaban
p proporsi peserta tes yang hanya terdapat satu jawaban yang paling
jawabannya benar pada item item; benar yang disebut dengan kunci jawaban
q proporsi jawaban salah peserta tes sedangkan selebihnya adalah pilihan
= 1 – p. jawaban yang tidak benar yang disebut
distraktor (pengecoh).
2) Korelasi Biserial Distraktor yang baik adalah
Korelasi biserial dapat ditentukan distraktor yang memiliki homogenitas
dengan persamaan: dengan kunci jawaban. Sebaliknya
distraktor akan menjadi kurang baik apabila
M p − Mt p pilihan jawaban selain kunci atau distraktor
rbis =
St y tidak memiliki homogenitas dengan
(2.9)
kunci jawaban. Kehandalan distraktor
rpbis koefisien korelasi point biserial;
juga berfungsi sebagai pengidentifikasian
Mp mean skor pada tes dari peserta tes
peserta tes yang berkemampuan tinggi dan
yang memiliki jawaban benar pada
peserta tes yang berkemampuan rendah.
item item;
Distraktor akan berfungsi apabila
Mt mean skor total;
dipilih secara merata oleh peserta tes.
St standar deviasi pada skor total;
Dengan kata lain dapat disebutkan bahwa
p proporsi peserta tes yang
proporsi peserta tes yang menjawab pilihan
jawabannya benar pada item item;
jawaban tertentu, baik kunci jawaban
y ordinat p atau nilai y dalam
maupun distraktor menyebar pada seluruh
distribusi normal.
pilihan jawaban. Penyebaran pilihan
jawaban berkisar antara 0 sampai dengan
Nilai korelasi point biserial selalu
1. Sehingga suatu pilihan jawaban selain
lebih rendah jika dibandingkan dengan nilai
kunci dikatakan berfungsi dengan baik
korelasi biserial. Koefisien point biserial
apabila dipilih paling sedikit oleh 2.5 %
merupakan kombinasi hubungan antar item
≥ 0.025 ) peserta tes. (Zulaiha, 2008).
108 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
a. Unidimensionalitas dan faktor lain yang mempengaruhi). Akan
IRT mengisyaratkan asumsi tetapi model 4 parameter dalam analisis
unidimensionalitas yang berarti bahwa teori tes modern belum banyak digunakan.
setiap item hanya mengukur satu ciri Sementara Hambleton, et.al,
laten peserta (kemampuan). Secara (1991) dalam bukunya Fundamentals of
praktik asumsi ini sukar untuk dipenuhi Item Response Theory membagi model
sepenuhnya, sebab ada beberapa faktor parameter logitik menjadi tiga model yaitu:
lain dapat memengaruhi hasil suatu tes. a. Model satu parameter (1PL atau
Sebenarnya unidimensionalitas dalam teori model rasch),
tes modern ini adalah adanya faktor yang yaitu model yang hanya
paling dominan memengaruhi hasil suatu menganalisis pada parameter tingkat
tes. Dan faktor itu adalah kemampuan kesukaran item (threshold/b). Model IRT
peserta tes. ini murupakan model yang paling sering
b. Independensi lokal digunakan. Formula untuk model 1 PL ini
Independensi dapat diartikan adalah :
bahwa setiap item yang ada dalam suatu
e (θ −bi )
tes tidak saling berkorelasi satu sama lain Pi (θ ) =
akibat respon peserta tes. Dengan kata 1 + e (θ −bi )
(2.11)
lain, kemampuan yang dinyatakan dalam
model ini adalah satu-satunya faktor yang Dimana :
memengaruhi respons peserta tes pada i 1, 2..., n;
item-item soal tertentu. Pi(θ) kemungkinan sampel
c. Fungsi karakteristik item. menjawab secara tepat
Fungsi karakteristik item dengan kemampuan
menyatakan hubungan sebenarnya antara menjawab benar pada item
variabel yang tak terobservasi (yaitu tersebut
kemampuan) dengan variabel terobservasi bi parameter tingkat
(yaitu respons item). kesukaran
Model teori tes modern atau Item n jumlah item tes
Respon Theory (IRT) oleh safari (2005) e bilangan transedental yang
dikategorikan dalam 4 model, yaitu, (1) bernilai 2.718
model 1 parameter atau rasch model Parameter bi untuk sebuah
(tingkat kesukaran item/threshold), item merupakan suatu titik pada skala
(2) model 2 parameter (threshold dan kemampuan dimana probablitas menjawab
daya beda item/slope) dan , (3) model 3 benar peserta tes sebesar 0.5. Parametar
parameter (threshold, slope, dan faktor bi diperoleh melalui titik potong kurva
menebak/asymptote), dan (4) model 4 probabilitas peserta tes yang menjawab
parameter (threshold, slope, asymptote, benar dan kurva probabilitas peserta tes
110 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
didefinisikan sebelumnya. Parameter yang penelitian ini penulis menjelaskan tentang
bertambah pada model ini adalah ci yang analisis regresi sederhana dikarenakan
biasa disebut faktor guessing atau pseudo- data penelitian ini hanya terdiri dari satu
chance level, dan dalam istilah lain dapat independen variabel.
disebut dengan asymptote. Nilai asymptote Analisis regresi sederhana
akan mempengaruhi probabilitas peserta merupakan salah satu bagian dari tekhnik
tes dalam menjawab benar satu item. analisis regresi parametrik yang dapat
Asymptote yang tinggi akan menyebabkan memberikan dasar untuk memprediksi
semakin tinggi pula probabilitas peserta tes besarnya variasi serta menganalisis varian,
untuk menjawab benar item tersebut. (Triton, 2006).
Tujuan dilakukan analisis regresi
F. Analisis Regresi Sederhana adalah untuk, 1) menentukan persamaan
garis regresi berdasarkan nilai konstanta
Analisis regresi dikembangkan
dan koefisien regresi yang dihasilkan, 2)
untuk mengkaji dan mengukur hubungan
mencari korelasi bersama-sama antara
antar dua variabel atau lebih. Dalam
variabel independen dengan variabel
analisis regresi dikembangkan persamaan
dependen, 3) mengitung besarnya variasi
estimasi untuk mendeskripsikan pola atau
pada variabel dependen yang dapat
fungsi hubungan antar variabel. Sesuai
dijelaskan oleh variabel independen, dan
dengan namanya, persamaan regresi itu
4) menguji signifikansi pengaruh variabel
digunakan untuk mengestimasi nilai dari
independen terhadap variabel dependen
suatu variabel berdasarkan nilai variabel
melalui uji F atau uji t.
lainnya. Variabel yang diestimasi itu
Bentuk hubungan antara variabel
disebut variabel dependen. Sedangkan
independen dengan variabel dependen
variabel yang diperkirakan mempengaruhi
dapat digambarkan dalam satu garis yang
variabel dependen itu disebut variabel
disebut garis regresi. Garis regresi dapat
independen, (Reksoatmodjo, 2007).
berbentuk garis lurus (linier) atau garis
Analisis regresi terdiri dari analisis
melengkung (non linier). Hubungan linier
regresi sederhana dan analisis regresi
digambarkan oleh kesamaan perubahan
berganda. Analisis regresi sederhana
variasi yang tetap baik penurunan atau
(simple regression analysis) adalah
peningkatan yang terjadi pada variabel
analisis regresi yang menggunakan hanya
dependen dan variabel independen.
satu variabel independen (independent
Sementara hubungan non liner kebalikan
variabel) dan satu variabel dependen
dari hubungan linier, yaitu perubahan
(dependent variabel). Sedangkan analisis
peningkatan atau penurunan variasi yang
regresi berganda (multi regression analysis)
terjadi tidak konsisten.
menggunakan lebih dari satu variabel
Sehubungan dengan kemungkinan
independen. Namun demikian pada
bentuk garis hasil analisis regresi ini,
∑x 2
=∑X2 −
N
memotong sumbu Y; dan (2.19)
b1 koefisien regresi atau sering disebut dan
slope. (∑ Y ) 2
112 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
digunakan untuk menentukan besarnya kegiatan pendidikan formal di kelas, tes
variasi yang terjadi pada variabel dependen
prestasi belajar dapat berbentuk ulangan-
Y yang sering disebut kriterium atau ulangan harian, tes formatif, tes sumatif
kriteria berdasarkan data yang terdapat dan beberapa bentuk tes lainnya.
pada variabel independen X yang disebut Dalam menyusun instrumen tes
prediktor. untuk tes prestasi, yang harus diperhatikan
Terakhir adalah menguji
adalah bagaimana instrumen tes bisa
signifikansi pengaruh variabel independen
sepadan dengan kemampuan seseorang
terhadap variabel dependen melalui uji yang akan di berikan tes. Tes prestasi
F, sehingga diperoleh persamaan sebagai belajar merupakan sebuah tes dengan
berikut: jumlah item yang banyak dan seluruh
itemnya bertaraf kesukaran sedang (on-
target) bagi orang yang menempuh tes. Hal
b 2 x∑ ( X − X )
F= ini memberi gambaran bahwa instrumen
S e2
(2.22) tes yang disusun tidak boleh terlalu jauh
di bawah atau di atas kemampuan peserta
Dimana nilai a, b dan Se diperoleh dari tes, dan tingkat kesukaran item-item soal
persamaan-persaman di bawah ini : sebaiknya berada pada kategori sedang.
Sehingga dengan demikian instrumen tes
yang disusun nantinya dapat berfungsi
a = Y + b1 X dengan baik.
(2.23)
dan Daftar Pustaka
A., & Urbina, S. (2006). Tes
b=
∑ XY − n. X .Y ) Anastasi,Psikologi. Edisi Ketujuh, (Imam, R.
∑ X 2 − n. X 2
(2.24) H. S. Penerjemah) Jakarta : Indeks
serta Arikunto, S. (2008). Dasar-dasar Evaluasi
Pendidikan, Edisi Revisi, Jakarta :
Se =
∑ Y 2 − a.∑ Y −b.∑ XY
Bumi Aksara.
n−2
(2.25) Arvyaty. (2005). Komparasi Bentuk Tes
ditinjau dari Tingkat Kesukaran
Item, Daya Beda item, dan
G. Kesimpulan Reliabilitas Tes, Tesis Pascasarjana,
tidak diterbitkan, Universitas
Tes prestasi merupakan tes Negeri Jakarta.
yang disusun secara terencana untuk
Azwar, S. (2000). Reliabilitas dan Validitas,
mengungkap performansi maksimal
Yokyakarta : Pustaka Pelajar.
subjek dalam menguasai bahan-bahan
atau materi yang telah diajarkan. Dalam Azwar, S. 2007). Tes Prestasi, Fungsi
Chaplin, J.P. (2005). Kamus Lengkap Naga, S. D. (1992). Pengantar Teori Sekor
Psikologi, Jakarta : PT. Raja pada Pengukuran Pendidikan,
Jakarta: Gunadarma
Grafindo Persada
Nunnaly, J.C., & Ira, H. B. (1994).
Crocker, L. & Algina, J. (1986).
Psychometric Theory.3rd ed. New
Introduction to Classical and
York, McGraw-Hill, Inc
Modern Test Theory, New York :
Holt, Rinehart and Winston, Inc. Pusat Penilaian Pendidikan Balitbang
Depdiknas. (2006). Urgensi Ujian
Departemen Pendidikan Nasional,
Nasional, Jakarta.
Direktorat Jenderal Pendidikan
Dasar dan Menengah, Direktorat Reksoatmodjo, T. N. (2007). Statistika
untuk Psikologi dan Pendidikan,
Tenaga Kependidikan. (2003). Bandung; Refika Aditama
Sistem Penilaian Kelas SD, SMP,
SMA dan SMK, Jakarta : Pengarang. Safari. (2005). Teknik Analisis Item Item
Instrumen Tes dan Non-Tes, Jakarta
Ebel, R. L. & Frisbie, D.A. (1991). Essentials ; Depdiknas
of Educational Measurement, New
Jersey : Prentice Hall. Surapranata, S. (2006). Analisis, Validitas,
Reliabilitas dan Interpretasi
Hambleton, R. K., Swaminathan, H., & Hasil Tes, Bandung ; PT.Remaja
Rogers, H. J. (1991). Fundamentals Rosdakarya.
of Item Response Theory,
California. ; Sage Publication Inc. Suryabrata, S. (2006). Pengembangan
Alat Ukur Psikologis, Yogyakarta :
Hayat, B. (2000). Pengantar Model Rasch Andi.
(Kalibrasi item), Jakarta : Pusat
Penelitian Pendidikan Balitbang Triton, (2006). SPSS 13.0 Terapan, Riset
Depdiknas.. Statistik Parametrik, Yogyakarta :
Andi.
Hayat, B., & Setiadi, H. (1998). Mendesain
Instrumen tes Dengan Model Rasch, Weitzman, R. A. (1982). The Prediction
Jakarta ; Pusat Penelitian dan of College Achievement by the
Pengembangan Sistem Pengujian, Scholastic Aptitude Test and the
Balitbang Dikbud. High School Record. Journal of
Educational Measurement, Vol. 19,
Hayat, B., Surapranata, S,. & Suprananto. No. 3. (Autumn, 1982).
114 | At-Ta’dib: Jurnal Ilmiah Pendidikan Agama Islam Volume 10, No. 1, Juni 2018
Wijanto, H.S. (2008). Structural Equation Zulaiha, R. (2008). Analisis Item Secara
Modeling dengan Lisrel 8.8 Konsep Manual, Jakarta : Pusat Penilaian
& Tutorial. Yogyakarta : Graha Pendidikan.
Ilmu.