Item analysis
Tujuan umum
Untuk menentukan apakah setiap item tes merupakan item yang baik (ada kriteria tertentu
untuk mengatakan item baik)
Tujuan khusus
Analisis item
- Item dapat dianalisis secara kualitatif (melalui content dan form) dan secara kuantitatif
(melalui properti statistik)
- Analisis item dapat membuat tes menjadi lebih pendek sekaligus meningkatkan validitas
dan reliabilitas
- Walaupun “a longer test is more valid and reliable than a shorter one” namun ketika
sebuah tes diperpendek dengan menghapus item yang kurang baik melalui analisis
item, maka tes yang lebih pendek menjadi lebih valid dan reliabel
1. Isi (content)
- Apakah item-item yang dipilih sudah sesuai dengan dimensi-dimensi atau indikator
tingkah laku yang akan diukur (content validity)
- Apakah sudah sesuai dengan apa yang ingin diukur
2. Bentuk (form)
- Apakah item-item ditulis dengan prosedur penulisan yang efektif
- Cara penulisan, environment tes pas diadministrasikan
- Is a general term for various non statistical procedures designed to explore how
individual test items work
- Tidak menggunakan angka, menggunakan judgement kualitatif : revisi hapus
- Involve exploration of the issues through verbal means such as interviews and group
discussions conducted with test taskers and other relevant parties (mis : publisher etc.)
- Table 8-3 : potential areas of exploration by means of qualitative item analysis (Cohen &
Swerdik, 2010)
- On a one to one basis w/ examiner, examinees asked to take a test, thinking aloud as
they respond to each item
- Or bisa disuruh kerjain dulu terus di wawancara
- Achievement : assessing not only if certain students (such as low/high scorers on
previous examinations) are misinterpreting a particular item but also why and how they
are misinterpreting the item. - apakah yg mrk persepsikan susah saat jawab : layoutnya,
bahasanya, cetakannya, ga jelas fontnya, dll.
- Personality or some aspect of it, regarding the way individuals perceive, interpret, and
respond to the items (respons sesuai ga sm how the perceive or interpret). testee bisa
diminta paraphrase the items.
- Expert panels : sejumlah orang yang ahli dalam bidang yg terkait dengan konstruk or
ahli bahasa, psychometrician, in addition to interviewing testtakers individually or in
groups, expert panel may also provide qualitative analysis of test items. sejauh mana
item sudah memiliki kualifikasi seberapa baik item yang ada.
- A sensitivity review is a study of test items, typicaly conducted during the test
development process, in which items are examined for fairness to all prospective test
takers and for the presence of offensive language, stereotypes, or situation.
- Expert siapa? biasanya seseorang yang sudah sering melakukan penelitian dalam suatu
bidang tingkah laku tertentu pada psikologi.
Item difficulty
- Digunakan pada maximum performance test yang memiliki item yang di skor dikotomi
bener/salah
- Dihitung dengan index kesulitan item (p) melalui proporsi penempuh test yang
menjawab suatu item dengan benar
p = number of persons answering the item correctly / number of test takers who answer the item
- Memilih item dengan derajat kesulitan yang sesuai dengan tujuan tes
- Tujuan tes ada seleksi & mastery. seleksi : sejauh mana tingkat kesukaran item sudah
sesuai dengan selection raton, mastery : 0,8 or 80% dianggap sebagai rata2
menentukan bahwa suatu item pada test mastery dianggap baik
- Mengatur urutan item pada tes agar item difficulty berurut secara progresif, di bagian
awal tes diberikan item yang mudah kemudian semakin sulit (agar penempuh test
memiliki kepercayaan diri mengerjakan tes dan mengurangi membuang waktu pada item
yang sulit)
- Distribusi skor item diasumsikan mengikuti distribusi normal, demikian juga dengan
tingkat kesulitan item
- Melalui konversi berdasarkan kurva normal, maka p yang berskala ordinal dapat
dikonversi menjadi z yang berskala interval. Misal suatu item memiliki p = 0.84, maka z
= -1
- Gambar kurva liat di ppt
1. Proporsi dihitung dari kanan
2. Dengan tabel kurva normal, proporsi dikonversi menjadi z
3. Semakin mudah item, semakin kecil nilai z
- Dalam typical performance test (skala likert yang tidak ada jawaban benar-salah), maka
konsep yang serupa dengan item difficulty adalah proportion of endorsement index.
- Pada POE, yang dihitung adalah proporsi partisipan yang menjawab setuju pada suatu
item. prinsipnya relatif sama, kesetujuan dilihat sebagai yang “benar” (social desirability)
- Caranya : (a) jawaban diubah menjadi 1 dan 0 (1: setuju, 0 : tidak setuju), (b) cari
proporsi subjek yang setuju
- Jumlah individu ideal yang diharapkan memilih setiap distraktor pada item yang
dianalisis.
- EDP= jumlah subyek yang menjawab salah / jumlah distraktor
- Actual distractor power
(a) Jumlah individu yang memilih setiap distraktor pada item yang dianalisis
- Contoh tabel dan analisis liat ppt
Item discrimination
- Menggunakan kriteria
- Extreme group method (typical performance test ga bisa pake ini)
- Distractor power (friedenberg, 1995) atau analysis of item alternatives (cohen & swerdik,
2010)
Menggunakan kriteria
Kelebihan
Interpretasi
- Apabila korelasi yang didapatkan signifikan, maka dapat dianggap item yang memiliki
kemampuan mendiskriminasi yang baik significant level,
- Statistik : signifikansi akan dipengaruhi oleh degrees of freedom, semakin besar dfnya
semakn mungkin untuk mendapatkan hasil sig walaupun korelasi kecil, lebih sering
digunakan besaran nilai korelasi (biasanya minimal +0,2 or +0,3),
- Semakin tinggi akan lebih sedikit item yang eligible.
- Membandingkan performa pada itm antara kelompok individu berskor total tinggi (upper
group) dengan kelompok individu berskor total rendah (lower group)
- D = pu-pL
- pu = item difficulty di kelompok upper
- pL - item difficulty di kelompok lower
- Hanya untuk item maximum performance test yang diskor benar-salah. (krna
menggunakan item difficulty
- Besar kemampuan daya beda item tidak dapat diketahui dengan pasti, karena yang
diketahui hanya selilsih proporsi individu menjawab benar.
Pengertian validitas
- Judgement or estimate of how well a test measures what it purports to measure in
particular context (Cohen, Swerdlik & Sturman, 2013).
- Apa yang diukur oleh tes dan seberapa tepat tes mengukur apa yang hendak diukur
(Anastasi & Urbina, 1997).
- Agreement between a test score or measure and the quality it is believed to measure
(Kaplan & Saccuzzo, 2005).
- Sebuah tes dapat dikatakan valid hanya apabila interpretasi yang dibuat berdasarkan
hasil test tersebut sesuai dengan kenyataan sebenarnya.
Prosedur validasi
- Validation is the process of gathering and evaluating evidence about validity (Cohen &
Swerdlik & Sturman, 2013).
- Semua prosedur validasi tes mempertimbangkan hubungan antara skor tes dengan
fakta-fakta lain yang observable dan independent dari trait yang akan diukur (Anastasi &
Urbina, 1997).
Content validity
- Describes a judgement of how adequately a test samples behavior representative of the
universe of behavior that the test was designed to sample (Cohen, Swerdlik, & Sturman,
2013).
- ...pengujian sistematis terhadap isi suatu tes untuk menentukan apakah tes tersebut
sudah mencakup sampel yang representatif terhadap ‘behavior domain’ yang akan
diukur (Anastasi & Urbina, 1997).
- Assertiveness tests would contain items sampling from hypothetical situations : at home,
on the job, in social situations.
- Education achievement tests, when the proportion of material covered by the test
approximates the proportion of material covered in the course.
- Content validity evidence has been of greatest concern in educational testing (Kaplan &
Saccuzzo, 2005)
The quantification of content validity
- Content validity ratio (CVR) : developed by C.H. Lawshe, is essentially a method for
gauging agreement among raters or judges regarding how essential a particular item is.
1. Essential
2. Useful but not essential
3. Not necessary
- Where :
- ne = numbers of panelists including “essential”
- N = total number of panelists
What is a criterion?
- Relevant : it is pertinent or applicable to the matter at hand.
- Valid : If one test (X) is being used as the criterion to validate a second test (Y), then
evidence should exist that test X is valid.
- Uncontaminated : a criterion measure that has been based, at least in part, on predictor
measures.
Criterion contamination
- Terjadi ketika pengukuran kriteria dipengaruhi oleh pengetahuan tentang skor tes yang
hendak diuji validitasnya.
- Contoh : “Inmate Violence Potential Test” (IVPT) designed to predict a prisoner’s
potential for violence in the cell block. In part, this evaluation entails ratings from fellow
inmates, guards, and other staff in order to come up w/ a number that represents each
inmate violence potential.
- After all of the inmates in the study have been given scores on this test, the study
authors then attempt to validate the test by asking guards to rate each inmate on their
violence potential.
Common categories criterion measures criterion prediction procedures (Anastasi & Urbina,
1997)
- Academic achievement
- Performance in specialized training
- Job performance
- Contrasted group
- Psychiatric diagnosis
- Rating
- Previously available test
How high should a validity coefficient be for a user or a test developer to infer that the test is
valid?
- The validity coefficient should be high enough to result in the identification and
differentiation of test takers with respect to target attribute(s) (Cohen, Swerdlik &
Sturman, 2013).
- Harus signifikan pada level tertentu dan cukup tinggi untuk dapat mengidentifikasi dan
membedakan individu (Anastasi & Urbina, 1997).
Contoh interpretasi
- Ada koefisien korelasi r = 0,8 (signifikan pada LOS 0,05) sebagai hasil uji validitas
prediktif antara tes SIMAK UI dengan nilai IPK.
- Hal ini menunjukkan bahwa 64% proporsi varians nilai IPK dijelaskan oleh tes SBMPTN.
Dengan demikian, SBMPTN dapat dikatakan valid untuk memprediksi keberhasilan
belajar di perguruan tinggi.
Construct validity
- Judgement about the appropriateness of inferences drawn from test scores regarding
individual standings on a variable called a construct (Cohen, Swerdlik & Sturman, 2013).
- Ukuran seberapa tepat tes mengukur suatu theoretical construct tertentu (trait maupun
abilities (Anastasi & Urbina, 1997).
Evidence of homogeneity
- ...refers to how uniform a test is in measuring a single concept
- Contoh :
1. Correlate average subtests scores with the average total test score.
2. Subtests/items that in the test developer’s judgement do not correlate very well
with the test as a whole might have to be reconstructed (or eliminated) lest the
test not measure the construct academic achievement.
- Padanan (Anastasi & Urbina, 1997) = Internal consistency menguji validitas tes untuk
mengukur konstruk yang bersifat unidimensi (bukan gabungan beberapa sub-konstruk).
Test scores correlate with scores on other tests in accordance with what would be predicted
from a theory that covers the manifestation of the construct in question.
- Convergent evidence : correlation with other test
- Discriminant evidence
- Factor analysis
Convergent evidence
- Scores on the test undergoing construct validation tend to correlate highly in the
predicted direction with scores on older, more established, and already validated tests
designed to measure the same (or similar) construct.
- Convergent evidence for validity may come not only from correlations with test
purporting to measure an identical construct but also form correlations with measures
purporting to measure related constructs.
Discriminant evidence
- A validity coefficient showing little (that is, a statistically insignificant) relationship
between test scores and/or other variables with which scores on the test being
construct-validated should not theoretically be correlated.
Factor analysis
- …mathematical procedures designed to identify factors or specify variables that are
typically attributes or specific variables that are typically attributes, characteristics, or
dimensions on which people may differ.
- Both convergent and discriminant evidence of construct validity can be obtained by the
use of factor analysis.
- Factor analysis is frequently employed as a data reduction method in which several sets
of scores and the correlations between them are analyzed.