Anda di halaman 1dari 48

KELOMPOK 3

Nama: 1. Puja Ritonga (16 506 001)

2. Justitia Bulotio (16 506 012)

3. Olivia Lintjewas (16 506 031)

PUJA:

Chapter 3 Bab 3
Scale That Measures Learning over Time Skala Yang Mengukur Belajar dari Waktu ke
Waktu

One of the four generalizations from the Salah satu dari empat generalisasi dari
research literature presented in Chapter literatur penelitian yang disajikan dalam Bab
1 was that classroom assessments should 1 adalah bahwa penilaian kelas harus bersifat
be formative in nature, and by defini- tion formatif, dan dengan definisi penilaian
formative assessments measure growth in formatif mengukur pertumbuhan dalam
learning. How, then, does a teacher assess pembelajaran. Jadi, bagaimana seorang guru
in a way that measures growth in learning? menilai dengan cara yang mengukur
This chapter examines that issue. We begin pertumbuhan dalam pembelajaran? Bab ini
by taking a critical look at the point system, membahas masalah itu. Kami mulai dengan
which is the assess- ment system that many melihat secara kritis sistem poin, yang
teachers use. merupakan sistem penilaian yang digunakan
banyak guru.

Why the Point System Falls Short Mengapa Sistem Point Jatuh Pendek

At first, asking “How does a teacher Pada awalnya, bertanya "Bagaimana cara
assess in a way that measures growth in seorang guru menilai dengan cara yang
learning?” might seem like a non sequitur. mengukur pertumbuhan dalam
One might assume that all a teacher needs pembelajaran?" Mungkin tampak seperti
to do is administer a series of assessments tidak berurutan. Orang mungkin berasumsi
for a given measurement topic over a bahwa yang perlu dilakukan oleh seorang
grading period and examine the pattern of guru adalah memberikan serangkaian
scores over time. For example, if a teacher penilaian untuk topik pengukuran yang
wished to track student growth in learning diberikan selama periode penilaian dan
for a specific science mea- surement topic memeriksa pola skor dari waktu ke waktu.
over a quarter, she would construct a Misalnya, jika seorang guru ingin melacak
number of assessments that address the pertumbuhan siswa dalam pembelajaran
topic. In all, she might administer four untuk topik pengukuran sains tertentu lebih
tests of the topic—a pretest at the dari seperempat, ia akan membangun
beginning of the quarter, two tests at the sejumlah penilaian yang membahas topik
end of the third week and the sixth week, tersebut. Secara keseluruhan, ia mungkin
respectively, and an end-of-quarter post- melakukan empat tes topik — pretest pada
test. If the teacher scored all the tests using awal kuartal, dua tes pada akhir minggu
a 100-point, or percentage, scale, tracking ketiga dan minggu keenam, masing-masing,
student learning would be a simple matter dan post-test akhir kuartal. Jika guru
of examining the upward progression of mencetak semua tes menggunakan 100 poin,
scores for each stu- dent across the four atau persentase, skala, pelacakan
assessments. A pattern of scores like the pembelajaran siswa akan menjadi masalah
following would indicate that a student sederhana untuk memeriksa perkembangan
had learned quite a bit: 56, 60, 75, and skor ke atas untuk setiap siswa di empat
86. However, a pattern of scores like the penilaian. Pola skor seperti berikut akan
following would indicate that the student menunjukkan bahwa seorang siswa telah
did not learn a great deal: 65, 68, 70, and belajar cukup banyak: 56, 60, 75, dan 86.
71. Namun, pola skor seperti berikut akan
menunjukkan bahwa siswa tidak belajar
banyak: 65, 68, 70, dan 71.

As intuitively appealing as this system Secara intuitif menarik seperti sistem ini
might appear, it has one major flaw— the mungkin muncul, ia memiliki satu
scores on the various tests are typically not kelemahan utama - skor pada berbagai tes
comparable in terms of students’ biasanya tidak sebanding dalam hal
understanding and skill regarding a pemahaman dan keterampilan siswa
specific measurement topic. That is, just mengenai topik pengukuran tertentu.
because a student receives a score of 56 on Artinya, hanya karena seorang siswa
the first test and 60 on the second test menerima skor 56 pada tes pertama dan 60
doesn’t necessarily mean she has increased pada tes kedua tidak selalu berarti ia telah
her understanding and skill by 4 per- meningkatkan pemahaman dan
centage points. In fact, research indicates keterampilannya dengan 4 poin persentase.
that the score a student receives on a test Faktanya, penelitian menunjukkan bahwa
is more dependent on who scores the test skor yang diterima seorang siswa pada suatu
and how they score it than it is on what ujian lebih tergantung pada siapa yang
the student knows and understands. To memberi skor pada tes itu dan bagaimana
illustrate, consider a study that examined skor mereka daripada pada apa yang
an 8th grade science test (see Marzano, diketahui dan dipahami oleh siswa. Untuk
2002a) with six constructed- response mengilustrasikan, pertimbangkan sebuah
items—items that required students to penelitian yang menguji tes sains kelas 8
explain their answers as opposed to (lihat Marzano, 2002a) dengan enam item
selecting among multiple-choice items. respons terstruktur — item yang
mengharuskan siswa untuk menjelaskan
jawaban mereka sebagai lawan memilih di
antara item pilihan ganda.

Ten students took the test, and their Sepuluh siswa mengikuti tes, dan tanggapan
responses were scored independently by mereka dinilai secara independen oleh lima
five teachers, all of whom were guru, yang semuanya adalah guru sains kelas
experienced 8th grade science teachers 8 yang akrab dengan konten pada tes.
familiar with the content on the test. Namun, sebelum mencetak 10 tanggapan
However, before scoring the 10 students’ siswa, masing-masing guru dengan hati-hati
responses, each teacher carefully read the membaca item tes dan menunjuk poin ke
test items and assigned points to the items item berdasarkan pentingnya persepsi konten
based on the perceived importance of the yang ditujukan pada setiap item. Ini, tentu
content addressed in each item. This, of saja, adalah praktik umum yang
course, is a common practice direkomendasikan dalam banyak teks
recommended in many texts on classroom tentang penilaian kelas (lihat Airasian, 1994;
assess- ment (see Airasian, 1994; Brookhart, 2004; McMillan, 2000).
Brookhart, 2004; McMillan, 2000).
Although this practice seems perfectly Meskipun praktik ini tampaknya sangat
reasonable, it creates havoc in terms of masuk akal, ini menciptakan kekacauan
interpreting and comparing students’ dalam hal menafsirkan dan membandingkan
scores simply because different teachers nilai siswa hanya karena guru yang berbeda
will assign different weights to items. To akan menetapkan bobot yang berbeda untuk
illustrate, consider Figure 3.1, which item. Untuk mengilustrasikan, perhatikan
shows the points assigned by each teacher Gambar 3.1, yang menunjukkan poin yang
to each item. Immediately below each diberikan oleh masing-masing guru untuk
point designation is the percentage of the setiap item. Tepat di bawah setiap
total represented by the points. For penunjukan poin adalah persentase dari total
example, Teacher 1 assigned a total of 50 yang diwakili oleh poin. Sebagai contoh,
points across the six items, with 10 points Guru 1 menetapkan total 50 poin di enam
going to items 1 and 3; 15 points to item item, dengan 10 poin pergi ke item 1 dan 3;
2; and 5 points each to items 4, 15 poin ke item 2; dan 5 poin masing-masing
5, and 6. The items assigned 10 points ke item 4,5, dan 6. Item-item tersebut
each account for 20 percent of the total menetapkan 10 poin setiap akun untuk 20
score, the item assigned 15 points persen dari total skor, item yang ditugaskan
accounts for 30 percent of the total score, 15 poin menyumbang 30 persen dari total
and the items worth 5 points each account skor, dan item-item bernilai 5 poin masing-
for 10 percent of the total. masing akun untuk 10 persen dari total.

The item weights assigned by the Bobot item yang ditugaskan oleh guru
teachers show a definite pattern. All teach- menunjukkan pola yang pasti. Semua guru
ers assigned items 1, 2, and 3 more points menugaskan item 1, 2, dan 3 poin lebih
than items 4, 5, and 6. However, the banyak dari item 4, 5, dan 6. Namun, para
teachers were not consistent in the number guru tidak konsisten dalam jumlah poin yang
of points they assigned. The most dis- mereka tetapkan. Pola pembobotan yang
crepant pattern of weighting was that of paling mengecewakan adalah bahwa Guru 3,
Teacher 3, who assigned 45 points to the yang menugaskan 45 poin ke item pertama
first item and 15 points to items 2 and 3. dan 15 poin ke item 2 dan 3. Seperti yang
As computed by Teacher 3, then, the dihitung oleh Guru 3, maka, kontribusi relatif
relative contribution of these three items to dari ketiga item ini terhadap skor total
the total score a student might receive was seorang siswa mungkin menerima masing-
50 percent, 16.7 percent, and 16.7 percent, masing 50 persen, 16,7 persen, dan 16,7
respectively. In contrast, the rel- ative persen. Sebaliknya, kontribusi relatif dari
contribution of the first three items for tiga item pertama untuk Guru 1 adalah 20
Teacher 1 was 20 percent, 30 per- cent, persen, 30 persen, dan 20 persen.
and 20 percent.

The differences in the points or weights Perbedaan dalam poin atau bobot yang
assigned to the items explain in part the ditugaskan untuk item menjelaskan sebagian
wide variation in the students’ final test variasi luas dalam nilai tes akhir siswa.
scores. To illustrate, consider Figure 3.2 (p. Untuk mengilustrasikan, pertimbangkan
32), which reports each student’s total Gambar 3.2 (hal. 32), yang melaporkan skor
score as computed by each teacher. When total setiap siswa sebagaimana dihitung oleh
examining the figure, it is important to note masing-masing guru. Saat memeriksa
that the total score for each stu- dent has gambar, penting untuk dicatat bahwa skor
been translated to a percentage, or 100- total untuk setiap siswa telah diterjemahkan
point, scale. To dramatize the dif- ferences ke skala persentase, atau 100 poin. Untuk
in final scores for individual students from mendramatisasi perbedaan dalam skor akhir
untuk masing-masing siswa dari guru ke
teacher to teacher, consider the total score guru, pertimbangkan skor total untuk Siswa
for Student 2 as computed by Teacher 2 2 yang dihitung oleh Guru 2 (91) versus Guru
(91) versus Teacher 3 (50). This 41-point 3 (50). Ini perbedaan 41 poin adalah yang
differential is the largest between teachers terbesar antara guru dalam penelitian ini, dan
in the study, and it makes sense given the masuk akal mengingat perbedaan dalam
difference in their weighting schemes. skema pembobotan mereka. Mengkaji ulang
Reexamining Figure 3.1, we see that Gambar 3.1, kita melihat bahwa Siswa 2
Student 2 received a final percentage score menerima skor persentase akhir dari Guru 2
of 91 from Teacher 2 because the student karena siswa memperoleh poin berikut pada
obtained the following points on the six enam item dengan total 82 poin:
items for a total of 82 points: • 20 dari 25 poin untuk item 1

• 20 of 25 points for item 1 • 25 dari 25 poin untuk item 2 dan 3

• 25 of 25 points for items 2 and 3 • 4 dari 5 poin untuk item 4, 5, dan 6

• 4 of 5 points for items 4, 5, and 6


Mendapatkan 82 dari 90 poin berarti
persentase skor 91.
Getting 82 out of 90 points translates to a
percentage score of 91.

Student 2 received a final percentage Siswa 2 menerima skor persentase akhir 50


score of 50 percent from Teacher 3 based persen dari Guru 3 berdasarkan tugas poin
on the following point assignments: berikut:
• 20 of 45 points for item 1 • 20 dari 45 poin untuk item 1
• 10 of 15 points for items 2 and 3 • 10 dari 15 poin untuk item 2 dan 3

• 2 of 5 points for items 4 and 5 • 2 dari 5 poin untuk item 4 dan 5

• 1 of 5 points for item 6 • 1 dari 5 poin untuk item 6

Getting 45 out of 90 points translates to a Memperoleh 45 dari 90 poin berarti

percentage score of 50. persentase skor 50.

This illustration also demonstrates Ilustrasi ini juga menunjukkan sumber


another source of variation in teacher judg- variasi lain dalam penilaian guru yang
ments inherent in the point system— melekat dalam sistem poin — perbedaan
differences in teachers’ perceptions of the dalam persepsi guru tentang sejauh mana
extent to which students’ responses meet respons siswa memenuhi respons ideal.
the ideal response. That is, when scoring a Yaitu, saat menilai respons siswa untuk item
student’s response for a given item, the yang diberikan, guru mempertimbangkan
teacher has in mind the type of response jenis respons yang akan menunjukkan
that would indicate total understanding or pemahaman total atau demonstrasi
demonstration of a skill. If the student’s keterampilan. Jika respons siswa terhadap
response to an item matches this ideal, the suatu item cocok dengan ideal ini, siswa
student is assigned complete credit— the tersebut diberikan kredit lengkap — jumlah
maximum number of points—for the item. poin maksimum — untuk item tersebut. Jika
If the student’s response does not match respons siswa tidak sesuai dengan yang ideal,
the ideal, then the teacher develops some maka guru mengembangkan beberapa sistem
tacit system for assigning partial credit. A diam-diam untuk menetapkan kredit parsial.
response that is three-fourths of the ideal Respons yang tiga perempat dari ideal
receives 75 percent of the points for the menerima 75 persen poin untuk item, respons
item, a response that is half the ideal yang setengah ideal menerima 50 persen
receives 50 percent of the points, and so on. poin, dan seterusnya. Seperti yang dijelaskan
As explained by Jeffrey Smith, Lisa Smith, oleh Jeffrey Smith, Lisa Smith, dan Richard
and Richard DeLisi (2001), a teacher DeLisi (2001), seorang guru biasanya “mulai
might typically “start with full credit for dengan pujian penuh untuk jawaban yang
the correct answer, then deduct points as benar, kemudian mengurangi poin ketika
students move away from that correct siswa menjauh dari jawaban yang benar itu”
answer” (p. 52). (hlm. 52).
When scoring the science test used in Ketika menilai tes sains yang digunakan
this study, teachers disagreed on the extent dalam penelitian ini, guru tidak setuju pada
to which students’ responses to items met sejauh mana respons siswa terhadap item
the ideal. To illustrate, let’s look more memenuhi ideal. Untuk mengilustrasikan,
closely at the specifics of how Teacher 2 mari kita melihat lebih dekat pada spesifik
and Teacher 3 scored each item for Student bagaimana Guru 2 dan Guru 3 mencetak
2 (see Figure 3.3). Teacher 2 assigned setiap item untuk Siswa 2 (lihat Gambar 3.3).
Student 2 the following percentages of total Guru 2 menugaskan Siswa 2 persentase
possible credit for the six items: 80 percent berikut dari total kredit yang mungkin untuk
of total credit for item 1; 100 percent of keenam item: 80 persen dari total kredit
total credit for items 2 and 3; and 80 untuk item 1; 100 persen dari total kredit
percent for items 4, 5, and 6. The student untuk item 2 dan 3; dan 80 persen untuk item
thus received 20 of 25 points for item 1; 4, 5, dan 6. Dengan demikian siswa
25 of 25 points for items 2 and menerima 20 dari 25 poin untuk item 1; 25
3; and 4 of 5 points each for items 4, 5, and dari 25 poin untuk item 2 dan 3; dan 4 dari 5
6. The student’s total points were 82 of 90, poin masing-masing untuk item 4, 5, dan 6.
or 91 percent. In contrast, Teacher 3 Total poin siswa adalah 82 dari 90, atau 91
assigned Student 2 the following per- persen. Sebaliknya, Guru 3 menugaskan
centages of total credit for the six items: 44 Siswa 2 persentase berikut dari total kredit
percent of total credit for item 1; 67 untuk enam item: 44 persen dari total kredit
percent for items 2 and 3; 40 percent for untuk item 1; 67 persen untuk item 2 dan 3;
items 4 and 5; and 20 percent for item 6. 40 persen untuk item 4 dan 5; dan 20 persen
The student thus received 20 of 45 points untuk item 6. Dengan demikian siswa
for item 1; 10 of 15 points for items 2 and menerima 20 dari 45 poin untuk item 1; 10
3; 2 of 5 points for items 4 and 5; and 1 of dari 15 poin untuk item 2 dan 3; 2 dari 5 poin
5 points for item 6. The student’s untuk item 4 dan 5; dan 1 dari 5 poin untuk
45 total points divided by 90 translates to item 6. Siswa 45 total poin dibagi 90
50 percent. In effect, the differences in the diterjemahkan menjadi 50 persen.
teachers’ perceptions about how well the Dampaknya, perbedaan dalam persepsi guru
student answered the items were then tentang seberapa baik siswa menjawab item
multiplied by the differential weights or kemudian dikalikan dengan bobot diferensial
points the teachers had assigned to each atau poin yang ditugaskan guru untuk setiap
item to exacerbate the differences in total item untuk memperburuk perbedaan dalam
score. Clearly, teachers may differ in many skor total. Jelas, guru mungkin berbeda
ways when they score assessments using the dalam banyak hal ketika mereka menilai
point system; the scores for stu- dents penilaian menggunakan sistem poin; skor
derived from the point system are not untuk siswa yang berasal dari sistem poin
comparable from teacher to teacher. tidak sebanding dengan guru.

Origins of the Point System Asal-usul Sistem Poin

Given that the point system is the method Mengingat bahwa sistem poin adalah metode
of choice for scoring classroom assess- pilihan untuk menilai penilaian kelas terlepas
ments in spite of its inherent weaknesses, dari kelemahan yang melekat, itu adalah
it is instructive to consider its origins. instruktif untuk mempertimbangkan asal-
Measurement expert Darrel Bock (1997) usulnya. Pakar pengukuran Darrel Bock
traces the point system to World War I, (1997) melacak sistem poin ke Perang Dunia
when the U.S. Army designed and I, ketika Angkatan Darat A.S. merancang dan
administered the Alpha Test to quickly and mengelola Tes Alpha untuk secara cepat dan
effi- ciently identify the competencies of efisien mengidentifikasi kompetensi ratusan
hundreds of thousands of recruits. The ribu rekrutan. Tujuan tes ini adalah untuk
test’s purpose was to assess the aptitude of menilai kecakapan para prajurit baru untuk
the new soldiers to place them in work menempatkan mereka dalam peran pekerjaan
roles most appropriate to their abilities. yang paling sesuai dengan kemampuan
The test required a quick and efficient mereka. Tes ini membutuhkan sistem
scoring system that could be applied to the penilaian yang cepat dan efisien yang dapat
multiple-choice items that were scored as diterapkan pada item pilihan ganda yang
correct or incorrect. Correct items were dinilai benar atau salah. Item yang benar
assigned one point; incorrect items were diberikan satu poin; item yang salah
assigned no points. The summary score on diberikan tidak ada poin. Skor ringkasan
a test was easily computed by forming the pada tes dengan mudah dihitung dengan
ratio of the number of correct items membentuk rasio jumlah item yang benar
divided by the total number of items and dibagi dengan jumlah item dan mengalikan
multiplying by 100—the percentage score. dengan 100 — skor persentase. Secara
Generally speaking, the Alpha Test was umum, Tes Alpha dianggap cukup berhasil
considered quite successful in that tens of karena puluhan ribu rekrut dinilai dan dinilai
thousands of recruits were assessed and dengan cepat dan efisien. Keberhasilan Tes
scored quickly and efficiently. The success Alpha yang mudah dinilai populer item
of the easily scored Alpha Test popular- pilihan ganda dan metode persentase untuk
ized the multiple-choice item and the mendapatkan skor ringkasan.
percentage method of obtaining a
summary score.

The multiple-choice format and a Format pilihan ganda dan skor ringkasan
summary score based on the proportion of berdasarkan proporsi tanggapan yang benar
correct responses received a strong mendapat dukungan kuat pada tahun 1940-
endorsement in the 1940s, when the an, ketika Dewan Ujian Masuk Perguruan
College Entrance Examination Board Tinggi (CEEB) menugaskan psikolog Carl
(CEEB) commissioned psychologist Carl Bingham untuk mengembangkan Scholastic
Bingham to develop the Scholastic Aptitude Test (SAT). SAT dimaksudkan
Aptitude Test (SAT). The SAT was untuk memprediksi keberhasilan di
intended to predict success in college. perguruan tinggi. Karena kemudahan
Because of the ease of scoring multiple- mencetak item pilihan ganda, bagian tertulis
choice items, the writ- ten portion of the dari ujian dijatuhkan pada tahun 1942.
examination was dropped by 1942. Sebelum itu, bagian tes tertulis adalah yang
Before then, the written portion of the test paling berbobot. Pada tahun 1947 format
was the most heavily weighted. By 1947 pilihan ganda adalah perlengkapan permanen
the multiple-choice format was a karena tidak ada bagian kecil untuk
permanent fixture due in no small part to pengembangan lembar jawaban yang masuk
the development of mark- sense answer akal yang dapat dicetak oleh mesin. Seperti
sheets that could be scored by machine. yang dijelaskan Bock (1997):
As Bock (1997) explains:
Because the early equipment could do no Karena peralatan awal bisa melakukan tidak
more than count the number of pencil lebih dari menghitung jumlah tanda pensil di
marks in correct boxes of the item kotak yang benar dari alternatif item, skor
alternatives, the number-correct score angka-benar secara default menjadi sumber
became by default the source datum for datum untuk pekerjaan teoritis dalam
theoretical work in educational pengukuran pendidikan. Itu menjadi fokus
measurement. It became the main focus of utama teori pengujian. (hal. 23)
test theory. (p. 23)
The perceived utility of the multiple- Utilitas yang dirasakan dari format pilihan
choice format and the percent-correct ganda dan skor ringkasan yang benar persen
summary score soon spilled over into any segera tumpah ke item apa pun yang bisa
item that could be scored as 1 or 0 correct dinilai sebagai 1 atau 0 Benar atau salah —
or incorrect—including true/false, termasuk benar / salah, cocok, dan isi-
matching, and fill-in-the blank. In fact, kosong. Bahkan, konstruk dalam teori
constructs in measurement theory such as pengukuran seperti reliabilitas, validitas, dan
reliability, validity, and the extent to sejauh mana item membedakan antara siswa
which items differentiate between yang berprestasi baik pada tes dibandingkan
students who do well on a test as opposed dengan siswa yang tidak berprestasi (disebut
to students who do not do well (referred sebagai diskriminasi item) awalnya
to as item discrimination) were based ini- didasarkan pada asumsi bahwa item dinilai
tially on the assumption that items are sebagai benar atau salah (lihat Gullik-sen,
scored as correct or incorrect (see Gullik- 1950; Lord & Novick, 1968; Magnusson,
sen, 1950; Lord & Novick, 1968; 1966; Nunally, 1967).
Magnusson, 1966; Nunally, 1967).

As one might expect, courses and Seperti yang bisa diharapkan, kursus dan
textbooks on the topic of test construction buku teks tentang topik konstruksi tes
adopted the notion of the mengadopsi gagasan heuristik yang benar /
correct/incorrect heuristic for scoring salah untuk mencetak item pada tes dan skor
items on tests and the percentage score as persentase sebagai skor ringkasan yang
the preferred summary score. From there disukai. Dari sana itu adalah langkah singkat
it was a short step to assigning points to untuk menetapkan poin ke item dan tugas
items and tasks that could not be scored yang tidak dapat dinilai dengan benar atau
correct or incorrect, such as essay items, salah, seperti item esai, presentasi lisan, dan
oral presentations, and the like. Without sejenisnya. Tanpa disadari, dunia pendidikan
realiz- ing it, the world of K–12 education K-12 segera mengakar dalam sistem poin,
was soon entrenched in the point, or atau persentase.
percent- age, system.
A Conceptual Look at Assessment Pandangan Konseptual pada Penilaian

The discussion thus far makes it clear that Diskusi sejauh ini memperjelas bahwa sistem
the point system as currently used in the poin seperti yang saat ini digunakan di kelas
classroom is inadequate to the task of tidak memadai untuk tugas penilaian
effective formative assessment. To formatif yang efektif. Untuk memahami
understand how to improve on the point bagaimana meningkatkan sistem poin,
system, we first must consider the basic pertama-tama kita harus mempertimbangkan
nature of classroom assessment. It is also sifat dasar penilaian kelas. Juga bermanfaat
useful to more specifically define some untuk secara lebih spesifik mendefinisikan
terms that have been and will continue to beberapa istilah yang telah dan akan terus
be used throughout this book. Considering digunakan di seluruh buku ini.
the com- bined works of various classroom Mempertimbangkan karya gabungan
assessment experts (McMillan, 1997; berbagai pakar penilaian kelas (McMillan,
O’Connor, 1995; Stiggins, 1994, 1997; 1997; O'Connor, 1995; Stiggins, 1994, 1997;
Terwilliger, 1989), the following definitions Terwilliger, 1989), definisi berikut muncul:
emerge:
•Assessment—planned or serendipitous • Penilaian — kegiatan terencana atau
activities that provide information about kebetulan yang memberikan informasi
students’ understanding and skill in a tentang pemahaman dan keterampilan siswa
specific measurement topic dalam topik pengukuran tertentu
• Test—a type of assessment that takes • Tes — jenis penilaian yang terjadi pada
place at a specific time and most com- waktu tertentu dan sebagian besar
monly uses a pencil-and-paper format menggunakan format pensil-dan-kertas
• Evaluation—the process of making • Evaluasi — proses membuat penilaian
judgments about the levels of tentang tingkat siswa '
students’ pemahaman atau keterampilan berdasarkan
understanding or skill based on an penilaian
assessment • Pengukuran — menugaskan skor pada
• Measurement—assigning scores to an penilaian berdasarkan seperangkat aturan
assessment based on an explicit set of rules yang eksplisit
• Score—the number or letter
assigned to an assessment via the process • Skor — angka atau huruf yang ditetapkan
of measurement; may be synonymous untuk penilaian melalui proses pengukuran;
with the term mark mungkin identik dengan tanda istilah

These terms provide an interesting Istilah-istilah ini memberikan perspektif


perspective on assessment in the classroom yang menarik tentang penilaian di kelas
in that they imply an integrated set of karena mereka menyiratkan serangkaian
actions. An assessment is any planned or tindakan yang terintegrasi. Penilaian adalah
serendipitous activity that provides setiap kegiatan terencana atau kebetulan
information about students’ understanding yang memberikan informasi tentang
and skill regarding a specific measurement pemahaman dan keterampilan siswa
topic; a test is one of a number of forms of mengenai topik pengukuran tertentu; tes
assessment. Regardless of what type of adalah salah satu dari sejumlah bentuk
assessment is used, judgments are made penilaian. Apa pun jenis penilaian yang
about each student’s level of understanding digunakan, penilaian dibuattentang tingkat
and skill via the process of evaluation. These pemahaman dan keterampilan masing-
judgments are translated into scores using masing siswa melalui proses evaluasi.
the process of measurement. Penilaian ini diterjemahkan ke dalam skor
menggunakan proses pengukuran.

One might infer that although we Orang mungkin menyimpulkan bahwa


typically pay attention to the final score a meskipun kita biasanya memperhatikan skor
student receives on an assessment, we akhir yang diterima seorang siswa pada
should also be cognizant of the process penilaian, kita juga harus menyadari proses
that was used to derive that score to ensure yang digunakan untuk memperoleh skor itu
that it involved effective assessment, untuk memastikan bahwa itu melibatkan
evaluation, and measurement. Underlying penilaian, evaluasi, dan pengukuran yang
all of these integrated processes is the efektif. Yang mendasari semua proses
concept of true score. terintegrasi ini adalah konsep skor sejati.
The Concept of True Score Konsep Skor Sejati

The concept of true score is central to Konsep skor sebenarnya adalah pusat untuk
virtually every aspect of measurement the- hampir setiap aspek teori pengukuran. Skor
ory. True score is addressed more sebenarnya dibahas lebih ketat dalam
rigorously in Technical Note 3.1. Briefly, Catatan Teknis 3.1. Secara singkat,
though, consider the following comments pertimbangkan komentar berikut tentang
of measurement theorist David teori pengukuran David Magnusson (1966):
Magnusson (1966):
The trait measured by a certain . . . test Sifat yang diukur oleh seorang tertentu. . .
can be represented by a latent continuum, Tes dapat diwakili oleh kontinum laten, skala
an ability scale on which every individual kemampuan di mana setiap individu
takes up a certain position. The position mengambil posisi tertentu. Posisi yang
an individual takes up on the ability scale diambil seseorang pada skala kemampuan
determines . . . his true score on the test, menentukan. . . skor sebenarnya pada tes,
his position on the true-score scale. (p. 63) posisinya pada skala skor-benar. (hal. 63)

In nontechnical terms, Magnusson’s Dalam istilah nonteknis, komentar


comments indicate that a student’s perfor- Magnusson menunjukkan bahwa kinerja
mances on the items on a test are assumed siswa pada item pada tes diasumsikan hanya
to be indications only of the student’s level sebagai indikasi tingkat pemahaman dan
of understanding and skill on the topic keterampilan siswa pada topik yang diukur
measured by the test. The student might dengan tes. Siswa mungkin cukup mahir
be quite proficient in the skills and dalam keterampilan dan informasi yang
information that make up the topic being membentuk topik yang diukur tetapi
measured but miss specific items because kehilangan item tertentu karena faktor-faktor
of factors such as fatigue, mis- reading the seperti kelelahan, salah membaca item,
items, filling in the wrong response mengisi "gelembung" jawaban yang salah
“bubble” on an answer sheet, and so on. pada lembar jawaban, dan sebagainya di.
Conversely, the student might be quite Sebaliknya, siswa mungkin kurang cakap
inept at the skills and information that dalam keterampilan dan informasi yang
make up the topic being measured but membentuk topik yang diukur tetapi
provide seemingly correct answers on memberikan jawaban yang tampaknya benar
specific items because of factors such as pada item tertentu karena faktor-faktor
guessing, cheating, luck, and so on. In seperti menebak, menipu, keberuntungan,
short, a student’s score on a particular dan sebagainya. Singkatnya, skor siswa pada
assessment is always considered to be an penilaian tertentu selalu dianggap sebagai
estimate of the student’s true score for a perkiraan skor sebenarnya siswa untuk topik
particular topic. tertentu.

Within what is referred to as classical test Dalam apa yang disebut sebagai teori tes
theory, or CTT, the relationship between the klasik, atau CTT, hubungan antara skor yang
score a student receives on a test and the diterima siswa pada tes dan skor sejati siswa
student’s true score on that test is represented pada tes tersebut diwakili oleh persamaan
by the following equation: berikut:

observed score = true score + error score skor yang diamati = skor benar + skor
kesalahan

This equation indicates that a student’s Persamaan ini menunjukkan bahwa skor

observed score on an assessment (i.e., the yang diamati siswa pada penilaian (yaitu,

final score assigned by the teacher) skor akhir yang diberikan oleh guru) terdiri

consists of two components—the student’s dari dua komponen — skor sejati siswa dan

true score and the student’s error score. The skor kesalahan siswa. Nilai sebenarnya siswa

student’s true score is that which rep- adalah nilai yang mewakili tingkat

resents the student’s true level of pemahaman atau keterampilan siswa yang

understanding or skill regarding the topic sebenarnya mengenai topik yang diukur.

being measured. The error score is the part Skor kesalahan adalah bagian dari skor yang

of an observed score that is due to factors diamati yang disebabkan oleh faktor selain

other than the student’s level of tingkat pemahaman atau keterampilan siswa.

understanding or skill. As we have seen Seperti yang telah kita lihat dalam diskusi

in the earlier discussion, scoring sebelumnya, penilaian penilaian

assessments using points is particularly menggunakan poin sangat rentan terhadap

prone to error from teachers who kesalahan dari guru yang melebih-lebihkan

overestimate or underestimate the points atau meremehkan poin yang harus

that should be assigned to items. ditugaskan ke item.


This inherent problem with the point Masalah yang melekat pada sistem poin ini
system did not go unnoticed by mea- tidak luput dari perhatian oleh para ahli
surement experts. Indeed, as early as 1904, pengukuran. Memang, pada awal 1904,
renowned pioneer in educational and perintis terkenal dalam pengukuran
psychological measurement Edward pendidikan dan psikologis Edward
Thorndike commented on the issue in the Thorndike mengomentari masalah ini dalam
context of a spelling test. Thorndike (1904) konteks tes ejaan. Thorndike (1904)
observed: mengamati:
Jika seseorang mencoba mengukur sesuatu
If one attempts to measure even so yang sangat sederhana seperti ejaan, ia
simple a thing as spelling, one is terhambat oleh kenyataan bahwa tidak ada
hampered by the fact that there exist no satuan yang dapat mengukur. Seseorang
units in which to measure. One may dapat secara sewenang-wenang membuat
arbitrarily make up a list of words and daftar kata-kata dan mengamati kemampuan
observe ability by the number spelled dengan angka yang dieja dengan benar.
correctly. But if one exam- ines such a Tetapi jika seseorang memeriksa daftar
list one is struck by the inequality of the seperti itu, dia akan terkejut oleh
units. All results based on the equality ketidaksetaraan unit-unit tersebut. Semua
of any one word with another are hasil berdasarkan kesetaraan dari satu kata
necessarily inaccurate. (p. 7) dengan kata lain tentu tidak akurat. (hal. 7)

Basically, Thorndike was highlighting the Pada dasarnya, Thorndike menyoroti fakta
fact that even with a subject area as bahwa bahkan dengan bidang subjek yang
seemingly straightforward as spelling, it is sama mudahnya dengan ejaan, sulit, jika
difficult, if not impossible, to assign bukan tidak mungkin, untuk menetapkan
points to individual items in a valid poin ke masing-masing item secara valid.
manner. It makes little sense to assign one Tidak masuk akal untuk memberikan satu
point to each item because some words are poin pada setiap item karena beberapa kata
harder to spell than others. However, there lebih sulit dieja daripada yang lain. Namun,
is also no rigorous way to assign more tidak ada cara ketat untuk menetapkan lebih
than one point to a single word. If spelling dari satu poin untuk satu kata. Jika mengeja
the word gift correctly is worth one point, kata hadiah dengan benar bernilai satu poin,
how many points is it worth to spell the berapa banyak poin yang layak untuk
word memento correctly? mengeja kata kenang-kenangan dengan
benar?

Item Response Theory Teori Respon Item

In spite of Thorndike’s warning, the Terlepas dari peringatan Thorndike, metode


point method remained unchallenged poin tetap tidak tertandingi dan tidak berubah
and unchanged until about the mid- sampai sekitar pertengahan 1950-an, ketika
1950s, when a new theoretical basis for dasar teoretis baru untuk pengukuran yang
measure- ment referred to as item disebut sebagai teori respons barang, atau
response theory, or IRT, was articulated. IRT, diartikulasikan. Susan Embretson dan
Susan Embret- son and Steven Reise Steven Reise (2000) memberikan diskusi
(2000) provide a detailed discussion of rinci tentang sejarah IRT. Namun, secara
the history of IRT. Briefly, though, the singkat, diskusi teoretis awal tentang IRT
initial theoretical discussion of IRT is umumnya dilacak pada karya Allan
commonly traced to the work of Allan Birnbaum (1957, 1958a, 1958b). Namun,
Birnbaum (1957, 1958a, 1958b). artikulasi komprehensif komprehensif IRT
However, the first comprehen- sive dikaitkan dengan Frederick Lord dan Melvin
articulation of IRT is attributed to Novick (1968). Saat ini IRT adalah sistem
Frederick Lord and Melvin Novick utama yang digunakan untuk merancang dan
(1968). Currently IRT is the menilai penilaian skala besar seperti tes
predominant system used to design and standar negara dan tes standar.
score large-scale assessments such as
tests of state standards and standardized
tests.

IRT does not simply add up points to IRT tidak hanya menambahkan poin untuk
construct a score for an individual stu- menyusun skor untuk siswa secara individu
dent on a given test. Rather, it uses an pada tes yang diberikan. Sebaliknya, ia
approach that Embretson and Reise (2000) menggunakan pendekatan yang disamakan
liken to “clinical inference.” They state, Embretson dan Reise (2000) dengan
“In models of the clinical inference “inferensi klinis.” Mereka menyatakan,
process, a potential diagnosis or inference “Dalam model proses inferensi klinis,
is evaluated for plausibility. That is, given diagnosis atau inferensi potensial dievaluasi
the presenting behaviors (including test untuk masuk akal. Yaitu, mengingat perilaku
behaviors), how plausible is a cer- tain yang ada (termasuk perilaku uji), seberapa
diagnosis” (p. 54). As it relates to scoring masuk akal diagnosis tertentu ”(hlm. 54).
an assessment, the IRT method may be Karena berkaitan dengan penilaian penilaian,
described as answering the following metode IRT dapat digambarkan sebagai
question: Given this pattern of responses by menjawab pertanyaan berikut: Mengingat
the student, what is the most plausible pola respons ini oleh siswa, inferensi apa
inference as to the student’s level of under- yang paling masuk akal mengenai tingkat
standing and skill on the trait measured by pemahaman dan keterampilan siswa pada
the items? This approach is quite consis- sifat yang diukur oleh item? Pendekatan ini
tent with the definitions provided earlier cukup konsisten dengan definisi yang
for the terms assessment, evaluation, diberikan sebelumnya untuk penilaian
measurement, and score. A paper-and- istilah, evaluasi, pengukuran, dan skor. Tes
pencil test is a form of assessment—a way kertas-dan-pensil adalah bentuk penilaian —
of gathering information about students’ cara mengumpulkan informasi tentang
levels of understanding and skill regard- tingkat pemahaman dan keterampilan siswa
ing a specific topic. A clinical-type terkait topik tertentu. Inferensi tipe klinis
inference must be made using the harus dibuat menggunakan pola respons
student’s observed pattern of responses. siswa yang diamati. Pola respons siswa
The student’s pattern of responses is what adalah apa yang disebut Embretson and
Embret- son and Reise refer to as the Reise sebagai "perilaku presentasi". Evaluasi
“presenting behavior.” Evaluation is the adalah proses di mana inferensi tipe klinis
process by which the clinical-type dibuat. Cukup menambahkan poin untuk
inference is made. Simply adding up tanggapan yang benar dan membaginya
points for correct responses and dividing dengan jumlah total poin yang mungkin
by the total number of possible points is bukan evaluasi, karena tidak ada penilaian
not evaluation, because no judgment is yang terlibat.
involved.
The perspective provided by IRT is a Perspektif yang diberikan oleh IRT adalah
powerful one in terms of its implications kuat dalam hal implikasinya untuk penilaian
for scoring classroom assessments. First, it penilaian kelas. Pertama, ini menambah
adds credibility to the assertion that it is kredibilitas pada pernyataan bahwa tidak
impossible (for all practical purposes) to mungkin (untuk semua tujuan praktis) untuk
devise a valid scheme that classroom merancang skema yang valid yang dapat
teachers could use to assign points to digunakan guru kelas untuk menetapkan poin
items. Second, it implies a basic strategy ke item. Kedua, ini menyiratkan strategi
that classroom teachers can use to design dasar yang dapat digunakan guru kelas untuk
and score classroom assessments as reli- mendesain dan menilai penilaian kelas
ably as possible with the caveat that there selengkap mungkin dengan peringatan
is no perfectly reliable way to score an bahwa tidak ada cara yang dapat diandalkan
assessment, whether it be constructed by untuk menilai penilaian, apakah itu dibangun
a teacher, a district, a state, or a testing oleh guru, kabupaten, sebuah negara, atau
company. perusahaan pengujian.

Understanding the Logic of IRT Memahami Logika IRT

If IRT models don’t add up points to Jika model IRT tidak menambahkan poin
compute a student’s score on a test, what untuk menghitung skor siswa pada suatu tes,
process do they use, and how does it apply proses apa yang mereka gunakan, dan
to a teacher scoring a classroom assess- bagaimana hal itu berlaku untuk seorang
ment? We begin with the process used by guru yang mencetak penilaian kelas? Kami
IRT models. mulai dengan proses yang digunakan oleh
model IRT.

IRT models operate from some basic Model IRT beroperasi dari beberapa asumsi
assumptions (see Technical Note 3.2). dasar (lihat Catatan Teknis 3.2). Pertama,
First, they assume that the topic mereka menganggap bahwa topik yang
measured by a given test is not diukur dengan tes yang diberikan tidak dapat
observable directly. IRT theorists typically diamati secara langsung. Ahli teori IRT
talk about “latent” traits. Next, they biasanya berbicara tentang sifat-sifat "laten".
assume that the latent trait being measured Selanjutnya, mereka menganggap bahwa
follows a normal distribution like that sifat laten yang diukur mengikuti distribusi
depicted in Figure 3.4, which is familiar to normal seperti yang digambarkan pada
many educators as well as the general Gambar 3.4, yang akrab bagi banyak
public (see Technical Note 3.3 for a pendidik serta masyarakat umum (lihat
discussion of the normal distribution). Catatan Teknis 3.3 untuk diskusi tentang
Note that in this depiction, the average distribusi normal). Perhatikan bahwa dalam
score is 0 and the range of scores goes from penggambaran ini, skor rata-rata adalah 0
–3 to +3. Thus, the score one receives on a dan kisaran skor berubah dari –3 ke +3.
test based on IRT is +3, +2, +1, 0, and so Dengan demikian, skor yang diterima
on, referred to as “trait scores.” These trait seseorang pada tes berdasarkan IRT adalah
scores are then translated to some other +3, +2, +1, 0, dan seterusnya, disebut sebagai
metric. For example, the metric might be "skor sifat." Skor sifat ini kemudian
1,000 points. Thus, a score of +3 might diterjemahkan ke beberapa metrik lainnya.
translate to a score of 1,000, a score of 2 Misalnya, metriknya mungkin 1.000 poin.
might translate to 750, a score of 0 might Dengan demikian, skor +3 dapat
translate to 500, and so on. diterjemahkan menjadi skor 1.000, skor 2
To determine a person’s trait score, dapat diterjemahkan menjadi 750, skor 0
IRT models use sophisticated mathemat- mungkin diterjemahkan menjadi 500, dan
ics to analyze patterns of item responses seterusnya.
(for a discussion, see Embretson & Reise, Untuk menentukan skor sifat seseorang,
2000) model IRT menggunakan matematika
canggih untuk menganalisis pola respons
item (untuk diskusi, lihat Embretson & Reise
2000).

JUSTITIA:
2000). For example, assume that a nine- 2000). Sebagai contoh, asumsikan bahwa tes
item test has been designed using IRT sembilan item telah dirancang menggunakan
theory. (In practice, many more items are teori IRT. (Dalam praktiknya, lebih banyak
used in IRT test development.) Also item digunakan dalam pengembangan tes
IRT.) Juga berasumsi bahwa ketika tes
assume that when the test was being
sedang dikembangkan, ditentukan secara
developed, it was determined mathemati- matematis bahwa item 1, 2, dan 3 mewakili
cally that items 1, 2, and 3 represented very informasi yang sangat mudah tentang sifat
easy information about the trait being yang diukur; item 4, 5, dan 6
measured; items 4, 5, and 6 represented merepresentasikan informasi kesulitan
information of moderate difficulty; and sedang; dan item 7, 8, dan 9 mewakili
items 7, 8, and 9 represented relatively informasi yang relatif sulit.
difficult information.

With this information as a backdrop, kemudian akan menetapkan skor sifat yang
various patterns of responses on the nine paling mungkin, mengingat pola yang
test items can be assigned trait scores. For diamati. Untuk Siswa A, model IRT telah
example, consider Figure 3.5, which menghitung probabilitas pola respons ini
depicts the pattern of responses for three untuk skor sifat -3.0, -2.5, -2.0, -1.5, dan
seterusnya. Matematika dari model IRT
students across the nine test items. In the
menentukan bahwa skor sifat +0.5 memiliki
figure, a 1 indicates that the student probabilitas tertinggi, mengingat pola
answered the item correctly, whereas a 0 tanggapan. Logika analitik dan matematika
indi- cates that the student did not answer yang sama memberikan skor sifat masing-
the item correctly. Notice that all three stu- masing +1.0 dan +1.5 untuk Siswa B dan C.
dents answered six items correctly.
However, using the information about
diffi- culty level of each item, an IRT model
will compute the probability of each
pattern as it relates to each possible trait
score depicted in Figure 3.5. It will then
assign the trait score that is most probable,
given the observed pattern. For Student A,
the IRT model has computed the
probability of this pattern of responses for
a trait score of –3.0, –2.5, –2.0, –1.5, and
so on. The mathematics of the IRT model
determined that the trait score of +0.5 has
the highest probability, given the pat- tern
of responses. The same analytic logic and
mathematics assigned trait scores of +1.0
and +1.5 to Students B and C, respectively.

Although this example is contrived kemudian akan menetapkan skor sifat yang
and a gross oversimplification of the IRT paling mungkin, mengingat pola yang
process, it illustrates the underlying diamati. Untuk Siswa A, model IRT telah
logic of IRT test development—that of menghitung probabilitas pola respons ini
untuk skor sifat -3.0, -2.5, -2.0, -1.5, dan
assigning a trait score that has the highest
seterusnya. Matematika dari model IRT
probability or is the most reasonable, menentukan bahwa skor sifat +0.5 memiliki
given what is known about the difficulty probabilitas tertinggi, mengingat pola
of each item and a student’s pattern of tanggapan. Logika analitik dan matematika
responses on those items. To use the logic yang sama memberikan skor sifat masing-
of IRT to score classroom assessments, two masing +1.0 dan +1.5 untuk Siswa B dan C.
elements must be in place:
• A scale that represents performance
along a continuum for a given trait
• A process to translate patterns of
responses on assessments into scores on
the scale

A Scale That Represents Skala Yang Merupakan Kinerja Sepanjang


Performance Along a Continuum Kontinum
IRT models assume that performance on a
Model IRT mengasumsikan bahwa kinerja
given latent trait follows a normal dis-
pada sifat laten yang diberikan mengikuti
tribution like that shown in Figure 3.4, distribusi normal seperti yang ditunjukkan
and the models use complex mathemat- pada Gambar 3.4, dan model menggunakan
ics to translate a student’s pattern of matematika rumit untuk menerjemahkan
responses to a trait score on that pola respons siswa ke skor sifat pada skor
distribution. Obviously classroom teachers sifat pada distribusi tersebut. Jelas guru kelas
don’t have the luxury of complex tidak memiliki kemewahan perhitungan
mathematical cal- culations when scoring matematika yang rumit ketika mencetak
an assessment. Consequently, they need a penilaian. Akibatnya, mereka membutuhkan
scale that is skala itu
based not on the normal distribution but tidak didasarkan pada distribusi normal
on a logical progression of understand- ing tetapi pada perkembangan logis dari
and skill for a specific measurement pemahaman dan keterampilan untuk topik
topic. Figure 3.6 represents one such pengukuran tertentu. Gambar 3.6 mewakili
satu skala seperti itu.
scale.

To illustrate the scale shown in Figure 3.6, Untuk mengilustrasikan skala yang
consider the science measurement topic of ditunjukkan pada Gambar 3.6,
heredity. The lowest score value on the scale pertimbangkan topik pengukuran sains
is a 0.0, representing no knowledge of the hereditas. Nilai skor terendah pada skala
topic; even with help the student adalah 0,0, tidak mewakili pengetahuan
demonstrates no understand- ing or skill topik; bahkan dengan bantuan siswa tidak
relative to the topic of heredity. A score of menunjukkan pemahaman atau keterampilan
1.0 indicates that with help the student yang berhubungan dengan topik keturunan.
shows partial knowledge of the simpler Skor 1,0 mengindikasikan bahwa dengan
details and processes as well as the more bantuan siswa menunjukkan pengetahuan
complex ideas and processes. The notion of parsial tentang perincian dan proses yang
providing help to stu- dents on an lebih sederhana serta gagasan dan proses
assessment is an important feature of the yang lebih kompleks. Gagasan memberikan
scale that is addressed in depth later in this bantuan kepada siswa pada penilaian adalah
chapter. To be assigned a score of 2.0, the fitur penting dari skala yang dibahas secara
student independently demonstrates mendalam dalam bab ini. Untuk diberi skor
understanding of and skill at the simpler 2,0, siswa secara mandiri menunjukkan
details and processes but not the more pemahaman dan keterampilan pada detail
complex ideas and processes. A score of 3.0 dan proses yang lebih sederhana tetapi tidak
indicates that the stu- dent demonstrates pada ide dan proses yang lebih kompleks.
understanding of and skill at all the Skor 3,0 mengindikasikan bahwa siswa
content—simple and com- plex—that was menunjukkan pemahaman dan keterampilan
taught in class. However, a score of 4.0 pada semua konten — sederhana dan
indicates that the student kompleks — yang diajarkan di kelas.
Namun, skor 4,0 menunjukkan bahwa siswa

demonstrates inferences and applications menunjukkan inferensi dan aplikasi yang


that go beyond what was taught in class. melampaui apa yang diajarkan di kelas. Ini
This, too, is an important feature of the juga merupakan fitur penting dari skala yang
scale that is addressed in depth in Chap- dibahas secara mendalam pada Bab 4. Di sini
skala diperkenalkan sebagai alternatif logis
ter 4. Here the scale is introduced as a
untuk kontinum IRT berdasarkan distribusi
logical alternative to an IRT continuum normal yang ditunjukkan pada Gambar 3.4.
based on the normal distribution shown in
Figure 3.4.

Interestingly, when the scale in Figure Menariknya, ketika skala pada Gambar 3.6
3.6 is used to score students’ assess- ments, digunakan untuk menilai penilaian siswa,
the distribution of scores strongly resembles distribusi skor sangat menyerupai distribusi
a normal distribution. To illus- trate, normal. Untuk menggambarkan, perhatikan
consider Figure 3.7, which shows the Gambar 3.7, yang menunjukkan distribusi
100 penilaian siswa yang menggunakan skala
distribution of 100 student assess- ments
pada Gambar 3.6. Kesamaan dengan
scored using the scale in Figure 3.6. The distribusi normal adalah indikasi parsial
similarity to a normal distribution is a partial bahwa skala sensitif terhadap variasi sejati
indication that the scale is sensitive to the dalam nilai siswa untuk topik yang diberikan.
true variation in students’ scores for a given Yaitu, jika skor sebenarnya untuk sekelompok
topic. That is, if the true scores for a group siswa didistribusikan secara normal, skala
yang menghasilkan distribusi yang
of students are dis- tributed normally, a
menyerupai distribusi normal mungkin peka
scale that results in a distribution that terhadap skor sejati siswa (lihat Catatan
resembles the normal distribution is Teknis
probably sensitive to the students’ true 3.3 untuk diskusi).
scores (see Technical Note3.3 for a
discussion).

Translating Patterns of Menerjemahkan Pola Tanggapan pada


Responses on Penilaian ke dalam Skor pada Skala
Assessments into Scores
on the Scale Item kedua yang diperlukan untuk
menggunakan logika IRT untuk menilai
The second item necessary to use the logic
penilaian kelas adalah proses
of IRT to score classroom assessments is a menerjemahkan pola tanggapan pada
process for translating patterns of penilaian menjadi skor pada skala. Mungkin
responses on an assessment into scores on cara terbaik untuk memahami prosesnya
the scale. Perhaps the best way to adalah dengan memperkenalkannya dalam
understand the process is to introduce it in konteks penilaian kelas yang umum, seperti
the context of a typical classroom yang ditunjukkan di sini
assessment, such as the one shown here

You are thinking of renting a car and have Anda berpikir untuk menyewa mobil dan
looked at the rates for four companies. telah melihat tarif untuk empat perusahaan.
Each company has a set daily rate and a Setiap perusahaan memiliki tarif harian yang
certain amount of free mileage. However, ditetapkan dan sejumlah jarak tempuh gratis
tertentu. Namun, begitu Anda menggunakan
once you’ve used up your free miles with
miles gratis Anda dengan masing-masing
each company, they charge per mile in perusahaan, mereka menagih per mil di
addition to the daily rate. samping tarif harian.

Section 1 : Bagian 1 :
1. Which company has the highest 1. Perusahaan mana yang memiliki tarif
daily rate? harian tertinggi?
2. Which company has the most free 2. Perusahaan mana yang memiliki jarak
mileage? tempuh paling gratis?
3. If each company had the same
daily rate and the same amount of 3. Jika setiap perusahaan memiliki tarif
free mileage, which would be the harian yang sama dan jumlah mileage gratis
cheapest? yang sama, mana yang termurah?
4. If each company had the same 4. Jika setiap perusahaan memiliki jumlah
amount of free mileage and the jarak tempuh gratis yang sama dan biaya
yang sama per mil, perusahaan mana yang
same cost per mile, which company
paling mahal?
would be the most expensive? 5. Setelah Anda menggunakan jarak tempuh
5. Once you’ve used up your free gratis Anda, perusahaan mana yang akan
mileage, which company would menghabiskan biaya paling sedikit untuk
cost the least amount of money to menempuh jarak 100 mil dalam satu hari?
travel 100 miles in a single day?

Section II Bagian II
6. If you travel 100 miles per day, which 6. Jika Anda bepergian 100 mil per hari,
company is the least expensive for perusahaan mana yang paling murah
5 days: Answer 5 hari: Jawab
10 days: Answer 10 hari: Jawab
20 days: Answer 20 hari: Jawab
15 days: Answer 15 hari: Jawab
Create a table or a graph that shows Buat tabel atau grafik yang menunjukkan
how expensive each company is for each seberapa mahal masing-masing perusahaan
of the four options above (5 days, 10 untuk masing-masing dari empat opsi di atas
days, 15 days, 20 days), and explain how (5 hari, 10 hari, 15 hari, 20 hari), dan jelaskan
you calculated your answers. bagaimana Anda menghitung jawaban Anda.

Section III Bagian III


7. Each of the four companies could be 7. Masing-masing dari empat perusahaan
considered the “best deal” under cer- tain dapat dianggap sebagai "kesepakatan
conditions. For each company, describe the terbaik" dalam kondisi tertentu. Untuk setiap
situation under which it would be the best perusahaan, jelaskan situasi di mana itu akan
selection. In your answer and explanation, menjadi pilihan terbaik. Dalam jawaban dan
use the daily rate, free mileage, and the rate penjelasan Anda, gunakan tarif harian, jarak
per mile after free mileage. tempuh gratis, dan tarif per mil setelah jarak
tempuh gratis.

The first thing to notice about the test Hal pertama yang perlu diperhatikan tentang
is that it involves different types of items. tes ini adalah bahwa tes ini melibatkan
Items 1 through 5 are fairly simple; they berbagai jenis item. Item 1 hingga 5 cukup
require students to read the table and sederhana; mereka mengharuskan siswa
membaca tabel dan membuat beberapa
make a few simple calculations. I refer to
perhitungan sederhana. Saya merujuk pada
such items as Type I items—those that
item seperti item Tipe I — item yang
deal with basic details and processes that berhubungan dengan detail dasar dan proses
are relatively easy for students. Item 6 is yang relatif mudah bagi siswa. Item 6 jauh
much more complex than items 1 through lebih kompleks daripada item 1 hingga 5;
5; students must make mul- tiple siswa harus membuat beberapa kalkulasi dan
calculations and compare the results of membandingkan hasil kalkulasi tersebut.
those calculations. I refer to items like this Saya menyebut item-item seperti ini sebagai
as Type II items—those that address item Tipe II — item yang membahas ide dan
complex ideas and processes that are more proses kompleks yang lebih sulit bagi siswa.
difficult for students. Typically these items Biasanya barang-barang ini mengharuskan
siswa untuk menghasilkan sesuatu yang tidak
require students to generate something
jelas. Dalam hal ini, siswa harus menghitung
that is not obvious. In this case, students
total biaya untuk setiap perusahaan untuk
must compute the total cost for each jumlah waktu sewa yang berbeda dan
company for differing amounts of rental kemudian membandingkan total biaya untuk
time and then compare total costs for each setiap perusahaan. Akhirnya, item 7 meminta
company. Finally, item 7 asks students to siswa untuk membuat inferensi atau aplikasi
make unique inferences or applications of konten yang unik yang biasanya tidak
content typically not addressed in class. I dibahas di kelas. Saya menyebut item seperti
refer to items like this as Type III items. ini sebagai item Tipe III.

The inclusion of Type I, II, and III Dimasukkannya item Tipe I, II, dan III pada
items on this assessment is not coinciden- penilaian ini tidak bersamaan. Pemeriksaan
tal. An examination of the scale in Figure skala pada Gambar 3.6 menunjukkan bahwa
3.6 demonstrates that Type I items are item Tipe I diperlukan untuk menentukan
required to determine if students have apakah siswa telah mencapai skor 2,0,
menunjukkan bahwa mereka kompeten pada
attained a score of 2.0, indicating that they
detail dan proses yang lebih sederhana. Item
are competent on the simpler details and
Tipe II diperlukan untuk menentukan apakah
processes. Type II items are required to siswa telah mencapai skor 3,0, yang
determine if students have attained a score menunjukkan bahwa mereka sesuai dengan
of 3.0, indicating that they are com- petent ide dan proses yang lebih kompleks. Item
on the more complex ideas and processes. Tipe III diperlukan untuk menentukan
Type III items are necessary to determine apakah siswa telah mencapai skor 4.0,
if students have attained a score of 4.0, menunjukkan bahwa mereka dapat
indicating that they can go beyond what melampaui apa yang disajikan di kelas.
was presented in class.

In summary, to design a classroom In summary, to design a classroom


assessment that can be scored using the assessment that can be scored using the
scale in Figure 3.6, three types of items scale in Figure 3.6, three types of items
must be included: must be included:
• Type I items that address basic • Type I items that address basic
details and processes that are relatively details and processes that are relatively
easy for students easy for students
• Type II items that address more • Type II items that address more
complex ideas and processes and are more complex ideas and processes and are more
difficult for students difficult for students
• Type III items that go beyond what • Type III items that go beyond what was
was taught in class taught in class

In Chapter 4 we will consider in depth Dalam Bab 4 kita akan membahas secara
mendalam bagaimana merancang ketiga
how to design these three types of items. jenis item ini. Namun, saya telah
However, I have found that teachers menemukan bahwa para guru memahami
understand the three item types intu- ketiga jenis item secara intuitif dan cukup
itively and are quite adept at constructing mahir membangunnya bahkan tanpa banyak
them even without a great deal of train- ing pelatihan mengenai karakteristik mereka.
regarding their characteristics.

Using the Simplified Scale Menggunakan Skala Sederhana


Given that an assessment contains the three Mengingat bahwa penilaian mengandung tiga
types of items just discussed, it is rel- atively jenis item yang baru saja dibahas, relatif
easy for a teacher to translate patterns of mudah bagi seorang guru untuk
responses into scale scores for a menerjemahkan pola respons ke dalam skor
skala untuk topik pengukuran. Ketika guru
measurement topic. When teachers are using
menggunakan sistem ini untuk pertama
this system for the first time, I com- monly kalinya, saya biasanya menyarankan mereka
recommend they start with a simplified mulai dengan versi skala yang
version of the scale, as shown in Figure 3.8. disederhanakan, seperti yang ditunjukkan
Figure 3.8 is referred to as the “simplified pada Gambar 3.8. Gambar 3.8 disebut sebagai
scale” because it contains five whole-point "skala yang disederhanakan" karena hanya
values only—4.0, 3.0, 2.0, 1.0, and 0.0. berisi lima nilai titik utuh — 4.0, 3.0, 2.0, 1.0,
Although this scale is less precise than the dan 0.0. Meskipun skala ini kurang tepat
scale with half-point scores (3.5, 2.5, 1.5, and daripada skala dengan skor setengah poin
0.5), it serves as a good introduction to the (3,5, 2,5, 1,5, dan 0,5), ini berfungsi sebagai
pengantar yang baik untuk proses
process of translating item response patterns
menerjemahkan pola respons item ke dalam
into scale scores. Additionally, in some skor skala. Selain itu, dalam beberapa situasi
situations half-point scores are difficult to skor setengah poin sulit untuk dibedakan atau
dis- cern or simply don’t make much sense. tidak masuk akal.
To illustrate how to use the simplified Untuk mengilustrasikan cara menggunakan
scale, assume a student answered all the skala yang disederhanakan, anggaplah
Type I items correctly (items 1 through 5), seorang siswa menjawab semua item Tipe I
as well as the Type II item (item dengan benar (item 1 hingga 5), serta item
Tipe II (item
6), but she missed the Type III item (item
6), tetapi dia melewatkan item Tipe III (item
7). The student would be assigned a score 7). Siswa akan diberi skor 3,0 karena pola
of 3.0 because her pattern of responses
on the items indicates that she responsnya pada item menunjukkan bahwa
understands the simpler details as well as dia memahami detail yang lebih sederhana
the more complex ideas but does not serta ide-ide yang lebih kompleks tetapi tidak
make inferences and applications beyond membuat kesimpulan dan aplikasi di luar apa
what was taught. yang diajarkan.

Figure 3.9 provides teachers with a quick Gambar 3.9 memberi guru referensi cepat
reference to scoring assessments using the untuk penilaian penilaian menggunakan
simplified scale. In the figure, the symbol skala yang disederhanakan. Pada gambar,
+ indicates that the student responded simbol + menunjukkan bahwa siswa
merespons dengan benar untuk jenis item
correctly to a particular item type (Type I,
tertentu (Tipe I, II, III); simbol 0
II, III); the symbol 0 indicates that the menunjukkan bahwa siswa merespons secara
student responded incorrectly or provided tidak benar atau tidak memberikan respons;
no response; and the words some dan kata-kata beberapa pemahaman dengan
understanding with help indicate that the bantuan menunjukkan bahwa guru memberi
teacher provided the student with siswa dengan petunjuk dan petunjuk dan
guidance and clues and the student siswa menunjukkan beberapa pengetahuan
exhibited some knowledge of the content tentang konten yang dibahas dalam item.
addressed in the items. Thus, Figure 3.9 Dengan demikian, Gambar 3.9 menunjukkan
indicates that students who answer all bahwa siswa yang menjawab semua item
dengan benar menerima skor 4.0 pada
items correctly receive a score of 4.0 on the
penilaian. Siswa yang menjawab semua item
assessment. Students who answer all Type Tipe I dan Tipe II dengan benar tetapi tidak
I and Type II items correctly but do not menjawab item Tipe III dengan benar
answer Type III items correctly receive a menerima skor 3,0. Siswa yang menjawab
score of 3.0. Students who answer Type I item Tipe I dengan benar tetapi tidak
items correctly but do not answer Type II menjawab item Tipe II dan Tipe III dengan
and Type III items correctly receive a score benar menerima skor 2,0. Jika siswa tidak
of 2.0. If students answer no items menjawab item dengan benar saat bekerja
correctly while working independently, but secara mandiri, tetapi dengan bantuan
with help receive partial credit on Type I menerima kredit parsial pada item Tipe I dan
Tipe II, maka mereka menerima skor 1,0.
and Type II items, then they receive a score
Akhirnya, siswa yang menjawab tidak ada
of 1.0. Finally, students who answer no item dengan benar saat bekerja secara
items correctly while working mandiri dan masih tidak dapat melakukannya
independently and still cannot do so with dengan bantuan menerima skor 0,0
help receive a score of 0.0

The representation in Figure 3.9 Representasi pada Gambar 3.9 menyoroti


highlights again the important distinction lagi perbedaan penting antara skor 0,0 dan
between a score of 0.0 and 1.0. To discern 1,0. Untuk mengetahui apakah seorang siswa
whether a student should receive a score harus menerima skor 1,0 atau 0,0, seorang
of 1.0 or 0.0, a teacher must interact with guru harus berinteraksi dengan siswa, karena
untuk kedua nilai skor siswa tidak
the student, because for both score values
memberikan respons yang benar terhadap
the student provides no correct responses salah satu item pada penilaian. Sekilas
to any of the items on the assessment. At penilaian untuk siswa yang layak 1,0 dan
first glance the assessments for the student siswa yang layak 0,0 terlihat sama.
who deserves a 1.0 and the student who Tampaknya tidak ada yang benar. Namun,
deserves a 0.0 look the same. Nothing jika seorang siswa dapat menjawab beberapa
appears correct. However, if a student can item dengan benar ketika diberikan bantuan
answer some items correctly when atau bimbingan oleh guru, siswa tersebut
provided with help or guid- ance by the menerima skor 1,0. Jika siswa tidak dapat
teacher, the student receives a score of menjawab item apa pun dengan benar
bahkan dengan bantuan, siswa menerima
1.0. If the student cannot answer any
skor 0,0.
items correctly even with help, the student
receives a score of 0.0.

At times when I have presented the Pada saat saya mempresentasikan ide untuk
idea of meeting with individual students bertemu dengan masing-masing siswa
regarding their responses on a test, some mengenai tanggapan mereka terhadap suatu
teachers have rightfully questioned how ujian, beberapa guru secara tepat
they can be expected to do so when they mempertanyakan bagaimana mereka dapat
diharapkan untuk melakukannya ketika
have 150 students or more. The simple
mereka memiliki 150 siswa atau lebih.
answer is that they must interact only with Jawaban sederhananya adalah mereka harus
those students who answer no items berinteraksi hanya dengan siswa yang tidak
correctly or those who do not even attempt menjawab item dengan benar atau mereka
to answer any items. As shown in Fig- ure yang bahkan tidak mencoba menjawab item
3.7 (the distribution representing the apa pun. Seperti yang ditunjukkan pada
scores of 100 students on a test), few Gambar 3.7 (distribusi yang mewakili skor
students typically receive scores of 0.0 and 100 siswa pada tes), beberapa siswa biasanya
1.0. In general, then, a teacher must meet menerima skor 0,0 dan 1,0. Maka, secara
with a small group of students—only umum, seorang guru harus bertemu dengan
sekelompok kecil siswa — hanya mereka
those who provide no response or answer
yang tidak memberikan respons atau
all items incorrectly. menjawab semua item dengan salah.

As mentioned previously, I have Seperti yang disebutkan sebelumnya, saya


found that once teachers become familiar telah menemukan bahwa sekali guru menjadi
with the simplified scale depicted in terbiasa dengan skala yang disederhanakan
Figure 3.8, they can score classroom yang digambarkan pada Gambar 3.8, mereka
assess- ments quickly and accurately. To dapat menilai penilaian kelas dengan cepat
dan akurat. Untuk melakukannya, seorang
do so, a teacher reads each student’s
guru membaca tanggapan setiap siswa untuk
responses to each item, marking the setiap item, menandai tanggapan sebagai
responses as correct or incorrect using a benar atau salah menggunakan sistem
simple system like a plus sign (+) for sederhana seperti tanda tambah (+) untuk
correctly answered items and a zero (0) item yang dijawab dengan benar dan nol (0)
for incorrectly answered items and items untuk item dan item yang dijawab dengan
for which a student has provided no salah seorang siswa tidak memberikan
response. Going back to our sample test, tanggapan. Kembali ke tes sampel kami, guru
the teacher marks each item with a + or a menandai setiap item dengan tanda + atau 0.
0. Assume that a student has a + for items Asumsikan bahwa seorang siswa memiliki
tanda + untuk item 1 hingga 5 dan 0 untuk
1 through 5 and a 0 for items 6 and 7.
item 6 dan 7. Ingatlah bahwa item 1 hingga 5
Keeping in mind that items 1 through 5 adalah Tipe. I, item 6 adalah Tipe II, dan item
are Type I, item 6 is Type II, and item 7 is 7 adalah Tipe III, guru kemudian
Type III, the teacher then interprets the menafsirkan pola respons menggunakan
pattern of responses using the quick panduan referensi cepat yang ditunjukkan
reference guide shown in Figure 3.9. pada Gambar 3.9.

Additionally, some teachers have found the Selain itu, beberapa guru telah menemukan
flowchart shown in Figure 3.10 to be quite diagram alur yang ditunjukkan pada Gambar
helpful. It shows the decisions a teacher 3.10 cukup membantu. Ini menunjukkan
might make when scoring an assessment. keputusan yang mungkin diambil oleh
After coding the items on a test as correct seorang guru saat membuat penilaian.
or incorrect, the teacher begins by Setelah mengkodekan item pada tes sebagai
(metaphorically) asking if there are any benar atau salah, guru memulai dengan
major errors or omissions in the Type II (secara metaforis) menanyakan apakah ada
items. If the answer is yes, the teacher asks kesalahan atau kelalaian besar dalam item
if there are any major errors or omissions in Tipe II. Jika jawabannya ya, guru bertanya
the Type I items. If the answer is no, then apakah ada kesalahan atau kelalaian besar
the student’s score is at least a 2.0, and so dalam item Tipe I. Jika jawabannya tidak,
on. Although the scheme is implied in the maka nilai siswa setidaknya adalah 2,0, dan
scale seterusnya. Meskipun skema tersirat dalam
skala
itself, I have found that the flowchart itu sendiri, saya telah menemukan bahwa
demonstrates the underlying “logic” of this diagram alur menunjukkan "logika" yang
scoring system. Recall from Figure 1.2 in mendasari sistem penilaian ini. Ingatlah dari
Chapter 1 that scoring classroom assess- Gambar 1.2 dalam Bab 1 bahwa penilaian
penilaian kelas menggunakan seperangkat
ments using a set of rules is associated with
aturan dikaitkan dengan kenaikan 32 poin
a 32-percentile-point gain in student persentase dalam prestasi siswa (Fuchs &
achievement (Fuchs & Fuchs, 1986). Fuchs, 1986). Diagram alir pada Gambar
The flowchart in Figure 3.10 depicts a 3.10 menggambarkan sistem aturan yang
rather tight system of rules. agak ketat.

OLIVIA:
Using the Complete Scale Menggunakan Skala Lengkap
The simplified scale is a good place to start when first Skala yang disederhanakan adalah tempat yang baik
trying the system described in this chapter. However, untuk memulai ketika pertama kali mencoba sistem
measurement theory tells us that the more values a yang dijelaskan dalam bab ini. Namun, teori
scale has, the more precise the measurement. Relative pengukuran memberi tahu kita bahwa semakin banyak
to IRT models, Embretson and Reise (2000) explain: nilai yang dimiliki skala, semakin tepat pula
“Decreasing interval size increases precision in pengukurannya. Sehubungan dengan model IRT,
estimating level” (p. 56). To illustrate, assume that a Embretson dan Reise (2000) menjelaskan:
teacher used a scale with only two values— "Penurunan ukuran interval meningkatkan presisi
pass/fail—to score a test. Also assume that to pass the dalam memperkirakan tingkat" (hal. 56). Untuk
test a student had to answer 60 percent of the items mengilustrasikan, asumsikan bahwa seorang guru
correctly. In this scenario the student who answered menggunakan skala dengan hanya dua nilai — lulus /
all items correctly would receive the same score (pass) gagal — untuk menilai tes. Juga asumsikan bahwa
as the student who answered 60 percent of the items untuk lulus tes seorang siswa harus menjawab 60
correctly. Similarly, the student who answered no persen dari item dengan benar. Dalam skenario ini,
items correctly would receive the same score (fail) as siswa yang menjawab semua item dengan benar akan
the student who answered 59 percent of the items menerima skor (lulus) yang sama dengan siswa yang
correctly. The pass/fail scores on this test would not menjawab 60 persen dari item dengan benar. Dalam
provide the teacher or the students with a great deal of skenario ini, siswa yang menjawab semua item dengan
information about student performance. By inference, benar akan menerima skor (lulus) yang sama dengan
then, we can conclude that the complete scale with siswa yang menjawab 60 persen dari item dengan
half-point scores will provide more precise benar. Demikian pula, siswa yang menjawab tidak ada
measurement than the simplified version with whole- item dengan benar akan menerima skor yang sama
point values only. (gagal) dengan siswa yang menjawab 59 persen dari
item dengan benar. Demikian pula, siswa yang
menjawab tidak ada item dengan benar akan
menerima skor yang sama (gagal) dengan siswa yang
menjawab 59 persen dari item dengan benar. Nilai
Figure 3.11 shows the complete scale again, this time lulus / gagal pada tes ini tidak akan memberi guru atau
in a format more useful for scoring assessments. The siswa banyak informasi tentang kinerja siswa. Dengan
half-point scores are set off to the right to signify that kesimpulan, maka, kita dapat menyimpulkan bahwa
they describe response patterns between the whole- skala lengkap dengan skor setengah poin akan
point scores and, therefore, allow for more precision memberikan pengukuran yang lebih tepat daripada
when scoring an assessment. Specifically, the half- versi yang disederhanakan dengan nilai-nilai seluruh
point scores allow for partial credit to be assigned to titik saja.
items.
To illustrate, consider the scores of 3.0, 2.5, and 2.0. Gambar 3.11 menunjukkan skala lengkap lagi, kali
A score of 3.0 indicates that the student has answered ini dalam format yang lebih berguna untuk penilaian
all Type I items correctly (those involving simpler penilaian. Skor setengah poin berangkat ke kanan
details and processes), as well as all Type II items untuk menandakan bahwa mereka menggambarkan
(those involving more complex ideas and processes). pola respons antara skor seluruh titik dan, oleh karena
itu, memungkinkan untuk lebih presisi ketika
mencetak penilaian. Secara khusus, skor setengah
poin memungkinkan untuk kredit parsial ditugaskan
ke item.
Untuk mengilustrasikannya, pertimbangkan skor 3.0,
2.5, dan 2.0. Skor 3.0 mengindikasikan bahwa siswa
telah menjawab semua item Tipe I dengan benar
(yang melibatkan detail dan proses yang lebih
sederhana), serta semua item Tipe II (yang
melibatkan ide dan proses yang lebih kompleks).

FIGURE 3.11
Complete Scoring Scale
Topic Score
on Scale Description of Place on Scale
4.0 In addition to Score 3.0 performance, in-depth inferences and applications that go
beyond what was taught
3.5 In addition to Score 3.0 performance, partial success at inferences and applications that go
beyond what was taught

3.0 No major errors or omissions regarding any of the information and/or processes
(simple or complex) that were explicitly taught
2.5 No major errors or omissions regarding the simpler details and
process and partial knowledge of the more complex ideas and processes

2.0 No major errors or omissions regarding the simpler details and processes but major
errors or omissions regarding the more com- plex ideas and processes
1.5 Partial knowledge of the simpler details and processes but major errors or omissions regarding
the more complex ideas and procedures

1.0 With help, a partial understanding of some of the simpler details and processes and
some of the more complex ideas and processes
0.5 With help, a partial understanding of some of the simpler details and processes but not the
more complex ideas and processes

0.0 Even with help, no understanding or skill demonstrated


Source: From Marzano (2004c). Copyright © 2004 by Marzano & Associates. All rights reserved. Adapted by permission.

apply to scoring a student’s ability to use a specific berlaku untuk menilai kemampuan siswa untuk
type of tool in a mechanics class or to perform a menggunakan jenis alat tertentu di kelas mekanik atau
specific skill in a physical education class untuk melakukan keterampilan tertentu di kelas
The complete scale, then, is a logical extension of the pendidikan jasmani
simplified scale. Teachers can use the two scales Skala yang lengkap, kemudian, merupakan perluasan
interchangeably. When the type of assessment allows logis dari skala yang disederhanakan. Guru dapat
for determining partial credit, the complete scale is menggunakan dua skala tersebut secara bergantian.
preferable. When the type of assessment does not Ketika jenis penilaian memungkinkan untuk
allow for determining partial credit, the simplified menentukan kredit parsial, skala lengkap lebih
scale is used. disukai. Ketika jenis penilaian tidak memungkinkan
Figure 3.12 depicts the relationship between the two untuk menentukan kredit parsial, skala yang
scales in terms of scoring. As before, the symbol + disederhanakan digunakan.
indicates that the student responded correctly to a Gambar 3.12 menggambarkan hubungan antara kedua
particular item type (I, II, III); the symbol 0 indicates skala dalam hal penilaian. Seperti sebelumnya, simbol
that the student responded incorrectly or provided no + menunjukkan bahwa siswa merespons dengan benar
response; the term part indicates that the student untuk jenis item tertentu (I, II, III); simbol 0
responded correctly to some of the items or answered menunjukkan bahwa siswa merespons secara tidak
some parts of the items correctly. (Appendix A benar atau tidak memberikan respons; bagian istilah
contains another comparison of the complete scale menunjukkan bahwa siswa merespons dengan benar
and the simplified scale, although that in Figure 3.12 beberapa item atau menjawab beberapa bagian dengan
suffices for most people.) benar. (Lampiran A berisi perbandingan lain dari
skala lengkap dan skala yang disederhanakan,
meskipun pada Gambar 3.12 cukup untuk kebanyakan
orang.)

FIGURE 3.12
Relationship Between Simplified and Complete Scoring Scales
Student Pattern of Responses
Type I Items part part 0 with
+ + + + + part with with help
help help
Type II Items part 0 with 0 with
+ + + part 0 0 with help help
help
Type III Items 0 with 0 with 0 with
+ part 0 0 0 0 help help help

Score on
Complete (9-
Point) Scale 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0.0

Score on
Simplified (5-
Point) Scale 4.0 3.0 2.0 1.0 0.0
Note: + indicates a correct response. 0 indicates incorrect or no response.
Source: From Marzano (2004c). Copyright © 2004 by Marzano & Associates. All rights reserved. Adapted by permission.

As before, to score a classroom assessment using the Seperti sebelumnya, untuk menilai penilaian kelas
complete scale, a teacher examines a student’s menggunakan skala lengkap, seorang guru memeriksa
responses and marks them as correct (+), incorrect/ no tanggapan siswa dan menandainya sebagai benar (+),
response (0), or partially correct (part). Going back to respons salah / tidak ada (0), atau sebagian benar
the sample test, the teacher would mark each item (bagian). Kembali ke tes sampel, guru akan menandai
using the symbols +, 0, or part. Assume that a student setiap item menggunakan simbol +, 0, atau bagian.
has + for all Type I items and a combination of +, 0, Asumsikan bahwa siswa memiliki + untuk semua item
and part for the Type II items. The student would Tipe I dan kombinasi +, 0, dan bagian untuk item Tipe
receive a score of 2.5. As another example, assume II. Siswa akan menerima skor 2,5. Sebagai contoh
that a student answers no items correctly. However, lain, asumsikan bahwa seorang siswa tidak menjawab
when the teacher provides the student with some item dengan benar. Namun, ketika guru memberikan
clues, the student demonstrates partial credit for the beberapa petunjuk kepada siswa, siswa menunjukkan
Type I items but not the Type II items. She receives a kredit parsial untuk item Tipe I tetapi tidak untuk item
score of 0.5. As before, some teachers have found the Tipe II. Dia menerima skor 0,5. Seperti sebelumnya,
flowchart in Figure 3.13 to be helpful in beberapa guru telah menemukan diagram alur pada
demonstrating the logic of scoring assessments using Gambar 3.13 untuk membantu dalam menunjukkan
the complete scale. To use the flowchart, the teacher logika penilaian penilaian menggunakan skala
again begins by asking the question, are there any lengkap. Untuk menggunakan diagram alur, guru
major errors or omissions on the Type II items? If the sekali lagi memulai dengan mengajukan pertanyaan,
answer is yes, the teacher asks the question, are there apakah ada kesalahan atau kelalaian besar pada item
any major errors or omissions regarding the Type I Tipe II? Jika jawabannya ya, guru mengajukan
items? If the answer is no, the teacher asks the pertanyaan, apakah ada kesalahan atau kelalaian besar
question, does the student have partial credit terkait item Tipe I? Jika jawabannya tidak, guru
mengajukan pertanyaan, apakah siswa memiliki
kredit parsial
on the Type II items? If the answer is yes, the student’s pada item Tipe II? Jika jawabannya ya, skor siswa
score is 2.5. If the answer is no, the student’s score is adalah 2,5. Jika jawabannya tidak, skor siswa adalah
2.0, and so on. 2,0, dan seterusnya
What to Do If Student Responses Don’t Follow a Apa yang Harus Dilakukan Jika Tanggapan Siswa
Logical Pattern Jangan Ikuti Pola Logika
One issue that might occasionally arise is that a
student’s response patterns don’t follow the expected Satu masalah yang kadang-kadang muncul adalah
patterns for the simplified scale or the complete scale. bahwa pola respons siswa tidak mengikuti pola yang
That is, a student exhibits an illogical response diharapkan untuk skala yang disederhanakan atau
pattern, such as answering all Type II items correctly skala yang lengkap. Artinya, seorang siswa
but missing some of the Type I items; or answering menunjukkan pola respons yang tidak masuk akal,
the Type III items correctly but missing some of the seperti menjawab semua item Tipe II dengan benar
Type II items, and so on. The first thing to note is that tetapi melewatkan beberapa item Tipe I; atau
this phenomenon occurs even with standardized tests menjawab item Tipe III dengan benar tetapi
that have been designed rigorously using IRT models melewatkan beberapa item Tipe II, dan seterusnya.
(see Embretson & Reise, 2000). Within IRT parlance, Hal pertama yang perlu diperhatikan adalah bahwa
illogical response patterns are referred to as “aberrant fenomena ini terjadi bahkan dengan tes standar yang
patterns.” The second thing to note is that an illogical telah dirancang secara ketat menggunakan model IRT
response pattern might occur for a number of reasons, (lihat Embretson & Reise, 2000). Dalam bahasa IRT,
including the following: pola respons tidak logis disebut sebagai "pola
• The items in the test were flawed in some way. menyimpang." Hal kedua yang perlu diperhatikan
• Students put effort into answering some items but adalah bahwa pola respons tidak logis dapat terjadi
not others. karena sejumlah alasan, termasuk yang berikut:
• The teacher’s evaluations of the student’s responses • Item dalam tes cacat dalam beberapa cara.
are inaccurate.
A teacher can do a number of things in such situations, • Siswa berupaya menjawab beberapa hal tetapi tidak
including dropping some items because they are yang lain.
deemed to be invalid, rethinking the classification of
specific items, and meeting individually with students
who demonstrate illogical response patterns. This • Evaluasi guru terhadap respons siswa tidak akurat.
issue is covered in more depth in Chapter 4. However,
here I simply note that the ultimate goal when scoring Seorang guru dapat melakukan sejumlah hal dalam
any assessment is to estimate each student’s true score situasi seperti itu, termasuk menjatuhkan beberapa
on the topic being assessed as accurately as possible item karena dianggap tidak valid, memikirkan
using the complete scale or the simplified scale. kembali klasifikasi item tertentu, dan bertemu secara
Realizing that no assessment can ever provide individu dengan siswa yang menunjukkan pola
perfectly accurate data about a student, it behooves the respons yang tidak logis. Masalah ini dibahas lebih
teacher to go beyond the observed response patterns dalam pada Bab 4
by collecting more information. Namun, di sini saya hanya mencatat bahwa tujuan
akhir ketika mencetak penilaian adalah untuk
memperkirakan skor sebenarnya setiap siswa pada
topik yang dinilai seakurat mungkin menggunakan
skala lengkap atau skala sederhana. Menyadari bahwa
tidak ada penilaian yang dapat memberikan data yang
benar-benar akurat tentang seorang siswa, guru harus
melampaui pola respons yang diamati dengan
mengumpulkan lebih banyak informasi..
This notion that one must go beyond a simple tallying Gagasan bahwa seseorang harus melampaui
of correct and incorrect answers to interpret a test penghitungan sederhana dari jawaban yang benar dan
score is the subject of much discussion among salah untuk menafsirkan skor tes adalah subjek dari
measurement experts. In fact, in his 2005 presidential banyak diskusi di antara para ahli pengukuran.
address to the National Council on Measurement. in Bahkan, dalam pidatonya di tahun 2005 kepada
Education, David Frisbie (2005) explained that for Dewan Nasional untuk Pengukuran. dalam
decades educators have mistakenly thought of Pendidikan, David Frisbie (2005) menjelaskan bahwa
reliability as being a characteristic of a specific test. selama berpuluh-puluh tahun, para pendidik telah
He explained that reliability is more properly thought secara keliru menganggap keandalan sebagai
of as the manner in which scores are interpreted. (See karakteristik dari tes tertentu. Dia menjelaskan bahwa
Technical Note 3.4 for a more detailed discussion of keandalan lebih dianggap sebagai cara di mana skor
Frisbie’s comments.) At face value an implication of ditafsirkan. (Lihat Catatan Teknis 3.4 untuk diskusi
Frisbie’s comments is that numerical scores on tests yang lebih rinci tentang komentar Frisbie.) Pada nilai
are never reliable in themselves. When the scores nominal, implikasi dari komentar Frisbie adalah
don’t make sense, educators must look beyond them bahwa skor numerik pada tes tidak pernah dapat
to obtain the most accurate estimate of students’ true diandalkan dalam diri mereka sendiri. Ketika skor
scores. tidak masuk akal, pendidik harus melihat lebih jauh
dari mereka untuk mendapatkan estimasi skor
The Accuracy of This Method of Scoring sebenarnya dari siswa yang paling akurat.
Classroom Assessment
A logical and important question regarding the
method of scoring assessments described in this Akurasi Metode Penilaian Penilaian Kelas ini
chapter is, how accurate is it? As mentioned in the
previous section, Technical Note 3.4 addresses the Pertanyaan logis dan penting mengenai metode
concept of reliability in more depth. Briefly, though, penilaian penilaian yang dijelaskan dalam bab ini
reliability can be thought of as how precisely students’ adalah, seberapa akuratkah itu? Seperti disebutkan di
scores on assessments estimate their true scores. bagian sebelumnya, Catatan Teknis 3.4 membahas
Typically, some type of reliability coefficient is konsep keandalan secara lebih mendalam. Namun,
computed for a test; these reliability coefficients range secara singkat, reliabilitas dapat dianggap sebagai
from 0 to 1.0, with 1.0 indicating a perfect reliability. seberapa tepatnya skor siswa dalam penilaian
To examine the reliability of the system described memperkirakan skor mereka yang sebenarnya.
in this chapter, five teachers scored the same 10 Biasanya, beberapa jenis koefisien reliabilitas
students’ science tests discussed at the beginning of dihitung untuk pengujian; koefisien reliabilitas ini
this chapter. These five teachers were as familiar with berkisar dari 0 hingga 1.0, dengan 1.0
the test content as were those teachers who scored the mengindikasikan keandalan yang sempurna.
test using the point system. However, this second set
of five teachers used an early version of the simplified Untuk memeriksa keandalan sistem yang dijelaskan
scale shown in Figure 3.8. In effect, then, five teachers dalam bab ini, lima guru mencetak 10 tes sains yang
scored the test by assigning points, and five teachers sama dengan siswa yang dibahas pada awal bab ini.
scored the test using the simplified scale. (See Kelima guru ini terbiasa dengan konten tes seperti
Marzano, 2002a, for details.) A reliability coefficient halnya guru-guru yang menilai tes menggunakan
(technically referred to as a generalizability sistem poin.
coefficient) was computed for the point system and Namun, set kedua lima guru ini menggunakan versi
the system using the simplified scale. The reliability awal dari skala yang disederhanakan yang
coefficient using the point system was. .294, whereas ditunjukkan pada Gambar 3.8. Akibatnya, kemudian,
the reliability coefficient using the simplified scale lima guru mencetak tes dengan menetapkan poin, dan
was .719. Additionally, it was found that if two lima guru mencetak tes menggunakan skala yang
teachers independently scored a student’s test using disederhanakan. (Lihat Marzano, 2002a, untuk
the simplified scale, the combined score for those two detailnya.) Koefisien reliabilitas (secara teknis disebut
independent ratings had an estimated reliability sebagai koefisien generalisasi) dihitung untuk sistem
(generalizability) of .822. If four teachers poin dan sistem menggunakan skala yang
independently scored a student’s assessment, the disederhanakan. Koefisien reliabilitas menggunakan
combined score for those four independent ratings had sistem poin adalah.
a reliability of .901. Similar findings have been .294, sedangkan koefisien reliabilitas menggunakan
reported by Michael Flicek (2005a, 2005b). skala yang disederhanakan adalah .719. Selain itu,
These findings are quite promising because they ditemukan bahwa jika dua guru secara mandiri
indicate that under the right conditions, teacher-made mencetak tes siswa menggunakan skala yang
assessments can have reliabilities that are in line with disederhanakan, skor gabungan untuk kedua peringkat
those reported for standardized tests. To illustrate, independen tersebut memiliki estimasi keandalan
Jason Osborne (2003) found that the average (kemampuan generalisasi) 0,822. Jika empat guru
reliability reported in psychology journals is .83. Lou secara mandiri mencetak penilaian siswa, skor
and colleagues (1996) reported a typical reliability on gabungan untuk empat peringkat independen tersebut
standardized achievement tests of .85 and a reliability memiliki reliabilitas 0,901. Temuan serupa telah
of .75 for unstandardized tests of academic dilaporkan oleh Michael Flicek (2005a, 2005b)
achievement.
Since the initial studies conducted using the simplified Temuan ini cukup menjanjikan karena
scale, other studies have demonstrated that the menunjukkan bahwa di bawah kondisi yang tepat,
complete scale produces even better results (Marzano, penilaian buatan guru dapat memiliki reliabilitas yang
2006). Additionally, these studies indicate that the sesuai dengan yang dilaporkan untuk tes standar.
complete scale is most useful and accurate when it is Sebagai ilustrasi, Jason Osborne (2003) menemukan
rewritten to identify the specific aspects of bahwa reliabilitas rata-rata yang dilaporkan dalam
measurement topics that signify scores of 2.0, 3.0, and jurnal psikologi adalah 0,83. Lou dan koleganya
4.0. To illustrate, consider Figure 3.14. The scale in (1996) melaporkan reliabilitas tipikal pada tes
the figure is for the measurement topic of reading for pencapaian standar 0,85 dan reliabilitas 0,75 untuk tes
prestasi akademik yang tidak standar
Sejak studi awal dilakukan dengan menggunakan
skala yang disederhanakan, penelitian lain telah
menunjukkan bahwa skala lengkap menghasilkan
hasil yang lebih baik (Marzano, 2006). Selain itu,
penelitian ini menunjukkan bahwa skala lengkap
paling bermanfaat dan akurat ketika ditulis ulang
untuk mengidentifikasi aspek spesifik dari topik
pengukuran yang menandakan skor 2,0, 3.0, dan 4.0.
Untuk menggambarkan, pertimbangkan Gambar 3.14.
Skala pada gambar adalah untuk topik pengukuran
membaca.
main idea at the 5th grade level. Note that specific ide utama di tingkat kelas 5. Perhatikan bahwa elemen
elements have been provided for the score values 4.0, spesifik telah disediakan untuk nilai skor 4.0, 3.0, dan
3.0, and 2.0. It is important to note that the example in 2.0. Penting untuk dicatat bahwa contoh pada Gambar
Figure 3.14 is just that—an example. Many schemes 3.14 hanya itu — sebuah contoh. Banyak skema dapat
might be used to define and articulate the specific digunakan untuk mendefinisikan dan
elements of score values 4.0, 3.0, and 2.0 (for a mengartikulasikan elemen spesifik dari nilai skor 4.0,
discussion, see Marzano & Haystead, in press). In this 3.0, dan 2.0 (untuk diskusi, lihat Marzano & Haystead,
example, a score of 3.0 indicates that a student can dalam siaran pers). Dalam contoh ini, skor 3.0
identify specific types of organizational patterns mengindikasikan bahwa seorang siswa dapat
whether they are explicitly stated in the text or mengidentifikasi tipe spesifik dari pola organisasi
implied. The score value of 2.0 indicates that the apakah mereka secara eksplisit dinyatakan dalam teks
student can identify the same type of patterns if they atau tersirat. Nilai skor 2,0 menunjukkan bahwa siswa
are explicitly stated in the text but makes major errors dapat mengidentifikasi jenis pola yang sama jika
or omissions when those patterns are implied. A score mereka secara eksplisit dinyatakan dalam teks tetapi
value of 4.0 indicates that in addition to identifying membuat kesalahan atau kelalaian besar ketika pola
explicit and implied patterns the student can explain tersebut tersirat. Nilai skor 4.0 menunjukkan bahwa
and defend inferences about those patterns. selain mengidentifikasi pola-pola eksplisit dan tersirat
I believe that the format shown in Figure 3.14 is the siswa dapat menjelaskan dan mempertahankan
optimal way to construct measurement topics. To this kesimpulan tentang pola-pola itu.
end, Appendix B presents the language arts
measurement topic shown in the figure for various Saya percaya bahwa format yang ditunjukkan pada
grade levels as a general example for districts and Gambar 3.14 adalah cara optimal untuk membangun
schools to follow. For a complete listing of topik pengukuran. Untuk tujuan ini, Lampiran B
measurement topics for language arts, mathematics, menyajikan topik pengukuran seni bahasa yang
science, and social studies, see Making Standards ditunjukkan pada gambar untuk berbagai tingkatan
Useful to Classroom Teachers (Marzano & Haystead, kelas sebagai contoh umum untuk diikuti oleh
in press). I believe that one of the most powerful kabupaten dan sekolah. Untuk daftar lengkap topik
actions a district or school can take is to articulate each pengukuran untuk seni bahasa, matematika, sains, dan
measurement topic at each grade level in the format studi sosial, lihat Membuat Standar Berguna untuk
shown in Figure 3.14. Such action not only requires Guru Kelas (Marzano & Haystead, dalam siaran pers).
the district or school to rigorously define expected Saya percaya bahwa salah satu tindakan paling kuat
levels of performance for each measurement topic, but yang dapat dilakukan oleh kabupaten atau sekolah
it also provides teachers with explicit guidance for adalah mengartikulasikan setiap topik pengukuran
scoring assessments. pada setiap tingkat kelas dalam format yang
The Issue of Performance Standards ditunjukkan pada Gambar 3.14. Tindakan seperti itu
To be used effectively to track students’ progress on tidak hanya mengharuskan kabupaten atau sekolah
measurement topics, the scale presented in this untuk secara ketat mendefinisikan tingkat kinerja
chapter must conform to current conventions of yang diharapkan untuk setiap topik pengukuran, tetapi
standardsbased reporting. One of those conventions is juga memberikan guru dengan panduan eksplisit
to identify performance standards for student untuk penilaian penilaian.
achievement. Unfortunately, the concept of a
performance standard is frequently Masalah Standar Kinerja
misunderstood.The term was popularized in the 1993 Agar dapat digunakan secara efektif untuk melacak
report to the National Education Goals Panel (1993) kemajuan siswa pada topik pengukuran, skala yang
by the Goal 3 and 4 Standards Review Planning disajikan dalam bab ini harus sesuai dengan konvensi
Group. Commonly referred to as the Malcom Report terkini dari pelaporan berbasis standar. Salah satu
in deference to Shirley M. Malcom, chair of the konvensi tersebut adalah untuk mengidentifikasi
planning group, the report defined performance standar kinerja untuk pencapaian siswa. Sayangnya,
standards as “how good is good enough” (pp. ii–iii). konsep standar kinerja sering disalahpahamiIstilah ini
Since the publication of that report, a convention that dipopulerkan dalam laporan tahun 1993 kepada Panel
has caught on across the United States is to define Tujuan Pendidikan Nasional (1993) oleh Kelompok
student performance in terms of four categories: Perencanaan Peninjauan Sasaran 3 dan 4. Biasa
advanced, proficient, basic, and below basic. This disebut sebagai Laporan Malcom untuk menghormati
scheme has it roots in the work of the National Shirley M. Malcom, ketua kelompok perencanaan,
Assessment of Educational Progress. As James laporan tersebut mendefinisikan standar kinerja
Popham (2003) notes: sebagai "seberapa baik cukup baik" (hal. Ii – iii). Sejak
Increasingly, U.S. educators are building publikasi laporan itu, sebuah konvensi yang telah
performance standards along the lines of the menyebar di seluruh Amerika Serikat adalah untuk
descriptive categories used in the National mendefinisikan kinerja siswa dalam empat kategori:
Assessment of Educational Progress (NAEP), a test maju, mahir, dasar, dan di bawah dasar. Skema ini
administered periodically under the auspices of the berakar pada karya Penilaian Kemajuan Pendidikan
federal government. NAEP results permit students’ Nasional.
performances in participating states to be compared . Semakin banyak, pendidik A.S. sedang membangun
. . [S]ince 1990, NAEP results have been described in standar kinerja di sepanjang garis kategori deskriptif
four performance categories: advanced, proficient, yang digunakan dalam Penilaian Nasional Kemajuan
basic, and below basic. Most of the 50 states now use Pendidikan (NAEP), tes yang dilakukan secara
those four categories or labels quite similar to them. berkala di bawah naungan pemerintah federal. Hasil
For example, if students were taking a statewide NAEP memungkinkan penampilan siswa di negara-
examination consisting of 65 multiple-choice items, negara yang berpartisipasi untuk dibandingkan. . . [S]
the performance standards for the test could be set by setelah tahun 1990, hasil NAEP telah dijelaskan
deciding how many of the 65 items must be answered dalam empat kategori kinerja: maju, mahir, dasar,
correctly for a student to be classified as advanced, dan di bawah dasar. Sebagian besar dari 50 negara
how many items for proficient and so on. (p. 39 sekarang menggunakan empat kategori atau label
The complete scale presented in this chapter can easily yang sangat mirip dengan mereka. Misalnya, jika
be adapted to conform to this convention. To siswa mengikuti ujian di seluruh negara bagian yang
illustrate, consider Figure 3.15. The logic of the terdiri dari 65 item pilihan ganda, standar kinerja
categorization scheme used in the figure is untuk tes dapat ditetapkan dengan memutuskan
straightforward. Advanced performance means that a berapa banyak dari 65 item yang harus dijawab
student can go beyond what was presented in class, dengan benar agar siswa dapat diklasifikasikan
indicated by the score values of 4.0 and 3.5. Proficient sebagai mahir, berapa item untuk mahir dan
performance means that a student exhibits no errors sebagainya. (hlm. 39
relative to the simple and complex ideas and
processes, or the student exhibits no errors regarding Skala lengkap yang disajikan dalam bab ini dapat
the simpler details and processes and partial dengan mudah disesuaikan agar sesuai dengan
knowledge of more complex ideas and processes, konvensi ini. Untuk menggambarkan, pertimbangkan
indicated by the score values of 3.0 and 2.5, and so on. Gambar 3.15. Logika skema kategorisasi yang
Although the logic of Figure 3.15 is digunakan dalam gambar ini sangat mudah. Kinerja
straightforward, it is useful to keep in mind that the lanjutan berarti bahwa siswa dapat melampaui apa
“cut point” for each performance level is quite yang disajikan di kelas, ditunjukkan oleh nilai skor 4.0
arbitrary. Again, Popham (2003) notes: dan 3.5. Kinerja mahir berarti bahwa siswa tidak
My point is that performance standards are menunjukkan kesalahan relatif terhadap ide dan
malleable, and you never know what something like proses yang sederhana dan kompleks, atau siswa tidak
“basic” means until you read the fine-print menunjukkan kesalahan mengenai perincian dan
description of that level of performance. For example, proses yang lebih sederhana dan pengetahuan parsial
the No Child Left Behind Act calls for states to dari ide dan proses yang lebih kompleks, yang
establish at least three levels of academic ditunjukkan oleh nilai skor 3.0 dan 2.5 , dan
achievement standards (advanced, proficient, and seterusnya.
basic) and to demonstrate, over time, state-decreed
increases in the proportion of students deemed Meskipun logika Gambar 3.15 mudah, perlu diingat
“proficient” or above. . . . However, each state is bahwa "titik potong" untuk setiap tingkat kinerja
allowed to define “proficient” in its own way. And cukup sewenang-wenang. Lagi, Popham (2003)
because there are significant negative sanctions for mencatat:
schools that fail to get enough students to score at the
proficient levels on NCLB tests, in some states there Maksud saya adalah bahwa standar kinerja mudah
have been remarkably lenient levels of “proficiency” ditempa, dan Anda tidak pernah tahu apa arti sesuatu
established. (p. 40) "dasar" sampai Anda membaca deskripsi cetakan
One useful interpretation of Popham’s message is tingkat kinerja itu. Misalnya, Undang-Undang No
that districts and schools should set performance Child Left Behind Act meminta negara untuk
standards that reflect expectations about students that menetapkan setidaknya tiga tingkat standar prestasi
the district or school deem reasonable and valuable. akademik (maju, mahir, dan dasar) dan untuk
For example, a district or a school might decide that menunjukkan, seiring waktu, peningkatan yang
the below basic category should end at the score value ditetapkan oleh negara dalam proporsi siswa yang
of 1.5 as opposed to the value of 1.0, or that it should dianggap "cakap" atau diatas. . . . Namun, setiap
end at 0.5 instead of 1.0. negara diizinkan untuk mendefinisikan "mahir"
dengan caranya sendiri. Dan karena ada sanksi
negatif yang signifikan untuk sekolah yang gagal
mendapatkan siswa yang cukup untuk mencetak skor
pada tingkat mahir pada tes NCLB, di beberapa
negara telah ada tingkat "kemahiran" yang sangat
lunak yang ditetapkan. (hal. 40)

Salah satu interpretasi yang bermanfaat dari pesan


Popham adalah bahwa distrik dan sekolah harus
menetapkan standar kinerja yang mencerminkan
ekspektasi tentang siswa bahwa distrik atau sekolah
menganggapnya masuk akal dan berharga. Misalnya,
sebuah kabupaten atau sekolah mungkin memutuskan
bahwa kategori dasar di bawah ini harus berakhir pada
nilai skor 1,5 dibandingkan dengan nilai 1,0, atau
bahwa itu harus berakhir pada 0,5 bukannya 1,0
Summary and Conclusions Ringkasan dan Kesimpulan
An argument can be made against using the
point method for scoring assessments. An Argumen dapat dibuat menentang
alternative approach is grounded in the logic of penggunaan metode poin untuk penilaian
item response theory. Using this approach, penilaian. Pendekatan alternatif didasarkan
teachers translate student response patterns pada logika teori respons item. Dengan
into scores on a scale that represents menggunakan pendekatan ini, guru
progression of understanding and skill for a menerjemahkan pola respons siswa ke dalam
given measurement topic. A simplified version skor pada skala yang mewakili
of the scale uses whole-point scores only. A perkembangan pemahaman dan
complete version of the scale allows for half- keterampilan untuk topik pengukuran yang
point scores and consequently more precise diberikan. Versi skala yang disederhanakan
measurement. hanya menggunakan skor seluruh-titik. Versi
lengkap skala memungkinkan untuk skor
setengah poin dan akibatnya pengukuran
lebih tepat.

Anda mungkin juga menyukai