Anda di halaman 1dari 33

TES INTELIGENSI

Mata Kuliah : Teori Dasar Psikologi : Klinis


Dosen Pengampu : DR. Risydah Fadillah, M.Psi. Psikolog
D
I
S
U
S
U
N
OLEH : KELOMPOK 10
NAMA NPM
Rabiatul Adawiyah Butar-Butar 188600210
Annisa Rahmadani 188600209
Rofi Dwi Putri R 188600214
Febri Evri Tamara 188600199
Vanessa Putri 188600200

UNIVERSITAS MEDAN AREA


FAKULTAS PSIKOLOGI
2020
KATA PENGANTAR

Assalamu’alaikumWr. Wb.

Segala puji dan syukur kami sampaikan kepada Allah SWT, atas rahmat, taufik, serta
hidayah-Nya. Sehingga penyusunan makalah yang berjudul “TESINTELEGENSI” dapat
diselesaikan dengan baik dan tepat waktu.

Sholawat serta salam tidak lupa kami haturkan kepada junjungan kita Rasulullah
Muhammad SAW yang telah memberikan bimbingan kepada kita dari zaman jahiliyyah
menuju zaman yang terang benderang dan penuh berkah.

Kami menyadari bahwa masih banyak kekurangan pada makalah ini. Oleh karena itu,
kami mengharapkan kritik dan saran yang bersifat membangun dari Ibu dan rekan-rekan agar
makalah ini menjadi lebih baik lagi. Kami berharap makalah ini dapat memberi bermanfaat
bagi kita semua.

Wassalamu’alaikumWr. Wb.

Medan, 25 November 2020

Penyusun,
BAB I

PENDAHULUAN

1.1. Latar Belakang

Peran pengujian sebagai aktivitas dalam psikologi klinis telah mengalami perubahan
besar dalam popularitas selama bertahun-tahun. Dimulai pada 1930-an dan berlanjut hingga
pertengahan 1960-an, tes disebut-sebut sebagai jalur semi-magis menuju "kebenaran" tentang
kecerdasan, kepribadian, dan kemampuan (Reisman, 1976). Selama tahun-tahun tersebut,
mahasiswa psikologi klinis dilatih secara intensif dalam menggunakan tes. Dari akhir 1960-
an hingga 1970-an, bagaimanapun, pengujian kehilangan banyak daya tariknya dan tidak
ditekankan sebagai tujuan pelatihan dan aktivitas profesional bagi para dokter. Keputusan
pengujian selama ini disebabkan oleh : (a) hasil penelitian yang tidak menggembirakan
tentang reliabilitas dan validitas dari banyak tes; (b) kesadaran akan kerentanan pengujian
terhadap berbagai bias; (c) pengakuan bahwa tes, terutama yang menilai inteligen, dapat
menempatkan anggota kelompok minoritas tertentu pada posisi yang kurang menguntungkan;
(d) takut bahwa proses pengujian dapat mengganggu privasi responden; dan (e) khawatir
bahwa tes terlalu mudah disalahgunakan atau disalahtafsirkan.
BAB II

PEMBAHASAN

2.1. Konsep Dasar Dalam Tes Psikologi

2.1.1. What is a test? (Apa itu tes?)

Tes adalah prosedur sistematis untuk mengamati dan menggambarkan perilaku


seseorang dalam situasi standar (Cronbach, 1970). Tes menyajikan serangkaian rangsangan
yang direncanakan (bercak tinta atau pertanyaan benar-salah, misalnya) dan meminta klien
untuk merespons dengan cara tertentu. Klinisi kemudian menilai atau menafsirkan tanggapan
klien menggunakan aturan penilaian yang objektif dan diturunkan secara empiris. Biasanya,
dokter menggabungkan hasil tes ke dalam penilaian keseluruhan yang juga dapat mencakup
wawancara dan sumber informasi lainnya.

Deskripsi pengujian menyoroti dua fitur terpentingnya. Pertama, tes dirancang untuk
menjadi ukuran obyektif, seperti penggaris dirancang untuk menjadi ukuran obyektif dari
panjang. Meskipun tidak ada tes yang benar-benar objektif, objektivitas adalah tujuannya
karena tes dirancang untuk mengukur perbedaan di antara klien, bukan dokter. Kedua,
menyoroti pentingnya standardisasi. Semua orang yang mengambil tes yang sama harus
dipaparkan pada rangsangan yang sama dan dievaluasi dengan kriteria penilaian yang sama.
Misalnya, seandainya seorang anak berusia 5 tahun yang mengikuti tes IQ ditanya, "Bagian
tubuh mana yang masuk ke dalam sepatu Anda?" dan yang lainnya ditanya, "Berapa
seperempat menghasilkan dua dolar?". Jika satu anak menjawab dengan benar dan yang
lainnya salah, akan sangat sulit untuk menentukan apakah perbedaan dalam nilai mereka
disebabkan oleh perbedaan tingkat pengetahuan mereka atau dari perbedaan dalam
administrasi ujian.

Domino dan Domino (2006) mengemukakan prinsip-prinsip objektivitas dan


standardisasi memungkinkan kita untuk melihat tes psikologi dengan logika yang sama
seperti yang digunakan untuk melihat eksperimen. Pada keduanya, idenya adalah untuk
menghilangkan variabel asing sehingga hasil dapat dikaitkan ke satu sumber. Jika kita
berhasil dalam suatu percobaan, perubahan variabel dependen dapat dikaitkan dengan
perubahan variabel independen, bukan variabel asing. Jika kita berhasil mengembangkan dan
menggunakan tes, skornya harus mencerminkan karakteristik klien, bukan karakteristik
administrasi tes, prosedur penilaian, atau klinisi. Jadi tes seperti eksperimen, tetapi juga
seperti wawancara yang sangat terstruktur. Tes juga berbagi karakteristik dengan penilaian
observasi dengan memberikan kesempatan bagi dokter untuk melihat klien dalam situasi tes.
Namun, dalam beberapa gelombang, tes berbeda dari semua teknik penilaian lainnya.
Sebagai contoh :

1. Biasanya, respons pengujian klien dapat secara kuantitatif dibandingkan dengan


nomor statistik yang dibuat oleh respons dari ratusan atau ribuan orang lain yang telah
mengambil tes yang sama dalam kondisi standar. Standardisasi memungkinkan kita
untuk membandingkan kinerja 5 tahun tertentu dengan kinerja rata-rata 5 tahun.
2. Tes dapat dilakukan secara pribadi, jadi penilaian observasi mungkin tidak
melengkapi data tes.
3. Tes dapat dilakukan dalam kelompok maupun individu. SAT dan ujian masuk
perguruan tinggi lainnya memberikan contoh bagaimana tes digunakan untuk menilai
banyak orang pada waktu yang sama.

2.1.2. What do test measure? (Apa yang diukur oleh tes?)

Tes memberikan ukuran dari segala hal mulai dari A (kecemasan) hingga Z (Z-skor
pada tes prestasi) Faktanya, ada begitu banyak tes yang membutuhkan publikasi khusus untuk
mendaftar semuanya dan meninjau keandalan, validitas, dan kegunaannya. Yang paling
terkenal dan paling otoritatif adalah Buku Tahunan Pengukuran Mental, pertama kali
diterbitkan pada tahun 1938 (Buros, 1938) dan sering diperbarui (impara & Plake, 2003).
Publikasi ini mengulas lebih dari 2.200 tes psikologi standar. Dari jumlah tersebut, 286 tes
diberikan ulasan lengkap, dan sisanya diberikan ulasan yang lebih singkat.

Ada tes yang dirancang untuk digunakan dengan bayi, anak-anak, remaja, dewasa,
warga senior, pelajar, tentara, penderita mental, pekerja kantoran, pelamar kerja, narapidana,
dan setiap kelompok lain yang bisa dibayangkan (Impara & Plake, 2003). Beberapa dari tes
ini mengajukan pertanyaan langsung dan spesifik ("Apakah Anda pernah merasa putus
asa?"), Sementara yang lain menanyakan reaksi umum terhadap rangsangan yang kurang
berbeda ("Ceritakan apa yang Anda lihat dalam gambar ini"). Beberapa memiliki jawaban
yang benar ("Apakah ayam mamalia?), Sementara yang lain menyelidiki pendapat atau
preferensi ("Saya senang melihat bunga: benar atau salah?"). Beberapa disajikan dalam
bentuk kertas-dan-pensil, beberapa diberikan secara lisan. Beberapa memerlukan
keterampilan verbal ("Apa arti analogi?"), beberapa meminta klien untuk melakukan berbagai
tugas nonverbal ("Harap telusuri jalur yang benar melalui labirin teka-teki ini"), dan yang
lainnya menggabungkan item verbal, numerik, dan kinerja. Seringkali, ada beberapa tes
berbeda yang dirancang untuk mengukur karakteristik yang sama.

Salah satu alasan berkembangnya tes adalah bahwa penguji selalu berharap untuk
mengukur konstruksi klinis dengan cara yang lebih andal, valid, dan canggih. Misalnya,
seorang dokter mungkin merasa bahwa tes kecemasan yang populer tidak menilai kecemasan
dengan baik sehingga dokter menciptakan instrumen baru yang lebih baik. Psikolog lain
mungkin merasa tidak puas dengan kedua tes tersebut dan akan segera menemukan perangkat
lain. Faktor lain yang menyebabkan bertambahnya rangkaian pengujian adalah minat penguji
menjadi lebih spesifik, sehingga mendorong pengembangan pengujian tujuan khusus. Dalam
pengujian kecerdasan, misalnya, instrumen tersedia untuk digunakan dengan bayi,
penyandang cacat fisik, dan orang yang tidak fasih berbahasa Inggris atau dari latar belakang
budaya tertentu.

Meskipun sangat beragam, tes dapat dikelompokkan menjadi tiga kategori umum
berdasarkan apakah tes tersebut berusaha untuk mengukur (a) kemampuan intelektual atau
kognitif, (b) sikap, minat, preferensi, dan nilai, atau (c) karakteristik kepribadian. Tes yang
paling umum digunakan oleh psikolog klinis di Amerika Serikat dan di tempat lain adalah tes
fungsi intelektual dan kepribadian (Archer, Maruist Imhof, & Piotrowski, 1991; Camara,
Nathan, & Puente, 2000; Chan & Lee, 1995).

2.1.3. How are test constructed? (Bagaimana tes dibangun?)

Hal-hal yang tampaknya aneh pada beberapa tes psikologi, terutama pada tes
kepribadian tertentu, membuat banyak orang bertanya-tanya bagaimana psikolog menemukan
hal-hal ini. Jawabannya adalah bahwa mereka biasanya menyusun tes mereka, dengan
menggunakan pendekatan analitik atau empiris, meskipun seringkali mereka menggunakan
pendekatan sistem seguensial, yang menggabungkan keduanya (Burisch, 1984).

Psikolog yang menggunakan pendekatan analitik, kadang-kadang disebut pendekatan


rational, memulai dengan bertanya, Kualitas apa yang ingin saya ukur, dan Bagaimana cara
saya mendefinisikan kualitas tersebut?. Mereka kemudian membuat tes dengan membuat
item yang menjawab pertanyaan-pertanyaan ini. Dengan kata lain, pengembang membuat
materi atau item pengujian dengan menganalisis konten domain dan mencocokkan
pertanyaan yang dia yakini (atau yang dikatakan teori) ketuk konten itu.
Untuk mengilustrasikan pendekatan analitik yang paling sederhana, anggaplah
seorang dokter ingin mengembangkan tes untuk mengidentifikasi pria dan wanita. Langkah
pertama adalah menanyakan jenis soal apa yang mungkin dijawab secara berbeda oleh kedua
jenis kelamin. Pilihan item, kemudian, akan dibentuk oleh pengetahuan, pengalaman, dan
teori favorit klinisi tentang perbedaan gender. Jika dokter memilih untuk fokus pada variasi
dalam karakteristik fisik, dan lebih memilih format benar-salah, tes tersebut mungkin berisi
item seperti berikut ini:

1. Saya lahir dengan kelenjar prostat.


2. Saya lahir dengan rahim.
3. Saya lahir dengan penis.
4. Saya lahir dengan vagina.

Namun, anggaplah bahwa ketertarikan klinisi terhadap perbedaan gender bukanlah


seks biologis, melainkan distribusi ciri-ciri yang terkait dengan menjadi laki-laki atau
perempuan. Dokter mungkin mengembangkan item yang dirancang untuk memanfaatkan
proses bawah sadar yang terkait dengan maskulinitas dan feminitas. Tes semacam itu
mungkin mencari tema bawah sadar dengan meminta klien mengisi kalimat yang tidak
lengkap seperti berikut:

1. Orang yang bergantung adalah …

2. Kekuatan adalah …

3. Masalah dengan kebanyakan pria adalah …

4. Sebagian besar wanita adalah …

Contoh ini mengilustrasikan pentingnya mendefinisikan dengan jelas konsep yang


akan diukur. Penguji yang tertarik pada gender kemungkinan besar akan membuat instrumen
yang sangat berbeda tergantung pada apakah tujuannya adalah untuk mengukur jenis kelamin
biologis, identitas gender, atau stereotip peran gender. Bagaimanapun, item pada tes yang
dibangun secara analitis akan sangat mencerminkan teori penguji tentang aspek apa dari
konsep tertentu yang harus diuji, dan bagaimana.

Alternatif utama konstruksi tes analitik adalah pendekatan empiris. Di sini, alih-alih
memutuskan sebelumnya konten tes apa yang harus digunakan untuk mengukur target
tertentu, penguji membiarkan konten "memilih sendiri". Jadi, dalam membangun tes seks,
dokter akan mengumpulkan sejumlah besar item tes laporan diri, tugas kinerja, bercak tinta,
atau rangsangan lain dan kemudian memberikan semuanya kepada sekelompok besar orang
yang telah diidentifikasi sebagai pria atau wanita menggunakan kriteria biologis seperti
analisis kromosom. Klinisi kemudian akan memeriksa tanggapan seluruh kelompok untuk
semua bahan pengujian ini untuk melihat item, tugas, atau rangsangan lain mana yang secara
konsisten dijawab secara berbeda oleh pria dan wanita.

Setiap rangsangan tes yang dapat diandalkan untuk membedakan jenis kelamin akan
digunakan untuk membuat versi awal dari tes seks, terlepas dari apakah mereka memiliki
hubungan yang jelas dengan perbedaan jenis kelamin. Jadi, jika lebih banyak pria daripada
wanita yang menjawab "benar" untuk item seperti "Saya sering sulit tidur" atau "Sepatuku
terlalu ketat", item tersebut akan menjadi bagian dari tes. Penguji yang didorong secara
empiris biasanya bersedia menggunakan item yang dapat diandalkan untuk membedakan
antara kelompok sasaran meskipun relevansi konseptual dari item tersebut tidak selalu dapat
dijelaskan dengan jelas. Itulah mengapa beberapa tes mengandung item yang tampaknya
aneh.

Beberapa faktor mempengaruhi pilihan pengembang tes antara prosedur analitik dan
empiris. Pendekatan analitik bisa lebih cepat dan lebih murah karena tidak memerlukan
administrasi awal dari banyak item kepada banyak orang untuk menetapkan item yang akan
menjadi tes. Fitur-fitur ini membuat prosedur analitik menarik bagi dokter yang tidak
memiliki akses ke sejumlah besar materi tes dan peserta yang berkeinginan atau yang dipaksa
oleh keadaan untuk mengembangkan tes dalam waktu singkat. Prosedur analitik juga
cenderung disukai oleh dokter yang mengevaluasi teori tertentu. Anggaplah teori itu
menyatakan bahwa orang berbeda dalam hal "geekiness", tetapi tidak ada tes yang tersedia
untuk mengukurnya. Untuk mengeksplorasi dimensi geekiness dari kepribadian, peneliti
memerlukan tes yang menjelaskan apa yang dikatakan teori geekiness. Tes juga akan
menggunakan metode pengukuran yang sesuai dengan teori. Pengembangan Tes Geek
kemungkinan akan dilanjutkan atas dasar analitik.

Dokter yang memiliki waktu dan sumber daya lain yang tersedia sering kali
menganggap pendekatan empiris lebih diinginkan, terutama ketika mencoba membuat
prediksi khusus tentang orang. Jika tugas penguji adalah untuk mengidentifikasi individu
yang kemungkinan akan lulus dari sekolah hukum, misalnya, masuk akal untuk mengetahui
apakah siswa yang lulus menanggapi item tes tertentu dengan cara yang dapat dipercaya
berbeda dari mereka yang gagal atau putus sekolah. Singkatnya, metode analitik sering
menghasilkan item yang tampak masuk akal tetapi mungkin berhasil atau tidak; pendekatan
empiris sering menghasilkan item-item yang berhasil tetapi mungkin tampak masuk akal atau
tidak.

Pendekatan sistem sekuensial untuk menguji konstruksi menggabungkan aspek teknik


analitik dan empiris. Keputusan tentang item yang akan dicoba biasanya dibuat atas dasar
analitik; beberapa item dipilih dari tes yang ada, sementara yang lain adalah yang menurut
elinician "harus" dievaluasi. Penguji yang memilih item tes awal secara analitis kemudian
dapat memeriksa hasil secara statistik untuk menentukan respons item mana dan mana yang
tidak berkorelasi satu sama lain, iteras mana yang terlalu mudah atau terlalu sulit, dan item
mana yang melakukan dan tidak membedakan antara orang-orang yang berbeda dalam
karakteristik yang menarik. Kelompok item berkorelasi kemudian diidentifikasi sebagai
skala, yang dianggap ukuran relatif murni dari dimensi tertentu dari kepribadian, kemampuan
mental, atau sejenisnya (Maloney & Ward, 1976). Terlepas dari bagaimana tes dibangun pada
awalnya, nilainya sebagai instrumen penilaian pada akhirnya bergantung pada penelitian
empiris yang menunjukkan reliabilitas dan validitasnya.

Standardisasi dan Interpretasi Skor. Telah disebutkan sebelumnya bahwa


standardisasi mengacu pada konsistensi dalam penyelenggaraan dan penilaian suatu ujian.
Idealnya, tes diberikan dengan cara yang sama kepada setiap orang yang mengambilnya,
meskipun cita-cita ini dapat diambil terlalu jauh. Kita tahu kursus pengujian di mana profesor
mengharuskan pengujinya menempatkan materi stimulus tertentu untuk tes IQ langsung di
depan klien dan tepat 7 inci dari tepi meja. Dia bahkan berjalan berkeliling dengan seorang
penggaris selama administrasi latihan untuk memastikan latihan ini diikuti. Konsistensi yang
tepat dalam pemberian tidak mungkin, tetapi dokter mencoba untuk mempertahankan tingkat
konsistensi yang tinggi.

Selain konsistensi dalam administrasi, standardisasi juga dapat merujuk pada sampel
di mana tes awalnya dikembangkan. Untuk mengilustrasikan pentingnya contoh ini,
katakanlah bahwa Amy, yang berusia 8 tahun, memperoleh 14 dari 23 benda dengan benar
pada tes ingatan. Apakah itu skor tinggi? Nilai rendah? Untuk mengetahui jawabannya, kita
harus membandingkan skor Amy dengan contoh skor yang besar dari orang-orang yang mirip
dengannya di usia. Jika 1.000 anak 8 tahun mengikuti tes itu, dan hanya 8% yang bisa
mendapatkan 14 atau lebih jawaban yang benar, kita tahu skor Amy tinggi, di 95 persen
tepatnya. Dalam contoh ini, 1.000 anak yang mengambil tes memberikan sampel
standardisasi untuk tes. Nilai yang diperoleh dari contoh ini menjadi standar lawan yang nilai
berikutnya dibandingkan. Nilai mereka memberikan kerangka kerja tafsiran utama untuk
semua nilai individu dalam ujian.

Angka-angka yang berasal dari rata-rata sampel standarisasi, varians, persentase, dan
sebagainya disebut norma. Ini adalah tolok ukur yang memungkinkan interpretasi meaninoft
dari kinerja tes. Setiap dekade atau lebih, tes besar diubah bentuknya. Proses ini bisa rumit
dan mahal karena melibatkan pengidentifikasian sampel yang besar dan representatif dari
orang-orang yang bersedia mengikuti tes; menemukan penguji untuk memberikan tes dan
melaporkan hasil; dan mengumpulkan serta menganalisis semua data. Hasil dari proses
renorming ini kemudian biasanya dipublikasikan dalam manuzis instruksi yang menyertai tes.
Setelah memberikan tes, dokter membandingkan skor klien mereka dengan skor yang ada di
manual. Sebagian besar tes yang dibahas dalam bab ini adalah tes yang mengacu pada norma.
Skor tes juga dapat diinterpretasikan berdasarkan kriteria yang ditetapkan oleh penguji
daripada sampel normatif. Misalnya, untuk memenuhi syarat sebagai pilot, kandidat harus
memenuhi kriteria yang telah ditentukan, atau tingkat kemahiran; tidak cukup hanya dengan
mencetak, katakanlah, di atas rata-rata yang ditetapkan oleh kandidat lain (Domino &
Domino, 2006). Akhirnya, nilai tes dapat diinterpretasikan tidak dengan membandingkan
peserta tes dengan orang lain atau dengan kriteria eksternal tetapi hanya dengan dirinya
sendiri. Proses ini sering disebut pengukuran ipsatif. Misalnya, tes meminta klien untuk
membuat daftar tujuan terpenting mereka untuk tahun depan. Norma tampaknya tidak sesuai,
begitu pula penanda kriteria. Namun, mungkin informatif untuk membandingkan hasil tes ini
pada awal terapi dan 6 bulan kemudian. Tindakan Ipsatif menjadi semakin penting karena
membantu dokter mengukur hasil pengobatan.

2.1.4 Avoiding distortion in test scores (Menghindari distorsi pada nilai tes)

Banyak faktor yang dapat mengubah atau merusak hasil tes. Sebuah contoh klasik
diberikan oleh sebuah penelitian di mana laki-laki perguruan tinggi yang baru saja melihat
foto perempuan telanjang memberikan lebih banyak tanggapan terkait seks terhadap TAT
ketika itu dilakukan oleh seorang mahasiswa pascasarjana laki-laki muda berpakaian informal
daripada ketika diberikan oleh seorang laki-laki yang lebih tua dan lebih formal (Mussen &
Scodel, 1955). Jadi keadaan di mana suatu tes diberikan mulai dari suhu ekstrem dan
kebisingan luar hingga kerumunan dan kehadiran orang asing dapat memengaruhi hasilnya
(Plante, Goldfarb, & Wadley, 1993). Dalam satu kasus, misalnya, skor seorang anak pada tes
IQ berulang naik dari 68 menjadi 120 dan kembali ke 79 tergantung pada apakah orang
dewasa tertentu berada di ruang tes atau tidak (Handler, 1974). Meskipun sebagian besar
variasi tidak terlalu ekstrem, kasus ini menggambarkan bahwa membangun kepercayaan dan
menghindari gangguan dapat memengaruhi validitas jenis tes tertentu (misalnya, Grossarth,
Eysenck, & Boyle, 1995).

Sumber distorsi lain dalam hasil tes adalah bahwa beberapa klien cenderung
merespons dengan cara tertentu untuk sebagian besar item, terlepas dari apa itemnya.
Kecenderungan ini disebut set respon (Cronbach, 1946), gaya respon Jackson & Messick,
1958), dan bias respon (Berg, 1955). Misalnya, klien yang menunjukkan bias keinginan sosial
akan menanggapi item tes dengan cara yang paling dapat diterima secara sosial, apakah
tanggapan tersebut mencerminkan perasaan atau impuls mereka yang sebenarnya (Edwards,
1957; Rychtarik, Tarnowski, & St. Lawrence, 1989). Klien juga telah dicurigai memiliki gaya
respon yang setuju (Jackson & Messick, 1961), di mana mereka cenderung setuju dengan
hampir semua item tes deskriptif seif. Gaya defensif, menyimpang, dan berlebihan juga telah
didalilkan (c.g. Isenhart & Silversmith, 1996). Signifikansi gaya respons dalam menentukan
nilai tes telah diperdebatkan dengan hangat, sebagian karena tidak jelas apakah
kecenderungan respons mewakili karakteristik klien yang stabil (McCrae & Costa, 1983) atau
perilaku sementara yang ditentukan dan diperkuat oleh keadaan pengujian (Linehan &
Nielsen, 1983). Apapun masalahnya, sudut pandang klien saat melakukan tes tidak bisa
diabaikan dalam mengevaluasi tes.

Tidak mungkin untuk menghilangkan semua sumber variabilitas yang tidak relevan
dalam skor tes, tetapi perancang tes dapat meminimalkannya dengan (a) mengembangkan
instruksi yang jelas dan sederhana untuk penguji dan pengambil tes, (b) uji coba secara
ekstensif dan mempelajari kecenderungan respons pada item, (c) meminta partisipasi pakar
luar dalam bias pengujian selama pengembangan pengujian, dan (d) membangun indikator
bias respons atau distorsi yang disengaja ke dalam pengujian sehingga hal-hal ini dapat
diidentifikasi jika terjadi. Pada saat yang sama, mereka yang memberikan tes dapat
mengurangi distorsi dengan (a) menjelaskan dengan jelas tujuan tes dan menjawab
pertanyaan yang dimiliki klien, sehingga meningkatkan hubungan dan motivasi klien; (b)
memberikan perhatian yang cermat pada keadaan di mana pengujian dilakukan sehingga
kondisi pada dasarnya sama untuk setiap klien; dan (c) mencatat dan melaporkan (misalnya,
ke sumber rujukan) keadaan apa pun dalam pengujian yang dapat membahayakan validitas
hasil pengujian.
2.1.5. Cultural Fairness and Bias in Psychological Tests (Keadilan Budaya dan Bias
dalam Tes Psikologis)

Misalkan anda adalah seorang dokter dan menemukan diri anda dalam situasi berikut :
“Ny. Pa, seorang wanita imigran berusia 37 tahun dari Vietnam, menyebut Anda sebagai
klien baru. Dia berbicara bahasa Inggris dengan cukup baik, dan Anda menyimpulkan dari
wawancara awal bahwa dia mungkin menderita depresi, tetapi sulit untuk menentukan tingkat
keparahan masalahnya. Dia juga menyuarakan beberapa keluhan somatik yang samar-samar,
yang Anda curigai mengindikasikan masalah lain, tetapi, sekali lagi, sulit untuk menentukan
dengan tepat apa keluhan itu. Perusahaan asuransinya menginginkan diagnosis DSM yang
akurat, seperti halnya Anda, dan Anda juga ingin lebih memahami klien ini dan kesulitannya.
Untuk mendapatkan gambaran yang lebih jelas, Anda memutuskan untuk melakukan tes
untuk masalah psikologis secara umum dan depresi pada khususnya.”

Akankah klien dapat memahami item tes? Apakah dia akan menafsirkan item dengan
cara yang sama seperti penutur asli bahasa Inggris? Apakah norma ujian berlaku untuk
imigran Vietnam? Contoh ini memperkenalkan pertanyaan yang lebih luas: Sejauh mana tes
psikologi menilai psikopatologi, kepribadian, kecerdasan, atau karakteristik lain secara
memadai dalam populasi yang beragam?

Kekhawatiran tentang uji keadilan budaya muncul pertama kali dan paling menonjol
dalam kaitannya dengan ukuran kemampuan intelektual. Para penyelidik secara konsisten
menemukan bahwa rata-rata, orang Afrika-Amerika dan Hispanik mendapat skor lebih
rendah daripada orang kulit putih dan orang Asia dalam tes kecerdasan. Kontroversi bukanlah
apakah skor yang lebih rendah terjadi tetapi apakah penyebabnya. Apakah fakta bahwa
kelompok budaya atau etnis yang berbeda menunjukkan nilai rata-rata yang berbeda pada
suatu tes berarti bahwa tes tersebut bias?

Seperti yang ditunjukkan Domino dan Domino (2006), bias terkait ujian dapat
dihasilkan dari faktor-faktor yang terjadi sebelum ujian, seperti ketika kelompok budaya dan
etnis tertentu dirugikan oleh diskriminasi, pendidikan berkualitas rendah, kemiskinan,
penggambaran stereotip, model rúe yang buruk, dan sejenisnya, atau selama tes itu sendiri,
seperti ketika, misalnya, konsep atau kosakata yang digunakan dalam tes lebih dikenal oleh
klien dari beberapa latar belakang budaya daripada yang lain. Salah satu atau keduanya dapat
bertanggung jawab atas kesenjangan yang diamati dalam hasil tes antara kelompok budaya.
Adakah cara untuk mendeteksi sumber mana yang dapat menjelaskan perbedaan kelompok
yang diamati dalam hasil tes?

Ada, dan yang paling mudah dideteksi adalah bias item pengujian. Jika perancang tes
mengumpulkan informasi tentang jenis kelamin dan komposisi etnis dari sampel standarisasi
tes, mereka dapat menganalisis tanggapan untuk setiap item tes. Jika, karena ketidaktahuan
dengan suara item atau konten lain, satu grup merespons secara salah secara signifikan lebih
sering ke grup lain, pengembang dapat dengan mudah mengkliminasikan item tersebut dari
pengujian. Pengadilan sering menggunakan ruie "80%" atau "empat per lima" untuk memberi
label suatu item sebagai bias. Artinya, jika ada perbedaan 20% atau lebih antara nilai rata-rata
kelompok mayoritas dan minoritas pada suatu item tes tertentu, item tersebut dianggap bias.
Dengan menggunakan prosedur seperti itu selama pengembangan tes, tes psikologi yang
dirancang paling hati-hati dan banyak digunakan saat ini telah sangat mengurangi atau
menghilangkan item bias budaya. Mereka juga membahas tentang: faktor bias seperti
instruksi yang membingungkan dan materi pengujian budaya khusus.

Bagaimana dengan ketidaksetaraan budaya sebagai penjelasan perbedaan skor


antarkelompok?. Kebanyakan orang yang akrab dengan prosedur konstruksi tes memandang
faktor ini sebagai penjelasan terbaik mengapa minoritas tertentu mendapat skor yang berbeda,
rata-rata, pada tess standar bila dibandingkan dengan anggota kelompok mayoritas (Domino
& Domino, 2006 ). Untuk mengilustrasikan poinnya, cobalah eksperimen pemikiran ini:
Bayangkan bahwa para peneliti mampu membuat tes kecerdasan netral budaya di mana
kelompok minoritas dan mayoritas mencetak rata-rata sama. Jika Anda menerima tes ini
sebagai valid, Anda harus berargumen bahwa faktor-faktor seperti kemiskinan, diskriminasi,
dan kesempatan pendidikan yang lebih rendah tidak berpengaruh pada kinerja tes gigi dan
akademis. Bagi kebanyakan orang, kesimpulan itu masuk akal. Seperti yang dikatakan oleh
Anne Anastasi (1988).

Tes dirancang untuk menunjukkan apa yang dapat dilakukan seseorang pada suatu
titik waktu tertentu. Mereka tidak bisa memberi tahu kami mengapa dia melakukan seperti
yang dia lakukan. Tesis tidak bisa mengkompensasi perampasan budaya dengan
menghilangkan efeknya dari skor mereka. Sebaliknya, tes harus mengungkapkan efek
tersebut sehingga langkah perbaikan yang tepat dapat diambil. Untuk menyembunyikan efek
kerugian budaya dengan mencoba merancang tes yang tidak sensitif terhadap efek tersebut
sama dengan memecahkan termometer karena suhu tubuh tercatat 101°.
Singkatnya, perbedaan skor tes rata-rata antara kelompok minoritas dan mayoritas
lebih mungkin merupakan hasil dari perbedaan kondisi budaya daripada bias dalam tes. Lebih
lanjut mendukung ini berasal dari fakta bahwa upaya untuk mengembangkan tes "budaya-
adil" tidak terlalu berhasil. Tes semacam itu tampaknya dipengaruhi sama banyaknya, atau
lebih dari, tes andard oleh faktor budaya dan lingkungan (Samuda, 1975) dan validitasnya
cenderung lebih rendah (Humphreys, 1988).

Kami tidak memperdebatkan bahwa bias pengujian tidak ada, hanya bias item
pengujian yang cukup terkontrol dalam pengujian yang lebih mapan dan dipelajari secara
ekstensif. Hal yang sama tidak berlaku untuk semua tes - setiap tes bergantung pada
perawatan dengan sampel standarisasi yang dipilih dan sejauh mana generalisasi lintas
budaya telah diselidiki dan ditangani.

Kembali ke kasus klien kami yang berusia 37 tahun dari Vietnam, seorang dokter
yang teliti akan mencari bukti empiris yang mendukung generalisasi tes standar kepribadian
dan psikopatologi untuk populasi Asia. Apakah kelompok-kelompok Amerika Asia cukup
direpresentasikan dalam sampel standardisasi? Apakah klien memiliki faktor latar belakang
bahasa atau budaya yang dapat membatalkan tes? Apakah ada versi tervalidasi dari pengujian
ini dalam bahasa asli klien? Lebih baik lagi, dokter mungkin menggunakan Skala Depresi
Vietnam (Kinzie et al, 1982), tes yang dikembangkan secara khusus untuk orang-orang dari
latar belakang Ny.P. Dokter juga akan bijaksana untuk mencari materi yang diterbitkan dan
saran dari rekan kerja yang dapat memberikan wawasan tentang bagaimana latar belakang
Nyonya P dapat mempengaruhi penilaian dan perawatannya (misalnya, Hays & Iwamasa,
2006) dan untuk melibatkan Ny. P lebih lanjut diskusi tentang keyakinan kesehatannya,
karena ini mungkin berbeda dari yang umumnya dianut oleh orang Barat (Okazaki & Tanaka-
Matsumi, 2006).

Banyak peneliti klinis sekarang memeriksa penggunaan uji lintas budaya secara
empiris berdasarkan kasus per kasus (Krull & Pierce, 1995). Tujuan mereka adalah membuat
tes yang akan valid untuk populasi tertentu. Sebagai contoh, Jia-xi dan Guo-peng (2006)
baru-baru ini menyelidiki validitas dan reliabilitas dari 16PF versi Cina, sebuah tes
kepribadian. Mereka menemukan bahwa revisi Cina memiliki penerapan yang baik,
meskipun konsistensi internal skala dapat ditingkatkan. International Test Consortium (ITC)
dibentuk untuk mempromosikan studi aplikasi tes lintas budaya (untuk diskusi mendalam
tentang ini dan upaya lain yang terkait dengan penggunaan tes lintas budaya, lihat
Hambleton, Merenda, & Spielberger, 2005 ).
2.1.5 Etichal Standards in Testing (Sadart Etika dalam Tes)

Penilaian yang peka budaya adalah salah satu aspek dari praktik pengujian etika.
Pengujian juga menimbulkan banyak masalah etika lainnya (Nagy, 2005). Berikut ini akan
memberi Anda gambaran tentang beberapa situasi terkait pengujian yang membutuhkan
keputusan etis. Seperti yang Anda lihat, ini sering kali berkaitan dengan prinsip kerahasiaan,
privasi, persetujuan berdasarkan informasi, dan tanggung jawab sosial.

 Jika seorang klinisi percaya bahwa hasil tes mungkin merugikan klien, bagaimana
seharusnya klinisi menangani umpan balik kepada klien tentang tes?
 Jika seorang remaja (di bawah umur) diuji, lakukan orang tua, sekolah, pengadilan,
atau lainnya juga memiliki hak atas hasil tes?
 Jika seorang peneliti menggunakan tes yang judulnya mungkin bias pada cara
partisipan merespon (misalnya tes kecermatan sosial), kompromi apa, jika ada,
dalam prinsip persetujuan yang di informasikan dapat di ambil secara etis?
 Pembayar pihak ketiga mana (misalnya, perusahaan asuransi) yang berhak
mengetahui tentang hasil tes klien?
 Pusat konseling universitas mendasarkan keputusan bimbingan siswa tertentu pada
tes yang telah didiskreditkan karena sifat psikometri yang buruk (yaitu, tidak dapat
diandalkan atau tidak valid). Tanggung jawab apa yang dimiliki anggota fakultas
psikolog klinis untuk membantah atau melaporkan keputusan pusat konseling?

American Psychological Association telah mendesak anggotanya untuk mengurangi


kemungkinan masalah etika atau penyalahgunaan dalam pengujian dengan mematuhi Standar
Tes Pendidikan dan Psikologi (1999), sebuah dokumen yang dikembangkan oleh American
Educational Research Association, American Psychclogical Association, dan Dewan
Nasional Pengukuran dalam Pendidikan. Panduan APA untuk Kualifikasi Pengguna Tes
memberikan informasi tambahan bagi mereka yang mempertimbangkan untuk menggunakan
tes. Panduan Seragam tentang Prosedur Seleksi Karyawan dikembangkan oleh Equal
Employment Opportunity Commission (EEOC) untuk mengatur penggunaan tes dan metode
lain sebagai teknik seleksi. Bersama-sama, dokumen-dokumen ini memandu pengguna tes
dan membantu memastikan bahwa, ketika dikembangkan, dievaluasi, dikelola, ditafsirkan,
dan diterbitkan dengan memperhatikan prinsip-prinsip ilmiah dan hak serta kesejahteraan
klien, tes psikologis dapat memberikan kontribusi positif bagi masyarakat (Robertson &
Eyde, 1993). Tabel mencantumkan prinsip umum Kode Etik dan memberikan contoh situasi
yang mungkin berlaku untuk masing-masing.

Standar Etika untuk Penggunaan Tes oleh Psikolog

Prinsip Contoh Penerapan

Dokter harus berpengalaman dalam


administrasi dan interpretasi tes yang mereka
Kompetensi
gunakan untuk membuat keputusan tentang
klien.

Dokter harus terbiasa dengan literatur


penelitian tentang tes terutama reliabilitas,
Tanggung jawab profesional / ilmiah
validitas, penggunaan yang tepat, dan
keterbatasannya. .

Dokter harus menggunakan tes seperti yang


dimaksudkan dan tidak membuat klaim
Integritas
tentang atau hasil tes kecuali klaim tersebut
didukung oleh bukti empiris.

Dokter harus memastikan bahwa tesi benar-


Penghormatan terhadap hak dan martabat benar berlaku untuk orang yang mengikuti
tes, seperti orang dari budaya yang berbeda.

Pertama, dokter tidak boleh membahayakan


dalam menggunakan tes dengan klien;
Kepedulian terhadap kesejahteraan orang lain mereka harus mengenali potensi bahaya,
terutama jika hasil tes diterapkan secara tidak
tepat

Tanggung jawab sosial Dokter tidak boleh menyebarkan bahan tes


atau konten tes yang dilindungi kepada
personel yang tidak berwenang; mereka
harus mengambil tindakan untuk mencegah
penyalahgunaan tes oleh orang lain
(misalnya, kolega, institusi).

Praktik etika melarang pengembang dan


pengguna tes untuk mempublikasikan konten
Akses ke materi ujian tes psikologis tertentu (misalnya, tes 1.Q) tes
yang tersedia secara komersial hanya untuk
pengguna yang memenuhi syarat.

Sementara banyak tes tersedia dari vendor komersial, tes lain dikembangkan oleh
klinisi dan diterbitkan dalam jurnal profesional. Kadang-kadang, terutama jika tesnya
singkat, tes tersebut dipublikasikan secara lengkap dalam artikel jurnal, bersama dengan bukti
sifat psikometri tes tersebut. Dalam kedua kasus tersebut, dokter harus menghubungi penulis
tes untuk memintanya hak untuk menggunakan tes dan mereka wajib mengikuti prinsip etika
dalam menggunakannya.

2.1.6 Patterns of Test Usage in Clinical Psychology (Pola Penggunaan Tes dalam
Psikologi Klinis)

Seperti disebutkan sebelumnya, pengujian terus menjadi fokus utama pelatihan


psikologi klinis, tetapi pola penggunaan tes khusus telah berkembang selama bertahun-tahun.
tes tertentu terhadap fungsi intelektual, kepribadian, dan psikopatologi secara konsisten
mendapat perhatian. Dokter lebih suka mereka, dan direktur pelatihan mengharuskan klinisi
dalam pelatihan Jearn untuk menggunakannya (Belter & Piotrowski, 2001). Pada saat yang
sama, beberapa tes, terutama teknik proyektif, telah menurun penggunaannya dan diajarkan
lebih jarang daripada sebelumnya.

Perubahan dalam penggunaan pengujian dapat dikaitkan dengan beberapa faktor.


Salah satunya adalah uji bukti empiris yang secara konsisten menunjukkan bukti reliabilitas
dan validitas yang lebih tinggi cenderung naik ke urutan teratas daftar popularitas, sementara
yang menunjukkan bukti yang lebih sedikit cenderung turun. Proses perubahan mungkin
lambat, karena preferensi tes di antara dokter dapat dipengaruhi oleh tradisi klinis dan bukti
empiris (Norcross, Koocher, & Garofalo, 2006).

Penggunaan tes juga berubah karena faktor sosial dan kontekstual. Yang menonjol di
antaranya adalah pengaruh perawatan terkelola, Perusahaan asuransi dan penyedia pihak
ketiga lainnya sangat tertarik pada efisiensi. Akibatnya, mereka cenderung lebih menyukai
teknik penilaian yang lebih cepat dan lebih fokus pada masalah daripada tujuan luas yang
memberikan gambaran yang jelas tentang klien (Piotrowski, Belter, & Kelier, 1998).
Perusahaan-perusahaan ini menginginkan data. Menunjukkan bahwa hasil pengujian dapat
digunakan untuk memilih pengobatan yang lebih cepat dan efektif. Tuntutan mereka telah
mendorong penelitian tentang bagaimana tes yang ada dapat digunakan untuk memilih
pengobatan dan pengembangan tes baru yang dirancang khusus untuk membuat keputusan
pengobatan.

Untuk meringkas diskusi kita tentang fitur umum tes, dan untuk melihat diskusi kita
tentang tes spesifik di bagian berikut, kami menyajikan Tabel 5.4. Tabel ini mencantumkan
berbagai indikator kualitas tes psikologi. Dokter dan peneliti yang cerdas menggunakan
indikator tersebut dalam memilih tes terbaik untuk tujuan tertentu.

Pada bagian selanjutnya, kami merangkum tes yang paling umum digunakan oleh
psikolog klinis. Informasi lebih lanjut tentang ini dan tes lainnya untuk administrasi individu
dan kelompok untuk orang dewasa dan anak-anak tersedia dari manual teknis yang terkait
dengan setiap tes dan dari berbagai sumber lain tentang tes psikologis.

2.2. Fungsi Tes Intelektual


2.2.1. Theories of intelligence (Teori inteligensi/kecerdasan)

Sementara semua orang akan setuju bahwa kecerdasan adalah hal yang baik untuk
dimiliki, ada konsensus yang jauh lebih sedikit tentang apa itu sebenarnya (Furnham, 2000;
Sternberg & Detterman, 1986). Keadaan ini telah menghasilkan saran setengah bercanda di
antara para dokter bahwa "kecerdasan adalah apa pun yang diukur oleh tes kecerdasan."
Memang, para pengembang sebagian besar tes inteligen pada awalnya melanjutkan dengan
alasan analitis; masing-masing dari lebih dari 200 instrumen penilaian yang mereka hasilkan
mencerminkan pandangan teoritis penciptanya tentang sifat esensial dari kecerdasan dan
tentang cara terbaik untuk mengukur fungsi intelektual. Penjelasan tentang teori-teori tersebut
berada di luar cakupan bab ini (lihat Neisser et al. [1996] untuk tinjauan singkat), tetapi perlu
dicatat bahwa berbagai peneliti umumnya menggambarkan kecerdasan dalam salah satu dari
tiga cara, masing-masing secara singkat dijelaskan di bawah ini.

Model Kecerdasan Umum (g). Satu teori, sering disukai oleh mereka yang
menggunakan pengujian mental, atau pendekatan psikometri terhadap kecerdasan,
menggambarkan kecerdasan sebagai karakteristik umum. Awalnya dikemukakan oleh
Spearman (1904), gagasan tentang kecerdasan sebagai kemampuan umum global telah
dirujuk hanya sebagai g. Meskipun setiap orang memiliki variasi dalam kemampuannya di
berbagai domain, g dianggap sebagai sifat biologis atau psikologis yang memengaruhi semua
kemampuan kognitif. Pandangan ini didukung oleh pengamatan bahwa siswa yang luar biasa
dalam matematika, misalnya, juga cenderung pandai dalam bahasa Inggris, biologi, dan
banyak bidang lainnya. Ini juga sesuai dengan temuan yang kuat dan mapan bahwa nilai tes
pada berbagai tugas kognitif berkorelasi positif (van der Maas, 2006). Faktor yang mendasari
umum untuk skor dianggap g.

Beberapa Model Kecerdasan Khusus. Meskipun para peneliti menemukan bahwa


skor pada berbagai tugas kognitif berkorelasi, korelasinya tidak selalu kuat. Akibatnya,
sebagian berpendapat bahwa kecerdasan lebih dipahami sebagai kumpulan kemampuan yang
relatif terpisah.

Salah satu teori kecerdasan multipie yang mendapat perhatian cukup besar adalah
teori triarki Robert Sternberg (Sternberg, 2004, 2006a). Sternberg berpendapat bahwa ada
tiga jenis dasar kecerdasan analitis, kreatif, dan praktis dan bahwa tes konvensional hanya
mengukur jenis pertama dengan baik. Bersama rekan-rekannya, Sternberg telah
mengembangkan tes yang dirancang untuk mengukur ketiganya (Sternberg Triarchic
Abilities Test atau STAT). Tes ini dipandang baik oleh banyak orang, tetapi diperlukan lebih
banyak penelitian untuk menentukan validitas dan reliabilitas tes (Santrock, 2008).

Pendekatan kecerdasan ganda yang populer kedua adalah dari Howard Gardner, yang
mendaftar delapan kecerdasan atau kerangka pikiran: verbal, matematika, spasial, kinestetik-
tubuh, musikal, intrapersonal, interpersonal, dan naturalistik (Gardner, 1993, 2002). Teorinya
telah menarik banyak perhatian, terutama di bidang pendidikan (Gardner, 1998).

Teori kecerdasan ganda khusus mengusulkan bahwa kecerdasan lebih dipahami


sebagai kumpulan kemampuan terpisah daripada sebagai faktor tunggal. Patut dicatat bahwa
teori Sternberg dan terutama teori Gardner telah memperluas istilah kecerdasan untuk
memasukkan kemampuan yang tidak termasuk dalam definisi tradisionalnya (misalnya,
keterampilan atletik kinestetik). Beberapa orang melihat teori ini berharga; yang lain
berpendapat bahwa definisi kecerdasan terlalu meluas, tidak semua yang dilakukan seseorang
harus dianggap sebagai bagian dari kecerdasan.

Model Analisis Hierarki dan Faktor. Pandangan ketiga tentang kecerdasan dapat
dianggap sebagai kombinasi dari dua sebelumnya. Dalam pandangan kompromi ini,
kemampuan kognitif yang terpisah dan umum terkait secara hierarkis (lihat Gambar), pada
tingkat paling dasar adalah kemampuan khusus seperti pengetahuan kosakata, pengenalan
pola visual, dan sejenisnya (diwakili dalam Gambar al, a2, a3, b1, b2, dll.). Kemampuan
khusus tidak sepenuhnya independen satu sama lain: Kemampuan tertentu berkorelasi karena
memiliki faktor yang sama (misalnya, memori yang baik, pengetahuan verbal, pemrosesan
informasi visual yang cepat). Faktor persekutuan diwakili dalam Gambar sebagai faktor a
sampai d. Akhirnya, faktor-faktor tingkat tinggi ini sendiri berkorelasi sampai tingkat
tertentu, dan korelasi tersebut diwakili oleh faktor persekutuan, g, yang mendasari semuanya.

Adakah cara untuk mengevaluasi berbagai pandangan kecerdasan ini? Misalnya,


bagaimana kita mengetahui sejauh mana kemampuan spesifik berkumpul? Studi analitik
faktor mengukur sejauh mana berbagai ukuran berkorelasi. Carroll (1993) meninjau karya
sebelumnya tentang kecerdasan oleh Cattell (1943) dan Horn (1965), dan kemudian
meringkas 461 studi analitik faktor kecerdasan. Dari pekerjaan ini telah muncul model
hierarki yang, dengan beberapa modifikasi, telah diadopsi oleh sebagian besar pengembang
pengujian intelijen utama. Saat kami meninjau berbagai tes kecerdasan, perhatikan kesamaan
dalam faktor-faktor yang dianggap diukur oleh tes yang banyak digunakan ini.

2.2.2. The Binet scales (Skala Binet)

Alfred Binet bukanlah orang pertama yang mengembangkan ukuran kecerdasan, tetapi
tes aslinya dan revisi berdasarkan itu telah menjadi salah satu cara paling berpengaruh untuk
menilai kemampuan mental anak. Pada awalnya (1905), tes Binet terdiri dari 30 soal dan
tugas, termasuk hal-hal seperti membuka bungkus permen, mengikuti objek yang bergerak
dengan mata, membandingkan objek dengan bobot yang berbeda, mengulang angka dari
kalimat dari memori, dan mengenali objek yang sudah dikenal. Skor tes anak hanyalah
jumlah item yang lulus. Dimulai dengan revisi tahun 1908, tugas-tugas dalam tes Binet
ditentukan berdasarkan usia, yang berarti bahwa tugas-tugas itu diatur sedemikian rupa
sehingga anak-anak yang lebih kecil diharapkan lulus hanya yang lebih awal, sementara
anak-anak yang lebih besar diharapkan lulus kemudian juga.

Skala 1908 dibawa ke Amerika Serikat oleh Henry Goddard dan direvisi pada tahun
1916 oleh Lewis Terman, seorang psikolog Universitas Stanford. Terman mengadopsi ide
yang disarankan oleh psikolog Jerman William Stern untuk merepresentasikan secara
numerik hubungan antara usia mental dan kronologis: Hasil Stanford-Binet dinyatakan
sebagai intelligence quotient (atau IQ) yang dihasilkan ketika usia mental (MA) dibagi
dengan usia kronologis (CA) dan dikalikan 100. Jadi, anak berusia 6 tahun yang skornya di
Stanford-Binet menghasilkan usia mental 8 akan memiliki IQ 133 (8/6 X 100). Maka
dimulailah tradisi untuk mematok skor IQ rata-rata pada 100.

Versi terbaru dari Stanford-Binet, SB5, diselesaikan pada tahun 2003. Seperti yang
terjadi pada semua revisi tes utama, SB5 melalui fase percobaan sebelum bentuk akhirnya.
ditentukan. Tes ini dilakukan pada sampel yang terdiri dari 4.800 orang yang mewakili AS.
Populasi dan dikelompokkan berdasarkan variabel usia, jenis kelamin, ras/etnis, wilayah
geografis, dan tingkat sosial ekonomi. Dengan mencatat variabel-variabel ini dalam sampel
besar selama uji coba, pengembang pengujian dapat menentukan apakah item tertentu
dijawab secara berbeda, rata-rata, oleh orang-orang dari kelompok etnis yang berbeda
berdasarkan jenis kelamin. Selama fase ini, banyak item yang diujicobakan dan disimpan atau
dibuang (lihat pembahasan kita tentang konstruksi uji di awal bab ini). Dari hampir 1.000
item yang dipertimbangkan, 293 dipilih untuk SB5 (Roid, 2003).

SB5 dibangun di sekitar model kecerdasan hierarkis, Penguji dapat memperoleh skor
IQ skala penuh (ukuran g), serta skor IQ verbal dan nonverbal dan skor subtes individu
(setiap subtes memiliki rata-rata 10 dan standar deviasi 3). Namun, subtes sekarang
dikelompokkan menjadi lima faktor yang mewakili domain utama dari fungsi intelektual
(lihat Tabel). Faktor-faktor ini sebanding dengan faktor-faktor tingkat menengah pada
Gambar diatas dan diturunkan dari studi analitik faktor. Dalam SB5, faktor-faktor tersebut
diberi label (1) Fluid Reasoning, (2) Knowledge, (3) Quantitative Reasoning, (4) Visual-
Spatial Processing, dan (5) Working Memory.

Penelitian tentang reliabilitas edisi kelima Stanford-Binet menunjukkan bahwa ia


memiliki konsistensi internal yang sangat tinggi, umumnya di atas 0,90. Reliabilitas tes-ulang
untuk IQ Skala Penuh berada di kisaran 0,93 hingga 0,95; untuk skor faktor, mediannya
adalah 0,88. Ukuran ketiga dari reliabilitas, kesepakatan antar pencetak gol, menghasilkan
korelasi median 0,90 (Roid, 2003). Angka-angka ini menunjukkan tingkat keandalan yang
tinggi.

Salah satu cara untuk menilai validitas suatu tes adalah membandingkan hasilnya
dengan yang diperoleh dari ukuran kecerdasan mapan lainnya (1.e, validitas kriteria). Skor IQ
Skala Penuh pada SB5 serupa dengan yang diperoleh dari tes kecerdasan mapan lainnya,
termasuk skala Wechsler (korelasi berada dalam kisaran 0,78 hingga 0,84). Tes ini juga
mampu membedakan sampel anak-anak berbakat, retarded, dan kesulitan belajar (Roid,
2003). Singkatnya, Stanford-Binet tetap menjadi tes yang sangat andal yang banyak
digunakan untuk menguji anak-anak, mendiagnosis retardasi mental, dan memprediksi serta
menjelaskan prestasi akademik (Walsh & Betz, 2001).

Item Dari Jenis Yang Termasuk Dalam Stanford-Binet 5.

Kosakata: Mendefinisikan kata-kata seperti train, wrench, letter, error, dan dorongan.

Seri / Matriks Objek: Pilih urutan yang tepat untuk menampilkan rangkaian gambar.

Absurditas: Identifikasi kesalahan atau aspek "konyol" dari gambar di mana, misalnya,
seorang pria ditampilkan menggunakan ujung garu yang salah atau seorang gadis
diperlihatkan mengenakan pakaian yang salah.

Penalaran Kuantitatif: Tentukan bilangan mana yang muncul berikutnya dalam rangkaian
bilangan seperti berikut: 32, 26, 20, 14, ___, ___,

Memori untuk kalimat: Mengingat kalimat yang disajikan dengan benar.

Hubungan Verbal: Tunjukkan bagaimana tiga objek atau kata-kata itu mirip tetapi berbeda
dari yang keempat. Misalnya, bagaimana anjing, kucing, dan kuda itu sama tetapi berbeda
dengan laki-laki.

Block Span: Pisahkan blok menjadi baris yang diberi kode garis kuning dan merah.

2.2.3. The Weschsler scales (Skala Weschler)

Pada tahun 1930-an, David Wechsler, kepala psikolog di Rumah Sakit Jiwa Bellevue,
New York, mulai mengembangkan tes kecerdasan khusus untuk orang dewasa. Hasil
usahanya, Skala Inteligen Wechsler-Bellevue (W-B), diterbitkan pada tahun 1939. Tes ini
berbeda dalam beberapa hal dari Stanford-Binet, meskipun beberapa tugas W-B dipinjam
atau diadaptasi darinya. Pertama, W-B ditujukan untuk orang dewasa berusia 17 tahun ke
atas. Kedua, W-B adalah skala poin di mana klien menerima kredit untuk setiap jawaban
yang benar. Dengan metode ini, IQ tidak mencerminkan hubungan antara usia mental dan
usia kronologis tetapi membandingkan poin yang diperoleh klien dengan poin yang diperoleh
oleh orang-orang dengan usia yang sama dalam sampel standarisasi. Meskipun rata-rata IQ
masih ditempatkan di angka 100, metode penghitungan IQ ini telah menjadi standar untuk
sebagian besar tes.

Wechsler juga mengembangkan tes yang sebanding untuk anak-anak : Skala


Kecerdasan Wechsler untuk Anak-anak (WISC, sering disebut secara fonetik sebagai "Wisk")
dan Wechsler Preschool and Primary Scale of Intelligence (WPPSI, atau "the Whipsee").
Masing-masing telah melalui beberapa revisi dan menjadi salah satu tes kecerdasan yang
paling sering digunakan.

WAIS. Pada tahun 1955, Wechsler merevisi tes dewasanya. Revisi ini, yang disebut
Skala Kecerdasan Dewasa Wechsler, atau WAIS, segera menjadi tes kecerdasan orang
dewasa paling populer di Amerika Serikat (lihat Tabel). Tes tersebut direvisi lagi pada tahun
1981 (WAIS-II) dan terakhir pada tahun 1997 (WAIS-III). Seperti versi tes sebelumnya, item
pada WAIS-II disusun dan disajikan dalam urutan tingkat kesulitan dalam subtes. Klinisi
menghentikan setiap subtes setelah jumlah kegagalan yang telah ditentukan dan kemudian
memulai subtes berikutnya. Ketika tes selesai, dokter dapat menghitung IQ Skala Penuh,
Verbal, dan Kinerja dengan mengubah total poin klien menjadi skor IQ standar dengan rata-
rata 100 dan deviasi standar 15. Beberapa contoh jenis item yang disertakan pada WAIS-III
disajikan pada Tabel.

Item dari Jenis yang Disertakan dalam Skala Kecerdasan Dewasa Wechsler (WAIS-
III)

Sub Tes Item Simulasi di WAIS-III

Informasi Roti berasal dari apa?

Apa yang Shakespeare lakukan?

Apa ibu kota Prancis?


Apa itu maleus maleficarum?

Pemahaman Apa yang harus Anda lakukan dengan


dompet yang ditemukan di jalan?

Mengapa harga mobil asing lebih mahal


daripada mobil domestik?

Apa artinya "roda yang melengking


mendapat gemuk"?

Hitung Jika Anda memiliki empat buah apel dan


memberikan dua buah apel, berapa banyak
yang tersisa?

Jika empat orang dapat menyelesaikan satu


pekerjaan dalam enam hari, berapa banyak
orang yang dibutuhkan untuk melakukan
pekerjaan itu dalam dua hari?

Kesamaan Identifikasi aspek serupa dari pasangan


seperti obeng palu, cerita pendek potret,
bunga anjing.

Simbol angka Salin desain yang terkait dengan nomor


berbeda secepat mungkin.

Rentang digit Ulangi dalam urutan maju dan mundur


nomor dua hingga sembilan digit.

Kosa kata Tentukan kursi, uang receh, makan siang,


paragraf, lembah, suaka, modal, kulit.

Penyelesaian gambar Temukan objek yang hilang dalam gambar


yang semakin kompleks.

Desain blok Atur blok agar sesuai dengan pola standar


yang semakin kompleks.

Pengaturan gambar Tempatkan lebih banyak foto bersama-sama


untuk membuat cerita yang semakin
menarik.

Pencarian simbol Pindai secara visual dan kenali serangkaian


simbol.

WAIS-III berbeda dalam beberapa hal dari pendahulunya. Ini memiliki rentang usia
yang diperpanjang yang memungkinkan penghitungan skor IQ hingga usia 89. Hal ini
dimungkinkan dengan penambahan item baru yang lebih sesuai untuk orang dewasa yang
lebih tua dan dengan menormalkan tes pada sampel 2.450 orang berusia 16 hingga 89.
Sampelnya adalah juga dikelompokkan menurut jenis kelamin usia, pendidikan, dan wilayah
geografis.

Salah satu perubahan terbesar pada WAIS-III adalah penambahan empat nilai indeks
baru: Pemahaman Verbal. Memori Kerja, Organisasi Perseptual, dan Kecepatan Pemrosesan.
Ini sebanding dengan skor faktor tingkat menengah. Setiap skor indeks diperoleh dengan
menggabungkan skor pada sub tes yang dipilih. Misalnya, skor pada Perseptual Organization
berasal dari skor subtes Penyelesaian Gambar, Desain Blok, dan Perakitan Objek. Keempat
skor indeks diturunkan dari studi analitik faktor (Saklofske Hildebrand, & Gorsuch, 2000).

WISC dan WPPSI. Muncul pada tahun 1949, WISC awalnya dirancang untuk
digunakan untuk anak-anak usia 5 sampai 15 tahun. WISC memiliki 12 subtes (6 verbal, 6
penampilan) yang biasanya hanya 10 yang diberikan. WPPSI dikembangkan kemudian, tetapi
masih hanya mencapai tingkat 4 tahun (Wechsler, 1967). Sebuah revisi dari usia minimum
yang diturunkan lebih lanjut, edisi ketiganya saat ini mencakup rentang usia dari 2,5 hingga 7
tahun.

Versi terbaru WISC, WISC-IV, mencakup usia 6 hingga 17 tahun dan


mempertahankan struktur dan format dasar pendahulunya. Namun, WISC-IV berisi beberapa
perubahan yang signifikan. Tiga subtes dijatuhkan (Picture Arrangement, Object Assembly,
Mazes) dan lima lainnya ditambahkan (misalnya, Picture Concepts, Letter-Number
Sequencing, Matrix Reasoning, Word Reasoning, Cancellation). Pengembang juga
meninggalkan ukuran IQ Verbal dan IQ Kinerja, yang merupakan pokok utama penilaian
Wechsler. Mereka mempertahankan IQ Skala Penuh dan empat skor faktor komposit, atau
indeks, yang awalnya diperkenalkan di WISC-III. Skor komposit ini adalah Pemahaman
Verbal, Penalaran Perseptual, Memori Kerja, dan Kecepatan Proses (Wechsler, 2003).
Timbangan Wechsier memiliki sifat psikometri yang kuat. Misalnya, WISC-IV, yang
terbaru dari keluarga Wechsler, menggunakan sampel 2.200 anak usia 6 sampai 17. Sampel
ini cocok dengan data Sensus AS tahun 2000 dalam hal distribusi jenis kelamin, ras / etnis,
tingkat pendidikan orang tua, dan wilayah geografis. Seperti halnya SB5 yang baru-baru ini
direvisi, penyertaan variabel ini dan variabel lain memungkinkan para ahli dalam penelitian
lintas budaya dan pengujian kecerdasan untuk menjelajahi item yang telah diuji coba untuk
mencari bukti bias item. Item individu yang direspon secara berbeda oleh kelompok tertentu
dapat dibuang untuk item yang tidak menunjukkan perbedaan kelompok tersebut.

Keandalan setiap timbangan Wechsler kuat. Reliabilitas separuh WAIS untuk skor IQ
Skala Penuh, Verbal, dan Kinerja adalah 0,93 atau lebih untuk semua rentang usia, dan
reliabilitas untuk skor indeks hampir sama tingginya. Untuk WISC-IV, reliabilitas split-half
untuk indeks dan skor Skala Penuh berkisar dari 0,92 hingga 0,97. Skor WISC-IV juga sangat
stabil dari waktu ke waktu; reliabilitas test-retest berada di kisaran tinggi 0,80 hingga 0,90.
Akhirnya, penilaian tes sebagian besar telah menghilangkan subjektivitas; Kesepakatan antar
penjelajah berkisar antara 0,98 hingga 0,99 (Wechsler, 2003).

Studi validitas menunjukkan bahwa tes Wechsler berkorelasi baik dengan tes mapan
lainnya seperti Stanford-Binet. Juga, seperti dengan SB, studi analitik faktor telah menjadi
penting dalam mengkonfirmasikan bahwa skor indeks komposit merupakan konstruksi
penting dalam pengukuran kecerdasan (Wechsler, 2003). Ada korelasi kuat yang sesuai
dengan kriteria seperti nilai sekolah, nilai tes prestasi, dan kinerja neuropsikologis (Braden,
1995). Diskusi ekstensif tentang standardisasi, reliabilitas, dan validitas disediakan oleh
manual teknis yang diterbitkan untuk setiap tes.

Menafsirkan Skor Tes Kecerdasan. Dengan menggunakan tes kecerdasan seperti


WAIS, WISC, atau SB, dokter dapat memperoleh deskripsi multifaset tentang kekuatan dan
kelemahan kognitif seseorang. Mereka juga dapat mengembangkan hipotesis tentang
diagnosis, kerusakan otak, impulsif, atau karakteristik kepribadian lainnya dengan
menggunakan variabilitas atau "penyebaran" skor subtes (Groth-Marnat, 2003, Ryan, Paolo,
& Smith, 1992; Wechsler, 2003). Misalnya, Wechsler (2003) mencatat bahwa anak-anak
dengan ADHD, gangguan belajar atau cedera otak traumatis menunjukkan kelemahan relatif
pada ukuran Kecepatan Proses. Namun, yang lain menyarankan bahwa dokter harus berhati-
hati saat membuat kesimpulan berdasarkan pola skor subtes. Diagnosis tegas, kata mereka,
jarang dapat dibuat dengan menggunakan WAIS, SB, atau WISC saja karena tes tidak
dirancang untuk penilaian neuropsikologis. Hunsley dan Mash (2007) melangkah lebih jauh,
dengan alasan bahwa kegunaan klinis dari perbandingan interscore belum ditetapkan secara
empiris.

2.2.4. Other intelligence tests (Tes kecerdasan lainnya)

Tes kecerdasan lain yang dikelola secara individual yang telah mendapatkan
popularitas dalam beberapa tahun terakhir adalah Baterai Penilaian Kaufman untuk Anak-
anak (Kaufman & Kaufman, 1983. 2004a). Cocok untuk anak-anak usia 3 hingga 18 tahun,
tes ini sekarang sudah dalam edisi kedua, K-ABC-II. Tes ini didasarkan pada penelitian dan
teori dalam psikologi kognitif dan neuropsikologi. Ini mendefinisikan kecerdasan sebagai
kemampuan untuk memecahkan masalah baru (kemampuan kadang-kadang disebut sebagai
kecerdasan fluida) dan juga memperoleh pengetahuan tentang fakta (yang disebut kecerdasan
terkristalisasi). Seperti tes Binet dan Wechsler, subtes Kaufman (total 18, 10 inti)
dikelompokkan ke dalam skor gabungan yang kompatibel dengan model kecerdasan hierarki.
Landasan teoritis ganda tes ini menghasilkan dua skor utama (tingkat yang lebih tinggi): satu
untuk Pemrosesan Mental dan satu untuk kombinasi Pemrosesan Mental dan Pengetahuan
yang Diperoleh. Dengan K-ABC-II, jumlah skor faktor komposit tingkat menengah
meningkat seiring bertambahnya usia; ada tiga skor gabungan untuk anak usia 3 tahun, empat
untuk anak usia 4 sampai 6 tahun, dan lima skor untuk anak usia 7 tahun ke atas. Pengaturan
ini dirancang untuk mencerminkan kompleksitas kecerdasan yang semakin meningkat seiring
dengan pertumbuhan anak.

Sampel standarisasi untuk K-ABC-II terdiri dari 3.025 anak yang sangat cocok
dengan Sensus A.S. pada beberapa faktor demografis. Reliabilitas konsistensi internal berada
dalam kisaran 0,90, dan koefisien tes-ulang berada di pertengahan 0,80 hingga 0,90.
Pengembang K-ABC-II berusaha menghasilkan tes yang bebas dari bias budaya atau etnis.
Tes tersebut menunjukkan korelasi yang tinggi dengan WISC, serta korelasi yang kuat
dengan kriteria seperti nilai tes prestasi nilai sekolah, dan kinerja neuropsikologis (Braden,
1995: Kaufman & Kaufman, 2004a). Versi singkat yang disebut Kaufman Brief Intelligence
Test-2 (K-BIT-2) dirancang untuk menghasilkan perkiraan kecerdasan kristalisasi dan fluida
dalam waktu sekitar 20 menit (Kaufman & Kaufman, 2004b).

Beberapa tes kecerdasan lain yang digunakan saat ini menilai kecerdasan tanpa
penekanan pada keterampilan verbal atau vokalisasi. The Peabody Picture Vocabulary Test-
Revised, Porteus Maze Test, Leiter International Performance Scale, dan Raven's
Progressive Matrices, misalnya, memungkinkan dokter menilai fungsi intelektual pada klien
yang sangat muda atau memiliki karakteristik lain yang mengganggu kemampuan verbal
mereka. Tugas. Tes ini juga menyediakan cadangan dalam kasus di mana dokter mencurigai
bahwa kinerja klien pada tes IQ standar mungkin telah terhambat oleh kecemasan, defisit
verbal, kerugian budaya, atau faktor situasional lainnya.

2.2.5. Ujian bakat dan prestasi.


Tes kecerdasan dapat dipandang sebagai instrumen kemampuan mental umum yang
mengukur bakat (kapasitas untuk memperoleh pengetahuan atau keterampilan) dan prestasi
(memperoleh simpul atau keterampilan). Akan tetapi, ada sejumlah tes lain yang dirancang
untuk mengukur kemampuan mental yang lebih spesifik. Beberapa tes bakat dirancang untuk
memprediksi kesuksesan dalam suatu pencapaian atau program pendidikan. Mereka
mengukur dampak yang berakumulasi dari banyak pengalaman pendidikan dan kehidupan
yang berbeda dan mencoba meramalkan kinerja berdasarkan dampak ini. Uji dpengembangan
tingkat kecakapan pada tugas-tugas tertentu; Yaitu, mereka mengukur seberapa banyak orang
yang tahu atau seberapa baik mereka dapat melakukannya di bidang-bidang tertentu.
Tes bakat Scbolastic (sekarang hanya menjatuhkan SAT), yang digunakan untuk
memprediksi potensi mahasiswa sma untuk pekerjaan tingkat perguruan tinggi, tidak asing
bagi sebagian besar mahasiswa. Ini menghasilkan skor lisan dan kuantitatif, dan revisinya
baru-baru ini, SAT-II, sekarang mencakup skor untuk esai di bagian bahasa inggris. Isi spesifik
dari SAT direvisi secara terus-menerus. Pertanyaan-pertanyaan berubah untuk setiap
administrasi, dan setiap saat, beberapa benda diujingkan (dan kemudian dianalisis) untuk
dimasukkan ke dalam tes yang akan datang. Meskipun skala penilaian tetap sama, norma
untuk tes dihitung berdasarkan nilai dari ribuan orang mengambil setiap versi tertentu dari tes.
Bakat populer lainnya atau tes prestasi termasuk baterai kognitie Woodcock-Jobnson
III dan sepupunya, baterai pencapaian Woodcock-Jobrson III Woodcock McGrew, &
Mather, 2000). Baterai ini mengukur kemampuan intelektual umum dan pencapaian akademik
spesifik pada orang dari 2 tahun sampai lebih dari 90. Tes pencapaian jangkauan luas
(WRAT-3) merupakan contoh terkenal lainnya (Wilkinson, 1993), demikian juga tes Kaufman
of Educational prestasi (K-TEA-II) (Kaufman & Kaufman, 1985) dan Wechsler tes
pencapaian individu (WIAT). Cinicians dan (khususnya) psikolog sekolah menggunakan tes
ini untuk menilai bakat dan pencapaian, untuk membantu mengidentifikasi gangguan belajar
dan untuk mengembangkan rencana pendidikan bagi anak-anak dan orang dewasa.
Ada banyak tes lain mengukur prestasi dan bakat. Semakin spesifik kemampuan atau
bakat yang diuji, semakin kurang familier kemungkinan tes itu. Jika anda belum pernah
mendengar tentang ukuran beruang bakat musik atau Crawford bagian kecil tes ketangkasan,
mungkin karena anda belum pernah memiliki kesempatan untuk diuji pada kemampuan yang
sangat khusus ini. Pengujian kesanggupan demikian lebih sering dilakukan oleh petugas
personalia dan para penasihat pendidikan, keterampilan, dan bimbingan daripada oleh para
psikolog klinis.
Para psikolog klinis sering kali mendapati perlunya menilai sikap, minat, selera, dan
nilai-nilai seseorang. Misalnya, sebelum mulai bekerja dengan pasangan yang putus asa,
dokter mungkin ingin mendapat gagasan tentang kemampuan setiap ahli bedah tentang
perkawinan atau keluarga yang berkomitmen lainnya. Demikian pula, bagi para pakar klinik,
menarik untuk mengetahui bahwa kepentingan klien yang sangat bertentangan dengan profesi
dokter yang sukses sama sekali tidak seperti para dokter yang sukses. Akhirnya, penilaian
sikap, kepentingan, pilihan, dan nilai dapat mendorong klien untuk terlibat dalam penjelajahan
diri mereka sendiri sehubungan dengan keputusan karier (Holland, 1996).
Kami tidak punya ruang untuk menggambarkan banyaknya tes yang tersedia, tetapi di
antara konimonly yang digunakan untuk menilai pilihan klien untuk berbagai kegiatan,
pekerjaan, mata pelajaran, dan kegiatan adalah inventaris bunga yang kuat (SII) (Hansen &
Campbell 1985), Campbell Interesi dan Survey keterampilan (CISS, 2008), dari survei bunga
Kuder Occupalional (KOIS) (Zytowski, 2007), dan pencarian pribadi (Holland, 1994)
Tes seperti ini digunakan secara luas oleh para penasihat sekolah untuk membantu
siswa memilih jurusan perguruan tinggi dan kemungkinan profesi. Sebagian besar dari
mereka menghasilkan profil bunga yang dapat dibandingkan dengan profil komposit yang
dikumpulkan dari anggota kelompok kerja seperti biolog, insinyur, perwira, tukang kayu, polisi,
menteri, akuntan, pramuniaga, pengacara, dan semacamnya. Pada mulanya, alat tes kertas dan
pensil paling banyak tersedia dari penerbit mereka secara online. Dengan bayaran tertentu,
para peminat dapat mengikuti ujian itu dan, dalam beberapa menit, menerima laporan yang
terperinci.
Instrumen seperti studi nilai (SoV) (Allport, Vernon, & Lindzey, 1970) dan survei nilai
Rokeach (RVS) dirancang untuk mengukur nilai-nilai atau orientasi hidup generalisasi.
Rokeach (2000) berpendapat bahwa nilai-nilai berbeda dari sikap atau minat terhadap nilai-
nilai tersebut lebih sedikit jumlahnya dan lebih terpusat pada sistem kepercayaan seseorang
dan Fungsi psikologis. Untuk mengukur nilai, SoV meminta peserta tes untuk memilih satu
opsi dalam masing-masing dari 120 pasang pernyataan yang mewakili nilai yang berbeda.
Hasil memperlihatkan kekuatan relatif dari enam kepentingan dasar: teoretis (" intelektual "),
ekonomi, estetika, sosial, politik, dan agama. Dalam RVS, orang-orang diminta untuk
memerintah memesan seperangkat nilai terminal 18 (misalnya, kesehatan, pengakuan sosial,
kehidupan yang nyaman, dunia yang damai) dan seperangkat nilai (misalnya, wawasan luas,
intelektual, taat, berani).
Secara umum, keandalan dan keabsahan instrumen kepentingan dan nilai dapat
diterima tetapi tidak sebanyak yang ditemukan dengan sebagian besar ukuran kognitif yang
kita tinjau sebelumnya menilai keabsahan atau keabsahan dapat menjadi masalah dengan
beberapa instrumen ini karena mereka menggunakan peringkat atau pilihan terpaksa, sehingga
ketika benda-benda tertentu berada di peringkat tinggi, yang lainnya tentu saja berada di tingkat
rendah.
Selain itu, para peserta tes sering kali tidak terlalu yakin pada peringkat mereka
sebagaimana yang mereka lakukan dalam hal-hal yang lebih terfokus yang dapat diukur
secara objektif (misalnya, materi yang berada di urutan ketiga dalam satu pengujian mungkin
berada di urutan kelima atau keenam 6 bulan kemudian). Terlepas dari keterbatasan
psikometrik ini, tes memiliki penggunaan yang relatif luas, mungkin karena validitas dan
kemampuan mereka untuk merangsang penjelajahan pribadi dan karier.
BAB III

PENUTUP

3.1. Kesimpulan

Ada ribuan tes psikologi yang tersedia untuk digunakan, dan lebih banyak lagi sedang
dikembangkan setiap saat. Tes dikembangkan menggunakan prosedur analitik (teoritis) dan
empiris, seringkali keduanya. Pendekatan empiris diperlukan untuk mengembangkan norma-
norma tes, yang tanpanya interpretasi skor tes akan sulit. Norma biasanya berasal dari sampel
standarisasi yang besar dan representatif. Bahkan dengan sampel yang representatif,
pengembang tes dan klinisi harus berhati-hati untuk menghindari bias yang dapat terjadi jika
tes tidak "cocok" untuk orang dari latar belakang yang berbeda. Standar yang diterbitkan oleh
APA dan pemerintah federal dirancang untuk memastikan bahwa tes digunakan dengan
memperhatikan prinsip-prinsip ilmiah dan hak serta kesejahteraan klien. Tes yang biasa
digunakan oleh peneliti klinis dan praktisi dapat dikategorikan berdasarkan apa yang mereka
ukur: kemampuan kognitif / intelektual, minat / nilai, dan kepribadian / psikopatologi.

Tes juga dapat dikategorikan berdasarkan pengukurannya. Tes yang membatasi respons
menjadi respons yang lebih sederhana, tidak ambigu, dan mudah diberi skor (misalnya, benar
atau salah) disebut tes objektif. Tes yang memungkinkan respons verbal atau grafis yang
kompleks terhadap rangsangan yang ambigu (misalnya, bercak tinta) disebut tes proyektif.

Tes obyektif yang menonjol dari fungsi intelektual (yang hasilnya biasanya dinyatakan
sebagai skor IQ) termasuk skala Stanford-Binet 5 dan Wechsler (misalnya, WAIS-III, WISC-
IV). SAT dan Wide Range Achievement Test (WRAT) mencontohkan beberapa tes
kemampuan umum yang digunakan saat ini. Sikap, minat, preferensi, dan nilai biasanya
diukur melalui tes seperti Inventaris Minat Kuat, Pencarian Terarah Sendiri, Studi Nilai, dan
Survei Nilai Rokeach.

Tes kepribadian / psikopatologi yang paling banyak digunakan dalam pengaturan klinis
adalah Minnesota Multiphasic Personality Inventory (MMPI-2). Inventaris Multiphasic
Klinis Millon (MCMI-II) juga biasa digunakan dalam pengaturan klinis. Ada juga banyak tes
yang dirancang untuk mengukur area kesulitan tertentu daripada kepribadian yang dipahami
secara luas. Beck Depression Inventory (BDI) adalah contoh yang menonjol. Beberapa tes
dirancang untuk mengukur kepribadian normal: Califonrnia Psychological Inventory (CPI),
Personality Research Form (PRF), Sixteen Personality Factor Questionnaire (16PF), dan
NEO Personality Inventory (NEO-PI-R) adalah contohnya.
Rorschach, Tes Apersepsi Tematik (TAT), tes penyelesaian kalimat, dan tes Draw-a-
Person (DAP) adalah instruksi proyektif yang dirancang untuk mengukur aspek kepribadian
dan psikopatologi. Setelah tes yang paling populer digunakan oleh dokter, tes tersebut
sekarang lebih jarang digunakan karena kekhawatiran tentang sifat psikometri mereka.

Saat ini, reliabilitas dan validitas dari tes objektif yang paling umum digunakan tinggi
untuk tes fungsi intelektual dan memadai atau lebih baik untuk kebanyakan tes lainnya.
Sehubungan dengan instrumen lain, keseluruhan validitas tes kepribadian proyektif tetap
marjinal. Usaha pengujian terus dilakukan karena pengujian dapat bermanfaat dan karena
tradisi klinis serta tuntutan masyarakat mempersulit pengabaian aktivitas ini. Saat ini,
validitas keseluruhan tes psikoiogis sebanding dengan keseluruhan validitas tes di bidang
perawatan kesehatan lain, tetapi ada variasi yang luas di setiap bidang. Seiring waktu, tes
yang melakukan pekerjaan yang lebih buruk harus diganti, dan tes yang lebih jelas
diterjemahkan ke dalam perencanaan dan evaluasi perawatan akan lebih umum.
DAFTAR PUSTAKA
Kramer, Geoffrey P., Douglas A. Bernstein., dan Vicky Phares. 7th edition. Introduction To
Clinical Psychology. International Edition.

Anda mungkin juga menyukai