Anda di halaman 1dari 8

TUGAS PSIKOMETRI

ATHIKAH DIAN ALFARIZY


G152140331

SEKOLAH PASCASARJANA
DEPARTEMEN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
2014

Differential Item Functioning Procedures for Polytomous Items when Responden


Sample Sizes are Small

Latar Belakang
Secara ideal, peluang menjawab benar sebuah item berdasarkan pada tingkat
kemampuan responden pada konstruksi yang diukur oleh item beserta parameter item lain
yang relevan seperti kesukaran dan diskriminasi. Jika peluang menjawab benar ternyata juga
didasarkan pada factor subkelompok yang tidak relevan, seperti contohnya gender, etnis, ras,
dan lain-lain, maka memungkinkan terdeteksi adanya DIF pada item. Item dengan DIF
mungkin memberikan variansi tidak relevan ke nilai tes, sehingga menurunkan validitas nilai
tes. Latihan tes yang baik, menyarankan kepada para peneliti dan pengembang untuk
mengidentifikasi item dengan DIF dan menghindari untuk menggunakan item yang terdeteksi
DIF pada tes yang sebenarnya.
Beberapa metode statistika untuk mendeteksi DIF pada item berdasarkan statistika
inferensi, menggunakan respon item dari tes sebagai pertimbangan, tersedia untuk item
dikotomus. Termasuk adalah metode Uji Mantel-Haenszel, Statistika standardisasi, Regresi
Logistik, Uji Lords Chi Square, Pengukuran Area Raju, Statistik SIBTEST dan uji rasio
likelihood. Beberapa metode telah diadaptasi untuk digunakan pada item politomus yang
termasuk di antaranya Statistika standardisasi, Statistika SIBTEST, Regresi Logistik dan Uji
Rasio Likelihood. Beberapa metode lain untuk pendeteksian DIF pada item politomus juga
telah dipelajari seperti Uji Mantel, HW1 dan HW3, Analisis Fungsi Diskriminan Logistik,
Coxs dan Liu-Agresti.
Karena beberapa metode pendeteksian DIF berdasarkan statistika inferensia, ukuran
sampel bisa mempengaruhi kekuatan pendeteksian. Ada beberapa alasan mengapa ukuran
sampel responden bisa lebih kecil dari yang diharapkan, secara umum pada item politomus.
Contohnya, penaksiran performa dari pengujian, secara tipikal pada item politomus,
membutuhkan ukuran sampel yang besar untuk analisis item dan pendeteksian DIF. Namun
biaya yang dibutuhkan mungkin mengahalangi peneliti untuk memperoleh sampel sejumlah
besar yang diinginkan tersebut. Sehingga dilakukan penelitian untuk melihat pengaruh
ukuran sampel yang kecil pada item politomus dengan metode-metode pendeteksian DIF
yang telah dipelajari sesuai digunakan.

Tujuan Studi
Simulasi dari respon item digunakan untuk mempelajari tingkat galat tipe I dan power
statistika untuk prosedur pendeteksian DIF pada ukuran sampel yang kecil dari masingmasing metode dan modifikasi pendeteksian DIF untuk item politomus. Di mana estimasi
tingkat galat tipe I adalah presentase item yang bukan merupakan DIF diuji terdeteksi sebagai
DIF. Serta meneliti faktor-faktor yang mempengaruhi power statistika dari metode-metode
pendeteksian DIF untuk item politomus yang telah disimulasi. Sehingga hasil dari penelitian
diharapkan dapat membantu untuk lebih memahami metode dan modifikasi pendeteksian DIF
mana yang paling kuat ketika berhubungan dengan responden dengan ukuran kecil pada item
politomus.

Metode
Untuk mensimulasi responden dari kelompok fokal (mayoritas) dan kelompok
referensi (minoritas), diperlukan untuk mensimulasi nilai , yang diperoleh dari normal
distribusi standar dengan mean adalah nol dan variansi adalah satu atau dari distribusi normal
dengan mean adala -0,5 dan variansinya adalah 1. Dengan dikatakan bahwa terdapat
pengaruh ketika mean dari kelompok fokal dan kelompok referensi berbeda.
Dua ukuran sampel diujikan dalam simulasi, yaitu 40 responden pada kelompok fokal
dengan 40 responden pada kelompok referensi dan 40 responden pada kelompok fokal
dengan 400 responden pada kelompok referensi. Dengan kondisi pereplikasian kasus ketika
responden laki-laki dan perempuan yang mengerjakan tes terlalu sedikit dan ketika minoritas
yang kecil dan mayoritas kelompok yang besar, yang mengerjakan tes. Ketika data yang telah
disimulasi dan tabel kontingensi 2 x 3 x 4 telah dibuat, prosedur pendeteksian DIF bisa
dimulai. Dengan tiga metode tabel kontingensi yaitu uji Mantel atau Coxs , Logaritma
natural odds rasio umum politomus Liu-Agresti dan HW3. Untuk setiap metode pendeteksian
DIF, dilakukan simulasi dengan empat modifikasi yaitu metode Bayes empirical, uji
randomisasi, metode penghalusan log-linear dan tanpa modifikasi. Di semua, 12 metode
pendeteksian DIF dari tiga metode dengan masing-masing dilakukan 4 perlakuan modifikasi,
dihitung untuk setiap ukuran sampel yang diujikan dengan pengulangan sebanyak 1000 kali.

Hasil
Hipotesis dari hasil tingkat galat tipe I adalah akan berada pada kisaran 5% untuk
semua metode pendeteksian DIF dan kondisi perlakuan, pada margin of error. Dari
pengujian, diperoleh bahwa sebagian besar hasil tingkat galat tipe I sebesar sekitar 5%.
Pengeculian utama terjadi pada penggunaan metode HW3 ketika mengevaluasi DIF untuk
ukuran sampel dengan 40 responden pada kelompok fokal dan 40 responden pada kelompok
referensi, dengan tingkat galat lebih kecil dari 5% yang diharapkan.
Untuk power statistika, uji Mantel dan Liu-Agresti memiliki power yang serupa.
Kedua metode diteliti lebih kuat dibandingkan dengan metode HW3, untuk kondisi perlakuan
di mana power statistika bisa secara langsung dibandingkan, pada kasus ini kondisi di mana
sampel yang memiliki 400 responden kelompok referensi. Dari uji Mantel dan Liu-Agresti,
dilihat bahwa metode Liu-Agresti sedikit lebih kuat dari uji Mantel di bawah simulasi kasus
di mana ada DIF konvergen pada item yang diuji. Sedangkan ketika kasus simulasi di mana
ada DIF divergen, uji Mantel lebih kuat daripada Liu-Agresti. Pada beberapa perlakuan, HW3
sebenarnya memiliki tingkat power yang lebih tinggi dibandingkan Liu-Agresti, namun
tingkat power secara umum terlalu kecil untuk penerapan.
Untuk berbagai modifikasi perlakuan, sebagian besar tingkat galat tipe I adalah
sebesar sekitar 5% untuk uji Mantel randomisasi, uji Liu-Agresti randomisasi, uji Mantel
penghalusan log-linear dan uji Liu-Agresti penghalusan log-linear. Untuk semua modifikasi
Bayesian pada semua metode yang diuji, tingkat galat tipe I secara signifikan lebih rendah
dari 5%. Begitu pula dengan tingkat galat tipe I pada metode HW3 penhalusan log-linear
untuk perlakuan menggunakan 40 kelompok referensi. Modifikasi penghalusan log-iinear
Liu-Agresti dan Mantel menghasilkan tingkat power yang setinggi atau sedikit lebih tinggi
dibanding dengan yang tidak dimodifikasi. Liu-Agresti dan HW3 randomisasi juga memiliki
power statistika yang tinggi. Sedangkan untuk modifikasi Bayesian tidak menghasilkan
tingkat power statistika yang tinggi.
Untuk semua prosedur pendeteksian DIF dan modifikasi, ada pengaruh interaksi
antara pola DIF dan ukuran sampel. Penigkatan power melewati pola DIF lebih besar untuk
ukuran sampel dengan kelompok referensi yang lebih besar. Di kebanyakan kasus,
peningkatan power melewati pola DIF lebih besar ketika pengaruh yang kuat disimulasi.

Kelebihan
Penelitian ini menguji metode yang kuat untuk mendeteksi DIF pada item politomus
dengan ukuran sampel yang kecil, di mana pada penelitian-penelitian sebelumnya penelitian
kebanyakan diujikan pada item dikotomus. Juga memberikan hasil tentang metode yang lebih
kuat digunakan untuk mendeteksi DIF pada item politomus untuk ukuran sampel yang kecil,
serta modifikasi yang menghasilkan power statistika yang lebih kuat ketika diterapkan pada
metode pendeteksian, ketika kebanyakan penelitian meneliti kekuatan metode untuk item
dikotomus.

Kekurangan
Dalam penelitian hanya ada tiga metode yang diujikan, di mana metode lain yang
telah disebutkan tidak ikut dalam pengujian, sehingga tidak bisa dilihat mana metode yang
lebih kuat di antara metode-metode yang signifikan digunakan untuk pendeteksian DIF pada
item politomus. Sehingga tidak ada wawasan tentang metode mana yang sebaiknya
digunakan pada ukuran sampel kecil, dan metode mana yang sebaiknya dihindari untuk
digunakan dalam mendeteksi DIF.

Saran & Rekomendasi


Untuk penelitian selanjutnya bisa digunakan parameter item set yang berbeda,
terutama yang berdasarkan kondisi nyata. Metode pendeteksian DIF pada item politomus lain
juga bisa digunakan sebagai perbandingan dan penelitian untuk melihat hubungan antara
metode-metode tersebut beserta ketiga metode yang diteliti dalam pendeteksian DIF item
politomus untuk ukuran sampel yang kecil.

Metode Linking dan Butir False Positive pada Pendekatan DIF Berdasarkan Teori
Respons Butir

Latar Belakang
Dalam penelitian, responden dengan kemampuan sama, berasal dari kelompok yang
berbeda memiliki peluang menjawab benar pada sebuah item tes yang berbeda. Dapat terjadi
karena item tersebut tidak mengukur aspek yang sama pada dua kelompok responden yang
berbeda. Butir tersebut mengukur aspek lain yang tidak seharusnya diukur, sehingga
menghasilkan kesimpulan yang seharusnya tidak berbeda menjadi berbeda. Butir item
tersebutlah disebut dengan bias atau DIF. Pendeteksian DIF pada item dapat dilakukan
dengan banyak metode, yang di antaranya adalah Lords Chi Square dan uji rasio likelihood.
Yang sebelum diujikan, dilakukan penyamaan skala dari parameter dua kelompok yang
berbeda yang dilakukan dengan metode linking, sehingga parameter butir kedua kelompok
berada pada metrik yang sama.

Tujuan Studi
Penelitian dimaksudkan untuk meneliti banyaknya butir false positive yang
mempengaruhi keakuratan metode linking melalui metode Lords Chi Square.

Metode
Metode linking yang dibandingkan adalah metode mean dengan sigma, metode robust
mean dengan robust sigma dan metode kurva karakteristik. Metode yang digunakan untuk
mendeteksi DIF adalah uji Lords Chi square dan uji rasio likelihood. Dengan penelitian yang
terdiri dari dua variable, yaitu variable terikat yaitu banyaknya butir false positive, dan
variable bebas yaitu metode linking RS, TRS dan KK. Data penelitian didapatkan dari nilai
pekerjaan siswa pada perangkat tes Ujian Nasional SMP mata pelajaran matematika paket 3
sebanyak 40 butir pada wilayah Kodya Jakarta Timur dan Jakarta Barat tahun 2004. Dengan
jumlah responden sebanyak 29242 pada kelompok referensi dan kelompok fokal. Dengan
diambil 1000 respon peserta tes sebanyak 384 kali secara acak untuk masing-masing
kelompok referensi dan kelompok fokal.

Data dianalisis dengan dua teknik, yaitu uji persyaratan analisis serta uji perbedaan
rerata dan perbandingan berganda. Uji persyaratan analisis untuk menguji kehomogenan
varians pada butir false positive denan uji Bartlett. Untuk uji perbandingan rerata banyaknya
butir false positive menggunakan uji Kruskall Wallis untuk menguji adanya perbedaan
pengaruh perlakuan yang dicobakan. Karena ada dua rerata yang berbeda kemudian
dilanjutkan dengan uji lanjut yaitu uji perbandingan berganda.

Hasil
Jumlah item false positive yang dihitung dari item yang sebelumnya tidak terdeteksi
DIF ketika menggunakan metode rasio likelihood, ketika digunakan metode Lords Chi
Square dideteksi terdapat DIF. Hasil uji perbandingan rerata menunjukkan ada perbedaan
rerata banyaknya butir false positive pada metode linking RS, TRS dan KK melalui metode
Lords Chi Square. Dengan demikian, ketiga metode linking tidak memberikan pengaruh
yang sama. Banyaknya butir FALSE POSITIVE pada metode RS kurang dari yang didapatkan
dengan metode TRS dan sama dengan yang didapatkan dengan metode KK, dan banyaknya
butir FALSE POSITIVE yang didapat dengan metode TRS lebih banyak dari butir FALSE
POSITIVE pada metode KK. Sehingga dapat disimpulkan bahwaa penyamaan skala dari
metode kurva karakteristik dan metode mean dengan sigma lebih akurat dibandingkan
dengan metode robust mean dan robust sigma. Namun metode kurva karakteristik memiliki
akurasi yang sama dengan metode mean dan sigma.

Kelebihan
Pada penelitian ini mengembangkan software penyamaan skala BLINK dan
LORDDIF yang belum banyak digunakan. Penelitian memberikan kesimpulan dari hasil
perbandingan metode yang diuji yang memberikan gambaran metode linking yang akurat
untuk menghasilkan butir false positive dari kedua metode pendeteksian DIF. Penelitian
memberikan langkah-langkah yang jelas dalam prosedur pengujian hingga didapat
kesimpulan akhir.

Kekurangan
Tidak ada perbandingan tingkat power statistika dan tingkat galat antara metode
Lords Chi Square dan Metode rasio likelihood untuk melihat perbandingan metode yang
lebih kuat dalam mendeteksi adanya DIF pada butir item.

Saran & Rekomendasi


Untuk penelitian selanjutnya dilakukan pula perbandingan metode linking antara
metode Lords Chi Square dengan metode lain untuk melihat perbedaan keakuratan masingmasing metode linking jika dilakukan pengujian menggunakan metode pendeteksian yang
berbeda.

Anda mungkin juga menyukai