Anda di halaman 1dari 224

Machine Translated by Google

Machine Translated by Google

6WDWLVWLFVLQ3ODLQ(QJOLVK
7KLUG(GLWLRQ

7LPRWK\& 8UGDQ
6DQWD&ODUD8QLYHUVLW\
Machine Translated by Google

Routledge Routledge
Grup Taylor & Francis Grup Taylor & Francis
270 Madison Avenue 27 Jalan Gereja
New York, NY 10016 Hove, Sussex Timur BN3 2FA

© 2010 oleh Taylor dan Francis Group, LLC


Routledge adalah jejak Taylor & Francis Group, sebuah bisnis Informa

Edisi ini diterbitkan di Taylor & Francis e-Library, 2011.

Untuk membeli salinan Anda sendiri atau koleksi ribuan eBook Taylor & Francis atau
Routledge, silakan kunjungi www.eBookstore.tandf.co.uk.

Nomor Buku Standar Internasional: 978-0-415-87291-1 (Paperback)

Untuk izin memfotokopi atau menggunakan materi secara elektronik dari karya ini, silakan akses www.copyright.com (http://www.copyright.com/) atau hubungi Copyright Clearance
Center, Inc. (CCC), 222 Rosewood Drive, Danvers, MA 01923, 978-750-8400. CCC adalah organisasi nirlaba yang menyediakan lisensi dan pendaftaran untuk berbagai pengguna.
Untuk organisasi yang telah diberikan izin fotokopi oleh CCC, sistem pembayaran terpisah telah diatur.

Pemberitahuan Merek Dagang: Nama produk atau perusahaan mungkin merupakan merek dagang atau merek dagang terdaftar, dan hanya digunakan untuk identifikasi dan penjelasan
tanpa maksud untuk melanggar.

Library of Congress KatalogisasiÿdalamÿData Publikasi

Urdan, Timotius C.
Statistik dalam bahasa Inggris sederhana / Tim Urdan. --edisi ke-3.
p. cm.
Termasuk referensi bibliografi dan indeks.
ISBN 978-0-415-87291-1 1.
Statistik--Buku teks. I. Judul.

QA276.12.U75 2010
519.5--dc22 2010000438

Kunjungi situs web Taylor & Francis di http://


www.taylorandfrancis.com

dan situs web Psychology Press di http://


www.psypress.com

ISBN 0-203-85117-X Master e-book ISBN


Machine Translated by Google

Untuk Ella dan Nathaniel. Karena kamu rock.


Machine Translated by Google
Machine Translated by Google

Isi
Kata pengantar ix

1Bab Pengantar Prinsip dan Terminologi Penelitian Ilmu Sosial 1

Populasi dan Sampel, Statistik dan Parameter 1


Masalah Pengambilan Sampel
3
Jenis Variabel dan Skala Pengukuran 4
Desain Penelitian 4
Memahami Distribusi dan Grafik 6
Mengakhiri dan Menantikan 10
Daftar Istilah untuk Bab 1 10

2Bab Ukuran Tendensi Sentral 13

Ukuran Tendensi Sentral dalam Kedalaman 14


Contoh: Rata-rata, Median, dan Modus dari Distribusi Miring 15
Menulis itu 17
Mengakhiri dan Menantikan 17
Daftar Istilah dan Simbol untuk Bab 2 18

3Bab Ukuran Variabilitas 19

Ukuran Variabilitas dalam Kedalaman 20


Contoh: Meneliti Range, Variance, dan Standard Deviation 24
Mengakhiri dan Menantikan 28
Daftar Istilah dan Simbol untuk Bab 3 28

4Bab Distribusi Normal 29

Distribusi Normal dalam Kedalaman 30


Contoh: Menerapkan Probabilitas Distribusi Normal ke Distribusi Nonnormal 33
Mengakhiri dan Menantikan 34
Daftar Istilah untuk Bab 4 34

5Bab Standarisasi dan Skor z 37

Standarisasi dan Skor z dalam Kedalaman 37


Contoh: Membandingkan Skor Mentah dan Skor z 45
Mengakhiri dan Menantikan 47
Daftar Istilah dan Simbol untuk Bab 5 47

6Bab Kesalahan Standar 49

Kesalahan Standar dalam Kedalaman 49


Contoh: Ukuran Sampel dan Pengaruh Standar Deviasi pada Kesalahan Standar 58
Mengakhiri dan Menantikan 59
Daftar Istilah dan Simbol untuk Bab 6 60

v
Machine Translated by Google

vi Isi _

7Bab Signifikansi Statistik, Ukuran Efek, dan Interval Keyakinan 61

Signifikansi Statistik dalam Kedalaman 62


Ukuran Efek dalam Kedalaman 68
Interval Keyakinan dalam Kedalaman 71
Contoh: Signifikansi Statistik, Interval Keyakinan, dan Ukuran Efek untuk a
Uji Motivasi Satu Sampel 73
Mengakhiri dan Menantikan 76
Daftar Istilah dan Simbol untuk Bab 7 77
Bacaan yang Direkomendasikan 78

8Bab Korelasi 79

Koefisien Korelasi Pearson dalam Kedalaman 81


Kata Singkat tentang Jenis Koefisien Korelasi Lainnya 88
Contoh: Korelasi antara Nilai dan Nilai Tes 89
Menulis Itu 90
Mengakhiri dan Menantikan 90
Daftar Istilah dan Simbol untuk Bab 8 91
Bacaan yang Direkomendasikan 92

9 Bab t Tes 93

Sampel Independen t Uji Kedalaman 94


Uji t Sampel Berpasangan atau Dependen dalam Kedalaman 98
Contoh: Membandingkan Rata-rata Poin Nilai Putra dan Putri 100
Contoh: Membandingkan IPK Kelas Lima dan Kelas Enam 102
Menulis Itu 103
Mengakhiri dan Menantikan 103
Daftar Istilah dan Simbol untuk Bab 9 104

1Chapter 0 Analisis Varians Satu Arah 105

ANOVA Satu Arah dalam Kedalaman 106


Contoh: Membandingkan Preferensi Anak Berusia 5, 8, dan 12 Tahun 113
Menulis Itu 116
Mengakhiri dan Menantikan 116
Daftar Istilah dan Simbol untuk Bab 10 117
Bacaan yang Direkomendasikan 118

1Bab 1 Analisis Faktorial Varians 119

ANOVA faktorial dalam Kedalaman 120


Contoh: Kinerja, Pilihan, dan Evaluasi Publik versus Swasta 128
Menulis Itu 129
Mengakhiri dan Menantikan 129
Daftar Istilah untuk Bab 11 130
Bacaan yang Direkomendasikan 130

1Bab 2 Analisis Varians Pengukuran Berulang 131

ANOVA Pengukuran Berulang dalam Kedalaman 133


Contoh: Mengubah Sikap tentang Tes Standar 138
Menulis Itu 143
Machine Translated by Google

Isi vi _

Mengakhiri dan Menantikan 143


Daftar Istilah dan Simbol untuk Bab 12 144
Bacaan yang Direkomendasikan 144

1Bab 3 Regresi 145

Regresi dalam Kedalaman 146


Regresi Berganda 152
Contoh: Memprediksi Penggunaan Strategi Self-Handicapping 156
Menulis Itu 159
Mengakhiri dan Menantikan 159
Daftar Istilah dan Simbol untuk Bab 13 159
Bacaan yang Direkomendasikan 160

1Bab 4 Uji Independensi Chi-Kuadrat 161

Uji Independensi Chi-Kuadrat dalam Kedalaman 162


Contoh: Status Generasi dan Tingkat Kelas 165
Menulis Itu 166
Mengakhiri dan Menantikan 166
Daftar Istilah dan Simbol untuk Bab 14 166

1Bab 5 Analisis Faktor dan Analisis Reliabilitas: Teknik Reduksi Data 169

Analisis Faktor secara Mendalam 169


Contoh Analisis Faktor Eksploratori yang Lebih Konkrit 172
Analisis Keandalan secara Mendalam 178
Menulis Itu 180
Membungkus 180
Glosarium Simbol dan Istilah untuk Bab 15 181
Bacaan yang Direkomendasikan 182

Lampiran 183

Lampiran A : Area di bawah Kurva Normal di luar z 185

Lampiran B: Nilai Kritis dari Distribusi t 187

Lampiran C: Nilai Kritis Distribusi F 189

Lampiran D: Nilai Kritis dari Statistik Rentang Pelajar (untuk Uji Tukey HSD) 195

Lampiran E: Nilai Kritis dari 2 Distribusi 199

Referensi 201

Glosarium Simbol 203

Indeks 205
Machine Translated by Google
Machine Translated by Google

Kata pengantar

Mengapa Menggunakan Statistik?

Sebagai seorang peneliti yang sering menggunakan statistik, dan sebagai pendengar setia talk radio, saya mendapati
diri saya meneriaki radio saya setiap hari. Meskipun saya menyadari bahwa tangisan saya tidak terdengar, saya tidak
dapat menahan diri. Sebagai pembawa acara talk show radio, politisi yang membuat pidato politik, dan masyarakat
umum semua tahu, tidak ada yang lebih kuat dan persuasif daripada kisah pribadi, atau apa yang disebut ahli statistik
sebagai bukti anekdot. Contoh favorit saya tentang ini berasal dari pertukaran yang saya lakukan dengan seorang staf
anggota kongres saya beberapa tahun yang lalu. Saya menelepon kantornya untuk mengeluh tentang pamflet yang
dikirimkan kantornya kepada saya yang mengecam keadaan pendidikan publik yang menyedihkan. Saya berbicara
dengan anggota stafnya yang bertanggung jawab atas pendidikan. Saya memberi tahu dia, menggunakan statistik yang
dilaporkan dalam berbagai sumber (misalnya, The Manufactured Crisis dari Berliner dan Biddle dan laporan “Kondisi
Pendidikan” tahunan di Phi Delta Kappan yang ditulis oleh Gerald Bracey), bahwa ada banyak tanda bahwa sistem kami
melakukannya dengan cukup baik, termasuk tingkat kelulusan yang lebih tinggi, jumlah siswa yang lebih banyak di
perguruan tinggi, peningkatan nilai tes standar, dan perolehan nilai SAT yang sederhana untuk siswa dari semua etnis. Staf
anggota memberi tahu saya bahwa terlepas dari statistik ini, dia tahu sekolah umum kami gagal karena dia bersekolah
di sekolah menengah yang sama dengan ayahnya, dan dia menerima pendidikan yang lebih baik daripada dia. Aku
menutup telepon dan berteriak pada ponselku.
Banyak orang memiliki ketidakpercayaan umum terhadap statistik, percaya bahwa ahli statistik yang licik dapat
"membuat statistik mengatakan apa pun yang mereka inginkan" atau "berbohong dengan statistik." Faktanya, jika
seorang peneliti menghitung statistik dengan benar, dia tidak dapat membuat mereka mengatakan apa pun selain apa
yang mereka katakan, dan statistik tidak pernah berbohong. Sebaliknya, peneliti yang licik dapat menafsirkan apa arti
statistik dalam berbagai cara, dan mereka yang tidak memahami statistik dipaksa untuk menerima interpretasi yang
ditawarkan oleh ahli statistik dan peneliti atau menolak statistik sepenuhnya. Saya percaya pilihan yang lebih baik adalah
mendapatkan pemahaman tentang cara kerja statistik dan kemudian menggunakan pemahaman itu untuk menafsirkan
statistik yang dilihat dan didengar sendiri. Tujuan dari buku ini adalah untuk memudahkan pemahaman statistika.

Penggunaan Statistik

Salah satu potensi kekurangan data anekdot adalah bahwa mereka istimewa. Seperti yang dikatakan staf kongres
kepada saya bahwa ayahnya menerima pendidikan yang lebih baik dari sekolah menengah yang mereka berdua hadiri
daripada dia, saya dapat dengan mudah menerima pendidikan berkualitas lebih tinggi daripada ayah saya. Statistik
memungkinkan peneliti untuk mengumpulkan informasi, atau data, dari sejumlah besar orang dan kemudian merangkum
pengalaman khas mereka. Apakah kebanyakan orang menerima pendidikan yang lebih baik atau lebih buruk daripada
orang tua mereka? Statistik memungkinkan peneliti untuk mengambil sejumlah besar data dan meringkasnya menjadi
beberapa angka, seperti rata-rata. Tentu saja, ketika banyak data dirangkum menjadi satu angka, banyak informasi yang
hilang, termasuk fakta bahwa orang yang berbeda memiliki pengalaman yang sangat berbeda. Jadi, penting untuk
diingat bahwa, sebagian besar, statistik tidak memberikan informasi yang berguna tentang pengalaman setiap individu.
Sebaliknya, peneliti umumnya menggunakan statistik untuk membuat pernyataan umum tentang suatu populasi.
Meskipun kisah-kisah pribadi sering kali mengharukan atau menarik, seringkali penting untuk memahami apa itu
pengalaman yang khas atau rata -rata . Untuk ini, kita membutuhkan statistik.

Statistik juga digunakan untuk mencapai kesimpulan tentang perbedaan umum antar kelompok. Sebagai contoh,
misalkan dalam keluarga saya, ada empat anak, dua laki-laki dan dua perempuan. Misalkan wanita di keluarga saya
lebih tinggi daripada pria. Pengalaman pribadi ini dapat membawa saya pada kesimpulan bahwa wanita umumnya lebih
tinggi daripada pria. Tentu saja, kita tahu bahwa rata-rata,

ix
Machine Translated by Google

x Kata Pengantar

pria lebih tinggi dari wanita. Alasan kami mengetahui hal ini adalah karena para peneliti telah mengambil sampel
acak pria dan wanita dalam jumlah besar dan membandingkan tinggi rata-rata mereka. Para peneliti sering tertarik
untuk membuat perbandingan seperti itu: Apakah pasien kanker bertahan lebih lama dengan menggunakan satu
obat daripada yang lain? Apakah satu metode mengajar anak membaca lebih efektif daripada yang lain? Apakah
pria dan wanita berbeda dalam menikmati film tertentu? Untuk menjawab pertanyaan ini, kita perlu mengumpulkan
data dari sampel yang dipilih secara acak dan membandingkan data ini menggunakan statistik. Hasil yang kami
dapatkan dari perbandingan semacam itu seringkali lebih dapat dipercaya daripada pengamatan sederhana yang
dilakukan orang dari sampel non-acak, seperti perbedaan tinggi badan pria dan wanita dalam keluarga saya.
Statistik juga dapat digunakan untuk melihat apakah skor pada dua variabel terkait dan untuk membuat prediksi.
Misalnya, statistik dapat digunakan untuk melihat apakah merokok berhubungan dengan kemungkinan
berkembangnya kanker paru-paru. Selama bertahun-tahun, perusahaan tembakau berpendapat bahwa tidak ada
hubungan antara merokok dan kanker. Tentu, beberapa orang yang merokok mengembangkan kanker. Tetapi
perusahaan tembakau berpendapat bahwa (a) banyak orang yang merokok tidak pernah terkena kanker, dan (b)
banyak orang yang merokok cenderung melakukan hal-hal lain yang dapat menyebabkan perkembangan kanker,
seperti makan makanan yang tidak sehat dan tidak berolahraga. Dengan bantuan statistik dalam sejumlah penelitian,
para peneliti akhirnya mampu menghasilkan lebih banyak bukti yang menunjukkan bahwa sebenarnya ada
hubungan antara merokok dan kanker. Karena statistik cenderung berfokus pada pola keseluruhan daripada kasus
individu, penelitian ini tidak menyarankan bahwa setiap orang yang merokok akan mengembangkan kanker.
Sebaliknya, penelitian menunjukkan bahwa, rata-rata, orang memiliki peluang lebih besar terkena kanker jika
mereka merokok daripada jika tidak.
Dengan berpikir sejenak, Anda dapat membayangkan sejumlah besar pertanyaan menarik dan penting yang
dapat dijawab oleh statistik tentang hubungan. Apakah ada hubungan antara harga diri dan prestasi akademik?
Apakah ada hubungan antara penampilan terdakwa pidana dan kemungkinan mereka dipidana? Apakah mungkin
untuk memprediksi tingkat kejahatan kekerasan suatu negara dari jumlah uang yang dikeluarkan negara untuk
program perawatan narkoba? Jika kita mengetahui tinggi badan ayah, seberapa akurat kita dapat memprediksi
tinggi badan anak? Ini dan ribuan pertanyaan lainnya telah diperiksa oleh para peneliti menggunakan statistik yang
dirancang untuk menentukan hubungan antara variabel dalam suatu populasi.

Cara Menggunakan Buku Ini

Buku ini tidak dimaksudkan untuk digunakan sebagai sumber informasi utama bagi mereka yang tidak terbiasa
dengan statistik. Sebaliknya, ini dimaksudkan untuk menjadi suplemen untuk buku teks statistik yang lebih rinci,
seperti yang direkomendasikan untuk kursus statistik dalam ilmu sosial. Atau, jika Anda telah mengambil satu atau
dua mata kuliah statistik, buku ini mungkin berguna sebagai buku referensi untuk menyegarkan ingatan Anda
tentang konsep-konsep statistik yang Anda temui di masa lalu. Penting untuk diingat bahwa buku ini jauh lebih
detail daripada buku teks tradisional. Setiap konsep yang dibahas dalam buku ini lebih kompleks daripada yang
disarankan oleh presentasi dalam buku ini, dan pemahaman menyeluruh tentang konsep-konsep ini hanya dapat
diperoleh dengan menggunakan buku teks yang lebih tradisional dan lebih rinci.

Dengan mengingat peringatan itu dengan kuat, izinkan saya menjelaskan manfaat potensial dari buku ini, dan
bagaimana memanfaatkannya sebaik mungkin. Sebagai seorang peneliti dan guru statistik, saya menemukan
bahwa buku teks statistik seringkali memuat banyak informasi teknis yang dapat mengintimidasi non-ahli statistik.
Meskipun, seperti yang saya katakan sebelumnya, informasi ini penting, kadang-kadang berguna untuk memiliki
deskripsi statistik yang singkat dan sederhana, kapan harus digunakan, dan bagaimana memahaminya. Hal ini
terutama berlaku untuk siswa yang hanya mengambil kursus statistik pertama atau kedua, mereka yang tidak
menganggap diri mereka "berkecenderungan matematis," dan mereka yang mungkin telah mengambil statistik
bertahun-tahun yang lalu dan sekarang mendapati diri mereka membutuhkan sedikit penyegaran. Tujuan saya
menulis buku ini adalah untuk memberikan gambaran dan penjelasan singkat dan sederhana tentang sejumlah
statistik yang mudah dibaca dan dipahami.
Machine Translated by Google

Kata Pengantar xi

Untuk membantu Anda menggunakan buku ini dengan cara yang paling sesuai dengan kebutuhan Anda, saya telah
menyusun setiap bab menjadi tiga bagian. Pada bagian pertama, deskripsi singkat (satu sampai dua halaman) tentang statistik
diberikan, termasuk untuk apa statistik itu digunakan dan informasi apa yang disediakannya. Bagian kedua dari setiap bab
berisi pembahasan statistik yang sedikit lebih panjang (tiga sampai delapan halaman).
Pada bagian ini, saya akan memberikan sedikit informasi tentang cara kerja statistik, penjelasan tentang cara kerja rumus
menghitung statistik, kekuatan dan kelemahan statistik, serta kondisi yang harus ada untuk menggunakan statistik. Akhirnya,
setiap bab diakhiri dengan contoh di mana statistik digunakan dan ditafsirkan.

Sebelum membaca buku ini, mungkin bermanfaat untuk memperhatikan tiga fiturnya. Pertama, beberapa bab membahas
lebih dari satu statistik. Misalnya, dalam Bab 2, tiga ukuran tendensi sentral dijelaskan: mean, median, dan modus. Kedua,
beberapa bab mencakup konsep statistik daripada teknik statistik tertentu. Misalnya, dalam Bab 4 distribusi normal dibahas.
Ada juga bab tentang signifikansi statistik dan interaksi statistik. Terakhir, Anda harus ingat bahwa bab-bab dalam buku ini tidak
harus dirancang untuk dibaca secara berurutan. Buku ini disusun sedemikian rupa sehingga statistik dan konsep statistik yang
lebih mendasar ada di bab-bab sebelumnya sedangkan konsep yang lebih kompleks muncul kemudian di buku ini. Namun,
tidak perlu membaca satu bab sebelum memahami bab berikutnya. Sebaliknya, setiap bab dalam buku ini ditulis untuk berdiri
sendiri. Hal ini dilakukan agar Anda dapat menggunakan setiap bab sesuai kebutuhan. Jika, misalnya, Anda tidak memiliki
masalah memahami tes t ketika Anda mempelajarinya di kelas statistik Anda tetapi menemukan diri Anda berjuang untuk
memahami analisis varians satu arah, Anda mungkin ingin melewatkan bab uji t (Bab 9) dan langsung melompati untuk analisis
varians bab (Bab 10).

Fitur Baru di Edisi Ini


Ada beberapa bagian baru dan yang diperbarui dalam Statistik edisi ketiga ini dalam Bahasa Inggris Biasa.
Mungkin perubahan terbesar adalah penambahan bab baru tentang reduksi data dan teknik pengorganisasian, analisis faktor
dan analisis reliabilitas (Bab 15). Ini adalah statistik yang sangat umum digunakan dalam ilmu sosial, terutama di kalangan
peneliti yang menggunakan metode survei.
Selain itu, bab pertama memiliki bagian baru tentang pemahaman distribusi data, dan mencakup beberapa grafik baru untuk
membantu Anda memahami cara menggunakan dan menafsirkan grafik. Saya juga telah menambahkan bagian “Menulisnya”
di akhir banyak bab untuk mengilustrasikan bagaimana statistik akan disajikan dalam artikel, buku, atau bab buku yang
diterbitkan. Ini akan membantu Anda ketika Anda menulis hasil Anda sendiri untuk publikasi, atau ketika Anda membaca karya
orang lain yang diterbitkan.
Edisi ketiga juga dilengkapi dengan situs web pendamping di http://www.psypress.com/statistics in-plain-english/ yang memiliki
ringkasan Powerpoint untuk setiap bab, satu set masalah kerja interaktif untuk sebagian besar bab, dan tautan ke situs web
yang berguna untuk mempelajari lebih lanjut tentang statistik.
Mungkin yang terbaik dari semuanya, saya memperbaiki semua kesalahan yang ada di edisi terakhir buku ini. Tentu saja, saya
mungkin menambahkan beberapa kesalahan baru pada edisi ini, hanya untuk membuat Anda tetap waspada.
Statistik adalah alat yang ampuh yang membantu orang memahami fenomena menarik. Apakah Anda seorang pelajar,
peneliti, atau hanya warga negara yang tertarik untuk memahami dunia di sekitar Anda, statistik dapat menawarkan satu metode
untuk membantu Anda memahami lingkungan Anda. Buku ini ditulis menggunakan bahasa Inggris sederhana untuk memudahkan
non-statistika memanfaatkan banyak manfaat yang dapat ditawarkan statistik. Saya harap Anda merasa berguna.

Ucapan Terima Kasih


Pertama, terima kasih yang sudah lama tertunda kepada Debra Riegert di Routledge/Taylor dan Francis atas ide-idenya yang
membantu dan banyak makanan gratis selama bertahun-tahun. Selanjutnya, terima kasih yang tulus namun tulus kepada para
pengulas buku edisi ketiga ini: Gregg Bell, University of Alabama, Catherine A.
Machine Translated by Google

xii Kata Pengantar

Daftar, Universitas New Mexico, dan satu pengulas anonim. Saya tidak menerima kritik dengan baik, tetapi saya
akhirnya mengenali saran yang bermanfaat ketika saya menerimanya dan saya mengikuti sebagian besar dari Anda,
untuk kepentingan pembaca. Saya selalu mengandalkan bantuan beberapa mahasiswa dalam memproduksi berbagai
edisi buku ini, dan untuk edisi ini saya dibantu dengan sangat baik oleh Sarah Cafasso, Stacy Morris, dan Louis Hung.
Akhirnya, terima kasih Jeannine karena telah membantu saya menemukan waktu untuk menulis dan kepada Ella dan
Nathaniel karena memastikan saya tidak menghabiskan terlalu banyak waktu untuk "melakukan pekerjaan".
Machine Translated by Google

Bab 1
Pengantar Penelitian Ilmu Sosial
Prinsip dan Terminologi

Ketika saya masih di sekolah pascasarjana, salah satu profesor statistik saya sering mengulangi apa yang
lewat, dalam statistik, untuk lelucon: "Jika ini semua bahasa Yunani bagi Anda, itu bagus." Sayangnya,
sebagian besar kelas sangat tersesat sehingga kami bahkan tidak mengerti leluconnya. Dunia statistik dan
penelitian dalam ilmu-ilmu sosial, seperti bidang khusus lainnya, memiliki terminologi, bahasa, dan konvensinya sendiri.
Dalam bab ini, saya meninjau beberapa prinsip dan terminologi penelitian mendasar termasuk perbedaan
antara sampel dan populasi, metode pengambilan sampel, jenis variabel, dan perbedaan antara statistik
inferensial dan deskriptif. Akhirnya, saya memberikan kata singkat tentang berbagai jenis desain penelitian.

Populasi dan Sampel, Statistik dan Parameter


Populasi adalah individu atau kelompok yang mewakili semua anggota kelompok atau kategori minat tertentu.
Sampel adalah subset yang diambil dari populasi yang lebih besar (lihat Gambar 1.1). Sebagai contoh,
misalkan saya ingin mengetahui pendapatan rata-rata dari dosen tetap di Harvard saat ini. Ada dua cara saya
bisa menemukan rata-rata ini. Pertama, saya bisa mendapatkan daftar setiap anggota fakultas tetap di
Harvard dan mengetahui pendapatan tahunan setiap anggota dalam daftar ini. Karena daftar ini berisi setiap
anggota grup yang saya minati, ini dapat dianggap sebagai populasi. Jika saya mengumpulkan data ini dan
menghitung rata-rata, saya akan menghasilkan parameter, karena parameter adalah nilai yang dihasilkan
dari, atau diterapkan pada, suatu populasi. Cara lain untuk menghasilkan pendapatan rata-rata fakultas tetap
di Harvard adalah dengan memilih secara acak subset nama fakultas dari daftar saya dan menghitung
pendapatan rata-rata dari subset ini. Subset dikenal sebagai sampel (dalam hal ini adalah sampel acak),
dan mean yang saya hasilkan dari sampel ini adalah jenis statistik. Statistik adalah nilai yang berasal dari
data sampel, sedangkan parameter adalah nilai yang diturunkan dari atau diterapkan pada data populasi.

Penting untuk mengingat beberapa hal tentang sampel dan populasi. Pertama, populasi tidak perlu besar
untuk dihitung sebagai populasi. Misalnya, jika saya ingin mengetahui tinggi rata-rata siswa di kelas statistika
saya semester ini, maka semua anggota kelas (secara kolektif) akan menjadi populasi. Jika kelas saya hanya
memiliki lima siswa di dalamnya, maka populasi saya hanya memiliki lima kasus. Kedua, populasi (dan
sampel) tidak harus mencakup orang. Misalnya, saya ingin mengetahui usia rata-rata anjing yang mengunjungi
klinik hewan dalam setahun terakhir. Populasi dalam penelitian ini adalah anjing, bukan manusia. Demikian
pula, saya mungkin ingin mengetahui jumlah total karbon monoksida yang diproduksi oleh kendaraan Ford
yang dirakit di Amerika Serikat selama tahun 2005. Dalam contoh ini, populasi saya adalah mobil, tetapi tidak
semua mobil—terbatas pada mobil Ford, dan hanya yang benar-benar berkumpul di satu negara selama satu
tahun kalender.

1
Machine Translated by Google

2 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Sampel (n = 3)

Populasi (N = 10)

Gambar 1.1 Sebuah populasi dan sampel yang diambil dari populasi.

Ketiga, peneliti umumnya mendefinisikan populasi, baik secara eksplisit maupun implisit. Dalam contoh di
atas, saya mendefinisikan populasi saya (anjing dan mobil) secara eksplisit. Seringkali, bagaimanapun, peneliti
mendefinisikan populasi mereka kurang jelas. Misalnya, seorang peneliti dapat mengatakan bahwa tujuan
penelitiannya adalah untuk memeriksa frekuensi depresi di kalangan remaja. Sampelnya, bagaimanapun,
hanya dapat mencakup sekelompok anak berusia 15 tahun yang mengunjungi penyedia layanan kesehatan
mental di Connecticut pada tahun tertentu. Ini menghadirkan masalah potensial dan mengarah langsung ke
hal kecil keempat dan terakhir yang perlu diingat tentang sampel dan populasi: Sampel tidak selalu merupakan
representasi yang baik dari populasi dari mana mereka dipilih. Dalam contoh tentang tingkat depresi di
kalangan remaja, perhatikan bahwa ada dua populasi potensial. Pertama, ada populasi yang diidentifikasi oleh
peneliti dan tersirat dalam pertanyaan penelitiannya: remaja.
Tetapi perhatikan bahwa remaja adalah kelompok yang sangat besar, termasuk semua manusia, di semua
negara, antara usia, katakanlah, 13 dan 20 tahun. Kedua, ada populasi yang jauh lebih spesifik yang ditentukan
oleh sampel yang dipilih: 15 -anak-anak tahun yang mengunjungi penyedia layanan kesehatan mental di
Connecticut selama tahun tertentu.

Statistik Inferensial dan Deskriptif


Mengapa penting untuk menentukan mana dari dua populasi ini yang menarik dalam penelitian ini?
Karena konsumen penelitian ini harus dapat menentukan seberapa baik hasil dari sampel digeneralisasikan
ke populasi yang lebih besar. Jelas, tingkat depresi di antara anak berusia 15 tahun yang mengunjungi
penyedia layanan kesehatan mental di Connecticut mungkin berbeda dari remaja lainnya.
Misalnya, remaja yang mengunjungi penyedia layanan kesehatan mental mungkin rata-rata lebih tertekan
daripada mereka yang tidak mencari layanan psikolog. Demikian pula, remaja di Connecticut mungkin lebih
tertekan, sebagai sebuah kelompok, daripada remaja di California, di mana matahari bersinar dan Mickey
Mouse membuat semua orang tersenyum. Mungkin anak-anak berusia 15 tahun, yang harus menderita
penghinaan saat mulai masuk sekolah menengah atas tanpa bisa mengemudi secara legal, lebih tertekan
daripada teman-teman mereka yang berusia 16 tahun, yang mengemudi. Singkatnya, ada banyak alasan
untuk menduga bahwa remaja yang tidak diikutsertakan dalam penelitian ini mungkin berbeda dalam tingkat
depresinya dibandingkan dengan remaja yang ada dalam penelitian tersebut. Ketika perbedaan seperti itu
ada, sulit untuk menerapkan hasil yang dikumpulkan dari sampel ke populasi yang lebih besar. Dalam
terminologi penelitian, hasil mungkin tidak digeneralisasikan dari sampel ke populasi, terutama jika populasi tidak didefinisikan deng
Jadi mengapa generalisasi itu penting? Untuk menjawab pertanyaan ini, saya perlu memperkenalkan
perbedaan antara statistik deskriptif dan inferensial . Statistik deskriptif hanya berlaku untuk anggota sampel
atau populasi dari mana data telah dikumpulkan. Sebaliknya, statistik inferensial mengacu pada penggunaan
data sampel untuk mencapai beberapa kesimpulan (yaitu, membuat beberapa kesimpulan)
Machine Translated by Google

Pengantar Prinsip dan Terminologi Penelitian Ilmu Sosial 3

tentang karakteristik populasi yang lebih besar yang seharusnya diwakili oleh sampel.
Meskipun peneliti kadang-kadang tertarik hanya untuk menggambarkan karakteristik sampel, sebagian besar kita jauh lebih
peduli dengan apa yang dikatakan sampel kita tentang populasi dari mana sampel itu diambil. Dalam studi depresi, peneliti
tidak terlalu peduli dengan tingkat depresi sampelnya sendiri. Sebaliknya, dia ingin menggunakan data dari sampelnya untuk
mencapai beberapa kesimpulan tentang tingkat depresi remaja secara umum.

Tetapi untuk membuat lompatan dari data sampel ke kesimpulan tentang suatu populasi, seseorang harus sangat jelas
tentang apakah sampel itu secara akurat mewakili populasi. Langkah pertama yang penting dalam proses ini adalah dengan
jelas mendefinisikan populasi yang diduga diwakili oleh sampel.

Masalah Pengambilan Sampel

Ada beberapa cara peneliti dapat memilih sampel. Salah satu yang paling berguna, tetapi juga yang paling sulit, adalah
pengambilan sampel secara acak. Dalam statistik, istilah acak memiliki arti yang jauh lebih spesifik daripada penggunaan
umum istilah tersebut. Bukan berarti sembarangan. Dalam jargon statistik, acak berarti bahwa setiap anggota populasi
memiliki kesempatan yang sama untuk dipilih menjadi sampel. Manfaat utama dari pengambilan sampel acak adalah bahwa
setiap perbedaan antara sampel dan populasi dari mana sampel dipilih tidak akan sistematis. Perhatikan bahwa dalam
contoh studi depresi, sampel berbeda dari populasi dalam hal yang penting dan sistematis

(yaitu, nonrandom) cara. Misalnya, peneliti kemungkinan besar secara sistematis memilih remaja yang lebih mungkin
mengalami depresi daripada rata-rata remaja karena dia memilih mereka yang telah mengunjungi penyedia layanan
kesehatan mental. Meskipun sampel yang dipilih secara acak mungkin berbeda dari populasi yang lebih besar dalam hal-hal
penting (terutama jika sampelnya kecil), perbedaan ini disebabkan oleh kebetulan daripada bias sistematis dalam proses
pemilihan.
Sampling representatif adalah cara kedua untuk memilih kasus untuk penelitian. Dengan metode ini, peneliti sengaja
memilih kasus-kasus agar cocok dengan populasi yang lebih besar pada karakteristik tertentu. Misalnya, jika saya ingin
melakukan penelitian yang meneliti pendapatan tahunan rata-rata orang dewasa di San Francisco, menurut definisi populasi
saya adalah "orang dewasa di San Francisco." Populasi ini mencakup sejumlah subkelompok (misalnya, kelompok etnis
dan ras yang berbeda, pria dan wanita, pensiunan dewasa, orang dewasa cacat, orang tua dan dewasa lajang, dll.).
Subkelompok yang berbeda ini mungkin diharapkan memiliki pendapatan yang berbeda. Untuk mendapatkan gambaran
yang akurat tentang pendapatan populasi orang dewasa di San Francisco, saya mungkin ingin memilih sampel yang mewakili
populasi dengan baik.
Oleh karena itu, saya akan mencoba mencocokkan persentase setiap kelompok dalam sampel saya yang saya miliki dalam
populasi saya. Misalnya, jika 15% dari populasi orang dewasa di San Francisco sudah pensiun, saya akan memilih sampel
saya dengan cara yang mencakup 15% orang dewasa yang sudah pensiun. Demikian pula, jika 55% dari populasi orang
dewasa di San Francisco adalah laki-laki, 55% dari sampel saya harus laki-laki. Dengan pengambilan sampel acak, saya
mungkin mendapatkan sampel yang mirip dengan populasi saya atau mungkin tidak. Tetapi dengan pengambilan sampel
yang representatif, saya dapat memastikan bahwa sampel saya terlihat mirip dengan populasi saya pada beberapa variabel penting.
Jenis prosedur pengambilan sampel ini bisa mahal dan memakan waktu, tetapi ini meningkatkan peluang saya untuk dapat
menggeneralisasi hasil dari sampel saya ke populasi.
Metode umum lain untuk memilih sampel disebut convenience sampling. Dalam convenience sampling, peneliti
umumnya memilih peserta berdasarkan kedekatan, kemudahan akses, dan kesediaan untuk berpartisipasi (yaitu,
kenyamanan). Misalnya, jika saya ingin melakukan studi tentang tingkat prestasi siswa kelas delapan, saya dapat memilih
sampel 200 siswa dari sekolah menengah terdekat ke kantor saya. Saya mungkin meminta orang tua dari 300 siswa kelas
delapan di sekolah untuk berpartisipasi, menerima izin dari orang tua dari 220 siswa, dan kemudian mengumpulkan data
dari 200 siswa yang muncul di sekolah pada hari saya membagikan survei saya. Ini adalah contoh kenyamanan. Meskipun
metode pemilihan sampel ini jelas kurang padat karya daripada memilih sampel acak atau representatif, itu tidak serta merta
menjadikannya cara yang buruk untuk memilih sampel. Jika sampel kenyamanan saya tidak berbeda dari populasi saya
Machine Translated by Google

4 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

tertarik pada cara-cara yang mempengaruhi hasil penelitian, maka itu adalah metode pemilihan sampel yang dapat
diterima dengan baik.

Jenis Variabel dan Skala Pengukuran


Dalam penelitian ilmu sosial, sejumlah istilah digunakan untuk menggambarkan berbagai jenis variabel.
Variabel adalah hampir semua hal yang dapat dikodifikasi dan memiliki lebih dari satu nilai (misalnya, pendapatan,
jenis kelamin, usia, tinggi badan, sikap tentang sekolah, skor pada ukuran depresi). Sebuah konstanta, sebaliknya,
hanya memiliki satu skor. Misalnya, jika setiap anggota sampel adalah laki-laki, kategori “gender” adalah konstan.
Jenis variabel termasuk kuantitatif (atau kontinu) dan kualitatif (atau kategoris). Variabel kuantitatif adalah
variabel yang diberi skor sedemikian rupa sehingga angka, atau nilai, menunjukkan semacam jumlah. Misalnya,
tinggi badan adalah variabel kuantitatif (atau kontinu) karena skor yang lebih tinggi pada variabel ini menunjukkan
jumlah tinggi badan yang lebih besar.
Sebaliknya, variabel kualitatif adalah variabel yang nilainya tidak menunjukkan lebih atau kurang kualitas tertentu.
Jika saya melakukan penelitian untuk membandingkan kebiasaan makan orang-orang dari Maine, New Mexico, dan
Wyoming, variabel “negara bagian” saya memiliki tiga nilai (misalnya, 1 = Maine, 2 = New Mexico, 3 = Wyoming).
Perhatikan bahwa nilai 3 pada variabel ini tidak lebih dari nilai 1 atau 2—ini hanya berbeda. Label mewakili perbedaan
kualitatif di lokasi, bukan perbedaan kuantitatif. Variabel kualitatif yang umum digunakan dalam penelitian ilmu sosial
adalah variabel dikotomis
variabel. Ini adalah variabel yang memiliki dua kategori berbeda (misalnya, pria dan wanita).
Sebagian besar buku teks statistik menjelaskan empat skala pengukuran yang berbeda untuk variabel: nominal,
ordinal, interval, dan rasio. Variabel berskala nominal adalah variabel di mana label yang digunakan untuk
mengidentifikasi tingkat variabel yang berbeda tidak memiliki bobot, atau nilai numerik. Misalnya, peneliti sering ingin
memeriksa apakah pria dan wanita berbeda dalam beberapa variabel (misalnya, pendapatan). Untuk melakukan
statistik menggunakan sebagian besar perangkat lunak komputer, variabel gender ini perlu diberi skor menggunakan
angka untuk mewakili setiap kelompok. Misalnya, pria dapat diberi label “0” dan wanita dapat diberi label “1”. Dalam
hal ini, nilai 1 tidak menunjukkan skor yang lebih tinggi daripada nilai 0. Sebaliknya, 0 dan 1 hanyalah nama, atau
label, yang telah ditetapkan untuk setiap kelompok.
Dengan variabel ordinal, nilai memang memiliki bobot. Jika saya ingin mengetahui 10 orang terkaya di Amerika,
orang Amerika terkaya akan menerima skor 1, orang terkaya berikutnya skor 2, dan seterusnya hingga 10. Perhatikan
bahwa sementara sistem penilaian ini memberi tahu saya di mana masing-masing dari 10 orang terkaya Amerika
berdiri dalam kaitannya dengan yang lain (misalnya, Bill Gates adalah 1, Oprah Winfrey adalah 8, dll), itu tidak
memberitahu saya berapa banyak jarak yang ada antara setiap skor. Jadi sementara saya tahu bahwa orang
Amerika terkaya lebih kaya daripada orang terkaya kedua, saya tidak tahu apakah dia memiliki satu dolar lebih atau
satu miliar dolar lebih. Variabel yang diberi skor menggunakan skala interval dan rasio , sebaliknya, berisi informasi
tentang nilai relatif dan jarak. Misalnya, jika saya tahu bahwa salah satu anggota sampel saya tingginya 58 inci, yang
lain tingginya 60 inci, dan yang ketiga tingginya 66 inci, saya tahu siapa yang paling tinggi dan seberapa tinggi atau
lebih pendek setiap anggota sampel saya dalam hubungannya kepada yang lain.
Karena variabel tinggi badan saya diukur menggunakan inci, dan semua inci memiliki panjang yang sama, variabel
tinggi badan diukur menggunakan skala interval yang sama dan memberikan informasi tentang posisi dan jarak
relatif. Skala interval dan rasio menggunakan ukuran dengan jarak yang sama antara setiap unit. Skala rasio juga
mencakup nilai nol (misalnya, suhu udara menggunakan skala pengukuran Celsius). Gambar 1.2 memberikan
ilustrasi perbedaan antara skala pengukuran ordinal dan interval/rasio.

Desain Penelitian
Ada berbagai metode dan desain penelitian yang digunakan oleh para ilmuwan sosial. Terkadang peneliti
menggunakan desain eksperimen. Dalam jenis penelitian ini, peneliti membagi kasus-kasus dalam sampel ke
dalam kelompok-kelompok yang berbeda dan kemudian membandingkan kelompok-kelompok tersebut pada satu atau lebih variabel.
Machine Translated by Google

Pengantar Prinsip dan Terminologi Penelitian Ilmu Sosial 5

Urut Interval/Rasio
Garis akhir

1 1
0,25 detik
2 detik
2

5 detik 2 detik

3
3
2 detik
3 detik
4

4
2 detik
0,30 detik
5 5

Gambar 1.2 Perbedaan antara skala pengukuran ordinal dan interval/rasio.

bunga. Sebagai contoh, saya mungkin ingin mengetahui apakah kurikulum matematika saya yang baru
dikembangkan lebih baik daripada metode lama. Saya memilih sampel 40 siswa dan, menggunakan tugas
acak, mengajar 20 siswa pelajaran menggunakan kurikulum lama dan 20 lainnya menggunakan kurikulum
baru. Kemudian saya menguji setiap kelompok untuk melihat kelompok mana yang lebih banyak mempelajari
konsep matematika. Dengan menerapkan siswa ke dua kelompok menggunakan tugas acak, saya berharap
bahwa perbedaan penting antara kedua kelompok didistribusikan secara merata di antara kedua kelompok
dan bahwa perbedaan nilai tes antara kedua kelompok disebabkan oleh perbedaan keefektifan keduanya.
kurikulum yang digunakan untuk mengajar mereka. Tentu saja, ini mungkin tidak benar.
Desain penelitian korelasional juga merupakan metode umum dalam melakukan penelitian dalam ilmu-
ilmu sosial. Dalam jenis penelitian ini, peserta biasanya tidak secara acak ditugaskan ke dalam kelompok.
Selain itu, peneliti biasanya tidak benar-benar memanipulasi apa pun. Sebaliknya, peneliti hanya
mengumpulkan data pada beberapa variabel dan kemudian melakukan beberapa analisis statistik untuk
menentukan seberapa kuat variabel yang berbeda terkait satu sama lain. Misalnya, saya mungkin tertarik
pada apakah produktivitas karyawan terkait dengan berapa banyak karyawan tidur (di rumah, bukan di
tempat kerja). Jadi saya memilih sampel 100 pekerja dewasa, mengukur produktivitas mereka di tempat
kerja, dan mengukur berapa lama setiap karyawan tidur rata-rata malam dalam minggu tertentu. Saya
mungkin menemukan bahwa ada hubungan yang kuat antara tidur dan produktivitas. Sekarang secara logis,
saya mungkin ingin berargumen bahwa ini masuk akal, karena karyawan yang lebih banyak beristirahat akan
dapat bekerja lebih keras dan lebih efisien. Meskipun kesimpulan ini masuk akal, kesimpulan ini terlalu kuat
untuk dicapai berdasarkan data korelasional saya saja. Studi korelasional hanya dapat memberi tahu kita
apakah variabel terkait satu sama lain—mereka tidak dapat mengarah pada kesimpulan tentang kausalitas.
Lagi pula, mungkin saja menjadi lebih produktif di tempat kerja menyebabkan tidur lebih lama di rumah.
Menyelesaikan pekerjaan dapat menghilangkan stres dan bahkan memungkinkan pekerja untuk tidur lebih
lama di pagi hari, yang keduanya membuat tidur lebih lama.
Desain penelitian eksperimental baik karena memungkinkan peneliti untuk mengisolasi variabel
independen tertentu yang dapat menyebabkan variasi, atau perubahan, pada variabel dependen. Dalam
contoh di atas, saya memanipulasi variabel bebas dari kurikulum matematika dan dapat menyimpulkan
bahwa jenis kurikulum matematika yang digunakan mempengaruhi nilai siswa pada variabel terikat, nilai
ujian. Kelemahan utama dari desain eksperimental adalah bahwa mereka seringkali sulit untuk dicapai
dengan cara yang bersih dan mereka sering tidak menggeneralisasi ke situasi dunia nyata. Sebagai contoh,
dalam penelitian saya di atas, saya tidak dapat memastikan apakah kurikulum matematika yang mempengaruhi
nilai ujian atau faktor lain, seperti perbedaan kemampuan matematika kedua kelompok siswa saya yang
sudah ada sebelumnya atau perbedaan gaya guru yang telah tidak ada
Machine Translated by Google

6 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

lakukan dengan kurikulum, tetapi dapat mempengaruhi nilai ujian (misalnya, kejelasan atau antusiasme guru).
Kekuatan desain penelitian korelasional adalah bahwa mereka sering lebih mudah dilakukan daripada penelitian
eksperimental, mereka memungkinkan penyertaan banyak variabel yang relatif mudah, dan mereka
memungkinkan peneliti untuk memeriksa banyak variabel secara bersamaan. Kelemahan prinsip penelitian
korelasional adalah bahwa penelitian tersebut tidak memungkinkan untuk kontrol hati-hati yang diperlukan untuk
menarik kesimpulan tentang hubungan kausal antara variabel.

Memahami Distribusi dan Grafik


Ahli statistik menghabiskan banyak waktu berbicara tentang distribusi. Distribusi hanyalah kumpulan data,
atau skor, pada suatu variabel. Biasanya skor-skor ini diurutkan dari yang terkecil sampai yang terbesar dan
kemudian dapat disajikan secara grafis. Karena distribusi sangat penting dalam statistik, saya ingin memberi
mereka perhatian di awal buku dan menunjukkan kepada Anda beberapa contoh berbagai jenis distribusi dan
bagaimana mereka digambarkan dalam grafik. Perhatikan bahwa nanti dalam buku ini ada seluruh bab yang
dikhususkan untuk beberapa distribusi yang paling umum digunakan dalam statistik, termasuk distribusi normal
(Bab 4 dan 5), distribusi t (Bab 9 dan bagian dari Bab 7), distribusi F (Bab 10 , 11, dan 12), dan distribusi chi-
kuadrat (Bab 14).

Mari kita mulai dengan contoh sederhana. Misalkan saya sedang melakukan studi tentang sikap pemilih dan
saya memilih sampel acak dari 500 pemilih untuk penelitian saya. Salah satu informasi yang mungkin ingin saya
ketahui adalah afiliasi politik anggota sampel saya. Jadi saya bertanya kepada mereka apakah mereka
Republikan, Demokrat, atau Independen. Saya menemukan bahwa 45% dari sampel saya mengidentifikasi diri
mereka sebagai Demokrat, 40% melaporkan menjadi Republik, dan 15% mengidentifikasi diri mereka sebagai Independen.
Perhatikan bahwa afiliasi politik adalah variabel nominal, atau kategoris. Karena variabel nominal adalah variabel
dengan kategori yang tidak memiliki bobot numerik, saya tidak dapat mengatur skor saya dalam distribusi ini dari
tertinggi ke terendah. Nilai menjadi seorang Republikan tidak lebih atau kurang dari nilai menjadi seorang
Demokrat atau Independen—mereka hanyalah kategori yang berbeda. Jadi daripada mencoba mengatur data
saya dari nilai terendah ke nilai tertinggi, saya hanya membiarkannya sebagai kategori tarif terpisah dan
melaporkan persentase sampel yang masuk ke dalam setiap kategori.
Ada banyak cara berbeda untuk membuat grafik distribusi ini, termasuk diagram lingkaran, grafik batang,
grafik kolom, gelembung dengan ukuran berbeda, dan sebagainya. Kunci untuk memilih grafik yang sesuai
adalah mengingat bahwa tujuan grafik adalah untuk membuat data mudah dipahami.
Untuk distribusi afiliasi politik saya, saya telah membuat dua grafik yang berbeda. Keduanya adalah pilihan yang
bagus karena keduanya menawarkan ringkasan yang sangat jelas dan ringkas dari distribusi ini dan mudah
dimengerti. Gambar 1.3 menggambarkan distribusi ini sebagai grafik kolom, dan Gambar 1.4 menyajikan data
dalam diagram lingkaran. Grafik mana yang terbaik untuk data ini adalah masalah preferensi pribadi. Saat Anda
melihat Gambar 1.3, perhatikan bahwa sumbu x (yang horizontal) menunjukkan pesta

50
45
40
35
30
25
20
15
10
5
0
Republik Demo krat Independen
Afiliasi politik

Gambar 1.3 Grafik kolom menunjukkan sebaran Partai Republik, Demokrat, dan Independen.
Machine Translated by Google

Pengantar Prinsip dan Terminologi Penelitian Ilmu Sosial 7

15%

Republik
40%
Demokrat

45% Independen

Gambar 1.4 Diagram lingkaran menunjukkan distribusi Partai Republik, Demokrat, dan Independen.

afiliasi: Demokrat, Republik, dan Independen. Sumbu y (yang vertikal) menunjukkan persentase sampel. Anda dapat melihat
persentase di setiap grup dan, hanya dengan melihat sekilas ke kolom, Anda dapat melihat afiliasi politik mana yang memiliki
persentase tertinggi dari sampel ini dan dengan cepat mengetahui perbedaan antara afiliasi partai dalam hal persentase dari
sampel. Diagram lingkaran pada Gambar 1.4 menunjukkan informasi yang sama, tetapi dengan cara yang sedikit lebih
mencolok dan sederhana, menurut saya.

Terkadang, peneliti tertarik untuk meneliti distribusi lebih dari satu variabel sekaligus. Misalnya, saya ingin tahu tentang
hubungan antara jam yang dihabiskan untuk menonton televisi dan jam yang dihabiskan untuk mengerjakan pekerjaan
rumah. Saya sangat tertarik dengan bagaimana asosiasi ini terlihat di berbagai negara. Jadi saya mengumpulkan data dari
sampel siswa sekolah menengah di beberapa negara berbeda. Sekarang saya memiliki distribusi pada dua variabel berbeda
di 5 negara berbeda (Amerika Serikat, Meksiko, Cina, Norwegia, dan Jepang). Untuk membandingkan negara-negara yang

berbeda ini, saya memutuskan untuk menghitung rata-rata, atau rata- rata (lihat Bab 2) untuk setiap negara pada setiap
variabel. Kemudian saya membuat grafik cara-cara ini menggunakan grafik kolom, seperti yang ditunjukkan pada Gambar
1.5 (perhatikan bahwa data ini fiktif—saya mengarangnya). Seperti yang ditunjukkan grafik ini dengan jelas, perbedaan
antara jumlah rata-rata menonton televisi dan rata-rata jam pekerjaan rumah yang diselesaikan per hari paling lebar di
Amerika Serikat dan Meksiko dan tidak ada di Cina. Di Norwegia dan Jepang, siswa sekolah menengah benar-benar
menghabiskan lebih banyak waktu untuk pekerjaan rumah daripada menonton TV menurut data palsu saya. Perhatikan
betapa mudahnya kumpulan data yang kompleks ini diringkas dalam satu grafik.

Metode umum lain untuk membuat grafik distribusi skor adalah grafik garis, seperti yang ditunjukkan pada Gambar 1.6.
Misalkan saya memilih sampel acak dari 100 mahasiswa baru perguruan tinggi yang baru saja menyelesaikan semester
pertama mereka. Saya meminta mereka masing-masing untuk memberi tahu saya nilai akhir yang mereka terima di masing-masing

Jam TV
3
Pekerjaan rumah berjam-jam
2

0
KITA Meksiko Cina Norwegia Jepang

Negara

Gambar 1.5 Rata-rata jam menonton televisi dan waktu yang dihabiskan untuk pekerjaan rumah di lima negara.
Machine Translated by Google

8 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

35

30

25

20

Frekuensi 15

10

0
1.0–1.4 1.5–1.9 2.0–2.4 2.5–2.9 3.0–3.4 3.5–4.0
IPK

Gambar 1.6 Grafik garis menunjukkan frekuensi siswa dalam kelompok IPK yang berbeda.

kelas mereka dan kemudian saya menghitung nilai rata-rata (IPK) untuk masing-masing. Akhirnya, saya
membagi IPK menjadi 6 kelompok: 1 hingga 1,4, 1,5 hingga 1,9, 2,0 hingga 2,4, 2,5 hingga 2,9, 3,0 hingga 3,4,
dan 3,5 hingga 4,0. Ketika saya menghitung jumlah siswa di masing-masing kelompok IPK ini dan membuat
grafik data ini menggunakan grafik garis, saya mendapatkan hasil yang disajikan pada Gambar 1.6. Perhatikan
bahwa di sepanjang sumbu x saya telah menampilkan 6 grup IPK yang berbeda. Pada sumbu y saya memiliki
frekuensi, biasanya dilambangkan dengan simbol f. Jadi pada grafik ini, sumbu y menunjukkan berapa banyak
siswa dalam setiap kelompok IPK. Sekilas Gambar 1.6 mengungkapkan bahwa ada beberapa siswa (13) yang
benar-benar berjuang di semester pertama mereka di perguruan tinggi, mengumpulkan IPK antara 1.0 dan 1.4.
Hanya 1 siswa yang berada di kelompok berikutnya dari 1,5 hingga 1,9. Dari sana, jumlah siswa di setiap
kelompok IPK secara umum naik dengan sekitar 30 siswa dalam kategori IPK 2.0–2.9 dan sekitar 55 siswa
dalam kategori IPK 3.0–4.0. Grafik garis seperti ini menawarkan cara cepat untuk melihat tren data, baik dari
waktu ke waktu atau lintas kategori. Dalam contoh dengan IPK ini, kita dapat melihat bahwa kecenderungan
umum adalah menemukan lebih banyak siswa dalam kategori IPK yang lebih tinggi, ditambah kelompok yang
cukup besar yang benar-benar berjuang.
Grafik kolom adalah cara lain yang jelas untuk menunjukkan tren dalam data. Pada Gambar 1.7, saya
menyajikan grafik kolom bertumpuk. Grafik ini memungkinkan saya untuk menampilkan beberapa informasi
dalam satu grafik. Sebagai contoh, dalam grafik ini saya menggambarkan terjadinya dua jenis kejahatan yang
berbeda, properti dan kekerasan, selama periode 1990 hingga 2007. Pada sumbu x saya telah menempatkan
tahun, bergerak dari sebelumnya (1990) ke kemudian ( 2007) saat kita melihat dari kiri ke kanan.
Pada sumbu y saya menyajikan jumlah kejahatan yang dilakukan per 100.000 orang di Amerika Serikat. Ketika
disajikan seperti ini, beberapa fakta menarik muncul. Pertama, tren keseluruhan dari

7000
Brutal
6000
Properti

5000

4000
Kejahatan

3000

2000

1000

0
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007

Tahun

Gambar 1.7 Grafik kolom bertumpuk yang menunjukkan tingkat kejahatan dari tahun 1990 hingga 2007.
Machine Translated by Google

Pengantar Prinsip dan Terminologi Penelitian Ilmu Sosial 9

6000

5000 Properti
Brutal
4000

3000

2000

1000

0
1990 199119921993199419951996
1997 1998 1999
20002001200220032004200520062007

Tahun

Gambar 1.8 Grafik garis menunjukkan tingkat kejahatan dari tahun 1990 sampai 2007.

1990 hingga 2007 adalah penurunan kejahatan yang cukup dramatis. Dari hampir 6.000 kejahatan per 100.000 orang pada tahun
1991, tingkat kejahatan turun menjadi jauh di bawah 4.000 per 100.000 orang pada tahun 2007. Itu adalah penurunan hampir
40%. Informasi penting kedua yang terlihat jelas dari grafik adalah bahwa kejahatan kekerasan (misalnya, pembunuhan,
pemerkosaan, penyerangan) terjadi jauh lebih jarang daripada kejahatan terhadap properti (misalnya, perampokan, vandalisme,
pembakaran) di setiap tahun penelitian.
Perhatikan bahwa grafik yang disajikan pada Gambar 1.7 memudahkan untuk melihat bahwa telah terjadi penurunan kejahatan
secara keseluruhan dari tahun 1990 hingga 2007, tetapi tidak mudah untuk mengatakan apakah telah terjadi banyak penurunan
dalam tingkat kejahatan dengan kekerasan. Itu karena kejahatan kekerasan membuat persentase usia yang jauh lebih kecil dari
keseluruhan tingkat kejahatan daripada kejahatan properti, sehingga skala yang digunakan dalam sumbu y cukup besar. Hal ini
membuat bagian atas kolom, bagian yang mewakili kejahatan kekerasan, terlihat sangat kecil.
Untuk mendapatkan gambaran yang lebih baik tentang tren kejahatan kekerasan dari waktu ke waktu, saya membuat grafik baru,
yang disajikan pada Gambar 1.8.
Dalam gambar baru ini, saya telah menyajikan data yang sama persis yang disajikan pada Gambar 1.7 sebagai grafik kolom
bertumpuk. Grafik garis memisahkan kejahatan kekerasan dari kejahatan properti sepenuhnya, sehingga lebih mudah untuk
melihat perbedaan frekuensi kedua jenis kejahatan. Sekali lagi, grafik ini dengan jelas menunjukkan penurunan kejahatan properti
selama bertahun-tahun. Tetapi perhatikan bahwa masih sulit untuk mengatakan apakah ada banyak penurunan dalam kejahatan
kekerasan dari waktu ke waktu. Jika Anda melihat sangat dekat, Anda

800

700

600

500

400

300

200

100

0
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007

Tahun

Gambar 1.9 Grafik kolom yang menunjukkan angka kriminalitas dengan kekerasan dari tahun 1990 hingga 2007.
Machine Translated by Google

10 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

dapat melihat bahwa tingkat kejahatan dengan kekerasan turun dari sekitar 800 per 100.000 pada tahun 1990 menjadi
sekitar 500 per 100.000 pada tahun 2007. Ini adalah penurunan yang mengesankan dalam tingkat kejahatan, tetapi kami
harus bekerja terlalu keras untuk melihatnya. Ingat: Tujuan grafik adalah untuk membuat fakta menarik dalam data
mudah dilihat. Jika Anda harus bekerja keras untuk melihatnya, grafiknya tidak terlalu bagus.
Masalah dengan Gambar 1.8, seperti halnya dengan Gambar 1.7, adalah bahwa skala pada sumbu y terlalu besar
untuk secara jelas menunjukkan tren tingkat kejahatan kekerasan dari waktu ke waktu. Untuk memperbaiki masalah ini
kita membutuhkan skala yang lebih sesuai untuk data tingkat kejahatan kekerasan. Jadi saya membuat satu grafik lagi
(Gambar 9.1) yang menyertakan data kejahatan kekerasan saja, tanpa data kejahatan properti.
Alih-alih menggunakan skala dari 0 hingga 6000 atau 7000 pada sumbu y, grafik baru saya memiliki skala dari 0 hingga
800 pada sumbu y. Dalam grafik baru ini, grafik kolom, terlihat jelas bahwa penurunan kejahatan kekerasan dari tahun
1990 hingga 2007 juga cukup dramatis.
Setiap kumpulan skor pada variabel, terlepas dari jenis variabel, membentuk distribusi, dan distribusi ini dapat dibuat
grafik. Pada bagian bab ini, beberapa jenis grafik yang berbeda telah disajikan, dan semuanya memiliki kekuatannya
masing-masing. Kuncinya, saat membuat grafik, adalah memilih grafik yang paling jelas menggambarkan data. Saat
membaca grafik, penting untuk memperhatikan detailnya. Cobalah untuk melihat di luar fitur grafik yang paling mencolok
ke fitur yang kurang jelas, seperti skala yang digunakan pada sumbu x dan y. Seperti yang akan saya bahas nanti (Bab
12), grafik bisa sangat menyesatkan jika detailnya diabaikan.

Mengakhiri dan Menantikan


Tujuan bab ini adalah untuk memberikan gambaran singkat tentang banyak prinsip dan terminologi dasar yang digunakan
dalam penelitian ilmu sosial. Dengan dasar pada jenis variabel, desain eksperimen, dan metode pengambilan sampel
yang digunakan dalam penelitian ilmu sosial, akan lebih mudah untuk memahami penggunaan statistik yang dijelaskan
dalam bab-bab selanjutnya dari buku ini. Sekarang kita siap berbicara statistik. Mungkin masih Yunani untuk Anda, tapi
itu tidak selalu merupakan hal yang buruk.

Daftar Istilah untuk Bab 1


Distribusi chi-kuadrat: Keluarga distribusi yang terkait dengan chi-kuadrat (ÿ2)
statistik.

Konstanta: Sebuah konstruksi yang hanya memiliki satu nilai (misalnya, jika setiap anggota sampel adalah 10 tahun
tua, konstruksi "usia" akan menjadi konstan).
Convenience sampling: Memilih sampel berdasarkan kemudahan akses atau ketersediaan.
Desain penelitian korelasional: Sebuah gaya penelitian yang digunakan untuk menguji hubungan antar variabel.
Variabel tidak dimanipulasi oleh peneliti dalam jenis desain penelitian ini.

Variabel dependen: Nilai variabel dependen dihipotesiskan bergantung pada nilai variabel independen. Misalnya, tinggi
badan sebagian bergantung pada jenis kelamin.
Statistik deskriptif: Statistik yang digunakan untuk menggambarkan karakteristik distribusi skor.
Variabel dikotomis: Variabel yang hanya memiliki dua nilai diskrit (misalnya, variabel kehamilan dapat memiliki nilai 0
untuk “tidak hamil” dan 1 untuk “hamil”).
Distribusi: Setiap kumpulan skor pada suatu variabel.
Desain penelitian eksperimental: Sebuah jenis penelitian di mana eksperimen, atau peneliti, memanipulasi aspek-
aspek tertentu dari penelitian. Ini biasanya mencakup manipulasi variabel independen dan penugasan kasus
ke grup.
Distribusi F : Sebuah keluarga distribusi yang terkait dengan statistik F , yang biasa digunakan dalam analisis varians
(ANOVA).
Frekuensi: Seberapa sering skor muncul dalam distribusi.
Machine Translated by Google

Pengantar Prinsip dan Terminologi Penelitian Ilmu Sosial 11

Generalize (atau Generalizability): Kemampuan untuk menggunakan hasil data yang dikumpulkan dari
sampel untuk mencapai kesimpulan tentang karakteristik populasi, atau kasus lain yang tidak
termasuk dalam sampel.
Variabel independen: Sebuah variabel di mana nilai-nilai variabel dependen dihipotesiskan untuk
bergantung. Variabel bebas sering, tetapi tidak selalu, dimanipulasi oleh peneliti.

Statistik inferensial: Statistik, yang diturunkan dari data sampel, yang digunakan untuk membuat
kesimpulan tentang populasi dari mana sampel itu diambil.
Variabel Interval atau Rasio: Variabel yang diukur dengan nilai numerik dengan jarak atau ruang yang
sama, antara setiap angka (misalnya, 2 adalah dua kali sebanyak 1, 4 adalah dua kali sebanyak
2, jarak antara 1 dan 2 adalah sama dengan jarak antara 2 dan 3).
Mean: Rata-rata aritmatika dari distribusi skor.
Variabel berskala nominal: Variabel di mana nilai numerik yang ditetapkan untuk setiap kategori hanyalah
label daripada angka yang bermakna.
Distribusi normal: Distribusi frekuensi berbentuk lonceng dari skor yang memiliki mean, median, dan
modus di tengah distribusi dan simetris dan asimtotik.
Variabel ordinal: Variabel yang diukur dengan nilai numerik di mana angka-angkanya bermakna penuh
(misalnya, 2 lebih besar dari 1) tetapi jarak antar angka tidak konstan.
Parameter: Nilai, atau nilai, yang diturunkan dari data populasi.
Populasi: Kumpulan kasus yang terdiri dari seluruh rangkaian kasus dengan karakteristik tertentu
(misalnya, semua pria dewasa yang hidup di Amerika Serikat).
Variabel kualitatif (atau kategoris): Variabel yang memiliki kategori diskrit. Jika kategori diberi nilai
numerik, nilai memiliki arti sebagai referensi nominal tetapi tidak sebagai nilai numerik (misalnya,
dalam 1 = “laki-laki” dan 2 = “perempuan”, 1 tidak lebih atau kurang dari 2).
Variabel kuantitatif (atau kontinu): Sebuah variabel yang memiliki nilai-nilai yang ditetapkan dan nilai-
nilai yang dipesan dan bermakna, sehingga 1 kurang dari 2, 2 kurang dari 3, dan seterusnya.
Penugasan acak: Penugasan anggota sampel ke kelompok yang berbeda (misalnya, eksperimental dan
kontrol) secara acak, atau tanpa mempertimbangkan salah satu karakteristik anggota sampel.

Sampel acak (atau pengambilan sampel acak): Memilih kasus dari suatu populasi dengan cara yang
memastikan setiap anggota populasi memiliki kesempatan yang sama untuk dipilih menjadi
sampel.
Sampling representatif: Sebuah metode pemilihan sampel di mana anggotanya sengaja dipilih untuk
membuat sampel yang mewakili populasi pada beberapa karakteristik yang diminati (misalnya,
ketika sampel dipilih untuk memiliki persentase yang sama dari berbagai kelompok etnis sebagai
populasi yang lebih besar).
Sample : Kumpulan kasus yang dipilih dari populasi yang lebih besar.
Statistik: Karakteristik, atau nilai, yang diturunkan dari data sampel.
distribusi t : Sebuah keluarga distribusi yang terkait dengan statistik t , biasanya digunakan dalam
perbandingan rata-rata sampel dan uji signifikansi statistik untuk koefisien korelasi dan kemiringan
regresi.
Variabel: Setiap konstruk dengan lebih dari satu nilai yang diperiksa dalam penelitian.
Machine Translated by Google
Machine Translated by Google

Bab 2
Ukuran Tendensi Sentral
Setiap kali Anda mengumpulkan data, Anda berakhir dengan sekelompok skor pada satu atau
lebih variabel. Jika Anda mengambil skor pada satu variabel dan mengurutkannya dari terendah
ke tertinggi, yang Anda dapatkan adalah distribusi skor. Peneliti sering kali ingin mengetahui
tentang ciri-ciri distribusi skor tersebut, seperti bentuk distribusinya, seberapa menyebar skornya,
berapa skor yang paling umum, dan sebagainya. Satu set karakteristik distribusi yang biasanya
diminati peneliti adalah tendensi sentral. Himpunan ini terdiri dari mean, median, dan modus.
Mean mungkin merupakan statistik yang paling umum digunakan dalam semua penelitian ilmu sosial .
Rata-rata hanyalah rata-rata aritmatika dari distribusi skor, dan peneliti menyukainya karena
memberikan satu angka sederhana yang memberikan ringkasan kasar dari distribusi tersebut.
Penting untuk diingat bahwa meskipun mean memberikan informasi yang berguna, itu tidak
memberi tahu Anda apa pun tentang seberapa tersebar skor (yaitu, varians) atau berapa banyak
skor dalam distribusi yang dekat dengan mean. Dimungkinkan untuk distribusi memiliki skor yang
sangat sedikit pada atau di dekat rata-rata.
Median adalah skor dalam distribusi yang menandai persentil ke-50 . Artinya, 50% skor dalam
distribusi jatuh di atas median dan 50% di bawahnya. Peneliti sering menggunakan median ketika
mereka ingin membagi skor distribusi mereka menjadi dua kelompok yang sama (disebut split
median). Median juga merupakan statistik yang berguna untuk memeriksa kapan skor dalam
suatu distribusi miring atau ketika ada beberapa skor ekstrem di ujung atas atau ujung bawah
distribusi. Ini dibahas secara lebih rinci di halaman-halaman berikut.
Modus adalah ukuran tendensi sentral yang paling sedikit digunakan karena menyediakan
informasi paling sedikit . Modus hanya menunjukkan skor mana dalam distribusi yang paling
sering terjadi, atau memiliki frekuensi tertinggi.

Sepatah Kata tentang P op l pada ion dan Contoh


-
Anda akan melihat pada Tabel 2.1 bahwa ada dua simbol berbeda yang digunakan X
untuk mean, dan . Diperlukan dua simbol yang berbeda karena penting untuk membedakan
antara statistik yang berlaku untuk sampel dan parameter yang berlaku untuk populasi.
Simbol yang digunakan untuk mewakili mean populasi adalah . Statistik adalah nilai yang
berasal dari data sampel, sedangkan parameter adalah nilai yang diturunkan dari atau
diterapkan pada data populasi. Penting untuk dicatat bahwa semua sampel mewakili
beberapa populasi dan bahwa semua statistik sampel dapat digunakan
- sebagai perkiraan
parameter populasi. Dalam kasus mean, statistik sampel diwakili
Perbedaan
dengan simbol
antara X.
statistik
sampel dan parameter populasi muncul dalam beberapa bab (misalnya, Bab 1, 3, 5, dan
7).

13
Machine Translated by Google

14 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 2.1 Rumus Menghitung


Mean Distribusi
X
=
N
atau

- X
X=
n
-
di mana X adalah mean sampel

adalah rata-rata populasi


berarti “jumlah dari”
X adalah skor individu dalam distribusi
n adalah jumlah skor dalam sampel
N adalah jumlah skor dalam populasi

Ukuran Tendensi Sentral dalam Kedalaman


Perhitungan untuk setiap ukuran tendensi sentral untungnya sangat mudah. Dengan bantuan kalkulator
atau program perangkat lunak statistik, Anda mungkin tidak perlu menghitung statistik ini secara manual.
Tetapi demi pengetahuan dan jika Anda menemukan diri Anda tanpa kalkulator dan membutuhkan
statistik ini, inilah informasi yang Anda perlukan.
Karena mean adalah rata-rata, menghitung mean melibatkan penambahan, atau penjumlahan, semua
skor dalam distribusi dan membaginya dengan jumlah skor. Jadi, jika Anda memiliki 10 skor dalam suatu
distribusi, Anda akan menjumlahkan semua skor untuk menemukan jumlah dan kemudian membagi
jumlah tersebut dengan 10, yang merupakan jumlah skor dalam distribusi. Rumus untuk menghitung
mean disajikan pada Tabel 2.1.
Perhitungan median (P50) untuk distribusi skor1 sederhana bahkan lebih sederhana daripada
perhitungan mean. Untuk mencari median suatu distribusi, Anda harus terlebih dahulu mengurutkan
semua skor dalam distribusi tersebut, dari yang terkecil hingga terbesar. Setelah ini selesai, Anda hanya
perlu menemukan skor tengah dalam distribusi. Jika ada jumlah skor ganjil dalam distribusi, akan ada
skor tunggal yang menandai tengah distribusi. Misalnya, jika ada 11 skor dalam distribusi yang disusun
dalam urutan dari terkecil ke terbesar, skor ke-6 akan menjadi median karena akan ada 5 skor di
bawahnya dan 5 skor di atasnya.
Namun, jika ada jumlah skor yang genap dalam distribusi, tidak ada skor tengah tunggal. Dalam hal ini,
median adalah rata-rata dari dua skor di tengah distribusi (asalkan skor disusun secara berurutan, dari
terbesar ke terkecil). Misalnya, jika ada 10 skor dalam suatu distribusi, untuk menemukan median Anda
perlu mencari rata-rata skor ke-5 dan ke-6. Untuk menemukan rata-rata ini, jumlahkan kedua skor dan
bagi dua.
Untuk menemukan modus, tidak perlu menghitung apa pun. Modus hanyalah kategori dalam distribusi
yang memiliki jumlah skor tertinggi, atau frekuensi tertinggi. Misalnya, Anda memiliki distribusi nilai tes
IQ berikut dari 10 siswa:

86 90 95 100 100 100 110 110 115 120

Dalam distribusi ini, skor yang paling sering muncul adalah 100, menjadikannya sebagai mode distribusi.
Jika suatu distribusi memiliki lebih dari satu kategori dengan skor yang paling umum, distribusi tersebut
memiliki beberapa mode dan disebut multimodal. Salah satu contoh umum dari multimodal

1 Dimungkinkan juga untuk menghitung median dari distribusi frekuensi yang dikelompokkan. Untuk penjelasan yang sangat baik tentang teknik untuk
menghitung median dari distribusi frekuensi yang dikelompokkan, lihat Spatz (2007), Statistik Dasar: Tales of Distributions (edisi ke-9).
Machine Translated by Google

Ukuran Tendensi Sentral 15

Tabel 2.2 Frekuensi Tanggapan

Kategori Tanggapan pada Skala


1 234 5
Frekuensi Tanggapan 45 3 4 3 45
di Setiap Kategori

distribusi adalah distribusi bimodal . Peneliti sering mendapatkan distribusi bimodal ketika mereka meminta
orang untuk menanggapi pertanyaan kontroversial yang cenderung mempolarisasi publik. Misalnya, jika
saya menanyakan sampel 100 orang bagaimana perasaan mereka tentang hukuman mati, saya mungkin
mendapatkan hasil yang disajikan pada Tabel 2.2. Dalam contoh ini, karena kebanyakan orang sangat
menentang atau sangat mendukung hukuman mati, saya berakhir dengan distribusi skor bimodal.
Pada skala berikut, tolong tunjukkan bagaimana perasaan Anda tentang hukuman mati.

1----------2----------3----------4----------5

Dengan kuat Dengan kuat


Menolak Mendukung

Contoh: Rata-rata, Median, dan Modus dari Distribusi Miring


Seperti yang akan Anda lihat di Bab 4, ketika skor dalam distribusi terdistribusi normal, mean,
median, dan modus semuanya berada pada titik yang sama: pusat distribusi. Namun, dalam dunia
ilmu sosial yang berantakan, skor dari sampel pada variabel tertentu sering kali tidak terdistribusi
secara normal. Ketika skor dalam suatu distribusi cenderung mengelompok di salah satu ujung
distribusi dan ada beberapa skor di ujung yang lain, distribusi tersebut dikatakan miring. Ketika
bekerja dengan distribusi miring, rata-rata, median, dan modus biasanya semua pada titik yang berbeda.
Penting untuk dicatat bahwa prosedur yang digunakan untuk menghitung rata-rata, median, dan modus
adalah sama apakah Anda berurusan dengan distribusi miring atau distribusi normal. Semua perubahan itu
adalah di mana ketiga ukuran tendensi sentral ini berhubungan satu sama lain. Sebagai ilustrasi, saya
membuat distribusi skor fiktif berdasarkan ukuran sampel 30. Misalkan saya meminta sampel dari 30 siswa
kelas lima yang dipilih secara acak apakah menurut mereka penting untuk berprestasi baik di sekolah.
Misalkan saya meminta mereka untuk menilai seberapa penting menurut mereka untuk berhasil di sekolah
dengan menggunakan skala 5 poin, dengan 1 = “tidak penting sama sekali” dan 5 = “sangat penting.”
Karena sebagian besar siswa kelas lima cenderung percaya bahwa sangat penting untuk berprestasi di
sekolah, sebagian besar skor dalam distribusi ini berada pada skala yang paling tinggi, dengan beberapa
skor di bagian bawah. Saya telah mengurutkan skor fiktif saya dari terkecil ke terbesar dan dapatkan distribusi berikut:

1112223333
4444444455
5555555555

Seperti yang Anda lihat, hanya ada beberapa skor di dekat ujung bawah distribusi (1 dan 2) dan
lebih banyak lagi di ujung atas distribusi (4 dan 5). Untuk mendapatkan gambaran yang jelas seperti
apa distribusi miring ini, saya telah membuat grafik pada Gambar 2.1.
Grafik ini memberikan gambaran seperti apa beberapa distribusi miring. Perhatikan
bagaimana sebagian besar skor dikelompokkan di ujung distribusi yang lebih tinggi dan ada
beberapa skor yang membuat ekor ke arah ujung bawah. Ini dikenal sebagai distribusi
miring negatif , karena ekor mengarah ke ujung bawah. Jika ekor distribusi ditarik ke arah
ujung yang lebih tinggi, ini akan menjadi distribusi miring positif .
Machine Translated by Google

16 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

14

12

10

0
12345

Pentingnya Sekolah

Gambar 2.1 Distribusi miring.

Pandangan sekilas pada skor dalam distribusi, atau pada grafik, mengungkapkan bahwa modusnya
adalah 5 karena ada lebih banyak skor 5 daripada angka lain dalam distribusi.
Untuk menghitung mean, kita cukup menerapkan rumus yang disebutkan sebelumnya. Artinya, kita
menjumlahkan semua skor (ÿX) dan kemudian membagi jumlah ini dengan jumlah skor dalam distribusi (n).
Ini memberi kita sebagian kecil dari 113/30, yang berkurang menjadi 3,7666. Saat kita membulatkan ke
tempat kedua setelah desimal, kita mendapatkan rata-rata 3,77.
Untuk mencari median dari distribusi ini, kita mengurutkan skor dari terkecil ke terbesar dan mencari skor
tengah. Dalam distribusi ini, ada 30 skor, jadi akan ada 2 di tengah.
Jika disusun secara berurutan, 2 skor di tengah (skor ke-15 dan ke-16) adalah 4. Jika kedua skor ini
dijumlahkan dan dibagi 2, hasilnya adalah 4, sehingga median kita menjadi 4.
Seperti yang saya sebutkan sebelumnya, rata-rata distribusi dapat dipengaruhi oleh skor yang luar biasa
besar atau kecil untuk distribusi, kadang-kadang disebut outlier, sedangkan median tidak terpengaruh oleh
skor tersebut. Dalam kasus distribusi miring, rata-rata biasanya ditarik ke arah ekor, karena ekor adalah
tempat outlier berada. Dalam distribusi condong negatif, seperti yang disajikan sebelumnya, kita akan
mengharapkan mean lebih kecil dari median, karena mean ditarik ke arah ekor sedangkan median tidak.
Dalam contoh kita, mean (3,77) agak lebih rendah dari median (4). Dalam distribusi condong positif, rata-rata
agak lebih tinggi dari median.

Untuk memberikan pengertian yang lebih baik tentang efek outlier pada rata-rata distribusi, saya
menyajikan dua grafik yang menunjukkan harapan hidup rata-rata, saat lahir, orang-orang di beberapa negara
berbeda. Pada Gambar 2.2, harapan hidup untuk 13 negara disajikan dalam grafik garis dan

85

80

75

70

65

60

55

50
Serbia
Meksiko Turki Uganda
Kuba Arab Saudi

Jepang Australia Kanada Prancis Jerman Inggris Raya Amerika Serikat

Negara

Gambar 2.2 Harapan hidup saat lahir di beberapa negara.


Machine Translated by Google

Ukuran Tendensi Sentral 17

85

80

75

70

65

60

55

50
Jepang Britania Raya Amerika Serikat Uganda
Negara

Gambar 2.3 Harapan hidup saat lahir di empat negara.

negara disusun dari harapan hidup terpanjang (Jepang) ke terpendek (Uganda). Seperti yang Anda
lihat, ada penurunan bertahap dalam harapan hidup dari Jepang melalui Turki, tetapi kemudian ada
penurunan dramatis dalam harapan hidup di Uganda. Dalam distribusi negara ini, Uganda adalah outlier.
Harapan hidup rata-rata untuk semua negara kecuali Uganda adalah 78,17 tahun, sedangkan harapan
hidup rata-rata untuk 13 negara pada Gambar 2.2, termasuk Uganda, turun menjadi 76,21 tahun.
Penambahan satu negara, Uganda, menurunkan harapan hidup rata-rata untuk semua 13 negara
digabungkan dengan hampir 2 tahun penuh. Dua tahun mungkin kedengarannya tidak banyak, tetapi
ketika Anda mempertimbangkan bahwa ini adalah jumlah yang sama yang memisahkan 5 negara teratas
pada Gambar 2.2 satu sama lain, Anda dapat melihat bahwa 2 tahun dapat membuat banyak perbedaan
dalam peringkat negara. oleh harapan hidup populasi mereka.
Efek outlier pada mean lebih dramatis dengan sampel yang lebih kecil karena mean adalah statistik
yang dihasilkan dengan menggabungkan semua anggota distribusi bersama-sama. Dengan sampel
yang lebih besar, satu outlier tidak menghasilkan efek yang sangat dramatis. Tetapi dengan sampel
yang kecil, satu outlier dapat menghasilkan perubahan mean yang besar. Untuk mengilustrasikan efek
seperti itu, saya memeriksa efek harapan hidup Uganda pada rata-rata untuk subset negara yang lebih
kecil daripada yang muncul pada Gambar 2.2. Analisis baru ini disajikan pada Gambar 2.3. Sekali lagi,
kita melihat bahwa harapan hidup di Uganda (sekitar 52 tahun) jauh lebih rendah daripada harapan
hidup di Jepang, Amerika Serikat, dan Inggris (semuanya mendekati 80 tahun). Harapan hidup rata-rata
di tiga negara selain Uganda adalah 79,75 tahun, tetapi rata-rata ini turun menjadi 72,99 tahun ketika
Uganda dimasukkan. Penambahan satu outlier menarik rata-rata turun hampir 7 tahun. Dalam kumpulan
data kecil ini, median adalah antara Inggris dan Amerika Serikat, sekitar 78,5 tahun. Contoh ini
mengilustrasikan bagaimana outlier menarik mean ke arahnya. Dalam hal ini, rata-rata berada jauh di
bawah median.

Menulis itu
Ketika Anda menemukan deskripsi tendensi sentral dalam artikel yang diterbitkan, atau ketika Anda
menulis deskripsi tersebut sendiri, Anda akan menemukan deskripsi tersebut singkat dan sederhana.
x = 3,77)
Untuk contoh di atas, penulisan yang tepat adalah sebagai berikut: “Dalam distribusi ini, mean (–
sedikit lebih rendah dari median (P50 = 4,00), menunjukkan sedikit kemiringan negatif.”

Mengakhiri dan Menantikan


Ukuran tendensi sentral, khususnya mean dan median, adalah beberapa statistik yang paling banyak
digunakan dan berguna bagi para peneliti. Mereka masing-masing memberikan informasi penting
tentang seluruh distribusi skor dalam satu nomor. Misalnya, kita tahu bahwa tinggi rata-rata seorang pria
di Amerika Serikat adalah lima kaki sembilan inci. Nomor tunggal ini digunakan untuk meringkas
Machine Translated by Google

18 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Daftar Istilah dan Simbol untuk Bab 2


Machine Translated by Google

Bab 3
Ukuran Variabilitas
Ukuran tendensi sentral, seperti mean dan median yang dijelaskan dalam Bab 2, memberikan informasi yang
berguna. Tetapi penting untuk menyadari bahwa langkah-langkah ini terbatas dan, dengan sendirinya, tidak
memberikan banyak informasi. Ada pepatah lama yang memberikan peringatan tentang artinya: "Jika kepala
Anda ada di dalam freezer dan kaki Anda di dalam oven, rata-rata Anda merasa nyaman." Sebagai ilustrasi,
perhatikan contoh ini: Misalkan saya memberikan sampel dari 100 anak kelas lima sebuah survei untuk
menilai tingkat depresi mereka. Misalkan lebih lanjut bahwa sampel ini memiliki rata-rata 10,0 pada survei
depresi saya dan median 10,0 juga. Yang kita ketahui dari informasi ini adalah bahwa mean dan median
berada di tempat yang sama dalam distribusi saya, dan tempat ini adalah 10.0. Sekarang pertimbangkan apa
yang tidak kita ketahui. Kami tidak tahu apakah ini skor tinggi atau skor rendah. Kami tidak tahu apakah
semua siswa dalam sampel saya memiliki tingkat depresi yang hampir sama atau apakah mereka berbeda
satu sama lain. Kami tidak tahu skor depresi tertinggi dalam distribusi kami atau skor terendah. Sederhananya,
kita belum tahu apa-apa tentang dispersi skor dalam distribusi. Dengan kata lain, kita belum mengetahui apa-
apa tentang keragaman skor dalam distribusi.

Ada tiga ukuran dispersi yang biasanya diperiksa oleh peneliti: kisaran, varians , dan standar deviasi.
Dari jumlah tersebut, standar deviasi mungkin yang paling informatif dan tentu saja yang paling banyak
digunakan.

Jangkauan

Rentang hanyalah perbedaan antara skor terbesar (nilai maksimum) dan skor terkecil (nilai minimum) dari
suatu distribusi. Statistik ini memberi para peneliti gambaran cepat tentang seberapa menyebar skor distribusi,
tetapi ini bukan statistik yang sangat berguna karena bisa sangat menyesatkan. Misalnya, dalam survei
depresi kami yang dijelaskan sebelumnya, kami mungkin memiliki 1 siswa yang mendapat skor 1 dan yang
lainnya mendapat skor 20, tetapi 98 lainnya semuanya dapat skor 10. Dalam contoh ini, kisarannya adalah
19 (20 – 1 = 19), tetapi skornya benar-benar tidak menyebar seperti yang disarankan oleh kisaran. Para
peneliti sering melihat dengan cepat pada rentang untuk melihat apakah semua atau sebagian besar poin
dalam skala, seperti survei, tercakup dalam sampel.
Ukuran umum lain dari rentang skor dalam distribusi adalah rentang interkuartil
(IQR). Berbeda dengan range, yang merupakan selisih antara skor terbesar dan terkecil dalam distribusi,
IQR adalah selisih antara skor yang menandai persentil ke-75 (kuartil ketiga) dan skor yang menandai
persentil ke-25 (kuartil pertama). Jika skor dalam suatu distribusi diurutkan dari terbesar ke terkecil dan
kemudian dibagi menjadi kelompok-kelompok dengan ukuran yang sama, IQR akan berisi skor di dua kuartil
tengah (lihat Gambar 3.1).

Perbedaan

Varians memberikan rata-rata statistik dari jumlah dispersi dalam distribusi skor.
Karena manipulasi matematis yang diperlukan untuk menghasilkan statistik varians (lebih lanjut tentang ini di
bagian berikutnya), varians, dengan sendirinya, tidak sering digunakan oleh peneliti untuk mendapatkan rasa

19
Machine Translated by Google

20 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Jarak interkuartil

-
25% X 75%

Gambar 3.1 Rentang interkuartil.

distribusi. Secara umum, varians lebih banyak digunakan sebagai langkah dalam perhitungan statistik lain
(misalnya, analisis varians) daripada sebagai statistik yang berdiri sendiri. Tetapi dengan manipulasi sederhana,
varians dapat diubah menjadi standar deviasi, yang merupakan salah satu alat favorit ahli statistik.

Standar Deviasi

Cara terbaik untuk memahami simpangan baku adalah dengan mempertimbangkan apa arti kedua kata tersebut.
Deviasi, dalam hal ini, mengacu pada perbedaan antara skor individu dalam suatu distribusi dan skor rata-rata
untuk distribusi tersebut. Jadi, jika skor rata-rata untuk suatu distribusi adalah 10 (seperti dalam contoh kita
sebelumnya), dan seorang anak memiliki skor 12, deviasinya adalah 2. Kata lain dalam istilah standar deviasi
adalah standar. Dalam hal ini, standar berarti tipikal, atau rata-rata. Jadi deviasi standar adalah deviasi tipikal,
atau rata-rata, antara skor individu dalam suatu distribusi dan rata-rata untuk distribusi tersebut.1 Ini adalah
statistik yang sangat berguna karena memberikan ukuran praktis tentang seberapa tersebar skor dalam distribusi.
Ketika digabungkan, mean dan standar deviasi memberikan gambaran yang cukup bagus tentang seperti apa
distribusi skor.
Dalam arti tertentu, kisaran memberikan ukuran penyebaran total dalam distribusi (yaitu, dari skor terendah
ke tertinggi), sedangkan varians dan standar deviasi adalah ukuran rata-rata jumlah penyebaran dalam distribusi.
Peneliti cenderung melihat rentang ketika mereka menginginkan gambaran singkat dari suatu distribusi, seperti
ketika mereka ingin mengetahui apakah semua kategori respons pada pertanyaan survei telah digunakan (yaitu,
apakah orang menggunakan semua 5 poin pada 5 poin? titik skala Likert?) atau mereka menginginkan rasa
keseimbangan skor secara keseluruhan dalam distribusi. Peneliti jarang melihat varians saja, karena tidak
menggunakan skala yang sama dengan ukuran asli suatu variabel, meskipun statistik varians sangat berguna
untuk perhitungan statistik lainnya (seperti analisis varians; lihat Bab 10). Standar deviasi adalah statistik yang
sangat berguna yang peneliti terus-menerus memeriksa untuk memberikan ukuran yang paling mudah ditafsirkan
dan bermakna dari rata-rata dispersi skor dalam distribusi.

Ukuran Variabilitas dalam Kedalaman


Menghitung Varians dan Standar Deviasi
Ada dua isu utama yang perlu saya bahas ketika mempertimbangkan rumus untuk menghitung varians dan
standar deviasi dari distribusi: (1) apakah akan menggunakan rumus untuk sampel atau populasi, dan (2)
bagaimana memahami rumus-rumus ini.

1 Meskipun standar deviasi secara teknis bukan "deviasi rata-rata" untuk distribusi skor, dalam praktiknya ini adalah heuristik yang
berguna untuk mendapatkan pemahaman konseptual kasar tentang apa statistik ini. Rumus sebenarnya untuk simpangan rata-rata
adalah (|X – mean|)/N.
Machine Translated by Google

Ukuran Variabilitas 21

Penting untuk dicatat bahwa rumus untuk menghitung varians dan standar deviasi berbeda tergantung
pada apakah Anda bekerja dengan distribusi skor yang diambil dari sampel atau dari populasi. Alasan
kedua rumus ini berbeda cukup kompleks dan membutuhkan lebih banyak ruang daripada yang
diperbolehkan dalam buku pendek seperti ini. Saya memberikan penjelasan yang terlalu singkat di sini dan
kemudian mendorong Anda untuk menemukan penjelasan yang lebih menyeluruh dalam buku teks statistik
tradisional. Singkatnya, ketika kita tidak mengetahui rata-rata populasi, kita harus menggunakan rata-rata
sampel sebagai perkiraan. Tetapi rata-rata sampel mungkin akan berbeda dari rata-rata populasi. Setiap
kali kita menggunakan angka selain rata-rata sebenarnya untuk menghitung varians, kita akan mendapatkan yang lebih besar
varians, dan karena itu standar deviasi yang lebih besar, daripada jika kita menggunakan mean yang
sebenarnya. Ini akan benar terlepas dari apakah angka yang kita gunakan dalam rumus kita lebih kecil atau
lebih besar dari rata-rata kita yang sebenarnya. Karena rata-rata sampel biasanya berbeda dari rata-rata
populasi, varians dan standar deviasi yang kita hitung dengan menggunakan rata-rata sampel mungkin
akan lebih kecil daripada jika kita menggunakan rata-rata populasi. Oleh karena itu, ketika kita menggunakan
rata-rata sampel untuk menghasilkan perkiraan varians populasi atau standar deviasi, kita sebenarnya akan
memperkirakan ukuran varians sebenarnya dalam populasi karena jika kita menggunakan rata-rata populasi
sebagai pengganti mean sampel, kita akan menciptakan jumlah deviasi kuadrat yang lebih besar, dan
varians dan deviasi standar yang lebih besar. Untuk menyesuaikan perkiraan yang terlalu rendah ini, kami
menggunakan n – 1 dalam penyebut rumus sampel kami. Penyebut yang lebih kecil menghasilkan statistik
varian dan standar deviasi keseluruhan yang lebih besar, yang akan menjadi estimasi parameter populasi
yang lebih akurat.

Sample St at ist ics Sebagai Estimasi Popu l at ion Paramet ers

Penting untuk diingat bahwa sebagian besar statistik, meskipun dihasilkan dari data sampel,
digunakan untuk membuat estimasi tentang populasi. Seperti dibahas dalam Bab 1, peneliti biasanya
ingin menggunakan data sampel mereka untuk membuat beberapa kesimpulan tentang populasi
yang diwakili oleh sampel. Oleh karena itu, statistik sampel sering mewakili perkiraan parameter
populasi. Hal ini dibahas lebih rinci nanti dalam buku ini ketika memeriksa statistik inferensial. Tetapi
penting untuk mengingat hal ini saat Anda membaca tentang ukuran variasi ini. Rumus untuk
menghitung varians dan standar deviasi data sampel sebenarnya dirancang untuk membuat statistik
sampel ini memperkirakan parameter populasi dengan lebih baik (yaitu, varians populasi dan standar
deviasi). Dalam bab selanjutnya (misalnya, 6, 7, 8), Anda akan melihat bagaimana peneliti
menggunakan statistik seperti kesalahan standar, interval kepercayaan, dan probabilitas untuk
mengetahui seberapa baik data sampel mereka memperkirakan parameter populasi.

Rumus untuk menghitung varians dan standar deviasi suatu populasi dan estimasi varians populasi dan
standar deviasi berdasarkan sampel disajikan pada Tabel 3.1. Seperti yang Anda lihat, rumus untuk
menghitung varians dan standar deviasi hampir identik. Karena keduanya mengharuskan Anda menghitung
varians terlebih dahulu, kita mulai dengan rumus untuk menghitung varians (lihat baris atas Tabel 3.1).
Rumus ini dikenal sebagai rumus skor deviasi.
2

Saat bekerja dengan distribusi populasi, rumus untuk varians dan standar deviasi memiliki penyebut N,
yang merupakan ukuran populasi. Dalam dunia penelitian yang sebenarnya, khususnya penelitian ilmu
sosial, kita biasanya berasumsi bahwa kita bekerja dengan sampel yang mewakili populasi yang lebih
besar. Misalnya, jika saya mempelajari keefektifan program membaca baru saya dengan kelas siswa kelas
dua, sebagai peneliti saya berasumsi bahwa siswa kelas dua ini mewakili populasi siswa kelas dua yang
lebih besar, atau siswa secara umum.

2 Dimungkinkan juga untuk menghitung varians dan standar deviasi menggunakan rumus skor mentah, yang tidak mengharuskan Anda menghitung
berarti. Rumus skor mentah termasuk dalam sebagian besar buku teks statistik standar.
Machine Translated by Google

22 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 3.1 Varians dan Rumus Standar Deviasi

2 2
2

2
)2

Karena jenis inferensi ini, peneliti umumnya menganggap peserta penelitian mereka sebagai sampel
daripada populasi, dan rumus untuk menghitung varians sampel adalah rumus yang lebih sering
digunakan. Perhatikan bahwa rumus untuk menghitung varians sampel identik dengan yang digunakan
untuk populasi, kecuali penyebut untuk rumus sampel adalah n – 1.

Seberapa besar perbedaannya jika kita menggunakan N atau n – 1 dalam penyebut kita? Yah, itu
tergantung pada ukuran sampel. Jika kita memiliki sampel 500 orang, hampir tidak ada perbedaan antara
rumus varians untuk populasi dan untuk estimasi berdasarkan sampel.
Lagi pula, membagi pembilang dengan 500 hampir sama dengan membaginya dengan 499. Tetapi ketika
kita memiliki sampel kecil, seperti sampel 10, maka ada perbedaan yang relatif besar antara hasil yang
dihasilkan oleh populasi dan rumus sampel. .
Sebagai ilustrasi, misalkan saya menghitung simpangan baku. Setelah menghitung angka, saya
menemukan pembilang 100. Saya membagi pembilang ini dengan empat nilai yang berbeda tergantung
pada ukuran sampel dan apakah kita membaginya dengan N atau n – 1. Hasil perhitungan ini dijumlahkan
pada Tabel 3.2. Dengan ukuran sampel 500, mengurangkan 1 dari penyebut mengubah ukuran simpangan
baku kurang dari seperseribu. Dengan ukuran sampel 10, mengurangkan 1 dari penyebut meningkatkan
ukuran simpangan baku hampir 2 persepuluh.
Perhatikan bahwa dalam contoh populasi dan sampel, dengan nilai pembilang yang sama, sampel yang
lebih besar menghasilkan simpangan baku yang jauh lebih kecil. Ini masuk akal karena semakin besar
sampel, semakin besar kemungkinan setiap anggota sampel akan memiliki nilai yang mendekati rata-rata,
sehingga menghasilkan standar deviasi yang lebih kecil.
Isu kedua yang harus ditangani melibatkan pembuatan formula untuk menghitung varians. Sejujurnya,
akan ada sangat sedikit waktu yang Anda perlukan untuk menggunakan formula ini. Di luar tugas mengajar
saya, saya belum menghitung standar deviasi dengan tangan sejak statistik pertama saya

Tabel 3.2 Pengaruh Ukuran Sampel dan n


– 1 pada Standar Deviasi
Machine Translated by Google

Ukuran Variabilitas 23

Deviasi

-
X = 10 X = 12

Gambar 3.2 Penyimpangan.

kursus. Untungnya, semua statistik komputer dan program spreadsheet, dan banyak kalkulator, menghitung
varians dan standar deviasi untuk kami. Namun demikian, agak menarik dan cukup informatif untuk memeriksa
bagaimana formula varians ini bekerja.
Untuk memulai pemeriksaan ini, izinkan saya mengingatkan Anda bahwa varians hanyalah rata-rata
distribusi. Untuk mendapatkan rata-rata, kita perlu menjumlahkan semua skor dalam distribusi dan membagi
jumlah ini dengan jumlah skor dalam distribusi, yaitu n (ingat rumus untuk menghitung rata-rata di Bab 2?).
Namun, dengan varians, kita perlu ingat bahwa kita tidak tertarik pada skor rata-rata distribusi. Sebaliknya,
kami tertarik pada perbedaan rata-rata, atau penyimpangan, antara setiap skor dalam distribusi dan rata-rata
distribusi.
Untuk mendapatkan informasi ini, kita harus menghitung skor deviasi untuk setiap skor individu dalam distribusi
(lihat Gambar 3.2). Skor ini dihitung dengan mengambil skor individu dan mengurangi rata-rata dari skor itu.
Jika kita menghitung skor deviasi untuk setiap skor individu dalam distribusi, maka kita dapat menjumlahkan
skor deviasi dan membaginya dengan n untuk mendapatkan rata-rata, atau standar, deviasi, bukan? Tidak
terlalu.
Masalahnya di sini adalah bahwa, menurut definisi, rata-rata dari suatu distribusi adalah tengah matematis
dari distribusi tersebut. Oleh karena itu, beberapa skor dalam distribusi akan jatuh di atas rata-rata
(menghasilkan skor deviasi positif), dan beberapa akan jatuh di bawah rata-rata (menghasilkan skor deviasi
negatif). Ketika kita menambahkan skor deviasi positif dan negatif ini bersama-sama, jumlahnya akan menjadi
nol. Karena mean adalah tengah matematika dari distribusi, kita akan mendapatkan nol ketika kita
menjumlahkan skor deviasi ini tidak peduli seberapa besar atau kecil sampel kita, atau seberapa miring atau
normal distribusi kita. Dan karena kita tidak dapat menemukan rata-rata nol (yaitu, nol dibagi n adalah nol,
tidak peduli berapa n ), kita perlu melakukan sesuatu untuk menghilangkan nol ini.
Solusi yang dibuat oleh ahli statistik adalah membuat setiap skor deviasi menjadi positif dengan
mengkuadratkannya. Jadi, untuk setiap skor dalam suatu distribusi, kita kurangi rata-rata dari distribusi
tersebut dan kemudian kuadratkan simpangannya. Jika Anda melihat rumus skor deviasi pada Tabel 3.1,
Anda akan melihat bahwa semua yang dilakukan rumus dengan (X – )2 adalah mengambil setiap skor,
mengurangi rata-rata, dan mengkuadratkan skor deviasi yang dihasilkan. Apa yang Anda dapatkan saat
melakukan ini adalah deviasi kuadrat yang sangat penting, yang digunakan sepanjang waktu dalam statistik.
Jika kita meletakkan tanda penjumlahan di depan, kita memiliki (X – )2. Ini memberitahu kita bahwa setelah
kita menghasilkan skor deviasi kuadrat untuk setiap kasus dalam distribusi kita, kita kemudian perlu
menjumlahkan semua deviasi kuadrat ini, memberi kita jumlah deviasi kuadrat, atau jumlah kuadrat (SS).
Setelah ini selesai, kami membagi dengan jumlah kasus dalam distribusi kami, dan kami mendapatkan rata-
rata, atau rata-rata, dari deviasi kuadrat. Ini adalah varians kami.
Langkah terakhir dalam proses ini adalah mengubah varians menjadi standar deviasi. Ingatlah bahwa untuk
menghitung varians, kita harus mengkuadratkan setiap skor deviasi. Kami melakukan ini untuk menghindari
mendapatkan jumlah nol di pembilang kami. Ketika kita mengkuadratkan skor ini, kita mengubah statistik kita
dari skala pengukuran asli kita (yaitu, unit pengukuran apa pun yang digunakan untuk menghasilkan
Machine Translated by Google

24 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

distribusi skor kami) ke skor kuadrat. Untuk membalikkan proses ini dan memberi kita statistik yang kembali ke unit
pengukuran asli kita, kita hanya perlu mengambil akar kuadrat dari varians kita. Ketika kita melakukan ini, kita beralih
dari varians ke standar deviasi. Oleh karena itu, rumus untuk menghitung simpangan baku sama persis dengan rumus
untuk menghitung varians, kecuali kita meletakkan simbol akar kuadrat besar di atas seluruh rumus. Perhatikan bahwa
karena proses kuadrat dan akar kuadrat, simpangan baku dan varians selalu bilangan positif.

Mengapa Memiliki Varians?

Jika varians adalah statistik yang sulit dipahami, dan jarang diteliti oleh peneliti, mengapa tidak menghilangkan statistik
ini dan langsung menuju standar deviasi? Ada dua alasan.
Pertama, kita perlu menghitung varians sebelum kita dapat menemukan standar deviasi, jadi tidak lebih banyak
pekerjaan. Kedua, bagian mendasar dari rumus varians, yang merupakan jumlah dari deviasi kuadrat, digunakan dalam
sejumlah statistik lain, terutama analisis varians (ANOVA). Ketika Anda mempelajari statistik yang lebih maju seperti
ANOVA (Bab 10), ANOVA faktorial (Bab 11), dan bahkan regresi (Bab 13), Anda akan melihat bahwa masing-masing
statistik ini menggunakan jumlah kuadrat, yang merupakan cara lain mengatakan jumlah deviasi kuadrat. Karena
jumlah kuadrat merupakan bagian penting dari begitu banyak statistik, statistik varians tetap mendapat tempat dalam
pengajaran statistika dasar.

Contoh: Meneliti Range, Variance, dan Standard Deviation


Saya melakukan penelitian di mana saya memberikan kuesioner kepada sekitar 500 siswa sekolah menengah di kelas
9 dan 11. Dalam contoh berikut, kami memeriksa rata-rata, jangkauan, varians, dan standar deviasi dari distribusi
tanggapan untuk dua pertanyaan ini. Untuk memahami statistik ini (dan semua), Anda perlu mengetahui kata-kata
yang tepat dari item survei dan skala respons yang digunakan untuk menjawab item survei. Meskipun ini mungkin
terdengar jelas, saya menyebutkannya di sini karena, jika Anda perhatikan, banyak informasi statistik yang dilaporkan
dalam berita (misalnya, hasil jajak pendapat) tidak memberikan kata-kata yang tepat dari pertanyaan atau pilihan
jawaban.
Tanpa informasi ini, sulit untuk mengetahui dengan tepat apa arti dari tanggapan tersebut, dan “berbohong dengan
statistik” menjadi lebih mudah.

Item survei pertama yang kami periksa berbunyi, “Jika saya punya cukup waktu, saya bisa mengerjakan pekerjaan
yang paling sulit sekalipun di kelas ini.” Item ini dirancang untuk mengukur kepercayaan diri siswa dalam kemampuan
mereka untuk berhasil dalam pekerjaan kelas mereka. Siswa diminta untuk menjawab pertanyaan ini dengan melingkari
angka pada skala 1 sampai 5. Pada skala ini, melingkari angka 1 berarti pernyataan tersebut “sama sekali tidak benar”
dan angka 5 berarti “sangat benar”. Jadi siswa pada dasarnya diminta untuk menunjukkan seberapa benar mereka
merasa pernyataan itu dalam skala 1 sampai 5, dengan angka yang lebih tinggi menunjukkan keyakinan yang lebih
kuat bahwa pernyataan itu benar.

Saya menerima tanggapan dari 491 siswa pada item ini. Distribusi tanggapan yang dihasilkan
statistik berikut:

Ukuran Sampel = 491

Rata-rata = 4.21

Standar Deviasi = 0,98

Varians = (.98)2 = .96

Rentang = 5 – 1 = 4
Machine Translated by Google

Ukuran Variabilitas 25

300

247
250

200

150 139

100
73

50
23
9
0
1234 5
Skor pada Item Keyakinan

Gambar 3.3 Distribusi frekuensi skor pada item keyakinan.


Grafik distribusi frekuensi untuk tanggapan pada item ini muncul pada Gambar 3.3. Seperti yang Anda lihat
dalam grafik ini, sebagian besar siswa dalam sampel melingkari nomor 4 atau nomor 5 pada skala respons,
menunjukkan bahwa mereka merasa item tersebut cukup benar (yaitu, bahwa mereka percaya diri dengan
kemampuan mereka untuk melakukan pekerjaan kelas mereka jika mereka diberi waktu yang cukup). Karena
sebagian besar siswa melingkari angka 4 atau 5, skor rata-rata pada item ini cukup tinggi (4,21 dari
kemungkinan 5). Ini adalah distribusi miring negatif.
Grafik pada Gambar 3.3 juga memberikan informasi tentang keragaman skor dalam distribusi ini. Meskipun
statistik rentang kami adalah 4, yang menunjukkan bahwa siswa dalam sampel melingkari angka tertinggi dan
terendah pada skala respons, kami dapat melihat bahwa rentang tersebut tidak benar-benar memberikan
banyak informasi yang berguna. Misalnya, rentang tidak memberi tahu kami bahwa sebagian besar siswa
dalam sampel kami mendapat skor di ujung skala yang tinggi. Dengan menggabungkan informasi dari statistik
rentang dengan statistik rata-rata, kita dapat mencapai kesimpulan berikut: “Meskipun distribusi skor pada item
ini mencakup rentang penuh, tampaknya sebagian besar skor berada di ujung yang lebih tinggi dari skala
respons. ”
Sekarang kita telah menentukan bahwa (1) distribusi skor mencakup berbagai kemungkinan skor (yaitu,
dari 1 hingga 5), dan (2) sebagian besar tanggapan berada di ujung atas skala (karena rata-rata adalah 4,21
dari kemungkinan 5), kita mungkin menginginkan ukuran yang lebih tepat dari jumlah rata-rata variasi di antara
skor dalam distribusi. Untuk ini kita beralih ke statistik varians dan standar deviasi. Dalam contoh ini, varians
(.96) hampir sama persis dengan standar deviasi (.98). Ini adalah sesuatu yang kebetulan. Jangan tertipu.
Sangat jarang varians dan standar deviasi begitu mirip. Faktanya, ini hanya terjadi jika standar deviasinya
sekitar 1,0, karena 1,0 kuadrat adalah 1,0. Jadi dalam kasus yang jarang ini, varians dan deviasi standar
memberikan informasi yang hampir sama. Yaitu, mereka menunjukkan bahwa perbedaan rata-rata antara skor
individu dalam distribusi dan rata-rata untuk distribusi adalah sekitar 1 poin pada skala 5 poin.

Secara keseluruhan, statistik ini memberi tahu kita hal yang sama seperti yang ditunjukkan grafik, tetapi
lebih tepatnya. Yaitu, kita sekarang tahu bahwa (1) siswa dalam penelitian ini menjawab item ini mencakup
seluruh rentang pilihan respon (yaitu, 1 – 5); (2) sebagian besar siswa menjawab pada atau mendekati batas
atas, karena rata-ratanya cukup tinggi; dan (3) skor-skor dalam distribusi ini umumnya berdekatan dengan
sebagian besar siswa telah melingkari angka dalam 1 titik rata-rata, karena standar deviasinya adalah 0,98.
Varians memberitahu kita bahwa rata-rata deviasi kuadrat adalah 0,96, dan kita menggaruk-garuk kepala,
bertanya-tanya apa gunanya kita mengetahui deviasi kuadrat rata-rata, dan melanjutkan.

Dalam contoh kedua kami, kami memeriksa tanggapan siswa terhadap item, "Saya akan merasa sangat
senang jika saya adalah satu-satunya yang bisa menjawab pertanyaan guru di kelas." Barang ini salah satunya
Machine Translated by Google

26 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

beberapa di survei yang dirancang untuk mengukur keinginan siswa untuk menunjukkan kepada orang lain bahwa
mereka pintar, atau mampu secara akademis.
Kami menerima tanggapan dari 491 siswa pada item ini, dan distribusi menghasilkan statistik berikut:

Ukuran Sampel = 491

Rata-rata = 2.92

Standar Deviasi = 1,43

Varians = (1,43)2 = 2,04

Rentang = 5 – 1 = 4

Gambar 3.4 mengilustrasikan distribusi tanggapan siswa terhadap item ini di masing-masing dari lima kategori
tanggapan. Terlihat jelas, ketika melihat grafik ini, bagaimana distribusi skor pada item ini berbeda dari distribusi skor
pada item kepercayaan yang disajikan pada Gambar 3.3. Tetapi jika kita tidak memiliki grafik ini, bagaimana kita dapat
menggunakan statistik untuk menemukan perbedaan antara distribusi skor pada kedua item ini?

Perhatikan bahwa, seperti item sebelumnya, rentangnya adalah 4, menunjukkan bahwa beberapa siswa melingkari
angka 1 pada skala respons dan beberapa melingkari angka 5. Karena rentang untuk item percaya diri dan keinginan
untuk tampil mampu adalah sama ( yaitu, 4), mereka tidak melakukan apa pun untuk menunjukkan perbedaan dalam
distribusi tanggapan terhadap dua item ini. Itulah mengapa rentang bukanlah statistik yang sangat berguna—ia tidak
memberikan banyak informasi.
Indikasi nyata pertama kami bahwa distribusi berbeda secara substansial berasal dari perbandingan sarana. Pada
contoh sebelumnya, rata-rata 4,21 menunjukkan bahwa sebagian besar siswa harus melingkari angka 4 atau 5 pada
skala respons. Untuk item kedua ini, mean 2,92 agak kurang informatif. Meskipun memberikan skor rata-rata, tidak
mungkin hanya memeriksa rata-rata untuk menentukan apakah sebagian besar siswa melingkari 2 atau 3 pada skala,
atau apakah jumlah siswa yang kira-kira sama melingkari masing-masing dari lima angka pada skala respons, atau
apakah hampir setengah dari siswa melingkari 1 sedangkan setengah lainnya melingkari 5. Ketiga skenario akan
menghasilkan rata-rata sekitar 2,92, karena itu kira-kira di tengah-tengah skala respons.

Untuk mendapatkan gambaran yang lebih baik dari distribusi ini, kita perlu mempertimbangkan standar deviasi dalam
hubungannya dengan mean. Sebelum membahas standar deviasi yang sebenarnya untuk distribusi skor ini, mari kita
pertimbangkan secara singkat apa yang kita harapkan dari standar deviasi untuk masing-masing dari tiga skenario yang
baru saja dijelaskan. Pertama, jika hampir semua siswa melingkari angka 2 atau 3 pada skala respons, kita akan
mengharapkan standar deviasi yang cukup kecil, seperti yang kita lihat pada contoh sebelumnya menggunakan item
kepercayaan. Semakin mirip tanggapan terhadap suatu item, semakin kecil standar deviasinya. Namun, jika setengah
dari siswa melingkari 1 dan setengah lainnya melingkari 5,

140
115 120
120
98
100
81 77
80
60
40
20
0
1 2 3 4 5

Skor pada Keinginan untuk Mendemonstrasikan Item Kemampuan

Gambar 3.4 Distribusi frekuensi skor pada item keinginan untuk mendemonstrasikan kemampuan.
Machine Translated by Google

Ukuran Variabilitas 27

kita akan mengharapkan simpangan baku yang besar (sekitar 2,0) karena setiap skor akan berjarak
sekitar dua unit dari rata-rata yaitu, jika rata-rata sekitar 3,0 dan setiap respons adalah 1 atau 5,
setiap respons berjarak sekitar dua unit dari rata-rata . Akhirnya, jika respons tersebar cukup
merata di lima kategori respons, kami akan mengharapkan standar deviasi berukuran sedang
(sekitar 1,50).
Sekarang, ketika kita melihat rata-rata sebenarnya untuk distribusi ini (2,92) dan standar deviasi
aktual (1,43), kita dapat mengembangkan gambaran kasar dari distribusi ini dalam pikiran kita.
Karena kita tahu bahwa pada skala dari 1 hingga 5, rata-rata 2,92 berada di tengah, kita dapat
menebak bahwa distribusi terlihat agak simetris (yaitu, akan ada jumlah respons yang kurang lebih
sama dalam kategori 4 dan 5 seperti yang ada dalam kategori 1 dan 2. Selanjutnya, karena kita
memiliki standar deviasi sedang yaitu 1,43, kita tahu bahwa skor tersebar cukup baik, dengan
jumlah siswa yang sehat di masing-masing dari lima kategori respons. Jadi kita tahu bahwa kita
tidak mendapatkan banyak siswa yang melingkari 3 dan kita tidak mendapatkan siswa yang hanya
melingkari 1 atau 5. Pada titik ini, hanya ini yang dapat kita katakan tentang distribusi ini: Rata-
ratanya mendekati tengah skala, dan tanggapan tersebar cukup baik di lima kategori
tanggapan.Untuk mengatakan lebih banyak lagi, kita perlu melihat jumlah tanggapan di setiap
kategori, seperti yang disajikan pada Gambar 3.4.
Saat kita melihat distribusi skor aktual yang disajikan dalam grafik pada Gambar 3.4, kita dapat
melihat bahwa prediksi yang kita hasilkan dari statistik kita tentang bentuk distribusi cukup akurat.
Perhatikan bahwa kami tidak perlu mempertimbangkan varians sama sekali, karena varians dalam
contoh ini (2,04) berada pada skala pengukuran yang berbeda dari skala respons 5 poin asli kami,
dan oleh karena itu sangat sulit untuk ditafsirkan. Varians adalah statistik penting untuk banyak
teknik (misalnya, ANOVA, regresi), tetapi tidak banyak membantu kita memahami bentuk distribusi
skor. Rata-rata, standar deviasi, dan rentang yang lebih rendah, jika dipertimbangkan bersama-
sama, dapat memberikan gambaran kasar tentang distribusi skor. Seringkali, gambaran kasar
adalah semua yang dibutuhkan atau diinginkan peneliti. Namun, terkadang peneliti perlu
mengetahui secara lebih tepat karakteristik distribusi skor. Dalam hal ini, sebuah gambar, seperti
grafik, mungkin bernilai ribuan kata.
Cara lain yang berguna untuk memeriksa distribusi skor adalah dengan membuat boxplot.
Pada Gambar 3.5, boxplot disajikan untuk variabel yang sama yang direpresentasikan pada
Gambar 3.4, yang ingin menunjukkan kemampuan. Boxplot ini diproduksi dalam program perangkat
lunak statistik SPSS. Kotak dalam grafik ini berisi beberapa informasi yang sangat berguna.
Pertama, garis tebal di tengah kotak mewakili median dari distribusi skor ini. Garis atas kotak
mewakili persentil ke-75 dari distribusi dan garis bawah mewakili persentil ke-25. Oleh karena itu,
garis atas dan bawah kotak mengungkapkan rentang interkuartil (IQR) untuk distribusi ini.
Dengan kata lain, 50% skor pada variabel ini dalam distribusi ini terdapat di dalam garis atas dan
bawah kotak ini (yaitu, 50% skor berada di antara tepat di atas skor 2
6

Gambar 3.5 Boxplot untuk variabel keinginan tampil mampu.


Machine Translated by Google

28 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Mengakhiri dan Menantikan

Daftar Istilah dan Simbol untuk Bab 3

s2

2
Machine Translated by Google

Bab 4
Distribusi Normal
Distribusi normal adalah konsep yang sebagian besar orang sudah familiar, meskipun mereka sering tidak
pernah mendengar istilah tersebut. Nama yang lebih familiar untuk distribusi normal adalah kurva lonceng,
karena distribusi normal membentuk bentuk lonceng. Distribusi normal sangat penting untuk statistik dan
memiliki beberapa karakteristik khusus yang membuatnya sangat berguna.
Dalam bab ini, saya menjelaskan secara singkat apa itu distribusi normal dan mengapa distribusi itu sangat
penting bagi para peneliti. Kemudian saya membahas beberapa fitur dari distribusi normal, dan sampling,
secara lebih mendalam.

Karakteristik Distribusi Normal

Pada Gambar 4.1, saya menyajikan grafik garis sederhana yang menggambarkan distribusi normal. Ingat dari
pembahasan grafik di Bab 1 bahwa jenis grafik ini menunjukkan frekuensi, yaitu, jumlah kasus, dengan skor
tertentu pada variabel tunggal. Jadi dalam grafik ini, sumbu y menunjukkan frekuensi kasus dan sumbu x akan
menunjukkan skor pada variabel yang diminati. Misalnya, jika variabelnya adalah skor pada tes IQ, sumbu x
akan memiliki skor mulai dari yang terkecil hingga terbesar. Mean, median, dan modus akan menjadi 100, dan
puncak garis menunjukkan bahwa frekuensi kasus tertinggi pada 100 (yaitu, modus). Saat Anda menjauh dari
mode di kedua arah, ketinggian garis turun, menunjukkan lebih sedikit kasus (yaitu, frekuensi yang lebih rendah)
pada skor lainnya.

Jika Anda melihat bentuk distribusi normal yang disajikan pada Gambar 4.1, Anda mungkin memperhatikan
bahwa distribusi normal memiliki tiga karakteristik mendasar. Pertama, simetris, artinya bagian atas dan bagian
bawah dari distribusi adalah bayangan cermin satu sama lain. Kedua, mean, median, dan modus semuanya
berada di tempat yang sama, di tengah distribusi (yaitu, bagian atas kurva lonceng). Karena ciri kedua ini,
distribusi normal paling tinggi di tengah, unimodal, dan melengkung ke bawah menuju bagian atas dan bawah
distribusi. Akhirnya, distribusi normal adalah asimtotik, artinya ekor atas dan bawah dari distribusi tidak pernah
benar-benar menyentuh garis dasar, yang juga dikenal sebagai sumbu x.

Mengapa Distribusi Normal Begitu Penting?


Ketika peneliti mengumpulkan data dari sampel, terkadang yang ingin mereka ketahui hanyalah karakteristik
sampel. Misalnya, jika saya ingin memeriksa kebiasaan makan 100 mahasiswa tahun pertama, saya hanya
akan memilih 100 mahasiswa, menanyakan apa yang mereka makan, dan merangkum data saya. Data ini
mungkin memberi saya statistik seperti jumlah rata-rata kalori yang dikonsumsi setiap hari oleh 100 siswa dalam
sampel saya, makanan yang paling sering dimakan, variasi makanan yang dimakan, dan sebagainya. Semua
statistik ini hanya menggambarkan karakteristik sampel saya, dan karena itu disebut statistik deskriptif.
Statistik deskriptif umumnya hanya digunakan untuk menggambarkan sampel tertentu. Ketika semua yang kita
pedulikan adalah menggambarkan sampel tertentu, tidak masalah apakah skor dari sampel terdistribusi normal
atau tidak.

29
Machine Translated by Google

30 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Berarti
median
Mode

Gambar 4.1 Distribusi normal.

Namun, seringkali peneliti ingin melakukan lebih dari sekadar mendeskripsikan sampel. Kadang-kadang,
mereka ingin tahu berapa probabilitas pasti dari sesuatu yang terjadi dalam sampel mereka hanya karena
kebetulan. Misalnya, jika rata-rata siswa dalam sampel saya mengonsumsi 2.000 kalori per hari, berapa peluang,
atau probabilitas, memiliki siswa dalam sampel yang mengonsumsi 5.000 kalori per hari? Tiga karakteristik dari
distribusi normal masing-masing penting dalam statistik karena mereka memungkinkan kita untuk memanfaatkan
statistik probabilitas dengan baik.
Selain itu, peneliti sering ingin dapat membuat kesimpulan tentang populasi berdasarkan data yang mereka
kumpulkan dari sampel mereka. Untuk menentukan apakah beberapa fenomena yang diamati dalam sampel
mewakili fenomena aktual dalam populasi dari mana sampel itu diambil, statistik inferensial digunakan.
Misalnya, saya mulai dengan asumsi bahwa dalam populasi pria dan wanita tidak ada perbedaan rata-rata
jumlah kalori yang dikonsumsi dalam sehari. Asumsi tidak ada perbedaan ini dikenal sebagai hipotesis nol.
Sekarang anggaplah saya memilih sampel pria dan sampel wanita, membandingkan konsumsi kalori rata-rata
harian mereka, dan menemukan bahwa pria makan rata-rata 200 kalori lebih banyak per hari daripada wanita.

Mengingat hipotesis nol saya tentang tidak ada perbedaan, berapa probabilitas menemukan perbedaan sebesar
ini di antara sampel saya secara kebetulan? Untuk menghitung probabilitas ini, saya perlu mengandalkan
distribusi normal, karena karakteristik dari distribusi normal memungkinkan ahli statistik untuk menghasilkan
statistik probabilitas yang tepat. Di bagian selanjutnya, saya akan menjelaskan secara singkat cara kerjanya.

Distribusi Normal dalam Kedalaman


Penting untuk dicatat bahwa distribusi normal adalah apa yang dikenal dalam statistik sebagai distribusi
teoritis. Artinya, seseorang jarang, jika pernah, mendapatkan distribusi skor dari sampel yang membentuk
distribusi normal yang eksak. Sebaliknya, apa yang Anda dapatkan saat mengumpulkan data adalah distribusi
skor yang mungkin atau mungkin tidak mendekati kurva normal berbentuk lonceng. Karena distribusi normal
teoretis adalah apa yang digunakan ahli statistik untuk mengembangkan probabilitas, distribusi skor yang tidak
normal mungkin bertentangan dengan probabilitas ini. Oleh karena itu, ada sejumlah statistik yang dimulai
dengan asumsi bahwa skor berdistribusi normal. Ketika asumsi ini dilanggar (yaitu, ketika skor dalam distribusi
tidak terdistribusi normal), akan ada konsekuensi yang mengerikan.
Konsekuensi paling jelas dari pelanggaran asumsi distribusi normal adalah bahwa probabilitas yang terkait
dengan distribusi normal tidak valid. Misalnya, jika Anda memiliki distribusi skor yang normal pada beberapa
variabel (misalnya, skor tes IQ orang dewasa di Amerika Serikat), Anda dapat menggunakan probabilitas
berdasarkan distribusi normal untuk menentukan dengan tepat berapa persentase skor dalam distribusi tersebut.
menjadi 120 atau lebih tinggi pada tes IQ (lihat Bab 4 untuk penjelasan tentang bagaimana melakukan ini).
Tetapi misalkan skor dalam distribusi kita tidak membentuk distribusi nor mal. Misalkan, untuk beberapa alasan,
kami memiliki jumlah skor tinggi yang luar biasa besar
Machine Translated by Google

Distribusi Normal 31

(misalnya, lebih dari 120) dan sejumlah kecil skor rendah yang luar biasa (misalnya, di bawah 90) dalam distribusi kami.
Jika ini masalahnya, ketika kami menggunakan perkiraan probabilitas berdasarkan distribusi normal, kami akan
meremehkan jumlah sebenarnya dari skor tinggi dalam distribusi kami dan melebih-lebihkan jumlah sebenarnya dari
skor rendah dalam distribusi kami.

Hubungan antara Metode Pengambilan Sampel dan Distribusi Normal

Seperti yang saya bahas di Bab 1, peneliti menggunakan berbagai cara berbeda untuk memilih sampel.
Kadang-kadang, sampel dipilih sedemikian rupa sehingga mewakili populasi dengan cara tertentu, seperti persentase
laki-laki atau proporsi individu kaya (sampel representatif). Di lain waktu, sampel dipilih secara acak dengan harapan
bahwa setiap perbedaan antara sampel dan populasi juga bersifat acak, bukan sistematis (random sampling). Namun,
seringkali sampel dipilih untuk kenyamanan mereka daripada bagaimana mereka mewakili populasi yang lebih besar
(convenience sampling). Masalah pelanggaran asumsi normalitas menjadi paling bermasalah ketika sampel kami
bukan representasi yang memadai dari populasi kami.

Hubungan antara distribusi normal dan metode pengambilan sampel adalah sebagai berikut. Probabilitas yang
dihasilkan dari distribusi normal bergantung pada (1) bentuk distribusi dan (2) gagasan bahwa sampel tidak berbeda
secara sistematis dari populasi. Jika saya memilih sampel secara acak dari suatu populasi, saya tahu bahwa sampel ini
mungkin tidak terlihat sama dengan sampel lain dengan ukuran yang sama yang dipilih secara acak dari populasi yang
sama. Tetapi setiap perbedaan antara sampel saya dan sampel acak lainnya dengan ukuran yang sama yang dipilih
dari populasi yang sama akan berbeda satu sama lain secara acak, tidak sistematis. Dengan kata lain, metode
pengambilan sampel saya tidak bias sehingga saya akan terus-menerus memilih sampel dari satu ujung populasi saya
(misalnya, semakin kaya, semakin berpendidikan, semakin tinggi pencapaian) jika saya terus menggunakan metode
yang sama untuk memilih sampel saya. Sampel. Bandingkan ini dengan metode convenience sampling.

Jika saya hanya memilih sekolah yang dekat dengan rumah atau tempat kerja saya, saya akan terus memilih sekolah
dengan karakteristik serupa. Misalnya, jika saya tinggal di Sabuk Alkitab, sampel saya mungkin akan bias karena
sampel saya lebih cenderung menganut kepercayaan agama fundamentalis daripada populasi anak sekolah yang lebih
besar. Sekarang jika karakteristik ini tidak terkait dengan variabel yang saya pelajari (misalnya, prestasi), maka sampel
saya mungkin bias dengan cara ini. Tetapi jika bias ini terkait dengan variabel minat saya (misalnya, "Seberapa kuat
anak sekolah Amerika percaya pada Tuhan?"), maka saya mungkin memiliki masalah.

Misalkan saya tinggal dan bekerja di Cambridge, Massachusetts. Cambridge berada di bagian negara dengan
banyak sekali orang berpendidikan tinggi karena ada sejumlah universitas berkualitas tinggi di daerah terdekat (Harvard,
MIT, Boston College, Boston University, dll.). Jika saya melakukan studi prestasi siswa dengan menggunakan sampel
praktis dari area ini, dan mencoba untuk menyatakan bahwa sampel saya mewakili populasi siswa yang lebih besar di
Amerika Serikat, probabilitas yang didasarkan pada distribusi normal mungkin tidak berlaku. Itu karena sampel saya
akan lebih mungkin daripada rata-rata nasional untuk mendapat skor di ujung distribusi yang tinggi. Jika, berdasarkan
sampel saya, saya mencoba memprediksi tingkat pencapaian rata-rata siswa di Amerika Serikat, atau persentase yang
mendapat skor di kuartil bawah, atau skor yang menandai persentil ke-75, semua prediksi ini akan meleset, karena
probabilitas yang dihasilkan oleh distribusi normal mengasumsikan bahwa sampel tidak bias. Jika asumsi ini dilanggar,
kami tidak dapat mempercayai hasil kami.

Kemiringan dan Kurtosis

Dua karakteristik yang digunakan untuk menggambarkan distribusi skor adalah skew dan kurtosis. Ketika sampel skor
tidak terdistribusi normal (yaitu, bukan bentuk lonceng), ada berbagai bentuk yang dapat diasumsikan. Salah satu cara
distribusi dapat menyimpang dari bentuk lonceng adalah jika ada sekelompok skor di satu ujung dan beberapa skor
menarik ekor distribusi ke ujung yang lain. Jika ada beberapa skor yang menciptakan ekor memanjang di ujung distribusi
yang lebih tinggi, dikatakan miring positif. Jika ekor ditarik ke arah ujung bawah distribusi, bentuknya
Machine Translated by Google

32 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Berarti

Berarti

Gambar 4.2 Distribusi condong positif dan negatif.

disebut condong negatif. Bentuk-bentuk ini digambarkan pada Gambar 4.2. Seperti yang Anda lihat,
mean dalam distribusi miring ditarik ke arah ekor. Skew tidak mempengaruhi median, namun. Jadi
distribusi yang condong positif akan memiliki mean yang lebih tinggi dari median, dan distribusi yang
condong negatif akan memiliki mean yang lebih kecil dari median. Jika Anda ingat bahwa mean dan
median sama dalam distribusi normal, Anda dapat melihat bagaimana kemiringan mempengaruhi
mean relatif terhadap median.
Seperti yang Anda duga, distribusi miring dapat mendistorsi akurasi probabilitas berdasarkan
distribusi normal. Misalnya, jika sebagian besar skor dalam distribusi terjadi di ujung bawah dengan
beberapa skor di ujung yang lebih tinggi (distribusi miring positif), probabilitas yang didasarkan pada
distribusi normal akan meremehkan jumlah skor sebenarnya di ujung bawah. distribusi miring ini dan
melebih-lebihkan jumlah skor di ujung distribusi yang lebih tinggi. Dalam distribusi condong negatif,
pola kesalahan prediksi yang berlawanan akan terjadi.

Kurtosis mengacu pada bentuk distribusi dalam hal tinggi, atau kerataan. Ketika suatu distribusi
memiliki puncak yang lebih tinggi daripada yang ditemukan pada distribusi normal berbentuk lonceng,
itu disebut leptokurtik. Ketika suatu distribusi lebih datar dari distribusi normal, itu disebut platikurtik.
Karena distribusi normal mengandung persentase tertentu dari skor di daerah tengah (yaitu, sekitar
68% dari skor jatuh antara 1 standar deviasi di atas dan 1 standar deviasi di bawah rata-rata), distribusi
yang platykurtic atau leptokurtic kemungkinan akan memiliki persentase skor yang berbeda di dekat
rata-rata daripada distribusi normal. Secara khusus, distribusi leptokurtik mungkin akan memiliki
persentase skor yang lebih besar mendekati rata-rata dan lebih sedikit di bagian atas dan bawah
distribusi, sedangkan distribusi platikurtik akan memiliki lebih banyak skor di ujung dan lebih sedikit di
tengah daripada distribusi normal. .
Machine Translated by Google

Distribusi Normal 33

Contoh: Menerapkan Probabilitas Distribusi Normal ke Distribusi Nonnormal


Untuk mengilustrasikan beberapa kesulitan yang dapat muncul ketika kita mencoba menerapkan probabilitas
yang dihasilkan dari penggunaan distribusi normal ke distribusi skor yang miring, saya menyajikan distribusi
skor siswa kelas enam pada ukuran self- menghargai. Dalam data ini, 677 siswa menyelesaikan kuesioner yang
mencakup empat item yang dirancang untuk mengukur rasa harga diri siswa secara keseluruhan. Contoh
pertanyaan ini termasuk "Secara keseluruhan, saya puas dengan diri saya sendiri" dan "Saya merasa saya
memiliki sejumlah kualitas yang baik." Siswa menanggapi masing-masing dari empat pertanyaan ini
menggunakan skala penilaian 5 poin dengan 1 = "tidak benar sama sekali" dan 5 = "sangat benar." Tanggapan
siswa pada keempat item ini kemudian dirata-rata, menciptakan skor harga diri tunggal yang berkisar dari
kemungkinan terendah 1 hingga kemungkinan tinggi 5. Distribusi frekuensi untuk variabel harga diri ini disajikan
pada Gambar 4.3.
Seperti yang Anda lihat, distribusi skor yang disajikan pada Gambar 4.3 tidak membentuk distribusi
berbentuk lonceng yang bagus atau mal. Sebaliknya, sebagian besar siswa dalam sampel ini mendapat skor di
ujung atas distribusi, dan ekor panjang memanjang ke arah ujung bawah skala. Ini adalah distribusi skor klasik
yang condong negatif. Bagian yang menyenangkan dari cerita ini adalah bahwa sebagian besar siswa dalam
sampel ini tampaknya merasa cukup baik tentang diri mereka sendiri. Bagian yang menyedihkan dari cerita ini
adalah bahwa beberapa asumsi dari distribusi normal dilanggar oleh distribusi miring ini. Mari kita lihat beberapa
spesifiknya.
Salah satu kualitas dari distribusi normal adalah simetris, dengan persentase skor yang sama antara mean
dan 1 standar deviasi di bawah mean karena ada antara mean dan 1 standar deviasi di atas mean. Dengan
kata lain, dalam distribusi normal, harus ada sekitar 34% skor dalam 1 standar deviasi di atas rata-rata dan 34%
dalam 1 standar deviasi di bawah rata-rata. Dalam distribusi skor harga diri kami yang disajikan sebelumnya,
rata-ratanya adalah 4,28 dan standar deviasinya adalah 0,72. 50% penuh dari distribusi berada di antara mean
dan 1 standar deviasi di atas mean dalam kelompok skor ini (lihat Gambar 4.4). Jadi, meskipun saya dapat
memperkirakan bahwa sekitar 16% dari distribusi saya akan memiliki skor lebih dari 1 standar deviasi di atas
rata-rata dalam distribusi normal, dalam distribusi skor harga diri saya yang miring, saya dapat melihat bahwa
tidak ada siswa dengan skor lebih tinggi. dari 1 standar deviasi di atas rata-rata. Dalam Bab 5, saya menyajikan
pembahasan yang lebih menyeluruh tentang bagaimana menggunakan distribusi normal untuk menghitung
satuan deviasi standar dan skor persentil dalam distribusi normal.

Seperti yang ditunjukkan contoh ini, probabilitas yang dihasilkan oleh ahli statistik menggunakan distribusi
normal mungkin tidak berlaku dengan baik untuk distribusi data yang miring atau tidak normal.
Ini seharusnya tidak membuat Anda percaya, bagaimanapun, bahwa distribusi skor yang tidak normal bernilai
lebih rendah. Faktanya, bahkan jika Anda memiliki distribusi skor yang tidak normal dalam sampel Anda, skor ini

200

180

160

140

120

100

80

60

40

20

0
1.4 2 2.6 3.2 3.8 4.4 5
Skor harga diri

Gambar 4.3 Distribusi frekuensi untuk skor harga diri.


Machine Translated by Google

Gambar 4.4 Distribusi normal dibagi menjadi satuan standar deviasi.

dapat membuat distribusi sampling normal untuk digunakan dalam statistik inferensial (lihat Bab 6). Apa yang
mungkin paling penting untuk diingat adalah bahwa distribusi skor yang tidak normal mungkin merupakan indikasi
bahwa sampel Anda berbeda dalam cara yang penting dan sistematis dari populasi yang seharusnya diwakilinya.
Saat membuat kesimpulan tentang populasi berdasarkan sampel, berhati-hatilah untuk mendefinisikan populasi
secara tepat dan waspadai setiap bias yang mungkin Anda timbulkan dengan metode pemilihan sampel Anda.
Penting juga untuk dicatat, bagaimanapun, bahwa tidak semua variabel terdistribusi secara normal dalam populasi.
Oleh karena itu, data sampel tidak normal dapat menjadi representasi akurat dari data populasi tidak normal, serta
indikasi bahwa sampel tidak mewakili populasi secara akurat. Distribusi normal dapat digunakan untuk menghasilkan
probabilitas tentang kemungkinan memilih individu atau sampel lain dengan karakteristik tertentu (misalnya, jarak
dari rata-rata) dari suatu populasi. Jika sampel Anda tidak normal dan metode pemilihan sampel Anda mungkin
bias secara sistematis untuk memasukkan sampel dengan karakteristik tertentu (misalnya, yang berprestasi lebih
tinggi dari rata-rata, lebih rendah dari pendapatan rata-rata), maka probabilitas distribusi normal mungkin tidak
berlaku dengan baik untuk sampel Anda. Sampel.

Mengakhiri dan Menantikan


Distribusi normal teoritis adalah elemen penting dari statistik terutama karena banyak dari probabilitas yang
digunakan dalam statistik inferensial didasarkan pada asumsi distribusi normal. Seperti yang akan Anda lihat di bab-
bab berikutnya, ahli statistik menggunakan probabilitas ini untuk menentukan probabilitas mendapatkan statistik
tertentu dan membuat kesimpulan tentang populasi berdasarkan sampel. Sekalipun data dalam suatu sampel tidak
terdistribusi normal, ada kemungkinan bahwa data dalam populasi dari mana sampel tersebut dipilih dapat
berdistribusi normal. Dalam Bab 5, saya menjelaskan bagaimana distribusi normal, melalui penggunaan skor z dan
standarisasi, digunakan untuk menentukan probabilitas memperoleh skor individu dari sampel yang berjarak
tertentu dari mean sampel. Anda juga akan belajar tentang statistik menyenangkan lainnya seperti skor persentil di
Bab 5.

Daftar Istilah untuk Bab 4


Asimtotik: Ketika ujung, atau "ekor", dari suatu distribusi tidak pernah berpotongan dengan sumbu x; mereka
memperpanjang tanpa batas.
Kurva lonceng: Istilah umum untuk distribusi normal. Disebut kurva lonceng karena bentuknya yang seperti
lonceng.
Bias: Ketika sampel tidak dipilih secara acak, itu mungkin sampel yang bias. Sampel menjadi bias ketika anggota
dipilih dengan cara yang secara sistematis mewakili beberapa segmen populasi dan kurang mewakili
segmen lainnya.
Machine Translated by Google

Distribusi Normal 35

Convenience sampling: Ketika sampel dipilih karena lebih nyaman daripada


acak.
Statistik deskriptif: Statistik yang menggambarkan karakteristik sampel atau populasi tertentu.
Statistik ini hanya dimaksudkan untuk menggambarkan karakteristik dari siapa data
dikumpulkan.
Statistik inferensial: Statistik yang dihasilkan dari data sampel yang digunakan untuk membuat
kesimpulan tentang karakteristik populasi yang diduga diwakili oleh sampel.
Kurtosis: Bentuk distribusi skor dalam hal kerataan atau puncaknya.
L eptokurtic: Istilah tentang bentuk distribusi. Distribusi leptokurtik adalah satu
dengan puncak yang lebih tinggi dan ekor yang lebih tipis.

Kemiringan negatif: Ketika ekor distribusi skor memanjang ke arah ujung bawah
distribusi.
Distribusi normal: Distribusi frekuensi berbentuk lonceng dari skor yang memiliki mean, median, dan
modus di tengah distribusi dan simetris dan asimtotik.
Hipotesis nol: Hipotesis yang tidak ada pengaruhnya.
Platykurtic: Istilah tentang bentuk distribusi. Distribusi platikurtik adalah distribusi dengan puncak yang
lebih rendah dan ekor yang lebih tebal.
Populasi: Kelompok dari mana data dikumpulkan atau sampel dipilih. Populasi meliputi seluruh
kelompok yang datanya diduga berlaku.
Miring positif: Ketika ekor distribusi skor memanjang ke arah ujung atas
distribusi.
Probabilitas: Kemungkinan terjadinya suatu peristiwa.
Sampling acak: Suatu metode pemilihan sampel di mana setiap anggota populasi memiliki kesempatan
yang sama untuk dipilih.
Sampling representatif: Sebuah metode pemilihan sampel di mana anggotanya sengaja dipilih untuk
membuat sampel yang mewakili populasi pada beberapa karakteristik yang diminati (misalnya,
ketika sampel dipilih untuk memiliki persentase yang sama dari berbagai kelompok etnis
sebagai populasi yang lebih besar).
Sampel: Seorang individu atau kelompok, dipilih dari populasi, dari siapa data dikumpulkan.
Skew: Sejauh mana distribusi skor menyimpang dari normal dalam hal ekstensi asimetris dari ekor.

Simetris: Ketika distribusi memiliki bentuk yang sama di kedua sisi median.
Distribusi teoritis: Distribusi berdasarkan probabilitas statistik daripada empiris
data.
U nimodal: Distribusi yang memiliki mode tunggal.
Machine Translated by Google
Machine Translated by Google

Bab 5
Standarisasi dan Skor z

Jika Anda mengetahui mean dan standar deviasi dari distribusi skor, Anda memiliki informasi yang cukup untuk
mengembangkan gambaran distribusi tersebut. Kadang-kadang peneliti tertarik untuk menggambarkan skor
individu dalam suatu distribusi. Menggunakan mean dan standar deviasi, peneliti dapat menghasilkan skor
standar, juga disebut skor z , untuk membantu mereka memahami di mana skor individu jatuh dalam kaitannya
dengan skor lain dalam distribusi. Melalui proses standardisasi, peneliti juga lebih mampu membandingkan skor
individu dalam distribusi dua variabel terpisah. Standardisasi hanyalah proses mengubah setiap skor dalam
distribusi menjadi skor z . Skor z adalah angka yang menunjukkan seberapa jauh di atas atau di bawah rata-rata
skor yang diberikan dalam distribusi dalam satuan standar deviasi. Jadi standardisasi hanyalah proses mengubah
skor mentah individu dalam distribusi menjadi unit standar deviasi.

Misalkan Anda seorang mahasiswa yang mengambil ujian akhir. Di kelas biologi Anda, Anda mengikuti ujian
akhir dan mendapatkan skor 65 dari kemungkinan 100. Dalam statistik akhir Anda, Anda mendapatkan skor 42
dari 200. Di mana ujian apakah Anda mendapatkan skor "lebih baik"? Jawaban atas pertanyaan ini mungkin lebih
rumit daripada yang terlihat. Pertama, kita harus menentukan apa yang kita maksud dengan “lebih baik.” Jika
lebih baik berarti persentase jawaban yang benar pada ujian, jelas Anda melakukannya lebih baik pada ujian biologi.
Tetapi jika ujian statistik Anda jauh lebih sulit daripada ujian biologi Anda, apakah adil untuk menilai kinerja Anda
hanya berdasarkan persentase jawaban yang benar? Alternatif yang lebih adil mungkin untuk melihat seberapa
baik Anda melakukannya dibandingkan dengan siswa lain di kelas Anda. Untuk membuat perbandingan seperti
itu, kita perlu mengetahui mean dan standar deviasi dari setiap distribusi. Dengan statistik ini, kami dapat
menghasilkan skor z .
Misalkan rata-rata pada ujian biologi adalah 60 dengan standar deviasi 10. Itu berarti Anda mencetak 5 poin
di atas rata-rata, yaitu setengah dari standar deviasi di atas rata-rata (lebih tinggi dari rata-rata untuk kelas).
Misalkan lebih lanjut bahwa rata-rata pada uji statistik adalah 37 dengan standar deviasi 5. Sekali lagi, Anda
mencetak 5 poin di atas rata-rata, tetapi ini mewakili standar deviasi penuh di atas rata-rata. Dengan
menggunakan statistik ini, tes mana yang menurut Anda berkinerja lebih baik? Untuk memahami sepenuhnya
jawaban atas pertanyaan ini, mari kita periksa standardisasi dan skor z secara lebih mendalam.

Standarisasi dan Skor z dalam Kedalaman


Seperti yang Anda lihat pada contoh sebelumnya, seringkali sulit untuk membandingkan dua skor pada dua
variabel ketika variabel diukur menggunakan skala yang berbeda. Tes biologi dalam contoh diukur pada skala
dari 1 hingga 100, sedangkan ujian statistik menggunakan skala dari 1 hingga 200. Ketika variabel memiliki skala
pengukuran yang berbeda, hampir tidak ada artinya untuk membandingkan skor mentah (yaitu, 65 dan 42 pada
ujian ini). Sebagai gantinya, kita memerlukan beberapa cara untuk menempatkan kedua ujian ini pada skala
yang sama, atau untuk menstandarkannya . Salah satu metode standarisasi yang paling umum digunakan dalam
statistik adalah mengubah skor mentah menjadi satuan deviasi standar, atau skor z . Rumus untuk melakukan
ini sangat sederhana dan disajikan pada Tabel 5.1.

37
Machine Translated by Google

38 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 5.1 Rumus untuk


Menghitung Skor az

skor mentah rata-rata


z=
simpangan baku

atau

X
z =

atau

XX
z =
s
di mana X = skor mentah
= rata-rata populasi
=
- simpangan baku populasi
X = rata-rata sampel
s = simpangan baku sampel

Seperti yang dapat Anda lihat dari rumus pada Tabel 5.1, untuk menstandardisasi skor (yaitu, untuk membuat
skor z ), Anda cukup mengurangi rata-rata dari skor mentah individu dan membaginya dengan standar deviasi.
Jadi jika skor mentah di atas rata-rata, skor z akan positif, sedangkan skor mentah di bawah rata-rata akan
menghasilkan skor z negatif . Ketika seluruh distribusi skor distandarisasi, rata-rata (yaitu, mean) skor z untuk
distribusi standar akan selalu 0, dan deviasi standar dari distribusi ini akan selalu 1,0.

Menafsirkan Skor z

Skor z memberi tahu peneliti secara instan seberapa besar atau kecil skor individu relatif terhadap skor lain dalam
distribusi. Misalnya, jika saya tahu bahwa salah satu siswa saya mendapat nilai z -1,5 pada ujian, saya akan tahu
bahwa siswa mencetak 1,5 standar deviasi di bawah rata-rata pada ujian itu.
Jika siswa lain memiliki skor z 0,29, saya akan tahu siswa tersebut mencetak 0,29 unit standar deviasi di atas rata-
rata pada ujian.
Mari kita berhenti sejenak di sini dan berpikir sejenak tentang apa yang tidak diberitahukan oleh skor z kepada
kita. Jika saya memberi tahu Anda bahwa saya memiliki skor z 1,0 pada tes ejaan terakhir saya, apa pendapat
Anda tentang kinerja saya? Apa yang akan Anda ketahui dengan pasti adalah bahwa (1) saya melakukan lebih
baik daripada rata-rata orang yang mengikuti tes, (2) skor saya 1 standar deviasi di atas rata-rata, dan (3) jika
skor dalam distribusi berdistribusi normal (Bab 3), skor saya lebih baik dari sekitar dua pertiga dari skor dalam
distribusi. Tapi apa yang Anda tidak akan tahu adalah (1) berapa banyak kata yang saya eja dengan benar, (2)
jika saya adalah pengeja yang baik, (3) seberapa sulit ujiannya, (4) jika orang lain yang mengikuti tes mengeja
yang baik. , (5) berapa banyak orang lain yang mengikuti tes, dan seterusnya. Seperti yang Anda lihat, skor z saja
tidak memberikan informasi sebanyak yang kita inginkan. Untuk lebih mendemonstrasikan poin ini, anggaplah
setelah saya memberi tahu Anda bahwa saya memiliki skor z 1,0 pada tes mengeja, saya melanjutkan untuk
memberi tahu Anda bahwa skor rata-rata pada tes itu adalah 12 dari 50 dan bahwa semua orang yang mengambil
tes berusia 7 tahun. Tidak terlalu mengesankan dalam konteks itu, bukan?
Sekarang, dengan mengingat peringatan yang tepat, mari kita pertimbangkan beberapa lagi penggunaan skor
z dan standarisasi. Salah satu fitur paling mudah dari skor z adalah, ketika digunakan dengan kumpulan skor
yang terdistribusi normal, mereka dapat digunakan untuk menentukan skor persentil. Artinya, jika Anda memiliki
distribusi skor yang normal, Anda dapat menggunakan skor z untuk menemukan skor mana yang menandai
persentil ke-90 dari suatu distribusi (yaitu, skor mentah di mana 10% dari distribusi diberi skor di atas dan 90% di
bawah) .Ini karena ahli statistik telah menunjukkan bahwa dalam distribusi normal, persentase skor yang tepat
akan berada di antara rata-rata dan 1 standar deviasi di atas rata-rata. Karena distribusi normal simetris sempurna,
kita tahu bahwa sama persis
Machine Translated by Google

Standarisasi dan Skor z 39

Gambar 5.1 Distribusi normal standar.

persentase skor yang berada di antara mean dan 1 standar deviasi di atas mean juga akan berada di antara
mean dan 1 standar deviasi di bawah mean. Faktanya, ahli statistik telah menentukan persentase skor yang
tepat yang akan berada di antara rata-rata dan skor z apa pun (yaitu, jumlah unit standar deviasi di atas atau
di bawah rata-rata). Tabel nilai-nilai ini diberikan dalam Lampiran A. Ketika Anda juga mempertimbangkan
bahwa dalam distribusi normal rata-rata selalu menandai pusat distribusi yang tepat, Anda tahu bahwa rata-
rata adalah titik dalam distribusi di mana 50% kasus jatuh bawah dan 50% jatuh di atas. Dengan mengingat
hal ini, mudah untuk menemukan skor dalam distribusi yang menandai persentil ke-90, atau persentil apa
pun, dalam hal ini. Pada Gambar 5.1, kita dapat melihat persentase skor dalam distribusi normal yang
berada di antara nilai skor ent z yang berbeda . Angka ini berisi distribusi normal standar.

Waktu Habis untuk Teknis : Menerjemahkan Lampiran A


Menggunakan nilai-nilai dalam Lampiran A sederhana setelah Anda memahaminya. Kolom kiri
menunjukkan nilai skor z ke sepersepuluh terdekat. Jika Anda perlu mendapatkan lebih tepat dari itu,
Anda dapat menggunakan nilai-nilai di baris atas. Misalnya, jika Anda memiliki skor z .15, maka Anda
menemukan perpotongan baris .1 dengan kolom .05 untuk membuat nilai z Anda sebesar .15. Jika
Anda pergi ke perpotongan itu, Anda akan melihat bahwa Anda mendapatkan nilai 0,5596. Angka ini
menunjukkan proporsi distribusi normal yang berada di bawah nilai z ini . Jadi dengan menggunakan
Lampiran A, kita dapat menyimpulkan bahwa .5596, atau 55.96%, dari distribusi memiliki skor z .15
atau kurang. Untuk menemukan proporsi distribusi normal yang akan berada di atas skor z sebesar
0,15, cukup kurangi .5596 dari total 1.0: 1.0 – .5596 = .4404. Nilai ini memberi tahu kita bahwa
probabilitas mendapatkan skor z dari .15 kebetulan adalah .4404. Dalam statistik, probabilitas
mendapatkan statistik tertentu secara kebetulan disebut nilai p . Ketika nilai z semakin besar, proporsi
distribusi normal di bawah (yaitu, di sebelah kiri ) nilai z meningkat, dan nilai p menjadi lebih kecil.
Untuk skor z 3,0, area di bawah nilai z adalah 0,9987, dan nilai p adalah ,0013. Tabel kecil di bagian
bawah Lampiran A menunjukkan kepada Anda nilai p untuk beberapa nilai z besar . Seperti yang Anda
lihat, nilai p menjadi kecil ketika skor z meningkat. Ingatlah bahwa semakin besar skor z , semakin
jauh skor berada di bagian ekor distribusi normal, dan semakin kecil frekuensinya. Juga perlu diingat
bahwa karena distribusi normal adalah simetris, segala sesuatu yang berlaku untuk sisi positif (yaitu,
kanan) dari distribusi juga berlaku untuk sisi negatif (yaitu, kiri).
Jadi nilai z dari –3,0 juga akan memiliki nilai p yang sesuai sebesar 0,0013.
Machine Translated by Google

40 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Mari kita pertimbangkan sebuah contoh. Misalkan saya tahu bahwa rata-rata skor SAT-matematika untuk laki-laki kulit
putih adalah 517, dengan standar deviasi 100, dan membentuk distribusi normal. Dalam distribusi ini, saya sudah tahu
bahwa skor yang menandai persentil ke-50 adalah 517. Misalkan saya ingin mengetahui skor yang menandai persentil
ke-90. Untuk menemukan nomor ini, saya harus mengikuti serangkaian langkah sederhana.

Langkah 1: Menggunakan tabel skor z dari buku teks statistik tradisional, temukan skor z yang menandai persentil
ke-90. Untuk melakukan ini, kita perlu mengingat bahwa persentil ke-90 skor di mana 90% dari distribusi jatuh di
bawah dan 10% di atas. Jadi dalam Lampiran A kita ingin mencari skor z yang sesuai dengan nilai .90 dalam tabel.
Yang paling dekat dengan .90 dalam Lampiran A adalah .8897, dan kita dapat melihat bahwa nilai ini berada di
perpotongan z nilai 1.2 dan .08. Jadi dalam contoh saat ini, skor z yang sesuai dengan persentil ke-90 adalah 1,28.
Jadi z = 1,28.

Langkah 2: Ubah skor z ini kembali ke unit pengukuran asli. Ingatlah bahwa tes SAT-matematika diukur pada skala dari
0 hingga 800. Kita sekarang tahu bahwa rata-rata untuk pria kulit putih yang mengikuti tes pada tahun 1989 adalah

517, dan skor persentil ke-90 dari distribusi ini adalah 1,28 standar deviasi di atas rata-rata. (karena z = 1,28). Jadi
berapa skor SAT-matematika sebenarnya yang menandai persentil ke-90? Untuk menjawab ini, kita harus mengubah
skor z kita dari satuan simpangan baku menjadi satuan nilai mentah dan menambahkannya ke mean.

Rumus untuk melakukan ini adalah

X = + (z)(ÿ)

Dalam persamaan ini, X adalah skor mentah yang kami coba temukan, adalah skor rata-rata dalam distribusi, z
adalah skor z yang kami temukan, dan adalah standar deviasi untuk distribusi.
Memasukkan nomor kami ke dalam rumus, kami menemukan bahwa

X = 517 + (1.28)(100)

X = 517 + 128

X = 645

Langkah 3: Sekarang kita dapat membungkus kata-kata di sekitar hasil kita dan menjawab pertanyaan awal kita. Saat
melakukan ini, sering kali membantu untuk menggunakan pertanyaan awal ketika menyatakan temuan kami, sebagai
berikut:

Pertanyaan: Berapa skor yang menandai persentil ke-90 dari distribusi nilai SAT-matematika siswa laki-laki kulit
putih pada tahun 1989?

Jawaban: Skor 645 menandai persentil ke-90 dari distribusi nilai SAT-matematika siswa laki-laki kulit putih pada
tahun 1989. Skor z ini , skor persentil, dan skor mentah yang sesuai digambarkan pada Gambar 5.2.

Sama seperti kita dapat menggunakan skor z untuk menemukan skor mentah yang menandai persentil tertentu dalam
suatu distribusi, kita juga dapat menggunakan skor z untuk membantu kita mengubah skor mentah yang diketahui menjadi
skor persentil. Misalnya, jika saya tahu bahwa seorang siswa di distribusi saya memiliki skor 425 pada tes SAT-matematika,
saya mungkin ingin mengetahui persentase distribusi yang mendapat skor di atas dan di bawah 425. Ini adalah jenis
konversi yang terjadi ketika nilai ujian standar siswa diterbitkan di surat kabar lokal menggunakan persentil di bawah judul
seperti "Skor Siswa California dalam Persentil ke-45 pada Ujian Nasional!" Demikian pula, ketika orang tua yang bangga
berseru, “Johnny saya ada di
Machine Translated by Google

Standarisasi dan z Skor 41

Luas antara mean dan


z = 40%

Area di luar
z = 10%

= 517 X = 645
Berarti Berarti
z=0 z = 1,28
50% ile 90% ile

Gambar 5.2 Skor yang menandai persentil ke-90 dari distribusi ini.

tinggi 10% teratas untuk kelompok usianya!” konversi dari skor mentah ke skor persentil telah terjadi, dengan
bantuan skor z . Berikut cara melakukannya:

Langkah 1: Kita harus mulai dengan mengubah skor mentah menjadi skor z . Dalam contoh kita, skor
mentahnya adalah 425 (X = 425). Untuk mengubahnya menjadi skor z , kita cukup mengingat rata-rata
(µ = 517) dan simpangan baku kita (ÿ = 100) dan kemudian memasukkan angka-angka ini ke dalam
rumus skor z :

425 517
z=
100

92
z=
100

z = –.92

Langkah 2: Sekarang setelah kita memiliki skor z , kita perlu melihat pada Lampiran A untuk menemukan
proporsi dari distribusi normal yang berada di bawah skor z dari –,92. Perhatikan bahwa kita
berhadapan dengan skor z negatif dalam contoh kita. Lampiran A, seperti kebanyakan tabel skor z ,
hanya melaporkan skor z positif , tetapi karena distribusi normal adalah simetris, proporsi distribusi
yang berada di atas skor z adalah identik apakah skor z positif atau negatif. Tabel skor z saya di
Lampiran A memberi tahu saya bahwa 81,86% dari distribusi normal skor akan jatuh di bawah (yaitu,
di sebelah kiri) skor z 0,92, jadi 18,14% dari distribusi normal akan berada di luar nilai z dari .92. Ini
berarti bahwa 18,14% dari distribusi juga akan melampaui nilai z –,92.

Langkah 3: Untuk membungkus kata-kata di sekitar hasil ini, saya harus mulai dengan ingatan bahwa
dalam contoh saya, skor z -.92 sesuai dengan skor mentah 425 pada tes SAT-matematika di antara
pria kulit putih yang mengikuti tes pada tahun 1989. Jadi, saya akan mengatakan, "Skor 425 pada tes
SAT-matematika menandai persentil ke-18,14 dari distribusi nilai tes di antara pria kulit putih pada
tahun 1989." (Lihat Gambar 5.3 untuk grafik skor persentil ini.)
Machine Translated by Google

42 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Luas antara mean dan


z = 0,3212

Area di luar
z = 0,1788

X = 425 = 517
z = –0,92 Berarti
18% ile z=0
50% ile

Gambar 5.3 Persentase distribusi skor di atas dan di bawah 425.

Skor z yang digunakan dengan distribusi normal juga dapat digunakan untuk mengetahui proporsi skor
yang berada di antara dua skor mentah. Misalnya, Anda mendapat skor 417 pada tes matematika SAT dan
teman Anda mendapat skor 567. “Wow!” kata temanmu. “Aku meniupmu! Pasti ada sekitar 50% dari populasi
yang mendapat skor antara Anda dan saya dalam tes ini. ” Ego Anda memar, Anda memutuskan untuk
melihat apakah teman Anda benar dalam penilaiannya. Inilah yang perlu Anda lakukan.

Langkah 1: Pertama, ubah setiap skor mentah menjadi skor z . Ingat rata-rata (µ = 517) dan simpangan
baku (ÿ = 100) dan kemudian masukkan angka-angka ini ke dalam rumus skor z :
Skor z Anda

417 517
z=
100

100
z=
100

z = –1.00

Skor z temanmu

567 517
z=
100

50
z=
100

z = .50

Langkah 2: Sekarang setelah kita memiliki skor z , kita perlu melihat pada Lampiran A untuk menemukan
proporsi (atau persentase) dari distribusi normal yang berada di antara rata-rata dan masing-masing
dari dua skor z ini. Perhatikan bahwa kita berhadapan dengan satu skor z negatif dan satu positif dalam
Machine Translated by Google

Standarisasi dan Skor z 43

Luas = 0.1915

Luas = 0,3413

X = 417 = 517 X = 567


z = -1 z=0 z = 0,50

Luas total = 0,3413 + 0,1915 = 0,5328

Gambar 5.4 Proporsi skor dalam distribusi antara dua skor mentah.

contoh. Lampiran A memberi tahu kita bahwa 0,8413 dari distribusi berada di bawah nilai z 1,00.
Ingat bahwa rata-rata dari distribusi normal membaginya tepat menjadi dua, sehingga 50% dari distribusi (yaitu,
.50) akan jatuh di bawah rata-rata. .8413 – .50 = .3413, jadi sekarang saya tahu bahwa 34,13% dari distribusi
normal akan berada di antara mean dan skor z 1,00. Dengan menggunakan proses yang sama, kita dapat
melihat bahwa 69,15% dari distribusi berada di bawah skor z 0,50, jadi 19,15% akan berada di antara mean
dan skor z 0,50. Sekarang, ingatlah bahwa salah satu skor z adalah positif (yaitu, di atas rata-rata) dan yang
lainnya negatif (yaitu, di bawah rata-rata), jadi jika kita menjumlahkan kedua area ini, kita akan menemukan
persentase total dari distribusi yang antara dua skor z ini : .3413 + .1915 = .5328, atau 53,28%.

Langkah 3: Akui kekalahan dengan cara yang pahit dan defensif. "Ha ha," katamu pada temanmu. “Bukan 50%
dari populasi yang mendapat nilai antara Anda dan saya pada tes SAT-matematika. Itu 53,28%!” (Lihat Gambar
5.4.)

Akhirnya, kita dapat menggunakan skor z dan skor persentil untuk menentukan proporsi skor dalam distribusi
normal yang berada di antara dua skor mentah pada sisi rata-rata yang sama. Misalnya, Anda memiliki teman lain
yang mendapat nilai mentah 617 pada tes SAT-matematika. Sekarang Anda ingin menentukan proporsi populasi yang
mendapat skor antara 617 dan 567 pada tes.
Inilah yang Anda lakukan.

Langkah 1: Pertama, ubah setiap skor mentah menjadi skor z . Ingat rata-rata (µ = 517) dan simpangan baku (ÿ =
100) dan kemudian masukkan angka-angka ini ke dalam rumus skor z :

Skor z teman 1

567 517
z=
100

50
z=
100

z = .50
Machine Translated by Google

44 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Skor z teman 2

617 517
z=
100

100
z=
100

z = 1,00

Langkah 2: Sekarang kita memiliki skor z , kita perlu melihat pada Lampiran A untuk mengetahui
persentase distribusi normal yang berada di antara mean dan skor z 1,00 dan persentase distribusi
yang berada di antara mean dan skor z 0,50.
Ingat dari contoh kita sebelumnya bahwa nilai-nilai ini adalah 34,13% untuk skor z 1,00 dan 19,15%
untuk skor z 0,50. Perhatikan bahwa sekarang kita berurusan dengan dua skor z positif dalam contoh
kita karena kedua skor mentah berada di atas rata-rata populasi. Untuk menentukan persentase total
distribusi yang berada di antara dua skor z ini , kita perlu mengurangi proporsi yang lebih kecil dari
proporsi yang lebih besar: .3413 – .1915 = .1498.
Perhatikan bahwa jika kita hanya menggunakan persentase distribusi di bawah masing-masing skor
z ini , seperti yang disajikan dalam Lampiran A, kita akan mendapatkan jawaban akhir yang sama:
84,13% – 69,15% = 14,98%.
Langkah 3: Gosokkan hasilnya di wajah Teman 1. "Ha ha! Sahabat baruku mendapat skor itu
14,98 poin persentil lebih tinggi dari milikmu!” (Lihat Gambar 5.5 untuk grafik.)

Contoh-contoh yang baru saja disajikan mewakili penggunaan skor z yang berguna untuk memahami
baik distribusi skor secara keseluruhan maupun skor individu dalam distribusi tersebut. Penting untuk dicatat
bahwa menggunakan skor z untuk menemukan skor persentil hanya tepat jika data dalam distribusi
terdistribusi normal. Bila Anda tidak memiliki distribusi normal, skor z yang Anda hitung terlambat tidak akan
menghasilkan skor persentil yang akurat. (Lihat Bab 4 untuk diskusi tentang pentingnya distribusi normal.)
Dimungkinkan untuk menghitung skor persentil tanpa memiliki distribusi normal. Untuk melakukan ini, Anda
tidak mengonversi skor z menjadi skor persentil. Sebaliknya, Anda mengurutkan urutan data Anda dan
menemukan skor di mana persentase tertentu dari skor jatuh di atas dan tertentu

Luas = 0.1915

0,3413 – 0,1915 = 0,1498

Luas = 0,3413

= 517 X = 567 X = 617


z=0 z = 0,50 z=1

Gambar 5.5 Proporsi skor dalam distribusi antara dua skor mentah (keduanya di atas rata-rata).
Machine Translated by Google

Standarisasi dan Skor z 45

persentase jatuh di bawah. Ini persis prosedur yang Anda gunakan untuk menemukan median dari distribusi
frekuensi sederhana di Bab 3. Bagaimanapun, median hanyalah skor yang menandai persentil ke-50 dalam
sebuah distribusi.
Skor standar digunakan dalam berbagai statistik dan mungkin paling membantu untuk membandingkan
skor yang diukur dengan menggunakan skala pengukuran yang berbeda. Seperti dibahas sebelumnya dalam
bab ini, sulit untuk membandingkan dua skor yang diukur pada skala yang berbeda (misalnya, tinggi dan
berat badan) tanpa terlebih dahulu mengubahnya menjadi unit pengukuran yang sama. Standarisasi skor
hanyalah proses konversi ini. Di bagian akhir bab ini, saya menyajikan dan menjelaskan secara singkat dua
distribusi skor yang dijelaskan oleh skor mentah dan skor z .

Contoh: Membandingkan Skor Mentah dan Skor z


Untuk mengilustrasikan tumpang tindih antara skor mentah dan skor z standar , pertama-tama saya
menyajikan data dari sampel siswa sekolah dasar dan menengah yang datanya saya kumpulkan beberapa tahun lalu.
Saya memberi para siswa ini sebuah survei untuk menilai keyakinan dan sikap motivasional mereka tentang
tes prestasi standar yang akan mereka ikuti minggu berikutnya. Salah satu item dalam survei tersebut
berbunyi, “Tes ITBS akan mengukur seberapa pintar saya.” Siswa menjawab pertanyaan ini menggunakan
skala 8 poin dengan 1 = “sangat tidak setuju” dan 8 = “sangat setuju.” Distribusi frekuensi disajikan pada
Gambar 5.6. Distribusi ini memiliki mean 5,38 dan standar deviasi 2,35.
Seperti yang Anda lihat, ini bukan distribusi normal berbentuk lonceng. Distribusi ini memiliki semacam
bentuk aneh di mana ada tanda distribusi normal di Skor 2 hingga 7 tetapi kemudian ada "paku" di ujungnya,
terutama di ujung atas. Hasilnya adalah distribusi asimetris.
Jika Anda membandingkan skor z di atas setiap kolom dengan skor mentah di bagian bawah setiap kolom,
Anda dapat melihat bagaimana skor ini terkait satu sama lain. Misalnya, kita dapat melihat bahwa semua
skor mentah 5 atau lebih rendah memiliki skor z negatif. Ini karena rata-rata suatu distribusi selalu memiliki
skor z 0, dan setiap skor mentah di bawah rata-rata akan memiliki skor z negatif. Dalam distribusi ini,
meannya adalah 5,38, jadi semua skor mentah 5 dan di bawahnya memiliki skor z negatif dan semua skor
mentah 6 atau lebih tinggi memiliki skor z positif.
Ciri lain dari distribusi ini yang diilustrasikan dengan jelas oleh skor z adalah bahwa terdapat rentang skor
yang lebih besar di bawah rata-rata daripada di atas rata-rata. Ini cukup jelas, karena rata-ratanya jauh di
atas titik tengah pada skala ini. Skor tertinggi dalam distribusi ini hanya sedikit lebih dari 1 standar deviasi di
atas mean (z = 1,12), sedangkan skor terendah hampir 2 standar deviasi di bawah mean (z = -1,86).
Akhirnya, dimasukkannya standar

200
z = 1,12
180

160

140

120 z = 0,27
z = –0,16
100
z = –1,86 z = 0,69
80
z = –0,59
60
z = -1,01
40 z = –1.44

20

0
1 2345678
Skor mentah

Gambar 5.6 Distribusi frekuensi untuk item “Tes akan menunjukkan seberapa pintar saya”.
Machine Translated by Google

46 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

500
z = 0,54
450
400
350

300

250

200

150
z = –0,21
100
z = –0,96
z = –1,71
50 z = -2,47
z = -4,72 z = -3,97 z = -3,22
0
1 2345678
Skor mentah

Gambar 5.7 Distribusi frekuensi untuk item “Penting untuk dilakukan dengan baik”.

skor deviasi dengan setiap skor mentah memungkinkan kita untuk segera menentukan berapa banyak
standar deviasi dari rata-rata skor mentah tertentu jatuh. Sebagai contoh, kita dapat melihat bahwa
seorang siswa yang memiliki skor mentah 3 pada variabel ini mencetak tepat 1 standar deviasi di
bawah rata-rata (z = -1,01).
Untuk contoh kedua kami, saya telah memilih variabel dengan standar deviasi yang jauh lebih kecil.
Menggunakan skala 8 poin yang sama yang dijelaskan sebelumnya, siswa diminta untuk menanggapi
item “Saya pikir penting untuk melakukannya dengan baik pada tes ITBS.” Siswa sangat setuju dengan
pernyataan ini, sebagai mean (7,28) dan standar deviasi yang relatif kecil (1,33). Distribusi frekuensi
skor pada item ini disajikan pada Gambar 5.7.
Dalam grafik ini, kita dapat melihat bahwa distribusinya sangat miring, dengan sebagian besar siswa
melingkari angka 8 pada skala. Karena begitu banyak siswa yang menjawab sama, standar deviasinya
cukup kecil, dengan hanya sedikit skor di ujung bawah distribusi. Standar deviasi yang kecil ditambah
dengan mean yang tinggi menciptakan situasi di mana skor yang sangat rendah pada skala memiliki
skor z yang sangat kecil. Misalnya, beberapa siswa dengan skor mentah 1 pada skala (n = 7) memiliki
skor z -4,72, menunjukkan bahwa siswa ini lebih dari 4ÿ standar deviasi di bawah rata-rata. Para siswa
dengan skor tertinggi pada skala hanya sekitar setengah standar deviasi di atas rata-rata karena,
dengan rata-rata yang tinggi, tidak mungkin mendapatkan skor yang sangat jauh di atas rata-rata.

Dua contoh yang diberikan sebelumnya menggambarkan hubungan antara skor z dan skor mentah
untuk distribusi yang miring. Harap dicatat bahwa karena data ini tidak terdistribusi secara normal, tidak
tepat untuk menghitung skor persentil dari skor z yang diperoleh dari data ini. Jika Anda memang perlu
menghitung skor persentil dari distribusi miring atau tidak normal, Anda dapat menggunakan metode
peringkat yang dijelaskan sebelumnya dalam bab ini. Dalam kedua distribusi yang disajikan pada
Gambar 5.6 dan 5.7, rata-rata berada di atas titik tengah skala, dan selanjutnya terdapat rentang skor
z yang lebih besar di bawah daripada di atas rata-rata. Tidak demikian halnya ketika skor terdistribusi
normal. Untuk mengilustrasikan hal ini, saya menggunakan data dari kumpulan data yang berbeda.
Saya menggunakan survei untuk mengukur sampel tujuan motivasi siswa sekolah menengah di
sekolah. Satu tujuan yang saya ukur dikenal sebagai tujuan pendekatan kinerja. Tujuan ini mencerminkan
kepedulian, atau keinginan, untuk mengungguli teman sekelas dan teman sebaya demi menunjukkan
kemampuan superior. Item dalam survei diukur dengan menggunakan skala dari 1 hingga 5 (1 = “sama
sekali tidak benar” dan 5 = “ sangat benar"). Distribusi frekuensi disajikan pada Gambar 5.8.
Distribusi skor ini memiliki rata-rata 3,00 dan standar deviasi 0,92. Seperti yang Anda lihat, data
terdistribusi cukup normal. Ketika data terdistribusi normal, kita akan mengharapkan sebagian besar
kasus kita memiliki skor z pada atau mendekati nol karena dalam distribusi normal, sebagian besar
kasus mendekati mean. Perhatikan juga bahwa saat kita bergerak lebih jauh dari mean
Machine Translated by Google

Standarisasi dan Skor z 47

90
z=0
80
70
60 z = -1,08 z = 1,08
50
40
30
z = -2,15 z = 2,15
20
10
0
1234 5
Skor mentah

Gambar 5.8 Distribusi frekuensi untuk tujuan pendekatan kinerja.

(yaitu, skor z lebih dari 2.0 atau kurang dari –2.0), ada lebih sedikit kasus. Dalam distribusi normal,
maka, probabilitas menemukan skor z tertentu menjadi lebih kecil karena nilai skor z bergerak
lebih jauh dari nol. Seperti yang diilustrasikan Gambar 5.6 dan 5.7, hal ini tidak selalu terjadi pada
distribusi miring.

Mengakhiri dan Menantikan


Skor z memberikan cara praktis untuk menafsirkan di mana skor mentah dalam kaitannya dengan mean.
Kita dapat menggunakan skor z untuk dengan cepat dan mudah menentukan di mana skor individu
dalam distribusi jatuh relatif terhadap skor lain dalam distribusi, baik dengan menafsirkan skor z dalam
satuan deviasi standar atau dengan menghitung skor persentil. Menggunakan tabel probabilitas
berdasarkan distribusi normal yang disajikan dalam Lampiran A, kita juga dapat menggunakan skor z
untuk menentukan seberapa tidak biasa skor yang diberikan dalam suatu distribusi (yaitu, probabilitas
memperoleh skor individu dengan ukuran tersebut ketika memilih individu pada acak). Dalam bab
berikutnya, saya akan menggunakan informasi tentang mean, deviasi standar, distribusi normal, skor z ,
dan probabilitas untuk menjelaskan salah satu konsep terpenting dalam statistik: kesalahan standar.

Daftar Istilah dan Simbol untuk Bab 5


Skor persentil: Skor yang menunjukkan titik dalam distribusi di mana persentase tertentu dari
skor dalam distribusi jatuh di atas dan di bawah. Misalnya, skor yang menandai persentil
ke-50 dalam suatu distribusi menunjukkan bahwa 50% skor dalam distribusi tersebut
berada di atas skor tersebut dan 50% berada di bawahnya.
Skor mentah: Ini adalah skor individu yang diamati pada variabel yang diukur.
Skor standar: Skor mentah yang telah diubah menjadi skor z dengan mengurangkannya dari
mean dan membaginya dengan standar deviasi distribusi. Ini adalah skor individual yang
dinyatakan sebagai deviasi dari mean dalam satuan standar deviasi.
Standardisasi: Proses mengubah skor mentah menjadi skor standar.
skor z : Istilah lain untuk skor standar.

z Skor standar.
X Skor mentah.
Rata -rata populasi.
Standar deviasi populasi.
Machine Translated by Google
Machine Translated by Google

Bab 6
Kesalahan Standar

Konsep kesalahan standar adalah salah satu yang membingungkan banyak siswa statistik ketika mereka
pertama kali menemukannya. Sejujurnya, ada banyak siswa, dan banyak peneliti, yang tidak pernah
sepenuhnya memahami konsep tersebut. Saya yakin bahwa banyak orang memiliki masalah dalam memahami
kesalahan standar karena mereka memerlukan sedikit lompatan ke abstrak dan karena, dengan munculnya
program komputer, adalah mungkin untuk menjalani kehidupan penelitian yang panjang dan produktif tanpa
harus memikirkannya. atau menganalisis kesalahan standar selama bertahun-tahun pada suatu waktu. Oleh
karena itu, banyak peneliti memilih untuk mengabaikan konsep abstrak ini. Ini adalah kesalahan. Saya
memegang pendapat ini karena, sebagai guru statistik, saya telah belajar bahwa ketika seseorang dapat
benar-benar memahami konsep kesalahan standar, banyak statistik inferensial yang paling kita sukai (uji t ,
ANOVA, koefisien regresi, korelasi) menjadi mudah. untuk mengerti. Jadi izinkan saya memberikan saran ini:
Teruslah berusaha untuk memahami isi bab ini, dan informasi lain yang Anda dapatkan tentang kesalahan
standar, bahkan jika Anda merasa bingung saat pertama atau kedua kali Anda membacanya. Dengan sedikit
usaha dan kesabaran, Anda dapat memahami kesalahan standar dan banyak statistik yang bergantung padanya.

Apa itu Kesalahan Standar?

Ada dua jawaban untuk pertanyaan ini. Pertama, ada jawaban teknis, yang merupakan definisi kesalahan
standar. Sebuah kesalahan standar, pada dasarnya, adalah standar deviasi dari distribusi sampling dari
beberapa statistik (misalnya, rata-rata, perbedaan antara dua rata-rata, koefisien korelasi, dll). Saya menyadari
bahwa ini tidak masuk akal sampai Anda mengetahui apa itu distribusi sampling, dan saya menjelaskannya di
bagian selanjutnya dari bab ini. Untuk saat ini, saya sarankan Anda mengulangi definisi untuk diri sendiri 10
kali: "Kesalahan standar, pada dasarnya, adalah standar deviasi dari distribusi sampling dari beberapa
statistik."
Jawaban kedua adalah bahwa kesalahan standar adalah penyebut dalam rumus yang digunakan untuk
menghitung banyak statistik inferensial. Dalam bab berikut, Anda akan melihat galat standar sebagai penyebut
dalam banyak rumus. Ini karena kesalahan standar adalah ukuran seberapa banyak variasi acak yang kita
harapkan dari sampel dengan ukuran yang sama yang diambil dari populasi yang sama. Sekali lagi, lihat
kalimat sebelumnya, pikirkan, dan yakinlah bahwa itu dijelaskan lebih rinci dalam beberapa halaman berikutnya.

Kesalahan Standar dalam Kedalaman

Deskripsi Konseptual Kesalahan Standar Mean


Untuk memulai diskusi yang lebih rinci tentang kesalahan standar ini, saya memperkenalkan komponen
esoteris dari konsep tersebut. Ini adalah bagian yang mungkin perlu Anda baca beberapa kali agar meresap.
Meskipun ada kesalahan standar untuk semua statistik, kami akan fokus pada kesalahan standar rata-rata.
Ketika kita memikirkan distribusi skor, kita memikirkan sejumlah skor tertentu yang diplot dalam semacam
grafik frekuensi untuk membentuk distribusi (lihat Bab 2 dan 4). Dalam ini

49
Machine Translated by Google

50 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 6.1 Populasi Nilai


Ujian Akhir Siswa
Siswa Skor pada Ujian Akhir

Siswa 1 3
Siswa 2 6
Siswa 3 6
Siswa 4 7
Siswa 5 9

distribusi, setiap kasus memiliki skor yang merupakan bagian dari distribusi. Sama seperti distribusi frekuensi
sederhana ini diplot, atau digrafik, kita juga dapat memplot distribusi mean sampel.
Bayangkan kita ingin mencari ukuran sepatu rata-rata wanita dewasa di Amerika Serikat. Dalam penelitian ini,
populasi yang kami minati adalah semua wanita dewasa Amerika. Tetapi akan mahal dan membosankan untuk
mengukur ukuran sepatu semua wanita dewasa Amerika. Jadi kami memilih sampel 100 wanita, secara acak,
dari populasi kami. Pada titik ini, sangat penting untuk menyadari bahwa sampel kami dari 100 wanita mungkin
atau mungkin tidak terlihat seperti wanita Amerika pada umumnya (dalam hal ukuran sepatu). Ketika kita memilih
sampel secara acak, dimungkinkan untuk mendapatkan sampel yang mewakili ujung populasi yang ekstrem
(misalnya, sampel dengan ukuran sepatu rata-rata yang luar biasa besar). Jika kita membuang sampel wanita
pertama kita kembali ke populasi umum dan memilih sampel acak lain dengan ukuran yang sama (yaitu, 100),
ada kemungkinan bahwa sampel kedua ini mungkin memiliki ukuran sepatu rata-rata yang cukup berbeda dari
ukuran sepatu kita. sampel pertama.
Setelah Anda menyadari bahwa sampel acak yang berbeda dengan ukuran yang sama dapat menghasilkan
skor rata-rata yang berbeda pada beberapa variabel (misalnya, ukuran sepatu rata-rata yang berbeda), langkah
selanjutnya dalam teka-teki konseptual ini adalah mudah: Jika kita mengambil 1.000 sampel acak wanita yang
berbeda, masing-masing dari 100, dan hitung ukuran sepatu rata-rata dari setiap sampel, 1.000 sampel rata-rata
ini akan membentuk distribusinya sendiri. Distribusi ini akan disebut distribusi sampling dari mean.
Untuk mengilustrasikan konsep ini, mari kita perhatikan contoh dengan populasi kecil (N = 5). Misalkan
populasi saya terdiri dari lima mahasiswa yang terdaftar dalam seminar tentang statistik. Karena seminarnya
kecil, kelima mahasiswa ini mewakili seluruh populasi seminar ini. Para siswa ini masing-masing mengikuti ujian
akhir yang diberi skor pada skala dari 1 hingga 10, dengan skor yang lebih rendah menunjukkan kinerja yang
lebih buruk dalam ujian. Nilai untuk setiap siswa disajikan pada Tabel 6.1, disusun dalam urutan menurun sesuai
dengan seberapa baik mereka mengerjakan ujian.
Jika saya memilih sampel acak dua siswa dari populasi ini (n = 2), saya mungkin mendapatkan siswa 2 dan
siswa 5. Sampel ini akan memiliki rata-rata 7,5 karena [(6 + 9) 2 = 7,5]. Jika saya memasukkan kedua siswa itu
kembali ke dalam populasi dan secara acak memilih sampel 2 lainnya, saya mungkin mendapatkan Siswa 4 dan
Siswa 5. Sampel ini akan memiliki rata-rata 8 karena [(7 + 9) 2 = 8]. Saya menempatkan siswa tersebut kembali
ke dalam populasi dan secara acak memilih sampel lain dari 2, seperti Siswa 1 dan 3. Sampel ini akan memiliki
rata-rata 4,5. Seperti yang Anda lihat, hanya berdasarkan yang termasuk dalam setiap sampel acak yang saya
pilih dari populasi saya, saya mendapatkan rata-rata sampel yang berbeda. Sekarang jika saya mengulangi
proses pemilihan sampel secara acak dari dua siswa dari populasi saya, menghitung rata-rata mereka, dan
mengembalikan anggota sampel ke populasi (disebut pengambilan sampel dengan penggantian), pada akhirnya
saya akan mendapatkan distribusi rata-rata sampel yang akan terlihat seperti distribusi yang disajikan pada
Gambar 6.1. Seperti yang Anda lihat, sarana ini membentuk distribusi. Contoh ini mengilustrasikan bagaimana
sampel acak dengan ukuran tertentu yang dipilih dari suatu populasi akan menghasilkan distribusi rata-rata
sampel, yang pada akhirnya membentuk distribusi sampel rata-rata.

Sama seperti distribusi lain yang telah kita bahas memiliki mean dan standar deviasi, distribusi sampling mean
ini juga memiliki karakteristik ini. Untuk membedakan distribusi sampling dari distribusi frekuensi sederhana,
mean dan standar deviasi dari distribusi sampling mean memiliki nama khusus. Rata-rata distribusi sampling dari
Machine Translated by Google

Kesalahan Standar 51

25

20

15

10

0
4,5 5 6 6.5 7.5 8
Cara

Gambar 6.1 Distribusi sampel mean.

rata-rata disebut nilai yang diharapkan dari rata-rata. Disebut nilai harapan karena rata-rata distribusi
sampling dari mean sama dengan mean populasi. Ketika kita memilih sampel dari populasi, tebakan terbaik
kita adalah bahwa mean untuk sampel akan sama dengan mean untuk populasi, jadi mean yang diharapkan
akan menjadi mean populasi. Standar deviasi dari distribusi sampling rata-rata disebut kesalahan standar.
Jadi kesalahan standar hanyalah standar deviasi dari distribusi sampling.

Langkah terakhir dalam memahami konsep kesalahan standar rata-rata adalah memahami apa yang
dikatakan statistik ini kepada kita. Jika Anda mengingat kembali diskusi tentang simpangan baku pada Bab
3, Anda akan ingat bahwa simpangan baku memberitahu kita perbedaan rata-rata, atau simpangan, antara
skor individu dalam distribusi dan rata-rata untuk distribusi. Kesalahan standar rata-rata memberikan
informasi yang pada dasarnya sama, kecuali mengacu pada perbedaan rata-rata antara nilai yang
diharapkan (misalnya, rata-rata populasi) dan rata-rata sampel individu. Jadi salah satu cara untuk
memikirkan kesalahan standar rata-rata adalah bahwa hal itu memberi tahu kita seberapa yakin kita
seharusnya bahwa rata-rata sampel mewakili rata-rata populasi yang sebenarnya. Diungkapkan dengan
cara lain, kesalahan standar rata-rata memberikan ukuran seberapa banyak kesalahan yang dapat kita
harapkan ketika kita mengatakan bahwa rata-rata sampel mewakili rata-rata populasi yang lebih besar.
Itulah mengapa disebut kesalahan standar. Mengetahui berapa banyak kesalahan yang dapat kita harapkan
ketika memilih sampel dengan ukuran tertentu dari suatu populasi sangat penting dalam membantu kita
menentukan apakah statistik sampel kita, seperti rata-rata sampel, berbeda secara bermakna dari parameter populasi, seperti r
Ini adalah dasar dari semua statistik inferensial yang dibahas dalam bab-bab selanjutnya. Grafik yang
menggambarkan distribusi sampling rata-rata disajikan pada Gambar 6.2.

f
Distribusi sampel
berarti

X seks

Nilai Mean yang Diharapkan

Gambar 6.2 Distribusi sampel mean.


Machine Translated by Google

52 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Cara Menghitung Kesalahan Standar

Sebagian besar waktu, peneliti tidak mengambil 1.000 sampel dengan ukuran yang sama dari populasi dan
kemudian mencari rata-rata dan standar deviasi dari distribusi rata-rata sampel ini. Faktanya, sebagian besar
waktu, peneliti mengumpulkan data hanya dari satu sampel, dan kemudian menggunakan sampel ini untuk
membuat kesimpulan tentang populasi dari mana sampel itu diambil. Bagaimana kita bisa membuat kesimpulan
tentang populasi yang lebih besar berdasarkan sampel tunggal?
Untuk membuat kesimpulan seperti itu tentang populasi dari sampel tunggal, peneliti harus menggunakan
apa yang mereka ketahui tentang sampel mereka untuk membuat tebakan, atau perkiraan, tentang populasi.
Saya mendemonstrasikan konsep ini menggunakan contoh ukuran sepatu yang disebutkan sebelumnya.
Misalkan saya memiliki sampel acak 100 wanita. Sekarang jika sampel ini benar-benar dipilih secara acak (yaitu,
setiap wanita dewasa di Amerika Serikat memiliki kesempatan yang sama untuk dipilih), asumsi saya yang
paling logis adalah bahwa sampel ini mewakili populasi yang lebih besar secara akurat. Oleh karena itu, saya
harus berasumsi bahwa ukuran sepatu rata-rata sampel saya (misalkan 6) juga merupakan ukuran sepatu rata-
rata dari populasi yang lebih besar. Tentu saja, saya tidak tahu apakah ini benar. Sebenarnya, seperti yang
telah dibahas sebelumnya, ada alasan bagus untuk percaya bahwa sampel saya mungkin tidak mewakili populasi saya dengan baik.
Tetapi jika satu-satunya informasi yang saya miliki tentang ukuran sepatu wanita dewasa AS berasal dari sampel
saya yang terdiri dari 100 wanita, tebakan terbaik saya tentang seperti apa populasi wanita yang lebih besar
adalah bahwa mereka mirip dengan sampel 100 wanita ini. Sekarang saya dihadapkan pada pertanyaan kritis:
Ketika saya menebak bahwa populasi wanita di Amerika Serikat memiliki ukuran sepatu rata-rata 6 (berdasarkan
rata-rata sampel saya), berapa banyak kesalahan yang dapat saya harapkan dalam estimasi ini? Dengan kata
lain, apa kesalahan standar?
Untuk menjawab pertanyaan ini, saya harus memeriksa dua karakteristik sampel saya. Pertama, seberapa
besar sampel saya? Semakin besar sampel saya, semakin sedikit kesalahan yang seharusnya saya miliki dalam
perkiraan saya tentang populasi. Ini masuk akal karena semakin besar sampel saya, semakin banyak sampel
saya yang akan terlihat seperti populasi saya, dan semakin akurat perkiraan saya tentang populasi saya. Jika
ada 100 juta singa betina di Amerika Serikat dan saya menggunakan sampel 50 juta untuk memprediksi ukuran
sepatu rata-rata mereka, saya berharap prediksi ini lebih akurat daripada prediksi berdasarkan sampel 100
wanita. Oleh karena itu, semakin besar sampel saya, semakin kecil kesalahan standar saya.
Karakteristik kedua dari sampel saya yang perlu saya periksa adalah standar deviasi.
Ingatlah bahwa standar deviasi adalah ukuran seberapa banyak variasi yang ada dalam skor dalam sampel
saya. Jika skor dalam sampel saya sangat beragam (yaitu, banyak variasi, standar deviasi yang besar), saya
dapat berasumsi bahwa skor dalam populasi saya juga cukup beragam. Jadi, jika beberapa wanita dalam
sampel saya memiliki sepatu ukuran 2 dan yang lainnya memiliki sepatu ukuran 14, saya dapat berasumsi
bahwa ada juga variasi ukuran sepatu yang cukup besar dalam populasi saya. Di sisi lain, jika semua wanita
dalam sampel saya memiliki ukuran sepatu baik 5, 6, atau 7, saya dapat berasumsi bahwa sebagian besar
wanita dalam populasi yang lebih besar memiliki variasi ukuran sepatu yang sama kecilnya. Meskipun asumsi
tentang populasi ini mungkin tidak benar (misalnya, saya mungkin telah memilih sampel yang bias dari populasi),
saya harus mengandalkan mereka karena hanya ini informasi yang saya miliki. Jadi, semakin besar deviasi
standar sampel, semakin besar variasi skor yang diasumsikan dalam populasi, dan akibatnya semakin besar
kesalahan standar mean. (Catatan: Dalam kasus di mana saya mengetahui simpangan baku populasi, saya
dapat menggunakannya dalam perhitungan kesalahan standar rata-rata. Lihat Tabel 6.2 untuk rumus itu.)

Pemeriksaan rumus untuk menghitung kesalahan standar rata-rata mengungkapkan peran sentral dari
standar deviasi sampel (atau standar deviasi populasi, jika diketahui) dan ukuran sampel dalam menentukan
kesalahan standar. Seperti yang Anda lihat, rumusnya hanyalah simpangan baku dari sampel atau populasi
dibagi dengan akar kuadrat dari n, ukuran sampel. Seperti halnya semua pecahan, semakin besar pembilangnya,
begitu juga kesalahan standar yang dihasilkan. Demikian pula, ketika ukuran penyebut berkurang, kesalahan
standar yang dihasilkan meningkat. Sampel kecil dengan deviasi standar yang besar menghasilkan kesalahan
standar yang besar, karena karakteristik ini membuat lebih sulit untuk memiliki keyakinan bahwa sampel kami
secara akurat mewakili populasi kami. Sebaliknya,
Machine Translated by Google

Kesalahan Standar 53

Tabel 6.2 Rumus untuk Menghitung


Kesalahan Standar Mean

=
x
n
atau
s-
= s
x
n

dimana = simpangan baku untuk populasi


s = estimasi sampel deviasi standar
n = ukuran sampel

sampel besar dengan standar deviasi kecil akan menghasilkan kesalahan standar yang kecil, karena
karakteristik seperti itu membuat sampel kami lebih mungkin mewakili populasi kami secara akurat.

Teorema Limit Pusat

Sederhananya, teorema limit pusat menyatakan bahwa selama Anda memiliki ukuran sampel yang cukup
besar (misalnya, n = 30), distribusi sampling dari mean akan terdistribusi secara normal, bahkan jika distribusi
skor dalam sampel Anda tidak. Dalam bab-bab sebelumnya (yaitu, Bab 2 dan 4), saya membahas distribusi
yang tidak berbentuk kurva lonceng normal yang bagus. Apa yang dibuktikan oleh teorema limit pusat adalah
bahwa bahkan ketika Anda memiliki distribusi yang tidak normal dalam populasi Anda, distribusi pengambilan
sampel dari mean kemungkinan besar akan mendekati distribusi yang bagus, normal, berbentuk lonceng
selama Anda memiliki setidaknya 30 kasus di Anda Sampel. Bahkan jika Anda memiliki kurang dari 30 kasus
dalam sampel Anda, distribusi sampling rata-rata mungkin akan mendekati normal jika Anda memiliki setidaknya
10 kasus dalam sampel Anda. Bahkan dalam contoh kami sebelumnya di mana kami hanya memiliki dua kasus
per sampel, distribusi sampling rata-rata memiliki awal bentuk yang tidak normal.

Meskipun di sini kita tidak membahas mengapa teorema limit pusat bekerja, Anda perlu memahami mengapa
kebenaran teorema ini sangat penting. Seperti yang saya bahas di Bab 4, sejumlah statistik bergantung pada
probabilitas yang dihasilkan dari distribusi normal. Sebagai contoh, saya mungkin ingin tahu apakah skor tes
IQ rata-rata dari sampel 50 orang dewasa di California berbeda dari populasi orang dewasa yang lebih besar.
Jika sampel saya memiliki skor tes IQ rata-rata 110, dan rata-rata nasional adalah 100, saya dapat melihat
bahwa rata-rata sampel saya berbeda dari rata-rata populasi sebesar 10 poin. Apakah 10 poin perbedaan yang
berarti atau sepele? Untuk menjawab pertanyaan itu, saya harus dapat menemukan peluang mendapatkan
selisih 10 poin secara acak. Dengan kata lain, jika saya memilih sampel acak lain dari 50 orang dewasa dari
California dan menghitung skor tes IQ rata-rata mereka, berapa peluang mereka akan memiliki rata-rata 10
poin lebih tinggi dari rata-rata nasional 100? Untuk menentukan probabilitas ini, saya harus memiliki distribusi
rata-rata sampel yang normal, atau distribusi rata-rata sampling yang normal. Teorema limit pusat menunjukkan
bahwa selama saya memiliki ukuran sampel paling sedikit 30, distribusi sampling rata-rata saya cenderung
mendekati distribusi normal.

Distribusi Normal dan Distribusi t: Membandingkan Skor z dan Nilai t


Dalam Bab 5, kita mempelajari bagaimana menentukan probabilitas pemilihan secara acak kasus individual
dengan skor tertentu pada beberapa variabel dari populasi dengan rata-rata yang diberikan pada variabel
tersebut. Kami melakukan ini dengan mengubah skor mentah menjadi skor z . Sekarang setelah kita mengetahui
cara menghitung kesalahan standar, kita dapat menggunakan skor z lagi untuk menentukan probabilitas
pemilihan sampel secara acak dengan rata-rata tertentu pada variabel dari populasi dengan rata-rata tertentu
pada variabel yang sama. Kita juga dapat menggunakan keluarga distribusi t untuk menghasilkan nilai t untuk
mengetahui jenis probabilitas yang sama. Untuk menjelaskan hal ini, saya akan mulai dengan membandingkan
distribusi normal dengan keluarga distribusi t .
Machine Translated by Google

54 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Sebagaimana dibahas dalam Bab 4, distribusi normal adalah distribusi teoritis dengan
bentuk lonceng dan didasarkan pada gagasan data populasi. Kita juga tahu bahwa probabilitas
yang terkait dengan skor z berhubungan dengan distribusi normal (Bab 5). Selain itu, kita
tahu bahwa simpangan baku yang diperoleh dari data sampel hanyalah perkiraan simpangan
baku populasi (Bab 3). Karena rumus untuk menghitung deviasi standar sampel memiliki n –
1 dalam penyebut, kita juga tahu bahwa semakin kecil sampel, semakin kurang tepat deviasi
standar sampel memperkirakan deviasi standar populasi. Akhirnya, kita tahu bahwa rumus
kesalahan standar (Tabel 6.2) sebagian didasarkan pada simpangan baku.
Ketika kita menggabungkan semua informasi ini, kita berakhir dengan sedikit dilema.
Jika kita dapat menggunakan kesalahan standar untuk menghasilkan skor z dan probabilitas, dan
skor z dan probabilitas ini didasarkan pada distribusi normal, apa yang kita lakukan dalam kasus
di mana kita menggunakan data sampel dan kita memiliki sampel kecil? Tidakkah sampel kecil
kami akan memengaruhi kesalahan standar kami? Dan tidakkah kesalahan standar ini akan
mempengaruhi skor z kita? Akankah skor dan probabilitas z kita akurat jika kita memiliki sampel
kecil? Untungnya, kekhawatiran ini telah ditangani oleh otak yang lebih besar dari saya. Ternyata
distribusi normal memiliki keluarga kerabat dekat: keluarga distribusi t . Distribusi ini sangat mirip
dengan distribusi normal, kecuali bentuk distribusi t dipengaruhi oleh ukuran sampel. Dengan
sampel yang besar (misalnya > 120), bentuk distribusi t hampir identik dengan distribusi normal.
Namun, ketika ukuran sampel berkurang, bentuk distribusi t menjadi lebih rata di tengah dan lebih
tinggi di ujungnya. Dengan kata lain, ketika ukuran sampel berkurang, akan ada lebih sedikit kasus
di dekat rata-rata dan lebih banyak kasus yang jauh dari rata-rata, di bagian ekor distribusi. Seperti
halnya distribusi normal, distribusi t juga masih simetris.
Sama seperti kita menggunakan tabel z (Lampiran A) untuk menemukan probabilitas yang terkait dengan
distribusi normal, kita menggunakan tabel nilai t (Lampiran B) untuk menemukan probabilitas yang terkait dengan t
distribusi. Sepanjang kolom kiri Lampiran B adalah nomor dalam urutan menaik. Ini adalah derajat kebebasan dan
mereka berhubungan langsung dengan ukuran sampel. Untuk menggunakan tabel ini, Anda cukup menghitung
nilai t (menggunakan rumus yang pada dasarnya sama dengan yang Anda gunakan untuk mencari skor z ) dan
kemudian, dengan menggunakan derajat kebebasan yang sesuai, cari tahu di mana nilai t Anda berada di Lampiran
B untuk menentukan probabilitas menemukan nilai t sebesar itu. Kapan pun Anda tidak mengetahui simpangan
baku populasi dan harus menggunakan perkiraan dari sampel, adalah bijaksana untuk menggunakan keluarga distribusi t .
Berikut adalah contoh untuk menggambarkan ide-ide ini.
Dalam Bab 5, kami menggunakan rumus ini untuk menghitung skor z dari skor mentah:

skor mentah berarti


z=
simpangan baku

atau

X_
z=

di mana
X = skor mentah
= rata-rata populasi
= simpangan baku
Machine Translated by Google

Tabel 6.3 z Skor dan Nilai t Rumus


x
s-

x
Machine Translated by Google

56 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

n = 144

p < 0,001

= 60 X = 65
t = 6,02

Gambar 6.3 Probabilitas menemukan perbedaan antara rata-rata ini secara kebetulan ketika n = 144.

n = 25

~
p = 0,02

= 60 X = 65
t = 2,50

Gambar 6.4 Probabilitas menemukan perbedaan antara rata-rata ini secara kebetulan ketika n = 25.
Machine Translated by Google

Kesalahan Standar 57

Penggunaan Kesalahan Standar dalam Statistik Inferensial

Beberapa jenis kesalahan standar digunakan dalam setiap statistik inferensial, termasuk yang dibahas dalam buku
ini ( uji t, ANOVA, regresi, dll.). Dalam statistik inferensial, kami ingin mengetahui apakah sesuatu yang kami
amati dalam sampel kami mewakili fenomena serupa dalam populasi yang lebih besar dari mana sampel itu diambil.
Misalnya, jika saya membandingkan berat rata-rata sampel 100 pria dengan sampel 100 wanita dan menemukan
bahwa, rata-rata, pria dalam sampel saya memiliki berat 60 pon lebih banyak daripada wanita dalam sampel saya,
saya mungkin ingin tahu apakah saya harus menyimpulkan bahwa, rata-rata, pria dalam populasi yang lebih besar
memiliki berat badan lebih dari wanita dalam populasi.
Demikian pula, jika saya menemukan korelasi (lihat Bab 7) dari r = 0,45 antara tinggi dan berat badan dalam sampel
saya yang terdiri dari 100 pria, saya mungkin ingin mengetahui apakah hubungan antara tinggi dan berat dalam
sampel saya berarti mungkin ada hubungan antara kedua variabel ini pada populasi pria yang lebih besar. Untuk
menjawab pertanyaan-pertanyaan ini, saya perlu menggunakan kesalahan standar.
Dalam banyak rumus statistik inferensial, saya perlu melihat apakah fenomena yang saya amati dalam sampel
saya besar atau kecil relatif terhadap kesalahan standar saya. Ingat dari definisi kesalahan standar yang disajikan
sebelumnya dalam bab ini bahwa kesalahan standar adalah ukuran rata-rata jumlah varians, atau perbedaan, yang
dapat kita harapkan dari sampel yang berbeda dengan ukuran yang sama yang dipilih dari suatu populasi. Jadi,
pertanyaan yang kami ajukan dengan banyak statistik inferensial adalah apakah beberapa statistik yang kami lihat
dalam sampel kami besar atau kecil dibandingkan dengan jumlah varians (atau kesalahan) yang kami harapkan jika
kami secara acak memilih sampel berbeda dengan ukuran yang sama. Pertanyaan ini dapat diringkas dengan
pecahan berikut:

ukuran statistik sampel


kesalahan standar

Sebagai ilustrasi, mari kita kembali ke contoh membandingkan berat rata-rata pria dan wanita. Kita sudah tahu
bahwa, dalam sampel saya, perbedaan antara berat rata-rata pria dan wanita adalah 60 pon. Statistik yang saya
minati di sini adalah perbedaan antara dua cara (yaitu, berat rata-rata pria dan berat rata-rata wanita). Jika saya
memilih dua sampel yang berbeda dengan ukuran yang sama dari populasi pria dan wanita dan menemukan
perbedaan dalam dua rata-rata sampel itu, saya mungkin akan menemukan perbedaan yang lebih besar atau lebih
kecil daripada perbedaan yang saya temukan dalam perbandingan dari dua sampel pertama. Jika saya terus
memilih sampel yang berbeda dan membandingkan rata-ratanya, pada akhirnya saya akan mendapatkan distribusi
sampel dari perbedaan antara rata-rata, dan distribusi pengambilan sampel ini akan memiliki kesalahan standar.

Misalkan kesalahan standar dari distribusi pengambilan sampel ini adalah 10. Mari kita masukkan kesalahan
standar itu ke dalam rumus pecahan yang disajikan sebelumnya:

=
statistik sampel 60
kesalahan standar= 10

Dari rumus ini, saya dapat melihat bahwa perbedaan antara dua rata-rata sampel saya enam kali lebih besar
daripada perbedaan yang saya harapkan hanya karena kesalahan pengambilan sampel acak. Ini menunjukkan
bahwa perbedaan antara dua sampel saya mungkin bukan karena kebetulan. (Perhatikan bahwa kata peluang
mengacu pada pemilihan peluang sampel dengan serangkaian skor dari ujung distribusi yang ekstrem.) Dengan
menggunakan tabel probabilitas berdasarkan distribusi t (lihat Bab 9 dan Lampiran B), saya dapat menghitung
probabilitas yang tepat untuk mendapatkan rasio sebesar ini (yaitu, 60:10, atau 6:1). Jadi, untuk meringkas,
kesalahan standar sering digunakan dalam statistik inferensial untuk melihat apakah statistik sampel kami lebih
besar atau lebih kecil dari perbedaan rata-rata dalam statistik yang kami harapkan terjadi secara kebetulan karena
perbedaan antar sampel. Sekarang saya membahas beberapa contoh untuk menunjukkan pengaruh ukuran sampel
dan standar deviasi pada ukuran kesalahan standar rata-rata.
Machine Translated by Google

58 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Contoh: Ukuran Sampel dan Pengaruh Standar Deviasi pada Kesalahan Standar
Untuk mengilustrasikan pengaruh ukuran sampel dan simpangan baku terhadap ukuran kesalahan standar
rata-rata, mari kita lihat variabel dari kumpulan data yang saya kumpulkan beberapa tahun lalu. Tujuan dari
penelitian ini adalah untuk menguji keyakinan motivasi siswa tentang tes prestasi standar. Saya memeriksa
apakah siswa menganggap penting untuk mengerjakan ujian standar yang akan mereka ikuti di sekolah,
apakah mereka memiliki kecemasan tentang ujian, apakah mereka berharap untuk mengerjakan ujian dengan
baik, apakah mereka menganggap diri mereka sebagai ujian yang baik. pengambil, dan sebagainya.

Salah satu tujuan dari penelitian ini adalah untuk membandingkan keyakinan motivasi siswa sekolah dasar
dengan siswa sekolah menengah. Sampel untuk penelitian ini meliputi 137 siswa kelas lima di sekolah dasar
dan 536 siswa kelas tujuh dan delapan di sekolah menengah. Misalkan kita ingin mengetahui kesalahan
standar mean pada variabel “Saya berharap dapat mengerjakan ujian dengan baik” untuk masing-masing dari
dua kelompok dalam penelitian, siswa sekolah dasar dan siswa sekolah menengah. Untuk menghitung
kesalahan standar ini, kita perlu mengetahui simpangan baku untuk setiap kelompok pada variabel kita dan
ukuran sampel untuk setiap kelompok. Statistik ini disajikan pada Tabel 6.4.

Pandangan sekilas pada standar deviasi untuk setiap kelompok mengungkapkan bahwa mereka sangat
mirip (s = 1,38 untuk sampel sekolah dasar, s = 1,46 untuk sampel sekolah menengah). Namun, karena ada
perbedaan yang cukup besar dalam ukuran kedua sampel, kita harus mengharapkan beberapa kesalahan
standar yang berbeda dari rata-rata untuk setiap kelompok. Kelompok mana yang menurut Anda akan memiliki
kesalahan standar yang lebih besar dari mean?
Ingat dari rumus yang disajikan sebelumnya dalam bab ini bahwa untuk menemukan kesalahan standar
rata-rata, kita hanya perlu membagi simpangan baku dengan akar kuadrat dari ukuran sampel. Untuk sampel
sekolah dasar, kita perlu membagi 1,38 dengan akar kuadrat dari 137. Akar kuadrat dari 137 = 11,70. Saat
kita membagi 1,38 dengan 11,70, kita mendapatkan 0,12. Jadi kesalahan standar rata-rata untuk sampel
dasar adalah 0,12. Mengikuti prosedur yang sama untuk sampel sekolah menengah, kami menemukan bahwa
kesalahan standar rata-rata untuk kelompok ini akan sama dengan 1,46 dibagi dengan akar kuadrat dari 546.
Akar kuadrat dari 546 = 23,37. Saat kita membagi 1,46 dengan 23,37, kita mendapatkan 0,06. Seperti yang
Anda lihat, kesalahan standar rata-rata untuk sampel sekolah menengah (s–x = 0,06) adalah setengah dari
kesalahan standar rata-rata untuk sampel sekolah dasar (s–x = 0,12). Karena standar deviasi kira-kira sama
untuk kedua kelompok ini, hampir semua perbedaan dalam kesalahan standar mereka disebabkan oleh
perbedaan ukuran sampel (lihat Gambar 6.5).
Untuk mengilustrasikan pengaruh deviasi standar pada ukuran kesalahan standar, mari kita lihat variabel
kedua dari penelitian ini: skor siswa pada bagian verbal dari tes prestasi standar. Skor pada bagian tes ini
berkisar dari kemungkinan terendah 0 hingga kemungkinan tinggi 100. Dalam sampel sekolah dasar, standar
deviasi pada variabel ini adalah 23,81. Ukuran sampel masih 137. Untuk menemukan kesalahan standar
mean, kita harus membagi 23,81 dengan akar kuadrat dari 137, yang kita ketahui dari contoh sebelumnya
adalah 11,70. Dan, 23,81 dibagi 11,70 sama dengan 2,04. Jadi kesalahan standar rata-rata dalam contoh ini
adalah 2,04. Ketika kita membandingkan angka ini dengan kesalahan standar rata-rata untuk sampel sekolah
dasar

Tabel 6.4 Standar Deviasi dan Ukuran Sampel


Contoh Sekolah Dasar Contoh Sekolah Menengah

Pengembang Standar Ukuran Sampel Standar Dev. Ukuran sampel

Berharap untuk melakukannya dengan baik dalam ujian


1.38 137 1.46 536
Machine Translated by Google

Kesalahan Standar 59

Gambar 6.5 Pengaruh ukuran sampel pada kesalahan standar rata-rata.

pada variabel “Berharap untuk melakukannya dengan baik pada tes” (s–x = 0,12), kita melihat bahwa standar
deviasi yang lebih besar untuk variabel skor tes menciptakan kesalahan standar yang jauh lebih besar, meskipun
ukuran sampel tetap sama, 137.
Seperti yang ditunjukkan oleh contoh-contoh ini, ukuran kesalahan standar rata-rata tergantung pada ukuran
simpangan baku dan ukuran sampel. Dengan bertambahnya ukuran sampel, dan simpangan baku tetap konstan,
kesalahan standar rata-rata berkurang. Ketika ukuran deviasi standar meningkat, ukuran kesalahan standar rata-
rata juga meningkat.
Ingatlah bahwa galat standar umumnya digunakan dalam penyebut rumus yang digunakan ahli statistik untuk
menghitung statistik inferensial. Oleh karena itu, kesalahan standar yang lebih kecil akan menghasilkan statistik
yang lebih besar, seperti nilai z dan nilai t (karena penyebut yang lebih kecil menghasilkan bilangan keseluruhan
yang lebih besar daripada penyebut yang lebih besar ketika pembilangnya sama). Statistik yang lebih besar lebih
mungkin dinilai oleh peneliti untuk menunjukkan makna, atau signifikan secara statistik,
efek dalam sampel. Dengan kata lain, statistik besar seperti nilai t atau skor z lebih mungkin daripada statistik
kecil untuk menunjukkan bahwa fenomena yang diamati dalam sampel mewakili fenomena yang berarti dalam
populasi juga. (Statistik signifikansi dibahas secara lebih rinci dalam Bab 7). Oleh karena itu, semuanya sama,
ukuran sampel yang lebih besar lebih mungkin untuk menghasilkan hasil yang signifikan secara statistik karena
ukuran sampel yang lebih besar menghasilkan kesalahan standar yang lebih kecil.

Mengakhiri dan Menantikan


Kesalahan standar seringkali merupakan konsep yang sulit untuk dipahami saat pertama kali ditemui (atau yang
kedua atau ketiga). Karena ini adalah konsep mendasar dalam statistik inferensial, saya mendorong Anda untuk
terus mencoba memahami arti dan kegunaan kesalahan standar. Seperti yang kita pelajari dalam bab ini,
kesalahan standar dapat digunakan untuk menentukan probabilitas statistik sampel (seperti mean) dengan cara
yang hampir sama seperti kita menggunakan skor standar untuk menentukan probabilitas tambang yang terkait
dengan skor individu di Bab 4. Karena kegunaannya dari kesalahan standar dalam menentukan probabilitas,
kesalahan standar memainkan peran penting dalam menentukan apakah suatu statistik signifikan secara statistik.
Karena kesalahan standar dipengaruhi oleh ukuran sampel, signifikansi statistik juga akan dipengaruhi oleh
karakteristik sampel ini. Dalam bab berikutnya, masalah signifikansi statistik, dan efek ukuran sampel pada
signifikansi statistik, dibahas secara lebih mendalam.
Machine Translated by Google

60 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Daftar Istilah dan Simbol untuk Bab 6


Teorema batas pusat: Fakta bahwa ketika ukuran sampel meningkat, distribusi sampling rata-rata menjadi
semakin normal, terlepas dari bentuk distribusi sampel.

Derajat kebebasan: Kira-kira, jumlah minimum data yang diperlukan untuk menghitung statistik. Lebih
praktis, ini adalah angka, atau angka, yang digunakan untuk memperkirakan jumlah pengamatan
dalam kumpulan data untuk tujuan menentukan signifikansi statistik.
Nilai rata-rata yang diharapkan: Nilai rata-rata yang diharapkan diperoleh dari sampel acak yang dipilih dari
populasi dengan rata-rata yang diketahui. Misalnya, jika seseorang mengetahui populasi memiliki
rata-rata 5 pada beberapa variabel, orang akan mengharapkan sampel acak yang dipilih dari
populasi juga memiliki rata-rata 5.
Statistik inferensial: Statistik yang dihasilkan dari data sampel yang digunakan untuk membuat kesimpulan
tentang karakteristik populasi yang diduga diwakili oleh sampel.
Distribusi sampel dari perbedaan antara rata-rata: Distribusi skor yang akan dihasilkan jika seseorang
berulang kali mengambil dua sampel acak dengan ukuran tertentu dari dua populasi dan menghitung
perbedaan antara rata-rata sampel.
Distribusi sampel rata-rata: Distribusi skor yang akan dihasilkan jika seseorang berulang kali mengambil
sampel acak dengan ukuran tertentu dari suatu populasi dan menghitung rata-rata untuk setiap
sampel yang diambil.
Distribusi sampel: Distribusi teoretis dari statistik apa pun yang akan diperoleh seseorang dengan
menggambar sampel acak dengan ukuran tertentu secara berulang-ulang dari populasi dan
menghitung statistik yang diinginkan untuk setiap sampel.
Kesalahan standar: Standar deviasi dari distribusi sampling.
Signifikan secara statistik: Sebuah istilah yang menunjukkan bahwa fenomena yang diamati dalam
sampel (atau sampel) memiliki implikasi yang berarti bagi populasi (misalnya, bahwa perbedaan
antara rata-rata sampel dan rata-rata populasi signifikan secara statistik atau bahwa hubungan yang
diamati antara dua variabel dalam sampel cukup kuat, relatif terhadap kesalahan standar, untuk
menunjukkan hubungan antara dua variabel dalam populasi dari mana sampel dipilih).

s–x Kesalahan standar rata-rata yang diperkirakan dari deviasi standar sampel (yaitu, ketika deviasi
standar populasi tidak diketahui).
–x Kesalahan standar rata-rata ketika simpangan baku populasi diketahui.
Machine Translated by Google

Bab 7
Signifikansi Statistik, Ukuran
Efek, dan Interval Keyakinan

Ketika peneliti menggunakan data yang dikumpulkan dari sampel untuk membuat kesimpulan tentang populasi (atau
populasi) dari mana sampel dipilih, mereka perlu memiliki beberapa cara untuk memutuskan seberapa berarti data
sampel. Apakah perbedaan antara dua sampel (misalnya, sekelompok orang dewasa dari Alaska dan sekelompok orang
dewasa dari New York) dalam tingkat kebahagiaan rata-rata mereka cukup besar untuk menyimpulkan bahwa populasi
orang dewasa dari kedua negara bagian ini sebenarnya berbeda dalam seberapa bahagia mereka? ? Apakah hubungan
antara tahun pendidikan dan pendapatan di antara sampel 50 orang dewasa Amerika cukup kuat untuk menentukan
bahwa pendapatan terkait dengan pendidikan pada populasi orang dewasa Amerika yang lebih besar? Bagaimana
peneliti mencapai kesimpulan penting tentang seberapa baik statistik sampel digeneralisasi ke populasi yang lebih besar?

Tiga dari alat umum yang digunakan oleh peneliti untuk mencapai kesimpulan tersebut termasuk pengujian
signifikansi statistik dan menghitung ukuran efek dan interval kepercayaan. Semua alat ini memberikan indeks
tentang seberapa berartinya hasil analisis statistik. Meskipun sering muncul dalam laporan penelitian kuantitatif (terutama
ukuran signifikansi statistik), konsep ini kurang dipahami oleh banyak peneliti. Tujuan bab ini adalah untuk memberi
Anda, pembaca, dasar yang kuat tentang konsep signifikansi statistik, ukuran efek, dan interval kepercayaan. Karena
signifikansi statistik, ukuran efek, dan interval kepercayaan dapat dihitung untuk hampir semua statistik, tidak mungkin
dalam bab singkat ini untuk memberikan instruksi tentang cara menentukan signifikansi statistik atau menghitung ukuran
efek atau interval kepercayaan di semua situasi penelitian. Oleh karena itu, fokus bab ini adalah untuk menjelaskan apa
arti konsep-konsep ini dan bagaimana menafsirkannya, serta memberikan informasi umum tentang bagaimana
signifikansi statistik dan ukuran efek ditentukan.

Statistik sering dibagi menjadi dua jenis: statistik deskriptif dan statistik inferensial.
Seperti yang saya sebutkan di Bab 1, statistik deskriptif adalah statistik yang menggambarkan karakteristik karakter
dari sekumpulan data tertentu. Misalnya, jika saya mengumpulkan data berat badan untuk kelompok yang terdiri dari 30
orang dewasa, saya dapat menggunakan berbagai statistik untuk menggambarkan karakteristik berat badan dari 30
orang dewasa ini (misalnya, rata-rata, atau rata-rata, berat badan, rentang dari yang terendah hingga tertinggi berat
badan, standar deviasi untuk kelompok ini, dll). Perhatikan bahwa semua statistik deskriptif ini tidak lebih dari memberikan
informasi tentang kelompok khusus yang terdiri dari 30 orang ini dari siapa saya mengumpulkan data.
Meskipun statistik deskriptif berguna dan penting, peneliti sering tertarik untuk memperluas hasil mereka di luar
kelompok orang tertentu dari siapa mereka telah mengumpulkan data (yaitu, sampel atau sampel mereka). Dari data
sampel mereka, peneliti sering ingin menentukan apakah ada beberapa fenomena menarik yang terjadi pada populasi
yang lebih besar yang diwakili oleh sampel ini. Misalnya, saya mungkin ingin tahu apakah, dalam populasi umum, anak
laki-laki dan perempuan berbeda dalam tingkat agresi fisik mereka. Untuk menentukan ini, saya dapat melakukan
penelitian di mana saya mengukur tingkat agresi fisik setiap anak laki-laki dan perempuan di Amerika Serikat dan melihat
apakah anak laki-laki dan perempuan berbeda. Namun, studi ini akan sangat mahal, dan sangat memakan waktu

61
Machine Translated by Google

62 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

mengkonsumsi. Pendekatan lain adalah memilih sampel anak laki-laki dan sampel anak perempuan, mengukur
tingkat agresi fisik mereka, melihat apakah mereka berbeda, dan dari data sampel ini menyimpulkan tentang
perbedaan populasi anak laki-laki dan perempuan yang lebih besar. Jika saya akhirnya menyimpulkan bahwa
hasil saya signifikan secara statistik, pada dasarnya saya menyimpulkan bahwa perbedaan yang saya amati
dalam tingkat rata-rata agresi anak laki-laki dan perempuan di dua sampel saya menunjukkan kemungkinan
bahwa ada juga perbedaan dalam tingkat rata-rata. agresi dalam populasi anak laki-laki dan perempuan dari
mana sampel ini dipilih.
Seperti namanya, statistik inferensial selalu tentang membuat kesimpulan tentang populasi yang lebih besar
berdasarkan data yang dikumpulkan dari sampel atau sampel. Untuk memahami cara kerjanya, pertama-tama
kita perlu memahami perbedaan antara populasi dan sampel dan membiasakan diri dengan beberapa konsep
dari probabilitas. Setelah kami mengembangkan pemahaman tentang signifikansi statistik, kami kemudian dapat
membandingkan konsep signifikansi statistik dan signifikansi praktis. Perbedaan ini membawa kita ke konsep
utama kedua yang dibahas dalam bab ini, yaitu ukuran efek. Secara singkat, ukuran efek adalah ukuran
seberapa besar efek yang diamati tanpa memperhatikan ukuran sampel. Dalam contoh sebelumnya yang
meneliti tingkat agresi, efek yang saya minati adalah perbedaan tingkat agresi rata-rata anak laki-laki dan
perempuan. Akhirnya, kita dapat menghitung interval kepercayaan untuk memberikan rentang nilai yang kita
yakini, pada tingkat probabilitas tertentu, berisi parameter populasi aktual.

Signifikansi Statistik dalam Kedalaman


Sampel dan Populasi
Langkah pertama dalam memahami signifikansi statistik adalah memahami perbedaan antara sampel dan
populasi. Perbedaan ini telah dibahas sebelumnya (Bab 1). Secara singkat, sampel adalah individu atau
kelompok dari siapa atau dari mana data dikumpulkan. Populasi adalah individu atau kelompok yang seharusnya
diwakili oleh sampel. Untuk tujuan memahami konsep signifikansi statistik, penting untuk diingat bahwa ketika
peneliti mengumpulkan data dari sampel, mereka sering tertarik menggunakan data ini untuk membuat
kesimpulan tentang populasi dari mana sampel itu diambil. Signifikansi statistik mengacu pada kemungkinan,
atau probabilitas, bahwa statistik yang berasal dari sampel mewakili beberapa fenomena asli dalam populasi
dari mana sampel dipilih. Dengan kata lain, signifikansi statistik memberikan ukuran untuk membantu kita
memutuskan apakah apa yang kita amati dalam sampel kita juga terjadi dalam populasi yang seharusnya
diwakili oleh sampel tersebut.

Salah satu faktor yang sering memperumit proses membuat kesimpulan dari sampel ke populasi adalah
bahwa dalam banyak, jika bukan sebagian besar, studi penelitian dalam ilmu-ilmu sosial, populasi tidak pernah
didefinisikan secara eksplisit. Ini agak bermasalah, karena ketika kami berpendapat bahwa hasil statistik
signifikan secara statistik, kami pada dasarnya berargumen bahwa hasil yang kami temukan dalam sampel
kami mewakili beberapa efek dalam populasi dari mana sampel dipilih.
Jika kita belum mendefinisikan populasi kita secara memadai, tidak sepenuhnya jelas apa yang harus dilakukan
untuk hasil seperti itu (lihat Bab 1 untuk diskusi lebih rinci tentang mendefinisikan populasi). Untuk tujuan bab
ini, bagaimanapun, cukup untuk mengatakan bahwa sampel adalah individu atau kelompok dari siapa atau dari
mana data dikumpulkan, sedangkan populasi adalah seluruh kumpulan individu atau kasus dari mana sampel
dipilih.

Kemungkinan
Seperti dibahas sebelumnya di Bab 4 dan Bab 6, probabilitas memainkan peran kunci dalam statistik
inferensial. Ketika memutuskan apakah suatu hasil dalam penelitian signifikan secara statistik, kita harus
mengandalkan probabilitas untuk membuat penentuan. Berikut adalah cara kerjanya.
Ketika kita menghitung statistik inferensial, statistik itu adalah bagian dari distribusi sampling.
Dari diskusi kita tentang kesalahan standar di Bab 6, Anda akan ingat bahwa setiap kali kita memilih a
Machine Translated by Google

Signifikansi Statistik, Ukuran Efek, dan Interval Keyakinan 63

sampel dari suatu populasi dan menghitung statistik dari sampel, kita harus ingat bahwa jika kita telah memilih
sampel yang berbeda dengan ukuran yang sama dari populasi yang sama, kita mungkin akan mendapatkan statistik
yang sedikit berbeda dari sampel baru. Misalnya, jika saya secara acak memilih sampel 1.000 pria dari populasi
pria di Amerika Serikat dan mengukur ukuran sepatu mereka, saya mungkin menemukan ukuran sepatu rata-rata
10 untuk sampel ini. Sekarang, jika saya secara acak memilih sampel baru dari 1.000 pria dari populasi pria di
Amerika Serikat dan menghitung ukuran sepatu rata-rata mereka, saya mungkin mendapatkan rata-rata yang
berbeda, seperti 9. Jika saya memilih jumlah tak terbatas sampel acak 1.000 dan menghitung ukuran sepatu rata-
rata dari masing-masing sampel ini, saya akan berakhir dengan distribusi sampel rata-rata, dan distribusi sampel ini
akan memiliki standar deviasi, yang disebut kesalahan standar rata-rata (lihat Bab 6 untuk review konsep ini). Sama
seperti ada distribusi sampling dan kesalahan standar rata-rata, demikian juga ada distribusi sampling dan kesalahan
standar untuk semua statistik, termasuk koefisien korelasi, rasio F dari ANOVA, nilai t dari uji t , koefisien regresi,
dan seterusnya.

Karena distribusi pengambilan sampel ini memiliki karakteristik matematika tertentu yang stabil, kita dapat
menggunakan kesalahan standar untuk menghitung probabilitas yang tepat untuk memperoleh statistik sampel
tertentu, dari sampel dengan ukuran tertentu, menggunakan parameter populasi tertentu yang diketahui atau
dihipotesiskan. Saatnya memberi contoh. Misalkan, dari penelitian sebelumnya oleh industri sepatu, saya tahu
bahwa rata-rata ukuran sepatu untuk populasi pria di Amerika Serikat adalah ukuran 9. Karena ini adalah rata-rata
yang diketahui untuk populasi, rata-rata ini adalah parameter dan bukan a statistik. Sekarang misalkan saya secara
acak memilih sampel 1.000 pria dan menemukan bahwa ukuran sepatu rata-rata mereka adalah 10, dengan standar
deviasi 2. Perhatikan bahwa rata-rata untuk sampel saya (10) adalah statistik karena berasal dari sampel saya,
bukan sampel saya. populasi. Dengan angka-angka ini, saya dapat menjawab dua pertanyaan yang sedikit berbeda
tetapi terkait. Pertama, jika ukuran sepatu rata-rata dalam populasi benar-benar 9, berapa peluang untuk memilih
sampel acak dari 1.000 pria yang memiliki ukuran sepatu rata-rata 10? Kedua, apakah perbedaan antara mean
populasi saya (9) dan mean sampel saya (10) signifikan secara statistik? Jawaban atas pertanyaan pertama saya
memberikan dasar untuk jawaban atas pertanyaan kedua saya.
Perhatikan bahwa hanya dengan melihat kedua cara, saya dapat dengan jelas melihat bahwa keduanya berbeda
(yaitu, 9 berbeda dari 10). Jadi saya mencoba menjawab pertanyaan yang lebih dalam daripada apakah mereka
berbeda. Sebaliknya, saya mencoba untuk menentukan apakah perbedaan antara sampel dan rata-rata populasi
saya signifikan secara statistik. Dengan kata lain, saya mencoba untuk menentukan apakah perbedaan antara rata-
rata sampel dan populasi saya terlalu besar untuk kemungkinan terjadi secara kebetulan (yaitu, siapa yang
kebetulan saya dapatkan dalam sampel saya).
Perhatikan bahwa jika saya tidak memilih sampel saya secara acak, akan mudah untuk menemukan sampel
1.000 pria dengan ukuran sepatu rata-rata 10. Saya dapat membeli daftar pelanggan dari toko sepatu dan memilih
1.000 pria yang membeli sepatu ukuran 10. Atau saya bisa memasang iklan di koran mencari pria yang memakai
sepatu ukuran 10. Tetapi jika rata-rata populasi saya benar-benar 9, dan sampel saya benar-benar dipilih secara
acak, maka ada beberapa kemungkinan, atau peluang, bahwa saya dapat memperoleh sampel 1.000 pria dengan
ukuran sepatu rata-rata 10. Dalam statistik, ini kebetulan disebut sebagai kesalahan pengambilan sampel acak
atau peluang acak.
Kembali ke contoh. Jika rata-rata populasi saya adalah 9, dan sampel acak saya yang terdiri dari 1.000 orang
memiliki rata-rata 10 dan standar deviasi 2, saya dapat menghitung kesalahan standar dengan membagi standar
deviasi dengan akar kuadrat dari ukuran sampel (lihat Bab 6 untuk rumus ini).

s–x = 2 1000

s-x = 2 31,62

s-x = .06

di mana
s-x = kesalahan standar rata-rata
Machine Translated by Google

64 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

p < 0,001

t = 16,67

Gambar 7.1 Nilai t yang signifikan secara statistik .

Sekarang saya tahu kesalahan standar adalah 0,06, saya dapat menghitung nilai t untuk menemukan
kemungkinan perkiraan mendapatkan rata-rata sampel 10 secara kebetulan jika rata-rata populasi benar-benar 9.
(Catatan: Untuk ukuran sampel yang lebih besar dari 120, distribusi t identik dengan distribusi normal.
Oleh karena itu, untuk ukuran sampel yang besar, nilai t dan nilai z , dan probabilitas yang terkait, hampir identik.
Lihat Bab 4 dan 6 untuk informasi lebih lanjut.)

10 9
t=
06.

1
t=
06.

t = 16,67

Saat menggunakan distribusi t untuk menemukan probabilitas, kita cukup mengambil nilai absolut dari t.
Setelah kita mendapatkan nilai mutlak untuk t (t = 16,67), kita dapat melihat tabel t pada Lampiran B dan melihat
bahwa, ketika derajat kebebasan sama dengan tak terhingga (yaitu, lebih besar dari 120), probabilitas mendapatkan
nilai t 16,67 atau lebih besar kurang dari 0,001. Faktanya, karena nilai t kritis yang dikaitkan dengan probabilitas
0,001 hanya 3,291, dan nilai t aktual kita adalah 16,67, kita dapat menyimpulkan bahwa peluang acak untuk
mendapatkan rata-rata sampel 10 ketika rata-rata populasi adalah 9 adalah jauh . kurang dari 0,001. (Lihat Gambar
7.1.) Dengan kata lain, ketika kita secara acak memilih sampel 1.000 pria dan menghitung ukuran sepatu rata-rata
mereka, ketika kita tahu bahwa ukuran sepatu rata-rata pria dalam populasi adalah 9, kita akan mengharapkan
untuk mendapatkan sampel rata-rata 10 jauh lebih sedikit dari 1 kali dalam 1.000. Dengan tabel nilai t kami , itu
seakurat yang bisa kami dapatkan.
Jadi kita telah menghitung probabilitas, atau peluang acak, untuk menemukan rata-rata sampel 10 ketika rata-
rata populasi adalah 9 dan sangat kecil, kurang dari satu dalam seribu, ketika ukuran sampel adalah 1.000 dan
dipilih secara acak. Probabilitas ini dikenal sebagai nilai p , dengan p
berdiri untuk probabilitas. Dalam contoh kami saat ini, kami akan mengatakan bahwa kami menemukan p <0,001,
yang merupakan cara nilai p umumnya dilaporkan dalam laporan penelitian dan jurnal ilmiah. Sekarang kita dapat
mengalihkan perhatian kita ke pertanyaan kedua: Apakah perbedaan antara rata-rata populasi 9 dan rata-rata
sampel 10 signifikan secara statistik? Nah, jawaban cepatnya adalah "Ya." Jawaban yang lebih panjang
mengharuskan kita untuk mendalami dunia pengujian hipotesis.

Pengujian Hipotesis dan Kesalahan Tipe I


Idenya di sini sederhana. Sebelum kita menghitung statistik dan memutuskan apakah suatu hasil signifikan secara
statistik, kita harus menetapkan standar, atau tolok ukur. Untuk melakukan ini, kami mengembangkan hipotesis
dan menetapkan kriteria yang akan kami gunakan ketika memutuskan apakah akan mempertahankan atau menolak
Machine Translated by Google

Signifikansi Statistik, Ukuran Efek, dan Interval Keyakinan 65

hipotesis kami. Hipotesis utama yang menarik dalam penelitian ilmu sosial adalah hipotesis
nol (H o). Seperti namanya, hipotesis nol selalu menunjukkan bahwa akan ada ketidakhadiran
efek. Misalnya, hipotesis nol menunjukkan bahwa rata-rata sampel tidak akan berbeda dari rata-rata populasi,
atau bahwa dua rata-rata populasi (misalnya, anak laki-laki dan perempuan) tidak akan berbeda, atau bahwa
dua variabel (misalnya, pendidikan dan pendapatan) tidak akan berbeda. berhubungan satu sama lain dalam
populasi. Perhatikan bahwa hipotesis nol selalu mengacu pada tidak adanya efek dalam populasi. Sebagai
ilustrasi, mari kita kembali ke contoh ukuran sepatu. Ingatlah bahwa kita telah mengetahui bahwa ukuran
sepatu rata-rata populasi kita adalah 9. Mengingat hal ini, kita berharap bahwa jika kita memilih sampel secara
acak dari populasi itu, dan menghitung ukuran sepatu rata-rata untuk sampel tersebut, rata-rata itu juga akan
menjadi 9. Kita mungkin tahu bahwa ada kemungkinan sampel kita akan memiliki rata-rata yang berbeda dari
populasi kita, tetapi tebakan terbaik kita adalah bahwa sampel kita akan memiliki rata-rata yang sama dengan
populasi kita. Oleh karena itu, hipotesis nol kami adalah bahwa rata-rata populasi kami dan rata-rata sampel
kami tidak akan berbeda satu sama lain (yaitu, tidak ada efek). Kita dapat menulis hipotesis ini secara simbolis
sebagai berikut:
-
Ho: = X

di mana

mewakili
- rata-rata populasi
X mewakili mean sampel

Perhatikan bahwa pada titik ini, kami belum memilih sampel kami yang terdiri dari 1.000 orang dan
kami belum menghitung rata-rata sampel. Seluruh proses pembangunan hipotesis ini terjadi secara
apriori (yaitu, sebelum kita melakukan pengujian signifikansi statistik). Tentu saja, di mana ada satu
hipotesis (nol), selalu mungkin untuk memiliki hipotesis alternatif. Salah satu alternatif untuk hipotesis
nol adalah hipotesis yang berlawanan. Sedangkan hipotesis nol adalah bahwa rata-rata sampel dan
populasi akan sama satu sama lain, hipotesis alternatifnya adalah bahwa mereka tidak akan sama
satu sama lain. Hipotesis alternatif ini (HA atau H 1 ) akan ditulis secara simbolis sebagai
-
HA : X

di mana

mewakili
- rata-rata populasi
X mewakili mean sampel

Perhatikan bahwa hipotesis alternatif kami tidak mencakup spekulasi tentang apakah rata-rata
sampel akan lebih besar atau lebih kecil dari rata-rata populasi, hanya saja keduanya berbeda. Ini
dikenal sebagai hipotesis alternatif dua arah. Saya bisa saja mengajukan hipotesis alternatif yang
berbeda. Sebagai contoh, saya mungkin telah mengusulkan bahwa rata-rata sampel saya akan lebih
besar dari rata-rata populasi saya karena rata-rata populasi dihitung beberapa tahun yang lalu dan
laki-laki (dan kaki mereka) semakin besar dengan setiap generasi baru. Ketika hipotesis alternatif
saya adalah arah (yaitu, termasuk spekulasi tentang nilai mana yang akan lebih besar), saya memiliki
hipotesis alternatif satu arah. Dalam contoh tentang ukuran sepatu, hipotesis alternatif satu sisi saya
akan terlihat seperti ini:
-
HA: < X

di mana

mewakili
- rata-rata populasi
X mewakili mean sampel
Machine Translated by Google

66 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Misalkan, untuk contoh ini, kita menggunakan hipotesis dua arah dan bahwa mean populasi dan mean
sampel berbeda satu sama lain, tanpa arah perbedaan yang ditentukan. Pada titik ini dalam proses, kami telah
menetapkan hipotesis nol dan alternatif kami. Anda mungkin berasumsi bahwa yang perlu kita lakukan hanyalah
memilih 1.000 pria kita secara acak, menemukan ukuran sepatu rata-rata mereka, dan melihat apakah itu
berbeda atau sama dengan 9. Tapi, sayangnya, itu tidak sesederhana itu. Misalkan kita mendapatkan sampel
kita dan menemukan ukuran sepatu rata-rata mereka adalah 9.00001. Secara teknis, itu berbeda dari 9, tetapi
apakah cukup berbeda untuk dianggap bermakna? Ingatlah bahwa setiap kali kita memilih sampel secara acak
dari suatu populasi, selalu ada kemungkinan bahwa sampel itu akan sedikit berbeda dari populasi. Meskipun
tebakan terbaik kami adalah rata-rata sampel kami akan sama dengan rata-rata populasi kami, kami harus ingat
bahwa hampir tidak mungkin sampel kami terlihat persis seperti populasi kami. Jadi pertanyaan kita menjadi ini:
Seberapa berbeda rata-rata sampel kita dari rata-rata populasi kita sebelum kita menganggap perbedaan itu
bermakna, atau signifikan. Jika rata-rata sampel kita hanya sedikit berbeda dari rata-rata populasi kita, kita
dapat mengabaikannya dan berkata, "Yah, perbedaannya mungkin hanya karena kesalahan pengambilan
sampel acak, atau kebetulan." Tetapi seberapa berbedanya sampel dan populasi kita sebelum kita menyimpulkan
bahwa perbedaan itu mungkin bukan karena kebetulan? Di situlah level alfa kami, atau kesalahan T ype I,
berperan.

Seperti yang saya jelaskan sebelumnya dalam bab ini, dan dalam Bab 4 dan 6, distribusi sampling dan
kesalahan standar dari distribusi ini memungkinkan kita untuk menghitung probabilitas untuk memperoleh
statistik sampel dari berbagai ukuran. Ketika saya mengatakan "probabilitas", ini sebenarnya adalah singkatan
untuk "probabilitas memperoleh statistik sampel ini karena kebetulan atau kesalahan pengambilan sampel
acak." Mengingat bahwa sampel umumnya tidak secara tepat mewakili populasi dari mana mereka diambil, kita
harus mengharapkan beberapa perbedaan antara statistik sampel dan parameter populasi hanya karena
keberuntungan undian, atau kesalahan pengambilan sampel acak. Jika kita mencapai populasi kita dan menarik
sampel acak lainnya, kita mungkin akan mendapatkan statistik yang sedikit berbeda lagi. Jadi beberapa
perbedaan antara statistik sampel, seperti mean, dan parameter populasi akan selalu disebabkan oleh siapa
yang kita dapatkan dalam sampel acak kita, itulah sebabnya disebut kesalahan pengambilan sampel acak. Ingat
dari Bab 6 bahwa, dengan statistik seperti mean, distribusi sampling mean adalah distribusi normal. Jadi metode
pengambilan sampel acak kami akan menghasilkan banyak rata-rata sampel yang mendekati nilai rata-rata
populasi dan lebih sedikit yang lebih jauh dari rata-rata populasi. Semakin jauh rata-rata sampel dari rata-rata
populasi, semakin kecil kemungkinan itu terjadi secara kebetulan, atau kesalahan pengambilan sampel acak.

Sebelum kita dapat menyimpulkan bahwa perbedaan antara statistik sampel dan parameter populasi
mungkin bukan hanya karena kesalahan pengambilan sampel acak, kita harus memutuskan seberapa kecil
peluang untuk mendapatkan perbedaan antara statistik dan parameter populasi hanya secara kebetulan jika
hipotesis nol benar. Dengan kata lain, sebelum kita dapat menolak hipotesis nol, kita ingin cukup yakin bahwa
perbedaan antara statistik sampel dan parameter populasi bukan hanya karena kesalahan pengambilan sampel
acak, atau kebetulan. Dalam ilmu-ilmu sosial, konvensinya adalah menetapkan level itu pada 0,05. Dengan kata
lain, para ilmuwan sosial umumnya setuju bahwa jika probabilitas mendapatkan perbedaan antara statistik
sampel dan parameter populasi secara kebetulan kurang dari 5%, kita dapat menolak hipotesis nol dan
menyimpulkan bahwa perbedaan antara statistik dan parameter mungkin bukan karena kebetulan. (Lihat
Gambar 7.2 dan 7.3 untuk ilustrasi pengujian hipotesis 2 sisi dan 1 sisi, masing-masing.)

Probabilitas yang disepakati 0,05 (dilambangkan sebagai = 0,05) mewakili tingkat kesalahan Tipe I yang
kami, sebagai peneliti, bersedia terima sebelum kami melakukan analisis statistik kami. Ingatlah bahwa tujuan
analisis kita adalah untuk menentukan apakah kita harus mempertahankan atau menolak hipotesis nol kita.
Ketika kami memutuskan untuk menolak hipotesis nol, apa yang kami katakan pada intinya, adalah bahwa kami
menyimpulkan bahwa perbedaan antara statistik sampel kami dan parameter populasi kami bukan karena
kesalahan pengambilan sampel acak. Tetapi ketika kita membuat keputusan ini, kita harus ingat bahwa selalu
mungkin untuk mendapatkan perbedaan yang sangat besar hanya karena kesalahan pengambilan sampel
acak, atau kebetulan. Dalam contoh ukuran sepatu kami, ketika saya secara acak memilih 1.000 pria, mungkin saja, hanya karena
Machine Translated by Google

Signifikansi Statistik, Ukuran Efek, dan Interval Keyakinan 67

Gambar 7.2 Daerah penolakan untuk uji dua sisi.

Gambar 7.3 Wilayah penolakan untuk uji satu sisi.

untuk beberapa kebetulan, saya memilih 1.000 pria dengan ukuran sepatu rata-rata 17. Sekarang ini sangat tidak
mungkin, tetapi selalu mungkin. Anda tidak pernah tahu apa yang akan Anda dapatkan ketika Anda memilih
sampel acak. Dalam contoh saya sebelumnya, di mana sampel saya memiliki ukuran sepatu rata-rata 10, saya
menemukan kemungkinan mendapatkan rata-rata sampel 10 ketika rata-rata populasi saya adalah 9, secara
kebetulan, kurang dari satu dalam seribu. Meskipun tidak mungkin, masih ada kemungkinan bahwa perbedaan
antara sampel saya dan rata-rata populasi ini hanya karena kebetulan. Jadi karena nilai p saya (p < .001) jauh
lebih kecil dari tingkat alfa saya (ÿ = .05), saya akan menolak hipotesis nol dan menyimpulkan bahwa rata-rata
sampel saya sebenarnya berbeda dari rata-rata populasi saya, bahwa ini mungkin tidak hanya kebetulan dari
pengambilan sampel acak, dan bahwa hasil saya signifikan secara statistik. Ketika saya mencapai kesimpulan ini,
saya mungkin salah. Bahkan, saya mungkin menolak hipotesis nol, meskipun hipotesis nol itu benar.
Kesalahan seperti itu (menolak hipotesis nol padahal itu benar) disebut kesalahan Tipe I.
Singkatnya, ketika kita melakukan statistik inferensial, kita ingin mengetahui apakah sesuatu yang kita amati
dalam sampel mewakili fenomena aktual dalam populasi. Jadi kami membuat hipotesis nol bahwa tidak ada
perbedaan nyata antara statistik sampel kami dan parameter populasi kami, dan kami memilih tingkat alfa yang
berfungsi sebagai tolok ukur kami untuk membantu kami memutuskan apakah akan menolak atau mempertahankan
hipotesis nol kami. Jika nilai p kami (yang kami dapatkan setelah kami menghitung statistik kami) lebih kecil dari
tingkat alfa yang kami pilih, kami akan menolak hipotesis nol. Ketika kami menolak hipotesis nol, kami menyimpulkan
bahwa perbedaan antara statistik sampel dan parameter populasi mungkin bukan karena kebetulan, atau kesalahan
pengambilan sampel acak.
Namun, ketika kita mencapai kesimpulan ini, selalu ada kemungkinan kita akan salah, karena membuat kesalahan
Tipe I. Salah satu tujuan statistik adalah untuk menghindari kesalahan seperti itu, jadi untuk lebih amannya kita
mungkin ingin memilih tingkat alfa yang lebih konservatif, seperti .01, dan mengatakan bahwa kecuali nilai p kita
lebih kecil dari .01, kita akan mempertahankan nol kita. hipotesa. Dalam contoh ukuran sepatu kami, nilai p kami
jauh lebih kecil daripada 0,05 atau 0,01, jadi kami menolak hipotesis nol dan menyimpulkan bahwa, untuk beberapa
alasan, sampel kami yang terdiri dari 1.000 pria memiliki ukuran sepatu rata-rata yang jauh lebih besar secara statistik.
Machine Translated by Google

68 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

daripada populasi umum kita. Karena kami menyimpulkan bahwa perbedaan ini mungkin bukan karena kesalahan
pengambilan sampel acak, atau kebetulan, kami harus menyimpulkan bahwa sampel kami mewakili populasi
yang berbeda. Mungkin rata-rata populasi 9 mewakili populasi pria yang lahir dari generasi sebelumnya dan rata-
rata sampel 10 mewakili populasi pria (lebih besar) yang lahir lebih baru.

Ukuran Efek dalam Kedalaman

Sebagai indikasi pentingnya hasil dalam penelitian kuantitatif, signifikansi statistik telah menikmati posisi yang
agak istimewa selama beberapa dekade. Ilmuwan sosial telah lama memberikan aturan "p <.05" semacam
kualitas magis, dengan hasil apa pun yang membawa probabilitas lebih besar dari .05 untuk segera dibuang ke
tumpukan sampah hasil "tidak signifikan". Namun, baru-baru ini, para peneliti dan editor jurnal mulai melihat
signifikansi statistik dalam cahaya yang sedikit kurang bagus, mengakui salah satu kekurangan utamanya:
Mungkin terlalu banyak dipengaruhi oleh ukuran sampel.
Akibatnya, semakin banyak peneliti menjadi sadar akan pentingnya ukuran efek dan semakin memasukkan
laporan ukuran efek dalam pekerjaan mereka.
Untuk menentukan apakah suatu statistik signifikan secara statistik, kami mengikuti urutan umum yang sama
terlepas dari statistik ( skor z , nilai t , nilai F , koefisien korelasi, dll.). Pertama, kami menemukan perbedaan
antara statistik sampel dan parameter populasi (baik parameter aktual atau, jika ini tidak diketahui, nilai hipotesis
untuk parameter). Selanjutnya, kami membagi perbedaan itu dengan kesalahan standar. Akhirnya, kami
menentukan probabilitas mendapatkan rasio ukuran itu karena kebetulan, atau kesalahan pengambilan sampel
acak. (Untuk meninjau proses ini, lihat bagian sebelumnya dalam bab ini ketika kami menghitung nilai t untuk
contoh ukuran sepatu).
Masalah dengan proses ini adalah ketika kita membagi pembilang (yaitu, perbedaan antara statistik sampel
dan parameter populasi) dengan penyebut (yaitu, kesalahan standar), ukuran sampel memainkan peran besar.
Dalam semua rumus yang kita gunakan untuk kesalahan standar, semakin besar ukuran sampel, semakin kecil
kesalahan standar (lihat Bab 6). Ketika kita memasukkan kesalahan standar ke dalam rumus untuk menentukan
nilai t , nilai F , dan skor z , kita melihat bahwa semakin kecil kesalahan standar, semakin besar nilai-nilai ini, dan
semakin besar kemungkinan mereka akan dianggap signifikan secara statistik.
Karena pengaruh ukuran sampel ini, terkadang kita menemukan bahwa bahkan perbedaan yang sangat kecil
antara statistik sampel dan parameter populasi dapat menjadi signifikan secara statistik jika ukuran sampelnya
besar. Pada Gambar 7.4, pengaruh ukuran sampel pada signifikansi statistik digambarkan secara grafis.
Sisi kiri grafik menunjukkan perbedaan yang cukup besar antara mean sampel dan mean populasi, tetapi
perbedaan ini tidak signifikan secara statistik dengan ukuran sampel yang kecil (n = 4). Sebaliknya, perbedaan
kecil antara rata-rata sampel dengan ukuran sampel yang besar (n = 1600) dapat menghasilkan hasil yang
signifikan secara statistik, seperti yang ditunjukkan di sebelah kanan Gambar 7.4.

120

115

110

105

100

95

90
n = 4: Tidak secara statistik n = 1600: Secara statistik
penting penting

Rata-rata populasi Rata-rata sampel

Gambar 7.4 Pengaruh ukuran sampel pada signifikansi statistik.


Machine Translated by Google

Signifikansi Statistik, Ukuran Efek, dan Interval Keyakinan 69

Untuk mengilustrasikan hal ini, mari kita perhatikan sebuah contoh dengan dua ukuran sampel yang
berbeda. Misalkan kita tahu bahwa skor IQ rata-rata untuk populasi orang dewasa di Amerika Serikat adalah
100. Sekarang misalkan saya memilih dua sampel orang dewasa secara acak. Salah satu sampel saya berisi
25 orang dewasa, yang lain 1600. Masing-masing dari dua sampel ini menghasilkan skor IQ rata-rata 105
dan standar deviasi 15. Apakah perbedaan antara 105 dan 100 signifikan secara statistik? Untuk menjawab
pertanyaan ini, saya perlu menghitung nilai t untuk setiap sampel. Kesalahan standar untuk sampel kami
dengan 25 orang dewasa adalah

5 3 25 15
s–x =15
di mana
s-x adalah kesalahan standar rata-rata

.
Kesalahan standar untuk sampel kedua kami, dengan 1.600 orang dewasa, adalah

s–x =15 1600 15 40 375

Dengan memasukkan kesalahan standar ini ke dalam rumus nilai t kami, kami menemukan bahwa
nilai t untuk sampel 25 orang adalah (105 – 100) 3, atau 1,67. Melihat pada tabel distribusi t (Lampiran
B), kita dapat melihat bahwa nilai p untuk nilai t 1,67 adalah antara .10 dan .20. Nilai t untuk sampel
dengan 1.600 orang dewasa adalah (105 – 100) 0,375, atau 13,33, dengan nilai p yang sesuai dari p < .0001.
Jika kita menggunakan tingkat alfa 0,05, maka perbedaan 5 poin pada tes IQ tidak akan dianggap
signifikan secara statistik jika kita hanya memiliki ukuran sampel 25, tetapi akan sangat signifikan
secara statistik jika ukuran sampel kita 1.600 . Karena ukuran sampel memainkan peran besar
dalam menentukan signifikansi statistik, banyak buku teks statistik membuat perbedaan antara
signifikansi statistik dan signifikansi praktis. Dengan ukuran sampel 1.600, perbedaan genap 1
poin pada tes IQ akan menghasilkan hasil yang signifikan secara statistik (t = 1 .375 t = 2.67, p <
.01). Namun, jika kita memiliki ukuran sampel yang sangat kecil yaitu 4, bahkan perbedaan 15
poin dalam skor IQ rata-rata tidak akan signifikan secara statistik (t = 15 7,50 t = 2,00, p > .10).
(Lihat Gambar 7.3 untuk ilustrasi grafis ini.) Tetapi apakah perbedaan 1 poin pada tes dengan
kisaran lebih dari 150 poin benar-benar penting di dunia nyata? Dan apakah selisih 15 poin tidak berarti?
Dengan kata lain, apakah itu perbedaan yang signifikan dalam arti praktis dari kata signifikan? Salah satu cara untuk
menjawab pertanyaan ini adalah dengan memeriksa ukuran efek.
Ada rumus yang berbeda untuk menghitung ukuran efek dari statistik yang berbeda, tetapi rumus ini
memiliki fitur yang sama. Rumus untuk menghitung sebagian besar statistik inferensial melibatkan rasio
pembilang (seperti perbedaan antara rata-rata sampel dan rata-rata populasi dalam uji t satu sampel)
dibagi dengan kesalahan standar. Demikian pula, sebagian besar rumus ukuran efek menggunakan
pembilang yang sama, tetapi membagi pembilang ini dengan standar deviasi daripada kesalahan standar.
Triknya, kemudian, adalah mengetahui bagaimana menghasilkan standar deviasi yang tepat untuk digunakan
dalam formula ukuran efek tertentu.
Kita dapat memeriksa bentuk ukuran efek yang paling sederhana dengan kembali ke contoh kita
menggunakan skor IQ. Ingatlah bahwa kami memiliki populasi dengan skor IQ rata-rata 100. Kami juga
memiliki dua sampel, masing-masing dengan skor IQ rata-rata 105 dan standar deviasi 15; satu dengan
ukuran sampel 25 dan yang lainnya dengan ukuran sampel 1.600. Juga ingat bahwa untuk menemukan
kesalahan standar untuk menghitung skor t kami , kami hanya membagi standar deviasi dengan akar
kuadrat dari ukuran sampel. Jadi untuk sampel dengan 25 anggota, kesalahan standar kami adalah

sx = 15 25 15 5 3
di mana
s-x adalah kesalahan standar rata-rata
Machine Translated by Google

70 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Untuk menghitung ukuran efek, yang perlu kita lakukan adalah mengubah kesalahan standar ini kembali menjadi
standar deviasi. Jika kita membagi standar deviasi dengan akar kuadrat dari ukuran sampel untuk menemukan
kesalahan standar, kita dapat mengalikan kesalahan standar dengan akar kuadrat dari ukuran sampel untuk
menemukan standar deviasi. Ketika kita melakukan ini, kita menemukan bahwa

s = 3 25 3× 5 15

di mana

s adalah simpangan baku sampel

Perhatikan bahwa simpangan baku akan sama persis jika kita menghitungnya untuk yang lebih besar
ukuran sampel 1.600, meskipun kesalahan standar jauh lebih kecil untuk sampel itu.

s = .375 1600 .375 40 15 ×

Setelah kita memiliki standar deviasi, mudah untuk menghitung ukuran efek, yang memiliki simbol d. Dalam contoh
IQ, kita dapat menentukan ukuran efek sebagai berikut:

105 100
d=
15

5
d=
15

d = 0,33

di mana
d adalah ukuran efek

Seperti yang Anda lihat, rumus untuk ukuran efek menerjemahkan pembilang ke dalam satuan simpangan baku.
Ketika pembilang mewakili beberapa jenis skor perbedaan (misalnya, perbedaan antara dua atau lebih rata-rata
kelompok, perbedaan antara statistik sampel dan parameter populasi), ukuran efek akan mewakili perbedaan dalam
satuan standar deviasi. Hal ini mirip dengan merepresentasikan perbedaan dalam satuan kesalahan standar, seperti
yang dilakukan kebanyakan statistik inferensial (misalnya, nilai t , nilai F , koefisien korelasi), kecuali bahwa ukuran
sampel dihilangkan dari proses.
Tidak ada aturan keras dan cepat mengenai interpretasi ukuran efek. Beberapa penulis buku teks menyarankan
bahwa ukuran efek yang lebih kecil dari .20 adalah kecil, antara .25 dan .75 adalah sedang, dan yang lebih dari .80
adalah besar. Saat menentukan apakah ukuran efek bermakna, penting untuk mempertimbangkan apa yang Anda uji
dan apa perspektif Anda. Jika saya membandingkan tingkat kematian dari dua sampel yang mencoba dua obat
eksperimental yang berbeda, bahkan ukuran efek yang kecil pun penting, karena kita berbicara tentang hidup dan mati.
Tetapi jika saya membandingkan preferensi dua sampel yang berbeda untuk rasa es krim, bahkan ukuran efek yang
cukup besar mungkin tidak terlalu penting bagi kebanyakan orang.* Namun, perlu diingat bahwa apa yang sepele bagi
satu orang mungkin sangat penting ke yang lainnya. Meskipun saya tidak peduli tentang perbedaan besar dalam
preferensi orang untuk rasa es krim tertentu, CEO sebuah perusahaan es krim mungkin sangat peduli bahkan
perbedaan kecil dalam preferensi. Faktanya, preferensi kecil untuk cokelat

* Ada jenis ukuran efek lain yang sering dilaporkan dalam penelitian. Salah satu yang paling umum adalah persentase varians yang dijelaskan oleh
variabel independen. Saya menyebutkan ini di bab-bab selanjutnya ketika saya membahas konsep varians yang dijelaskan.
Machine Translated by Google

Signifikansi Statistik, Ukuran Efek, dan Interval Keyakinan 71

lebih dari vanila dapat berarti jutaan dolar untuk sebuah perusahaan es krim (dan pemilik saham di perusahaan).
Intinya di sini adalah bahwa "signifikansi praktis" adalah konsep subjektif. Meskipun statistik dapat memberikan
ukuran ukuran efek, menafsirkan pentingnya ukuran efek ini adalah ilmu yang tidak tepat.

Dorongan baru-baru ini oleh beberapa peneliti untuk lebih fokus pada ukuran efek daripada signifikansi statistik
mengingatkan saya bahwa saya harus menyimpulkan bagian bab ini dengan mendesak Anda untuk
mempertimbangkan ukuran efek dan signifikansi statistik saat Anda membaca dan melakukan penelitian.
Perhatikan bahwa dalam contoh sebelumnya, ukuran efek yang sama persis dihasilkan dengan sampel 25 orang
seperti dengan sampel 1.600 orang. Hasil ini menunjukkan bahwa ukuran sampel tidak masalah.
Faktanya, ukuran sampel sangat penting. Sederhananya, lebih mudah untuk menemukan kebetulan, atau kebetulan
hasil dengan ukuran sampel yang lebih kecil dibandingkan dengan ukuran sampel yang lebih besar. Pengujian
signifikansi statistik kami, yang sensitif terhadap ukuran sampel, memberi tahu kami kemungkinan bahwa hasil kami
disebabkan oleh kesalahan pengambilan sampel acak, atau kebetulan. Karena ukuran sampel yang lebih besar
memiliki kemungkinan yang lebih baik untuk mewakili populasi dari mana mereka dipilih, hasil studi yang
menggunakan ukuran sampel yang lebih besar lebih dapat diandalkan daripada yang menggunakan ukuran sampel
yang lebih kecil, jika semuanya sama (misalnya, bagaimana sampel dipilih, metode yang digunakan dalam
penelitian, dll). Ketika digunakan bersama-sama, uji signifikansi statistik dan ukuran efek dapat memberikan
informasi penting mengenai keandalan dan pentingnya hasil statistik. Tentu saja, penilaian kita sendiri tentang arti,
penyebab, dan konsekuensi dari hasil kita juga merupakan faktor penting.

Interval Keyakinan dalam Kedalaman


Interval kepercayaan menjadi semakin umum dalam laporan statistik inferensial, sebagian karena mereka
memberikan ukuran lain dari ukuran efek. Ketika seorang peneliti menggunakan data sampel untuk membuat
beberapa kesimpulan tentang suatu populasi, dia biasanya tidak benar-benar mengetahui nilai sebenarnya dari
parameter populasi. Yang dia miliki hanyalah data sampelnya. Tetapi dengan menggunakan interval probabilitas
dan kepercayaan, dia dapat membuat prediksi terdidik tentang nilai perkiraan parameter populasi.

Untuk mengilustrasikan bagaimana interval kepercayaan bekerja, mari kembali ke contoh ukuran sepatu dari
bab sebelumnya. Tapi izinkan saya sedikit mengulangi pernyataan tentang ukuran sepatu rata-rata dalam populasi.
Alih-alih mengatakan, seperti yang saya lakukan sebelumnya, "Dalam populasi pria Amerika, ukuran sepatu rata-
rata adalah 9," izinkan saya mengatakan, "Misalkan ukuran sepatu rata-rata pria Amerika adalah 9." Ini secara
teknis lebih akurat karena, dengan asumsi ukuran sepatu rata-rata dalam populasi ditentukan beberapa waktu lalu,
kita tidak benar-benar mengetahui ukuran sepatu rata-rata populasi pria Amerika saat ini. Jadi nilai hipotesis kami
dari ukuran sepatu rata-rata dalam populasi adalah 9, dan ukuran sepatu yang kami amati dalam sampel kami yang
terdiri dari 1.000 pria adalah 10, dengan standar deviasi 2. Dengan menggunakan data ini, kami dapat menghitung
interval kepercayaan.
Ingat bahwa dalam contoh sebelumnya, menggunakan nilai yang sama untuk rata-rata sampel, deviasi standar,
dan ukuran sampel, kami menghitung kesalahan standar 0,06. Dengan menggunakan data ini, kita dapat menghitung
interval kepercayaan. Interval kepercayaan memberikan rentang nilai yang kami yakini, hingga tingkat probabilitas
tertentu, berisi parameter populasi (misalnya, rata-rata populasi).
Sebagian besar waktu, peneliti ingin menjadi 95% atau 99% yakin bahwa interval kepercayaan berisi parameter
populasi. Nilai-nilai ini sesuai dengan nilai p masing-masing 0,05 dan 0,01. Rumus untuk menghitung interval
kepercayaan 95% dan 99% disajikan pada Tabel 7.1. Perhatikan bahwa rumus untuk interval kepercayaan
melibatkan pembangunan interval di sekitar statistik sampel (baik lebih besar dari dan lebih kecil dari statistik
sampel). Karena interval kepercayaan melibatkan nilai yang lebih besar dan lebih kecil dari statistik sampel, kami
selalu menggunakan tingkat alfa untuk uji dua sisi untuk menemukan nilai t kami , bahkan jika kami memiliki
hipotesis alternatif satu sisi saat menguji signifikansi statistik.
Machine Translated by Google

72 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 7.1 Rumus untuk Menghitung Interval


Keyakinan untuk Mean
-
CI95 = X ± (t95)(s– x)
-
CI99 = X ± (t99)(s– x)

di mana
CI95 = selang kepercayaan 95%
CI99
- = selang kepercayaan 99%
X = mean sampel
s-x = kesalahan standar
t95 = nilai t untuk uji dua sisi, tingkat alfa 0,05 dengan
derajat kebebasan tertentu
t99 = nilai t untuk uji dua sisi, tingkat alfa 0,01 dengan
derajat kebebasan tertentu

Jika kita melihat pada Lampiran B untuk uji dua sisi dengan df = dan = .05, kita menemukan t95 = 1,96.
Memasukkan nilai ini ke dalam rumus interval kepercayaan kami, kami mendapatkan yang berikut:

CI95 = 10 ± (1,96)(.06)

CI95 = 10 ± 0,12

CI95 = 9,88, 10,12

Untuk membungkus kata-kata di sekitar hasil ini, kami akan mengatakan bahwa kami yakin 95% bahwa rata-rata
populasi terkandung dalam interval mulai dari 9,88 hingga 10,12. Dengan kata lain, mengingat rata-rata sampel kami 10,
dan tidak mengetahui rata-rata populasi kami, kami yakin 95% bahwa populasi yang diwakili sampel ini memiliki rata-rata
antara 9,88 dan 10,12. Perhatikan bahwa interval kepercayaan ini tidak mengandung nilai 9,00, yang kami hipotesiskan
sebagai mean populasi kami. Ternyata sampel kami kemungkinan besar tidak mewakili populasi dengan rata-rata ukuran
sepatu 9. Itulah sebabnya, ketika kami membandingkan rata-rata sampel kami 10 dengan rata-rata populasi 9, kami
menemukan dua rata-rata berbeda secara statistik. dari satu sama lain.

Jika kita ingin membuat interval yang kita yakini berisi mean populasi kita, perhatikan bahwa kita hanya perlu sedikit
melebarkan intervalnya. Untuk menghitung interval kepercayaan 99% dengan menggunakan data ini, pertama-tama kita
lihat pada Lampiran B untuk uji dua sisi dengan df = dan = .01, dan kita menemukan t99 = 2.576. Dengan memasukkan
angka-angka ini ke dalam rumus interval kepercayaan, kita mendapatkan

CI99 = 10 ± (2.576)(.06)

CI99 = 10 ± .15

CI99 = 9,85, 10,15

Sekarang kita dapat menyimpulkan bahwa kita 99% yakin bahwa rata-rata populasi terkandung dalam interval antara
9,85 dan 10,15. Interval ini juga tidak mengandung nilai 9,00.

Ini memberitahu kita bahwa rata-rata sampel 10 secara statistik berbeda secara signifikan dari rata-rata populasi yang
dihipotesiskan sebesar 9,00 pada tingkat p <0,01. Hasil dari dua interval kepercayaan ini disajikan secara grafis pada
Gambar 7.5.
Machine Translated by Google

Signifikansi Statistik, Ukuran Efek, dan Interval Keyakinan 73

f
n = 25

X = 50

CI95
CI99

f
n = 225

X = 50

CI95
CI99

Gambar 7.5 Interval kepercayaan dan ukuran sampel.

Contoh: Signifikansi Statistik, Interval Keyakinan, dan


Ukuran Efek untuk Uji t Satu Sampel Motivasi
Untuk mengilustrasikan konsep signifikansi statistik dan ukuran efek, saya menyajikan hasil dari uji t satu
sampel yang saya lakukan dengan menggunakan data dari penelitian yang saya lakukan dengan siswa sekolah
menengah. Dalam studi ini, 483 siswa diberikan survei di kelas IPS mereka untuk mengukur motivasi,
keyakinan, dan sikap mereka tentang sekolah dan tugas sekolah. Salah satu konstruksi yang saya dan rekan
saya ukur adalah orientasi motivasi yang disebut tujuan pendekatan kinerja. Tujuan pendekatan kinerja
mengacu pada persepsi siswa bahwa salah satu tujuan yang ingin dicapai secara akademis adalah untuk
menunjukkan kepada orang lain betapa pintarnya mereka, terkadang dengan mengungguli siswa lain. Kami
menggunakan ukuran tujuan pendekatan kinerja yang dikembangkan oleh Carol Midgley dan rekan-rekannya
di University of Michigan (Midgley, Kaplan, & Middleton, et al., 1998). Ukuran ini mencakup lima item: (1) “Saya
ingin menunjukkan kepada guru saya bahwa saya lebih pintar dari siswa lain di kelas ini”; (2) “Saya akan
merasa berhasil di kelas ini jika saya melakukan lebih baik dari kebanyakan siswa lain”; (3) “Saya ingin lebih
baik dari siswa lain di kelas ini”; (4) “Berbuat lebih baik dari siswa lain di kelas ini penting bagi saya”; dan (5)
“Saya akan merasa sangat senang jika hanya saya yang bisa menjawab pertanyaan guru di kelas ini.”

Siswa menanggapi masing-masing pertanyaan ini menggunakan skala Likert 5 poin (dengan 1 = "tidak benar
sama sekali" dan 5 = "sangat benar"). Tanggapan siswa terhadap lima item ini kemudian dirata-ratakan,
menciptakan skala tujuan pendekatan kinerja dengan rentang dari 1 hingga 5.
Saya ingin melihat apakah sampel siswa sekolah menengah saya di California memiliki rata-rata yang
berbeda pada skala sasaran pendekatan kinerja ini daripada populasi siswa sekolah menengah yang lebih besar di
Machine Translated by Google

74 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 7.2 Output SPSS untuk Uji t Satu Sampel


Statistik Satu Sampel
Std.
N Berarti Std. Deviasi Kesalahan Berarti

Tujuan 490 3.0449 .98199 .04436


pendekatan kinerja

Tes Satu Sampel


Nilai Tes = 3,00

Interval Keyakinan 95%


dari Selisih
Berarti
t df Tanda tangan. (2-ekor) Perbedaan Lebih rendah
Atas
Tujuan 1.012 489 .312 .0449 –.0423 .1321
pendekatan kinerja

x
Machine Translated by Google

Signifikansi Statistik, Ukuran Efek, dan Interval Keyakinan 75

3 .0449ÿ3 00.
t=
.04436

.0449
t=
.04436

t = 1,012

Selanjutnya, dengan menggunakan derajat kebebasan (df = 489), kita dapat melihat pada Lampiran B
untuk menemukan probabilitas perkiraan untuk menemukan nilai t sebesar ini atau lebih besar secara
kebetulan. Karena derajat kebebasan kita lebih besar dari 120, kita harus melihat pada baris yang berlabel
simbol tak terhingga (ÿ). Karena nilai absolut dari nilai t yang kami amati adalah 1,01, yang jauh lebih kecil
dari nilai 1,96 yang dikaitkan dengan = 0,05 (uji dua sisi), kami harus mempertahankan hipotesis nol kami.
Keluaran SPSS kami mengkonfirmasi hal ini, menempatkan probabilitas pada angka yang lebih tepat, p =
0,312, jauh lebih besar daripada tingkat batas 0,05 untuk menolak hipotesis nol. Ini tidak akan dianggap
signifikan secara statistik jika kita menggunakan tingkat alfa konvensional 0,05.
Sekarang mari kita hitung dua interval kepercayaan 95% menggunakan data ini: satu untuk rata-rata
sampel dan satu untuk selisih antara rata-rata sampel dan populasi. Keduanya akan memberikan informasi
yang sama tentang besarnya perbedaan rata-rata sampel dan populasi.
Pertama, sampel berarti:

CI95 = 3.0449 ± (1.96)(.04436)

CI95 = 3,0449 ± 0,0869

CI95 = 2.958, 3.132

Interval kepercayaan ini memberi tahu kita bahwa, berdasarkan rata-rata sampel, kita yakin 95% populasi
yang diwakili sampel ini memiliki rata-rata antara nilai 2,958 dan 3,132. Karena interval tersebut mengandung
nilai hipotesis rata-rata populasi untuk siswa sekolah menengah Amerika pada variabel ini, kita harus
menyimpulkan bahwa populasi yang diwakili oleh sampel kami tidak berbeda secara signifikan dari populasi
siswa sekolah menengah Amerika. Jika sampel kami mewakili siswa sekolah menengah California, maka
kami mengatakan, "Tidak ada perbedaan antara populasi siswa sekolah menengah California dan populasi
siswa sekolah menengah Amerika pada ukuran tujuan pendekatan kinerja."

Sekarang mari kita hitung interval kepercayaan untuk perbedaan antara sampel dan rata-rata populasi.

CI95 = 0,0449 ± (1,96)(,06)

CI95 = 0,04436 ± 0,0869

CI95 = –.0423, .1321

Sekali lagi, kita dapat melihat bahwa interval kepercayaan 95% kita mengandung perbedaan yang -
dihipotesiskan antara rata-rata sampel dan populasi yang disajikan dalam hipotesis nol (Ho: = X ).
Oleh karena itu, kita harus mempertahankan hipotesis nol kita, seperti yang kita lakukan dengan interval kepercayaan
lain yang kita hitung untuk data ini.
Machine Translated by Google

76 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Akhirnya, kita dapat menghitung ukuran efek untuk data ini. Karena hasil kami tidak
signifikan secara statistik, kami mungkin sebenarnya tidak ingin menghitung ukuran efek
untuk uji t ini. Tapi demi pemahaman, mari kita lakukan:

X
d=
S

di mana
d- adalah ukuran efek
X adalah mean sampel
adalah rata-rata populasi
S adalah standar deviasi untuk ukuran efek

Meskipun kami memiliki standar deviasi untuk setiap sampel dalam penelitian ini, kami belum memiliki standar
deviasi untuk digunakan dalam rumus ukuran efek kami. Untuk menemukannya, kita mengalikan kesalahan standar
dengan akar kuadrat dari ukuran sampel, seperti yang kita lakukan pada contoh sebelumnya.

. ×
S = 490 0869

S = 22,14 × 0,0869

S = 1,92

Sekarang kita memiliki standar deviasi, kita dapat dengan mudah menghitung ukuran efek:

3.0449 3 00
.
d=
1.92

.0449
d=
1.92

d = 0,02

Ukuran efek kami 0,02 sangat kecil, seperti yang kami harapkan dari hasil yang signifikan secara
nonstatistik. Ketika kami menggabungkan hasil analisis signifikansi statistik kami dengan ukuran
efek dan hasil interval kepercayaan, kami memiliki gambaran yang konsisten: “Siswa California
tidak benar-benar berbeda dari siswa di seluruh negara dalam dukungan mereka terhadap tujuan
pendekatan kinerja. .”

Mengakhiri dan Menantikan


Selama beberapa dekade, signifikansi statistik telah menjadi tongkat pengukur yang digunakan oleh
ilmuwan sosial untuk menentukan apakah hasil analisis mereka bermakna. Tetapi seperti yang telah
kita lihat dalam bab ini dan dalam diskusi kita tentang kesalahan standar di Bab 6, pengujian
signifikansi statistik cukup bergantung pada ukuran sampel. Dengan sampel besar, bahkan efek
sepele sering signifikan secara statistik, sedangkan dengan ukuran sampel kecil, efek yang cukup
besar mungkin tidak mencapai signifikansi statistik. Karena itu, baru-baru ini ada peningkatan apresiasi, dan permintaan
Machine Translated by Google

Signifikansi Statistik, Ukuran Efek, dan Interval Keyakinan 77

untuk, ukuran signifikansi praktis juga. Saat menentukan signifikansi praktis dari hasil Anda sendiri, atau yang
Anda temui dalam artikel atau buku yang diterbitkan, Anda disarankan untuk mempertimbangkan semua
tindakan yang Anda inginkan. Apakah hasilnya signifikan secara statistik? Seberapa besar ukuran efeknya?
Dan, saat Anda melihat efek dalam data Anda dan menempatkan data Anda dalam konteks relevansi dunia
nyata, gunakan penilaian Anda untuk memutuskan apakah Anda berbicara tentang hasil yang bermakna atau
sepele. Dalam bab-bab yang akan datang, kita akan menemukan beberapa contoh statistik inferensial. Gunakan
apa yang telah Anda pelajari dalam bab ini untuk menentukan apakah hasil yang disajikan harus dianggap
signifikan secara praktis.

Daftar Istilah dan Simbol untuk Bab 7


Tingkat alfa: Probabilitas apriori untuk secara salah menolak hipotesis nol yang bersedia diterima oleh peneliti.
Ini digunakan, dalam hubungannya dengan nilai p , untuk menentukan apakah statistik sampel
signifikan secara statistik.
Hipotesis alternatif: Alternatif untuk hipotesis nol. Biasanya, itu adalah hipotesis bahwa ada beberapa efek
yang ada dalam populasi (misalnya, dua rata-rata populasi tidak sama, dua variabel berkorelasi, rata-
rata sampel berbeda dari rata-rata populasi, dll.).
Interval kepercayaan: Interval yang dihitung menggunakan statistik sampel untuk memuat parameter populasi,
dalam tingkat kepercayaan tertentu (misalnya, kepercayaan 95%).
Statistik deskriptif: Statistik yang menggambarkan karakteristik sampel atau populasi tertentu. Statistik ini
hanya dimaksudkan untuk menggambarkan karakteristik dari siapa data dikumpulkan.

Ukuran efek: Ukuran ukuran efek yang diamati dalam beberapa statistik. Ini adalah cara untuk menentukan
signifikansi praktis dari suatu statistik dengan mengurangi dampak ukuran sampel.
Statistik inferensial: Statistik yang dihasilkan dari data sampel yang digunakan untuk membuat kesimpulan
tentang karakteristik populasi yang diduga diwakili oleh sampel.
Hipotesis nol: Hipotesis bahwa tidak ada pengaruh dalam populasi (misalnya, bahwa dua populasi berarti
tidak berbeda satu sama lain, bahwa dua variabel tidak berkorelasi dalam populasi).

Satu sisi: Uji signifikansi statistik yang dilakukan hanya untuk satu ekor distribusi
tion (misalnya, bahwa rata-rata sampel akan lebih besar dari rata-rata populasi).
Populasi: Kelompok dari mana data dikumpulkan atau sampel dipilih. Populasi meliputi seluruh kelompok yang
datanya diduga berlaku.
Signifikansi praktis: Sebuah penilaian tentang apakah statistik relevan, atau penting, di dunia nyata.

nilai p : Probabilitas memperoleh statistik dengan ukuran tertentu dari sampel dengan ukuran tertentu secara
kebetulan, atau karena kesalahan acak.
Peluang acak: Probabilitas peristiwa statistik yang terjadi hanya karena variasi acak dalam karakteristik sampel
dengan ukuran tertentu yang dipilih secara acak dari suatu populasi.
Kesalahan pengambilan sampel acak: Kesalahan, atau variasi, yang terkait dengan pemilihan sampel secara acak
dengan ukuran tertentu dari suatu populasi.
Sampel: Seorang individu atau kelompok, dipilih dari suatu populasi, dari siapa atau dari mana data itu berasal
dikumpulkan.

Signifikansi statistik: Ketika probabilitas memperoleh statistik dengan ukuran tertentu karena kesalahan
pengambilan sampel acak, atau peluang, lebih kecil dari tingkat alfa yang dipilih, hasilnya dikatakan
signifikan secara statistik. Ini juga merupakan penolakan hipotesis nol.
Dua sisi : Uji signifikansi statistik yang dilakukan hanya untuk kedua sisi distribusi (misalnya, rata-rata sampel
akan berbeda dari rata-rata populasi).
Kesalahan tipe I: Menolak hipotesis nol padahal sebenarnya hipotesis nol itu benar.
Machine Translated by Google

78 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

seks –

x–
Hai

Bacaan yang Direkomendasikan

Midgley, C., Kaplan, A., Middleton, M., dkk. (1998). Pengembangan dan validasi skala penilaian
orientasi tujuan pencapaian siswa. Psikologi Pendidikan Kontemporer, 23, 113-131.
Machine Translated by Google

Bab 8
Korelasi
Dalam beberapa bab sebelumnya, kami memeriksa statistik dan parameter yang menggambarkan satu
variabel pada satu waktu, seperti mean, standar deviasi, skor z , dan kesalahan standar. Meskipun statistik
variabel tunggal seperti itu penting, peneliti sering tertarik untuk memeriksa hubungan antara dua atau
lebih variabel. Salah satu ukuran paling dasar dari hubungan antar variabel, dan statistik dasar untuk
beberapa statistik yang lebih kompleks, adalah koefisien korelasi. Meskipun ada sejumlah jenis koefisien
korelasi yang berbeda, yang paling umum digunakan dalam penelitian ilmu sosial adalah koefisien korelasi
produk-momen Pearson. Sebagian besar bab ini dikhususkan untuk memahami statistik ini, dengan
deskripsi singkat tentang tiga jenis korelasi lainnya: koefisien point-biserial, koefisien Spearman rho,
dan koefisien phi.

Kapan Menggunakan Korelasi dan Apa yang Diberitahukannya kepada Kita

Peneliti menghitung koefisien korelasi ketika mereka ingin mengetahui bagaimana dua variabel terkait satu
sama lain. Untuk korelasi product-moment Pearson, kedua variabel harus diukur pada skala interval atau
rasio dan dikenal sebagai variabel kontinu. Misalnya, saya ingin tahu apakah ada hubungan antara
jumlah waktu yang dihabiskan siswa untuk belajar untuk ujian dan nilai mereka pada ujian. Saya menduga
bahwa semakin banyak jam yang dihabiskan siswa untuk belajar, semakin tinggi skor mereka pada ujian.
Tetapi saya juga menduga bahwa tidak ada hubungan yang sempurna antara waktu yang dihabiskan
untuk belajar dan nilai ujian. Beberapa siswa mungkin akan mendapatkan nilai ujian yang rendah bahkan
jika mereka belajar untuk waktu yang lama, hanya karena mereka mungkin kesulitan memahami materi.
Memang, mungkin akan ada sejumlah siswa yang menghabiskan waktu yang sangat lama untuk belajar
untuk ujian justru karena
mereka kesulitan memahami materi. Di sisi lain, mungkin akan ada beberapa siswa yang mengerjakan
ujian dengan sangat baik tanpa menghabiskan banyak waktu untuk belajar. Terlepas dari “pengecualian”
terhadap aturan saya ini, saya masih berhipotesis bahwa, rata-rata, seiring bertambahnya jumlah waktu
yang dihabiskan untuk belajar, demikian juga nilai siswa pada ujian.
Ada dua karakteristik mendasar dari koefisien korelasi yang diperhatikan oleh para peneliti.
Yang pertama adalah arah koefisien korelasi. Koefisien korelasi bisa positif atau negatif. Korelasi positif
menunjukkan bahwa nilai-nilai pada dua variabel yang dianalisis bergerak ke arah yang sama. Artinya,
ketika skor pada satu variabel naik, skor pada variabel lain juga naik (rata-rata). Demikian pula, rata-rata,
ketika skor pada satu variabel turun, skor pada variabel lain turun. Kembali ke contoh saya sebelumnya,
jika ada korelasi positif antara jumlah waktu yang dihabiskan siswa untuk belajar dan nilai ujian mereka,
saya dapat mengatakan bahwa rata-rata, semakin banyak waktu yang dihabiskan siswa untuk belajar,
semakin tinggi nilai ujian mereka. Ini setara dengan mengatakan bahwa, rata-rata, semakin sedikit waktu
yang mereka habiskan untuk belajar, semakin rendah
skor mereka sedang diuji. Keduanya mewakili korelasi positif antara waktu yang dihabiskan untuk belajar
dan nilai ujian. (Catatan: Saya terus mengatakan "rata-rata" karena penting untuk dicatat bahwa adanya
korelasi antara dua variabel tidak berarti bahwa hubungan ini benar.

79
Machine Translated by Google

80 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Gambar 8.1 Contoh korelasi positif dan negatif.


untuk setiap anggota sampel atau populasi. Sebaliknya, itu berarti bahwa, secara umum, ada hubungan
arah dan kekuatan tertentu antara dua variabel dalam sampel atau populasi.)
Korelasi negatif menunjukkan bahwa nilai pada kedua variabel yang dianalisis bergerak berlawanan
arah. Artinya, ketika skor pada satu variabel naik, skor pada variabel lain turun, dan sebaliknya (rata-rata).
Jika ada korelasi negatif antara jumlah waktu yang dihabiskan untuk belajar dan nilai ujian, saya akan tahu
bahwa, rata-rata, semakin banyak waktu yang dihabiskan siswa untuk belajar untuk ujian, semakin rendah
mereka benar-benar mendapat nilai ujian. Demikian pula, dengan korelasi negatif, saya juga akan
menyimpulkan bahwa, rata-rata, semakin sedikit waktu yang dihabiskan siswa untuk belajar, semakin tinggi
nilai ujian mereka. Korelasi positif dan negatif ini diwakili oleh scattergram pada Gambar 8.1. Scattergrams
hanyalah grafik yang menunjukkan skor setiap kasus dalam sampel secara bersamaan pada dua variabel.
Misalnya, dalam scattergram korelasi positif pada Gambar 8.1, kasus pertama dalam sampel dipelajari
selama 1 jam dan mendapat skor 30 pada ujian.
Kasus kedua dipelajari selama 2 jam dan mendapat nilai 40 pada ujian.
Karakteristik mendasar kedua dari koefisien korelasi adalah kekuatan atau besarnya hubungan.
Koefisien korelasi berkisar dalam kekuatan dari -1,00 hingga +1,00. Koefisien korelasi sebesar .00
menunjukkan bahwa tidak ada hubungan antara kedua variabel yang diteliti. Artinya, skor pada salah satu
variabel tidak berhubungan secara bermakna dengan skor pada variabel kedua. Semakin dekat koefisien
korelasi ke -1,00 atau +1,00, semakin kuat hubungan antara kedua variabel. Korelasi negatif sempurna
-1,00 menunjukkan bahwa untuk setiap anggota sampel atau populasi, skor yang lebih tinggi pada satu
variabel terkait dengan skor yang lebih rendah pada variabel lainnya. Korelasi positif sempurna +1,00
menunjukkan bahwa untuk setiap anggota sampel atau populasi, skor yang lebih tinggi pada satu variabel
terkait dengan skor yang lebih tinggi pada variabel lainnya.

Korelasi sempurna tidak pernah ditemukan dalam penelitian ilmu sosial yang sebenarnya. Umumnya,
koefisien korelasi berada di antara –.70 dan +.70. Beberapa penulis buku teks menyarankan bahwa koefisien
korelasi antara –.20 dan +.20 menunjukkan hubungan yang lemah antara dua variabel, antara .20 dan .50
(baik positif atau negatif) mewakili hubungan yang moderat, dan yang lebih besar dari .50 (baik positif atau
negatif) mewakili hubungan yang kuat. Aturan umum ini untuk menilai relevansi koefisien korelasi harus
diambil dengan sebutir garam. Misalnya, bahkan korelasi "kecil" antara konsumsi alkohol dan penyakit hati
(misalnya, +.15) adalah penting, sedangkan korelasi yang kuat antara seberapa banyak anak-anak menyukai
es krim vanila dan cokelat (misalnya, +.70) mungkin tidak penting. sangat penting.

Scattergram yang disajikan pada Gambar 8.1 mewakili korelasi positif dan negatif yang sangat kuat (r =
.97 dan r = –.97 untuk korelasi positif dan negatif, masing-masing; r adalah simbol untuk sampel koefisien
korelasi Pearson). Pada Gambar 8.2, sebuah scattergram yang mewakili hampir tidak ada korelasi antara
jumlah jam yang dihabiskan untuk belajar dan nilai ujian disajikan. Perhatikan bahwa tidak ada pola yang
terlihat antara skor pada kedua variabel.
Dengan kata lain, data yang disajikan pada Gambar 8.2 mengungkapkan bahwa hampir tidak mungkin untuk
Machine Translated by Google

Korelasi 81 _

100
90
80
70
60
50

40
30
20
10
0
02468 10 12
Jam yang Dihabiskan untuk Belajar

Gambar 8.2 Tidak ada korelasi antara jam belajar dan nilai ujian.

memprediksi skor tes individu hanya dengan mengetahui berapa jam orang tersebut belajar untuk
ujian.

Koefisien Korelasi Pearson dalam Kedalaman


Langkah pertama dalam memahami bagaimana koefisien korelasi Pearson dihitung adalah dengan
memperhatikan bahwa kita memperhatikan skor sampel pada dua variabel pada saat yang sama.
Kembali ke contoh waktu belajar dan skor tes kita sebelumnya, misalkan kita memilih sampel secara
acak lima siswa dan mengukur waktu yang mereka habiskan belajar untuk ujian dan nilai ujian mereka.
Data disajikan pada Tabel 8.1 (dengan scattergram pada Gambar 8.3).

Tabel 8.1 Data Koefisien Korelasi


Jam yang Dihabiskan untuk Belajar Skor Ujian
(Variabel X) (Variabel Y)
Siswa 1 5 80
Siswa 2 6 85
Siswa 3 7 70
Siswa 4 8 90
Siswa 5 9 85

95
90
85
80
75
70
65
60
55
50
2468 10
Jam yang Dihabiskan untuk Belajar

Gambar 8.3 Scattergram data dari Tabel 8.1.


Machine Translated by Google

82 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Agar data ini digunakan dalam analisis korelasi, sangat penting bahwa skor pada kedua variabel
dipasangkan. Artinya, untuk setiap siswa dalam sampel saya, skor pada variabel X (jam yang dihabiskan
untuk belajar) dipasangkan dengan skornya sendiri pada variabel Y (skor ujian). Jika saya ingin menentukan
hubungan antara jam yang dihabiskan untuk belajar dan nilai ujian, saya tidak dapat memasangkan jam yang
dihabiskan Siswa 1 untuk belajar dengan nilai ujian Siswa 4. Saya harus mencocokkan nilai setiap siswa
pada variabel X dengan skornya sendiri pada variabel Y . Setelah saya melakukan ini, saya dapat menentukan
apakah, rata-rata, jam yang dihabiskan untuk belajar terkait dengan nilai ujian.

Menghitung Koefisien Korelasi


Ada beberapa rumus berbeda yang dapat digunakan untuk menghitung koefisien korelasi produk-momen
Pearson. Formula-formula ini menghasilkan hasil yang sama dan hanya berbeda dalam kemudahan
penggunaannya. Faktanya, tidak satu pun dari mereka yang sangat mudah digunakan. Saya menyajikan
salah satunya di sini untuk menggambarkan prinsip-prinsip koefisien korelasi. Jika Anda merasa perlu
mengetahui hubungan antara dua variabel, saya sarankan Anda menggunakan kalkulator atau program
statistik yang menghasilkan koefisien korelasi untuk Anda.
Rumus yang disajikan pada Tabel 8.2 mengharuskan Anda menstandardisasi variabel Anda (lihat Bab
5). Ingatlah bahwa ketika Anda menstandardisasi suatu variabel, Anda hanya mengurangi rata-rata dari
setiap skor dalam sampel Anda dan membaginya dengan standar deviasi. Apa yang dilakukan adalah
memberikan skor z untuk setiap kasus dalam sampel. Anggota sampel dengan skor di bawah rata-rata akan
memiliki skor z negatif , sedangkan anggota sampel dengan skor di atas rata-rata akan memiliki skor z positif.

Perhatikan bahwa rumus ini terlihat mirip dengan beberapa rumus lain yang telah kita temui. Misalnya,
penyebutnya adalah N, yang merupakan jumlah pasangan skor (yaitu, jumlah kasus dalam sampel). Setiap
kali kita membagi dengan N, kita menemukan rata- rata. Hal ini benar ketika kita memeriksa rumus mean di
Bab 2 dan rumus varians dan standar deviasi di Bab 3. Jadi kita tahu bahwa koefisien korelasi akan menjadi
semacam rata -rata . Tapi apa itu rata-rata? Sekarang lihat pembilangnya. Di sini, kita melihat bahwa kita
harus menemukan jumlah (ÿ) dari sesuatu. Ingatlah bahwa ketika membahas rumus untuk varians dan
simpangan baku di Bab 3, kita juga menemukan tanda penjumlahan ini pada pembilangnya. Di sana, kami
harus menemukan jumlah deviasi kuadrat antara masing-masing skor individu dan rata-rata. Tetapi dalam
rumus untuk menghitung koefisien korelasi, kita harus menemukan jumlah perkalian silang antara skor z
pada masing-masing dari dua variabel yang diperiksa untuk setiap kasus dalam sampel. Ketika kita
mengalikan skor setiap individu pada satu variabel dengan skor individu pada variabel kedua (yaitu,
menemukan produk silang), menjumlahkan semua individu dalam sampel, dan kemudian membaginya
dengan N, kita memiliki produk silang rata-rata, dan ini dikenal sebagai kovarians. Jika kita membakukan
kovarians ini, kita berakhir dengan koefisien korelasi. Dalam rumus yang diberikan pada Tabel 8.2, kami
hanya menstandarisasi variabel sebelum kami menghitung produk silang, sehingga menghasilkan statistik
kovarians standar, yang merupakan koefisien korelasi.

Dalam rumus ini, perhatikan apa yang terjadi. Pertama, kita mengalikan skor z yang dipasangkan bersama-
sama. Ketika kita melakukan ini, perhatikan bahwa jika kasus individual dalam sampel memiliki skor di atas

Tabel 8.2 Rumus Definisi Koefisien Korelasi Pearson

r=
( zzxy )
N

di
mana r = koefisien korelasi produk-momen Pearson
zx = skor az untuk variabel X
zy = skor z berpasangan untuk variabel Y
N = jumlah pasangan skor X dan Y
Machine Translated by Google

Korelasi 83 _

rata-rata pada masing-masing dua variabel yang diperiksa, kedua skor z yang dikalikan keduanya akan
positif, dan hasil perkalian silang yang dihasilkan juga akan positif. Demikian pula, jika kasus individual
memiliki skor di bawah rata-rata pada masing-masing dari dua variabel, skor z yang dikalikan keduanya
akan negatif, dan produk silang akan kembali menjadi positif. Oleh karena itu, jika kita memiliki sampel di
mana skor rendah pada satu variabel cenderung dikaitkan dengan skor rendah pada variabel lain, dan skor
tinggi pada satu variabel cenderung dikaitkan dengan skor tinggi pada variabel kedua, maka ketika kita
menjumlahkan produk dari perkalian kami, kami akan berakhir dengan angka positif . Ini adalah bagaimana
kita mendapatkan koefisien korelasi positif.
Sekarang perhatikan apa yang terjadi ketika skor tinggi pada satu variabel dikaitkan dengan skor rendah
pada variabel kedua. Jika kasus individu dalam sampel memiliki skor yang lebih tinggi dari rata-rata usia
pada variabel pertama (yaitu, skor z positif ) dan skor yang berada di bawah rata-rata pada variabel kedua
(yaitu, skor z negatif ), ketika dua skor z ini dikalikan bersama, mereka akan menghasilkan produk negatif .
Jika, untuk sebagian besar kasus dalam sampel, skor tinggi pada satu variabel dikaitkan dengan skor rendah
pada variabel kedua, jumlah produk dari skor z [ÿ(zxzy)] akan negatif. Ini adalah bagaimana kita mendapatkan
koefisien korelasi negatif.

Apa yang Koefisien Korelasi Lakukan, dan Tidak, Beritahu Kami


Koefisien korelasi seperti Pearson adalah statistik yang sangat kuat. Mereka memungkinkan kita untuk
menentukan apakah, rata-rata, nilai pada satu variabel terkait dengan nilai pada variabel kedua. Ini bisa
menjadi informasi yang sangat berguna, tetapi orang-orang, termasuk ilmuwan sosial, sering kali tergoda
untuk menganggap koefisien korelasi lebih berarti daripada yang pantas mereka dapatkan. Yaitu, orang
sering mengacaukan konsep korelasi dan sebab-akibat. Korelasi (korelasi) secara sederhana berarti bahwa
variasi skor pada satu variabel sesuai dengan variasi skor pada variabel kedua. Penyebab berarti bahwa
variasi dalam skor pada satu variabel menyebabkan atau menciptakan variasi dalam skor pada variabel
kedua.
Ketika kita membuat lompatan dari korelasi ke sebab-akibat, kita mungkin salah. Sebagai contoh, saya
menawarkan cerita ini, yang saya dengar di kelas pengantar psikologi saya. Seperti ceritanya, suatu musim
dingin tak lama setelah Perang Dunia II, terjadi ledakan jumlah bangau yang bersarang di beberapa negara
Eropa utara (saya tidak ingat yang mana). Kurang lebih 9 bulan kemudian, terjadi lonjakan besar jumlah
bayi yang lahir. Sekarang, hubungan antara bangau dan bayi seperti apa adanya, banyak yang menyimpulkan
bahwa korelasi antara jumlah bangau dan jumlah bayi ini mewakili hubungan sebab akibat. Untungnya,
sains memberi tahu kita bahwa bayi tidak berasal dari bangau, setidaknya bukan bayi manusia. Namun, ada
kesamaan yang dimiliki bangau dan bayi: Keduanya dapat "dipanggil" oleh suhu dingin dan perapian yang
hangat. Tampaknya bangau suka bersarang di cerobong asap yang hangat selama musim dingin. Seperti
yang terjadi, malam musim dingin yang dingin juga mendorong perilaku membuat bayi. Hubungan sebab-
akibat yang tampak antara bangau dan bayi sebenarnya disebabkan oleh variabel ketiga: musim dingin.

Untuk contoh yang lebih serius, kita dapat melihat hubungan antara nilai SAT dan rata-rata nilai kuliah
tahun pertama. Korelasi antara kedua variabel ini sekitar 0,40. Meskipun kedua variabel ini berkorelasi
sedang, akan sulit untuk membantah bahwa skor SAT yang lebih tinggi menyebabkan pencapaian yang
lebih tinggi di tahun pertama kuliah. Sebaliknya, mungkin ada beberapa variabel lain, atau serangkaian
variabel, yang bertanggung jawab atas hubungan ini. Misalnya, kita tahu bahwa mengambil lebih banyak
kursus matematika tingkat lanjut di sekolah menengah dikaitkan dengan skor SAT yang lebih tinggi dan
dengan nilai yang lebih tinggi dalam kursus matematika tahun pertama di perguruan tinggi.
Inti dari contoh-contoh ini sederhana: Bukti hubungan antara dua variabel (yaitu, korelasi) tidak selalu
berarti bahwa ada hubungan kausal antara dua variabel. Namun, perlu juga dicatat bahwa korelasi antara
dua variabel adalah unsur penting dari argumen apa pun bahwa kedua variabel tersebut terkait secara
kausal. Dengan kata lain, saya tidak dapat mengklaim bahwa satu variabel menyebabkan variabel lain
(misalnya, merokok menyebabkan kanker) jika tidak ada korelasi antara merokok dan kanker. Jika saya
menemukan korelasi antara merokok dan kanker, saya harus mengesampingkan faktor-faktor lain sebelum
saya dapat menyimpulkan bahwa merokoklah yang menyebabkan kanker.
Machine Translated by Google

84 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

70

60

50

40

30

20

10

0
1234 5
Kecemasan

Gambar 8.4 Hubungan lengkung.

Selain masalah korelasi-sebab-akibat , ada beberapa fitur penting lainnya dari korelasi yang perlu
diperhatikan. Pertama, korelasi Pearson sederhana dirancang untuk menguji linear
hubungan antar variabel. Dengan kata lain, mereka menggambarkan hubungan lurus rata-rata antara
variabel. Misalnya, jika Anda menemukan korelasi positif antara dua variabel, Anda dapat memprediksi
berapa banyak skor dalam satu variabel akan meningkat dengan setiap peningkatan yang sesuai pada
variabel kedua. Namun tidak semua hubungan antar variabel bersifat linier. Misalnya, ada hubungan
lengkung antara kecemasan dan kinerja pada sejumlah perilaku akademik dan nonakademik. Saat
mengambil tes matematika, misalnya, sedikit kecemasan sebenarnya dapat membantu kinerja. Namun,
begitu seorang siswa menjadi terlalu gugup, kecemasan ini dapat mengganggu kinerjanya. Kami
menyebutnya hubungan lengkung karena apa yang dimulai sebagai hubungan positif antara kinerja
dan kecemasan pada tingkat kecemasan yang lebih rendah menjadi hubungan negatif pada tingkat
kecemasan yang lebih tinggi. Hubungan lengkung ini disajikan secara grafis pada Gambar 8.4. Karena
koefisien korelasi menunjukkan hubungan rata -rata antara dua variabel, ketika hubungan antara dua
variabel adalah lengkung, koefisien korelasi bisa sangat kecil, menunjukkan hubungan yang lebih
lemah daripada yang sebenarnya ada.
Masalah umum lainnya yang muncul ketika memeriksa koefisien korelasi adalah masalah rentang
terpotong . Masalah ini muncul ketika skor pada salah satu atau kedua variabel dalam analisis tidak
memiliki banyak variasi dalam distribusi skor, mungkin karena batas atau efek lantai. Sebagai contoh,
misalkan saya memberi sampel siswa tes yang sangat mudah dengan kemungkinan skor tinggi 100.
Kemudian misalkan saya ingin melihat apakah ada korelasi antara skor pada tes saya dan berapa
banyak waktu yang dihabiskan siswa untuk belajar untuk tes tersebut. Misalkan saya mendapatkan
data berikut, disajikan pada Tabel 8.3.
Dalam contoh ini, semua siswa saya mengerjakan ujian dengan baik, apakah mereka menghabiskan
banyak waktu belajar untuk itu atau tidak. Karena ujiannya terlalu mudah, efek langit-langit mungkin
terjadi, sehingga memotong rentang nilai ujian. Meskipun mungkin ada hubungan antara berapa
banyak waktu yang dihabiskan siswa untuk belajar dan pengetahuan mereka tentang materi, tes saya
tidak cukup sensitif untuk mengungkapkan hubungan ini. Korelasi lemah yang akan dihasilkan oleh data

Tabel 8.3 Data Korelasi Skor Belajar-Ujian


Jam Belajar (Variabel Skor Ujian
X) (Variabel Y)
Siswa 1 0 95
Siswa 2 2 95
Siswa 3 4 100
Siswa 4 7 95
Siswa 5 10 100
Machine Translated by Google

Korelasi 85 _

sr

2
r
Machine Translated by Google

86 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

2
Machine Translated by Google

Korelasi 87 _

hasil ketika mencari di df = 120 baris. Oleh karena itu, kami menyimpulkan bahwa nilai p kami adalah antara
0,01 dan 0,02. Jika tingkat alfa kami adalah 0,05 tradisional, kami akan menyimpulkan bahwa koefisien korelasi
kami signifikan secara statistik. Dengan kata lain, kami akan menyimpulkan bahwa, berdasarkan statistik
sampel kami, pada populasi orang dewasa yang lebih besar, semakin lama siang hari, semakin baik suasana
hati mereka, rata-rata. Kami dapat menyampaikan semua informasi itu kepada pembaca statistik yang
terinformasi dengan menulis, “Kami menemukan hubungan yang signifikan antara jumlah jam siang hari dan
suasana hati (r = .25, t(98) = 2.56, p <.05).”
Contoh ini juga memberikan kesempatan yang baik untuk sekali lagi mengingatkan Anda tentang bahaya
asumsi bahwa korelasi mewakili hubungan kausal antara dua variabel. Meskipun mungkin hari yang lebih
panjang menyebabkan rata-rata orang dewasa merasa lebih baik, data ini tidak membuktikannya. Penjelasan
kausal alternatif untuk hasil kami adalah bahwa hari yang lebih pendek juga dikaitkan dengan suhu yang lebih dingin
hari, sedangkan hari yang lebih panjang umumnya dikaitkan dengan hari yang lebih hangat . Mungkin saja kehangatan menyebabkan
suasana hati yang lebih baik dan kurangnya kehangatan menyebabkan depresi dan kesedihan. Jika orang-orang memiliki hari-hari yang
hangat dan pendek, mereka mungkin akan sama bahagianya seperti jika mereka memiliki hari-hari yang hangat dan panjang. Jadi ingat:
Hanya karena dua variabel berkorelasi, bukan berarti yang satu menyebabkan yang lain.

Koefisien Determinasi

Meskipun koefisien korelasi memberikan gambaran tentang kekuatan hubungan antara dua variabel, mereka
sering tampak agak samar-samar. Jika Anda mendapatkan koefisien korelasi 0,40, apakah itu hubungan yang
kuat? Untungnya, koefisien korelasi dapat digunakan untuk mendapatkan statistik yang tampaknya lebih
konkret: koefisien determinasi. Bahkan lebih baik, mudah untuk menghitung.
Ketika kita ingin mengetahui apakah dua variabel terkait satu sama lain, kita sebenarnya mengajukan
pertanyaan yang agak lebih kompleks: Apakah variasi skor pada satu variabel entah bagaimana terkait dengan
variasi skor pada variabel kedua? Dengan kata lain, koefisien korelasi memberi tahu kita apakah kita dapat
mengetahui sesuatu tentang skor pada satu variabel jika kita sudah mengetahui skor pada variabel kedua.
Dalam bahasa statistik umum, apa yang ingin kita lakukan dengan ukuran asosiasi, seperti koefisien korelasi,
adalah mampu menjelaskan beberapa varians dalam skor pada satu variabel berdasarkan pengetahuan kita
tentang skor pada variabel kedua. . Koefisien determinasi memberi tahu kita seberapa banyak varians dalam
skor satu variabel dapat dipahami, atau dijelaskan, oleh skor pada variabel kedua.

Salah satu cara untuk mengkonseptualisasikan varians yang dijelaskan adalah dengan memahami bahwa
ketika dua variabel berkorelasi satu sama lain, mereka berbagi persentase tertentu dari variansnya.
Pertimbangkan contoh. Jika kita memiliki sampel 10 orang, dan kita mengukur tinggi dan berat mereka, kita
mendapatkan 10 skor pada masing-masing dari dua variabel. Dengan asumsi bahwa 10 orang saya berbeda
dalam seberapa tinggi mereka, akan ada beberapa jumlah total varians dalam skor mereka pada variabel tinggi
badan. Juga akan ada beberapa jumlah total varians dalam skor mereka pada variabel bobot, dengan asumsi
bahwa mereka tidak semua menimbang jumlah yang sama. Varians total ini digambarkan pada Gambar 8.5
sebagai dua kotak penuh, masing-masing mewakili 100% varians dalam variabel masing-masing. Perhatikan
bagaimana mereka tidak tumpang tindih.

r = 0,00

r2 = 0,00

Gambar 8.5 Variabel yang tidak berkorelasi.


Machine Translated by Google

88 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

r = 0,30 r = 0,55
r2 = 0,09 r2 = 0,30

Gambar 8.6 Contoh koefisien determinasi yang berbeda.


Ketika dua variabel terkait, atau berkorelasi, satu sama lain, ada sejumlah varians bersama
di antara mereka. Pada Gambar 8.5, dua kotak tidak saling bersentuhan, menunjukkan bahwa
semua varians di setiap variabel tidak tergantung pada variabel lainnya. Tidak ada tumpang
tindih. Tetapi ketika dua variabel berkorelasi, ada beberapa varians bersama . Semakin kuat
korelasinya, semakin besar jumlah varians bersama, dan semakin banyak varians yang dapat
Anda jelaskan dalam satu variabel dengan mengetahui skor pada variabel kedua. Persentase
yang tepat dari varians yang dibagikan, atau dijelaskan, dapat ditentukan dengan mengkuadratkan
koefisien korelasi. Koefisien korelasi kuadrat ini dikenal sebagai koefisien determinasi. Beberapa
contoh koefisien determinasi yang berbeda disajikan pada Gambar 8.6. Semakin kuat korelasinya,
semakin besar jumlah shared variance, dan semakin tinggi koefisien determinasinya. Masih
penting untuk diingat bahwa meskipun koefisien determinasi digunakan untuk memberi tahu kita
seberapa banyak varians dalam satu variabel dapat dijelaskan oleh varians dalam variabel
kedua, koefisien determinasi tidak selalu menunjukkan hubungan kausal antara variabel tersebut.
dua variabel.

Kata Singkat tentang Jenis Koefisien Korelasi Lainnya


Meskipun koefisien korelasi Pearson mungkin yang paling umum digunakan dan dilaporkan
dalam ilmu-ilmu sosial, mereka dibatasi oleh persyaratan bahwa kedua variabel diukur pada
skala interval atau rasio. Untungnya, ada metode yang tersedia untuk menghitung kekuatan
hubungan antara dua variabel bahkan jika satu atau kedua variabel tidak diukur menggunakan
skala interval atau rasio. Pada bagian ini, saya menjelaskan secara singkat tiga dari koefisien
korelasi “lainnya” ini. Penting untuk dicatat bahwa semua statistik ini sangat mirip dengan
koefisien korelasi Pearson dan masing-masing menghasilkan koefisien korelasi yang mirip
dengan Pearson r. Mereka hanyalah versi khusus dari koefisien korelasi Pearson yang dapat
digunakan ketika salah satu atau kedua variabel tidak diukur menggunakan skala interval atau rasio.

Titik Biserial
Ketika salah satu variabel kami adalah variabel kontinu (yaitu, diukur pada skala interval atau
rasio) dan yang lainnya adalah variabel kategoris (alias nominal) dua tingkat (juga dikenal
sebagai variabel dikotomi), kita perlu menghitung titik -koefisien korelasi biserial. Koefisien ini
adalah versi khusus dari koefisien korelasi Pearson yang dibahas sebelumnya dalam bab ini.
Misalnya, saya ingin tahu apakah ada hubungan antara apakah seseorang memiliki mobil (ya
atau tidak) dan skor mereka pada tes tertulis tentang pengetahuan peraturan lalu lintas, seperti
tes yang harus dilalui untuk mendapatkan SIM. Dalam contoh ini, kita menguji hubungan antara
satu variabel kategoris dengan dua kategori (apakah seseorang memiliki mobil) dan satu variabel
kontinu (skor seseorang pada tes mengemudi). Oleh karena itu, korelasi point-biserial adalah
statistik yang tepat dalam hal ini.
Machine Translated by Google

Korelasi 89 _

phi
Terkadang peneliti ingin mengetahui apakah dua variabel dikotomis berkorelasi. Di
kasus ini, kita akan menghitung koefisien phi (ÿ), yang merupakan versi khusus lain dari Pearson r.
Misalnya, saya ingin tahu apakah jenis kelamin (laki-laki, perempuan) dikaitkan dengan apakah seseorang
merokok atau tidak (perokok, bukan perokok). Dalam hal ini, dengan dua variabel dikotomis, saya akan
menghitung koefisien phi. (Catatan: Pembaca yang akrab dengan analisis chi-kuadrat akan memperhatikan
bahwa dua variabel dikotomis juga dapat dianalisis menggunakan chi-kuadrat.)

Tombak Rho
Terkadang data dicatat sebagai peringkat. Karena peringkat adalah bentuk data ordinal, dan koefisien
korelasi lain yang dibahas sejauh ini melibatkan variabel kontinu (interval, rasio) atau dikotomis, kita
memerlukan jenis statistik yang berbeda untuk menghitung korelasi antara dua variabel yang menggunakan
data peringkat. Dalam hal ini, Spearman rho, bentuk khusus dari Pearson r, adalah tepat. Misalnya,
banyak sekolah menggunakan rata-rata nilai siswa (skala berkelanjutan) untuk memberi peringkat siswa
(skala ordinal). Selain itu, nilai siswa pada tes prestasi standar dapat diberi peringkat. Untuk melihat
apakah peringkat siswa di sekolah mereka terkait dengan peringkat mereka pada tes standar, koefisien
rho Spearman dapat dihitung.

Contoh: Korelasi antara Nilai dan Nilai Tes


Prestasi siswa dapat diukur dengan berbagai cara. Salah satu metode umum untuk mengevaluasi siswa
adalah dengan memberi mereka nilai huruf. Nilai ini dapat diubah menjadi angka (misalnya, A = 4, B = 3).
Di sekolah menengah, nilai siswa di semua kelas mereka (misalnya, matematika, sains, IPS) dapat
digabungkan menjadi rata-rata, sehingga menciptakan nilai rata-rata (IPK), yang diukur pada skala interval
kontinu mulai dari kemungkinan terendah 0 hingga kemungkinan tinggi 4,33 (jika sekolah memberikan nilai
A+). Karena nilai diberikan oleh guru, terkadang dianggap terlalu subjektif. Artinya, guru yang berbeda
dapat memberikan nilai yang berbeda untuk pekerjaan yang sama. Demikian pula, ada beberapa guru
individu yang mungkin memberikan nilai berbeda kepada dua siswa yang menghasilkan kualitas pekerjaan
yang sama. Untuk mengatasi subjektivitas seperti itu, bentuk lain dari penilaian, tes standar, diciptakan.
Dengan jenis penilaian ini, semua siswa dari tingkat kelas tertentu menjawab pertanyaan yang sama dan
tanggapan mereka dinilai oleh komputer, sehingga menghilangkan unsur manusia dan subjektivitasnya.

Beberapa berpendapat bahwa tes standar kemampuan dan nilai yang ditugaskan guru umumnya
mengukur hal yang sama. Artinya, sebagian besar, siswa yang cerdas akan mendapat nilai bagus baik
dalam ujian maupun nilai mereka. Yang lain berpendapat bahwa tes standar kemampuan dan nilai yang
ditugaskan guru benar-benar mengukur hal-hal yang agak berbeda. Sedangkan tes standar dapat
mengukur seberapa baik siswa menjawab pertanyaan pilihan ganda, guru memiliki manfaat untuk
mengetahui siswa, dan dapat mengambil hal-hal seperti usaha siswa, kreativitas , dan motivasi
diperhitungkan saat memberikan nilai. Langkah pertama untuk menemukan mana dari dua sudut pandang
ini yang lebih akurat adalah dengan melihat seberapa kuat hubungan antara nilai dan nilai ujian. Jika ada
korelasi yang sangat kuat antara keduanya, maka nilai dan nilai ujian mungkin sebenarnya mengukur sifat
umum yang sama. Tetapi jika kedua skor tersebut hanya berkorelasi sedang, mungkin mereka benar-
benar mengukur konstruksi yang terpisah. Dengan konstruksi, maksud saya "hal" aktual yang kita coba
ukur. Dalam contoh sebelumnya, jika nilai dan nilai ujian berkorelasi kuat, kita dapat berargumen bahwa
kedua ukuran ini mewakili beberapa konstruksi yang mendasarinya, seperti "kecerdasan" atau "kemampuan
akademik." Di sisi lain, jika kedua variabel ini tidak berkorelasi kuat, mereka masing-masing dapat mewakili
hal atau konstruksi yang berbeda.
Kolega saya, Carol Giancarlo, dan saya mengumpulkan data dari sampel 314 siswa kelas sebelas di
sebuah sekolah menengah di California. Di antara data yang kami kumpulkan adalah IPK kumulatif mereka
Machine Translated by Google

90 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 8.4 Hasil Cetak SPSS Analisis Korelasi


IPK Naglieri
IPK 1.0000
(314)
p= .
Naglieri .4291 1.0000
(314) (314)
p = .000 p= .

(yaitu, IPK mereka terakumulasi dari saat mereka mulai sekolah menengah sampai saat data dikumpulkan).
Selain itu, kami memberi siswa Tes Kemampuan Nonverbal Naglieri (NNAT; Naglieri, 1996), tes nonverbal
dari penalaran mental umum dan keterampilan berpikir kritis. Untuk melihat apakah ada korelasi yang
signifikan secara statistik antara kedua ukuran kemampuan ini, saya menggunakan program perangkat lunak
statistik SPSS untuk menghitung koefisien korelasi dan nilai p . Hasil print out SPSS dari analisis ini disajikan
pada Tabel 8.4.
Hasil yang disajikan pada Tabel 8.4 memberikan beberapa informasi. Pertama, ada tiga koefisien korelasi
yang disajikan. Korelasi pada diagonal menunjukkan korelasi antara variabel tunggal dan variabel itu sendiri.
Oleh karena itu, koefisien korelasi pertama yang disajikan mengungkapkan bahwa IPK berkorelasi dengan
dirinya sendiri secara sempurna (r = 1,0000). Karena kita selalu mendapatkan korelasi 1,00 ketika kita
mengkorelasikan variabel dengan variabel itu sendiri, korelasi yang disajikan pada diagonal ini tidak ada artinya.
Itulah mengapa tidak ada nilai p yang dilaporkan untuk mereka. Angka-angka dalam kurung, tepat di bawah
koefisien korelasi, melaporkan ukuran sampel. Ada 314 siswa kelas sebelas dalam sampel ini. Koefisien
korelasi yang berada di luar diagonal adalah yang menarik bagi kami. Di sini, kita dapat melihat bahwa IPK
siswa berkorelasi sedang dengan skor mereka pada tes Naglieri (r = .4291). Korelasi ini signifikan secara
statistik, dengan nilai p kurang dari .0001 (p < .0001).
Untuk mendapatkan pemahaman yang lebih jelas tentang hubungan antara IPK dan nilai tes Naglieri, kita
dapat menghitung koefisien determinasi. Kami melakukan ini dengan mengkuadratkan koefisien korelasi.
Ketika kita kuadratkan koefisien korelasi ini (.4291 × .4291 = .1841), kita melihat bahwa IPK menjelaskan
sedikit lebih dari 18% varians dalam nilai tes Naglieri. Meskipun ini adalah persentase yang substansial,
masih menyisakan lebih dari 80% nilai tes kemampuan yang tidak dapat dijelaskan. Karena persentase
besar dari varians yang tidak dapat dijelaskan ini, kita harus menyimpulkan bahwa nilai yang diberikan guru
mencerminkan sesuatu yang secara substansial berbeda dari kemampuan penalaran mental umum dan
keterampilan berpikir kritis, yang diukur dengan tes Naglieri.

Menulis Itu
Penulisan untuk koefisien korelasi umumnya cukup singkat. Meskipun signifikansi statistik dari koefisien
korelasi Pearson diuji dengan uji t , nilai t jarang dilaporkan dalam penulisan. Untuk korelasi antara IPK dan
tes Naglieri yang dijelaskan di atas, penulisannya akan terlihat seperti ini: “Korelasi antara IPK dan skor tes
Naglieri positif, cukup kuat, dan signifikan secara statistik (r = 0,43, p < 0,001 ). ). Koefisien determinasi (r
=
2,18 ) mengungkapkan bahwa 18% varians dalam nilai tes Naglieri dijelaskan oleh IPK siswa.”

Mengakhiri dan Menantikan


Koefisien korelasi, khususnya koefisien korelasi Pearson, menyediakan cara untuk menentukan arah dan
kekuatan hubungan antara dua variabel yang diukur pada skala kontinu. Indeks ini dapat memberikan bukti
bahwa dua variabel terkait satu sama lain, atau tidak, tetapi tidak dengan sendirinya menunjukkan hubungan
kausal antara dua variabel. Dalam bab ini, saya juga memperkenalkan konsep varians yang dijelaskan atau
dibagikan
Machine Translated by Google

Korelasi 91 _

dan koefisien determinasi. Menentukan berapa banyak varians dalam satu variabel dibagi dengan, atau dijelaskan
oleh, variabel lain adalah inti dari semua statistik yang dibahas dalam bab-bab selanjutnya dari buku ini. Secara
khusus, koefisien korelasi adalah awal dari statistik yang lebih canggih yang terlibat dalam regresi berganda (Bab
13). Pada bab berikutnya, kita menguji uji t , yang memungkinkan kita untuk melihat hubungan antara variabel
bebas dua kategori dan variabel terikat kontinu.

Daftar Istilah dan Simbol untuk Bab 8


Penyebab: Konsep bahwa variasi dalam satu variabel menyebabkan variasi dalam variabel lain.
Koefisien determinasi: Sebuah statistik yang ditemukan dengan mengkuadratkan koefisien korelasi Pearson
yang mengungkapkan persentase varians yang dijelaskan di masing-masing dari dua variabel yang
berkorelasi oleh variabel lainnya.
Variabel kontinu: Variabel yang diukur menggunakan skala interval atau rasio.
Koefisien korelasi: Statistik yang mengungkapkan kekuatan dan arah hubungan
antara dua variabel.
Kovarians: Rata-rata produk silang dari suatu distribusi.
Produk silang: Hasil perkalian skor masing-masing individu pada dua variabel.
Curvilinear: Hubungan antara dua variabel yang positif pada beberapa nilai tetapi negatif pada nilai lainnya.

Derajat kebebasan: Kira-kira, jumlah minimum data yang diperlukan untuk menghitung statistik. Lebih praktis,
ini adalah angka, atau angka, yang digunakan untuk memperkirakan jumlah pengamatan dalam
kumpulan data untuk tujuan menentukan signifikansi statistik.
Variabel dikotomis: Sebuah kategoris, atau nominal, variabel dengan dua kategori.
Arah: Karakteristik korelasi yang menggambarkan apakah dua variabel berhubungan positif atau negatif satu
sama lain.
Varians yang dijelaskan: Persentase varians dalam satu variabel yang dapat kita pertanggungjawabkan, atau
pahami, dengan mengetahui nilai variabel kedua dalam korelasi.
Korelasi negatif: Fitur deskriptif dari korelasi yang menunjukkan bahwa ketika skor pada salah satu variabel
yang berkorelasi meningkat, skor pada variabel lain menurun, dan sebaliknya.
Koefisien korelasi produk-momen Pearson: Sebuah statistik yang menunjukkan kekuatan dan arah hubungan
antara dua variabel kontinu.
Korelasi negatif sempurna: Koefisien korelasi r = –1.0. Terjadi ketika peningkatan skor ukuran tertentu pada
salah satu variabel dalam korelasi dikaitkan dengan penurunan skor ukuran terkait pada variabel kedua
dalam korelasi (misalnya, untuk setiap peningkatan 1 unit skor pada variabel X ada adalah penurunan
2 unit yang sesuai dalam skor pada variabel Y ).

Korelasi positif sempurna: Koefisien korelasi r = +1.0. Terjadi ketika peningkatan skor ukuran tertentu pada
salah satu variabel dalam korelasi dikaitkan dengan peningkatan skor ukuran terkait pada variabel
kedua dalam korelasi (misalnya, untuk setiap kenaikan 1 unit skor pada variabel X ada adalah
peningkatan 2 unit yang sesuai dalam skor pada variabel Y ).

Koefisien Phi: Koefisien yang menggambarkan korelasi antara dua variabel dikotomis.
Koefisien titik-biserial: Koefisien yang menggambarkan hubungan antara satu variabel skala interval atau rasio
(yaitu, kontinu) dan satu variabel dikotomis.
Korelasi positif: Karakteristik korelasi; ketika skor pada dua variabel berkorelasi bergerak ke arah yang sama,
rata-rata. Ketika skor pada satu variabel naik, skor pada variabel lain naik, dan sebaliknya.

Scattergram: Sebuah penggambaran grafis dari setiap anggota skor distribusi pada dua variabel secara
bersamaan.
Machine Translated by Google

92 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

sr

Bacaan yang Direkomendasikan

Hinkle, DE, Wiersma, W., & Jurs, SG (1998). Statistik terapan untuk ilmu perilaku (edisi ke-4).
Boston: Houghton Mifflin.
Naglieri, JA (1996). Tes kemampuan nonverbal Naglieri. San Antonio, TX: Penjepit Harcourt.
Machine Translated by Google

Bab 9
t Tes

Apa yang Ada di Tes?

Karena ada perbedaan antara definisi vernakular statistik umum dari uji t dan definisi yang lebih teknis, uji t
dapat sedikit membingungkan. Definisi atau deskripsi uji t yang umum digunakan hanyalah membandingkan
dua cara untuk melihat apakah keduanya berbeda secara signifikan satu sama lain. Definisi atau deskripsi
yang lebih teknis dari uji t adalah setiap uji statistik yang menggunakan keluarga distribusi t, atau t Student .
Dalam bab ini, saya akan menjelaskan secara singkat keluarga distribusi yang dikenal sebagai distribusi t .
Kemudian saya akan membahas dua uji t yang paling umum dilakukan , uji t sampel independen dan uji t
sampel berpasangan atau dependen .

t Distribusi

Dalam Bab 4 dan 5, saya membahas distribusi normal dan bagaimana menggunakan distribusi normal
untuk mencari nilai z . Probabilitas yang didasarkan pada distribusi normal adalah akurat ketika (1) standar
deviasi populasi diketahui, dan/atau (2) kita memiliki sampel yang besar (yaitu, n > 120).
Jika tidak satu pun dari ini benar, maka kita tidak dapat berasumsi bahwa kita memiliki kurva lonceng yang
berbentuk bagus dan kita tidak dapat menggunakan probabilitas yang didasarkan pada distribusi normal
ini. Sebaliknya, kita harus menyesuaikan perkiraan probabilitas kita dengan memperhitungkan ukuran
sampel kita. Seperti yang saya bahas di Bab 6, kita beruntung memiliki satu set distribusi yang telah dibuat
untuk kita yang melakukan ini, dan ini dikenal sebagai keluarga distribusi t . Distribusi t spesifik mana yang
Anda gunakan untuk masalah tertentu bergantung pada ukuran sampel Anda. Ada tabel probabilitas
berdasarkan distribusi t yang berbeda dalam Lampiran B.

Uji t Sampel Independen


Salah satu uji t yang paling umum digunakan adalah uji t sampel independen . Anda menggunakan tes ini
ketika Anda ingin membandingkan rata-rata dua sampel independen pada variabel tertentu. Misalnya, jika
Anda ingin membandingkan tinggi rata-rata 50 pria yang dipilih secara acak dengan 50 wanita yang dipilih
secara acak, Anda akan melakukan uji t sampel independen . Perhatikan bahwa sampel laki-laki tidak
terkait dengan sampel perempuan, dan tidak ada tumpang tindih antara kedua sampel ini (yaitu, satu tidak
dapat menjadi anggota kedua kelompok). Oleh karena itu, kelompok-kelompok ini independen, dan uji t
sampel independen adalah tepat. Untuk melakukan uji t sampel independen , Anda memerlukan satu
variabel independen kategoris atau nominal dan satu skala kontinu atau interval
variabel tak bebas. Variabel terikat adalah variabel yang nilainya mungkin berbeda, atau bergantung
pada nilai variabel bebas. Variabel independen adalah variabel yang dapat menyebabkan, atau hanya
digunakan untuk memprediksi, nilai variabel dependen. Variabel bebas dalam uji t hanyalah variabel
dengan dua kategori (misalnya, laki-laki dan perempuan, siswa kelas lima dan kelas sembilan, dll). Dalam
jenis uji t ini , kita ingin mengetahui apakah skor rata-rata pada variabel dependen berbeda menurut
kelompok mana yang termasuk (yaitu, tingkat variabel independen). Misalnya, kita mungkin ingin
mengetahui apakah tinggi rata-rata orang (tinggi adalah

93
Machine Translated by Google

94 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

tergantung, variabel kontinu) tergantung pada apakah orang tersebut adalah pria atau wanita (jenis kelamin orang
tersebut adalah variabel kategoris independen).

Dependent Samples t Test

Uji t sampel dependen juga digunakan untuk membandingkan dua rata-rata pada variabel dependen tunggal.
Berbeda dengan uji sampel independen, bagaimanapun, uji t sampel dependen digunakan untuk membandingkan rata-
rata sampel tunggal atau dua sampel yang cocok atau berpasangan. Misalnya, jika sekelompok siswa mengikuti tes
matematika pada bulan Maret dan kelompok siswa yang sama mengikuti tes matematika yang sama dua bulan
kemudian pada bulan Mei, kita dapat membandingkan skor rata-rata mereka pada dua tanggal tes menggunakan uji t
sampel dependen . Atau, misalkan kita ingin membandingkan sampel skor Scholastic Aptitude Test (SAT) anak laki-
laki dengan skor SAT ayah mereka. Dalam contoh ini, setiap anak laki-laki dalam penelitian kami akan dicocokkan
dengan ayahnya. Dalam kedua contoh ini, setiap skor dicocokkan, atau dipasangkan dengan, skor kedua. Karena
pasangan ini, kami mengatakan bahwa skor bergantung satu sama lain, dan uji t sampel dependen dibenarkan.

Sampel Independen t Uji Kedalaman


Untuk memahami bagaimana tes t bekerja, mungkin akan sangat membantu untuk terlebih dahulu mencoba memahami
masalah konseptual dan kemudian pindah ke masalah yang lebih mekanis yang terlibat dalam rumus. Karena bentuk
independen dan dependen dari uji t sangat berbeda, saya membahasnya secara terpisah. Mari kita mulai dengan uji t
sampel independen .

Masalah Konseptual dengan Uji t Sampel Independen

Masalah konseptual yang paling rumit dalam uji t sampel independen melibatkan kesalahan standar untuk pengujian
tersebut. Jika Anda memikirkan apa yang dilakukan tes t ini, Anda dapat melihat bahwa tes ini dirancang untuk
menjawab pertanyaan yang cukup sederhana: Apakah dua sampel independen berbeda satu sama lain secara
signifikan dalam skor rata-ratanya pada beberapa variabel? Dengan menggunakan contoh untuk memperjelas
pertanyaan ini, kita mungkin ingin mengetahui apakah sampel acak yang terdiri dari 50 pria berbeda secara signifikan
dari sampel acak yang terdiri dari 50 wanita dalam hal kenikmatan rata-rata mereka terhadap acara televisi baru.
Misalkan saya mengatur agar setiap sampel melihat acara televisi baru saya dan kemudian menilai, pada skala dari 1
hingga 10, seberapa besar mereka menikmati pertunjukan tersebut, dengan skor yang lebih tinggi menunjukkan
kenikmatan yang lebih besar. Sebagai tambahan, misalkan sampel pria saya memberikan rating rata-rata 7,5 dan
sampel wanita saya memberikan rating rata-rata 6,5 untuk acara tersebut.
Dalam melihat kedua cara ini, saya dapat dengan jelas melihat bahwa sampel pria saya memiliki kesenangan rata-
rata yang lebih tinggi terhadap acara televisi daripada sampel wanita saya. Tetapi jika Anda melihat lebih dekat pada
pertanyaan saya sebelumnya, saya tidak hanya menanyakan apakah sampel pria saya berbeda dari sampel wanita
saya dalam hal kenikmatan rata-rata mereka terhadap pertunjukan. Saya bertanya apakah mereka berbeda secara
signifikan dalam kenikmatan rata-rata pertunjukan mereka. Kata secara signifikan sangat penting dalam banyak
statistik, jadi saya membahasnya secara singkat di sini karena berlaku untuk uji t independen (untuk diskusi yang lebih
menyeluruh, lihat Bab 7).
Ketika saya melakukan uji t sampel independen , saya biasanya harus mengumpulkan data dari dua sampel dan
membandingkan rata-rata dari dua sampel ini. Tetapi saya tertarik tidak hanya pada apakah kedua sampel ini berbeda
pada beberapa variabel. Saya juga tertarik pada apakah perbedaan rata-rata dua sampel cukup besar untuk
menunjukkan bahwa ada juga perbedaan dalam dua populasi
bahwa sampel ini mewakili. Jadi, kembali ke contoh sebelumnya, saya sudah tahu bahwa 50 pria dalam sampel saya
lebih menikmati acara televisi, rata-rata, daripada 50 wanita dalam sampel saya. Terus? Siapa yang benar-benar
peduli dengan 50 pria dan 50 wanita ini, selain teman dan keluarga mereka? Yang benar-benar ingin saya ketahui
adalah apakah perbedaan antara dua sampel pria dan wanita ini cukup besar untuk menunjukkan bahwa pria pada
umumnya (yaitu, populasi pria yang diwakili oleh sampel ini) akan lebih menyukai acara televisi daripada wanita pada
umumnya .
(yaitu, populasi wanita yang diwakili oleh sampel ini). Dengan kata lain, apakah perbedaan ini
Machine Translated by Google

t Tes 95

1.0 antara dua sampel saya cukup besar untuk mewakili perbedaan nyata antara populasi pria
dan wanita? Cara mengajukan pertanyaan ini dalam singkatan statistik adalah dengan bertanya,
"Apakah perbedaan antara rata-rata kedua sampel ini signifikan secara statistik?" (atau signifikan
Ringkasnya).
Untuk menjawab pertanyaan ini, saya harus tahu seberapa besar perbedaan yang akan saya lihat
antara dua sampel dengan ukuran ini yang diambil dari dua populasi ini. Jika saya secara acak memilih
sampel yang berbeda dari 50 pria dan sampel berbeda dari 50 wanita, saya mungkin mendapatkan efek
sebaliknya, di mana wanita mengungguli pria. Atau, saya mungkin mendapatkan perbedaan yang lebih
besar, di mana pria mengungguli wanita dengan 3 poin daripada 1. Jadi pertanyaan kritis di sini adalah
ini: Berapa rata- rata perbedaan yang diharapkan antara rata -rata dua sampel dengan ukuran ini (yaitu,
masing-masing 50 ) dipilih secara acak dari dua populasi ini? Dengan kata lain, apa kesalahan standar
dari perbedaan antara rata-rata?
Seperti yang telah saya katakan sebelumnya, memahami konsep kesalahan standar memberikan kunci
untuk memahami bagaimana statistik inferensial bekerja, jadi luangkan waktu Anda dan baca kembali empat
grafik paragraf sebelumnya untuk memastikan Anda mendapatkan intinya. Mengenai kasus spesifik dari uji t
sampel independen , kita dapat menyimpulkan bahwa pertanyaan yang ingin kita jawab adalah apakah
perbedaan antara dua rata-rata sampel kita besar atau kecil dibandingkan dengan jumlah perbedaan yang kita
harapkan hanya dengan memilih dua sampel yang berbeda. . Diutarakan dengan cara lain, kami ingin tahu apakah pengamatan kami
perbedaan antara dua rata-rata sampel kami relatif besar terhadap kesalahan standar perbedaan
antara rata-rata. Rumus umum untuk pertanyaan ini adalah sebagai berikut:

t= perbedaan yang diamati antara rata-rata sampel


kesalahan standar perbedaan antara rata-rata

atau

XX1 2
t =
sx1 x2

di mana
-
X1
- adalah mean untuk sampel 1
X2 adalah mean untuk sampel 2
s- adalah kesalahan standar dari perbedaan antara rata-rata
x1–– x2

Kesalahan Standar Selisih Antara Rata-Rata Sampel Independen


Kesalahan standar perbedaan antara rata-rata sampel independen sedikit lebih kompleks daripada
kesalahan standar rata-rata yang dibahas dalam Bab 6. Itu karena alih-alih berurusan dengan satu
sampel, sekarang kita harus menemukan kesalahan standar tunggal yang melibatkan dua sampel .
Secara umum, ini melibatkan hanya menggabungkan kesalahan standar dari dua sampel. Faktanya,
ketika dua sampel berukuran kira-kira sama, kesalahan standar untuk perbedaan antara rata-rata
serupa dengan hanya menggabungkan dua kesalahan standar sampel rata-rata, seperti yang
ditunjukkan oleh rumus yang disajikan pada Tabel 9.1.

Tabel 9.1 Rumus untuk Menghitung Kesalahan Standar Selisih Antara Rata-Rata Sampel
Independen Ketika Ukuran Sampel Kurang Lebih Sama (yaitu, n1 n2 )

sxx 1 2 =
2
2s
x1
+ s
x2

s-x1 adalah kesalahan standar rata-rata untuk sampel pertama


s-x2 adalah kesalahan standar rata-rata untuk sampel kedua
Machine Translated by Google

96 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Ketika dua sampel tidak berukuran sama secara kasar, ada masalah potensial dengan menggunakan
rumus pada Tabel 9.1 untuk menghitung kesalahan standar. Karena rumus-rumus ini pada dasarnya
memadukan kesalahan standar dari setiap sampel bersama-sama, mereka juga pada dasarnya memberikan
setiap sampel bobot yang sama dan memperlakukan kedua sampel sebagai satu sampel baru yang lebih
besar. Tetapi jika kedua sampel tidak berukuran sama, dan terutama jika mereka tidak memiliki standar deviasi
yang sama, maka kita harus menyesuaikan rumus kesalahan standar untuk memperhitungkan perbedaan ini.
Satu-satunya perbedaan antara rumus ini dan rumus untuk kesalahan standar ketika ukuran sampel sama
adalah bahwa rumus ukuran sampel yang tidak sama menyesuaikan untuk ukuran sampel yang berbeda.
Penyesuaian ini diperlukan untuk memberikan bobot yang tepat untuk setiap kontribusi sampel terhadap kesalahan standar keselur
Uji t independen mengasumsikan bahwa ukuran varians di setiap sampel hampir sama. Jika asumsi ini
dilanggar, dan satu sampel jauh lebih besar dari yang lain, Anda bisa berakhir dalam situasi di mana sampel
kecil dengan varians besar menciptakan kesalahan standar yang lebih besar daripada yang seharusnya dalam
uji t independen. Untuk mencegah hal ini terjadi, ketika ukuran sampel tidak sama, rumus untuk menghitung
kesalahan standar uji t independen perlu disesuaikan untuk memberikan bobot yang sesuai untuk setiap
sampel. (Jika varians dari dua sampel sangat tidak sama, ukuran sampel sangat berbeda, dan/atau data tidak
terdistribusi normal, alternatif nonparametrik untuk uji t —uji Mann-Whitney U—harus dipertimbangkan.)

Dalam praktiknya, marilah kita berharap bahwa Anda tidak perlu benar-benar menghitung kesalahan
standar ini secara manual. Karena program statistik komputer menghitungnya untuk kita akhir-akhir ini,
mungkin lebih penting untuk memahami konsep yang terlibat daripada komponen rumus itu sendiri. Dalam
semangat ini, cobalah untuk memahami apa yang dimaksud dengan kesalahan standar perbedaan antara
sampel independen dan mengapa itu mungkin berbeda jika ukuran sampel tidak sama. Sederhananya,
kesalahan standar perbedaan antara dua sampel independen berarti adalah perbedaan rata-rata yang
diharapkan antara dua sampel dengan ukuran tertentu yang dipilih secara acak dari populasi pada variabel
tertentu. Dalam contoh kami membandingkan kenikmatan pria dan wanita dari acara televisi baru, kesalahan
standar akan menjadi rata-rata (yaitu, standar ) jumlah perbedaan (yaitu, kesalahan) yang kami harapkan
untuk menemukan antara dua sampel 50 pria dan 50 wanita yang dipilih secara acak dari populasi pria dan
wanita yang lebih besar.

Menentukan Signifikansi Nilai t untuk Uji t Sampel Independen


Setelah kami menghitung kesalahan standar dan memasukkannya ke dalam rumus kami untuk menghitung
nilai t , kami dibiarkan dengan nilai t yang diamati . Bagaimana kita tahu jika nilai t ini signifikan secara statistik?
Dengan kata lain, bagaimana kita memutuskan apakah nilai t ini cukup besar untuk menunjukkan bahwa
perbedaan antara mean sampel saya mungkin mewakili perbedaan nyata antara mean populasi saya?
Untuk menjawab pertanyaan ini, kita harus mencari peluang mendapatkan nilai t sebesar itu secara kebetulan.
Dengan kata lain, apa kemungkinan perbedaan antara dua sampel saya berarti hanya karena keberuntungan
undian ketika saya memilih dua sampel ini secara acak daripada perbedaan nyata antara dua populasi?
Untungnya, ahli statistik telah menghitung peluang ini untuk kami, dan tabel dengan peluang seperti itu
disertakan dalam Lampiran B. Bahkan lebih untungnya, program perangkat lunak statistik yang digunakan
pada komputer menghitung peluang ini untuk kami, jadi semoga Anda tidak perlu gunakan Lampiran B. Saya
menyediakannya di sini karena menurut saya pengalaman menghitung nilai t dengan tangan dan menentukan
apakah itu signifikan secara statistik dapat membantu Anda memahami cara kerja uji t .

Dalam Bab 5, kita melihat bagaimana ahli statistik menghasilkan probabilitas berdasarkan distribusi
normal. Dengan distribusi t , prinsip yang sama persis terlibat, kecuali bahwa sekarang kita harus
memperhitungkan ukuran sampel yang kita gunakan. Ini karena bentuk distribusi t berubah seiring perubahan
ukuran sampel, dan ketika bentuk distribusi berubah, begitu juga probabilitas yang terkait dengannya. Cara
kita memperhitungkan ukuran sampel dalam statistik adalah dengan menghitung derajat kebebasan (df ).
Penjelasan tentang apa sebenarnya derajat kebebasan itu mungkin sedikit lebih rumit daripada yang perlu
dibahas di sini (walaupun Anda dapat membacanya di sebagian besar buku teks statistik jika Anda tertarik).
Pada titik ini, cukup untuk mengatakan bahwa dalam sampel independen
Machine Translated by Google

t Tes 97

uji t , Anda menemukan derajat kebebasan dengan menambahkan dua ukuran sampel bersama-sama dan mengurangkan 2.
Jadi rumusnya adalah df = n1 + n2 – 2. Setelah Anda memiliki derajat kebebasan dan nilai t Anda, Anda
dapat melihat tabel nilai t pada Lampiran B untuk melihat apakah perbedaan antara dua mean sampel
Anda signifikan.
Untuk mengilustrasikannya, mari kembali ke contoh kita membandingkan kesenangan pria dan wanita
terhadap program televisi baru. Anggap saja kesalahan standar perbedaan antara rata-rata adalah 0,40.
Ketika saya memasukkan angka ini ke dalam rumus nilai t , saya mendapatkan yang berikut:

75. 65 .
t=
.40

1 .0
t = = 40 2 .50
.

df = 50 + 50 – 2 = 98

Sekarang kita memiliki nilai t dan derajat kebebasan kita, kita dapat melihat pada Lampiran B untuk
menemukan probabilitas mendapatkan nilai t dari ukuran ini (t = 2,50) secara kebetulan ketika kita memiliki
98 derajat kebebasan. Karena 98 derajat kebebasan berada di antara 60 dan 120, saya akan melihat baris
df = 60 berada di sisi yang aman. Memilih derajat kebebasan yang lebih kecil memberi saya tes yang lebih
konservatif (artinya jika hasil saya signifikan secara statistik pada tingkat df = 60, tentu akan signifikan
pada tingkat df = 98). Melihat baris df = 60, dan menggunakan nilai untuk uji dua sisi, saya dapat melihat
bahwa nilai t pengamatan saya (hingga = 2,50) berada di antara nilai t kritis 2,390 dan 2,660. Saya dapat
melihat bahwa tingkat alfa yang terkait dengan dua nilai t kritis ini dalam Lampiran B adalah 0,02 dan 0,01.
Oleh karena itu, tabel saya memberi tahu saya bahwa probabilitas mendapatkan nilai t sebesar ini secara
kebetulan (yaitu, karena pengambilan sampel secara acak) adalah antara 1% dan 2%. Dengan kata lain,
ketika kita secara acak memilih dua sampel masing-masing 50 dari dua populasi yang berbeda, kita akan
mengharapkan nilai t dari ukuran ini kurang dari 2% dari waktu ketika tidak ada perbedaan nyata antara
rata-rata populasi (untuk lebih teliti diskusi tentang masalah ini, lihat Bab 7). Karena ini adalah probabilitas
yang sangat kecil, saya menyimpulkan bahwa perbedaan antara sampel saya yang terdiri dari 50 pria dan
sampel saya yang terdiri dari 50 wanita yang saya amati dalam peringkat rata-rata kenikmatan acara
televisi mungkin mewakili perbedaan nyata antara populasi pria yang lebih besar. dan wanita daripada
beberapa perbedaan kebetulan yang muncul hanya karena siapa yang saya dapatkan dalam sampel saya
(yaitu, kesalahan pengambilan sampel acak; lihat Gambar 9.1).
Penting untuk diingat bahwa meskipun perbedaan antara rata-rata ini secara statistik
signifikan (jika kita menggunakan tingkat alfa 0,05), itu tidak berarti bahwa secara praktis signifikan (lihat
diskusi tentang ukuran efek di Bab 7). Sama seperti kesalahan standar
f

= 0,02
= 0,01

tc = 2,39 tc = 2,66

ke = 2,50

Gambar 9.1 Signifikansi statistik dari nilai t yang diamati .


Machine Translated by Google

98 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

12

2_

x1–– x2

rata-rata dipengaruhi oleh ukuran sampel, kesalahan standar perbedaan antara rata-rata juga dipengaruhi
oleh ukuran sampel. Semakin besar sampel, semakin kecil kesalahan standar dan semakin besar
kemungkinan Anda akan menemukan hasil yang signifikan secara statistik. Untuk menentukan apakah
perbedaan antara pria dan wanita ini secara praktis signifikan, kita harus mempertimbangkan perbedaan
skor mentah yang sebenarnya . Pria dalam sampel kami mencetak rata-rata 1 poin lebih tinggi pada skala
10 poin daripada wanita. Apakah itu perbedaan besar? Nah, itu adalah panggilan penghakiman. Saya
akan menganggap bahwa perbedaan yang cukup tidak penting karena kita berbicara tentang preferensi untuk acara televisi.
Saya tidak menganggap perbedaan 1 poin pada skala 10 poin mengenai preferensi televisi menjadi
penting. Tetapi calon pengiklan mungkin menganggap ini sebagai perbedaan yang berarti. Mereka yang
ingin mengiklankan produk berorientasi wanita tidak boleh memilih acara ini, yang tampaknya lebih
menarik bagi pemirsa pria.
Cara lain untuk menentukan apakah perbedaan rata-rata ini secara praktis signifikan adalah dengan
menghitung ukuran efek. Rumus untuk ukuran efek untuk uji t sampel independen disajikan pada Tabel
9.2. Untuk menghitung ukuran efek, Anda harus terlebih dahulu menghitung penyebutnya. Menggunakan
contoh kami di mana ukuran sampel untuk satu kelompok adalah 50 dan kesalahan standar perbedaan
antara rata-rata adalah 0,40, kami mendapatkan yang berikut:

s = 50 40 (.)

s = 7 0. ( 7 4. ) 0

s = 2 8. 3

Kami kemudian dapat memasukkan ini ke dalam rumus untuk ukuran efek, bersama dengan dua cara sampel:

. 65.
75
d= d= .35
2 .83

Jadi ukuran efek kami untuk masalah ini adalah 0,35, yang akan dianggap sebagai efek ukuran kecil hingga
sedang.

Uji t Sampel Berpasangan atau Dependen dalam Kedalaman

Sebagian besar dari apa yang saya tulis sebelumnya tentang uji t sampel independen juga berlaku untuk
uji t sampel berpasangan atau dependen . Kami masih tertarik untuk menentukan apakah perbedaan dalam
Machine Translated by Google

t Tes 99

berarti bahwa kita mengamati dalam beberapa sampel (s) pada beberapa variabel mewakili
perbedaan yang benar dalam populasi (s) dari mana sampel (s) dipilih. Misalnya, saya ingin tahu
apakah karyawan di pabrik pembuat widget saya lebih produktif setelah mereka kembali dari liburan
2 minggu. Saya secara acak memilih 30 karyawan saya dan menghitung jumlah rata-rata widget
yang dibuat oleh setiap karyawan selama seminggu sebelum mereka pergi berlibur. Saya
menemukan bahwa, rata-rata, karyawan saya membuat 250 widget setiap minggunya. Selama
seminggu setelah mereka kembali dari liburan, saya melacak berapa banyak widget yang dibuat oleh sampel yang sam
karyawan dan menemukan bahwa, rata-rata, mereka membuat 300 widget masing-masing selama seminggu
setelah kembali dari liburan mereka.
Sama seperti uji t sampel independen , di sini saya tidak hanya memperhatikan apakah sampel 30
karyawan ini membuat lebih banyak atau lebih sedikit widget setelah liburan mereka. Saya dapat
melihat rata-rata prevacation dan postvacation dan melihat bahwa 30 karyawan ini, rata-rata, membuat
rata-rata 50 widget lagi seminggu setelah liburan mereka. Itu cukup banyak. Tetapi saya juga ingin tahu
apakah apa yang saya amati dalam sampel ini mewakili kemungkinan perbedaan dalam produktivitas
populasi pembuat widget yang lebih besar setelah liburan. Dengan kata lain, apakah ini perbedaan
yang signifikan secara statistik? Satu-satunya perbedaan nyata antara uji t sampel dependen ini dan uji
t sampel independen adalah bahwa daripada membandingkan dua sampel pada satu variabel
dependen, sekarang saya membandingkan skor rata-rata dari satu sampel (yaitu, kelompok yang sama
yang terdiri dari 30 karyawan) pada dua variabel (yaitu, rata-rata pembuatan widget sebelum liburan
dan rata-rata pembuatan widget setelah liburan). Untuk membuat perbandingan ini, saya perlu
melakukan uji t lagi di mana saya menemukan perbedaan antara dua rata-rata dan membaginya dengan
kesalahan standar dari perbedaan antara dua rata-rata sampel dependen . Persamaan ini terlihat seperti ini:

t = perbedaan yang diamati antara sarana pra-liburan dan pasca-liburan


kesalahan standar dari perbedaan antara rata-rata

atau

XY
t =
SD

di mana
-
X- adalah rata-rata sebelum liburan
Y adalah rata-rata pasca-liburan
– adalah kesalahan standar dari perbedaan antara rata-rata
sD

Rumus untuk menghitung kesalahan standar dari perbedaan antara rata-rata untuk sampel
dependen sedikit berbeda dari yang untuk sampel independen, tetapi prinsip-prinsip yang terlibat
(yaitu, apa yang diwakili oleh kesalahan standar) adalah sama. Ingatlah bahwa jika saya terus-
menerus memilih sampel dari 30 pembuat widget secara acak dan membandingkan produktivitas
mereka sebelum dan sesudah liburan, saya dapat menghasilkan distribusi skor perbedaan. Untuk
beberapa sampel, tidak akan ada perbedaan antara produktivitas prevacation dan postvacation.
Untuk yang lain, akan ada peningkatan produktivitas dan untuk sampel lain lagi akan ada penurunan produktivitas.
Distribusi skor perbedaan ini (yaitu, perbedaan antara rata-rata prevacation dan
postvacation) akan memiliki mean dan standar deviasi. Standar deviasi dari distribusi
ini akan menjadi kesalahan standar dari perbedaan antara sampel dependen. Rumus
kesalahan standar ini disajikan pada Tabel 9.3.
Seperti yang Anda lihat pada Tabel 9.3, cara termudah untuk menemukan kesalahan standar adalah dengan
mengikuti proses dua langkah. Pertama, kita dapat menemukan standar deviasi skor perbedaan untuk sampel saya. Lalu kita
Machine Translated by Google

100 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 9.3 Rumus Standar Error Selisih Rata-Rata


Sampel Dependen
sD
D
N

s-D

dapat membagi ini dengan akar kuadrat dari ukuran sampel untuk menemukan kesalahan standar.
Rumus ini sangat mirip dengan rumus untuk menemukan kesalahan standar mean.
Perbedaan lain antara uji t sampel dependen dan independen dapat ditemukan dalam
perhitungan derajat kebebasan. Sedangkan kita harus menjumlahkan dua sampel dan mengurangi
2 dalam rumus sampel independen, untuk sampel dependen kita menemukan jumlah pasangan
skor dan mengurangi 1. Dalam contoh pembuat widget kita, kita memiliki 30 pasang skor karena
kita memiliki dua skor untuk setiap orang dalam sampel (satu skor prevacation dan satu skor postvacation).
Dalam kasus uji t berpasangan di mana kami memiliki dua sampel berpasangan (misalnya, ayah dan anak laki-
laki mereka), kami menggunakan rumus yang sama untuk menghitung kesalahan standar dan derajat kebebasan.
Kita hanya harus ingat untuk mencocokkan setiap skor dalam satu sampel dengan skor yang sesuai dalam
sampel kedua (misalnya, membandingkan skor setiap ayah dengan hanya skor putranya).
Setelah kami menemukan nilai t dan derajat kebebasan kami, proses untuk menentukan
kemampuan probabilitas menemukan nilai t dari ukuran tertentu dengan jumlah derajat kebebasan
tertentu persis sama seperti untuk uji t sampel independen .

Contoh: Membandingkan Rata-rata Poin Nilai Putra dan Putri


Untuk mengilustrasikan bagaimana uji t bekerja dalam praktik, saya memberikan satu contoh uji t
sampel independen dan salah satu uji t sampel dependen menggunakan data dari studi longitudinal
yang dilakukan oleh Carol Midgley dan rekan-rekannya. Dalam penelitian ini, sampel siswa
diberikan survei setiap tahun selama beberapa tahun dimulai ketika siswa berada di kelas lima.
Dalam contoh berikut, saya menyajikan dua perbandingan IPK siswa. IPK adalah rata-rata nilai
siswa di empat bidang akademik inti: matematika, sains, bahasa Inggris, dan studi sosial. Nilai
diukur menggunakan skala 13 poin dengan 13 = “A+” dan 0 = “F.”
Pada analisis pertama, uji t sampel independen dilakukan untuk membandingkan nilai rata-rata anak laki-
laki dan perempuan kelas enam kelas enam. Analisis ini dilakukan dengan menggunakan perangkat lunak
komputer SPSS. Untungnya, program ini menghitung rata-rata, kesalahan standar, nilai t , dan probabilitas
memperoleh nilai t secara kebetulan. Karena komputer melakukan semua pekerjaan ini, tidak ada yang dapat
dihitung dengan tangan, dan saya dapat memfokuskan seluruh energi saya untuk menafsirkan hasilnya. Saya
menyajikan hasil aktual dari uji t yang dilakukan dengan SPSS pada Tabel 9.4.
SPSS menyajikan ukuran sampel untuk anak laki-laki (n = 361) dan perempuan (n = 349) terlebih dahulu,
diikuti oleh mean, standar deviasi (“SD”), dan kesalahan standar mean (“SE mean”) untuk setiap kelompok .
Selanjutnya, SPSS melaporkan perbedaan aktual antara dua rata-rata sampel (“Perbedaan Rata-rata = –
1.5604”). Perbedaan rata-rata ini negatif karena anak laki-laki adalah kelompok X1 dan anak perempuan adalah X2
kelompok.
- Karena
- anak perempuan memiliki rata-rata yang lebih tinggi, ketika kita mengurangi rata-rata anak perempuan dari
rata-rata anak laki-laki (yaitu, X2) kita mendapatkan angka negatif. Di bawah perbedaan rata-rata kita melihat “Uji Levene X1 –
Machine Translated by Google

t Tes 101

Tabel 9.4 Hasil SPSS Independent Samples t Test


Variabel Jumlah Kasus Berarti SD SE dari Rata-rata

IPK Kelas Enam


Pria 361 6.5783 2.837 .149
Perempuan 349 8.1387 2.744 .147

Selisih Rata-rata = –1.5604


Uji Levene untuk Persamaan Varians: F = 0,639, p = 0,424

t Uji Kesetaraan Sarana

Varians t Nilai df Tanda 2-Ekor SE dari Diff

Setara –7.45 708 .000 .210


tidak setara –7.45 708.00 .000 .209

untuk Equality of Variances.”* Tes ini memberitahu kita bahwa tidak ada perbedaan yang signifikan antara
standar deviasi kedua kelompok pada variabel dependen (IPK). Di bawah uji kesetaraan varians, SPSS
mencetak dua baris dengan nilai t aktual (–7.45), derajat kebebasan (“df” = 708), nilai p (“2-Tail Sig” = .000), dan
kesalahan standar perbedaan antara rata-rata (“SE of Diff” = .210 dan .209). Kedua baris statistik ini disajikan
secara terpisah tergantung pada apakah kita memiliki varians yang sama atau tidak sama. Karena kami memiliki
varians yang sama (seperti yang ditentukan oleh uji Levene), kami harus menginterpretasikan baris atas, yang
diidentifikasi dengan nama "Sama" di kolom kiri. Perhatikan bahwa dua baris statistik ini hampir identik. Hal ini
karena varians tidak berbeda nyata antara kedua kelompok. Jika mereka berbeda, statistik yang disajikan dalam
dua baris ini akan berbeda lebih dramatis.

Jika kita mengambil perbedaan antara rata-rata dan membaginya dengan kesalahan standar dari perbedaan
antara mean sampel independen, kita mendapatkan persamaan berikut untuk t:

t = –1.5604 .210

t = –7.45

Probabilitas untuk mendapatkan nilai t -7,45 dengan 708 derajat kebebasan sangat kecil, seperti yang
diungkapkan oleh nilai p kami (“2-Tail Sig”) sebesar .000. Karena distribusi t simetris (seperti halnya distribusi
normal), ada kemungkinan yang sama persis untuk memperoleh nilai t negatif tertentu secara kebetulan seperti
halnya memperoleh nilai t positif yang sama . Untuk tujuan kita, maka, kita dapat memperlakukan nilai t negatif
sebagai bilangan mutlak. (Jika Anda menguji hipotesis alternatif 1 sisi, Anda perlu memperhitungkan apakah
nilai t negatif atau positif. Lihat Bab 7 untuk pembahasan pengujian 1 sisi dan 2 sisi.)

Hasil uji t yang disajikan pada Tabel 9.4 menunjukkan bahwa sampel anak perempuan kami memiliki IPK
rata-rata yang lebih tinggi daripada sampel anak laki-laki, dan perbedaan ini signifikan secara statistik.
Dengan kata lain, jika kita terus memilih sampel ukuran ini secara acak dari populasi yang lebih besar dari anak
laki-laki dan perempuan kelas enam dan membandingkan IPK rata-rata mereka, peluang menemukan perbedaan
antara rata-rata sebesar ini jika tidak ada perbedaan nyata antara sarana keduanya

* Saat melakukan uji t sampel independen, Anda harus memeriksa apakah varians, atau standar deviasi, dari variabel dependen sama di antara kedua
sampel. Penting untuk mengetahui apakah skor pada variabel dependen lebih bervariasi dalam satu sampel daripada yang lain karena ketika kami
menghitung kesalahan standar untuk uji t sampel independen, kami pada dasarnya menggabungkan kesalahan standar dari dua sampel. Karena
kesalahan standar ditentukan sebagian oleh ukuran simpangan baku, jika kita menggabungkan dua simpangan baku yang sangat berbeda satu sama
lain, sampel tidak akan memberikan perkiraan populasi yang akurat seperti seandainya mereka serupa. Untuk menyesuaikan ini, kita harus mengurangi
derajat kebebasan kita ketika varians dari dua sampel kita tidak sama.
SPSS melakukan ini secara otomatis, seperti yang ditunjukkan pada contoh Tabel 9.4.
Machine Translated by Google

102 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

2-ekor, = 0,05

Wilayah Wilayah
penolakan penolakan

untuk = -7,45 tc = -1,96 tc = 1,96

Gambar 9.2 Hasil uji t membandingkan IPK anak perempuan dan laki-laki.

populasi adalah .000. Ini tidak berarti sama sekali tidak ada peluang. Ini hanya berarti bahwa SPSS tidak mencetak probabilitas
yang lebih kecil dari .001 (misalnya, .00001). Karena ini adalah kemungkinan kecil, kami menyimpulkan bahwa perbedaan
antara dua rata-rata sampel mungkin mewakili perbedaan asli antara populasi anak laki-laki dan perempuan yang lebih besar
yang diwakili oleh sampel ini.
Perhatikan pada Gambar 9.2 bahwa nilai t yang diamati ini jatuh di wilayah penolakan, indikasi lebih lanjut bahwa kita harus
menolak hipotesis nol tentang tidak ada perbedaan antara rata-rata anak laki-laki dan perempuan.
Anak perempuan memiliki IPK yang jauh lebih tinggi daripada anak laki-laki (lihat Gambar 9.2). Pengingat: Signifikansi
statistik dipengaruhi oleh ukuran sampel. Ukuran sampel kami cukup besar, sehingga perbedaan sekitar 1,56 poin pada skala
14 poin signifikan secara statistik. Tetapi apakah itu secara praktis signifikan? Anda dapat menghitung ukuran efek untuk
membantu Anda memutuskan.

Contoh: Membandingkan IPK Kelas Lima dan Kelas Enam


Contoh kedua kami melibatkan perbandingan nilai rata-rata siswa di kelas lima dengan IPK sampel yang sama setahun
kemudian, pada akhir kelas enam. Untuk setiap siswa dalam sampel (n = 689), ada dua nilai: satu IPK untuk kelas lima, satu
IPK untuk kelas enam. Ini memberikan total 689 pasang skor dan memberi kita 688 derajat kebebasan (df = jumlah pasangan
– 1).
Pandangan sekilas pada sarana mengungkapkan bahwa, dalam sampel ini, siswa memiliki IPK rata-rata sedikit lebih tinggi di
kelas lima (8.0800) daripada yang mereka lakukan setahun kemudian di kelas enam (7.3487). Tetapi apakah ini perbedaan
yang signifikan secara statistik ? Untuk mengetahuinya, kita harus melakukan uji t sampel dependen , yang saya lakukan
dengan menggunakan SPSS (lihat Tabel 9.5).
Analisis ini menghasilkan nilai t sebesar 8,19, yang menurut program SPSS saya memiliki kemungkinan terjadi kurang dari
satu kali dalam seribu karena kebetulan (“2-tail Sig” = .000). Oleh karena itu, saya menyimpulkan bahwa perbedaan antara
IPK kelas lima dan enam dalam sampel saya mungkin mewakili perbedaan nyata antara IPK dari populasi siswa kelas lima
dan enam yang lebih besar yang diwakili oleh sampel saya. Nilai t yang saya amati jatuh tepat di daerah penolakan (lihat
Gambar 9.3),

Tabel 9.5 Hasil SPSS untuk Dependent Samples t Test

Variabel Jumlah Pasangan Corr 2-Tail Sig. Berarti SD SE dari Mean

IPK5.2 8.0800 2.509 .096


689 .635 .000
IPK 6.2 7.3487 2.911 .111

Perbedaan Berpasangan

Berarti SD SE dari Rata-rata Nilai t df Tanda 2-Ekor.

.7312 2.343 .089 8.19 688 .000


Machine Translated by Google

t Tes 103

2-ekor, = 0,05

Wilayah Wilayah
penolakan penolakan

tc = –1,96 t = 1,96 = 8,19


sampai
c

Gambar 9.3 Hasil uji t sampel berpasangan atau dependen .

menunjukkan bahwa saya harus menolak hipotesis nol tentang tidak ada perbedaan antara rata-rata siswa
kelas lima dan enam.
Meskipun perbedaan ini signifikan secara statistik, perhatikan bahwa perbedaannya hanya sekitar 0,73
poin pada skala 14 poin. Perhatikan juga bahwa program SPSS juga memberikan ukuran korelasi antara dua
variabel (“corr” = 0,635) dan menunjukkan bahwa koefisien korelasi ini signifikan secara statistik. Ini
memberitahu Anda bahwa IPK siswa kelas lima sangat terkait dengan IPK kelas enam mereka, seperti yang
Anda duga. Akhirnya, perhatikan bahwa di kiri bawah Tabel 9.5, perbedaan antara rata-rata (“Perbedaan
Berpasangan Mean”), standar deviasi dari perbedaan antara rata-rata (“SD”), dan kesalahan standar
perbedaan antara rata-rata (“SE of Mean”) disajikan. Selisih antara rata-rata dibagi dengan kesalahan standar
selisih antara rata-rata menghasilkan nilai t .

Menulis Itu
Menulis hasil uji t untuk publikasi umumnya serupa untuk uji t independen, dependen, dan sampel tunggal .
Biasanya yang dilaporkan adalah rata-rata kelompok yang dibandingkan, nilai t , dan derajat kebebasan (df ).
Penulisan hasil uji t berpasangan yang dijelaskan di atas pada Gambar 9.3 adalah sebagai berikut: “ Uji t
berpasangan dihitung untuk membandingkan nilai rata-rata (IPK) siswa ketika mereka berada di kelas 5 dan
setahun kemudian saat mereka duduk di kelas 6 SD. Analisis menghasilkan nilai t signifikan (t(688) = 8,19, p
< .001). Pemeriksaan sarana mengungkapkan bahwa siswa memiliki IPK lebih tinggi di kelas 5 (M = 8,08)
daripada yang mereka lakukan di kelas 6 (M = 7,35). Penulisan untuk uji t independen yang dirangkum dalam
Tabel 9.4 akan sangat mirip: “Saya melakukan uji t independen untuk membandingkan nilai rata-rata (IPK)
anak laki-laki dan perempuan kelas 6 SD. Analisis menghasilkan nilai t signifikan (t(708) = –7.45, p < .001).
Pemeriksaan sarana mengungkapkan bahwa anak laki-laki memiliki IPK lebih rendah (M = 6,58) daripada
anak perempuan (M = 8,14).

Mengakhiri dan Menantikan


Kedua jenis uji t yang dijelaskan dalam bab ini memiliki dua kesamaan. Pertama, keduanya menguji
kesetaraan sarana. Kedua, keduanya mengandalkan distribusi t untuk menghasilkan kemampuan prob yang
digunakan untuk menguji signifikansi statistik. Di luar itu, kedua jenis uji t ini sangat berbeda. Uji t sampel
independen digunakan untuk menguji kesetaraan rata-rata dari dua kelompok independen. Tes semacam itu
memiliki banyak kesamaan dengan ANOVA satu arah (Bab 10) dan ANOVA faktorial (Bab 11). Sebaliknya,
uji t sampel dependen digunakan untuk menguji apakah rata- rata kelompok terkait , atau dua variabel yang
diperiksa dalam kelompok yang sama, adalah sama. Tes ini lebih langsung terkait dengan ANOVA ukuran
berulang seperti yang dibahas dalam Bab 12.
Machine Translated by Google

104 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Daftar Istilah dan Simbol untuk Bab 9


Kategoris, nominal: Ketika variabel diukur menggunakan kategori, atau nama.
Berkelanjutan, berskala interval: Ketika variabel diukur menggunakan angka di sepanjang kontinum
dengan jarak atau nilai yang sama, antara setiap angka di sepanjang kontinum.
Variabel dependen: Sebuah variabel yang nilainya mungkin bergantung pada, atau berbeda dengan,
nilai variabel independen. Ketika variabel dependen secara statistik terkait dengan variabel
independen, nilai variabel dependen "tergantung" pada, atau diprediksi oleh, nilai variabel
independen.
Dependent, atau berpasangan, sampel t test: Sebuah tes kesamaan statistik antara rata-rata dua
berpasangan, atau dependen, sampel.
Uji t sampel independen : Uji kesamaan statistik antara rata-rata dua indeks
sampel tergantung pada satu variabel.
Variabel bebas: Variabel yang dapat memprediksi atau menghasilkan variasi dalam variabel terikat.
Variabel independen mungkin nominal atau kontinu dan kadang-kadang dimanipulasi oleh
peneliti (misalnya, ketika peneliti menugaskan peserta untuk eksperimen atau kelompok kontrol,
sehingga menciptakan variabel independen dua kategori).
Sampel yang cocok, berpasangan, dan tergantung: Ketika setiap skor dari satu sampel dicocokkan
dengan satu skor dari sampel kedua. Atau, dalam kasus sampel tunggal yang diukur pada dua
kali, ketika setiap skor pada Waktu 1 dicocokkan dengan skor untuk individu yang sama pada Waktu 2.
Uji t sampel yang cocok, berpasangan, dan bergantung : Uji membandingkan rata-rata sampel yang dipasangkan,
dicocokkan, atau bergantung pada satu variabel.
Signifikan: Bentuk singkat dari ungkapan “signifikan secara statistik”.
Kesalahan standar perbedaan antara rata-rata: Sebuah statistik yang menunjukkan standar deviasi
tion distribusi sampling perbedaan antara rata-rata.

s-x1–– x2 Kesalahan standar perbedaan antara dua rata-rata sampel independen.


s-
D Kesalahan standar perbedaan antara dua rata-rata sampel yang tergantung, atau berpasangan.
SD Standar deviasi dari perbedaan antara dua sampel dependen, atau berpasangan
cara.
df Derajat kebebasan.
t Nilai t .
Machine Translated by Google

Bab 10
Analisis Varians Satu Arah

Tujuan dari analisis varians satu arah (one-way ANOVA) adalah untuk membandingkan rata-rata dua atau lebih
kelompok (variabel independen) pada satu variabel dependen untuk melihat apakah rata-rata kelompok berbeda
secara signifikan satu sama lain. Sebenarnya, jika Anda ingin membandingkan rata-rata dua grup independen pada
satu variabel, Anda dapat menggunakan uji t sampel independen atau ANOVA satu arah. Hasilnya akan sama,
kecuali alih-alih menghasilkan nilai t , ANOVA akan menghasilkan rasio F , yang merupakan kuadrat nilai t (lebih
lanjut tentang ini di bagian selanjutnya dari bab ini). Karena uji t dan ANOVA satu arah menghasilkan hasil yang
identik ketika hanya ada dua kelompok yang dibandingkan, kebanyakan peneliti menggunakan ANOVA satu arah
hanya ketika mereka membandingkan tiga kelompok atau lebih. Untuk melakukan ANOVA satu arah, Anda harus
memiliki variabel kategori (atau nominal) yang memiliki setidaknya dua kelompok independen (misalnya, variabel ras
dengan kategori Afrika-Amerika, Latin, dan Euro-Amerika) sebagai variabel independen dan variabel kontinu
(misalnya, skor tes prestasi) sebagai variabel dependen.

Karena uji t independen dan ANOVA satu arah sangat mirip, orang sering bertanya-tanya, Mengapa kita tidak
menggunakan uji t saja daripada ANOVA satu arah? Mungkin cara terbaik untuk menjawab pertanyaan ini adalah
dengan menggunakan contoh. Misalkan saya ingin masuk ke bisnis keripik kentang. Saya punya tiga resep berbeda,
tetapi karena saya baru di bisnis ini dan tidak punya banyak uang, saya hanya bisa menghasilkan satu rasa. Saya
ingin melihat rasa mana yang paling disukai orang dan menghasilkan yang itu.
Saya secara acak memilih 90 orang dewasa dan secara acak membagi mereka menjadi tiga kelompok. Satu
kelompok mencoba keripik rasa BBQ saya, kelompok kedua mencoba keripik rasa peternakan saya, dan kelompok
ketiga mencicipi keripik rasa keju saya. Semua peserta di setiap kelompok mengisi formulir penilaian setelah
mencicipi keripik untuk menunjukkan seberapa besar mereka menyukai rasa keripik. Skala penilaian berubah dari
skor 1 ("membencinya") hingga 7 ("menyukainya"). Saya kemudian membandingkan peringkat rata-rata dari ketiga
kelompok untuk melihat kelompok mana yang paling menyukai rasa keripik mereka. Dalam contoh ini, rasa keripik
(BBQ , Peternakan, Keju) adalah kategoris, variabel independen saya dan peringkat rasa keripik adalah variabel
dependen berkelanjutan saya.
Untuk melihat rasa mana yang mendapat nilai rata-rata tertinggi, saya dapat menjalankan tiga uji t independen
terpisah yang membandingkan (1) BBQ dengan Peternakan, (2) BBQ dengan Keju, dan (3) Peternakan dengan Keju.
Masalah dengan menjalankan tiga uji t terpisah adalah bahwa setiap kali kita menjalankan uji t , kita harus membuat
keputusan tentang apakah perbedaan antara kedua rata-rata itu bermakna, atau signifikan secara statistik. Keputusan
ini didasarkan pada probabilitas, dan setiap kali kita membuat keputusan seperti itu, ada sedikit kemungkinan kita
salah (lihat Bab 7 tentang signifikansi statistik). Semakin sering kita membuat keputusan tentang signifikansi uji t ,
semakin besar kemungkinan kita akan salah. Dengan kata lain, semakin banyak uji t yang kita jalankan, semakin
besar peluang untuk memutuskan bahwa uji t signifikan (yaitu, bahwa rata-rata yang dibandingkan benar-benar
berbeda) padahal sebenarnya tidak. Dengan kata lain, menjalankan beberapa uji t meningkatkan kemungkinan
membuat kesalahan Tipe I (yaitu, menolak hipotesis nol padahal sebenarnya hipotesis itu benar). ANOVA satu arah
memperbaikinya

105
Machine Translated by Google

106 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

masalah dengan menyesuaikan jumlah kelompok yang dibandingkan. Untuk melihat bagaimana
melakukannya, mari kita lihat ANOVA satu arah secara lebih rinci.

ANOVA Satu Arah dalam Kedalaman

Tujuan dari ANOVA satu arah adalah untuk membagi varians dalam beberapa variabel dependen menjadi
dua komponen: varians yang disebabkan oleh perbedaan antar-kelompok , dan varians yang disebabkan
oleh perbedaan dalam-kelompok , juga dikenal sebagai kesalahan. Ketika kita memilih sampel dari suatu
populasi dan menghitung mean untuk sampel itu pada beberapa variabel, mean sampel tersebut adalah
prediktor terbaik untuk mean populasi. Dengan kata lain, jika kita tidak mengetahui mean dari populasi,
tebakan terbaik kita tentang apa arti populasi harus berasal dari rata-rata sampel yang diambil secara acak
dari populasi itu. Setiap skor dalam sampel yang berbeda dari rata-rata sampel diyakini termasuk apa yang
disebut ahli statistik sebagai kesalahan. Misalnya, saya memiliki sampel 20 siswa kelas lima yang dipilih
secara acak. Saya memberi mereka tes keterampilan dasar matematika dan menemukan bahwa, dalam
sampel saya, jumlah rata-rata item yang dijawab dengan benar pada tes saya adalah 12. Jika saya untuk
memilih satu siswa dalam sampel saya dan menemukan bahwa dia memiliki skor 10 pada tes, perbedaan
antara skornya dan rata-rata sampel akan dianggap sebagai kesalahan (lihat Gambar 10.1).
Variasi yang kami temukan di antara skor dalam sampel tidak hanya dianggap sebagai kesalahan.
Faktanya, ini dianggap mewakili jenis kesalahan tertentu: kesalahan acak . Ketika kami memilih sampel
secara acak dari suatu populasi, kami berharap bahwa anggota sampel itu tidak semuanya memiliki skor
yang sama pada variabel yang kami minati (mis. , nilai ujian). Artinya, kami berharap bahwa akan ada
beberapa variabilitas dalam skor anggota sampel. Itulah yang terjadi ketika Anda memilih anggota sampel
secara acak dari suatu populasi. Oleh karena itu, variasi skor yang kita lihat di antara anggota sampel kita
hanya dianggap sebagai kesalahan acak.
Pertanyaan yang dapat kita jawab dengan menggunakan ANOVA adalah: Apakah jumlah rata-rata
perbedaan, atau variasi, antara skor anggota sampel yang berbeda besar atau kecil dibandingkan dengan
jumlah rata-rata variasi dalam setiap sampel, atau dikenal sebagai kesalahan acak (alias kesalahan)?
Untuk menjawab pertanyaan ini, kita harus menentukan tiga hal. Pertama, kita harus menghitung jumlah rata-
rata variasi dalam setiap sampel kita. Ini disebut kuadrat rata-rata dalam (MSw) atau kesalahan kuadrat
rata -rata (MSe). Kedua, kita harus mencari jumlah rata-rata variasi antar kelompok. Ini disebut kuadrat rata-
rata antara (MSb). Setelah kita menemukan kedua statistik ini, kita harus menemukan rasionya dengan
membagi kuadrat rata-rata antara dengan kesalahan kuadrat rata-rata. Rasio ini memberikan nilai F kami ,
dan ketika kami memiliki nilai F kami, kami dapat melihat keluarga distribusi F kami untuk melihat apakah
perbedaan antara kelompok signifikan secara statistik (lihat Tabel 10.1).

Kesalahan

-
X = 10 X = 12

Gambar 10.1 Contoh kesalahan dalam grup.


Machine Translated by Google

Analisis Varians Satu Arah 107

Tabel 10.1 Rumus untuk Nilai F

F=
rata-rata kuadrat antara
kesalahan kuadrat rata-rata

atau

NONA
F = b
NONA
e

di mana
F adalah nilai F

MSb adalah kuadrat rata-rata antar grup


MSe adalah kesalahan kuadrat rata-rata, atau di dalam grup

Perhatikan bahwa, meskipun analisis varians mungkin terdengar seperti konsep yang sama sekali baru,
pada kenyataannya hampir identik dengan uji t independen yang dibahas dalam Bab 9. Ingat bahwa rumus
untuk menghitung uji t independen juga melibatkan pencarian rasio. Bagian atas pecahan adalah selisih
antara dua rata-rata sampel, yang analog dengan kuadrat rata-rata antara (MSb) yang baru saja disajikan.
Satu-satunya perbedaan antara keduanya adalah (1) daripada menemukan perbedaan sederhana antara
dua rata-rata seperti dalam uji t , dalam ANOVA kami menemukan perbedaan rata -rata antara rata-rata,
karena kami sering membandingkan lebih dari dua rata-rata; dan (2) kita menggunakan nilai kuadrat dari
selisih antara rata-rata. Bagian bawah fraksi untuk uji t adalah kesalahan standar dari perbedaan antara
dua rata-rata sampel. Ini persis sama dengan rata- rata, atau standar, kesalahan dalam kelompok. Dalam
rumus yang digunakan untuk menghitung nilai F dalam ANOVA, kita harus mengkuadratkan rata-rata
kesalahan dalam kelompok ini. Jadi, seperti dalam uji t , dalam ANOVA kami mencoba mencari perbedaan
rata-rata antara rata-rata kelompok relatif terhadap jumlah variasi usia rata-rata dalam setiap kelompok.

Untuk menemukan MSe dan MSb, kita harus mulai dengan mencari kesalahan jumlah kuadrat (SSe)
dan jumlah kuadrat antara (SSb). Gagasan jumlah kuadrat ini bukanlah hal baru. Ini adalah jumlah kuadrat
yang sama yang diperkenalkan pada Bab 3 dalam diskusi tentang varians dan standar deviasi. Jumlah
kuadrat sebenarnya kependekan dari jumlah simpangan kuadrat. Dalam kasus ANOVA, kami memiliki dua
jenis penyimpangan. Yang pertama adalah penyimpangan antara setiap skor dalam sampel dan rata-rata
untuk sampel itu (yaitu, kesalahan). Jenis deviasi kedua adalah antara setiap rata-rata sampel dan rata-rata
untuk semua kelompok yang digabungkan, yang disebut mean besar (yaitu, antar kelompok). Kedua jenis
penyimpangan ini disajikan pada Gambar 10.2.

Di antara Di dalam
+
kelompok grup = Total deviasi
(Kesalahan)

- - -
x1 x2 maksud besar x3 x3i

Gambar 10.2 Ilustrasi penyimpangan antar kelompok dan dalam kelompok.


Machine Translated by Google

108 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Untuk menemukan jumlah kesalahan kuadrat (SSe):


-
1. Kurangi rata-rata kelompok dari setiap skor individu
- di setiap kelompok: (X – X).
2. Kuadratkan masing-masing skor deviasi ini: (X- – X)2.
3. Jumlahkan semuanya untuk setiap grup: (X – X)2.
4. Kemudian jumlahkan semua jumlah kuadrat untuk semua grup:
- - -
(X – X1)2 + (X – X2)2 + … + (X – Xk)2

Catatan: Subskrip menunjukkan kelompok individu, melalui kelompok terakhir, yang ditandai
dengan subskrip k.
Metode yang digunakan untuk menghitung jumlah kuadrat antar kelompok (SSb ) hanya sedikit lebih banyak
rumit dari rumus SSe . Untuk menemukan SSb, kami melakukan hal berikut:
- -
1. Kurangi mean besar dari mean grup: ( XT); T X menunjukkan
– total, atau rata-rata untuk
total grup. - -
2. Kuadratkan masing-masing skor deviasi ini: (X
XT)2. - -
– 3. Kalikan setiap deviasi kuadrat dengan jumlah kasus dalam -
X–
-grup: [n( XT)2 ].
4. Jumlahkan simpangan kuadrat dari setiap grup bersama-sama: [n(X – XT)2 ].

Satu-satunya perbedaan nyata antara rumus untuk menghitung SSe dan SSb adalah sebagai
berikut:

1. Dalam SSe kita kurangi rata-rata kelompok dari skor individu di setiap kelompok, sedangkan
dalam SSb kita kurangi rata-rata besar dari setiap rata-rata kelompok.
2. Dalam SSb kita kalikan setiap deviasi kuadrat dengan jumlah kasus di setiap kelompok. Kita
harus melakukan ini untuk mendapatkan perkiraan deviasi antara mean grup dan mean besar
untuk setiap kasus di setiap grup.

Jika kita menambahkan SSe ke SSb, jumlah yang dihasilkan akan disebut jumlah kuadrat total
(SST). Sebuah kata singkat tentang SST adalah dalam rangka. Misalkan kita memiliki tiga sampel
anak yang dipilih secara acak. Satu sampel siswa kelas 5, satu sampel siswa kelas 8, dan ketiga
sampel siswa kelas 11. Jika kita memberikan setiap siswa dalam setiap sampel tes ejaan, kita
dapat menjumlahkan skor untuk semua anak dalam tiga sampel yang digabungkan dan membaginya
dengan jumlah total skor untuk menghasilkan satu skor rata-rata. Karena kami telah menggabungkan
skor dari ketiga sampel, skor rata-rata keseluruhan
- ini akan disebut grand mean, atau mean total,
yang memiliki simbol XT. Dengan menggunakan mean untuk
deviasi kuadrat besarsetiap
ini, kami dapat
anak menghitung
di ketiga sampelskor
kami
yang digabungkan
- menggunakan rumus yang sudah dikenal (X – XT)2. Hal yang menarik tentang
deviasi kuadrat
grand meaniniadalah
adalahjumlah
bahwa, untuk anak
deviasi setiapituanak, selisihkelompoknya
dari mean antara skor masing-masing anak
sendiri ditambah dan
deviasi
mean kelompok itu dari mean kelompoknya. maksud agung.

Jadi, misalkan Jimmy ada di sampel kelas lima. Jimmy mendapat skor 25 pada tes ejaan.
Skor rata-rata untuk sampel kelas lima adalah 30, dan skor rata-rata untuk semua sampel yang
digabungkan (yaitu, rata-rata besar) adalah 35. Perbedaan antara skor Jimmy (25) dan rata-rata
utama (35) hanyalah selisih antara skor Jimmy dan mean untuk kelompoknya (25 – 30 = –5)
ditambah selisih antara mean kelompoknya dan mean utama (30 – 35 = –5). Deviasi Jimmy dari
grand mean adalah –10 (Lihat Gambar 10.3). Jika kita kuadratkan skor deviasi itu, kita akan
mendapatkan deviasi kuadrat 100 untuk Jimmy.
Sekarang, jika kita menghitung skor deviasi- untuk setiap anak dalam ketiga sampel dan
XT)2 , (X
menjumlahkan semua skor deviasi ini menggunakan hasilnya
– adalah jumlah kuadrat
Machine Translated by Google

Analisis Varians Satu Arah 109

10

5 5
X = 25 X5 = 30 XT X8th X11th
Jimmy

Gambar 10.3 Penyimpangan di dalam dan di antara kelompok untuk individu tertentu.

total, atau SST. (Perhatikan bahwa rumus ini sama dengan yang kita gunakan di Bab 2! Ini adalah pembilang
untuk rumus varians!) Hal yang menarik tentang SST ini adalah bahwa ini sebenarnya hanya jumlah dari SSb
dan SSe. SST = SSb + SSe. Ini masuk akal, karena, seperti yang kita lihat bersama Jimmy, perbedaan antara
skor individu mana pun dan rata-rata utama hanyalah jumlah selisih antara skor individu dan rata-rata kelompok
asal individu tersebut ditambah perbedaan antara skor tersebut. mean kelompok dan mean besar. Ini adalah
inti dari ANOVA.

Memutuskan Apakah Kelompok Berarti Berbeda Secara Signifikan


Setelah kita menghitung SSb dan SSe, kita harus mengonversinya menjadi skor deviasi kuadrat rata-rata,
atau MSb dan MSe. Hal ini diperlukan karena skor deviasi di SSe jauh lebih banyak daripada di SSb, sehingga
jumlah kuadrat bisa sedikit menyesatkan. Apa yang ingin kita ketahui dalam ANOVA adalah apakah perbedaan
rata -rata antara rata-rata kelompok besar atau kecil relatif terhadap perbedaan rata -rata antara skor individu
dan rata-rata kelompok masing-masing, atau jumlah rata-rata kesalahan dalam setiap kelompok. Untuk
mengubah jumlah kuadrat ini menjadi kuadrat rata-rata, kita harus membagi jumlah kuadrat dengan derajat
kebebasannya yang sesuai.
Untuk SSb, ingatlah bahwa kita hanya membuat perbandingan antara masing-masing grup. Derajat
kebebasan untuk SSb selalu jumlah grup dikurangi 1.Jika kita menggunakan K untuk mewakili jumlah grup,
dan df untuk mewakili derajat kebebasan, maka rumus derajat kebebasan antar kelompok adalah df = K – 1.
Jadi, untuk mengubah SSb menjadi MSb, kita membagi SSb dengan K – 1.
Derajat kebebasan untuk SSe ditemukan dengan mengambil jumlah skor di setiap kelompok dan
mengurangkan 1 dari setiap kelompok. Jadi, jika kita memiliki tiga grup, df untuk SSe adalah (n1 – 1) + (n2 –
1) + (n3 – 1). Perhatikan bahwa ini adalah rumus yang sama untuk derajat kebebasan yang digunakan untuk
uji t sampel independen di Bab 9. Satu-satunya perbedaan adalah bahwa kita memiliki satu kelompok lagi di
sini. Cara yang lebih sederhana untuk menulis rumus df ini adalah N – K, di mana N adalah jumlah total kasus untuk semua
grup digabungkan dan K adalah jumlah grup. Setelah kita memiliki df ini, kita dapat mengonversi SSe
menjadi MSe hanya dengan membagi SSe dengan N – K. Tabel 10.2 berisi ringkasan rumus untuk mengubah
jumlah kuadrat menjadi kuadrat rata-rata.
Setelah kita menemukan MSb dan MSe kita, yang harus kita lakukan adalah membagi MSb dengan MSe
untuk menemukan nilai F kita . Setelah kami menemukan nilai F kami , kami perlu melihat tabel nilai F kami
(Lampiran C) untuk melihat apakah itu signifikan secara statistik. Tabel nilai F ini mirip dengan tabel nilai t
yang kita gunakan pada Bab 9, dengan satu perbedaan penting. Tidak seperti nilai t , signifikansi nilai F
tergantung pada jumlah kasus dalam sampel (yaitu, df untuk MSe) dan jumlah kelompok yang dibandingkan
(yaitu, df untuk MSb). Df kedua ini sangat penting, karena itulah yang digunakan untuk mengontrol fakta
bahwa kita membandingkan lebih dari dua kelompok. Tanpa itu, kita mungkin juga melakukan beberapa uji t ,
dan ini bermasalah karena alasan yang dibahas di awal itu
Machine Translated by Google

110 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 10.2 Mengubah Jumlah Kuadrat Menjadi Kuadrat Rata-rata

b e
e

Wilayah
penolakan

Fc Fo

bab. Dalam Lampiran C, kita dapat menemukan nilai kritis untuk F yang terkait dengan tingkat alfa yang berbeda.
Jika nilai F (Fo) yang diamati lebih besar dari nilai kritis F (Fc), kita harus menyimpulkan bahwa ada perbedaan yang
signifikan secara statistik antara rata-rata kelompok (lihat Gambar 10.4).

Tes Post Hoc

Pekerjaan kami tidak selesai setelah kami menemukan perbedaan yang signifikan secara statistik antara rata-rata
kelompok. Ingatlah bahwa ketika kami menghitung MSb, kami mendapatkan perbedaan rata -rata antara rata-rata
grup. Jika kita membandingkan rata-rata tiga kelompok, kita mungkin menemukan perbedaan rata-rata yang relatif
besar antara rata-rata kelompok ini bahkan jika dua dari tiga rata-rata kelompok itu identik. Oleh karena itu, nilai F
yang signifikan secara statistik hanya memberi tahu kita bahwa di suatu tempat ada perbedaan yang berarti antara
rata-rata kelompok saya. Tetapi itu tidak memberi tahu kami kelompok mana yang berbeda satu sama lain secara
signifikan. Untuk melakukan ini, kita harus melakukan tes post hoc.
Ada berbagai tes post hoc yang tersedia. Beberapa lebih konservatif, sehingga lebih sulit untuk menemukan
perbedaan yang signifikan secara statistik antar kelompok, sedangkan yang lain lebih liberal. Semua tes post hoc
menggunakan prinsip dasar yang sama. Tes ini memungkinkan Anda untuk membandingkan rata-rata setiap kelompok
dengan rata-rata kelompok lainnya dan menentukan apakah mereka berbeda secara signifikan sambil mengontrol
jumlah perbandingan kelompok yang dibuat. Seperti yang kita lihat di Bab 7 dan 9, untuk menentukan apakah
perbedaan antara dua rata-rata kelompok signifikan secara statistik, kami mengurangi satu rata-rata kelompok dari
yang lain dan membaginya dengan kesalahan standar. Perbedaan antara berbagai jenis tes post hoc adalah apa yang
digunakan setiap tes untuk kesalahan standar. Anda harus berkonsultasi dengan buku teks tradisional untuk diskusi
tentang berbagai jenis tes post hoc yang digunakan. Dalam buku ini, untuk tujuan demonstrasi, kami akan
mempertimbangkan tes post hoc T ukey H SD (HSD singkatan dari Jujur Sangat Berbeda). Ini adalah tes yang cukup
liberal, artinya lebih mungkin menghasilkan perbedaan yang signifikan secara statistik daripada beberapa tes lainnya
(misalnya, Scheffe).
Uji Tukey membandingkan rata-rata setiap kelompok dengan rata-rata kelompok lainnya dengan menggunakan
rumus yang sudah dikenal yang dijelaskan untuk uji t dalam Bab 9. Secara khusus, ini adalah rata-rata satu kelompok
dikurangi rata-rata kelompok kedua dibagi dengan kesalahan standar:
Machine Translated by Google

Analisis Varians Satu Arah 111

12

seks

g
Machine Translated by Google

112 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 10.3 Keluaran SPSS untuk ANOVA Minat Pemeriksaan


Kelompok Perlakuan Obat

Statistik deskriptif
Std.
Variabel Independen Mean Deviasi N

Dosis tinggi 2,7600 1,2675 25


Dosis rendah 3.6000 1,2583 25
plasebo 2.6000 .9129 25
Total 2.9867 1.2247 75

Hasil ANOVA

Tipe III
Sumber Jumlah Kuadrat df Mean Square F Tanda tangan. Eta kuadrat

Model yang dikoreksi 14.427 2 7.213 5.379 .007 .130


Mencegat 669.013 1 669.013 498.850 0,000 .874
Kelompok 14.427 2 7.213 5.379 .007 .130
Kesalahan 96,560 72 1,341

Grup "Dosis Tinggi", grup "Dosis Rendah", dan grup "Placebo". Setelah membagi siswa ke dalam kelompok masing-
masing, saya memberi mereka dosis yang tepat dari obat baru saya (atau plasebo) dan kemudian memberi mereka
semua tugas sekolah yang sama persis. Saya mengukur minat mereka terhadap tugas sekolah dengan meminta
mereka menilai seberapa menarik menurut mereka pekerjaan tersebut dalam skala dari 1 (“tidak menarik”) hingga 5
(“sangat menarik”). Kemudian saya menggunakan SPSS untuk melakukan ANOVA pada data saya , dan saya
mendapatkan output dari program yang disajikan pada Tabel 10.3.
Hasil yang dihasilkan oleh SPSS meliputi statistik deskriptif seperti mean, standar deviasi, dan ukuran sampel
untuk masing-masing dari tiga kelompok serta mean keseluruhan ("Total") untuk seluruh sampel 75 siswa. Dalam
statistik deskriptif, kita dapat melihat bahwa kelompok "Dosis Rendah" memiliki rata-rata yang agak lebih tinggi pada
variabel dependen (yaitu, minat pada tugas sekolah) daripada dua kelompok lainnya. Beralih sekarang ke hasil
ANOVA di bawah statistik deskriptif pada Tabel 10.3, ada statistik yang identik untuk baris “Model yang Dikoreksi”
dan baris “Grup”. Baris "Model" mencakup semua efek dalam model, seperti semua variabel independen dan efek
interaksi (lihat Bab 11 untuk pembahasan efek ganda ini). Dalam contoh ini, hanya ada satu variabel bebas, jadi
statistik "Model" sama dengan statistik "Grup".

Mari kita fokus pada baris "Grup". Baris ini mencakup semua informasi antar-grup, karena "Grup" adalah variabel
grup independen kami. Di sini kita melihat Jumlah Kuadrat antara (SSb),* yaitu 14.427. Derajat kebebasan (“df ”) di
sini adalah 2, karena dengan tiga golongan, K – 1 = 2. Jumlah kuadrat dibagi derajat kebebasan menghasilkan
kuadrat rata-rata (MSb), yaitu 7.213. Statistik untuk jumlah kesalahan kuadrat (SSe), derajat kebebasan untuk
komponen kesalahan, dan kesalahan kuadrat rata-rata (MSe) semuanya ada di baris di bawah baris "Grup". Nilai F
(“F ”) untuk ANOVA ini adalah 5,379, yang dihasilkan dengan membagi kuadrat rata-rata dari baris “Grup” dengan
kuadrat rata-rata dari baris kesalahan. Nilai F ini signifikan secara statistik (“Sig.” = .007). “Sig” adalah hal yang sama
dengan nilai p (dijelaskan dalam Bab 7). Terakhir, pada kolom “Eta Squared”, kita dapat melihat bahwa kita memiliki
nilai .130 pada baris “Group”. Eta kuadrat adalah ukuran hubungan antara variabel independen (“Grup”) dan variabel
dependen (“Minat”). Hal ini menunjukkan bahwa 13% dari varians skor pada variabel minat

* SPSS umumnya melaporkan ini sebagai jumlah kuadrat Tipe III. Jumlah kuadrat ini dikenal sebagai jumlah kuadrat “sisa” karena
dihitung setelah memperhitungkan efek variabel independen lainnya, kovariat, dan efek interaksi.
Machine Translated by Google

Analisis Varians Satu Arah 113

Tabel 10.4 Hasil SPSS Post Hoc Tukey HSD

(I ) Perlakuan 1, (J) Perawatan 1, Perbedaan Berarti


Perawatan 2, Kontrol Perawatan 2, Kontrol (AKU J) Std. Tanda Kesalahan.

Dosis tinggi Dosis rendah –.8400 .328 .033


plasebo .1600 .328 .877

Dosis rendah Dosis tinggi .8400 .328 .033


plasebo 1.0000 .328 .009

plasebo Dosis tinggi –.1600 .328 .877


Dosis rendah –1.0000 .328 .009

dapat dijelaskan oleh variabel Grup. Dengan kata lain, saya dapat menjelaskan 13% varians dalam skor minat hanya
dengan mengetahui apakah siswa berada dalam kelompok “Dosis Tinggi”, “Dosis Rendah”, atau “Placebo”. Eta kuadrat
pada dasarnya sama dengan koefisien determinasi (r2) yang dibahas pada Bab 8 dan lagi pada Bab 13.

Sekarang kita tahu bahwa ada perbedaan yang signifikan secara statistik antara ketiga kelompok dalam tingkat minat
mereka, dan bahwa keanggotaan kelompok menyumbang 13% dari varians dalam skor minat, sekarang saatnya untuk
melihat analisis post hoc Tukey kami untuk menentukan mana kelompok berbeda secara signifikan satu sama lain. Hasil
analisis SPSS ini disajikan pada Tabel 10.4. Kolom paling kiri dari tabel ini berisi grup referensi (I), dan kolom di sebelah
kanan ini menunjukkan grup pembanding (J). Jadi pada perbandingan pertama, rata-rata untuk kelompok “Dosis Tinggi”
dibandingkan dengan rata-rata untuk kelompok “Dosis Rendah”. Kita dapat melihat bahwa “Perbedaan Rata-Rata” antara
kedua kelompok ini adalah –0,8400, menunjukkan bahwa kelompok “Dosis Tinggi” memiliki rata-rata 0,84 poin lebih
rendah dari rata-rata kelompok “Dosis Rendah” pada variabel minat. Pada kolom terakhir, kita dapat melihat bahwa
perbedaan ini signifikan secara statistik (“Sig.” = .033). Jadi kita dapat menyimpulkan bahwa siswa dalam kelompok "Dosis
Rendah", rata-rata, lebih tertarik pada pekerjaan mereka daripada siswa dalam kelompok "Dosis Tinggi". Dalam
perbandingan berikutnya antara "Dosis Tinggi" dan "Placebo" kami menemukan perbedaan rata-rata 0,16, yang tidak
signifikan ("Sig." = 0,877).

Melihat rangkaian perbandingan berikutnya, kita melihat bahwa kelompok "Dosis Rendah" berbeda secara signifikan dari
kelompok "Dosis Tinggi" (kita sudah tahu ini) dan kelompok "Placebo". Pada titik ini, semua perbandingan kami telah
dibuat dan kami dapat menyimpulkan bahwa, rata-rata, siswa dalam kelompok "Dosis Rendah" secara signifikan lebih
tertarik pada pekerjaan mereka daripada siswa dalam kelompok "Dosis Tinggi" dan "Placebo", tetapi tidak ada perbedaan
yang signifikan antara minat siswa pada kelompok “Dosis Tinggi” dan “Placebo”.

Contoh: Membandingkan Preferensi Anak Berusia 5, 8, dan 12 Tahun


Misalkan saya memiliki tiga kelompok: usia 5 tahun, 8 tahun, dan 12 tahun. Saya ingin membandingkan kelompok-
kelompok ini dalam kesukaan mereka terhadap es krim permen karet, dalam skala 1 sampai 5. Saya mendapatkan data
yang disajikan pada Tabel 10.5. Dari skor individu yang disajikan untuk setiap kelompok, semua data tambahan dapat
Tabel 10.5 Data Kesukaan Anak Usia 5, 8, dan 12
dihitung. Mari kita berjalan melalui langkah-langkah ini.
Tahun terhadap Es Krim Permen Karet

5 Tahun Anak Usia 8 Tahun 12-Tahun-Berusia

5 5 4
Langkah 1: Temukan rata-rata untuk setiap grup. 5 4 3
Untuk menemukan rata-rata untuk setiap kelompok,
4 4 2
tambahkan skor bersama-sama dalam kelompok dan
4 3 2
bagi dengan jumlah kasus dalam kelompok. Rata-rata
3 3 1
kelompok ini telah dihitung dan disajikan pada Tabel
10.5. Rata-rata1 = 4.2 mean2 = 3,8 Rata-rata3 = 2,4
Machine Translated by Google

114 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 10.6 Penyimpangan Kuadrat untuk Contoh ANOVA


5 Tahun Anak Usia 8 Tahun 12-Tahun-Berusia

(5 – 4.2)2 = .64 (5 – 3.8)2 = 1,44 (4 – 2.4)2 = 2.56


(5 – 4.2)2 = .64 (4 – 3.8)2 = .04 (3 – 2.4)2 = .36
(4 – 4.2)2 = .04 (4 – 3.8)2 = .04 (2 – 2.4)2 = .16
(4 – 4.2)2 = .04 (3 – 3.8)2 = .64 (2 – 2.4)2 = .16
(3 – 4.2)2 = 1,44 (3 – 3.8)2 = .64 (1 – 2.4)2 = 1.96
SS1 = 2.8 SS2 = 2.8 SS3 = 5,2

Langkah 2: Hitung mean besar.


Ini dapat dilakukan dengan menjumlahkan semua 15 skor di seluruh kelompok dan membaginya dengan 15
atau, karena setiap kelompok memiliki jumlah kasus yang sama dalam contoh ini, dengan menjumlahkan
ketiga rata-rata kelompok dan membaginya dengan 3: 4.2 + 3.8 + 2,4 = 10,4 / 3 = 3,47.
Langkah 3: Hitung jumlah kesalahan kuadrat (SSe ).
Pertama, kita harus menemukan deviasi kuadrat antara masing-masing skor individu dan rata-rata kelompok.
Perhitungan ini disajikan pada Tabel 10.6. Ketika kita menjumlahkan ketiga jumlah kuadrat, kita mendapatkan
SSe = 10,8.
Langkah 4: Hitung jumlah kuadrat antar kelompok (SSb).
Ingatlah bahwa untuk menemukan SSb kita perlu mengurangi mean besar dari mean grup, kuadratkan, dan
kalikan dengan jumlah kasus dalam grup. Kemudian kami menambahkan masing-masing angka ini bersama-
sama. Jadi untuk tiga kelompok kami, kami mendapatkan

Grup 1: 5(4.2 – 3.47)2 = 5(.53) = 2.65


Grup 2: 5(3.8 – 3.47)2 = 5(.11) = .55
Grup 3: 5(2.4 – 3.47)2 = 5(1.14) = 5.7
Jumlah: 2,65 + 0,55 + 5,7 = 8,90

Langkah 5: Hitung kesalahan kuadrat rata-rata (MSe ).


Untuk menemukan MSe , kita membagi SSe dengan derajat kebebasan untuk kesalahan (dfe). Dfenya
adalah N – K. Dalam contoh ini kita memiliki 15 kasus di 3 grup, jadi derajat kebebasannya adalah 15 – 3 =
12. Ketika kita membagi SSe dengan 12 kita dapatkan

MSe = 10,8 / 12 = 0,90

Langkah 6: Hitung kuadrat rata-rata antar grup (MSb).


Untuk mencari MSb kita bagi SSb dengan derajat kebebasan antar kelompok (dfb). dfb _
adalah K – 1. Dalam contoh ini kita memiliki tiga grup, sehingga derajat kebebasannya adalah 3 – 1 = 2.
Ketika kita membagi SSb dengan 2 kita mendapatkan

MSb = 8.90/2 = 4.45

Langkah 7: Hitung rasio F.


Rasio F dapat ditemukan dengan membagi MSb dengan MSe:

4 .45
F= = 4 .94
.90

Langkah 8: Temukan nilai kritis untuk F dari Lampiran C


Melihat pada Lampiran C, dengan 2 derajat kebebasan dalam pembilang dan 12 derajat kebebasan dalam
penyebut, kami menemukan nilai kritis dari F 3,88 (dengan = 0,05).
Machine Translated by Google

Analisis Varians Satu Arah 115

Wilayah
penolakan
= 0,05

Fc = 3,88 untuk = 4,94

Gambar 10.5 Nilai F kritis dan teramati untuk contoh ANOVA.

e
x
Machine Translated by Google

116 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Wilayah
penolakan
= 0,05

0,95 3.33

Tukey1–2 Tukey2–3 Tukey1–3 = 4,29


Kritis
Tuki = 3,77

Gambar 10.6 Hasil Uji Tukey.


Langkah terakhir dalam analisis kami adalah menentukan apakah masing-masing nilai Tukey HSD ini signifikan
secara statistik. Untuk melakukan ini, kita harus melihat tabel nilai kritis untuk statistik rentang terpelajar pada
Lampiran D. Nilai dalam tabel ini disusun dengan cara yang sama dengan yang disajikan dalam tabel nilai F pada
Lampiran C. Namun, sebagai gantinya menggunakan derajat kebebasan antara kelompok untuk menemukan kolom
yang sesuai, kami menggunakan jumlah kelompok. Dalam contoh ini, kami memiliki tiga grup, jadi kami menemukan
kolom berlabel "3." Untuk menemukan baris yang sesuai, kami menggunakan derajat kebebasan untuk kesalahan.
Dalam contoh ini dfe kami adalah 12. Jadi, dengan tingkat alfa 0,05, nilai Tukey kami harus lebih besar dari 3,77
sebelum kami menganggapnya signifikan secara statistik. Saya tahu ini karena nilai Tukey kritis dalam Lampiran D
untuk 3 grup dan 12 derajat kebebasan adalah 3,77.

Nilai Tukey saya membandingkan Grup 1 dan 2 hanya 0,95. Karena ini lebih kecil dari nilai 3,77, saya menyimpulkan
bahwa Kelompok 1 dan 2 tidak berbeda secara signifikan dalam hal rata-rata mereka menyukai es krim permen karet.
Nilai Tukey untuk perbandingan Grup 1 dengan Grup 3 menghasilkan nilai Tukey 4,29, yang lebih besar dari 3,77, jadi
saya dapat menyimpulkan bahwa Grup 1 berbeda dengan Grup 3. Tes Tukey ketiga saya menghasilkan nilai 3,33,
menunjukkan bahwa Kelompok 2 tidak berbeda secara signifikan dengan Kelompok 3. Dengan melihat rata-rata yang
disajikan untuk setiap kelompok pada Tabel 10.3, saya dapat melihat bahwa, rata-rata, anak berusia 5 tahun menyukai
es krim permen karet lebih dari 12 tahun, tetapi 5 -anak usia tidak berbeda secara signifikan dari anak usia 8 tahun dan
anak usia 8 tahun tidak berbeda secara signifikan dari anak usia 12 tahun dalam hal mereka menyukai es krim permen
karet (lihat Gambar 10.6).

Menulis Itu
Untuk meringkas hasil ini dalam bentuk yang mungkin Anda lihat di jurnal yang diterbitkan, saya akan menulis sebagai
berikut: “Saya melakukan ANOVA satu arah untuk membandingkan kesukaan rata-rata ketiga kelompok terhadap es
krim permen karet. Analisis ini menghasilkan hasil yang signifikan secara statistik (F(2,12) = 4,94, p < 0,05). Tes post
hoc Tukey mengungkapkan bahwa satu-satunya perbedaan yang signifikan antara kelompok ditemukan antara anak
berusia 5 tahun (M = 4,20) dan 12 tahun (M = 2,40), dengan anak-anak yang lebih muda menyukai es krim permen
karet secara signifikan lebih banyak daripada anak-anak yang lebih muda. anak-anak yang lebih tua.”

Mengakhiri dan Menantikan


ANOVA satu arah, bila dikombinasikan dengan tes post hoc dan kontras apriori , adalah teknik yang kuat untuk
menemukan apakah kelompok berarti berbeda pada beberapa variabel dependen. Nilai F dari ANOVA satu arah
memberi tahu kita apakah, secara keseluruhan, ada perbedaan yang signifikan antara rata-rata kelompok kami. Tapi
kita tidak bisa berhenti dengan nilai F. Untuk mendapatkan informasi yang maksimal dari ANOVA satu arah, kita harus
melakukan tes post hoc untuk menentukan kelompok mana yang berbeda. ANOVA menggabungkan beberapa konsep
yang telah saya bahas di bab-bab sebelumnya. Jumlah dari
Machine Translated by Google

Analisis Varians Satu Arah 117

kuadrat yang digunakan dalam ANOVA didasarkan pada deviasi kuadrat yang pertama kali diperkenalkan pada Bab 3
dalam pembahasan varians. Perbandingan rata-rata kelompok mirip dengan informasi tentang uji t sampel independen
yang disajikan pada Bab 9. Dan statistik eta-kuadrat, yang adalah ukuran hubungan antara variabel independen dan
dependen, terkait dengan konsep varians bersama dan varians dijelaskan dibahas dalam Bab 8 serta gagasan ukuran efek
dibahas dalam Bab 7.

Dalam bab ini, pengenalan singkat untuk model ANOVA paling dasar dan tes post hoc disediakan. Penting untuk
diingat bahwa banyak model tidak sesederhana ini. Dalam dunia nyata penelitian ilmu sosial, seringkali sulit untuk
menemukan kelompok dengan jumlah kasus yang sama. Ketika kelompok memiliki jumlah kasus yang berbeda, model
ANOVA menjadi sedikit lebih rumit.
Saya mendorong Anda untuk membaca lebih lanjut tentang model ANOVA satu arah, dan saya menawarkan beberapa
referensi untuk membantu Anda mempelajari lebih lanjut. Dalam dua bab berikutnya, saya akan memeriksa dua jenis
teknik ANOVA yang lebih maju: ANOVA faktorial dan ANOVA pengukuran berulang.
Dalam bab ini dan bab-bab sebelumnya, saya memeriksa beberapa statistik yang paling mendasar dan paling umum
digunakan dalam ilmu-ilmu sosial. Statistik ini membentuk blok bangunan untuk sebagian besar teknik yang lebih maju
yang digunakan oleh para peneliti. Sebagai contoh, uji t dan ANOVA satu arah mewakili teknik dasar untuk menguji
hubungan antara variabel independen nominal atau kategoris dan variabel dependen kontinu. Metode yang lebih maju
untuk memeriksa hubungan seperti itu, seperti ANOVA faktorial dan ANOVA pengukuran berulang hanyalah penjabaran
dari metode yang lebih mendasar yang telah saya diskusikan. Demikian pula, teknik untuk menguji hubungan antara dua
atau lebih variabel kontinu semuanya didasarkan pada teknik statistik yang telah dibahas dalam Bab 8, korelasi. Teknik
yang lebih maju, seperti analisis faktor dan regresi, didasarkan pada korelasi.

Dalam bab-bab selanjutnya dari buku ini, tiga teknik statistik yang lebih maju dijelaskan. Karena tujuan buku ini adalah
untuk memberikan deskripsi singkat nonteknis dari sejumlah metode statistik yang biasa digunakan oleh ilmuwan sosial,
tidak ada ruang yang cukup untuk memberikan deskripsi rinci tentang teknik yang lebih maju ini. Secara khusus, deskripsi
teknis dari rumus yang digunakan untuk menghasilkan statistik ini berada di luar cakupan dan tujuan buku ini. Oleh karena
itu, dalam bab-bab berikutnya, deskripsi umum dari masing-masing teknik disajikan, termasuk apa yang dilakukan teknik
tersebut, kapan menggunakannya, dan contoh hasil yang dihasilkan dari analisis statistik yang menggunakan teknik
tersebut. Saran untuk bacaan lebih lanjut pada setiap teknik juga disediakan.

Daftar Istilah dan Simbol untuk Bab 10


kontras apriori : Perbandingan sarana yang direncanakan sebelum ANOVA dilakukan.
Dapat mencakup membandingkan rata-rata satu kelompok dengan dua atau lebih kelompok lain yang digabungkan.
Antar kelompok: Mengacu pada efek (misalnya, varians, perbedaan) yang terjadi antara anggota kelompok yang berbeda
dalam ANOVA.
Nilai F : Statistik yang digunakan untuk menunjukkan jumlah rata-rata perbedaan antara rata-rata kelompok relatif terhadap
jumlah rata-rata varians dalam setiap kelompok.
Rata- rata besar: Rata-rata statistik untuk semua kasus di semua kelompok pada tanggungan
variabel.

Rata-rata kuadrat antara: Penyimpangan kuadrat rata-rata antara mean grup dan grand
berarti.

Kesalahan kuadrat rata-rata: Penyimpangan kuadrat rata-rata antara masing-masing individu dan masing-masing individu
kelompok tive artinya.
Rata-rata kuadrat dalam: Rata-rata deviasi kuadrat antara rata-rata setiap kelompok dan skor individu dalam setiap
kelompok.
ANOVA satu arah: Analisis varians dilakukan untuk menguji apakah dua atau lebih kelompok berarti
berbeda secara signifikan pada satu variabel terikat.
Machine Translated by Google

118 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Uji post hoc: Uji statistik dilakukan setelah mendapatkan nilai F keseluruhan dari ANOVA untuk
menguji apakah rata-rata setiap kelompok berbeda secara signifikan dari rata-rata kelompok lainnya.
Kesalahan acak: Mengacu pada perbedaan antara skor individu dan rata-rata sampel yang
dianggap terjadi hanya karena efek acak yang melekat dalam memilih kasus untuk
sampel. (Perhatikan bahwa kesalahan acak, lebih luas, mengacu pada perbedaan
antara data sampel atau statistik dan data populasi atau parameter yang disebabkan
oleh prosedur pemilihan acak.)
Statistik rentang terpelajar: Distribusi yang digunakan untuk menentukan signifikansi statistik dari pos
tes hoc.
Jumlah kuadrat antara: Jumlah simpangan kuadrat antara mean grup dan
maksud agung.
Jumlah kesalahan kuadrat: Jumlah deviasi kuadrat antara skor individu dan rata-rata kelompok
pada variabel dependen.
Jumlah kuadrat total: Jumlah deviasi kuadrat antara skor individu dan mean besar pada
variabel dependen. Ini juga merupakan jumlah dari SSb dan SSe.
T ukey H SD: Nama tes post hoc umum.
Dalam-kelompok: Mengacu pada efek (misalnya, varians, perbedaan) yang terjadi antara anggota
kelompok yang sama dalam ANOVA.

MSw Mean square dalam grup.


Mse Mean square error (yang sama dengan mean square dalam grup).
MSb Rata-rata kuadrat antar grup.
SSe Sum of squares error (atau di dalam grup).
SSb Jumlah kuadrat antar kelompok.
SST
- Jumlah kuadrat total.
XT Berarti besar.
F Nilai F. _
df Derajat kebebasan.
K Jumlah kelompok.
N Jumlah kasus di semua kelompok digabungkan.
n Jumlah kasus dalam kelompok tertentu (untuk menghitung SSb).
ng Jumlah kasus pada masing-masing kelompok (untuk uji Tukey HSD).

Bacaan yang Direkomendasikan

Marascuilo, LA, & Serlin, RC (1988). Metode statistik untuk ilmu sosial dan perilaku.
(hal. 472–516). New York: Freeman.
Iverson, GR, & Norpoth, H. (1987). Analisis varians (edisi ke-2). Taman Newbury, CA: Sage.
Machine Translated by Google

Bab 11
Analisis Varians Faktorial

Pada bab sebelumnya, kami memeriksa ANOVA satu arah. Dalam bab ini dan bab berikutnya, kami mengeksplorasi
keajaiban dua metode analisis varians yang lebih maju: ANOVA faktorial dan ANOVA pengukuran berulang. Teknik ini
didasarkan pada prinsip umum yang sama dengan ANOVA satu arah. Yaitu, mereka semua melibatkan partisi varians dari
variabel dependen menjadi bagian-bagian komponennya (misalnya, bagian yang disebabkan oleh perbedaan antar-
kelompok, bagian yang disebabkan oleh varians dalam-kelompok, atau kesalahan). Selain itu, teknik ini memungkinkan
kita untuk memeriksa pertanyaan yang lebih kompleks, dan seringkali lebih menarik daripada yang diizinkan oleh ANOVA
satu arah sederhana.
Seperti disebutkan di akhir bab terakhir, teknik statistik yang lebih maju ini melibatkan formula yang jauh lebih kompleks
daripada yang telah kita lihat sebelumnya. Oleh karena itu, dalam bab ini dan bab-bab selanjutnya, hanya pengenalan
dasar teknik yang ditawarkan. Anda harus ingat bahwa ada lebih banyak statistik ini daripada yang dijelaskan di halaman
ini, dan Anda harus mempertimbangkan untuk membaca lebih banyak tentang mereka di bacaan yang disarankan di akhir
setiap bab.

Kapan Menggunakan ANOVA Faktorial

ANOVA faktorial adalah teknik yang digunakan ketika Anda memiliki satu variabel dependen kontinu (yaitu, skala interval
atau rasio) dan dua atau lebih variabel independen kategoris (yaitu, skala nominal). Misalnya, saya ingin tahu apakah rata-
rata anak laki-laki dan perempuan berbeda dalam jumlah televisi yang mereka tonton per minggu. Misalkan saya juga ingin
mengetahui apakah anak-anak di berbagai wilayah di Amerika Serikat (yaitu, Timur, Barat, Utara, dan Selatan) berbeda
dalam jumlah rata-rata menonton televisi per minggu. Dalam contoh ini, jumlah rata-rata televisi yang ditonton per minggu
adalah variabel dependen saya, dan jenis kelamin serta wilayah negara adalah dua variabel independen saya. Ini dikenal
sebagai analisis faktorial 2 × 4, karena salah satu variabel independen saya memiliki dua level (jenis kelamin) dan satu
memiliki empat level (wilayah). Jika saya menulis tentang analisis ini dalam makalah akademis, saya akan menulis, “Saya
melakukan ANOVA faktorial 2 (gender) × 4 (wilayah).”

Sekarang ketika saya menjalankan ANOVA faktorial saya, saya mendapatkan tiga hasil yang menarik. Pertama, saya
mendapatkan dua efek utama: satu untuk perbandingan saya antara anak laki-laki dan perempuan dan satu untuk
perbandingan saya dengan anak-anak dari berbagai daerah di negara ini. Hasil ini mirip dengan hasil yang akan saya
dapatkan jika saya menjalankan dua ANOVA satu arah, dengan satu perbedaan penting, yang akan saya jelaskan di bagian selanjutnya.
Selain efek utama tersebut, ANOVA faktorial saya juga menghasilkan efek interaksi, atau sekadar interaksi. Sebuah
interaksi hadir ketika perbedaan antara kelompok satu variabel independen pada variabel dependen bervariasi sesuai
dengan tingkat variabel independen kedua. Efek interaksi juga dikenal sebagai efek moderator . Saya membahas interaksi
secara lebih rinci di bagian berikutnya juga. Untuk saat ini, cukuplah untuk mengatakan bahwa efek interaksi seringkali
merupakan informasi yang sangat menarik dan penting bagi para ilmuwan sosial.

Beberapa Perhatian

Sama seperti ANOVA satu arah, ketika melakukan ANOVA faktorial, penting untuk menentukan apakah jumlah varians
dalam setiap kelompok kira-kira sama (dikenal sebagai homogenitas ).

119
Machine Translated by Google

120 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

varians). Seperti yang dibahas dalam bab sebelumnya, situasi ideal dalam ANOVA adalah memiliki ukuran sampel yang
kira-kira sama di setiap kelompok dan jumlah variasi yang kira-kira sama (misalnya, standar deviasi) di setiap kelompok.
Jika varians tidak kira-kira sama, mungkin ada kesulitan dengan probabilitas yang terkait dengan uji signifikansi statistik.
Masalah ini dapat diperburuk ketika kelompok memiliki ukuran sampel yang berbeda, situasi yang sering terjadi pada
ANOVA faktual karena sampel dibagi menjadi begitu banyak kategori. Jadi penting untuk menguji apakah kelompok yang
dibandingkan memiliki standar deviasi yang sama.

Kembali ke contoh sebelumnya, misalkan kita memiliki 40 anak laki-laki dan 40 anak perempuan di seluruh sampel.
Selain itu, misalkan kita memiliki 20 anak dari masing-masing empat wilayah dalam sampel kita. Untuk menguji efek
utama, angka-angka ini dapat diterima. Artinya, masuk akal untuk membandingkan 40 anak laki-laki dengan 40 anak
perempuan jika kita ingin mengetahui apakah anak laki-laki dan perempuan berbeda dalam jumlah rata-rata menonton
televisi. Demikian pula, masuk akal untuk membandingkan 20 anak dari masing-masing empat wilayah berbeda di negara
ini. Tetapi misalkan di Barat, sampel kami yang terdiri dari 20 anak hanya mencakup 5 anak perempuan dan 15 anak laki-
laki, sedangkan di Utara sampel kami mencakup 15 anak perempuan dan hanya 5 anak laki-laki. Ketika kami membagi
sampel kami dengan dua variabel independen, mudah untuk berakhir dengan ukuran sel yang terlalu kecil untuk
melakukan ANOVA yang berarti. Sel adalah himpunan bagian dari kasus yang mewakili satu titik perpotongan unik antara
variabel bebas. Dalam contoh di atas, akan ada delapan sel: anak perempuan dari Barat, anak laki-laki dari Barat, anak
perempuan dari Selatan, anak laki-laki dari Selatan, dan seterusnya. Ketika Anda mempertimbangkan bahwa ANOVA
faktorial dapat memiliki lebih dari dua variabel independen, sampel dapat dibagi beberapa kali. Tanpa sampel awal yang
besar, mudah berakhir dengan sel yang berisi terlalu sedikit kasus. Sebagai aturan umum, sel yang memiliki kurang dari
10 kasus terlalu kecil untuk dimasukkan dalam ANOVA; ukuran sel minimal 20 lebih disukai.

ANOVA faktorial dalam Kedalaman


Saat membagi varians dari variabel dependen, seperti jam menonton televisi per minggu, menjadi bagian-bagian
komponennya, ada beberapa komponen yang dapat kita periksa. Pada bagian ini, kami memeriksa tiga komponen ini:
Efek utama, efek interaksi, dan efek sederhana. Selain itu, saya juga menyajikan pengantar gagasan efek parsial dan
terkontrol, masalah yang ditinjau kembali dalam Bab 13 tentang regresi berganda.

Efek Utama dan Efek Terkendali atau Parsial

Seperti disebutkan sebelumnya, ANOVA faktorial akan menghasilkan efek utama untuk setiap variabel independen
dalam analisis. Efek utama ini masing-masing akan memiliki nilai F sendiri , dan sangat mirip dengan hasil yang akan
dihasilkan jika Anda hanya melakukan ANOVA satu arah untuk setiap variabel independen pada variabel dependen.
Namun, ada satu keuntungan besar melihat efek utama dalam ANOVA faktorial daripada ANOVA satu arah yang terpisah:
Ketika melihat efek utama dari ANOVA faktorial, adalah mungkin untuk menguji apakah ada perbedaan yang signifikan
antara kelompok satu variabel independen pada variabel dependen sambil mengendalikan, atau memisahkan efek dari
variabel independen lainnya pada variabel dependen. Izinkan saya mengklarifikasi kalimat yang membingungkan ini
dengan kembali ke contoh menonton televisi saya.

Misalkan ketika saya memeriksa apakah anak laki-laki dan perempuan berbeda dalam jumlah rata-rata televisi yang
mereka tonton per minggu, saya menemukan bahwa ada perbedaan yang signifikan: Anak laki-laki menonton televisi
secara signifikan lebih banyak daripada anak perempuan. Sebagai tambahan, misalkan anak-anak di Utara rata-rata
menonton televisi lebih banyak daripada anak-anak di Selatan. Sekarang, misalkan, dalam sampel saya anak-anak dari
wilayah utara negara itu, ada dua kali lebih banyak anak laki-laki daripada anak perempuan, sedangkan dalam sampel
saya dari Selatan ada dua kali lebih banyak anak perempuan daripada anak laki-laki. Sekarang saya punya masalah
potensial. Bagaimana saya tahu apakah temuan saya bahwa anak-anak di Utara menonton televisi lebih banyak daripada
anak-anak di Selatan bukan hanya beberapa artefak yang disebabkan oleh proporsi anak laki-laki yang lebih besar di
sampel Utara saya? Yang saya maksud dengan "artefak" adalah perbedaan Utara-Selatan hanyalah produk sampingan dari perbedaan
Machine Translated by Google

Analisis Varians Faktorial 121

Varians Total dalam Menonton Televisi

Jenis kelamin
Varians bersama

Gambar 11.1 Mempartisi total varians dalam menonton televisi.

antara anak laki-laki dan perempuan; wilayah negara bukanlah faktor penting dalam dan dari dirinya sendiri.
Pikirkan tentang ini: Jika saya sudah tahu bahwa anak laki-laki menonton lebih banyak televisi, rata-rata, daripada
anak perempuan, maka saya akan mengharapkan sampel Utara saya menonton lebih banyak televisi daripada
sampel Selatan saya karena ada proporsi anak laki-laki yang lebih besar di sampel Utara saya daripada di sampel
sampel selatan. Jadi pertanyaan saya adalah: Bagaimana saya bisa menentukan apakah ada perbedaan rata-
rata jumlah televisi yang ditonton oleh anak-anak di Utara dan Selatan di luar perbedaan yang disebabkan oleh
tidak seimbangnya proporsi anak laki-laki dan perempuan dalam sampel dari kedua wilayah tersebut. Dengan
kata lain, apakah ada pengaruh wilayah terhadap tayangan televisi di luar atau di samping pengaruh gender?
Untuk menjawab pertanyaan yang menarik ini, saya harus meneliti efek utama wilayah terhadap tayangan
televisi setelah mengontrol, atau memilah-milah efek gender. Saya dapat melakukan ini dalam ANOVA faktorial.
Untuk memahami bagaimana hal ini dicapai, perlu diingat bahwa apa yang kami coba lakukan dengan ANOVA
adalah menjelaskan varians dalam variabel dependen kami (jumlah anak-anak menonton televisi per minggu)
dengan membagi varians itu menjadi bagian-bagian komponennya. Jika anak laki-laki dan perempuan berbeda
dalam hal seberapa banyak mereka menonton televisi, maka sebagian dari perbedaan tersebut dijelaskan, atau
dijelaskan, berdasarkan jenis kelamin. Dengan kata lain, kita dapat memahami sedikit perbedaan antara anak-
anak dalam menonton televisi mingguan jika kita mengetahui jenis kelamin mereka. Sekarang, setelah kita
menghilangkan bagian dari total varians yang dijelaskan oleh gender, kita dapat menguji apakah ada bagian
tambahan dari varians yang dapat dijelaskan dengan mengetahui dari wilayah negara mana anak-anak itu
berasal. Jika anak-anak dari Utara dan Selatan masih berbeda dalam jumlah televisi yang mereka tonton, setelah
memilah-milah atau mengontrol bongkahan varians yang dijelaskan oleh gender, maka kita tahu bahwa ada efek
utama wilayah independen dari efek gender. Dalam jargon statistik, kami akan mengatakan, "Ada efek utama
wilayah pada jumlah televisi yang ditonton setelah mengendalikan efek gender." Ini adalah informasi yang kuat.
Dalam ANOVA faktorial, dimungkinkan untuk menguji setiap efek utama dan setiap efek interaksi ketika
mengontrol semua efek lain dalam analisis (lihat Gambar 11.1).

Interaksi

Manfaat kedua dari ANOVA faktorial adalah memungkinkan peneliti untuk menguji apakah ada interaksi statistik
yang ada. Interaksi bisa menjadi konsep yang kompleks untuk dipahami. Membuat seluruh masalah menjadi
lebih membingungkan adalah bahwa tingkat interaksi yang mungkin meningkat seiring dengan meningkatnya
jumlah variabel independen. Misalnya, ketika ada dua variabel independen dalam analisis, ada dua kemungkinan
efek utama dan satu kemungkinan efek interaksi dua arah (yaitu, interaksi antara dua variabel independen). Jika
ada tiga independen
Machine Translated by Google

122 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 11.1 Rata-Rata Jam Menonton Televisi Per Minggu Menurut Gender dan Wilayah

Rata-Rata Keseluruhan
Utara Timur Barat Selatan menurut Gender

Cewek-cewek 20 jam. 15 jam. 15 jam. 10 jam. 15 jam.

anak laki-laki
25 jam. 20 jam. 20 jam. 25 jam. 22,5 jam.

Rata-rata keseluruhan 22,5 jam. 17,5 jam. 17,5 jam. 17,5 jam.

menurut wilayah

variabel dalam analisis, ada tiga kemungkinan efek utama, tiga kemungkinan efek interaksi dua arah, dan satu
kemungkinan efek interaksi tiga arah. Seluruh analisis bisa menjadi sangat rumit dengan sangat cepat. Untuk
mempermudah, mari kita lihat interaksi dua arah terlebih dahulu.
Dalam contoh menonton televisi saya, misalkan saya secara acak memilih 25 anak laki-laki dan 25 perempuan
dari masing-masing empat wilayah negara, mengukur jumlah jam yang dihabiskan setiap anak untuk menonton
televisi, dan menghitung rata-rata untuk setiap kelompok. (Catatan: Berbeda dengan contoh yang diberikan
sebelumnya, ada jumlah yang sama antara anak laki-laki dan perempuan dari setiap daerah dalam sampel ini.)
Rata-rata ini disajikan pada Tabel 11.1.
Seperti yang kita lihat ketika memeriksa rata-rata pada Tabel 11.1, anak laki-laki di setiap wilayah rata-rata
menonton televisi lebih banyak daripada anak perempuan. Rata-rata keseluruhan menurut jenis kelamin yang
disajikan di kolom terakhir menunjukkan bahwa tampaknya ada efek utama untuk jenis kelamin, dengan anak laki-
laki menonton televisi rata-rata 22,5 jam per minggu dan anak perempuan menonton rata-rata hanya 15 jam per
minggu. Ketika kita melihat rata-rata keseluruhan yang disajikan untuk setiap wilayah (baris bawah), kita dapat
melihat bahwa anak-anak di Utara rata-rata menonton televisi lebih banyak daripada anak-anak di tiga wilayah
lainnya. Oleh karena itu, kita dapat mengatakan bahwa tampaknya ada efek utama untuk jenis kelamin dan wilayah
pada jumlah televisi yang ditonton. Perhatikan bahwa saya mengatakan "tampaknya efek utama." Untuk menentukan
apakah efek utama ini signifikan secara statistik, kita harus menentukan probabilitas memperoleh perbedaan ukuran
ini antara kelompok yang dipilih secara acak dengan ukuran ini (lihat Bab 7 untuk diskusi tentang uji signifikansi
dan artinya).
Setelah kita memeriksa efek utama, kita dapat mengalihkan perhatian kita ke efek interaksi yang mungkin
terjadi. Untuk melakukan ini, kita perlu memeriksa rata-rata di masing-masing dari delapan sel yang disajikan pada
Tabel 11.1 (yaitu, anak laki-laki Utara, anak perempuan Utara, anak laki-laki Timur, anak perempuan Timur, dll).
Ketika kita memeriksa cara-cara ini, kita dapat melihat bahwa di Utara, Timur, dan Barat, anak laki-laki menonton
televisi rata-rata 5 jam lebih banyak per minggu daripada anak perempuan. Tapi di Selatan, anak laki-laki menonton
televisi rata-rata 15 jam lebih lama daripada anak perempuan. Oleh karena itu, tampak bahwa perbedaan jumlah
tontonan televisi antara anak perempuan dan anak laki-laki tidak seragam di keempat wilayah negara tersebut.
Dengan kata lain, hubungan antara gender dan jumlah televisi yang ditonton bergantung pada, atau dimoderatori
oleh, wilayah negara tersebut. Karena definisi interaksi dua arah adalah bahwa hubungan antara variabel
independen dan variabel dependen dimoderatori oleh variabel independen kedua, kita tampaknya memiliki interaksi
dua arah di sini.
Ketika kita menemukan interaksi yang signifikan secara statistik (sekali lagi, kita harus menguji nilai p dari rasio
F untuk suku interaksi untuk menentukan apakah interaksi tersebut signifikan secara statistik), kita harus
menentukan sifat interaksi dan kemudian mendeskripsikan interaksi tersebut. Salah satu metode yang sangat baik
untuk memahami sifat interaksi adalah dengan menggambarkannya secara grafis. Untuk melakukan ini, yang perlu
kita lakukan adalah membuat grafik rata-rata. Grafik garis dan grafik batang berfungsi paling baik. Saya telah
menghasilkan grafik garis yang mewakili data yang disajikan pada Tabel 11.1. Grafik ini disajikan pada Gambar 11.2.
Ketika kita melihat grafik ini, sifat interaksi menjadi jelas. Secara khusus, apa yang dapat kita lihat adalah bahwa
ada pola yang konsisten untuk hubungan antara gender dan jumlah tayangan televisi di tiga wilayah (Utara, Timur,
dan Barat), tetapi di wilayah keempat (Selatan) polanya agak berubah. Secara khusus, kesenjangan antara anak
laki-laki dan perempuan dalam jumlah rata-rata menonton televisi per minggu jauh lebih lebar di Selatan daripada
di tiga wilayah lainnya. Pada Gambar 11.2, kita dapat melihat bahwa sarana untuk anak laki-laki dan perempuan
pada tanggungan
Machine Translated by Google

Analisis Varians Faktorial 123

30

25

20

15

10

5
anak laki-laki

Cewek-cewek

0
Utara Timur Barat Selatan

Wilayah

Gambar 11.2 Interaksi gender dan wilayah.

variabel lebih jauh terpisah di satu wilayah daripada di wilayah lain, tetapi garis tidak pernah bersilangan. Artinya, tidak ada
wilayah di mana anak perempuan memiliki nilai rata-rata lebih tinggi daripada anak laki-laki pada variabel dependen.
Saat Anda melihat grafik yang disajikan pada Gambar 11.2, perhatikan bahwa Anda dapat melihat efek utama dan efek
interaksi. Ingat bahwa efek utama untuk jenis kelamin menunjukkan bahwa, ketika kita menggabungkan skor dari keempat
wilayah, anak laki-laki tampaknya memiliki skor rata-rata yang lebih tinggi daripada anak perempuan pada variabel
dependen kami (yaitu, jumlah televisi yang ditonton per minggu). Pada Gambar 11.2 efek ini jelas, seperti yang kita lihat
bahwa garis untuk anak laki-laki lebih tinggi daripada garis untuk anak perempuan di keempat wilayah.
Kita juga dapat melihat bukti efek utama untuk wilayah, meskipun efek ini agak kurang jelas dibandingkan efek utama untuk
anak laki-laki. Kami melihat efek wilayah dengan mencatat bahwa untuk anak laki-laki dan perempuan, jumlah rata-rata
menonton televisi lebih tinggi di Utara daripada di wilayah Timur atau Barat. Namun, efek utama ini sedikit rumit dengan
adanya interaksi. Perhatikan bahwa rata-rata lebih rendah di Selatan daripada di Utara untuk anak perempuan (mendukung
efek utama kami untuk wilayah), rata-rata untuk anak laki-laki di Selatan sama dengan rata-rata untuk anak laki-laki di Utara.

Ini menimbulkan pertanyaan yang sulit: Ketika kita mengatakan ada efek utama untuk wilayah, dengan anak-anak di Utara
rata-rata menonton televisi lebih banyak daripada anak-anak di tiga wilayah lainnya, apakah kita akurat?

Menafsirkan Efek Utama dengan Adanya Efek Interaksi

Peneliti tidak selalu setuju tentang cara terbaik untuk menginterpretasikan efek utama ketika ada efek interaksi yang
signifikan. Beberapa berpendapat bahwa tidak masuk akal untuk menafsirkan efek utama sama sekali ketika ada efek
interaksi, karena efek interaksi pada dasarnya mengubah (atau meniadakan) arti dari efek utama. Dalam contoh
sebelumnya, efek utama untuk wilayah yang menunjukkan anak-anak di Utara menonton televisi lebih banyak daripada
anak-anak di tempat lain benar-benar hanya berlaku dalam sampel anak perempuan. Faktanya, anak laki-laki di Selatan
menonton televisi sebanyak anak laki-laki di Utara, dan anak perempuan di Utara tidak menonton televisi lebih banyak
daripada anak laki-laki di wilayah mana pun.
Oleh karena itu, beberapa orang akan berpendapat bahwa kita harus menggambarkan sifat interaksi, dan tidak menafsirkan
efek utama. Logika argumen ini adalah sebagai berikut: Jika saya mengatakan bahwa anak-anak di Utara menonton televisi
lebih banyak daripada anak-anak di daerah lain, pernyataan itu menyesatkan karena tidak benar untuk anak laki-laki. Untuk
lebih tepatnya, saya seharusnya mengatakan bahwa anak perempuan di Utara lebih banyak menonton televisi daripada
anak perempuan di daerah lain.
Yang lain, termasuk saya sendiri, berpikir masuk akal untuk menafsirkan semua efek dan mempertimbangkannya dalam
kaitannya satu sama lain. Kembali ke contoh sebelumnya, kita dapat melihat bahwa ada main
Machine Translated by Google

124 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

30

25

20

15

10

anak laki-laki

Cewek-cewek

0
Utara Timur Barat Selatan

Wilayah

Gambar 11.3 Interaksi dengan cara yang sama.

untuk gender, dengan rata-rata anak laki-laki menonton televisi lebih banyak daripada anak perempuan. Kita juga dapat melihat
bahwa efek ini sangat menonjol di Selatan. Selain itu, kita dapat mengatakan bahwa secara keseluruhan, ketika kita
menggabungkan sampel anak laki-laki dan perempuan bersama-sama, ada efek utama untuk wilayah seperti anak-anak Utara
menonton televisi lebih banyak daripada anak-anak di wilayah lain, rata-rata. Ketika kita menambahkan pertimbangan efek
interaksi, kita selanjutnya dapat berargumen bahwa efek keseluruhan ini terutama disebabkan oleh perbedaan dalam sampel
anak perempuan, dan lebih sedikit karena variasi dalam sampel anak laki-laki. Hal ini dimungkinkan untuk mendapatkan efek
interaksi tanpa efek utama (lihat Gambar 11.3. Dalam contoh ini, anak laki-laki dan perempuan memiliki cara yang sama,
seperti halnya anak-anak di masing-masing dari empat wilayah geografis).
Oleh karena itu, masuk akal untuk melaporkan dan menginterpretasikan efek utama yang signifikan, bahkan dengan adanya
efek interaksi. Kuncinya adalah memberikan informasi yang cukup sehingga pembaca hasil Anda dapat memahaminya. Untuk
melakukan ini, mungkin perlu mendiskusikan interaksi Anda dan efek utama dalam hubungannya satu sama lain.

Berikut adalah contoh lain untuk lebih jelas menggambarkan masalah menafsirkan efek utama dengan adanya interaksi
yang signifikan. Misalkan saya menguji keterampilan matematika anak laki-laki dan perempuan dalam dua jenis program
matematika yang berbeda. Siswa dalam program “Tradisional” mempelajari matematika dengan cara biasa, membaca buku
teks dan mengerjakan soal matematika di kelas.
Siswa dalam program "Eksperimental" bekerja dalam kelompok untuk memecahkan masalah secara kolaboratif dan bekerja
dengan lebih banyak masalah terapan di dunia nyata. Setelah satu tahun, saya memberikan tes matematika kepada 25 anak
laki-laki yang dipilih secara acak dan 25 anak perempuan yang dipilih secara acak dari setiap program matematika. Saya
menghitung rata-rata untuk keempat kelompok ini, yang disajikan pada Gambar 11.4.
Cara yang disajikan dalam gambar dengan jelas menunjukkan bahwa meskipun anak laki-laki dan perempuan dalam
program matematika Tradisional memiliki nilai rata-rata yang sama pada tes matematika, anak perempuan melakukan jauh
lebih baik daripada anak laki-laki dalam program matematika Eksperimental. Ini adalah interaksi. Selain itu, karena anak
perempuan dalam program Eksperimental melakukannya dengan sangat baik pada tes matematika mereka, rata-rata
keseluruhan untuk kelompok Eksperimen secara signifikan lebih tinggi daripada rata-rata keseluruhan untuk kelompok
Tradisional, sehingga menciptakan efek utama untuk program matematika. Tetapi apakah masuk akal untuk mengatakan
bahwa siswa dalam program matematika Eksperimental melakukan tes lebih baik daripada siswa dalam program Tradisional?
Jelas, ini tidak berlaku untuk anak laki-laki, dan beberapa orang akan berpendapat bahwa akan menyesatkan untuk
menunjukkan efek utama program matematika karena efeknya hanya ada untuk anak perempuan, bukan anak laki-laki. Tidak
ada jawaban yang baik dan bersih untuk pertanyaan tentang bagaimana menginterpretasikan efek utama dengan adanya
interaksi yang signifikan. Saran saya adalah menyajikan sebanyak mungkin data dan kemudian menjelaskan dengan jelas apa
yang sedang terjadi. Dalam contoh yang disajikan pada Gambar 11.4, saya akan mengatakan yang berikut:
Machine Translated by Google

Analisis Faktorial Varians 125

90
80 anak laki-laki

Cewek-cewek

70
60
50
40
30
20
10
0

Tradisional Eksperimental
Jenis Program Matematika

Gambar 11.4 Interaksi gender menurut program matematika.

“Siswa dalam kelompok Eksperimen mendapat skor lebih tinggi pada tes matematika, rata-rata, daripada siswa dalam
kondisi Tradisional, tetapi efek utama dari kondisi matematika ini disebabkan oleh gender yang signifikan dengan
interaksi kondisi matematika. Sedangkan anak perempuan dalam kondisi matematika Eksperimental lebih baik daripada
anak perempuan dalam kelompok matematika Tradisional, tidak ada perbedaan untuk anak laki-laki di setiap kondisi.
Jadi, program matematika yang baru tampaknya berhasil dengan baik untuk anak perempuan tetapi memiliki pengaruh
yang kecil untuk anak laki-laki.”

Menguji Efek Sederhana


Setelah kami menemukan efek utama dan interaksi kami dalam ANOVA faktorial, kami dapat melakukan
satu set analisis terakhir untuk memeriksa efek sederhana. Metode yang digunakan untuk menghitung
efek sederhana dan menentukan apakah mereka signifikan secara statistik adalah analog dengan tes
post hoc yang dijelaskan dalam Bab 10. Analisis efek sederhana yang memungkinkan kita lakukan
adalah menguji apakah ada perbedaan yang signifikan dalam skor rata-rata dari setiap sel. Salah satu
manfaat dari analisis efek sederhana adalah memungkinkan kita untuk lebih memahami beberapa
kompleksitas dalam data kita, terutama bagaimana memahami efek interaksi yang signifikan.
Kembali ke data sampel yang disajikan pada Gambar 11.4, kita dapat melihat bahwa kita memiliki empat sel: anak
perempuan dalam program matematika Tradisional, Anak laki-laki Tradisional, anak perempuan Eksperimental, dan
anak
- laki-laki Eksperimental. Dengan analisis efek sederhana, kita dapat menguji apakah anak laki-laki dalam program
matematika Tradisional
dalam program ( X = 50)
- Eksperimental ( Xmemiliki nilai tes
= 35). Kami jugamatematika rata-rata
dapat menguji yang
apakah jauhlaki-laki
anak lebih tinggi daripada anak
dan perempuan laki-laki
dalam
program Tradisional
interaksi,berbeda
kita dapat
secara
menguji
signifikan.
apakahMungkin
anak perempuan
yang paling
dalam
penting
program
untukEksperimental
membantu kitamemiliki
memahamiskor efek
tes
matematika rata-rata yang lebih tinggi daripada siswa di masing-masing dari tiga kelompok lainnya. Untuk penjelasan
rinci tentang metode untuk menghitung efek sederhana, saya sarankan membaca Hinkle, Wiersma, dan Jurs (1998).

Analisis Kovarians
Sebelumnya dalam bab ini, saya menyarankan bahwa salah satu manfaat dari melakukan ANOVA
faktorial adalah memungkinkan kita untuk menentukan apakah kelompok-kelompok berbeda pada
beberapa variabel dependen sementara mengendalikan, atau memisahkan, efek dari variabel
independen lainnya. Konsep terkait erat yang berlaku untuk semua jenis ANOVA, termasuk pengukuran
satu arah, faktorial, dan berulang, adalah penggunaan kovariat dalam analisis ini. Dalam analisis
kovarians (ANCOVA), idenya adalah untuk menguji apakah ada perbedaan antara kelompok pada
variabel dependen setelah mengendalikan efek dari variabel yang berbeda, atau sekumpulan variabel.
Perbedaan antara ANCOVA dan jenis varians terkontrol yang saya jelaskan sebelumnya adalah
bahwa dengan ANCOVA, variabel yang kita kendalikan, atau sebagian efeknya, belum tentu merupakan variabel indepen
Mari saya jelaskan.
Machine Translated by Google

126 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Dalam contoh saya sebelumnya, saya dapat menguji apakah anak laki-laki dan perempuan berbeda dalam
jumlah tayangan televisi yang mereka tonton sambil mengontrol efek wilayah negara tempat mereka tinggal (variabel
independen kedua), serta interaksi antara dua variabel bebas. Namun dalam analisis ANCOVA, kita dapat mengontrol
pengaruh variabel selain variabel bebas. Misalnya, saya dapat menggunakan status sosial ekonomi (SES) sebagai
kovariat dan menguji apakah anak-anak di berbagai wilayah negara berbeda dalam jumlah televisi yang mereka
tonton setelahnya .
memilah-milah efek dari SES mereka. Misalkan sampel saya anak-anak dari Utara kurang kaya dibandingkan sampel
saya dari tiga daerah lain. Misalkan lebih jauh daripada anak-anak dari keluarga miskin cenderung menonton televisi
lebih banyak daripada anak-anak dari keluarga kaya. Karena itu, hasil penelitian saya sebelumnya yang menemukan
bahwa menonton televisi lebih banyak di antara anak-anak di wilayah Utara mungkin hanya karena fakta bahwa anak-
anak ini kurang kaya daripada anak-anak di wilayah lain. Dengan ANCOVA, saya dapat menguji apakah perbedaan
kebiasaan menonton anak-anak dari daerah yang berbeda disebabkan oleh perbedaan SES, atau apakah ada
perbedaan regional yang terlepas dari efek SES. Ini sangat berguna karena meskipun ANOVA faktorial hanya
memungkinkan kita untuk menggunakan variabel independen kategorikal (yaitu, skala nominal), dengan ANCOVA
kita juga dapat mengontrol efek variabel kontinu (yaitu, skala interval).

Ukuran Efek

Seperti yang saya lakukan di Bab 10, saya akan mengilustrasikan ukuran efek dalam ANOVA faktorial, bersama
dengan beberapa rincian tentang jumlah kuadrat, kuadrat rata-rata, dan nilai F , menggunakan output dari analisis
data saya sendiri menggunakan program perangkat lunak komputer SPSS. Dalam contoh ini, kepercayaan siswa
dalam kemampuan mereka untuk memahami dan berhasil menyelesaikan pekerjaan kelas bahasa Inggris mereka,
yang disebut di sini sebagai "kemanjuran diri," adalah variabel dependen. Saya ingin melihat apakah anak laki-laki
dan perempuan sekolah menengah berbeda dalam efikasi diri mereka (yaitu, efek utama untuk jenis kelamin),
apakah siswa dengan nilai rata-rata (IPK) yang relatif tinggi berbeda dari mereka dengan IPK yang relatif rendah
dalam efikasi diri mereka ( yaitu, efek utama untuk IPK), dan apakah ada interaksi antara jenis kelamin dan IPK pada
efikasi diri. Gender, tentu saja, adalah variabel bebas dua kategori. Untuk menjadikan IPK sebagai variabel dua
kategori, saya membagi siswa menjadi kelompok IPK tinggi dan rendah dengan membagi sampel menjadi dua
menggunakan IPK median. Peneliti sering membagi variabel kontinu menjadi variabel dengan dua atau tiga kategori
yang didefinisikan dengan rapi (misalnya, di bawah median dan di atas median; kelompok rendah, menengah, dan
tinggi). Ini memungkinkan saya untuk melakukan ANOVA faktorial 2 (gender) × 2 (IPK).
Self-efficacy diukur dengan menggunakan survei dengan skala 5 poin (1 = “tidak percaya diri sama sekali” dan 5 =
“sangat percaya diri”). Sampel saya terdiri dari 468 siswa SMA.
Hasil yang disajikan pada Tabel 11.2 dimulai dengan statistik deskriptif. Statistik ini disajikan secara terpisah
oleh subkelompok (misalnya, anak perempuan berprestasi rendah, anak perempuan berprestasi tinggi, semua
gabungan anak perempuan, anak laki-laki berprestasi rendah). Sarana dan standar deviasi yang disajikan adalah
untuk variabel terikat, efikasi diri. Dengan melirik rata-rata, kita dapat melihat bahwa anak laki-laki dalam sampel
kami melaporkan perasaan self-efficacy rata-rata sedikit lebih tinggi daripada anak perempuan, dan perbedaan ini
tampaknya terbesar di antara anak laki-laki dan perempuan dalam kelompok IPK rendah.
Mengalihkan perhatian kita ke hasil ANOVA, ada sejumlah fitur penting yang perlu diperhatikan. Di kolom paling
kiri berjudul “Sumber”, terdapat berbagai sumber variasi efikasi diri. Ini adalah cara yang berbeda bahwa varians dari
variabel dependen, self-efficacy, diiris oleh variabel independen. Sumber pertama disebut “Model yang Dikoreksi”.
Ini adalah kombinasi dari semua efek utama dan interaksi. Jika kovariat digunakan, efek ini akan dimasukkan dalam
statistik "Model yang Dikoreksi". Membaca dari kiri ke kanan, kita dapat melihat bahwa model lengkap memiliki
jumlah kuadrat (11,402), yang bila dibagi dengan tiga derajat dom bebas (“df ”) menghasilkan “Mean Square” sebesar
3,801. Ketika kita membaginya dengan kesalahan kuadrat rata-rata beberapa baris ke bawah (MSe = 0,649), kita
mendapatkan nilai F 5,854. Ini memiliki "Sig." dari .001 (dengan kata lain, p < .001). Karena nilai ini kurang dari 0,05
(lihat Bab 7), model keseluruhan secara statistik signifikan. Tetapi apakah itu secara praktis signifikan? Di kolom
terakhir berlabel “Eta Squared,” kita dapat melihat bahwa model keseluruhan hanya menyumbang 3,6% dari varians
dalam skor self-handicapping.
Machine Translated by Google

Analisis Varians Faktorial 127

Tabel 11.2 Hasil SPSS Gender Berdasarkan IPK Faktorial ANOVA


Std.
Rata-rata IPK Jenis Kelamin Deviasi n

Gadis 1,00 3,6667 ,7758 121


2.00 4.0050 .7599 133
Jumlah 3.8438 .7845 254

Anak laki-laki
1,00 3,9309 ,8494 111
2,00 4,0809 ,8485 103
Jumlah 4.0031 .8503 214

Total 1,00 3,7931 .8208 232


2.00 4.0381 .7989 236
Jumlah 3,9167 ,8182 468

Hasil ANOVA

Tipe III
Jumlah dari Berarti
Sumber kotak df Kotak F Tanda tangan. Eta kuadrat
Model yang dikoreksi 11.402 3 3.801 5.854 .001 .036
Mencegat 7129.435 1 7129.435 10981.566 0,000 0,959
Jenis kelamin 3.354 1 3.354 5.166 .023 .011
IPK 6.912 1 6.912 10.646 .001 .022
Jenis Kelamin × IPK 1.028 1 1.028 1.584 .209 .003
Kesalahan 301.237 464 .649
Total 7491.889 468
Total terkoreksi 312.639 467
Machine Translated by Google

128 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

jadi dengan memperhitungkan efek lain dalam model. Jadi ketika jumlah kuadrat untuk efek gender
dihitung, misalnya, efek IPK dan efek interaksi gender berdasarkan IPK telah dipilah. Hal ini
memungkinkan kita untuk menentukan efek unik dari setiap efek utama dan efek interaksi. Kedua,
perhatikan bahwa nilai F untuk setiap efek diperoleh dengan membagi kuadrat rata-rata untuk efek
tersebut dengan kesalahan kuadrat rata-rata. Ini adalah cara yang sama nilai F dihitung dalam
ANOVA satu arah yang dibahas dalam Bab 10.

Contoh: Kinerja, Pilihan, dan Evaluasi Publik versus Swasta


Dalam sebuah penelitian yang diterbitkan pada tahun 1987, Jerry Burger, seorang profesor psikologi
di Santa Clara University, meneliti efek dari pilihan dan evaluasi publik versus swasta pada kinerja
mahasiswa pada tugas pemecahan anagram. Eksperimen ini melibatkan satu variabel dependen
dan dua variabel kategoris independen. Variabel terikat adalah jumlah anagram yang diselesaikan
oleh peserta dalam periode 2 menit. Salah satu variabel bebasnya adalah apakah peserta dapat
memilih jenis tes yang akan mereka lakukan. Ada 55 peserta dalam penelitian ini.
Sekitar setengah dari ini secara acak dimasukkan ke dalam kelompok "pilihan". Kelompok ini
diberitahu bahwa mereka dapat memilih satu tes untuk dilakukan dari kelompok tiga tes yang
berbeda. Kelompok "tidak ada pilihan" diberitahu bahwa mereka akan secara acak ditugaskan salah
satu tes. Faktanya, kelompok “pilihan” dan “tidak ada pilihan” mengerjakan tes yang sama, tetapi
kelompok pilihan diberi persepsi bahwa mereka telah memilih jenis tes yang akan mereka kerjakan.
Jadi variabel bebas pertama ini memiliki dua kategori: Pilihan dan tidak ada pilihan. Variabel
independen kedua juga memiliki dua kategori: publik versus swasta. Peserta diberitahu bahwa skor
tes dan peringkat mereka akan dibacakan, bersama dengan nama mereka (kondisi publik), atau
bahwa nilai tes dan peringkat akan dibacakan tanpa mengidentifikasi nama peserta tes (kondisi
pribadi). Peserta secara acak ditugaskan ke kelompok publik atau swasta juga. Model ANOVA yang
dihasilkan untuk percobaan ini adalah ANOVA faktorial 2 (pilihan vs. tidak ada pilihan) × 2 (umpan balik publik vs. priba
Jumlah rata-rata anagram yang diselesaikan oleh anggota setiap kelompok disajikan pada Tabel
11.3. Cara-cara ini juga digambarkan dalam Gambar 11.5. Burger menemukan efek utama untuk
variabel bebas pilihan, sehingga peserta yang mengira mereka diberi pilihan jenis tes mana yang
akan diambil, rata-rata memecahkan lebih banyak anagram daripada mereka yang tidak diberi jawaban.

Tabel 11.3 Rata-rata Jumlah Anagram yang Dipecahkan untuk Empat Kelompok Perlakuan

Publik Pribadi

Pilihan Tidak Pilihan Pilihan Tidak Pilihan

Jumlah anagram yang dipecahkan 19.50 14.86 14,92 15.36

25
Publik
Pribadi
20

15

10

0
Pilihan Tidak ada pilihan

Gambar 11.5 Interaksi pilihan oleh evaluasi publik vs swasta.


Machine Translated by Google

Analisis Varians Faktorial 129

pilihan. Selain itu, Burger menemukan bahwa peserta dalam kondisi Evaluasi Publik rata-rata memecahkan
lebih banyak anagram daripada peserta dalam kondisi umpan balik pribadi. Ini adalah efek utama kedua yang
signifikan. Akhirnya, ia menemukan interaksi antara dua variabel independen.
Jika Anda melihat lebih dekat rata-rata pada Tabel 11.3 dan Gambar 11.5, Anda dapat melihat bahwa tiga dari
empat kelompok memiliki rata-rata yang sangat mirip. Hanya kelompok publik/pilihan yang tampaknya telah
memecahkan jumlah anagram yang jauh lebih besar daripada siswa dalam tiga kelompok lainnya. Saya dapat
melakukan tes efek sederhana untuk menentukan apakah siswa dalam kelompok Publik/Pilihan mendapat skor
yang jauh lebih tinggi daripada siswa dalam kelompok Umum/Tanpa Pilihan.
Dalam contoh ini, adanya interaksi yang signifikan menimbulkan pertanyaan tentang bagaimana menafsirkan
efek utama yang signifikan secara statistik. Perhatikan bahwa Burger menemukan efek utama untuk pilihan,
dengan siswa dalam dua kelompok pilihan yang digabungkan memecahkan lebih banyak anagram, rata-rata,
daripada gabungan siswa dalam dua kelompok tanpa pilihan . Masalahnya di sini adalah kita dapat melihat
bahwa siswa di kelompok Privat/Pilihan tidak mendapat nilai lebih tinggi daripada siswa di kelompok Privat/
Tanpa Pilihan, dan memiliki nilai yang sangat mirip dengan siswa di kelompok Umum/Tanpa Pilihan. Oleh
karena itu, efek utama untuk pilihan versus tidak ada pilihan ini sepenuhnya disebabkan oleh skor Publik/Publik yang relatif tinggi.
Kelompok pilihan. Jadi ketika Burger menyatakan bahwa peserta memecahkan lebih banyak anagram rata-rata
ketika mereka diberi pilihan daripada peserta yang tidak punya pilihan, dia harus dengan hati-hati menunjukkan
bahwa ini hanya berlaku untuk siswa dalam kondisi publik. Demikian pula, efek utama untuk publik atas swasta
juga disebabkan semata-mata oleh skor yang tinggi dari kelompok Publik/Pilihan. Dengan memperhatikan
bahwa ada interaksi yang signifikan dari dua variabel independen, Burger pada dasarnya memberi tahu
pembacanya bahwa mereka harus menafsirkan efek utama dengan sangat hati-hati. Jika kita hanya
menyimpulkan bahwa siswa tampil lebih baik ketika diberi pilihan, atau ketika kinerja mereka dipublikasikan, kita
akan kehilangan seluk-beluk ceritanya.

Menulis Itu
Saat menulis hasil ANOVA faktorial untuk publikasi, penting untuk menyebutkan semua efek utama dan interaksi,
bersama dengan nilai F yang relevan dan derajat kebebasan (df ) untuk masing-masing. Misalnya, jika kita
menulis hasil studi Burger (1987) yang dijelaskan di atas, kita dapat menulis sebagai berikut: “Kami melakukan
2 (pilihan vs tidak ada pilihan) dengan 2 (publik vs. swasta) faktorial ANOVA untuk memeriksa efek utama dan
efek interaksi pilihan dan konteks pada jumlah anagram yang diselesaikan dengan benar. Analisis ini
mengungkapkan pengaruh utama yang signifikan untuk kondisi pilihan (F(1,51) = 12,72, p < .001) dan untuk
kondisi publik-swasta (F(1,51) = 14,10, p < .001). Siswa dalam kondisi publik (M = 17,17) memecahkan lebih
banyak anagram, pada usia rata-rata, daripada siswa dalam kondisi privat (M = 15,15), dan siswa dalam kondisi
pilihan (M = 17,20) memecahkan lebih banyak anagram daripada peserta dalam kondisi tidak ada - kondisi
pilihan (M = 15.11), rata-rata. Efek utama ini dimoderasi oleh adanya efek interaksi yang signifikan (F(1,51) =
17,62, p <.001). Rerata untuk setiap kelompok disajikan pada Tabel 11.3 dan Gambar 11.5.

Mereka mengungkapkan bahwa peserta dalam kondisi Publik/Pilihan memecahkan lebih banyak anagram, rata-
rata, daripada peserta dalam tiga kondisi lainnya, dan tiga kondisi lainnya tidak jauh berbeda dalam jumlah
anagram yang dipecahkan.

Mengakhiri dan Menantikan


Dalam bab ini kami dapat memperluas apa yang kami pelajari tentang ANOVA di Bab 10 dalam tiga cara
penting. Pertama, kami menambahkan konsep beberapa variabel independen. Dengan memiliki lebih dari satu
variabel bebas dalam model, kita dapat membagi lebih halus, dan menjelaskan, varians dalam variabel terikat.
Kedua, kami menguji konsep mengontrol atau memilah pengaruh variabel lain dalam model, termasuk kovariat,
untuk mendapatkan gambaran yang lebih baik tentang hubungan unik antara variabel independen dan variabel
dependen. Akhirnya dalam bab ini, kami mempertimbangkan pentingnya interaksi statistik. Ketiga konsep ini
memberikan
Machine Translated by Google

130 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

petunjuk tentang kekuatan luar biasa dari banyak teknik statistik yang berbeda untuk mengeksplorasi
hubungan antar variabel. Dalam ilmu sosial, seperti di kebanyakan bidang, variabel terkait satu sama lain
dengan cara yang sangat kompleks. Kita hidup di dunia yang kompleks. Meskipun uji t dan ANOVA satu arah
adalah teknik statistik yang berguna, sering kali tidak dapat menguji pertanyaan yang paling menarik dalam
ilmu sosial. Ini adalah dunia interaksi yang berantakan, varians bersama, dan banyak prediksi yang membuat
kehidupan statistik menjadi kehidupan yang layak untuk dijalani. Jadi meskipun konsep-konsep dalam
beberapa bab terakhir ini mungkin tampak sedikit lebih sulit daripada yang dibahas sebelumnya dalam buku
ini, mereka membayar dividen yang besar ketika akhirnya dipahami. Dalam bab berikutnya, kita memasuki
dunia ANOVA pengukuran berulang yang kompleks namun sangat menarik.

Daftar Istilah untuk Bab 11


Analisis kovarians (ANCOVA): Analisis varians dilakukan dengan kovariat. Ini adalah analisis yang dilakukan
untuk menguji perbedaan antara rata-rata kelompok setelah memilah varians yang disebabkan oleh
kovariat.
Ukuran sel: Jumlah kasus di setiap subkelompok analisis.
Kovariat (s): Sebuah variabel, atau kelompok variabel, yang digunakan untuk mengontrol, atau menjelaskan,
sebagian varians dalam variabel dependen, sehingga memungkinkan peneliti untuk menguji
perbedaan kelompok sambil mengendalikan efek kovariat.
Faktorial ANOVA: Analisis varians dengan setidaknya dua variabel independen kategori.
Homogenitas varians: Sebuah asumsi dari semua model ANOVA bahwa tidak ada perbedaan yang
signifikan secara statistik dalam varians dalam kelompok pada variabel dependen antara kelompok
yang dibandingkan.
Interaksi (efek): Ketika hubungan antara variabel dependen dan satu variabel independen dimoderatori
oleh variabel independen kedua. Dengan kata lain, ketika pengaruh satu variabel independen
terhadap variabel dependen berbeda pada berbagai tingkat variabel independen kedua.

Efek utama: Ini adalah efek untuk setiap variabel independen terhadap variabel dependen. Dengan kata lain,
perbedaan antar kelompok berarti untuk setiap variabel bebas terhadap variabel terikat.

Moderator: Ketika hubungan antara variabel dependen dan satu variabel independen berbeda menurut
tingkat variabel independen kedua, variabel independen kedua bertindak sebagai variabel
moderator. Ini adalah variabel yang memoderasi, atau mempengaruhi, hubungan antara variabel
dependen dan variabel independen.
Efek parsial dan terkontrol: Ketika varians bersama, atau dijelaskan, antara variabel dependen dan variabel
independen (atau kovariat) dipertahankan konstan, sehingga memungkinkan peneliti untuk
memeriksa perbedaan kelompok bersih dari efek terkontrol.
Efek sederhana: Perbedaan antara rata-rata setiap subkelompok dalam ANOVA faktorial.
(Sebuah subkelompok melibatkan pembagian variabel independen menjadi kelompok-kelompok yang lebih kecil.
Misalnya, jika etnisitas adalah salah satu variabel independen, misalnya, Afrika-Amerika, Asia-
Amerika, dan Hispanik-Latino, dan jenis kelamin adalah variabel lain, maka setiap kelompok etnis
memiliki dua subkelompok, misalnya, perempuan Afrika-Amerika dan laki-laki Afrika-Amerika. )

Bacaan yang Direkomendasikan

Burger, JM (1987). Peningkatan kinerja dengan peningkatan kontrol pribadi: Sebuah interpretasi
presentasi diri. Jurnal Psikologi Sosial Eksperimental, 23, 350-360.
Iverson, GR, & Norpoth, H. (1987). Analisis varians (2nd ed.) Newbury Park, CA: Sage.
Wildt, AR, & Ahtola, PL (1978). Analisis kovarians. Beverly Hills, CA: Sage.
Hinkle, DE, Wiersma, W., & Jurs, SG (1998). Statistik terapan untuk ilmu perilaku (edisi ke-4).
Boston: Houghton Mifflin.
Machine Translated by Google

Bab 12
Analisis Varians Pengukuran Berulang

Salah satu jenis uji t yang dibahas dalam Bab 9 adalah uji t berpasangan. Salah satu jenis studi di mana uji
t berpasangan akan digunakan adalah ketika kita memiliki dua skor untuk satu kelompok pada satu ukuran.
Misalnya, jika kami memiliki sekelompok siswa kelas tiga dan kami memberi mereka tes kemampuan
matematika mereka di awal tahun ajaran dan sekali lagi di akhir tahun ajaran, kami akan memiliki satu
kelompok (siswa kelas tiga) dengan dua skor pada satu ukuran (tes matematika). Dalam situasi ini, kita
juga dapat menggunakan analisis varians ukuran berulang (ANOVA) untuk menguji apakah nilai siswa
pada tes matematika berbeda pada awal dan akhir tahun akademik.
Namun , ANOVA ukuran berulang memiliki sejumlah keunggulan dibandingkan uji t berpasangan .
Pertama, dengan ANOVA ukuran berulang, kita dapat menguji perbedaan pada variabel dependen yang
telah diukur pada lebih dari dua titik waktu, sedangkan dengan uji t independen kita hanya dapat
membandingkan skor pada variabel dependen dari dua titik waktu. Kedua, seperti yang dibahas dalam Bab
11 tentang ANOVA faktorial, dengan ANOVA ukuran berulang kita dapat mengontrol efek dari satu atau
lebih kovariat, dengan demikian melakukan analisis kovarians ukuran berulang (ANCOVA).
Ketiga, dalam ANOVA ukuran berulang, kita juga dapat memasukkan satu atau lebih variabel kategori
atau kelompok independen. Jenis model campuran ini adalah teknik yang sangat berguna dan akan
dibahas secara rinci nanti dalam bab ini.

Kapan Menggunakan Setiap Jenis Teknik Tindakan Berulang


Bentuk paling dasar dari ANOVA ukuran berulang terjadi ketika ada satu kelompok (misalnya, siswa kelas
tiga) dengan dua nilai (misalnya, awal tahun, akhir tahun) pada satu variabel terikat (misalnya, tes
matematika ). Ini adalah model yang sangat umum yang sering digunakan dalam eksperimen laboratorium
sederhana. Misalnya, saya ingin tahu apakah minum alkohol memengaruhi waktu reaksi orang dewasa
saat mengemudi. Saya dapat mengambil sekelompok 50 orang dewasa dan menguji waktu reaksi berhenti
mereka dengan menyalakan lampu merah pada masing-masing dari mereka ketika mereka mengemudi
dan mengukur berapa lama waktu yang dibutuhkan masing-masing untuk mengerem. Setelah menghitung
jumlah usia rata-rata waktu yang dibutuhkan kelompok ini untuk mengerem saat sadar, saya kemudian
dapat meminta setiap anggota kelompok saya untuk mengonsumsi dua minuman beralkohol dan kemudian
menguji lagi waktu reaksi mereka saat mengemudi, dengan menggunakan metode yang sama. Dalam
contoh ini, saya memiliki satu grup (50 orang dewasa) dengan dua skor pada satu variabel dependen
(waktu reaksi saat mengemudi). Setelah pengukuran waktu reaksi kedua, saya dapat meminta setiap
peserta saya untuk mengonsumsi dua minuman beralkohol lagi dan menguji waktu reaksi mereka lagi.
Sekarang saya memiliki tiga ukuran waktu reaksi yang dapat saya gunakan dalam ANOVA pengukuran
berulang saya. Perhatikan bahwa variabel terikat saya selalu sama (waktu reaksi), dan kelompok saya
selalu sama (sampel 50 orang dewasa). Hasil ANOVA pengukuran berulang saya akan memberi tahu saya
apakah, rata-rata, ada perbedaan waktu reaksi di ketiga percobaan saya (Gambar 12.1). Jika ada, saya
mungkin secara logis menyimpulkan bahwa minum alkohol mempengaruhi waktu reaksi, meskipun mungkin
ada penjelasan lain untuk hasil saya (misalnya, peserta saya mungkin lelah atau bosan dengan eksperimen,
mereka mungkin terbiasa dengan situasi pengujian, dll. .).

131
Machine Translated by Google

132 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

3.5

2.5

1.5

0,5

0
0 Minuman (T1) 2 Minuman (T2) 4 Minuman (T3)

Jumlah Minuman (yaitu, percobaan, atau waktu)

Gambar 12.1 Mengemudikan waktu reaksi selama tiga percobaan dengan peningkatan minuman.

Dalam bentuk uji waktu reaksi yang sedikit lebih maju, saya dapat menyertakan kovariat. Pada contoh
sebelumnya, misalkan saya menemukan waktu reaksi tercepat ketika peserta saya sadar, sedikit lebih lambat
setelah dua minuman, dan jauh lebih lambat setelah empat minuman. Misalkan saya mempublikasikan hasil ini
dan perusahaan bir, anggur, dan minuman keras nasional menjadi khawatir bahwa, karena penelitian saya, orang
akan berhenti minum produk mereka karena takut mengalami kecelakaan mobil. Produsen minuman beralkohol
ini mulai mengkritik penelitian saya. Mereka menyarankan bahwa karena jumlah alkohol yang sama umumnya
memiliki efek yang lebih besar pada mereka yang memiliki berat badan kurang dari pada orang yang lebih berat,
hasil saya mungkin telah dicondongkan oleh efek alkohol pada orang yang lebih ringan dalam penelitian saya.
“Meskipun efek dari dua minuman beralkohol dapat mengganggu waktu reaksi orang yang lebih ringan, bahkan
empat minuman beralkohol tidak akan mengganggu waktu reaksi orang yang lebih berat,” kata United Alcohol
Makers of America (kelompok fiktif).
Tersengat oleh kritik dari UAMA, saya memutuskan untuk mereplikasi studi saya, tapi kali ini saya menggunakan
bobot sebagai kovariat. Sekali lagi, saya mengukur waktu reaksi peserta saat mengemudi dalam keadaan sadar
sepenuhnya, setelah dua minuman beralkohol, dan setelah empat minuman beralkohol. Selain itu, kali ini saya
menimbang setiap peserta saya. Sekarang ketika saya menganalisis data saya, saya menyertakan kovariat berat
badan saya. Saya menemukan bahwa, setelah mengontrol, atau memisahkan efek berat badan, tidak ada
perbedaan dalam waktu reaksi peserta sebelum mereka minum dan setelah mereka minum dua kali, tetapi setelah
empat kali minum, peserta saya bereaksi lebih lambat, rata-rata. , daripada yang mereka lakukan setelah nol atau
dua minuman (Gambar 12.2). Hasil ini menunjukkan bahwa minum dapat meningkatkan waktu reaksi orang yang
lebih ringan setelah hanya dua minuman, tetapi tampaknya mengganggu waktu reaksi orang, terlepas dari
beratnya, setelah empat minuman.

3.5

2.5

1.5

0,5

0
0 Minuman (T1) 2 Minuman (T2) 4 Minuman (T3)
Jumlah Minuman

Gambar 12.2 Mengemudikan waktu reaksi selama tiga percobaan, mengontrol berat.
Machine Translated by Google

Analisis Varians Pengukuran Berulang 133

3.5
Wanita
3 Pria

2.5

1.5

0,5

0
0 Minuman (T1) 2 Minuman (T2) 4 Minuman (T3)
Jumlah Minuman

Gambar 12.3 Mengemudikan waktu reaksi selama tiga percobaan berdasarkan jenis kelamin, mengontrol berat badan.

Masih terganggu oleh hasil saya, UAMA menunjukkan bahwa hasil saya miring karena saya tidak melihat
efek minum pada waktu reaksi secara terpisah untuk pria dan wanita. “Wanita lebih terpengaruh secara dramatis
oleh alkohol daripada pria, berapa pun beratnya,” klaim UAMA. Mereka berpendapat bahwa meski mengonsumsi
empat minuman beralkohol dapat memperlambat waktu reaksi wanita, hal itu tidak akan berpengaruh pada pria
berbobot. Meskipun saya meragukan argumen bahwa pria berat harus dilindungi haknya untuk minum dan
mengemudi, atas nama sains saya memutuskan untuk melakukan satu studi terakhir. Dalam penelitian ini, lagi-
lagi dengan 50 orang dewasa (25 wanita dan 25 pria) dari berbagai bobot, saya kembali menguji waktu reaksi
mereka saat mengemudi setelah nol, dua, dan empat minuman beralkohol. Sekarang saya memiliki satu
variabel terikat (waktu reaksi) yang diukur pada tiga titik waktu, satu kovariat (berat), dan satu variabel kelompok
independen (jenis kelamin peserta). Perhatikan bahwa meskipun jumlah minuman secara teknis merupakan
variabel independen, itu bukan variabel kategoris, atau kelompok. Dengan kata lain, saya tidak memiliki tiga
kelompok independen (kelompok tanpa minuman, kelompok dua minuman, dan kelompok empat minuman).
Sebaliknya, saya memiliki tiga ukuran dependen, atau berulang, dari variabel dependen yang sama, waktu
reaksi.
Ketika saya memeriksa hasil penelitian saya, saya menemukan bahwa, setelah mengontrol efek kovariat
(berat) saya, masih tidak ada perbedaan waktu reaksi yang diukur setelah nol dan dua minuman, tetapi waktu
reaksi masih lebih lambat, rata-rata, setelah empat minuman. Selain itu, saya tidak menemukan interaksi antara
jenis kelamin dan jumlah minuman pada waktu reaksi. Ini memberi tahu saya bahwa baik pria maupun wanita
memiliki waktu reaksi yang lebih lambat setelah empat kali minum, berapa pun beratnya (lihat Gambar 12.3).
Untuk meringkas, tiga ANOVA pengukuran berulang saya yang berbeda menghasilkan hasil berikut. Yang
pertama menemukan bahwa waktu reaksi orang dewasa saat mengemudi lebih lambat, rata-rata, setelah dua
kali minum dan lebih lambat lagi setelah empat kali minum. Tes kedua saya termasuk kovariat berat, dan saya
menemukan bahwa ketika kita mengontrol efek berat, waktu reaksi tidak lebih lambat setelah dua minuman
tetapi lebih lambat setelah empat minuman. Akhirnya, dalam analisis ketiga saya, saya memeriksa apakah
perubahan waktu reaksi setelah dua dan empat minuman, ketika mengontrol berat badan, berbeda untuk pria
dan wanita. Saya menemukan bahwa itu tidak. Ketiga analisis ini memberikan gambaran tentang cara kerja
ANOVA pengukuran berulang dan informasi apa yang dapat diberikannya. Sekarang mari kita lihat lebih dekat
cara kerjanya.

ANOVA Pengukuran Berulang dalam Kedalaman

ANOVA ukuran berulang diatur oleh prinsip umum yang sama seperti semua teknik ANOVA. Seperti halnya
ANOVA satu arah dan ANOVA faktorial, dalam ANOVA pengukuran berulang kita memperhatikan pembagian
varians dalam variabel dependen. Ingat bahwa dalam satu cara ANOVA, kami memisahkan total varians dalam
variabel dependen menjadi dua bagian: yang disebabkan oleh perbedaan antara kelompok, dan yang disebabkan
oleh perbedaan antara individu dalam kelompok yang sama (alias, varians kesalahan). Dalam ANOVA
pengukuran berulang tanpa
Machine Translated by Google

134 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 12.1 Skor Tes Kosakata di Dua Titik Waktu


Skor Tes Nomor Kasus, Skor Tes Waktu 1 (Kelas Tiga), Waktu 2 (Kelas Empat)
1 40 60
2 55 55
3 60 70
4 40 45
5 75 70
6 80 85
7 65 75
8 40 60
9 20 35
10 45 60
- -
Percobaan (atau waktu) X = 51,5 X = 61.6
rata-rata

variabel kelompok independen, kami masih tertarik pada varians kesalahan. Namun, kami juga ingin mengetahui
berapa banyak varians total yang dapat dikaitkan dengan waktu, atau percobaan. Artinya, berapa banyak varians
total dalam variabel dependen disebabkan oleh perbedaan dalam individu
sepanjang waktu mereka diukur pada variabel dependen.
Pertimbangkan sebuah contoh. Misalkan saya tertarik untuk meneliti apakah sekelompok siswa meningkatkan
pengetahuan dan keterampilan mereka dari satu tahun ajaran ke tahun berikutnya. Untuk melakukan ini, saya
memberikan sampel saya tes standar kosakata (dengan kemungkinan kisaran 1 sampai 100), sekali ketika mereka
menyelesaikan kelas tiga dan lagi ketika mereka menyelesaikan kelas empat. Ketika saya melakukan ini, misalkan
saya mendapatkan data yang disajikan pada Tabel 12.1.
Untuk masing-masing dari 10 kasus pada Tabel 12.1, kami memiliki dua nilai tes, sehingga total 20 nilai dalam
tabel. Kita bisa menemukan rata-rata untuk 20 skor ini, dan standar deviasi, dan varians.
Dalam ANOVA ukuran berulang, kami ingin mencoba mempartisi total varians ini menjadi bagian yang berbeda.
Dalam bentuk paling dasar dari ANOVA ukuran berulang, ada tiga cara kita dapat mengiris varians ini. Pertama, ada
porsi varians yang disebabkan oleh deviasi skor antara kasus-kasus individual dalam sampel. Untuk setiap kasus
dalam sampel kami, kami memiliki dua skor (satu untuk Waktu 1 dan satu untuk Waktu 2). Kita dapat menemukan
rata-rata dari dua skor ini, untuk setiap individu, dan kemudian melihat seberapa besar perbedaan rata-rata individu
ini dari rata-rata keseluruhan. Pada Tabel 12.1, misalnya, kasus pertama memiliki skor rata-rata 50 di dua percobaan
(40 + 60 2 = 50). Rata-rata keseluruhan untuk skor dalam tabel adalah 56,75. Jadi ada beberapa variasi dalam skor
rata-rata dari 10 individu dalam sampel. Ini adalah salah satu sumber variasi.

Sumber variasi kedua dalam skor melibatkan varians dalam mata pelajaran, atau perbedaan, antara skor
Waktu 1 dan Waktu 2. Seperti yang dapat kita lihat dengan melihat skor pada Tabel 12.1 dan pada Gambar 12.4,
tampak bahwa siswa pada umumnya memiliki skor yang berbeda pada tes pada Waktu 1 daripada yang mereka
lakukan pada Waktu 2. Perbedaan intra-individu, atau dalam mata pelajaran ini antara Skor Time 1 dan Time 2 lebih
mudah dilihat pada grafik yang disajikan pada Gambar 12.4. Perubahan intra-individu ini mencerminkan perbedaan,
atau varians, dalam setiap individu, dan karena itu disebut efek dalam subjek. Yang kami minati adalah apakah, rata-
rata, skor individu berbeda pada Waktu 1 (di kelas tiga) dibandingkan pada Waktu 2 (di kelas empat).

Perhatikan bahwa kami menanyakan apakah ada perbedaan skor antara Waktu 1 dan Waktu 2 rata-rata. Jika skor
beberapa kasus naik dari Waktu 1 ke Waktu 2, tetapi skor kasus lain turun dengan jumlah yang sama, maka
perubahan ini akan membatalkan satu sama lain, dan tidak akan ada perbedaan rata -rata antara Waktu 1 dan skor
Waktu 2. Tetapi jika skornya naik atau turun rata-rata antara Waktu 1 dan Waktu 2, maka kita dapat mengatakan
bahwa beberapa variasi total dapat disebabkan oleh perbedaan dalam mata pelajaran sepanjang waktu.
Machine Translated by Google

Analisis Varians Pengukuran Berulang 135

90

80

70

60

50

40

30

20
Waktu 1
10
Waktu 2
0
123456789 10
mata pelajaran

Gambar 12.4 Nilai tes Time 1 dan Time 2.

Melihat skor pada Tabel 12.1 dan Gambar 12.4 menunjukkan bahwa skor tampak meningkat dari Waktu 1
ke Waktu 2. Untuk memeriksa apakah ada perbedaan skor rata-rata sepanjang waktu, yang perlu kita
lakukan hanyalah menghitung skor rata-rata pada setiap waktu dan temukan perbedaan antara skor rata-
rata ini dan rata-rata keseluruhan. Pada paragraf sebelumnya, kami menemukan bahwa skor rata-rata
keseluruhan adalah 56,75. Pada Tabel 12.1, kita dapat melihat bahwa rata-rata untuk Waktu 1 adalah
51,5, dan skor rata-rata untuk Waktu 2 adalah 61,5. Jadi kita dapat melihat bahwa ada beberapa perbedaan
dalam nilai rata-rata pada dua waktu (yaitu, kelas tiga dan empat), menunjukkan bahwa mungkin ada efek
dalam mata pelajaran.
Sumber variasi ketiga dalam skor berasal dari interaksi antara skor dalam mata pelajaran dan
perbedaan skor di seluruh mata pelajaran. Meskipun tampaknya skor anggota dalam penelitian kami
meningkat, rata-rata, dari Waktu 1 ke Waktu 2, tampaknya perubahan dalam mata pelajaran ini dari waktu
ke waktu sama di semua mata pelajaran dalam sampel. Seperti yang ditunjukkan oleh Gambar 12.4
dengan jelas, beberapa mata pelajaran mengalami peningkatan besar dalam nilai tes mereka dari Waktu
1 ke Waktu 2 (misalnya, Mata pelajaran 1, 8, 9, dan 10), sedangkan yang lain mengalami peningkatan
yang lebih kecil, satu tidak ada perubahan (Subjek 2) dan satu benar-benar memiliki skor yang lebih rendah
pada Waktu 2 (Subjek 5). Jadi tampaknya ada kasus, atau subjek, dengan interaksi waktu. Dengan kata
lain, besar kecilnya peningkatan nilai ujian dari kelas tiga ke kelas empat tergantung pada mata pelajaran
yang kita lihat. Perbedaan antara subjek dalam besarnya perubahan dari Waktu 1 ke Waktu 2 merupakan
sumber ketiga varians.
Dengan menggunakan ketiga sumber varians ini, kita kemudian dapat menghitung rasio F dan
menentukan apakah ada perbedaan yang signifikan secara statistik dalam skor rata-rata pada Waktu 1
dan skor rata-rata pada Waktu 2. Untuk melakukan ini, kita membagi kuadrat rata-rata untuk perbedaan
antara percobaan, atau waktu, rata-rata (MST) dengan kuadrat rata-rata untuk subjek dengan interaksi
percobaan (MSS × T). Rasio derajat kebebasan F adalah jumlah percobaan dikurangi 1 (T – 1) dan (T – 1)(S – 1), di mana S
mewakili jumlah subjek dalam sampel. Apa yang kita dapatkan ketika kita menghitung rasio F ini adalah
jawaban untuk pertanyaan berikut: Seberapa besar perbedaan antara skor rata-rata pada Waktu 1 dan
Waktu 2 relatif terhadap (yaitu, dibagi dengan) jumlah rata-rata variasi antara mata pelajaran dalam
perubahan mereka dari Waktu 1 ke Waktu 2? Karena perbedaan dalam tingkat perubahan sepanjang
waktu hanya dianggap sebagai fluktuasi acak di antara individu, rasio F ini , seperti semua rasio F , adalah
ukuran varians sistematis dalam skor dibagi dengan varians acak dalam skor. (Catatan: Untuk pembahasan
lebih rinci tentang sumber varians ini, termasuk cara menghitung jumlah kuadrat untuk setiap sumber, lihat
Glass dan Hopkins, 1996.)
Dalam bentuk paling dasar dari ANOVA ukuran berulang ini, perhatikan bahwa yang menjadi perhatian
utama kita adalah apakah ada pola perbedaan yang sistematis dalam individu, atau subjek,
Machine Translated by Google

136 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

dalam skor pada variabel dependen diukur pada dua titik waktu. Perhatikan juga bahwa jika kita memiliki tiga
poin data (misalnya, nilai ujian dari kelas tiga, empat, dan lima), pertanyaan kita akan tetap sama: Apakah
ada pola perbedaan nilai dalam mata pelajaran dari waktu ke waktu? Ingatlah bahwa ketika saya mengatakan
"pola" atau "pola sistematis", maksud saya rata -rata. Jadi, untuk mengulang pertanyaan, ANOVA ukuran
berulang sederhana dapat membantu kami mendeteksi apakah, rata-rata, skor berbeda dalam subjek di
beberapa titik pengumpulan data pada variabel dependen. Jenis ANOVA ukuran berulang sederhana ini
kadang-kadang disebut sebagai desain dalam mata pelajaran.

Analisis Kovarians Pengukuran Berulang (ANCOVA)


Bentuk ANOVA ukuran berulang yang sedikit lebih rumit dapat dihasilkan dengan menambahkan satu atau
lebih kovariat ke model. Seperti yang dibahas sebelumnya dalam bab ini, serta dalam Bab 11 tentang ANOVA
faktorial, kovariat dapat digunakan untuk memisahkan sebagian varians dalam variabel dependen. Saya
mengilustrasikan cara kerjanya dengan kembali ke contoh data yang disajikan pada Tabel 12.1.

Orang dapat berargumen bahwa hasil ANOVA ukuran berulang saya dicondongkan oleh nilai siswa yang
lebih cerdas dalam sampel saya. Meskipun siswa dalam sampel saya mendapat nilai lebih tinggi pada tes
kosa kata di akhir kelas empat daripada yang mereka lakukan di akhir kelas tiga, kita harus ingat bahwa
perubahan nilai dari waktu ke waktu mewakili perubahan rata -rata . Beberapa siswa dalam sampel saya
meningkat sedikit dari waktu ke waktu, sedangkan yang lain tidak meningkat sama sekali, dan satu (Subjek
5) benar-benar menurun. Jadi ada kemungkinan bahwa peningkatan rata-rata keseluruhan ini dari waktu ke
waktu disebabkan oleh peningkatan besar di antara siswa yang paling cerdas. Untuk mengeksplorasi hipotesis
ini, saya melakukan ANOVA ukuran berulang yang baru, tetapi kali ini saya menyertakan kovariat: skor tes IQ.
Ketika saya melakukan ANCOVA pengukuran berulang saya, saya sekarang memiliki tiga cara untuk
membagi varians total dalam nilai tes kosakata saya. Pertama, ada porsi varians yang diperhitungkan oleh
kovariat saya, nilai tes IQ. Jika nilai tes IQ siswa terkait dengan (yaitu, berkorelasi dengan) nilai tes kosakata
mereka, maka nilai tes IQ akan menjelaskan, atau menjelaskan, beberapa persentase varians dalam nilai tes
kosakata siswa (lihat Bab 8 untuk penjelasan yang lebih menyeluruh tentang konsep ini). Kedua, setelah
memilah-milah bagian varians yang disebabkan oleh skor tes IQ, saya dapat melihat apakah varians yang
tersisa dalam skor tes kosa kata disebabkan oleh perubahan skor tes kosa kata dari kelas tiga ke kelas
empat. Dengan kata lain, setelah kita mengontrol efek nilai tes IQ, apakah nilai sampel saya berubah secara
signifikan dari Waktu 1 (kelas tiga) ke Waktu 2 (kelas empat), rata-rata? Apakah masih ada mata pelajaran
dalam
efek setelah mengontrol skor tes IQ? Akhirnya, setelah memperhitungkan varians dalam skor tes kosa kata
yang disebabkan oleh kovariat (yaitu, skor tes IQ) dan efek dalam mata pelajaran (yaitu, perubahan dari kelas
tiga ke kelas empat), masih akan ada beberapa varians dalam tes kosa kata. skor yang tidak dijelaskan. Ini
adalah varians kesalahan, yang sama dengan varians acak yang biasanya kita temukan antara anggota yang
berbeda dari sampel yang sama (lihat Gambar 12.5).
Untuk mengulangi, ketika satu atau lebih kovariat ditambahkan ke model ANOVA ukuran berulang, mereka
hanya dimasukkan untuk "menyerap" sebagian dari varians dalam variabel dependen. Kemudian, kita dapat
melihat apakah ada perbedaan dalam subjek dalam skor pada variabel dependen, ketika mengontrol, atau
memisahkan bagian varians yang diperhitungkan oleh kovariat. Dalam contoh yang telah kita gunakan,
penambahan kovariat skor IQ memungkinkan kita untuk menjawab pertanyaan ini: Apakah skor tes kosakata
siswa berubah, rata-rata, dari kelas tiga ke kelas empat terlepas dari nilai IQ mereka? Dengan kata lain, kita
dapat menanyakan apakah, ketika mengontrol IQ , skor tes kosakata siswa berubah dari kelas tiga ke kelas
empat.

Menambahkan Variabel Grup Independen


Sekarang kita telah sedikit memperumit masalah dengan menambahkan kovariat ke model, mari selesaikan
pekerjaan dengan menambahkan variabel kategori atau grup independen. Misalkan, misalnya, 10 kasus saya
yang tercantum dalam Tabel 12.1 mencakup jumlah anak laki-laki dan perempuan yang sama. Dua tingkat ini
Machine Translated by Google

Analisis Varians Pengukuran Berulang 137

IQ 10%

Dalam-subjek
(waktu) 15%

Varian kesalahan
75%

Varian kesalahan IQ Dalam mata pelajaran (waktu)

Gambar 12.5 Partisi varians nilai tes kosakata.

variabel independen memungkinkan kita untuk membagi varians dalam variabel dependen kita bahkan lebih,
tetapi hanya jika ada perbedaan skor anak laki-laki dan perempuan.
Ada dua cara bahwa variabel kelompok independen ini dapat menjelaskan varians dalam skor tes kosakata.
Pertama, anak laki-laki dan perempuan mungkin hanya berbeda dalam nilai rata-rata mereka pada tes kosa kata.
Misalkan ketika kita membagi skor pada Tabel 12.1 berdasarkan jenis kelamin, kita mendapatkan hasil yang
disajikan pada Tabel 12.2. Jika data disejajarkan dengan cara ini, kita akan menemukan bahwa pada Waktu 1,
skor rata-rata pada tes kosakata adalah 35 untuk anak laki-laki dan 65 untuk anak perempuan. Demikian pula,
pada Waktu 2, skor usia rata-rata untuk anak laki-laki adalah 52 sedangkan untuk anak perempuan adalah 71.
Pada Waktu 1 dan Waktu 2, anak laki-laki tampaknya memiliki skor rata-rata yang lebih rendah pada tes kosakata
daripada anak perempuan. Oleh karena itu, tampaknya ada efek utama untuk gender. Karena efek utama ini
mewakili perbedaan antara kelompok kasus dalam penelitian, jenis efek ini disebut efek utama antar kelompok
atau antar subjek . Dengan kata lain, beberapa perbedaan dalam nilai tes kosakata dapat dijelaskan dengan
mengetahui kelompok (yaitu, jenis kelamin) di mana siswa tersebut berasal.
Cara kedua agar variabel kelompok independen saya dapat menjelaskan beberapa varians dalam variabel
dependen saya adalah melalui efek interaksi. Jika saya membuat grafik rata-rata untuk anak laki-laki dan
perempuan pada kedua titik waktu, saya akan mendapatkan gambaran yang menarik. Seperti yang dapat kita lihat
pada Gambar 12.6, efek utama untuk gender jelas. Selain itu, jelas juga bahwa ada efek dalam mata pelajaran,
karena anak laki-laki dan perempuan memiliki skor yang lebih tinggi pada Waktu 2 daripada pada Waktu 1.

Tabel 12.2 Skor Tes Kosakata di Dua Titik Waktu


Skor Tes Nomor Kasus, Skor Tes Waktu 1 (Kelas Tiga), Waktu 2 (Kelas Empat)

anak laki-laki

9 20 35
4 30 45
8 40 60
1 40 60
10 45 60

Cewek-cewek

2 55 55
3 60 70
7 65 75
5 75 70
6 80 85
Machine Translated by Google

138 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

80
70 anak laki-laki

60 Cewek-cewek

50
40
30
20
10
0
Waktu 1 Waktu 2

Ubah dari Kelas Tiga ke Kelas Empat

Gambar 12.6 Gender berdasarkan interaksi waktu.

Tetapi yang juga menjadi jelas dalam Gambar 12.6 adalah bahwa jumlah perubahan dari Waktu 1 ke Waktu
2 tampaknya lebih besar untuk anak laki-laki daripada anak perempuan. Sedangkan nilai rata-rata untuk anak
perempuan meningkat 6 poin dari kelas tiga ke kelas empat, itu tumbuh 17 poin untuk anak laki-laki. Jumlah
perubahan yang berbeda ini mewakili sumber lain dari variasi yang dijelaskan dalam skor tes kosa kata: interaksi
efek dalam mata pelajaran dengan efek antar mata pelajaran . Dengan kata lain, tampaknya ada interaksi gender
(yaitu, antara mata pelajaran) dengan waktu (yaitu, dalam mata pelajaran) pada skor tes kosakata. Perhatikan
bahwa pertanyaan tentang bagaimana menafsirkan efek utama dengan adanya interaksi yang signifikan secara
statistik muncul di sini, seperti yang mereka lakukan dalam diskusi kami tentang interaksi dalam ANOVA faktorial
(Bab 11). Dalam contoh kami saat ini, efek utama dalam mata pelajaran untuk waktu (yaitu, bahwa skor tes naik
dari Waktu 1 ke Waktu 2) mungkin terutama disebabkan oleh peningkatan besar dalam skor untuk anak laki-laki.
Jadi mungkin menyesatkan untuk mengatakan bahwa skor siswa meningkat seiring waktu (yaitu, efek utama)
tanpa juga memperhatikan bahwa waktu berdasarkan interaksi gender mengungkapkan peningkatan besar untuk
anak laki-laki tetapi hanya sedikit peningkatan untuk anak perempuan dalam nilai tes dari waktu ke waktu.
Untuk meringkas, model akhir kami memiliki sejumlah efek, yang masing-masing dapat menjelaskan beberapa
varians dalam skor tes kosakata dari kasus-kasus dalam sampel saya. Pertama, beberapa perbedaan dalam nilai
tes kosakata dapat dijelaskan oleh nilai tes IQ siswa. Rata-rata, siswa dengan nilai tes IQ yang lebih tinggi
memiliki nilai tes kosakata yang lebih tinggi. Kedua, bahkan setelah mengontrol IQ, ada efek utama dalam subjek.
Artinya, saya dapat mengetahui sesuatu tentang skor siswa pada tes kosakata dengan mengetahui apakah kita
berbicara tentang skor tes Waktu 1 atau Waktu 2 karena, rata-rata, siswa memiliki skor lebih tinggi pada Waktu
2. Ketiga, ada perbedaan antara mata pelajaran efek untuk jenis kelamin, jadi saya bisa menjelaskan beberapa
perbedaan dalam nilai tes kosakata dengan mengetahui jenis kelamin siswa. Anak perempuan memiliki skor
yang lebih tinggi, rata-rata, daripada anak laki-laki. Keempat, waktu saya berdasarkan interaksi gender
menjelaskan beberapa variasi tambahan dalam skor tes kosa kata. Meskipun skor anak laki-laki dan perempuan
meningkat dari waktu ke waktu, peningkatan ini rata-rata lebih dramatis di antara anak laki-laki. Akhirnya, ada
beberapa perbedaan dalam skor tes kosakata yang tidak dapat saya jelaskan dengan kovariat, waktu, jenis
kelamin, atau efek interaksi saya: Ini adalah varians kesalahan (lihat Gambar 12.7).
Harap diingat bahwa efek saya yang berbeda (waktu, jenis kelamin, interaksi, kovariat) hanya akan
menjelaskan variasi dalam variabel dependen saya jika hubungan antara variabel dependen saya dan efek ini
signifikan secara statistik (lihat Bab 7). Dengan hanya 10 kasus dalam sampel saya, banyak dari efek ini mungkin
tidak signifikan secara statistik.

Contoh: Mengubah Sikap tentang Tes Standar


Setiap tahun, siswa di seluruh negeri mengikuti tes prestasi standar. Beberapa tahun yang lalu, saya melakukan
penelitian untuk mengeksplorasi keyakinan dan sikap siswa tentang mengikuti tes standar, Tes Keterampilan
Dasar Iowa (ITBS). Para peserta dalam penelitian ini termasuk kelima
Machine Translated by Google

Analisis Varians Pengukuran Berulang 139

Interaksi waktu
dan jenis kelamin 10%

Jenis kelamin

15%

Varian kesalahan
50%

Dalam mata pelajaran


(waktu) 15%

IQ
10%

Gambar 12.7 Pemisahan varians dalam skor tes kosakata dengan bagian antara mata pelajaran, dalam mata pelajaran, dan bagian kovariat.

siswa kelas dari sekolah dasar dan siswa kelas tujuh dan delapan dari dua sekolah menengah.
Ada 570 siswa dalam sampel. Siswa diberikan survei seminggu sebelum mereka mengikuti ITBS dan kemudian
diberikan survei lagi selama seminggu setelah mereka mengikuti tes. Desain pretest-posttest ini memungkinkan
saya untuk memeriksa bagaimana siswa berpikir tentang tes sebelum mengambilnya, dan kemudian menilai
kembali pemikiran mereka segera setelah mengikuti tes.
Kedua survei berisi pertanyaan tentang berbagai keyakinan dan sikap, termasuk kecemasan tes, konsep diri,
atribusi untuk sukses dan gagal, dan variabel lain yang terkait dengan motivasi. Satu set pertanyaan menilai
persepsi siswa tentang validitas tes. Pada survei pretest, ukuran keyakinan validitas termasuk item seperti "Saya
pikir tes ITBS akan menjadi ukuran yang baik dari apa yang bisa saya lakukan di sekolah" dan "Tes ITBS akan
mengukur seberapa pintar saya." Pada survei pascates, ukuran keyakinan validitas mencakup item-item seperti
“Skor saya pada tes ITBS akan memberi tahu saya seberapa pintar saya” dan “Tes ITBS adalah tes yang baik
tentang seberapa banyak yang telah saya pelajari di sekolah.” Siswa menjawab setiap pertanyaan ini menggunakan
skala 8 poin mulai dari 1 (“sangat tidak setuju”) hingga 8 (“sangat setuju”). Jawaban siswa untuk setiap pertanyaan
dirata-ratakan untuk membuat skor validitas pretest tunggal (VALID) dan skor validitas posttest tunggal (PSTVALID),
masing-masing dengan kisaran 1 sampai 8.

Satu pertanyaan yang dapat kita tanyakan dengan data ini adalah apakah keyakinan siswa tentang validitas
tes, dalam hal tes mengukur apa yang mereka ketahui atau dapat lakukan secara akademis, berubah, rata-rata,
dari sebelum mereka mengikuti tes menjadi setelahnya. Siswa dapat mengembangkan seperangkat keyakinan
tentang tes sebelum mereka mengikutinya, mungkin karena apa yang dikatakan guru dan administrator sekolah
mereka dalam persiapan untuk ujian. Tetapi begitu mereka mengikuti tes, dan melihat jenis pertanyaan apa yang
terkandung dalam tes tersebut, mereka mungkin mengubah keyakinan mereka tentang apa yang sebenarnya
diukur oleh tes tersebut. Ini adalah jenis pertanyaan dalam mata pelajaran : Apakah ada perubahan dalam sikap
individu tentang validitas tes dari Waktu 1 ke Waktu 2?
Salah satu faktor yang dapat menyebabkan siswa mengubah sikap mereka tentang validitas tes ITBS adalah
seberapa baik mereka melakukan tes. Saat mengikuti tes, mereka yang menganggap tes itu sulit, dan tahu bahwa
mereka tidak mengerjakannya dengan baik, mungkin mengembangkan persepsi yang agak defensif bahwa tes itu
tidak adil atau tidak valid. Di sisi lain, mereka yang merasa tes itu mudah dan tahu bahwa mereka mengerjakannya
dengan baik saat mengikuti tes mungkin cenderung mengembangkan persepsi peningkatan diri terhadap tes,
seperti tes mengungkapkan kecerdasan mereka dan merupakan ukuran yang valid. Untuk mengontrol perbedaan
berbasis kinerja ini dalam persepsi validitas tes, saya menambahkan dua kovariat ke model, keduanya mengukur
kinerja tes yang sebenarnya. Salah satu kovariat adalah nilai siswa,
Machine Translated by Google

140 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

dalam istilah persentil, pada bagian matematika dari tes ITBS. Kovariat lainnya adalah skor persentil siswa pada
bagian verbal dari tes. Penambahan kedua variabel ini mengubah ANOVA pengukuran berulang saya menjadi
ANCOVA pengukuran berulang. ANCOVA ukuran berulang ini dapat digunakan untuk menjawab pertanyaan berikut:
Ketika mengontrol pencapaian aktual dalam tes, apakah ada perubahan dalam diri individu dalam sikap siswa tentang
validitas tes dari Waktu 1 ke Waktu 2?

Akhirnya, ada kemungkinan bahwa persepsi anak laki-laki dan perempuan tentang validitas tes mungkin berbeda.
Mungkin satu jenis kelamin lebih mempercayai ukuran standar daripada yang lain. Selain itu, mungkin satu jenis
kelamin cenderung memiliki persepsi yang lebih ideal tentang validitas tes sebelum mengikuti tes, tetapi persepsi ini
berubah setelah benar-benar mengikuti tes. Jenis kelamin lain, tanpa prasangka ideal seperti itu, tidak boleh
mengubah sikap mereka setelah mengikuti tes. Dengan menambahkan variabel kelompok independen gender,
sekarang saya dapat menjawab semua pertanyaan berikut dengan model saya:

1. Saat mengontrol pengaruh gender dan prestasi, apakah ada perubahan sikap siswa terhadap validitas tes
dari Waktu 1 ke Waktu 2 dalam mata pelajaran ?
2. Saat mengontrol efek dan pencapaian dalam mata pelajaran, apakah ada perbedaan antara keyakinan rata-
rata anak laki-laki dan perempuan tentang validitas tes (yaitu, efek antar mata pelajaran )?
3. Apakah ada interaksi dalam-subjek dengan antar-subjek, sehingga ukuran perubahan persepsi tentang validitas
tes dari Waktu 1 ke Waktu 2 berbeda untuk anak laki-laki dan perempuan, ketika mengontrol efek pencapaian?

Seperti yang Anda lihat, ada sejumlah pertanyaan yang sangat menarik yang dapat saya periksa dalam satu
ANCOVA ukuran berulang. Untuk memeriksa pertanyaan-pertanyaan ini, saya melakukan analisis saya menggunakan
perangkat lunak SPSS. Output SPSS aktual dari analisis disajikan pada Tabel 12.3. Saya menjelaskan setiap
informasi dalam urutan yang muncul pada Tabel 12.3.
Kumpulan informasi pertama pada Tabel 12.3 menunjukkan rata-rata, standar deviasi, dan ukuran sampel untuk
variabel dependen pretest (Validitas Pretest) dan variabel dependen posttest (Validitas Posttest). Pandangan sekilas
pada rata-rata terpisah untuk anak laki-laki dan perempuan pada variabel Validitas Pretest dan Validitas Posttest
mengungkapkan bahwa sementara rata-rata anak perempuan hampir identik dari Waktu 1 ke Waktu 2, rata-rata anak
laki-laki agak menurun (dari 6,2852 menjadi 6,0076). Kita juga dapat melihat bahwa pada Waktu 1 dan Waktu 2, anak
laki-laki tampak mendapat skor lebih tinggi, rata-rata, daripada anak perempuan dalam ukuran persepsi validitas (lihat
Gambar 12.8). Apakah perbedaan ini signifikan secara statistik masih harus ditentukan. Terlepas dari apakah
perbedaan ini signifikan secara statistik, mereka mungkin tidak signifikan secara praktis : Anak laki-laki dan perempuan
tampaknya tidak jauh berbeda dalam persepsi usia rata-rata mereka tentang validitas tes ITBS.

Di bawah rata-rata dan deviasi standar dalam output SPSS, kami menemukan "Tes untuk Efek Antar Mata
Pelajaran." Di sini kita melihat lima jumlah kuadrat (SS), derajat kebebasan (df ), dan kuadrat rata-rata (MS) yang
terpisah. Kami juga mendapatkan nilai F , "Sig." nilai p , dan ukuran efek kami, "Eta Squared." Statistik yang paling
kami minati di sini adalah nilai F nilai “Sig” p , dan ukuran efek “Eta Kuadrat” untuk analisis yang melibatkan Gender.
Statistik ini memberi tahu kita apakah, rata-rata, anak laki-laki dan perempuan berbeda dalam persepsi rata-rata
validitas ITBS, ketika mengontrol kinerja mereka dalam ujian. Penting untuk diingat bahwa tes antar mata pelajaran
ini adalah untuk skor Validitas pretest dan skor Validitas posttest digabungkan. Karena "Sig" adalah nilai p , dan nilai
p ini jauh lebih kecil dari 0,05, kami menyimpulkan bahwa, rata-rata, sepanjang waktu, anak laki-laki dan perempuan
berbeda dalam persepsi mereka tentang validitas tes. Jika kita melihat cara-cara yang disajikan sebelumnya, kita
dapat menyimpulkan bahwa anak laki-laki lebih percaya pada validitas nilai ujian daripada anak perempuan, bahkan
setelah mengontrol kinerja dalam ujian. Perhatikan bahwa statistik kuadrat eta
Machine Translated by Google

Analisis Varians Pengukuran Berulang 141

Tabel 12.3 Output SPSS untuk ANCOVA Pengukuran Berulang

Statistik deskriptif

Std.
Jenis kelamin Berarti Deviasi N

Validitas prates Gadis 5.7679 1,5762 307


Anak laki-laki
6.2852 1.4761 264
Total 6.0071 1.5510 571

Validitas posttest Gadis 5.7096 1.5190 307

Anak laki-laki
6.0076 1.5324 264
Total 5.8473 1.5311 571

Tes untuk Efek Antar-Subjek

Jumlah
Sumber Kuadrat Tipe III df Mean Square F Tanda tangan. Eta kuadrat

Mencegat 10642.913 1 10642.913 2930.419 .000 .838

Skor tes membaca 35,006 1 35,006 9,639.002 .017


Skor tes matematika 5.266 1 5.266 1.450 .229 .003
Jenis kelamin 41.941 1 41.941 11.548.001 .020
Kesalahan 2059.273 567 3.632

Tes yang Melibatkan Efek Dalam Subjek

Jumlah
Sumber Kuadrat Tipe III df Mean Square F Tanda tangan. Eta kuadrat

Keabsahan 8.884 1 8.884 10.617 .001 .018

Validitas * tes baca .164 1 .164 .196 .659 .000

Validitas * tes matematika 3.533 1 3.533 4.222 .040 .007

Validitas * jenis kelamin 3.670 1 3.670 4.386 .037 .008

Kesalahan (validitas) 474.437 567 .837

1
Tes awal Posttest

Perempuan Laki-laki

Gambar 12.8 Perubahan keyakinan tentang validitas nilai tes standar berdasarkan jenis kelamin.

untuk efek gender cukup kecil (eta2 = .02), menunjukkan bahwa jenis kelamin hanya menyumbang
2% dari varians dalam gabungan skor Validitas pretest dan posttest. Ini menunjukkan bahwa hasil
kami yang signifikan secara statistik mungkin tidak signifikan secara praktis . Data yang disajikan di
bagian tabel ini juga mengungkapkan bahwa ada hubungan yang signifikan antara salah satu kovariat
kami (skor tes Membaca) dan variabel dependen kami (kombinasi skor Validitas pretest dan posttest).
Machine Translated by Google

142 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Melanjutkan output SPSS pada Tabel 12.3, kita sampai ke bagian yang berlabel “Test involving Within-Subject
Effect.” Di sini kami paling tertarik dengan hasil untuk Validitas dan Validitas * Interaksi gender. Validitas adalah
nama yang saya berikan untuk kombinasi skor pra dan pasca tes pada ukuran validitas. Ketika dua skor ini
digabungkan untuk menciptakan faktor dalam mata pelajaran (yang saya sebut Validitas), kita dapat melakukan
tes untuk melihat apakah ada perubahan dalam mata pelajaran yang signifikan secara statistik, rata-rata, pada
ukuran validitas dari Waktu 1 ke Waktu 2 Karena tes dalam mata pelajaran ini berkaitan dengan perubahan atau
perbedaan
dalam mata pelajaran di dua kali, variabel dependen dalam analisis ini bukanlah skor gabungan pada variabel
Validitas pretest dan posttest, seperti pada tes antar mata pelajaran. Sebaliknya, variabel dependen adalah
perbedaan atau perubahan skor, dalam mata pelajaran, dari Waktu 1 ke Waktu 2. Karena nilai F kami untuk
Validitas memiliki nilai p yang sesuai dari p = 0,001 (seperti yang tercantum dalam “Sig.” kolom), kita dapat melihat
bahwa rata-rata kepercayaan siswa terhadap validitas tes berubah dari Waktu 1 ke Waktu 2. Dengan melihat rata-
rata yang dilaporkan sebelumnya, kita dapat melihat bahwa, rata-rata, siswa lebih percaya pada validitas tes
sebelum mereka mengikuti tes daripada yang mereka lakukan setelah mengikuti tes. Statistik kuadrat eta untuk
efek ini (eta2 = 0,018) menunjukkan bahwa ada ukuran efek yang kecil untuk efek ini. Kita juga dapat melihat, dari
Uji Validitas * Matematika (F = 4,222) dan nilai p terkait (“Sig.” = 0,040), bahwa ada hubungan yang signifikan
antara kovariat tes matematika dan variabel dependen kami dalam analisis ini. Dengan kata lain, ada hubungan
yang signifikan antara seberapa baik kinerja siswa pada bagian matematika dari tes ITBS dan seberapa besar
keyakinan mereka pada validitas tes berubah dari waktu ke waktu. Tidak ada hubungan yang signifikan antara
kinerja bagian membaca tes ITBS dan perubahan keyakinan tentang validitas tes.

Selain efek utama dalam subjek, kita dapat melihat bahwa ada interaksi Validitas berdasarkan Gender yang
signifikan (“Sig.”, atau p = .037). Ini memberitahu kita bahwa perubahan dalam subjek dari Waktu 1 ke Waktu 2
dalam keyakinan tentang validitas tes ITBS tidak sama besar antara anak laki-laki dan perempuan. Jika Anda
mengingat dari cara yang disajikan di bagian atas Tabel 12.3, ini tidak mengejutkan (lihat Gambar 12.8). Kita dapat
melihat bahwa sementara skor rata-rata anak perempuan pada variabel validitas berubah sedikit dari Waktu 1 ke
Waktu 2, untuk anak laki-laki ada penurunan yang nyata dalam keyakinan tentang validitas tes dari Waktu 1 ke
Waktu 2. Penting untuk diingat ingat bahwa bahkan hasil yang signifikan secara statistik dalam analisis ini
semuanya cukup sederhana, seperti yang diungkapkan oleh ukuran efek yang kecil (lihat Bab 7 untuk diskusi
tentang ukuran efek).
Sekarang kami telah menemukan interaksi yang signifikan, kami mungkin perlu mengubah kesimpulan kami
tentang efek utama yang kami temukan. Pertama, perbedaan antara persepsi rata-rata anak laki-laki dan
perempuan bahwa tes itu valid tampaknya terutama disebabkan oleh kesenjangan yang relatif besar dalam skor
Waktu 1. Persepsi anak laki-laki dan perempuan tentang validitas tes lebih mirip setelah mereka benar-benar
mengikuti tes, meskipun anak laki-laki masih sedikit lebih mungkin untuk percaya bahwa tes itu valid. Kedua,
perubahan keyakinan dalam subjek yang signifikan secara statistik tentang validitas tes dari waktu ke waktu
tampaknya disebabkan sepenuhnya oleh perubahan persepsi anak laki-laki dari Waktu 1 ke Waktu 2. Anak
perempuan hampir tidak mengubah keyakinan mereka tentang validitas dari waktu ke waktu.
Diambil sebagai sebuah kelompok, hasil ANCOVA pengukuran berulang kami mengungkapkan banyak hal
tentang bagaimana anak laki-laki dan perempuan berpikir tentang validitas ITBS. Pertama, kita tahu bahwa
meskipun kinerja pada bagian tes bahasa Inggris terkait dengan keyakinan tentang validitas tes, itu adalah kinerja
pada bagian matematika dari tes yang terkait dengan perubahan keyakinan tentang validitas. Kedua, kita tahu
bahwa anak laki-laki cenderung melihat tes lebih valid daripada anak perempuan, terutama sebelum mereka
mengikuti tes, terlepas dari seberapa baik siswa melakukan tes (yaitu, mengendalikan efek nilai tes). Ketiga, kita
tahu bahwa siswa cenderung menurun keyakinannya tentang validitas tes setelah mengikuti tes, tetapi penurunan
ini tampaknya hanya terjadi di kalangan anak laki-laki.
Akhirnya, kita tahu bahwa semua efek ini cukup kecil karena ukuran efek yang kecil memberi tahu kita demikian.
Ini adalah banyak informasi, dan ini menunjukkan kekuatan tindakan berulang.
Machine Translated by Google

Analisis Varians Pengukuran Berulang 143

Int erpret ing Graph s: A Cau t ionary Tal e


Saat mencoba memahami grafik, penting bagi pembaca untuk berhati-hati. Data yang sama dapat terlihat
sangat berbeda tergantung pada skala yang digunakan dalam grafik. Jika Anda perhatikan Gambar 12.8,
Anda akan melihat bahwa batang yang mewakili rata-rata untuk anak laki-laki dan perempuan terlihat
sangat mirip, baik pada pretest maupun posttest. Itu karena dalam grafik itu saya menggunakan sumbu y
yang "jujur". Artinya, saya menggunakan rentang skor penuh, 1–7, pada sumbu y yang muncul dalam
skala pengukuran asli yang digunakan saat saya mengumpulkan data. Dengan menggunakan rentang
yang lebih kecil dan kurang jujur pada sumbu y saya, lihat apa yang terjadi pada grafik:

6.4
6.3
6.2
6.1
6
5.9
5.8
5.7
5.6
5.5
5.4
Tes awal Posttest

Keyakinan pada Validitas Tes

Perempuan Laki-laki

Lihat seberapa besar perbedaan antara sarana yang muncul? Saya menyajikan data yang sama persis
seperti yang saya lakukan pada Gambar 12.8 tetapi terlihat berbeda, dan lebih mengesankan, di sini hanya
karena saya mengubah skala pada sumbu y. Jadi saat membaca grafik, perhatikan sumbu y.

Menulis Itu
Untuk menuliskan hasil ANCOVA pengukuran berulang yang dirangkum dalam Tabel 12.3, saya akan mulai
dengan menjelaskan efek utama baik untuk efek antar mata pelajaran maupun efek dalam mata pelajaran.
Kemudian saya akan membahas efek interaksi.

Untuk memeriksa apakah perubahan keyakinan siswa tentang validitas tes prestasi standar berbeda menurut
jenis kelamin, saya melakukan ANCOVA pengukuran berulang dengan jenis kelamin sebagai faktor antara
mata pelajaran dan dengan nilai tes matematika dan membaca sebagai kovariat. Hasilnya mengungkapkan
efek utama antara subjek untuk jenis kelamin (F(1,567) = 11,55, p <0,001) dengan anak laki-laki, rata-rata,
memiliki keyakinan yang lebih besar dalam validitas tes daripada anak perempuan. Ada juga efek utama
dalam subjek untuk waktu (F(1,567) = 10,62, p <.001). Berarti menunjukkan bahwa, ketika menggabungkan
dua jenis kelamin dan kontrol ling untuk kovariat, siswa memiliki keyakinan yang lebih besar dalam validitas
nilai tes sebelum mereka mengikuti tes daripada setelah mengambilnya. Terakhir, ada interaksi waktu X
gender yang signifikan (F(1,567) = 4,39, p < 0,05). Pemeriksaan rata-rata mengungkapkan bahwa sementara
tingkat rata-rata keyakinan tentang validitas tes standar tidak berubah untuk anak perempuan dari pretest ke
posttest (M = 5,77 ke M = 5,71), ada penurunan untuk anak laki-laki (dari M = 6,29 hingga M = 6,01 dari pretest ke posttest).

Mengakhiri dan Menantikan


Dalam beberapa hal, ANOVA ukuran berulang adalah perluasan sederhana dari ide-ide yang telah kita
diskusikan. Kesamaan dengan uji t berpasangan (Bab 9) sudah jelas, seperti gagasan untuk menguraikan
Machine Translated by Google

144 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

varians dari variabel dependen menjadi berbagai komponen. Tetapi kekuatan luar biasa dari ANOVA ukuran
berulang hanya dapat dihargai ketika kita meluangkan waktu sejenak untuk mempertimbangkan semua bagian
informasi yang dapat kita peroleh dari satu analisis. Kombinasi varians dalam mata pelajaran dan antar mata
pelajaran, bersama dengan interaksi antara komponen-komponen ini, memungkinkan ilmuwan sosial untuk
memeriksa berbagai pertanyaan yang sangat kompleks, dan sangat menarik.
ANOVA ukuran berulang adalah teknik yang sangat berguna untuk memeriksa perubahan dari waktu ke waktu,
baik dalam studi longitudinal atau dalam studi eksperimental menggunakan desain pra-perawatan, pasca-
perawatan. Hal ini juga sangat berguna untuk memeriksa apakah pola perubahan dari waktu ke waktu bervariasi
untuk kelompok yang berbeda.
Pada bab berikutnya, kita akan membahas salah satu teknik statistik yang paling banyak digunakan dan
serbaguna: regresi. Saat Anda menyelesaikan bab ini dan melanjutkan ke bab berikutnya, penting untuk diingat
bahwa kita hanya mampu menggores permukaan dari teknik-teknik hebat yang disajikan dalam tiga bab terakhir
buku ini. Untuk mendapatkan apresiasi penuh tentang apa yang dapat dilakukan ANOVA faktorial, ANOVA
pengukuran berulang, dan regresi, Anda perlu membaca lebih lanjut tentang teknik ini.

Daftar Istilah dan Simbol untuk Bab 12


Efek antar-mata pelajaran: Perbedaan yang disebabkan oleh varians antara skor pada variabel dependen
untuk kasus individu dalam model ANOVA.
Efek antar-kelompok: Perbedaan skor rata-rata untuk kelompok yang berbeda dalam ANOVA
model.
Variabel kelompok: Variabel bebas kategoris dalam model ANOVA.
Rata-rata kuadrat untuk perbedaan antara uji coba: Rata-rata kuadrat deviasi antara rata-rata peserta di
semua uji coba dan skor mereka di setiap uji coba.
Rata-rata kuadrat untuk subjek dengan interaksi percobaan: Rata-rata kuadrat deviasi antara perubahan skor
setiap individu di seluruh percobaan dan rata-rata perubahan skor di seluruh percobaan.

Repeated-measures analysis of variance (ANOVA): Teknik statistik yang digunakan untuk menguji apakah
skor rata-rata pada variabel dependen berubah seiring waktu atau percobaan (yaitu, ketika diukur
berulang kali).
Waktu , percobaan: Setiap kali data yang dikumpulkan pada variabel dependen.
Varians dalam-subjek: Perbedaan dalam setiap kasus individu pada skor pada variabel dependen di seluruh
percobaan.
Desain dalam subjek: Desain ANOVA ukuran berulang di mana perubahan intra-individu di seluruh uji coba
diuji. Teknik ini memungkinkan peneliti untuk menguji apakah, rata-rata, skor individu berbeda pada
satu waktu dari yang lain.

MSS × T Persegi rata-rata untuk interaksi subjek dengan percobaan.


MST Mean square untuk perbedaan antara percobaan.

Bacaan yang Direkomendasikan

Kaca, GV, & Hopkins, KD (1996). Metode statistik dalam pendidikan dan psikologi (3rd ed.). Boston: Allyn
& Daging babi asap.

Marascuilo, LA, & Serlin, RC (1988). Metode statistik untuk ilmu sosial dan perilaku. New York:
Warga kehormatan.
Machine Translated by Google

Bab 13
Regresi

Dalam Bab 8, konsep korelasi diperkenalkan. Korelasi melibatkan ukuran sejauh mana dua variabel terkait satu
sama lain. Sebuah konsep yang terkait erat, koefisien determinasi, juga diperkenalkan dalam bab itu. Statistik ini
memberikan ukuran kekuatan hubungan antara dua variabel dalam hal persentase varians dijelaskan.

Kedua konsep ini hadir dalam regresi. Dalam bab ini, konsep regresi linier sederhana dan regresi berganda
diperkenalkan.
Regresi adalah statistik yang sangat umum dalam ilmu-ilmu sosial. Salah satu alasan mengapa teknik ini begitu
populer adalah karena sangat serbaguna. Regresi, khususnya regresi berganda, memungkinkan peneliti untuk
menguji sifat dan kekuatan hubungan antara variabel, kekuatan prediksi relatif dari beberapa variabel independen
pada variabel dependen, dan kontribusi unik dari satu atau lebih variabel independen ketika mengendalikan satu
atau lebih variabel independen. lebih banyak kovariat.
Dimungkinkan juga untuk menguji interaksi dalam regresi berganda. Dengan semua kemungkinan penerapan
regresi berganda, jelas bahwa tidak mungkin untuk menggambarkan semua fungsi regresi dalam bab singkat ini.
Oleh karena itu, fokus bab ini adalah untuk memberikan pengantar konsep dan penggunaan regresi, dan untuk
merujuk pembaca ke sumber daya yang memberikan informasi tambahan.

Regresi Sederhana versus Berganda


Perbedaan antara regresi sederhana dan regresi berganda mirip dengan perbedaan antara ANOVA satu arah
dan faktorial. Seperti ANOVA satu arah, analisis regresi sederhana melibatkan satu variabel independen, atau
variabel prediktor dan satu variabel dependen, atau hasil. Ini adalah jumlah variabel yang sama yang digunakan
dalam analisis korelasi sederhana. Perbedaan antara koefisien korelasi Pearson dan analisis regresi sederhana
adalah bahwa korelasi tidak membedakan antara variabel independen dan dependen, dalam analisis regresi
selalu ada variabel prediktor yang ditunjuk dan variabel dependen yang ditunjuk. Hal itu karena tujuan dari analisis
regresi adalah untuk membuat prediksi tentang nilai variabel dependen yang diberikan nilai-nilai tertentu dari
variabel prediktor. Ini adalah perpanjangan sederhana dari analisis korelasi.

Jika saya tertarik pada hubungan antara tinggi dan berat badan, misalnya, saya dapat menggunakan analisis
regresi sederhana untuk menjawab pertanyaan ini: Jika saya mengetahui tinggi badan seorang pria, apa yang
akan saya prediksikan tentang berat badannya? Tentu saja, akurasi prediksi saya hanya akan sebaik yang
dimungkinkan oleh korelasi saya, dengan korelasi yang lebih kuat yang mengarah ke prediksi yang lebih akurat.
Oleh karena itu, regresi linier sederhana sebenarnya bukan alat yang lebih kuat daripada analisis korelasi
sederhana. Tapi itu memberi saya cara lain untuk mengkonseptualisasikan hubungan antara dua variabel, poin
yang akan saya uraikan secara singkat.
Kekuatan sebenarnya dari analisis regresi dapat ditemukan dalam regresi berganda. Seperti ANOVA faktorial,
regresi berganda melibatkan model yang memiliki dua atau lebih variabel prediktor dan satu variabel dependen.
Sebagai contoh, anggaplah, sekali lagi, saya tertarik untuk memprediksi berapa berat badan seseorang (yaitu,
berat badan adalah variabel terikat). Sekarang, anggaplah sebagai tambahan

145
Machine Translated by Google

146 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

untuk tinggi badan, saya tahu berapa menit latihan yang dilakukan orang itu per hari, dan berapa
banyak kalori yang dia konsumsi sehari. Sekarang saya memiliki tiga variabel prediktor (tinggi badan,
olahraga, dan kalori yang dikonsumsi) untuk membantu saya menebak berat badan orang tersebut.
Analisis regresi berganda memungkinkan saya untuk melihat, antara lain, (1) seberapa besar ketiga
variabel prediktor ini, sebagai sebuah kelompok, terkait dengan bobot, (2) kekuatan hubungan antara
masing-masing variabel prediktor dan variabel dependen sambil mengendalikan variabel prediktor
lain dalam model, (3) kekuatan relatif masing-masing variabel prediktor, dan (4) apakah ada pengaruh
interaksi antar variabel prediktor. Seperti yang Anda lihat, regresi berganda adalah teknik statistik
yang sangat serbaguna dan kuat.

Variabel yang Digunakan dalam Regresi

Seperti halnya analisis korelasi, dalam regresi variabel dependen dan independen perlu diukur pada
skala interval atau rasio. Variabel prediktor dikotomis (yaitu, kategoris dengan dua ego kucing) juga
dapat digunakan. Ada bentuk khusus dari analisis regresi, regresi logit, yang memungkinkan kita
untuk menguji variabel dependen dikotomis, tetapi jenis regresi ini berada di luar cakupan buku ini.
Dalam bab ini, kami membatasi pertimbangan regresi untuk jenis-jenis yang melibatkan variabel
dependen kontinu dan variabel prediktor kontinu atau dikotomis.

Regresi dalam Kedalaman

Regresi, khususnya regresi linier sederhana, adalah teknik statistik yang sangat erat kaitannya
dengan korelasi (dibahas dalam Bab 8). Bahkan, ketika memeriksa hubungan antara dua variabel
kontinu (yaitu, diukur pada interval atau skala rasio), baik koefisien korelasi atau persamaan regresi
dapat digunakan. Memang, koefisien korelasi Pearson tidak lebih dari koefisien regresi linier
sederhana yang telah dibakukan. Manfaat melakukan analisis regresi daripada analisis korelasi
adalah (1) analisis regresi menghasilkan lebih banyak informasi, terutama bila dilakukan dengan
salah satu paket perangkat lunak statistik umum, dan (2) persamaan regresi memungkinkan kita
untuk memikirkan hubungan antara dua variabel yang menarik dengan cara yang lebih intuitif.
Sedangkan koefisien korelasi memberi kita satu angka (misalnya, r = 0,40), yang kemudian dapat kita
coba tafsirkan, analisis regresi menghasilkan rumus untuk menghitung nilai prediksi dari satu variabel
ketika kita mengetahui nilai sebenarnya dari variabel kedua. variabel. Berikut cara kerjanya.

Kunci untuk memahami regresi adalah memahami rumus persamaan regresi. Jadi saya mulai
dengan menyajikan bentuk persamaan regresi yang paling sederhana, menjelaskan cara kerjanya,
dan kemudian beralih ke bentuk persamaan yang lebih rumit. Pada Tabel 13.1, persamaan regresi
yang digunakan untuk mencari nilai prediksi Y disajikan bersama dengan definisi komponennya.

Dalam regresi linier sederhana, kita mulai dengan asumsi bahwa kedua variabel tersebut linier
terkait. Dengan kata lain, jika kedua variabel benar-benar terkait satu sama lain, kita mengasumsikan
bahwa setiap kali ada peningkatan ukuran tertentu dalam nilai pada variabel X (disebut prediktor
atau variabel bebas ), ada peningkatan yang sesuai (jika ada korelasi positif) atau penurunan (jika
ada korelasi negatif) dari ukuran tertentu dalam variabel Y (disebut variabel terikat,

Tabel 13.1 Persamaan Regresi


Machine Translated by Google

Regresi 147 _

Tabel 13.2 Data Pendapatan dan Tingkat Pendidikan

Pendapatan Bulanan (Y)


Tingkat Pendidikan (X) (dalam ribuan)

Kasus 1 6 tahun 1
Kasus 2 8 tahun 1.5
Kasus 3 11 tahun 1
Kasus 4 12 tahun 2
Kasus 5 12 tahun 4
Kasus 6 13 tahun 2.5
Kasus 7 14 tahun 5
Kasus 8 16 tahun 6
Kasus 9 16 tahun 10
Kasus 10 21 tahun 8

Berarti 12.9 4.1


Standar deviasi 4.25 3.12
Koefisien korelasi .83

atau hasil, atau variabel kriteria ). Dengan kata lain, jika nilai X meningkat dari nilai 1 menjadi nilai 2, dan Y
meningkat sebesar 2 poin, maka ketika X meningkat dari 2 menjadi 3, kita akan memprediksi bahwa nilai Y akan
meningkat 2 poin lagi . .
Untuk mengilustrasikan hal ini, mari kita perhatikan kumpulan data berikut. Misalkan saya ingin mengetahui
apakah ada hubungan antara jumlah pendidikan yang dimiliki seseorang dengan pendapatan bulanannya. Tingkat
pendidikan diukur dalam tahun, dimulai dari taman kanak-kanak dan berlanjut hingga sekolah pascasarjana.
Penghasilan diukur dalam ribuan dolar. Misalkan saya secara acak memilih sampel 10 orang dewasa dan mengukur
tingkat pendidikan dan pendapatan bulanan mereka, mendapatkan data yang diberikan pada Tabel 13.2.

Jika kita melihat data ini, kita dapat melihat bahwa secara umum pendapatan bulanan meningkat seiring dengan
meningkatnya tingkat pendidikan. Ini adalah tren umum, bukan absolut, karena dalam beberapa kasus seseorang
dengan pendidikan lebih lama menghasilkan lebih sedikit uang per bulan daripada seseorang dengan pendidikan
lebih rendah (misalnya, Kasus 10 dan Kasus 9, Kasus 6 dan Kasus 5). Jadi meskipun tidak setiap orang dengan
pendidikan lebih menghasilkan lebih banyak uang, rata-rata lebih banyak tahun pendidikan dikaitkan dengan
pendapatan bulanan yang lebih tinggi. Koefisien korelasi yang menggambarkan hubungan kedua variabel ini adalah
r = 0,83, yang merupakan korelasi positif yang sangat kuat (lihat Bab 8 untuk pembahasan lebih rinci tentang
koefisien korelasi).
Jika kita memplot data ini pada grafik sederhana, kita akan menghasilkan sebar, seperti yang disediakan pada
Gambar 13.1. Pada scatterplot ini terdapat 10 titik data, satu untuk setiap kasus dalam penelitian. Perhatikan bahwa
setiap titik data menandai titik pertemuan tingkat pendidikan ( variabel X ) dan pendapatan bulanan ( variabel Y )
untuk setiap kasus. Misalnya, titik yang memiliki nilai 10 pada sumbu y (pendapatan) dan 16 pada sumbu x (tingkat
pendidikan) adalah titik data untuk kasus ke-10 dalam sampel kami. 10 titik data dalam scatterplot kami
mengungkapkan tren yang cukup berbeda. Perhatikan bahwa titik-titik naik agak seragam dari sudut kiri bawah
grafik ke sudut kanan atas. Bentuk ini merupakan indikator yang jelas dari hubungan positif (yaitu, korelasi) antara
tingkat pendidikan dan pendapatan. Jika ada korelasi sempurna antara dua variabel ini (yaitu, r = 1,0), titik-titik data
akan sejajar dalam garis lurus sempurna, naik dari kiri bawah ke kanan atas pada grafik. Jika hubungan antara
kedua variabel ini lebih lemah (misalnya, r = 0,30), titik data akan lebih tersebar luas, membuat tren kiri bawah ke
kanan atas menjadi kurang jelas.

Dengan data yang diberikan pada Tabel 13.2, kita dapat menghitung semua bagian dari persamaan regresi.
Persamaan regresi memungkinkan kita untuk melakukan dua hal. Pertama, ini memungkinkan kita menemukan prediksi
Machine Translated by Google

148 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

12
11
9
10
9
10
8
7
8
6
7
5
5
4
3 6
4
2 2
1 3
1
0
-1
–2
–3
–4
86420 22 20 18 16 14 12 10

Pendidikan (dalam tahun)

Gambar 13.1 Scatterplot untuk pendidikan dan pendapatan.


Machine Translated by Google

Regresi 149 _

koefisien regresi, dan juga merupakan kemiringan garis regresi, (3) X adalah nilai dari X
variabel, dan (4) a adalah nilai intersep (yaitu, di mana garis regresi memotong sumbu y).
Karena Y adalah nilai yang dihasilkan oleh persamaan regresi, mari kita simpan yang terakhir. Dan karena
X hanyalah nilai yang diberikan pada variabel X , sebenarnya tidak ada yang bisa dikerjakan dengan nilai itu.
Jadi mari kita lihat lebih dekat a dan b.
Kita tidak dapat menghitung intersep sebelum kita mengetahui kemiringan garis regresi, jadi mari
kita mulai dari sana. Rumus untuk menghitung koefisien regresi adalah

s
br= × kamu

s
x

di mana

b adalah koefisien regresi,


r adalah korelasi antara variabel X dan Y ,
sy adalah simpangan baku variabel Y ,
sx adalah simpangan baku variabel X.

Melihat data pada Tabel 13.2, kita dapat melihat bahwa r = .83, sy = 3.12, sx = 4.25. Ketika kita memasukkan
angka-angka ini ke dalam rumus, kita mendapatkan yang berikut:

3 .12
83 b. = ×
.
4 25

b = (.83) × (.73)

b = 0,61

Perhatikan bahwa koefisien regresi hanyalah koefisien korelasi kali rasio standar deviasi untuk
dua variabel yang terlibat. Ketika kita mengalikan koefisien korelasi dengan rasio standar deviasi ini,
kita secara kasar mengubah koefisien korelasi menjadi skala pengukuran yang digunakan untuk dua
variabel. Perhatikan bahwa ada rentang yang lebih kecil, atau variasi yang lebih sedikit, dari skor
pada variabel Y kami yang ada pada variabel X kami dalam contoh ini. Hal ini tercermin dalam rasio
standar deviasi yang digunakan untuk menghitung b.
Sekarang setelah kita mendapatkan b, kita dapat menghitung intersep, a. Rumus untuk a adalah sebagai berikut:
- -
a = Y – bX

di mana
-
Y
- adalah nilai rata-rata dari
Y, X adalah nilai rata-rata dari X,
dan b adalah koefisien regresi.

Ketika kita memasukkan nilai-nilai dari Tabel 13.2, kita menemukan bahwa

a = 4.1 – (.61)(12.9)

a = 4,1 – 7,87

a = -3,77.

Nilai a ini menunjukkan bahwa intersep untuk garis regresi adalah -3,77. Dengan kata lain, garis
regresi memotong sumbu y dengan nilai -3,77. Dengan kata lain, intersep ini memberitahu kita
Machine Translated by Google

150 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga


Machine Translated by Google

Regresi 151 _

12
11 9
10
9
10
8
7 8
6 7
5 5
4
3 6
4
2 2
1 3

10

-1
–2
–3
–4
6420 22 20 18 16 14 12 10 8
Pendidikan

Gambar 13.2 Scatterplot dengan garis regresi.


Machine Translated by Google

152 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Regresi Berganda
Sekarang kita telah membahas elemen regresi linier sederhana, mari beralih ke pertimbangan regresi
berganda. Terlepas dari kualitas yang mengesankan dari regresi linier sederhana, kebenaran yang jelas adalah
bahwa ketika kita hanya memiliki dua variabel, regresi linier sederhana tidak memberikan lebih banyak informasi
daripada koefisien korelasi sederhana. Karena itu, Anda jarang melihat regresi linier sederhana dengan dua
variabel yang dilaporkan dalam penelitian yang dipublikasikan. Tetapi regresi berganda adalah cerita yang
sama sekali berbeda. Regresi berganda adalah statistik yang sangat kuat yang dapat digunakan untuk
menyediakan serangkaian informasi berguna yang mengejutkan. Pada titik ini, mungkin perlu diingatkan bahwa
dalam buku pendek seperti ini, kita hanya menggores permukaan dari apa yang dapat dilakukan regresi
berganda dan bagaimana cara kerjanya. Pembaca yang tertarik harus merujuk ke satu atau semua referensi
yang tercantum di akhir bab ini untuk menemukan informasi lebih lanjut tentang teknik yang kuat ini.
Untuk mengilustrasikan beberapa manfaat regresi berganda, mari tambahkan variabel prediktor kedua pada
contoh kita. Sejauh ini, dengan menggunakan data dari Tabel 13.2, kami telah menguji hubungan antara tingkat
pendidikan dan pendapatan. Dalam contoh ini, tingkat pendidikan telah digunakan sebagai prediktor atau variabel
independen kami dan pendapatan telah digunakan sebagai variabel dependen atau hasil kami . Kami menemukan
bahwa, rata-rata, dalam sampel kami, gaji bulanan seseorang diperkirakan akan meningkat sebesar $610 untuk
setiap tahun tambahan sekolah yang diterima individu tersebut. Tetapi ada beberapa kesalahan dalam prediksi
kami, yang menunjukkan bahwa ada variabel lain yang memprediksi berapa banyak uang yang dihasilkan
seseorang. Salah satu prediktor tersebut mungkin lamanya waktu seseorang telah keluar dari sekolah. Karena
orang cenderung menghasilkan lebih banyak uang semakin lama mereka bekerja, masuk akal bahwa orang
dewasa dalam sampel kami yang menyelesaikan sekolah sejak lama mungkin menghasilkan lebih banyak
daripada mereka yang menyelesaikan sekolah baru-baru ini. Meskipun Kasus 4 dan Kasus 5 masing-masing
memiliki 12 tahun sekolah, Kasus 5 menghasilkan lebih banyak uang daripada Kasus 4. Mungkin ini karena
Kasus 5 bekerja lebih lama daripada Kasus 4.
Ketika kita menambahkan variabel prediktor kedua ini ke dalam model, kita mendapatkan persamaan
regresi berikut:

Y = a + bX1 + bX2

di mana

Y adalah nilai prediksi dari variabel dependen,


X1 adalah nilai variabel prediktor pertama,
dan X2 adalah nilai dari variabel prediktor kedua.

Persamaan regresi dengan dua variabel prediktor ini akan memungkinkan saya untuk memeriksa sejumlah
pertanyaan yang berbeda. Pertama, saya dapat melihat apakah dua variabel prediktor saya, digabungkan,
secara signifikan terkait dengan, atau prediksi, variabel dependen saya, dan seberapa banyak varians yang
dijelaskan variabel prediktor saya dalam variabel dependen saya. Kedua, saya dapat menguji apakah masing-
masing variabel prediktor saya secara signifikan terkait dengan variabel dependen saya ketika mengontrol
variabel prediktor lainnya. Ketika saya mengatakan "mengendalikan variabel prediktor lain," maksud saya bahwa
saya dapat memeriksa apakah variabel prediktor terkait dengan variabel dependen setelah saya mengeluarkan
sebagian, atau mengambil, bagian dari varians dalam variabel dependen saya yang telah dipertanggungjawabkan
oleh variabel independen saya yang lain. Ketiga, saya dapat melihat mana dari dua variabel prediktor saya yang
merupakan prediktor kuat dari variabel dependen saya. Keempat, saya dapat menguji apakah satu variabel
prediktor terkait dengan variabel dependen saya setelah mengontrol variabel prediktor lainnya, sehingga
melakukan semacam ANCOVA (lihat Bab 10 untuk pembahasan ANCOVA). Ada banyak hal lain yang dapat
saya lakukan dengan regresi berganda, tetapi saya akan membatasi pembahasan saya pada empat hal ini.
Misalkan untuk 10 kasus dalam sampel saya, saya juga mengukur jumlah tahun mereka
bekerja, dan saya mendapatkan data yang disajikan pada Tabel 13.3. Data ini mengungkapkan
bahwa baik tahun pendidikan dan tahun di angkatan kerja berkorelasi positif dengan pendapatan bulanan.
Machine Translated by Google

Regresi 153 _

Tabel 13.3 Data Pendapatan dan Tingkat Pendidikan

Pendapatan Bulanan
Tingkat Pendidikan (X1) Tahun Bekerja (X2) (Y) (dalam ribuan)

Kasus 1 6 tahun 10 1
Kasus 2 8 tahun 14 1.5
Kasus 3 11 tahun 8 1
Kasus 4 12 tahun 7 2
Kasus 5 12 tahun 20 4
Kasus 6 13 tahun 15 2.5
Kasus 7 14 tahun 17 5
Kasus 8 16 tahun 22 6
Kasus 9 16 tahun 30 10
Kasus 10 21 tahun 10 8

Berarti 12.9 15 4.1


Standar deviasi 4.25 7.20 3.12
Korelasi dengan pendapatan r = .83 r = 0,70

Tetapi seberapa besar perbedaan pendapatan yang dapat dijelaskan oleh kedua variabel prediktor ini ? Akankah tahun
pendidikan masih memprediksi pendapatan ketika kita mengendalikan efek dari tahun di angkatan kerja?
Dengan kata lain, setelah saya membagi sebagian dari varians pendapatan yang diperhitungkan selama bertahun-tahun
dalam angkatan kerja, apakah tahun pendidikan masih dapat membantu kita memprediksi pendapatan? Manakah dari dua
variabel independen ini yang akan menjadi prediktor pendapatan yang lebih kuat? Dan apakah masing-masing akan
memberikan kontribusi unik dalam menjelaskan perbedaan pendapatan?
Untuk menjawab pertanyaan ini, saya menggunakan paket perangkat lunak statistik SPSS untuk menganalisis data saya.
(Catatan: Dengan hanya 10 kasus dalam sampel saya, tidak bijaksana untuk menjalankan regresi berganda. Saya
melakukannya hanya untuk tujuan ilustrasi. Saat melakukan analisis regresi berganda, Anda harus memiliki setidaknya 30
kasus ditambah 10 kasus untuk setiap variabel prediktor dalam model.) Saya mulai dengan menghitung koefisien korelasi
Pearson untuk ketiga variabel dalam model. Hasilnya disajikan pada Tabel 13.4.

Data ini mengungkapkan bahwa baik tingkat pendidikan dan lama kerja keduanya berkorelasi dengan pendapatan
bulanan (r = 0,826 dan r = 0,695 untuk pendidikan dan angkatan kerja dengan pendapatan, masing-masing). Pada Tabel
13.4, kita juga dapat melihat bahwa ada korelasi kecil hingga sedang antara dua prediktor kami, tahun pendidikan dan tahun
kerja (r = .310). Karena korelasi ini cukup lemah, kita dapat menyimpulkan bahwa kedua variabel independen ini dapat
memprediksi tingkat pendidikan.

Ingat bahwa dalam regresi berganda, kita memiliki banyak variabel prediktor yang mencoba menjelaskan varians dalam
variabel dependen. Agar variabel prediktor dapat menjelaskan varians dalam variabel dependen, variabel tersebut harus
terkait dengan variabel dependen (lihat Bab 7 dan pembahasan tentang koefisien determinasi). Dalam contoh kami saat ini,
kedua variabel prediktor kami sangat berkorelasi dengan variabel dependen kami, sehingga kondisi ini terpenuhi. Selain itu,
untuk masing-masing variabel prediktor kami untuk menjelaskan bagian varians yang unik, atau independen, dalam variabel
dependen, dua variabel prediktor kami tidak dapat terlalu terkait satu sama lain. Jika dua variabel prediktor kami sangat
berkorelasi satu sama lain, maka tidak akan ada

Tabel 13.4 Korelasi Antar Variabel dalam Model Regresi

Tahun Pendidikan Tahun Tenaga Kerja Pendapatan Bulanan

tahun-tahun pendidikan 1.000


Tahun di angkatan kerja .310 1.000

Pendapatan bulanan .826 .695 1.00


Machine Translated by Google

154 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Mandiri pertama
variabel (X1) Independen kedua
variabel (X2)

Varians bersama Varian unik

Bergantung
variabel (Y)

Gambar 13.3 Varians bersama dalam regresi berganda.

sangat banyak varians yang tidak dapat dijelaskan dalam variabel prediktor saya yang tersisa untuk menjelaskan varians
dalam variabel dependen (lihat Gambar 13.3).
Sebagai contoh, anggaplah korelasi antara skor pada tes membaca sangat terkait dengan skor pada tes menulis (r
= 0,90). Sekarang anggaplah saya ingin menggunakan nilai tes membaca dan menulis untuk memprediksi nilai siswa di
kelas bahasa Inggris. Karena nilai tes membaca dan menulis sangat berkorelasi satu sama lain, saya mungkin tidak akan
menjelaskan lebih lanjut tentang varian nilai kelas bahasa Inggris dengan menggunakan kedua variabel prediktor
daripada jika saya hanya menggunakan satu atau yang lain. Dengan kata lain, setelah saya menggunakan skor tes
membaca untuk memprediksi nilai kelas bahasa Inggris, menambahkan skor tes menulis ke model regresi saya mungkin
tidak akan menjelaskan lagi varians dalam variabel dependen saya, karena skor tes membaca dan menulis sangat erat
kaitannya dengan satu sama lain.
Konsep ini direpresentasikan secara grafis pada Gambar 13.3. Area yang diarsir mewakili varians bersama. Perhatikan
bahwa area yang diarsir dalam dua variabel prediktor sangat besar, hampir tidak mungkin bagi area yang tidak diarsir di
setiap variabel prediktor untuk tumpang tindih dengan variabel dependen. Area yang tidak diarsir ini mewakili perbedaan
unik yang menjelaskan kekuatan masing-masing prediktor. Anda dapat melihat bahwa ketika porsi unik dari variabel
prediktor ini kecil, sulit bagi setiap prediktor untuk menjelaskan porsi unik dari varians dalam variabel dependen.

Korelasi yang kuat antar variabel prediktor disebut multikolinearitas dan dapat menimbulkan masalah dalam analisis
regresi berganda karena dapat mempersulit untuk mengidentifikasi hubungan unik antara masing-masing variabel
prediktor dan variabel dependen.
Kembali ke contoh kita menggunakan tingkat pendidikan dan tahun di angkatan kerja untuk memprediksi pendapatan
bulanan, ketika saya melakukan analisis regresi menggunakan SPSS, saya mendapatkan hasil yang disajikan pada
Tabel 13.5. Ada beragam hasil yang dihasilkan dengan model regresi berganda. Hasil ini telah disusun menjadi tiga
bagian dalam Tabel 13.5. Saya telah memberi label pada bagian pertama “Dijelaskan Varians.” Di sini, kita dapat melihat
bahwa kita mendapatkan nilai “R” sebesar 0,946. Ini adalah koefisien korelasi berganda (R), dan ini memberikan
ukuran korelasi antara dua prediktor yang digabungkan dan variabel dependen. Ini juga merupakan korelasi antara nilai
Y yang diamati dan nilai prediksi Y ( ÿ Y ). Jadi secara bersama-sama, tahun pendidikan dan tahun bekerja memiliki
korelasi yang sangat kuat dengan pendapatan bulanan. Selanjutnya, kita mendapatkan nilai “R Square” (dilambangkan
R2 ). Ini pada dasarnya adalah koefisien determinasi (lihat Bab 7) untuk variabel prediktor gabungan saya dan variabel
dependen, dan ini memberi kita persentase varians yang dijelaskan. Jadi, tahun pendidikan dan masa kerja, jika
digabungkan, menjelaskan 89,6% perbedaan pendapatan bulanan. Ketika Anda mempertimbangkan bahwa ini hanya
menyisakan sekitar 10% dari perbedaan pendapatan bulanan yang tidak dapat dijelaskan, Anda dapat melihat bahwa ini
adalah jumlah perbedaan yang sangat besar yang dijelaskan. Statistik R2 adalah ukuran ukuran efek yang digunakan
dalam regresi berganda. Karena ini adalah ukuran varians yang dijelaskan (seperti r2 dalam korelasi dan eta-kuadrat
dalam ANOVA), ini memberikan cara praktis untuk menilai signifikansi praktis dari hubungan prediktor dengan
Machine Translated by Google

Regresi 155 _

Tabel 13.5 Contoh Hasil Regresi Berganda Memprediksi Pendapatan Bulanan

Varians Dijelaskan
R . yang disesuaikan Std.
R R Square Kotak Kesalahan Perkiraan

.946 .896 .866 1.1405

Hasil ANOVA

Jumlah Kuadrat Df Rata-rata Persegi Nilai F nilai p

Regresi 78.295 2 39.147 30.095 .000


Sisa 9.105 7 1.301
Total 87.400 9

Koefisien Regresi
Tidak standar Standar
Koefisien Koefisien

B Std. Kesalahan Beta Nilai t nilai p

Mencegat –5.504 1.298 –4.241 .004


tahun pendidikan .495 .094 .676 5.270 .001
Tahun kerja .210 .056 .485 3.783 .007

variabel tak bebas. Dalam contoh ini, ukuran efeknya besar, menunjukkan signifikansi praktis serta
signifikansi statistik. "R Square yang Disesuaikan" memperhitungkan beberapa kesalahan yang terkait
dengan beberapa variabel prediktor dengan mempertimbangkan jumlah variabel prediktor dan ukuran
sampel, dan dengan demikian sedikit menyesuaikan nilai R2 . Akhirnya, ada kesalahan standar untuk
nilai R dan R2 (lihat Bab 5 untuk pembahasan kesalahan standar).
Pindah ke tabel ke bagian "Hasil ANOVA", kami mendapatkan beberapa statistik yang membantu kami
menentukan apakah model regresi keseluruhan kami signifikan secara statistik. Bagian ini hanya memberi
tahu kita apakah dua variabel prediktor kita, digabungkan, mampu menjelaskan porsi varians yang
signifikan secara statistik dalam variabel dependen kita. Nilai F sebesar 30,095, dengan nilai p yang
sesuai sebesar 0,000, menunjukkan bahwa model regresi kami signifikan secara statistik. Dengan kata
lain, hubungan antara tahun pendidikan dan tahun di angkatan kerja gabungan (variabel prediktor kami)
dan pendapatan bulanan (variabel dependen kami) secara statistik signifikan (yaitu, lebih besar dari nol).
Perhatikan bahwa statistik ANOVA ini sangat mirip dengan yang disajikan dalam Bab 10 tentang gender
dan IPK yang memprediksi perasaan efikasi diri di antara siswa sekolah menengah. Jumlah model kuadrat
pada Tabel 10.2 sesuai dengan jumlah regresi kuadrat pada Tabel 13.5. Dalam kedua kasus, kami
memiliki jumlah kuadrat yang terkait dengan prediktor gabungan, atau model keseluruhan.

Demikian pula, galat jumlah kuadrat pada Tabel 10.2 dianalogikan dengan jumlah sisa kuadrat pada
Tabel 13.5. Itu karena residual hanyalah bentuk lain dari kesalahan. Sama seperti nilai F keseluruhan
pada Tabel 10.2 yang dihasilkan dengan membagi kuadrat rata-rata untuk model dengan kesalahan
kuadrat rata-rata, nilai F keseluruhan pada Tabel 13.5 dihasilkan dengan membagi regresi kuadrat rata-
rata dengan sisa kuadrat rata-rata. Dalam kedua kasus, kami mendapatkan nilai F , dan uji signifikansi
yang sesuai, yang menunjukkan apakah, secara keseluruhan, prediktor kami secara signifikan terkait
dengan variabel dependen kami.
Akhirnya, di bagian ketiga Tabel 13.5, kita sampai pada bagian tabel yang paling menarik.
Di sini kita melihat intersep dan koefisien regresi untuk setiap variabel prediktor. Ini adalah bagian dari
persamaan regresi. Kita dapat menggunakan statistik ini untuk membuat persamaan regresi:
Machine Translated by Google

156 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Contoh: Memprediksi Penggunaan Strategi Self-Handicapping


Machine Translated by Google

Regresi 157 _

menghabiskan waktu dengan teman-teman mereka ketika mereka harus mengerjakan pekerjaan rumah mereka.
Perilaku ini disebut “self-handicapping” karena mereka benar-benar menghambat peluang siswa untuk berhasil. Salah
satu alasan mengapa siswa dapat terlibat dalam perilaku seperti itu adalah untuk memberikan penjelasan atas kinerja
akademik mereka yang buruk, jika hal itu terjadi. Jika siswa takut bahwa mereka mungkin berkinerja buruk pada tugas
akademis, mereka mungkin tidak ingin orang lain berpikir bahwa alasan kinerja yang buruk ini adalah karena mereka
kekurangan kemampuan, atau kecerdasan. Jadi beberapa siswa secara strategis terlibat dalam self-handicapping untuk
memberikan penjelasan alternatif untuk kinerja yang buruk. Itulah mengapa perilaku ini disebut strategi self-handicapping.
Karena strategi self-handicapping dapat merusak prestasi akademik dan mungkin merupakan tanda penarikan
akademik di pihak siswa, penting untuk memahami faktor-faktor yang terkait dengan penggunaan strategi ini. Self-
handicapping mewakili kekhawatiran dengan tidak terlihat tidak mampu secara akademis, bahkan jika itu berarti
mengorbankan kinerja. Oleh karena itu, terlibat dalam perilaku self-handicapping mungkin terkait dengan tujuan siswa
untuk menghindari tampil tidak mampu secara akademis kepada orang lain. Selain itu, karena self-handicapping dapat
diprovokasi oleh situasi kinerja di mana siswa berharap untuk gagal, mungkin hal itu terjadi lebih sering di antara siswa
berprestasi rendah, yang memiliki sejarah kinerja akademik yang buruk. Selain itu, masuk akal untuk menduga bahwa
ketika siswa kurang percaya diri dalam kemampuan akademik mereka, mereka akan lebih cenderung menggunakan
strategi self-handicapping. Akhirnya, mungkin ada perbedaan gender dalam seberapa peduli siswa sekolah menengah
dengan penampilan akademis yang tidak mampu bagi orang lain. Oleh karena itu, saya melakukan analisis regresi
berganda untuk menguji apakah tujuan penghindaran, self-efficacy, gender, dan IPK, sebagai kelompok dan individu,
memprediksi penggunaan strategi self-handicapping.

Kolega saya, Carol Giancarlo, dan saya baru-baru ini mengumpulkan data dari 464 siswa sekolah menengah di
mana kami menggunakan survei untuk mengukur penggunaan strategi self-handicapping yang mereka laporkan sendiri.
Selain itu, survei tersebut berisi pertanyaan tentang keinginan mereka untuk menghindari terlihat tidak mampu secara
akademis (disebut "tujuan penghindaran") dan kepercayaan diri mereka pada kemampuan mereka untuk tampil secara
akademis (disebut "kemanjuran diri"). Kami juga mengumpulkan informasi tentang jenis kelamin siswa (yaitu, apakah
mereka laki-laki atau perempuan) dan IPK mereka secara keseluruhan di sekolah menengah. Self-handicapping, tujuan
penghindaran, dan self-efficacy semuanya diukur menggunakan skala 1-5. Skor rendah menunjukkan bahwa siswa
tidak percaya item itu benar untuk mereka (yaitu, tidak menggunakan strategi self-handicapping, tidak percaya diri pada
kemampuan mereka, tidak peduli dengan mencoba untuk menghindari terlihat tidak mampu secara akademis),
sedangkan skor tinggi menunjukkan di depan. Jenis kelamin diberi kode “dummy” (laki-laki = 1, perempuan = 0), dan
IPK diukur menggunakan skala dari 0 hingga 4,0 (0 = F, 4,0 = rata-rata).
Sekali lagi, saya menggunakan SPSS untuk menganalisis data saya. Hasil analisis regresi berganda ini disajikan
pada Tabel 13.6. Di bagian pertama tabel, “Variance Explained,” terdapat nilai R sebesar 0,347, dan nilai R2 sebesar
0,12. Statistik ini memberi tahu kita bahwa keempat variabel prediktor, digabungkan, memiliki korelasi moderat dengan
handicapping diri (multiple R = 0,347) dan menjelaskan 12% varians dalam handicapping. Nilai R2 ini dikurangi menjadi
0,113 ketika disesuaikan dengan kesalahan yang terkait dengan beberapa variabel prediktor. Di bagian kedua tabel,
“Hasil ANOVA,” saya melihat bahwa saya memiliki nilai F 15,686 dan nilai p yang sesuai .000. Hasil ini memberi tahu
saya bahwa, sebagai sebuah kelompok, empat variabel prediktor saya menjelaskan porsi varians yang signifikan
secara statistik dalam self-handicapping. Dengan kata lain, keseluruhan model regresi saya signifikan secara statistik.

Di bagian terakhir tabel, saya menemukan koefisien regresi tidak standar saya (kolom berlabel "B") untuk setiap
variabel prediktor dalam model, serta intersep saya. Ini memberitahu saya bahwa IPK dan self-efficacy berhubungan
negatif dengan self-handicapping, sedangkan gender dan tujuan penghindaran berhubungan positif dengan self-
handicapping. Memindai ke sisi kanan tabel, saya menemukan koefisien regresi standar (kolom berlabel "Beta").
Koefisien ini, yang semuanya dikonversi ke skala standar yang sama, mengungkapkan bahwa IPK dan self-efficacy
tampaknya lebih kuat terkait dengan self-handicapping daripada tujuan penghindaran dan, khususnya, jenis kelamin.

Melanjutkan pemindaian ke sisi kanan tabel, saya menemukan nilai t dan nilai p saya untuk setiap koefisien. Ini
memberitahu saya variabel independen saya yang mana yang secara statistik signifikan diprediksi.
Machine Translated by Google

158 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 13.6 Hasil Regresi Berganda untuk Memprediksi Self-Handicapping

Varians Dijelaskan
R . yang disesuaikan Std.
R R Square Kotak Kesalahan Perkiraan

.347 .120 .113 .9005

Hasil ANOVA

Jumlah Kuadrat Df Rata-rata Persegi Nilai F nilai p

Regresi 50.877 4 12,719 15.686 .000


Sisa 372.182 459 .811
Total 423.059 463

Koefisien Regresi
Tidak standar Standar
Koefisien Koefisien

B Std. Kesalahan Beta Nilai t nilai p

Mencegat 3.630 .264 13,775 .000


Tujuan penghindaran .132 .045 .130 2.943 .003
Nilai (IPK) –.254 .054 –.209 –4.690 .000
Jenis kelamin .105 .085 .055 1.234 .218
Efikasi Diri –.232 .052 –.198 –4.425 .000

tor dari self-handicapping. Nilai p memberi tahu saya bahwa semua variabel independen, kecuali jenis kelamin,
adalah prediktor signifikan dari kecacatan.
Jadi apa yang bisa kita lakukan dari hasil ini? Pertama, prediktor saya menjelaskan persentase usia yang
signifikan dari varians dalam self-handicapping, meskipun persentasenya tidak terlalu besar (sekitar 11%).
Kedua, seperti yang kita duga, siswa dengan IPK lebih tinggi melaporkan terlibat dalam perilaku yang kurang
merugikan diri sendiri dibandingkan siswa dengan IPK lebih rendah. Ketiga, siswa dengan lebih percaya diri
dalam kemampuan akademik mereka terlibat dalam kurang self-handicapping daripada siswa dengan kurang
percaya diri dalam kemampuan mereka. Keempat, siswa yang peduli dengan tidak terlihat tidak mampu secara
akademis di sekolah lebih cenderung menggunakan strategi self-handicapping daripada siswa tanpa masalah
ini. Akhirnya, anak laki-laki dan perempuan tidak berbeda secara signifikan dalam penggunaan strategi self-
handicapping yang dilaporkan. Meskipun anak laki-laki mendapat skor sedikit lebih tinggi daripada anak
perempuan pada item cacat (kita tahu ini karena koefisien regresi positif, dan variabel gender diberi kode anak
laki-laki = 1, anak perempuan = 0), perbedaan ini tidak signifikan secara statistik.
Penting untuk diingat bahwa hasil untuk setiap variabel independen dilaporkan sambil mengontrol efek dari
variabel independen lainnya. Jadi hubungan yang signifikan secara statistik antara self-efficacy dan self-
handicapping ada bahkan ketika kita mengontrol efek IPK dan tujuan penghindaran. Ini penting, karena orang
mungkin tergoda untuk berargumen bahwa hubungan antara kepercayaan diri dan kelemahan diri hanyalah
produk sampingan dari prestasi akademik. Mereka yang berprestasi lebih baik di sekolah harus lebih percaya
diri dengan kemampuan mereka, dan oleh karena itu harus terlibat dalam mengurangi kecacatan diri. Hasil
dari regresi berganda ini mengungkapkan bahwa ada hubungan yang signifikan secara statistik antara self-
efficacy dan self handicapping bahkan setelah mengontrol efek kinerja akademik. Kepercayaan diri dikaitkan
dengan kurangnya self-handicapping terlepas dari tingkat prestasi akademik seseorang. Demikian pula, ketika
siswa peduli untuk tidak terlihat bodoh di sekolah (menghindari tujuan), terlepas dari tingkat pencapaian (IPK)
mereka yang sebenarnya, mereka lebih cenderung terlibat dalam perilaku self-handicapping.

Kemampuan untuk menguji hubungan gabungan dan independen antara variabel prediktor dan variabel
dependen adalah nilai sebenarnya dari analisis regresi berganda.
Machine Translated by Google

Regresi 159 _

Menulis Itu
Untuk menuliskan hasil regresi berganda yang dirangkum dalam Tabel 13.6 untuk jurnal atau konferensi
profesional, saya hanya memerlukan beberapa kalimat:

Analisis regresi berganda dilakukan untuk menguji prediktor self-handicapping.


Empat prediktor secara bersamaan dimasukkan ke dalam model: Avoidance Goals, IPK, Gender,
dan Self-efficacy. Bersama-sama, prediktor ini menyumbang 11% dari varians dalam self-handicapping.
Semua variabel ini kecuali jenis kelamin adalah prediktor signifikan dari self-handicapping. IPK (ÿ =
–.21) dan self-efficacy (ÿ = –.20) adalah prediktor terkuat dan berhubungan negatif dengan self-
handicapping, sedangkan tujuan penghindaran berhubungan positif dengan self-handicapping (ÿ =
.13).

Mengakhiri dan Menantikan


Tumpang tindih antara korelasi (Bab 8) dan regresi sangat jelas. Faktanya, regresi linier sederhana
memberikan statistik, koefisien regresi, yang hanyalah versi koefisien korelasi Pearson yang tidak
standar. Apa yang mungkin kurang jelas, tetapi sama pentingnya, adalah bahwa regresi juga merupakan
kerabat dekat ANOVA. Seperti yang Anda lihat dalam pembahasan Tabel 13.6, regresi adalah bentuk
analisis varians. Sekali lagi, kami tertarik untuk membagi varians dari variabel dependen dan
menjelaskannya dengan variabel independen kami. Perbedaan utama antara ANOVA dan regresi
umumnya melibatkan jenis variabel yang dianalisis, dengan ANOVA menggunakan variabel bebas
kategoris dan regresi menggunakan variabel bebas berkelanjutan. Saat Anda mempelajari lebih lanjut
tentang regresi sendiri, Anda akan belajar bahwa bahkan perbedaan sederhana ini salah, karena variabel
independen kategoris dapat dianalisis dalam regresi.

Daftar Istilah dan Simbol untuk Bab 13


Dependent, hasil, variabel kriteria: Istilah yang berbeda untuk variabel dependen.
Dikotomis: Dibagi menjadi dua kategori.
Kesalahan: Jumlah perbedaan antara nilai prediksi dan nilai yang diamati dari variabel dependen. Ini
juga merupakan jumlah varians yang tidak dapat dijelaskan dalam variabel dependen.
Independen, variabel prediktor: Istilah yang berbeda untuk variabel independen.
Intercept: Titik di mana garis regresi memotong sumbu y. Juga, nilai Y ketika
X = 0.
Multikolinearitas: Tingkat tumpang tindih antara variabel prediktor dalam regresi berganda.
Multikolinearitas yang tinggi antar variabel prediktor dapat menyebabkan kesulitan menemukan
hubungan yang unik antara prediktor dan variabel dependen.
Koefisien korelasi berganda: Statistik yang mengukur kekuatan hubungan antara
beberapa variabel bebas, sebagai satu kelompok, dan satu variabel terikat.
Regresi berganda: Model regresi dengan lebih dari satu variabel independen, atau prediktor.
Nilai yang diamati: Nilai aktual dan terukur dari variabel Y pada nilai X tertentu.
Regresi kuadrat terkecil biasa (OL S): Bentuk umum regresi yang menggunakan jumlah deviasi kuadrat
terkecil untuk menghasilkan garis regresi.
Overpredicted: Nilai Y yang teramati pada nilai X tertentu yang berada di bawah nilai prediksi Y (yaitu,
nilai yang diprediksi oleh persamaan regresi).
Nilai yang diprediksi: Estimasi nilai Y pada nilai X tertentu yang dihasilkan oleh persamaan regresi.

Koefisien regresi: Ukuran hubungan antara masing-masing variabel prediktor dan variabel dependen.
Dalam regresi linier sederhana, ini juga merupakan kemiringan regresi
Machine Translated by Google

160 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

garis. Dalam regresi berganda, berbagai koefisien regresi digabungkan untuk menciptakan
kemiringan garis regresi.
Persamaan regresi: Komponen, termasuk koefisien regresi, intersep, istilah kesalahan, dan nilai X dan Y
yang digunakan untuk menghasilkan nilai prediksi untuk Y dan garis regresi.

Garis regresi: Garis yang dapat ditarik melalui sebar data yang paling "cocok" dengan data (yaitu,
meminimalkan deviasi kuadrat antara nilai yang diamati dan garis regresi).

Residuals: Kesalahan dalam prediksi. Selisih antara nilai Y yang diamati dan yang diprediksi.
Scatterplot: Sebuah representasi grafis dari data sepanjang dua dimensi (X dan Y).
Regresi linier sederhana: Model regresi yang digunakan ketika ada satu variabel dependen dan satu
variabel independen.
Kemiringan: Jumlah rata-rata perubahan variabel Y untuk setiap satu unit perubahan X
variabel.
Koefisien regresi standar: Koefisien regresi diubah menjadi standar
nilai-nilai.

U nderpredicted: Nilai yang diamati dari Y pada nilai X tertentu yang berada di atas nilai prediksi Y (yaitu,
nilai yang diprediksi oleh persamaan regresi).
Varians unik: Proporsi varians dalam variabel dependen yang dijelaskan oleh variabel independen ketika
mengontrol semua variabel independen lainnya dalam model.

Yˆ Nilai prediksi Y, variabel dependen.


Y Nilai observasi Y, variabel dependen.
Koefisien regresi tidak standar.
b . Intersep.
sebuah

e Istilah kesalahan.
R Koefisien korelasi berganda.
R2 Persentase varians dijelaskan oleh model regresi.

Bacaan yang Direkomendasikan

Aiken, LS, & Barat, SG (1991). Regresi berganda: Menguji dan menafsirkan interaksi. Taman Newbury,
CA: Bijak.
Berry, WD, & Feldman, S. (1985). Regresi berganda dalam praktik. Beverly Hills, CA: Sage.
Cohen, J., & Cohen, P. (1975). Terapan analisis regresi/ korelasi berganda untuk ilmu perilaku.
Hillsdale, NJ: Lawrence Erlbaum Associates.
Jaccard, J., Turrisi, R., & Wan, CK (1990). Efek interaksi dalam regresi berganda. Taman Newbury, CA:
Sage.
Pedhazur, EJ (1982). Regresi berganda dalam penelitian perilaku: Penjelasan dan prediksi (edisi ke-2). New York:
Penjepit Harcourt.
Machine Translated by Google

Bab 14
Tes Independensi Chi-Kuadrat

Semua statistik inferensial yang dibahas dalam buku ini memiliki serangkaian asumsi. Regresi, ANOVA,
korelasi, dan uji t semua mengasumsikan bahwa data yang terlibat adalah skor pada beberapa ukuran
(misalnya, skor IQ, tinggi badan, pendapatan, skor pada ukuran depresi) dihitung dari sampel yang
diambil dari populasi yang berdistribusi normal, dan semuanya adalah keren-perahu dalam dunia
penelitian. Tentu saja, seperti yang dibahas dalam Bab 1, kondisi ini sering tidak terpenuhi dalam
penelitian ilmu sosial. Populasi kadang-kadang miring daripada normal. Terkadang peneliti ingin
mengetahui tentang hal-hal selain yang dapat diukur. Penelitian seringkali berantakan dan tidak dapat
diprediksi daripada keren.
Pelanggaran asumsi ini mewakili semacam situasi berita baik-berita buruk. Berita buruknya adalah jika
asumsi dilanggar sampai tingkat yang mengkhawatirkan, hasil statistik ini bisa sulit untuk ditafsirkan,
bahkan tidak berarti. Kabar baiknya adalah bahwa "sampai tingkat yang mengkhawatirkan" adalah
ungkapan yang tidak tepat dan terbuka untuk interpretasi. Dalam banyak situasi, pelanggaran asumsi
data terdistribusi normal sering kali tidak membuat hasil menjadi tidak valid, atau bahkan sangat mengubahnya.
Kabar baik lainnya adalah bahwa bahkan ketika asumsi statistik ini dilanggar secara mengerikan, ada
sekumpulan statistik yang dapat digunakan peneliti yang tidak memiliki asumsi normalitas dan seleksi
acak yang sama: statistik nonparametrik.
Ada sejumlah tes nonparametrik yang tersedia. Uji Mann–Whitney U adalah sejenis ekuivalen
nonparametrik dari uji t independen. Analisis varians Kruskal-Wallis untuk data peringkat dapat secara
kasar diganti dengan ANOVA satu arah untuk variabel yang diskalakan terus menerus. Statistik
nonparametrik ini bisa sangat berguna, dan deskripsi kegunaan dan karakteristiknya dapat ditemukan di
sebagian besar buku teks statistik panjang standar. Dalam bab ini, saya membatasi perhatian saya pada
salah satu tes nonparametrik yang paling umum digunakan: uji independensi chi-kuadrat (ÿ2) . Tes ini
sesuai untuk digunakan ketika Anda memiliki data dari dua variabel kategoris, atau variabel skala nominal
(lihat Bab 1 untuk deskripsi jenis variabel ini). Dengan variabel kategoris, kasus dalam sampel Anda
dibagi di antara berbagai kategori variabel kategoris Anda. Misalnya, gender adalah variabel kategori dan
kasus dalam sampel manusia dapat dibagi menjadi pria dan wanita, dua kategori variabel gender.

Bila Anda memiliki dua variabel kategori, Anda mungkin ingin mengetahui apakah pembagian kasus
dalam satu variabel tidak tergantung pada variabel kategoris lainnya. Misalnya, Anda memiliki sampel
anak laki-laki dan perempuan dari kelas 5, 8, dan 12 sekolah. Anda mungkin ingin tahu apakah
representasi Anda untuk anak laki-laki dan perempuan tergantung pada tingkat kelas mereka, atau apakah
pembagian anak laki-laki dan perempuan adalah tentang apa yang Anda harapkan terlepas dari tingkat
kelas. Itulah jenis pertanyaan yang dirancang untuk dijawab oleh uji independensi chi-kuadrat.
Cara yang lebih tepat untuk menyatakan tujuan uji independensi chi-kuadrat adalah ini: Ini
memungkinkan Anda untuk menentukan apakah kasus dalam sampel termasuk dalam kategori dalam
proporsi yang sama dengan apa yang diharapkan secara kebetulan. Misalnya, Anda bekerja di perguruan
tinggi seni liberal. Anda ingin tahu apakah pria dan wanita di perguruan tinggi Anda berbeda dalam pemilihan

161
Machine Translated by Google

162 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 14.1 Gender dan Data Utama untuk Uji Independensi Chi-Square
Psikologi Bahasa inggris Biologi
Pria 35 50 15
Wanita 30 25 45

jurusan. Jadi Anda secara acak memilih 100 pria dan 100 wanita dan meminta mereka untuk memberi tahu Anda jurusan mereka.
Anda mendapatkan data yang disajikan pada Tabel 14.1.
Apakah distribusi data ini mewakili perbedaan gender yang signifikan secara statistik di jurusan?
Sebelum Anda dapat menjawab pertanyaan itu, Anda perlu mengetahui informasi lebih lanjut. Secara khusus, Anda perlu menentukan
berapa banyak pria dan wanita yang Anda harapkan untuk mengambil jurusan di tiga bidang ini hanya berdasarkan jumlah masing-
masing jenis kelamin dan masing-masing jurusan dalam sampel. Ini adalah jenis pertanyaan yang dapat Anda jawab dengan uji
independensi chi-kuadrat.

Uji Independensi Chi-Kuadrat dalam Kedalaman


Uji independensi chi-kuadrat bekerja dengan membandingkan data yang dikodekan secara kategoris yang telah Anda kumpulkan
(dikenal sebagai frekuensi yang diamati) dengan frekuensi yang Anda harapkan untuk didapatkan di setiap sel tabel secara kebetulan
saja (dikenal sebagai frekuensi yang diharapkan) .
Apa tes memungkinkan Anda untuk menentukan apakah frekuensi yang diamati berbeda secara signifikan dari frekuensi yang
diharapkan. Saat melakukan uji t (Bab 9), Anda menghitung nilai t yang diamati dan membandingkannya dengan nilai t kritis yang
Anda temukan dengan melihat nilai pada Lampiran B. Nilai kritis ini didasarkan pada keluarga distribusi teoretis, dan Anda harus
menggunakan derajat kebebasan untuk menentukan distribusi t mana yang harus Anda gunakan. Anda menggunakan proses serupa
untuk membandingkan nilai F pengamatan dan kritis Anda dalam ANOVA (Bab 10). Kebetulan, ada juga keluarga distribusi untuk
statistik chi kuadrat, dan nilai kritis dari keluarga distribusi ini disajikan dalam Lampiran E. Sama seperti nilai t dan nilai F , Anda perlu
gunakan derajat kebebasan untuk menemukan nilai chi-kuadrat yang sesuai juga.

Tapi hal pertama yang pertama. Bagaimana Anda menghitung nilai 2 yang diamati ? Nah, kita perlu menambahkan sedikit
informasi pada Tabel 14.1. Yaitu, kita perlu menambahkan total kolom, total baris, dan jumlah keseluruhan kasus. Tabel 14.2
menyajikan tabel yang direvisi. Dengan total ini, kita dapat menghitung nilai yang diharapkan untuk setiap sel. Perhatikan bahwa
tabel nilai yang akan dianalisis dalam uji independensi chi-kuadrat dikenal sebagai tabel kontingensi. Itu karena dalam jenis analisis
ini, kami menguji apakah jumlah kasus dalam satu kategori dari satu variabel bergantung pada (yaitu, tergantung atau tidak
tergantung) variabel lainnya. Misalnya, apakah proporsi jurusan Biologi tergantung pada jenis kelamin siswa?

Menggunakan frekuensi yang diamati di setiap sel tabel (yaitu, 35 pria jurusan Psikologi, 30 jurusan Psikologi wanita, 50 jurusan
Bahasa Inggris pria, dll.) dan frekuensi total untuk baris, kolom, dan total sampel, satu set frekuensi yang diharapkan dapat dihitung
untuk masing-masing dari enam sel pada Tabel 14.2. Untuk menemukan frekuensi yang diharapkan untuk sebuah sel, Anda hanya
perlu melakukan sedikit aritmatika. Sel pertama (yaitu, kiri atas) dari Tabel 14.2 mencakup 35 jurusan Psikologi pria. Mengingat
jumlah laki-laki dan jurusan Psikologi dalam sampel total, berapa banyak jurusan Psikologi laki-laki yang kami harapkan ada dalam
sampel kami secara kebetulan? Untuk menjawab pertanyaan ini,

Tabel 14.2 Revisi Gender dan Data Utama untuk Uji Independensi Chi-Square
Psikologi Biologi Bahasa Inggris Jumlah Baris

Pria 35 50 15 100
Wanita 30 25 45 100
Jumlah kolom 65 75 60 200
Machine Translated by Google

Tes Independensi Chi- Kuadrat 163

Tabel 14.3 Nilai yang Diharapkan untuk Gender dan Data Utama

Psikologi Bahasa inggris Biologi

Pria (()100 65 ) = 32 5. (()100 75 ) = 37 5. (()100 60 ) = 33 3.


200 200 200

Wanita (()100 65 ) = 32 5. (()100 75 ) = 37 5. (()100 60 ) = 33 3.


200 200 200

Tabel 14.4 Gabungan Frekuensi yang Diamati dan yang Diharapkan

Psikologi Bahasa Inggris Diamati Biologi

Diharapkan Diamati Diharapkan Diamati Diharapkan


Pria 35 32.5 50 37.5 15 33.3
Wanita 30 32.5 25 37.5 45 33.3
Machine Translated by Google

164 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 14.5 Rumus untuk Menghitung 2

Tabel 14.6 Gabungan Frekuensi yang Diamati dan yang Diharapkan

2 2 2

2 2 2

.19 + .19 + 4.17 + 4.17 + 10.06 + 4.11 = 22.89

2 = 22,89

Perhatikan bahwa perbedaan yang relatif besar antara pria dan wanita yang memilih bahasa Inggris atau Biologi sebagai
jurusan adalah kontributor utama untuk nilai 2 yang besar . Karena perbedaan antara nilai yang diamati dan yang diharapkan
di antara jurusan Psikologi cukup kecil, mereka memberikan kontribusi yang lebih kecil untuk keseluruhan 2.

Sekarang kita telah menghasilkan nilai 2 yang diamati , kita harus membandingkannya dengan nilai 2 kritis dari Lampiran
E untuk menentukan apakah perbedaan antara pria dan wanita dalam pilihan jurusan mereka signifikan secara statistik. Anda
membaca tabel ini sama dengan tabel nilai t yang disajikan pada Lampiran B. Pertama, Anda perlu menentukan derajat
kebebasan (df ) untuk masalah tersebut. Dalam uji independensi chi-kuadrat, df = (R –1)(C – 1) di mana R adalah jumlah
baris dan C adalah jumlah kolom dalam tabel kontingensi.

Dalam contoh kita, R = 2 dan C = 3, jadi df = (2 – 1)(3 – 1) = 2. Selanjutnya, kita perlu menentukan level alpha untuk
pengujian ini. Jika kita mengadopsi tingkat alpha 0,05, kita dapat melihat pada Lampiran E (dengan 2 derajat kebebasan) dan
menemukan nilai 2 kritis 5,99 . Karena nilai 2 yang kami amati adalah 22,89 , kami menyimpulkan bahwa ada perbedaan
yang signifikan secara statistik dalam pilihan jurusan antara pria dan wanita. Faktanya, nilai 2 yang kami amati cukup besar
untuk signifikan secara statistik pada tingkat .001 (yaitu, p < .001).

Apa yang baru saja kita lakukan di sana? Jika Anda membaca bab tentang uji t (Bab 9) atau korelasi (Bab 8), Anda
mungkin mengenali apa yang kami lakukan sebagai pengujian hipotesis. Dalam contoh sebelumnya, hipotesis nol kami
adalah bahwa pilihan jurusan tidak tergantung pada (atau tidak terkait dengan) jenis kelamin. Hipotesis alternatif kami adalah
bahwa siswa utama yang dipilih di perguruan tinggi tergantung pada apakah siswa itu laki-laki atau perempuan. Kami
kemudian menghitung nilai pengamatan 2, memilih tingkat alfa (0,05), menemukan nilai kritis 2, dan menentukan bahwa 2
pengamatan kami lebih besar dari nilai kritis 2 kami . Oleh karena itu, kami menolak hipotesis nol dan menyimpulkan bahwa
pilihan jurusan memang tergantung pada jenis kelamin. Faktanya, probabilitas untuk mendapatkan 2 yang diamati sebesar
yang kami temukan, secara kebetulan, adalah kurang dari .001 (p < .001). Ditulis dalam bentuk pengujian hipotesis, kami
melakukan hal berikut:

Ho: Jenis kelamin dan pilihan jurusan adalah independen, atau tidak berhubungan

HA: Pilihan jurusan tergantung pada, atau bergantung pada, jenis kelamin
Machine Translated by Google

Tes Independensi Chi- Kuadrat 165

= 0,05

df = 2

2 kritis = 5,99

2 diamati = 22,89

Keputusan: Tolak Ho dan simpulkan pilihan jurusan tergantung pada jenis kelamin siswa.

Contoh: Status Generasi dan Tingkat Kelas


Peneliti sering menggunakan uji independensi chi-kuadrat untuk memeriksa apakah anggota sampel terdistribusi secara
merata di antara kelompok yang berbeda. Jika beberapa siswa “terwakili secara berlebihan” dalam satu kelompok dan “kurang
terwakili” di kelompok lain, akan sulit untuk menginterpretasikan hasil analisis.
Misalnya, saya ingin tahu apakah anak laki-laki atau perempuan di sekolah menengah memiliki kinerja yang lebih baik dalam
tes matematika standar. Ini adalah pertanyaan khas di antara kepala sekolah menengah. Mereka sering kali harus melaporkan
kepada orang tua dan komunitas yang lebih besar tentang apa yang dilakukan siswa mereka, dan apakah mereka melayani
siswa laki-laki dan perempuan dengan sama baiknya. Jadi saya melakukan uji t sampel independen dan menemukan bahwa,
rata-rata, nilai anak laki-laki secara signifikan lebih tinggi daripada anak perempuan dalam tes matematika standar. Apakah itu
akhir dari cerita? Mungkin tidak.
Sebelum saya dapat dengan nyaman menyimpulkan bahwa anak laki-laki dan perempuan mendapat nilai ujian yang
berbeda, saya perlu melihat apakah kelompok anak laki-laki dan perempuan berbeda dalam hal-hal yang mungkin terkait
dengan kinerja pada tes matematika. Misalnya, sampel ini memiliki sejumlah besar siswa dari keluarga yang berimigrasi ke
Amerika Serikat baru-baru ini. Dalam contoh ini, misalkan kita membandingkan generasi pertama (siswa yang lahir di luar
Amerika Serikat dan kemudian pindah ke sini), generasi kedua (siswa yang lahir di Amerika Serikat dengan ibu yang lahir di
luar Amerika Serikat), dan siswa generasi ketiga (siswa dan ibu mereka yang lahir di Amerika Serikat). Ketika kami
membandingkan skor ketiga kelompok ini pada tes matematika menggunakan ANOVA satu arah, kami menemukan bahwa
rata-rata siswa generasi ketiga melakukan tes lebih buruk daripada kelompok generasi pertama atau kedua.

Jadi inilah pertanyaan besarnya: Bagaimana jika lebih banyak siswa generasi ketiga dengan nilai rendah dalam sampel
adalah perempuan daripada laki-laki? Jika ini benar, maka penyebab anak perempuan mendapat nilai lebih rendah daripada
anak laki-laki pada tes matematika mungkin karena status generasi mereka (yaitu, anak perempuan lebih mungkin dibandingkan
anak laki-laki untuk menjadi generasi ketiga) daripada jenis kelamin mereka. Jadi sebelum mencapai kesimpulan apa pun
tentang perbedaan gender dalam kemampuan matematika, kita perlu melakukan uji independensi chi-kuadrat untuk melihat
apakah gender dan status generasi adalah kelompok independen.
Dengan bantuan komputer saya dan perangkat lunak statistik SPSS, saya dapat melakukan tes ini dalam hitungan detik.
Hasilnya disajikan pada Tabel 14.7. Setiap sel dalam tabel mencakup frekuensi yang diamati ("Hitungan") di baris atas dan
frekuensi yang diharapkan di bawahnya ("Jumlah yang Diharapkan").
Perhatikan bahwa di sebagian besar sel, perbedaan antara frekuensi yang diamati dan yang diharapkan cukup kecil. Disparitas
terbesar muncul pada kolom generasi kedua (“2nd gen”).
Nilai 2 yang diamati , dengan df = 2, adalah 5,19. Seperti yang kita pelajari sebelumnya dalam bab ini, 2 . kritis
nilai, dengan df = 2 dan = .05, adalah 5,99. Oleh karena itu, uji independensi tidak signifikan secara statistik, dan kita dapat
menyimpulkan bahwa status generasi tidak bergantung pada gender. Baik anak laki-laki maupun perempuan tidak terwakili
secara signifikan di salah satu dari tiga kelompok generasi tersebut.
Jadi apa yang kita buat dari hasil ini? Nah, tampaknya perbedaan antara anak laki-laki dan perempuan dalam nilai mereka
pada tes matematika bukan karena status generasi. Tentu saja, mungkin ada faktor lain yang harus dikesampingkan sebelum
menyimpulkan bahwa perbedaan gender dalam nilai matematika adalah nyata dan bukan hanya produk sampingan dari
perbedaan pada variabel kategori lainnya (misalnya, etnis) atau variabel berkelanjutan (misalnya, status sosial ekonomi). Tapi
kita bisa mengesampingkan status generasi sebagai penyebab perbedaan gender dalam nilai matematika.
Machine Translated by Google

166 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 14.7 Tabel Kontingensi SPSS untuk Gender berdasarkan Status Generasi

Grup Generasi

3+ gen 2 gen 1 gen Total

Jumlah Gadis Jenis Kelamin 156 215 125 496

Hitungan yang diharapkan 152,7 230,3 113.0 496,0

Hitungan Anak Laki-Laki 125 209 83 417

Hitungan yang diharapkan 128,3 193,7 95.0 417.0

Total Menghitung 281 424 208 913

Hitungan yang diharapkan 281.0 424.0 208.0 913.0

Menulis Itu
Penulisan untuk analisis chi-kuadrat sangat singkat dan lugas: “Analisis chi-kuadrat dilakukan untuk
menentukan apakah anak perempuan dan laki-laki terwakili di ketiga kelompok generasi secara
proporsional dengan jumlah mereka dalam sampel. Analisis menghasilkan nilai 2 yang tidak signifikan
(5,19, df = 2, ns), menunjukkan bahwa baik anak perempuan maupun anak laki-laki tidak terwakili secara
berlebihan dalam salah satu dari tiga kategori generasi.”

Mengakhiri dan Menantikan


Tes independensi chi-kuadrat hanyalah salah satu dari banyak tes nonparametrik yang digunakan oleh
para peneliti ilmu sosial. Karena ilmuwan sosial sering menggunakan data yang melanggar satu atau lebih
asumsi yang diperlukan untuk penggunaan statistik parametrik yang valid, penting bagi Anda untuk
mengenal beberapa teknik nonparametrik. Cakupan terbatas buku ini menghalangi saya untuk menjelaskan
sebagian besar teknik ini. Jangan biarkan pengecualian mereka membuai Anda ke dalam rasa aman yang
salah dengan statistik parametrik—itu tidak selalu merupakan alat yang memadai untuk pekerjaan itu.
Dalam bab berikutnya dan terakhir dari buku ini, kita akan memeriksa dua teknik statistik yang sering
digunakan peneliti ilmu sosial untuk mengatur dan memahami data mereka: analisis faktor dan analisis
reliabilitas alfa Cronbach.

Daftar Istilah dan Simbol untuk Bab 14


Chi-kuadrat (ÿ2): Statistik yang digunakan untuk membandingkan frekuensi yang diamati dan frekuensi yang diharapkan dalam sampel
data.
Tabel kontingensi: Tabel yang menunjukkan perpotongan dua variabel kategori (nominal). Tabel ini
menghasilkan sel-sel di mana frekuensi yang diharapkan dan yang diamati dapat dibandingkan.

Frekuensi yang diharapkan: Jumlah kasus yang diharapkan muncul di sel, total baris, atau total kolom
berdasarkan probabilitas saja.
Kruskal-Wallis: Sebuah statistik nonparametrik, menggunakan data peringkat, yang kira-kira analog
dengan ANOVA satu arah.
Mann–Whitney U : Statistik nonparametrik, menggunakan data peringkat, yang kira-kira analog dengan
uji t sampel independen .
Statistik nonparametrik: Sekelompok statistik yang tidak terikat dengan asumsi umum untuk statistik
parametrik, termasuk data terdistribusi normal dan homogenitas varians.
Frekuensi yang diamati: Jumlah kasus aktual atau yang diamati dalam sel, baris, atau kolom dari tabel
kontingensi.
Machine Translated by Google

Tes Independensi Chi- Kuadrat 167

2 Statistik chi-kuadrat.
O Frekuensi yang diamati.
E Frekuensi yang diharapkan.
df Derajat kebebasan.
R Jumlah baris dalam tabel kontingensi.
C Jumlah kolom dalam tabel kontingensi.
Machine Translated by Google
Machine Translated by Google

Bab 15
Analisis Faktor dan Analisis Reliabilitas:
Teknik Reduksi Data

Dalam penelitian ilmu sosial, cukup umum bagi peneliti untuk mengukur satu konstruk dengan menggunakan
lebih dari satu item. Hal ini sangat umum dalam penelitian survei. Misalnya, dalam penelitian saya sendiri yang
meneliti motivasi siswa, saya sering memberikan survei kepada siswa yang menanyakan minat, nilai, dan
tujuan mereka. Dan saya telah menggunakan beberapa item survei untuk mengukur setiap konstruksi ini.
Untuk mengukur seberapa besar siswa menghargai apa yang mereka pelajari di sekolah, saya sering
menggunakan ukuran yang umum digunakan yang dikembangkan oleh Eccles, Adler dan Meece (1984) yang
mencakup tiga pernyataan, dan siswa menunjukkan seberapa besar mereka setuju atau tidak setuju dengan
setiap pernyataan: ( 1) Informasi yang kita pelajari di kelas ini menarik. (2) Informasi yang kita pelajari di kelas
ini penting. (3) Informasi yang kita pelajari di kelas ini akan berguna
untuk saya.

Meskipun ketiga item dalam survei ini adalah pertanyaan yang terpisah, semuanya dianggap sebagai bagian
dari konstruksi dasar yang lebih besar yang disebut Nilai. Tiga item survei disebut variabel yang diamati
karena mereka benar-benar telah diukur (yaitu, diamati) dengan item survei. Konstruk yang mendasari item-
item ini seharusnya mewakili, Nilai, disebut variabel yang tidak teramati atau variabel laten karena tidak diukur
secara langsung. Sebaliknya, itu disimpulkan, atau ditunjukkan, oleh tiga variabel yang diamati. Ketika peneliti
menggunakan beberapa ukuran untuk mewakili satu konstruk yang mendasarinya, mereka harus melakukan
beberapa analisis statistik untuk menentukan seberapa baik item dalam satu konstruk berjalan bersama, dan
seberapa baik item yang seharusnya mewakili satu konstruk terpisah dari item yang seharusnya. mewakili
konstruksi yang berbeda. Cara yang kami lakukan adalah dengan analisis faktor dan analisis reliabilitas.
Dalam bab ini, saya menyajikan gambaran yang sangat singkat tentang kedua jenis analisis statistik ini. Analisis
ini rumit dan memiliki banyak variasi (terutama analisis faktor), jadi tujuan saya dalam bab ini bukan untuk
mengajari Anda cara menghitung analisis ini. Sebaliknya, saya ingin bab ini memperkenalkan Anda pada
konsep-konsep penting ini dan membantu Anda memahaminya dengan lebih baik ketika Anda menemukannya
dalam membaca penelitian ilmu sosial.

Analisis Faktor secara Mendalam

Untuk melakukan analisis faktor, semua variabel dalam analisis harus diukur secara terus-menerus, (yaitu,
berskala interval, lihat Bab 1) dan memiliki distribusi normal. Penting juga untuk memiliki ukuran sampel yang
cukup besar. Aturan umum adalah bahwa Anda memerlukan 30 kasus untuk variabel pertama yang diamati
dan 10 kasus untuk setiap variabel tambahan yang diamati dalam analisis faktor. Jadi jika Anda memiliki 10
variabel yang diamati dalam analisis, Anda harus memiliki setidaknya 30 + 90 kasus dalam sampel Anda,
dengan total 120.
Saya pikir analisis faktor adalah subjek yang membingungkan untuk dibahas secara abstrak, jadi saya akan
sangat bergantung pada contoh untuk diskusi ini. Pertama, contoh hipotetis. Misalkan Anda sedang melakukan

169
Machine Translated by Google

170 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

studi untuk memeriksa seberapa puas orang dewasa Amerika dengan pekerjaan mereka. Seperti yang diketahui oleh
siapa pun yang pernah bekerja, kepuasan dengan pekerjaan adalah konstruksi multifaset. Jadi Anda memutuskan
untuk mengajukan beberapa pertanyaan pada survei untuk mengukur konstruk tunggal Kepuasan Kerja. Anda
mengajukan pertanyaan tentang apakah orang senang dengan gaji mereka. Anda mengajukan pertanyaan lain tentang
apakah orang merasa mereka memiliki hubungan yang baik dengan bos mereka. Anda mengajukan pertanyaan ketiga
tentang apakah orang senang dengan jumlah tanggung jawab yang diberikan kepada mereka di tempat kerja, dan
pertanyaan keempat tentang apakah mereka menyukai ruang fisik tempat mereka bekerja.
Ada dua alasan mengapa Anda mungkin mengajukan begitu banyak pertanyaan tentang satu konstruksi dasar
seperti Kepuasan Kerja. Pertama, Anda ingin mencakup beberapa aspek Kepuasan Kerja karena Anda ingin ukuran
Anda menjadi representasi yang baik dari konstruk. Kedua, Anda ingin memiliki keyakinan bahwa peserta dalam studi
Anda menafsirkan pertanyaan Anda seperti yang Anda maksudkan. Jika Anda hanya mengajukan satu pertanyaan
seperti “Seberapa bahagia Anda dengan pekerjaan Anda?” akan sulit bagi Anda untuk mengetahui apa maksud
peserta Anda dengan tanggapan mereka. Seorang peserta mungkin mengatakan dia sangat senang dengan
pekerjaannya karena dia pikir Anda bertanya apakah dia pikir dia menghasilkan karya yang berkualitas tinggi. Peserta
lain mungkin mengatakan dia sangat senang karena dia pikir Anda bertanya apakah dia merasa dia dibayar cukup,
dan dia baru saja menerima bonus besar. Jadi jika Anda hanya mengukur konstruk Anda dengan satu pertanyaan,
mungkin sulit bagi Anda untuk menentukan apakah jawaban yang sama pada pertanyaan Anda memiliki arti yang
sama untuk peserta yang berbeda.
Menggunakan beberapa pertanyaan untuk mengukur konstruk yang sama membantu peneliti merasa yakin bahwa
peserta menafsirkan pertanyaan dengan cara yang sama.
Jika empat item yang Anda tanyakan tentang Kepuasan Kerja benar-benar mengukur konstruk yang sama, maka
sebagian besar peserta akan menjawab keempat pertanyaan dengan cara yang sama. Dengan kata lain, orang
dengan Kepuasan Kerja yang tinggi umumnya akan mengatakan bahwa mereka dibayar dengan baik, seperti bos
mereka, memiliki tingkat tanggung jawab yang sesuai, dan nyaman di ruang kerjanya. Demikian pula, kebanyakan
orang dengan Kepuasan Kerja rendah akan merespon dengan cara yang sama untuk keempat pertanyaan Anda.
Untuk menggunakan bahasa statistik, tanggapan pada semua pertanyaan yang Anda gunakan untuk mengukur satu
konstruk harus berkorelasi kuat.
Sekarang anggaplah Anda tertarik pada lebih dari sekedar Kepuasan Kerja. Sebagai seorang peneliti cerdas yang
tidak takut meneliti kekacauan hidup manusia, misalkan Anda juga ingin mengetahui apakah Kepuasan Kerja berkaitan
dengan aspek lain dari kehidupan pekerja, seperti Kepuasan Perkawinan mereka. Mungkin orang-orang yang bahagia
di tempat kerja membawa lebih sedikit stres ke rumah, dan akibatnya hubungan pernikahan mereka lebih harmonis.
Di sisi lain, orang yang mencintai pekerjaannya mungkin menghabiskan waktu berjam-jam di kantor, menyebabkan
kebencian dalam hubungan perkawinan mereka. Pernah penasaran, ingin tahu. Jadi, selain pertanyaan tentang
Kepuasan Kerja, survei Anda mencakup serangkaian pertanyaan tentang Kepuasan Perkawinan. Sekali lagi, Kepuasan
Perkawinan adalah konstruksi multi-segi, jadi Anda mengajukan beberapa pertanyaan tentang hal itu: (1) Pasangan
saya dan saya berkomunikasi satu sama lain dengan baik; (2) Saya puas dengan cara saya dan pasangan saya
berbagi tanggung jawab di sekitar rumah; (3) Istri/suami saya dan saya memiliki kehidupan seks yang baik. Sekali lagi,
harus ada hubungan korelasi yang kuat dalam jawaban atas ketiga pertanyaan ini jika ketiganya benar-benar mewakili
konstruksi yang mendasari Kepuasan Perkawinan.

Jadi apa hubungannya semua ini dengan analisis faktor? Apa yang dilakukan analisis faktor, secara singkat,
adalah mencari tahu item mana yang paling kuat berkorelasi satu sama lain dan kemudian mengelompokkannya.
Sebagai peneliti, Anda berharap dan berharap bahwa item yang Anda gunakan untuk mengukur satu konstruk
(misalnya, Kepuasan Kerja) semuanya sangat berkorelasi satu sama lain dan dapat dikelompokkan bersama.
Tentu, Anda berharap ini juga berlaku untuk tiga item Kepuasan Perkawinan Anda. Selain itu, Anda berharap
pertanyaan Kepuasan Perkawinan Anda berkorelasi lebih kuat satu sama lain daripada berkorelasi dengan item
Kepuasan Kerja. Dalam bahasa analisis faktor, Anda berharap pertanyaan survei Anda dikelompokkan menjadi faktor-
faktor terpisah, seperti yang diilustrasikan pada Gambar 15.1. Analisis faktor dapat memberi tahu Anda apakah
harapan dan harapan Anda telah terwujud.
Berikut cara kerjanya. Dalam analisis faktor eksplorasi (EFA) Anda memasukkan satu set item, seperti 7
pertanyaan untuk Kepuasan Kerja dan Kepuasan Perkawinan di atas, ke dalam analisis. EFA
Machine Translated by Google

Analisis Faktor dan Analisis Reliabilitas: Teknik Reduksi Data 171

WS Q1

WS Q2
Kerja
kepuasan

WS Q3

WS Q4

MS Q1

Pernikahan
kepuasan MS Q2

MS Q3

Gambar 15.1 Model Faktor Hipotetis Kepuasan Kerja dan Kepuasan Perkawinan.
kemudian mencari item mana yang paling kuat korelasinya satu sama lain. Ketika menemukannya, ia
mengelompokkannya menjadi satu faktor dan kemudian mencari kumpulan item berkorelasi terkuat berikutnya dan
menggabungkannya ke dalam faktor lain. Apa yang EFA coba lakukan adalah menciptakan faktor-faktor yang mampu
menjelaskan varians sebanyak mungkin di semua item yang Anda masukkan ke dalam analisis. Semakin kuat item-
item tersebut berkorelasi satu sama lain, semakin beragam item-item ini menjelaskan satu sama lain. Jadi analisis
faktor pertama-tama akan membuat faktor yang menjelaskan varians paling banyak di semua item, faktor kedua akan
menjelaskan varians terbanyak kedua, dan seterusnya.
Ketika faktor-faktor baru tidak menjelaskan terlalu banyak varians tambahan, EFA berhenti, dan Anda dibiarkan
menafsirkan hasil Anda. Proses ini dikenal sebagai ekstraksi. Pada intinya, proses analisis faktor melibatkan ekstraksi
faktor dari sekumpulan item hingga tidak ada lagi faktor yang berarti untuk diekstraksi.*

Setiap item dalam analisis Anda akan memiliki apa yang disebut pemuatan faktor. Semakin kuat suatu item
memuat ke suatu faktor, semakin item tersebut mendefinisikan faktor tersebut. Secara umum, pemuatan faktor analog
dengan koefisien korelasi dan biasanya berkisar dari -1,0 hingga 1,0 (walaupun mungkin, dan tidak jarang, item memiliki
pemuatan faktor lebih besar dari 1,0 atau kurang dari -1,0).
Kembali ke contoh kita, Satisfaction with Pay mungkin memiliki beban faktor terkuat pada faktor Satisfaction with Work
kita, seperti 0,90, karena kebanyakan orang senang bekerja jika mereka merasa dibayar dengan baik. Item lain, seperti
memiliki tingkat tanggung jawab yang sesuai, mungkin memiliki pemuatan faktor 0,60. Jika kita memiliki item dengan
kata-kata negatif, seperti “Saya biasanya bosan di tempat kerja,” item ini mungkin memiliki faktor pemuatan negatif -.70
dengan faktor Kepuasan Kerja kita. Ini masih merupakan factor loading yang kuat, hanya dalam arah negatif.

Salah satu fitur paling keren dari analisis faktor, tetapi juga yang paling sulit dipahami, adalah rotasi faktor. Dalam
proses mengidentifikasi dan menciptakan faktor-faktor dari sekumpulan item, analisis faktor bekerja untuk membuat
faktor-faktor tersebut berbeda satu sama lain. Dalam metode rotasi faktor yang paling umum, ortogonal, analisis faktor
memutar faktor untuk memaksimalkan perbedaan di antara mereka.
Jadi analisis faktor akan menciptakan faktor pertama (yaitu Kepuasan Kerja), kemudian akan mencoba untuk membuat

* Ada beberapa metode untuk mengekstrak faktor. Yang paling umum digunakan adalah analisis komponen utama, sering disebut PCA. Kecocokan
Maksimum adalah metode ekstraksi lain yang berguna tetapi lebih jarang digunakan daripada PCA dalam penelitian ilmu sosial.
Machine Translated by Google

172 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

faktor kedua yang sebisa mungkin berbeda dari faktor pertama. Ini akan menghasilkan penciptaan faktor Kepuasan
Perkawinan, dengan asumsi item Kepuasan Kerja berkorelasi lebih kuat satu sama lain daripada dengan item
Kepuasan Perkawinan. Jika analisis faktor tidak menggunakan rotasi semacam ini, itu akan menghasilkan
beberapa faktor yang semuanya merupakan variasi dari item yang paling berkorelasi tinggi sebelum beralih ke
item berkorelasi berikutnya yang lebih lemah.
Jadi, dengan menggunakan rotasi, analisis faktor bekerja untuk menciptakan faktor-faktor yang terpisah, atau
unik, satu sama lain mungkin.

Batas waktu teknis : Ort h ogonal vs. Obl iqu e Fakta atau Membusuk di ion
Kebanyakan peneliti ilmu sosial menggunakan rotasi faktor ortogonal, sering disebut Varimax, dalam
analisis faktor eksplorasi mereka. Ini adalah metode rotasi faktor yang menghasilkan perbedaan maksimum
antar faktor. Tetapi ada metode rotasi faktor lainnya, terutama oblimin langsung atau miring. Rotasi faktor
oblimin langsung tidak mengasumsikan bahwa semua faktor akan ortogonal satu sama lain, dan
memungkinkan faktor-faktor yang diciptakan untuk dikorelasikan. Dalam banyak penelitian ilmu sosial,
faktor-faktor akan berkorelasi sedang, sehingga masuk akal untuk menggunakan metode rotasi faktor
miring. Misalnya, meskipun Kepuasan Kerja kemungkinan besar merupakan faktor yang terpisah dari
Kepuasan Perkawinan, kedua faktor ini mungkin akan berkorelasi sedang satu sama lain. Bahkan, mereka
mungkin mewakili faktor yang lebih besar: Kepuasan Hidup. Jika saya melakukan EFA dengan item yang
mewakili Kepuasan Kerja dan Perkawinan, saya mungkin akan menggunakan rotasi faktor oblimin langsung
(yaitu, miring) daripada rotasi ortogonal.

Contoh Analisis Faktor Eksploratori yang Lebih Konkrit


Untuk mengilustrasikan lebih lanjut cara kerja PUS, saya akan mendemonstrasikan dengan data survei saya
sendiri menggunakan paket perangkat lunak SPSS. Saya tertarik untuk meneliti motivasi siswa sekolah menengah,
jadi saya memberikan survei kepada sampel 857 siswa. Survei termasuk pertanyaan yang menanyakan tentang
tujuan Penguasaan, tujuan Kinerja, dan kekhawatiran terkait Keluarga mengenai pendidikan. Tujuan penguasaan
mewakili keinginan untuk belajar, meningkatkan, dan memahami konsep-konsep baru. Tujuan kinerja mewakili
keinginan untuk terlihat cerdas dan melakukan lebih baik daripada yang lain. Dan pertanyaan keluarga ditanyakan
tentang apakah orang tua membantu pekerjaan rumah, apakah orang tua mengharapkan siswa untuk kuliah, dan
apakah siswa ingin berhasil demi menyenangkan anggota keluarga. Saya memilih tiga item dari setiap konstruk
dan telah membuat daftar item, bersama dengan rata-rata dan standar deviasinya, pada Tabel 15.1. Masing-
masing item ini diukur pada skala 5 poin dengan 1 menunjukkan kurang setuju dengan pernyataan dan 5
menunjukkan total setuju dengan pernyataan.
Seringkali, ketika peneliti menggunakan survei untuk mengumpulkan data, mereka mengharapkan responden
menjawab pertanyaan yang seharusnya mengukur konstruksi yang sama dengan cara yang sama. Tetapi penting
untuk menguji ekspektasi ini dengan menggunakan analisis faktor, karena responden sering kali tidak
menginterpretasikan item seperti yang kita harapkan, dan peneliti terkadang tidak membuat item yang
diartikulasikan dengan jelas. Saya sepenuhnya mengharapkan tiga item Penguasaan pada Tabel 15.1 untuk
berkorelasi lebih kuat satu sama lain daripada dengan item Kinerja atau Keluarga, tetapi saya perlu menguji
asumsi saya menggunakan analisis faktor.
Ketika saya memasukkan 9 item ini ke dalam analisis faktor eksplorasi saya di SPSS, program pertama kali
menghasilkan statistik deskriptif pada Tabel 15.1. Selanjutnya dihasilkan tabel korelasi bivariat yang saya sajikan
pada Tabel 15.2 di bawah ini. Seperti yang Anda lihat, ketiga item Penguasaan semuanya berkorelasi satu sama
lain di atas level r = 0,40 dan berkorelasi dengan item Kinerja dan Keluarga pada level r < .25. Demikian pula,
semua item Kinerja berkorelasi satu sama lain di atas r = 0,40 dan berkorelasi dengan 6 item lainnya di bawah r <
.25. Sebaliknya, 3 item Keluarga
Machine Translated by Google

Analisis Faktor dan Analisis Reliabilitas: Teknik Reduksi Data 173

Tabel 15.1 Statistik Deskriptif untuk Item Survei dalam Analisis Faktor
Mean Analisis Deviasi St. N

Penguasaan 1: Saya mengerjakan tugas kelas karena saya suka mempelajari hal-hal baru. 3.37 1.034 857

Penguasaan 2: Saya mengerjakan tugas di kelas karena saya ingin menjadi lebih baik dalam hal itu. 3.68 1.024 857

Penguasaan 3: Penting bagi saya untuk memahami pekerjaan di kelas ini. 3.86 .947 857

Kinerja 1: Penting bagi saya untuk terlihat lebih pintar dari orang lain. 2.45 1.168 857

Kinerja 2: Saya akan merasa sukses jika saya melakukan lebih baik dari siswa lain di 3.19 1.225 857
kelas ini.

Kinerja 3: Saya ingin melakukan yang lebih baik daripada siswa lain di kelas ini. 3.33 1.222 857

Keluarga 1: Orang tua saya membantu saya dengan pekerjaan sekolah saya. 2.31 1.249 857

Keluarga 2: Orang tua saya mengharapkan saya untuk kuliah. 4.66 .764 857

Keluarga 3: Saya ingin berprestasi di sekolah untuk menyenangkan orang tua saya. 3.82 1.169 857

Tabel 15.2 Matriks Korelasi untuk Item Survei dalam Analisis Faktor Eksplorasi
Tiang kapal. 1 Tiang. 2 Tiang. 3 Kinerja 1 Kinerja 2 Kinerja 3 Keluarga 1 Keluarga 2

Penguasaan 1: mengerjakan
tugas kelas karena saya suka
belajar hal baru

.48 —
Penguasaan 2: mengerjakan tugas di
kelas karena saya ingin menjadi lebih baik

.42 .42 —
Penguasaan 3: penting
saya mengerti pekerjaan

.05 .06 .07 —


Kinerja 1: penting untuk terlihat
lebih pintar dari yang lain

Kinerja 2: berhasil jika saya –.01 .04 .05 .43 —


melakukannya lebih baik dari siswa lain

Kinerja 3: ingin melakukan .08 .15 .17 .42 .57 —


lebih baik dari siswa lain di kelas

.13 .12 .08 –.04 –.08 –.01 —


Keluarga 1: orang tua membantu
mengerjakan tugas sekolah

.14 .16 .20 .03 .05 .13 –.02 —


Keluarga 2: orang tua mengharapkan
saya untuk kuliah

Keluarga 3: berbuat baik untuk menyenangkan –.02 .12 .13 .16 .18 .22 .13 .25
orang tua

tidak berkorelasi sangat kuat satu sama lain (r < 0,30) dan dalam beberapa kasus berkorelasi lebih kuat
dengan item Penguasaan atau Kinerja dibandingkan dengan item Keluarga lainnya. Korelasi ini
menunjukkan bahwa item Penguasaan dan Performa akan terpisah menjadi faktor yang bagus, bersih,
dan terpisah dalam analisis faktor kami, tetapi item Keluarga mungkin tidak. Ayo lihat.
Informasi selanjutnya yang kami dapatkan dari analisis SPSS kami adalah tabel komunalitas . Ketika
SPSS (atau program statistik apa pun) melakukan analisis faktor, ia terus mengatur ulang semua item
Machine Translated by Google

174 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 15.3 Tabel Komunitas dari Analisis Faktor Eksplorasi


Nilai Eigen Awal Jumlah Rotasi dari Pemuatan Kuadrat
% dari Kumulatif % dari Kumulatif
Faktor Total Perbedaan % Total Perbedaan %

1 2,332 25.910 25.910 1.983 22.038 22.038


2 1,770 19,672 45.583 1,913 21,250 43.288
3 1.096 12.180 57.763 1.258 13.979 57.267
4 1,009 11,206 68.969 1.053 11.701 68.969
5 .681 7.564 76,532
6 .623 6.921 83.453
7 .589 6.546 89.999
8 .488 5.418 95.416
9 .413 4.584 100.000

dalam analisis menjadi faktor-faktor baru dan kemudian memutar faktor-faktor ini dari satu sama lain untuk
menciptakan sebanyak mungkin faktor yang terpisah dan bermakna. Faktor pertama dimulai dengan
menggabungkan item-item yang berkorelasi paling kuat karena item-item inilah yang menjelaskan varians paling
banyak dalam koleksi lengkap ke-9 item. Kemudian, ia menciptakan faktor kedua berdasarkan item dengan
rangkaian hubungan korelasi terkuat kedua, dan faktor baru ini akan menjelaskan varians terbanyak kedua dalam total koleksi item.
Seperti yang Anda lihat, setiap kali program membuat faktor baru, faktor baru akan semakin sedikit menjelaskan
varians total. Tak lama kemudian, faktor-faktor baru yang sedang dibuat hampir tidak menjelaskan varians
tambahan apa pun, dan karena itu mereka tidak terlalu berguna.
Salah satu tugas peneliti adalah menginterpretasikan hasil analisis faktor untuk memutuskan berapa banyak
faktor yang diperlukan untuk memahami data. Biasanya, peneliti menggunakan beberapa informasi untuk
membantu mereka memutuskan, termasuk beberapa informasi dalam Tabel 15.3. Misalnya, banyak peneliti hanya
akan mempertimbangkan faktor yang bermakna jika memiliki nilai eigen* minimal 1,0.
Faktor-faktor yang menjelaskan kurang dari 10% dari total varians dalam set lengkap item terkadang dianggap
terlalu lemah untuk dipertimbangkan. Selain itu, pertimbangan konseptual juga penting. Saya mungkin memiliki
faktor yang memiliki nilai eigen lebih besar dari 1,0 tetapi item yang memuat paling kuat pada faktor tersebut tidak
masuk akal bersama-sama, jadi saya mungkin tidak menyimpan faktor ini dalam analisis saya selanjutnya.
Nilai pada Tabel 15.3 menunjukkan bahwa 9 item saya membentuk 4 faktor yang berarti. Statistik dalam tiga
kolom di sebelah kanan Tabel 15.3 berasal dari solusi faktor yang diputar. Ini menunjukkan bahwa ada empat
faktor dengan nilai eigen lebih besar dari 1,0, masing-masing menjelaskan lebih dari 10% varians dalam total set
item. Selanjutnya, saya perlu melihat matriks faktor yang diputar
untuk melihat bagaimana program SPSS mengelompokkan item. Matriks faktor yang diputar menunjukkan kepada
saya bagaimana item terkait dengan setiap faktor setelah program memutar faktor. Untuk membuat tabel ini lebih
mudah diinterpretasikan, saya mengatakan kepada program SPSS untuk tidak mencetak pemuatan faktor apa
pun yang kurang dari 0,30. Secara umum, jika suatu item memiliki factor loading di bawah 0,30, itu bukanlah
indikator yang kuat untuk faktor tersebut. Hasil dari matriks faktor yang dirotasi disajikan pada Tabel 15.4.
Seperti yang Anda lihat, faktor pertama, yang menjelaskan sekitar 22% dari total varians dan memiliki nilai
eigen yang diputar 1,98, didominasi oleh tiga item Kinerja. Masing-masing item ini berkorelasi kuat dengan faktor
pertama (pemuatan faktor lebih besar dari 0,70) dan terkait lemah dengan tiga faktor lainnya (pemuatan faktor
kurang dari 0,30, dan karena itu tidak terlihat). Demikian pula, faktor kedua pada Tabel 15.4 didominasi oleh 3
item Penguasaan. Faktor ini menjelaskan varians yang hampir sama banyaknya dengan faktor pertama (21%)
dan memiliki nilai eigen yang sama (1,91). Ketiga

* Nilai eigen adalah ukuran varians yang dijelaskan dalam ruang vektor yang dibuat oleh faktor-faktor. Ini membingungkan, aku tahu. Tetapi Anda tidak perlu
sepenuhnya memahami ide "faktor dalam ruang" untuk mendapatkan ide dasar analisis faktor. Untuk mendapatkan penjelasan yang lebih lengkap tentang nilai
eigen dan analisis faktor secara umum, saya sarankan Anda membaca salah satu bacaan yang disarankan di akhir bab ini.
Machine Translated by Google

Analisis Faktor dan Analisis Reliabilitas: Teknik Reduksi Data 175

Tabel 15.4 Matriks Faktor Berputar untuk Solusi 4-Faktor

Faktor

Item Survei 1 2 3 4

Kinerja 2: berhasil jika saya melakukannya lebih baik dari siswa lain .836

Kinerja 3: ingin berbuat lebih baik dari siswa lain di kelas 0,801

Kinerja 1: penting untuk terlihat lebih pintar dari yang lain .754

Penguasaan 1: mengerjakan tugas kelas karena saya suka belajar hal baru .826

Penguasaan 2: mengerjakan tugas di kelas karena saya ingin menjadi lebih baik .779

Penguasaan 3: penting saya mengerti pekerjaan .735

Keluarga 2: orang tua mengharapkan saya untuk kuliah .805

Keluarga 3: berbuat baik untuk menyenangkan orang tua .734 .344

Keluarga 1: orang tua membantu mengerjakan tugas sekolah .931

dan faktor keempat terdiri dari 3 item Keluarga. Kedua faktor ini dijelaskan dengan mempertimbangkan varians
yang lebih sedikit daripada masing-masing dari dua faktor pertama, dan memiliki nilai eigen yang jauh lebih kecil.
Selain itu, salah satu item Keluarga, ingin berbuat baik untuk menyenangkan orang tua, memiliki beban faktor
lebih besar dari 0,30 pada masing-masing dari dua faktor Keluarga, menunjukkan tumpang tindih di antara dua
faktor ini daripada pemisahan yang bersih.
Karena analisis faktor awal saya menghasilkan dua faktor yang bagus dan bersih dan dua faktor yang
berantakan dan tumpang tindih, saya memutuskan untuk bermain-main sedikit. Pertama, saya menyuruh program
SPSS untuk memaksa 9 item saya menjadi 3 faktor saja. Hasil analisis ini dirangkum dalam Tabel 15.5. Ketika
saya melakukan ini, dua faktor pertama tetap sama: Satu faktor Kinerja yang jelas dan satu faktor Penguasaan
yang jelas. Tiga item Keluarga berjalan bersama untuk menghasilkan faktor ketiga, seperti yang saya harapkan.
Yang menarik dari faktor ketiga ini adalah bahwa pemuatan faktor terkuat, yang semacam mendefinisikan faktor,
adalah item “Saya ingin melakukannya dengan baik untuk menyenangkan orang tua saya”. Ini adalah item yang

Performa 2
0,836

0.801
Pertunjukan Kinerja 3

0,754 Performa 1

0,826 Penguasaan 1

0,779
Penguasaan Penguasaan 2

0,735
Penguasaan 3

0,805 Keluarga 2

0,734 0,344
Keluarga 1 Keluarga 3 Keluarga 2

Keluarga 1 0,931

Gambar 15.2 Solusi empat faktor dengan pemuatan faktor untuk faktor Performa, Penguasaan, dan Keluarga.
Machine Translated by Google

176 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 15.5 Matriks Faktor yang Diputar untuk Solusi 3-Faktor

Faktor

Item Survei 1 2 3

Kinerja 2: berhasil jika saya melakukannya lebih baik dari siswa lain .839

Kinerja 3: ingin berbuat lebih baik dari siswa lain di kelas 0,801

Kinerja 1: penting untuk terlihat lebih pintar dari yang lain .745

Penguasaan 1: mengerjakan tugas kelas karena saya suka belajar hal baru .830

Penguasaan 2: mengerjakan tugas di kelas karena saya ingin menjadi lebih baik .777

Penguasaan 3: penting saya mengerti pekerjaan .723

Keluarga 3: berbuat baik untuk menyenangkan orang tua .669

Keluarga 2: orang tua mengharapkan saya untuk kuliah .805

Keluarga 1: orang tua membantu mengerjakan tugas sekolah .353

cross-loaded pada dua faktor Keluarga dalam analisis saya sebelumnya. Dalam faktor Keluarga kesatuan yang baru
ini, "Orang tua saya membantu saya mengerjakan tugas sekolah saya" adalah item dengan pemuatan faktor terlemah.
Hanya dengan melihat ketiga item Keluarga, tampak jelas bahwa item bantuan orang tua ini secara konseptual
berbeda dari dua item lainnya. Sedangkan dua item pertama pada faktor Keluarga keduanya tentang keyakinan dan
tujuan berorientasi masa depan, item bantuan orang tua adalah tentang perilaku tertentu. Analisis faktor memberi
tahu kita bahwa pertanyaan tentang perilaku orang tua ini berbeda dari dua item Keluarga lainnya, dan siswa dalam
penelitian saya menjawab item ini secara berbeda daripada mereka menjawab dua item lainnya.

Untuk meringkas, saya melakukan analisis faktor eksplorasi pada 9 item survei ini, menggunakan metode ekstraksi
komponen utama (PC) dan rotasi faktor ortogonal. Ini awalnya menghasilkan solusi 4-faktor dengan satu faktor Kinerja
yang jelas, satu faktor Penguasaan yang jelas, dan dua faktor Keluarga yang tumpang tindih. Ketika saya memutar
ulang analisis dan memaksa item menjadi 3 faktor,

Performa 2
0,839

0.801
Pertunjukan Kinerja 3

0,745 Performa 1

0,830 Penguasaan 1

0,777
Penguasaan
Penguasaan 2

0,723
Penguasaan 3

0,669 Keluarga 3

0,805
Keluarga Keluarga 2

0,353
Keluarga 1

Gambar 15.3 Solusi tiga faktor dengan pemuatan faktor untuk item Performa, Penguasaan, dan Keluarga.
Machine Translated by Google

Analisis Faktor dan Analisis Reliabilitas: Teknik Reduksi Data 177

faktor Kinerja dan Penguasaan tetap tidak berubah, dan faktor Keluarga kesatuan muncul dengan beban yang
kuat untuk harapan orang tua dan keinginan untuk menyenangkan item orang tua tetapi beban yang relatif lemah
untuk orang tua membantu dengan item tugas sekolah. Hasil ini menunjukkan bahwa item Kinerja, Penguasaan,
dan Keluarga berbeda satu sama lain dan bahwa bantuan orang tua dengan item tugas sekolah secara konseptual
berbeda dari dua item keluarga lainnya.

Analisis Faktor Konfirmatori: Pengantar Singkat


Seperti dijelaskan di atas, analisis faktor eksplorasi (EFA) adalah alat yang baik untuk menemukan struktur dalam
satu set variabel. Bentuk lain dari analisis faktor, analisis faktor konfirmatori (CFA), sering digunakan oleh para
peneliti untuk menguji seberapa baik struktur organisasi yang dihipotesiskan cocok dengan sekumpulan data.
Ini adalah prosedur rumit yang merupakan bagian dari kumpulan teknik statistik yang lebih besar yang dikenal
secara kolektif sebagai pemodelan persamaan struktural, dan deskripsi terperinci tentang CFA berada di luar
cakupan buku ini. Saya akan menghabiskan beberapa paragraf di sini untuk memperkenalkan konsep tersebut
sehingga tidak sepenuhnya asing ketika Anda menemukannya di artikel yang mungkin Anda baca.
Gagasan di balik CFA adalah bahwa peneliti mungkin sudah memiliki tebakan yang baik tentang bagaimana
variabel dalam penelitian, seperti seperangkat item survei, harus berjalan bersama, tetapi perlu menguji tebakan
ini dengan beberapa statistik. Berbeda dengan EFA, yang mengambil satu set item dan mengaturnya sesuai
dengan kekuatan korelasi di antara mereka, CFA dimulai dengan peneliti mengorganisir item menurut alasan
teoritis yang kuat. Misalnya, dengan menggunakan item Kinerja, Penguasaan, dan Keluarga yang telah kita kenal,
saya mungkin membiarkan penelitian dan teori sebelumnya memandu saya ke hipotesis yang masuk akal. Yaitu,
saya akan mengharapkan semua pertanyaan tentang melakukan lebih baik daripada yang lain untuk membentuk
satu faktor (yaitu, Kinerja), semua item tentang belajar dan meningkatkan untuk membentuk faktor lain
(Penguasaan), dan semua item tentang keprihatinan keluarga untuk membentuk faktor ketiga yang berbeda
(Keluarga). Struktur 3 faktor yang dihipotesiskan ini disajikan pada Gambar 15.4.
Setelah saya mengembangkan hipotesis saya tentang item mana yang harus menunjukkan (yaitu, memuat)
faktor mana, saya dapat menjalankan CFA saya untuk menguji hipotesis saya. Analisis CFA akan menghasilkan
satu set statistik fit. Ada beberapa di antaranya, dan semuanya memberikan informasi tentang seberapa baik
model faktor yang saya usulkan cocok dengan data aktual yang telah saya kumpulkan. Dalam model saya, saya
mengusulkan bahwa ketiga item Kinerja akan dimuat pada faktor Kinerja, tetapi tidak akan memuat kuat pada
salah satu dari dua faktor lainnya. Hal yang sama berlaku untuk item Penguasaan dan Keluarga: Saya mengharapkannya

Penguasaan 1

Penguasaan Penguasaan 2

Penguasaan 3

Performa 1

Pertunjukan Performa 2

Kinerja 3

Keluarga 1

Keluarga
Keluarga 2

Keluarga 3

Gambar 15.4 Model teoritis untuk analisis faktor konfirmatori.


Machine Translated by Google

178 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

semua memuat kuat pada faktor masing-masing dan lemah pada faktor lainnya. Jika ini benar-benar terjadi dalam
data saya, CFA saya akan menghasilkan statistik kecocokan yang kuat. Tetapi jika tidak demikian, maka CFA saya
akan menghasilkan statistik kecocokan yang lemah, dan saya perlu memodifikasi model saya untuk meningkatkan
kecocokan model. Mengingat apa yang kita ketahui tentang pemuatan faktor lemah dari beberapa item pada faktor
Keluarga, saya menduga bahwa model faktor hipotesis saya pada Gambar 15.4 tidak akan menghasilkan statistik
kecocokan yang kuat di CFA saya, dan modifikasi pada model saya akan diperlukan.

Analisis Keandalan secara Mendalam

Setelah analisis faktor melakukan tugasnya mengorganisir item ke dalam kelompok, sekarang saatnya untuk
melihat seberapa baik kelompok item tersebut disatukan. Ini adalah tugas analisis keandalan. Meskipun ada banyak
statistik keandalan yang berbeda, yang paling umum digunakan adalah alfa Cronbach. Alpha Cronbach (dengan
simbol Yunani ) menggunakan asosiasi di antara satu set item untuk menunjukkan seberapa baik item, sebagai
sebuah kelompok, terus bersama-sama. Secara konseptual, idenya adalah bahwa semua item survei yang
seharusnya mengukur satu konstruk yang mendasari harus dijawab dengan cara yang sama oleh responden.
Kesamaan tanggapan ini menunjukkan bahwa konstruk diukur dengan andal* oleh semua item. Di sisi lain, jika
seseorang memberikan jawaban yang sangat berbeda untuk item yang seharusnya mengukur konstruk dasar yang
sama, sulit untuk berargumen bahwa item ini menawarkan ukuran konstruk yang andal.

Dalam arti tertentu, alpha Cronbach (lebih sering disebut sebagai alpha) menunjukkan rata- rata
asosiasi antara satu set item. Secara umum, semakin banyak item yang ada dalam analisis keandalan, semakin
tinggi alpha Cronbach. Lagi pula, jika dua item memiliki korelasi r = 0,50, itu adalah beberapa bukti bahwa kedua
item tersebut dapat mewakili konstruk yang mendasarinya. Tetapi jika 8 atau 10 item semuanya berkorelasi dengan
r 0,50 atau lebih besar, maka kita dapat memiliki banyak keyakinan bahwa item-item ini mengukur satu konstruk
yang mendasarinya. Demikian pula, jika hanya ada 3 item, dan salah satunya tidak berkorelasi kuat dengan dua
lainnya, korelasi rata-rata keseluruhan akan cukup lemah. Tetapi jika ada 8 item dan hanya satu yang tidak
berkorelasi kuat dengan yang lain, maka korelasi rata-rata keseluruhan tidak akan banyak berkurang. Jadi kekuatan
alpha tergantung baik pada jumlah item maupun pada kekuatan korelasi antar item. Alpha Cronbach yang terkuat
adalah 1.0. Aturan praktis yang umum adalah bahwa ketika satu set item memiliki tingkat alfa 0,70 atau lebih tinggi,
itu dianggap dapat diterima dan dapat diandalkan.

Kembali ke contoh item Penguasaan, Performa, dan Keluarga, kita sudah dapat memprediksi dari analisis faktor
bahwa item Performa akan memiliki Cronbach's alpha tertinggi karena faktor pertama yang muncul dalam analisis
faktor eksplorasi selalu yang terkuat. korelasi antar item. Demikian pula, karena ketiga item Performa memiliki
pemuatan faktor yang kuat pada faktor pertama, dan semua item Penguasaan memiliki pemuatan yang kuat pada
faktor kedua, kita dapat memprediksi bahwa level alfa untuk item Performa dan item Penguasaan akan menjadi
cukup tinggi. Akhirnya, berdasarkan hasil analisis faktor, kita dapat memprediksi bahwa alfa Cronbach untuk item
Keluarga mungkin tidak terlalu kuat. Ingatlah bahwa 3 item Keluarga awalnya dibagi menjadi dua faktor, dan ketika
mereka dipaksa menjadi satu faktor, salah satu item memiliki pemuatan yang cukup lemah pada faktor tersebut.
Jadi analisis faktor kami akan mengarahkan kami untuk menduga bahwa item Kinerja dan Penguasaan mungkin
memiliki tingkat alfa yang dapat diterima (yaitu > 0,70), tetapi item Keluarga mungkin tidak. Mari lihat.

Menggunakan SPSS untuk menjalankan analisis, saya pertama kali memeriksa set item Kinerja. Program ini
menghasilkan beberapa tabel, dan saya menyajikan yang paling relevan di Tabel 15.6. Pertama, saya dapat melihat
bahwa 3 item Performa menghasilkan alfa 0,73. Selanjutnya, SPSS menghasilkan tabel yang disebut “Item Total
Statistics” yang penuh dengan informasi menarik. Kolom pertama menunjukkan semua item dalam analisis. Kolom
kedua menunjukkan “Korelasi Item-Total yang Dikoreksi” yang menunjukkan

* Jenis keandalan yang dinilai dalam alpha Cronbach dikenal sebagai konsistensi internal dari sekumpulan variabel. Ini berbeda dari reliabilitas tes-tes ulang di mana
tujuannya adalah untuk melihat ketika dua ukuran identik yang diberikan pada titik waktu yang berbeda menghasilkan hasil yang serupa.
Machine Translated by Google

Analisis Faktor dan Analisis Reliabilitas: Teknik Reduksi Data 179

Tabel 15.6 Statistik Keandalan untuk Item Kinerja


Cronbach's Alpha Cronbach
Alfa Berdasarkan Item Standar N Item

.729 .728 3

Item yang Dikoreksi Kelipatan Kuadrat Alpha Cronbach


Korelasi Total Korelasi Jika Item Dihapus

Kinerja 1: Ini adalah tampilan yang penting .479 .230 .723


lebih pintar dari yang lain

Kinerja 2: Saya akan merasa sukses jika saya .598 .370 .583
melakukannya lebih baik dari siswa lain

Kinerja 3: Saya ingin melakukan yang lebih baik dari .579 .354 .607
siswa lain di kelas

seberapa kuat setiap item berkorelasi dengan keseluruhan kelompok item, sering disebut sebagai skala.
Kolom ketiga menunjukkan Korelasi Kelipatan Kuadrat, yang secara sederhana adalah kuadrat korelasi
item-total. Akhirnya, kolom terakhir pada Tabel 15.6 mengungkapkan apa yang akan menjadi alfa jika
item tertentu dihapus dari grup. Angka-angka ini mengungkapkan bahwa alfa keseluruhan akan hampir
sama tanpa item Performa pertama seperti yang ada bersamanya. Hal ini menunjukkan bahwa item
pertama ini, pentingnya terlihat lebih pintar dari yang lain, mungkin sedikit berbeda dari dua lainnya, yang
keduanya menanyakan tentang keinginan untuk melakukan lebih baik dari siswa lain.
Analisis item Penguasaan mengikuti pola yang sangat mirip dengan item Performa.
Ringkasan analisis ini disajikan pada Tabel 15.7 dan menunjukkan bahwa 3 item Penguasaan
menghasilkan alpha Cronbach sebesar 0,70, dan semua item berkontribusi terhadap alpha keseluruhan.
Perhatikan bahwa alfa berkurang jika salah satu item dihapus.
Seperti yang diharapkan, analisis 3 item Keluarga menghasilkan gambaran yang jauh berbeda (lihat
Tabel 15.8). Alfa keseluruhan untuk 3 item Keluarga adalah 0,265 yang remeh, dan tidak akan naik di
atas 0,36 jika ada satu item yang dihapus. Dengan kata lain, bukan seolah-olah dua item berkorelasi kuat
dan alfa dikacaukan oleh satu item nakal. Sebaliknya, analisis reliabilitas mengungkapkan bahwa tidak
satu pun dari 3 item Keluarga sangat terkait satu sama lain. Walaupun analisis faktor memang
menghasilkan faktor dengan 3 item tersebut, dan faktor tersebut memiliki nilai eigen value lebih besar
dari satu, namun analisis reliabilitas menunjukkan bahwa ketiga item tersebut tidak membentuk skala
yang reliabel, dan item tersebut tidak dapat dikatakan andal menunjukkan satu faktor yang mendasari.

Tabel 15.7 Analisis Reliabilitas Soal Penguasaan


Cronbach's
Alfa N dari Item

.700 3

Skala Rata-rata Varians Skala Item yang Dikoreksi Alpha Cronbach


Jika Item Dihapus Jika Item Dihapus Korelasi Total Jika Item Dihapus

Penguasaan 1: Saya mengerjakan tugas kelas karena 7.54 2,770 .531 0,592
Saya suka belajar hal baru

Penguasaan 2: Saya mengerjakan tugas di 7.23 2,780 .534 .587


kelas karena saya ingin menjadi lebih baik dalam hal itu

Penguasaan 3: Penting bagi saya 7.05 3.123 .488 .645


untuk memahami pekerjaan
Machine Translated by Google

180 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Tabel 15.8 Analisis Reliabilitas untuk Item Keluarga

Cronbach's
Alfa N dari Item
.265 3

Skala Rata-rata Varians Skala Item yang Dikoreksi Alpha Cronbach


Jika Item Dihapus Jika Item Dihapus Korelasi Total Jika Item Dihapus

Keluarga 1: Orang tua membantu 8.47 2.384 .085 .356


mengerjakan tugas sekolah

Keluarga 2: Orang tua mengharapkan 6.13 3.293 .138 .224


saya untuk kuliah

Keluarga 3: Saya melakukannya dengan baik untuk menyenangkan orang tua


6.97 2.111 .234 –.038

Menulis Itu
Jika saya menulis hasil penelitian ini untuk jurnal, itu akan terlihat seperti ini:

Saya melakukan analisis faktor eksplorasi pada satu set 9 item dari survei: 3 item Kinerja, 3 item Penguasaan,
dan 3 item Keluarga. Analisis faktor awal, menggunakan ekstraksi komponen utama dan rotasi faktor
ortogonal, menghasilkan empat faktor dengan nilai eigen lebih besar dari 1,0. Faktor pertama dibedakan oleh
pemuatan faktor yang kuat untuk ketiga item Kinerja dan tidak ada item lainnya. Faktor ini menjelaskan 22%
dari total varians dalam item. Faktor kedua memiliki muatan faktor yang kuat untuk ketiga item Penguasaan
dan tidak ada item lainnya, dan menjelaskan tambahan 21% dari varians. Faktor ketiga dan keempat
mengungkapkan perpecahan di antara tiga item Keluarga dengan faktor ketiga ditunjukkan oleh harapan
orang tua yang tinggi dan keinginan untuk membuat orang tua bangga. Faktor keempat juga ditunjukkan oleh
item membuat orang tua bangga, serta item tentang orang tua membantu pekerjaan sekolah. Kedua faktor
ini masing-masing menjelaskan 14% dan 12% varians.

Analisis faktor selanjutnya dilakukan dengan memaksa item menjadi 3 faktor. Faktor Performa dan
Penguasaan tetap tidak berubah, tetapi item Keluarga semua digabung menjadi satu faktor dengan pemuatan
faktor yang kuat untuk item keinginan untuk menyenangkan orang tua, pemuatan moderat untuk item
harapan orang tua, dan pemuatan yang lemah untuk bantuan orang tua dengan tugas sekolah barang.
Selanjutnya dilakukan analisis reliabilitas untuk menguji konsistensi internal ketiga faktor yang dihasilkan
PUS kedua. Analisis reliabilitas ini mengungkapkan bahwa item Kinerja membentuk skala yang dapat
diandalkan (Cronbach's = 0,73) dan alfa tidak akan meningkat dengan penghapusan salah satu item.
Menariknya, alpha tidak akan diturunkan secara substansial (.01) jika item tentang ingin tampil pintar dihapus
dari skala ini. Item Penguasaan juga menghasilkan skala dengan tingkat konsistensi internal yang dapat
diterima (Cronbach's = 0,70). Semua item ini memiliki korelasi item-total lebih besar dari 0,45 dan alfa tidak
akan ditingkatkan dengan penghapusan item tunggal. Akhirnya, item Keluarga gagal menghasilkan skala
yang konsisten secara internal (Cronbach's = .27). Meskipun menghapus item "Bantuan orang tua dengan
tugas sekolah" akan meningkatkan alfa menjadi 0,36, ini masih sangat rendah. Tampaknya ketiga item
Keluarga tidak cocok satu sama lain.

Membungkus
Analisis faktor dan reliabilitas adalah teknik statistik yang kuat yang sering digunakan oleh
peneliti ilmu sosial. Keduanya memungkinkan peneliti untuk mengatur set variabel yang besar
ke dalam kelompok yang lebih kecil dan lebih bermakna. Tujuan dari bab ini adalah untuk
memberikan pengenalan singkat tentang metode-metode ini. Perlu diingat bahwa setiap teknik,
terutama analisis faktor, memiliki berbagai variasi tergantung pada jenis data yang diperiksa dan ketepatannya.
Machine Translated by Google

Analisis Faktor dan Analisis Reliabilitas: Teknik Reduksi Data 181

pertanyaan penelitian peneliti. Saat Anda membaca tentang, dan mungkin terlibat dalam, penelitian yang memerlukan
penggunaan analisis faktor dan keandalan, saya mendorong Anda untuk membaca lebih lanjut tentang topik tersebut
dan mempelajari semua manfaat yang ditawarkan teknik ini.
Tujuan dari buku ini adalah untuk memberikan penjelasan bahasa Inggris yang sederhana tentang teknik statistik
yang paling umum digunakan. Karena buku ini pendek, dan karena hanya ada begitu banyak tentang statistik yang
dapat dijelaskan dalam bahasa Inggris yang sederhana, saya harap Anda akan menganggap ini sebagai awal perjalanan
Anda ke dunia statistik daripada akhir. Meskipun terkadang mengintimidasi dan menakutkan, dunia statistik juga
bermanfaat dan sepadan dengan usaha. Suka atau tidak suka, semua kehidupan kita tersentuh dan, terkadang, sangat
dipengaruhi oleh statistik. Penting bagi kita untuk berupaya memahami cara kerja statistik dan artinya. Jika Anda telah
mencapai akhir buku ini, Anda telah membuat langkah besar untuk mencapai pemahaman itu. Saya yakin bahwa
dengan upaya yang berkelanjutan, Anda akan dapat memanfaatkan banyak wawasan yang dapat diberikan oleh
pemahaman tentang statistik.

Glosarium Simbol dan Istilah untuk Bab 15


Alpha: Singkatan untuk alpha Cronbach.
Komunalitas: Ukuran jumlah varians di setiap variabel yang diamati dalam analisis faktor eksplorasi yang dijelaskan

oleh himpunan faktor.


Analisis faktor konfirmatori (CFA): Jenis analisis faktor di mana peneliti menentukan, secara apriori, bagaimana
variabel yang diamati harus dikelompokkan bersama menjadi faktor dan kemudian menguji seberapa baik
model yang ditentukan sesuai dengan data yang diamati.
Konstruk: Variabel laten yang tidak diukur secara langsung tetapi dapat ditunjukkan oleh sekumpulan
variabel yang diamati.
Cronbach's alpha: Sebuah statistik yang menunjukkan konsistensi internal dari satu set yang diamati
variabel.

Cross-loaded: Item yang dimuat cukup kuat pada lebih dari satu faktor.
Rotasi oblimin langsung: Metode memutar faktor dalam analisis faktor eksplorasi yang tidak mencoba memaksimalkan
perbedaan antara faktor-faktor tersebut. Ini adalah metode rotasi faktor yang tepat ketika faktor-faktor
diasumsikan berkorelasi satu sama lain.

(Lihat juga “Rotasi miring.”)


Nilai Eigen: Ukuran kekuatan faktor yang dihasilkan dalam analisis faktor eksplorasi. Ini adalah salah satu ukuran
persentase varians di semua variabel yang diamati dalam PUS yang dijelaskan oleh faktor tertentu.

Analisis faktor eksplorasi (EFA): Sebuah metode menganalisis satu set variabel yang diamati untuk menentukan
variabel mana yang paling kuat terkait satu sama lain dan mungkin menunjukkan konstruksi laten yang
mendasarinya.
Ekstraksi: Suatu prosedur dalam analisis faktor eksplorasi dimana faktor-faktor diproduksi, atau
diekstraksi, dari satu set variabel yang diamati.
Analisis faktor: Prosedur statistik yang digunakan untuk mengatur dan mengelompokkan satu set variabel yang diamati.
Pemuatan faktor: Statistik yang menunjukkan seberapa kuat variabel tertentu yang diamati dikaitkan dengan faktor
tertentu.
Rotasi faktor: Bagian dari prosedur analisis faktor eksplorasi di mana faktor-faktor dibentuk dan dipisahkan satu sama
lain.
Faktor: Kombinasi variabel yang diamati yang dihasilkan dalam analisis faktor.
Statistik kesesuaian: Statistik yang dihasilkan dalam analisis pemodelan persamaan struktural apa pun, termasuk
analisis faktor konfirmatori, yang menunjukkan seberapa baik model yang ditentukan cocok dengan data
yang diamati.

Diindikasikan: Representasi variabel laten yang tidak teramati oleh satu atau lebih variabel yang diamati, seperti dalam
“Item survei ini merupakan indikator untuk variabel laten Kepuasan Kerja.”
Machine Translated by Google

182 Statistik dalam Bahasa Inggris Biasa, Edisi Ketiga

Bacaan yang Direkomendasikan

Eccles, J., Adler, T., & Meece, JL (1984). Perbedaan jenis kelamin dalam prestasi: Tes teori alternatif.
Jurnal Psikologi Kepribadian dan Sosial, 46, 26-43.
Kim, JO, & Mueller, CW (1978). Analisis faktor: Metode statistik dan masalah praktis. Taman Newbury,
CA: Bijak.
Machine Translated by Google

Lampiran

LAMPIRAN A: Area di bawah Kurva Normal di luar z

LAMPIRAN B: Nilai Kritis Distribusi t

LAMPIRAN C: Nilai Kritis Distribusi F

LAMPIRAN D: Nilai Kritis Statistik Rentang Pelajar (untuk Uji Tukey HSD)

LAMPIRAN E: Nilai Kritis dari 2 Distribusi

183
Machine Translated by Google
Machine Translated by Google

Lampiran A
Area di bawah Kurva Normal di luar z

Konten Probabilitas dari –ÿ hingga Z


Z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09

.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879

.5 .6915 0,6950 .6985 .7019 .7054 .7088 0,7123 .7157 .7190 .7224
.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389

1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319

1,5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1,8 ,9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767

2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936

2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2,6 ,9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2,7 ,9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990

Sumber: http://www.math.unb.ca/~knight/utility/NormTble.htm. Area publik. Dicetak ulang dengan izin dari


William Ksatria.

185
Machine Translated by Google

186 Lampiran A

Probabilitas Ekor Jauh Kanan

ZP{Z sampai } Z P{Z ke } Z P{Z ke } ZP{Z ke }


2.0 .02275 3.0 .001350 4.0 .00003167 5.0 2.867 E-7

2.1 .01786 3.1 .0009676 4.1 .00002066 5,5 1,899 E-8

2.2 .01390 3.2 .0006871 4.2 .00001335 6.0 9.866 E-10

2.3 .01072 3.3 .0004834 4.3 .00000854 6.5 4.016 E-11

2.4 .00820 3.4 .0003369 4.4 .000005413 7.0 1.280 E-12

2.5 .00621 3,5 .0002326 4.5 .000003398 7.5 3.191 E-14

2.6 .004661 3.6 .0001591 4.6 .000002112 8.0 6.221 L-16

2,7 .003467 3.7 .0001078 4.7 .000001300 8.5 9.480 E-18

2.8 .002555 3.8 .00007235 4.8 7.933 E-7 9.0 1.129 E-19

2.9 .001866 3.9 .00004810 4.9 4.792 E-7 9,5 1,049 E-20

Sumber: http://www.math.unb.ca/~knight/utility/NormTble.htm. Area publik. Dicetak ulang


dengan izin William Knight.
Machine Translated by Google

Lampiran B
Nilai Kritis Distribusi t

Level untuk Tes Dua Sisi

.20 .10 .05 .02 .01 .001

Level untuk Tes Satu Sisi

df .10 .05 .025 .01 .005 .0005

Catatan: Agar signifikan nilai t yang diperoleh dari data harus sama atau lebih besar dari nilai yang tertera pada tabel.
Sumber: Fisher, RA, & Yates, F., Tabel Statistik untuk Penelitian Biologi, Pertanian, dan Medis (edisi ke-6), Tabel III,
diterbitkan oleh Longman Group Ltd., Pearson Education, Ltd. (1995). Dicetak ulang dengan izin.
Machine Translated by Google
Machine Translated by Google

Lampiran C
Nilai Kritis Distribusi F

189
Nilai
Kritis
Distribusi
F
Derajat
Kebebasan
(untuk
Pembilang atio)
RF
9.07
13
4.67 9.33
12
4.75 9.65
11
4.84 10,04
10
4,96
10,56
9
5,12 11,26
8
5,32 12,25
7
5,59 13,74
6
5,99 16,26
5
6,61 21.20
4
7.71 34.12
3
10.13 98,49
2
18,51 11
161
4.052
2
5,14
10,92 5,79
13,27 6.94
18.00 9,55
30,82 19.00
99.00 200
4,999
3.80
6.70 3.88
6.93 7.20
3.98 7.56
4.10 8.02
4.26 8.65
4.46 9.55
4.74
3
5,41
12,06 6.59
16.69 9.28
29.46 19.16
99.17 216
5.403
3.41
5.74 3,49
5,95 3.59
6.22 3.71
6.55 3.86
6.99 7.59
4.07 8.45
4.35 9,78
4,76
4
5.19
11.39 6.39
15.98 9.12
28.71 19.25
99.25 225
5,625
3.18
5.20 3.26
5.41 3,36
5,67 3.48
5.99 3.63
6.42 3.84
7.01 7.85
4.12 9.15
4.53
5
5.05
10.97 6.26
15.52 9.01
28.24 19.30
99.30 230
5.764
3.02
4.86 3.11
5.06 3.20
5.32 3,33
5,64 3.48
6.06 3.69
6.63 3.97
7.46 8.75
4.39
6
4,95
10,67 6.16
15.21 8.94
27.91 19,33
99,33 234
5.859
4.62
2.92 3,00
4,82 3.09
5.07 3.22
5.39 5,80
3,37 3.58
6.37 3.87
7.19 8.47
4.28
7
4.88
10.45 6.09
14.98 8.88
27.67 19.36
99.34 237
5.928
4.44
2.84 2.92
4.65 3.01
4.88 3.14
5.21 5,62
3,29 3.50
6.19 3,79
7,00 8.26
4.21
8
4,82
10,27 6.04
14.80 8.84
27.49 19.37
99.36 239
5.981 Level
.05
(Lightface)
dan
.01
(Boldface)
untuk
Distribusi
F
4.30
2.77 2.85
4.50 2.95
4.74 3.07
5.06 5,47
3,23 3.44
6.03 3,73
6,84 8.10
4.15
9
4.78
10.15 6.00
14.66 8.81
27.34 19.38
99.39 241
6.022 Derajat
Kebebasan
(untuk
Penyebut
Rasio
F)
4.19
2.72 2.80
4.39 2.90
4.63 3,02
4,95 5.35
3.18 5,91
3,39 3.68
6.71 7.98
4.10
10
4,74
10,05 5,96
14,54 8.78
27.23 19.39
99.40 242
6.056
4.10
2.67 2.76
4.30 2.86
4.54 2.97
4.85 5.26
3.13 5,82
3,34 3.63
6.62 7.87
4.06
11
5,93
14,45 8.76
27.13 19.40
99.41 243
6.082
4.02
2.63 2.72
4.22 2.82
4.46 2.94
4.78 5.18
3.10 5,74
3,31 3.60
6.54 7.79
4.03 9.96
4.70
12
5,91
14,37 8.74
27.05 19.41
99.42 244
6.106
3.96
2.60 2.69
4.16 2.79
4.40 2.91
4.71 5.11
3.07 5,67
3,28 3.57
6.47 7.72
4.00 9,89
4,68
14
5,87
14,24 8.71
26.92 19.42
99.43 245
6.142
3.85
2.55 2.64
4.05 2.74
4.29 2.86
4.60 5,00
3,02 5,56
3,23 3.52
6.35 3.96
7.60 9.77
4.64
16
5,84
14,15 8.69
26.83 19.43
99.44 246
6.169
3,78
2,51 2.60
3.98 2.70
4.21 2.82
4.52 2.98
4.92 5,48
3,20 3.49
6.27 3.92
7.52 9.68
4.60 20
5,80
14,02 8.66
26.69 19.44
99.45 248
6.208
3.67
2.46 2.54
3.86 2.65
4.10 2.77
4.41 2.93
4.80 5.36
3.15 3.44
6.15 3.87
7.39 9,55
4,56 24
5,77
13,93 8.64
26.60 19.45
99.46 249
6.234
3.59
2.42 2.50
3.78 2.61
4.02 2.74
4.33 2.90
4.73 5.28
3.12 3.41
6.07 3.84
7.31 9,47
4,53
30
5,74
13,83 8.62
26.50 19.46
99.47 250
6.258
3.51
2.38 2.46
3.70 2.57
3.94 2.70
4.25 2.86
4.64 5.20
3.08 3,38
5,98 3.81
7.23 9.38
4.50 40
5,71
13,74 8.60
26.41 19,47
99,48 251
6.286
3.42
2.34 2.42
3.61 2.53
3.86 2.67
4.17 2.82
4.56 5.11
3.05 3,34
5,90 3.77
7.14 9.29
4.46
50
5,70
13,69 8.58
26.35 19,47
99,49 252
6.302
3.37
2.32 2.40
3.56 2.50
3.80 2.64
4.12 2.80
4.51 5.06
3.03 3,32
5,85 3.75
7.09 9.24
4.44
75
5,68
13,61 8.57
26.27 19.48
99.49 253
6.323
3.30
2.28 3.49
2.36 2.47
3.74 2.61
4.05 2.77
4.45 5.00
3.00 3,29
5,78 3.72
7.02 9.17
4.42 100
5,66
13,57 8.56
26.23 19.49
99.49 253
6.334
3.27
2.26 3.46
2.35 2.45
3.70 2.59
4.01 2.76
4.41 2.98
4.96 3,28
5,75 3.71
6.99 9.13
4.40 200
5,65
13,52 8.54
26.18 19.49
99.49 254
6.352
3.28
2.24 3.41
2.32 2.42
3.66 2.56
3.96 2.73
4.36 2.96
4.91 3,25
5,70 3.69
6.94 9.07
4.38 500
5,64
13,48 8.54
26.14 19,50
99,50 254
6.361
3.18
2.22 3.38
2.31 2.41
3.62 2.55
3.93 2.72
4.33 2.94
4.88 3,24
5,67 3.68
6.90 9,04
4,37
5,63
13,46 8.53
26.12 19,50
99,50 254
6.366
3.16
2.21 3.36
2.30 2.40
3.60 2.54
3.91 2.71
4.31 2.93
4.86 3.23
5.65 3.67
6.88 9,02
4,36
13 12 11 10
9 8 7 6 5 4 3 2 1
190 Lampiran C
Machine Translated by Google
7.72
26
4.22 7.77
25
4.24 7.82
24
4.26 7.88
23
4.28 7.94
22
4.30 8.02
21
4.32 8.10
20
4.35 8.18
19
4.38 8.28
18
4.41 8.40
17
4.45 8.53
16
4.49 8.68
15
4.54 8.86
14
4.60
1
3,37
5,53 3,38
5,57 3.40
5.61 3.42
5.66 3.44
5.72 3.47
5.78 3,49
5,85 3,52
5,93 3.55
6.01 3.59
6.11 3.63
6.23 3.68
6.36 3.74
6.51
2
2.98
4.64 2.99
4.68 3.01
4.72 3.03
4.76 3.05
4.82 3.07
4.87 3.10
4.94 3.13
5.01 3.16
5.09 3.20
5.18 3.24
5.29 3,29
5,52 3,34
5,56
3
2.74
4.14 2.76
4.18 2.78
4.22 2.80
4.26 2.82
4.31 2.84
4.37 2.87
4.43 2.90
4.50 2.93
4.58 2.96
4.67 3.01
4.77 3.06
4.89 3.11
5.03
4
2.59
3.82 2.60
3.86 2.62
3.90 2.64
3.94 2.66
3.99 2.68
4.04 2.71
4.10 2.74
4.17 2.77
4.25 2.81
4.34 2.85
4.44 2.90
4.56 2.96
4.69
5
2.47
3.59 2.49
3.63 2.51
3.67 2.53
3.71 2.55
3.76 2.57
3.81 2.60
3.87 2.63
3.94 2.66
4.01 2.70
4.10 2.74
4.20 2.79
4.32 2.85
4.46
6
2.39
3.42 2.41
3.46 2.43
3.50 2,45
3,54 2.47
3.59 2.49
3.65 2.52
3.71 2.55
3.77 2.58
3.85 2.62
3.93 2.66
4.03 2.70
4.14 2.77
4.28
7
2.32
3.29 2.34
3.32 2.36
3.36 2.38
3.41 2.40
3.45 2.42
3.51 2.45
3.56 2.48
3.63 2.51
3.71 2.55
3.79 2.59
3.89 2.64
4.00 2.70
4.14
8
2.27
3.17 2.28
3.21 2.30
3.25 2.32
3.30 2.35
3.35 2.37
3.40 2.40
3.45 2.43
3.52 2.46
3.60 2.50
3.68 2.54
3.78 2.59
3.89 2.65
4.03
9
10 Derajat
Kebebasan
(untuk
Pembilang
Rasio
F)
2.22
3.09 2.24
3.13 2.26
3.17 2.28
3.21 2.30
3.26 3.31
2.32 2.35
3.37 2.38
3.43 2.41
3.51 2.45
3.59 2.49
3.69 2.55
3.80 2.60
3.94
2.18
3.02 2.20
3.05 2.22
3.09 2.24
3.14 2.26
3.18 2.28
3.24 2.31
3.30 2.34
3.36 2.37
3.44 2.41
3.52 2.45
3.61 2.51
3.73 2.56
3.86
11
2.15
2.96 2.16
2.99 2.18
3.03 2.20
3.07 2.23
3.12 2.25
3.17 2.28
3.23 2.31
3.30 2.34
3.37 2.38
3.45 2.42
3.55 2.48
3.67 2.53
3.80
12
2.10
2.86 2.11
2.89 2.13
2.93 2.14
2.97 2.18
3.02 2.20
3.07 2.23
3.13 2.26
3.19 2.29
3.27 2.33
3.35 2.37
3.45 2.43
3.56 2.48
3.70
14
2.05
2.77 2.06
2.81 2.09
2.85 2.10
2.89 2.13
2.94 2.15
2.99 2.18
3.05 2.21
3.12 2.25
3.19 2.29
3.27 2.33
3.37 2.39
3.48 2.44
3.62
16
20
24
30
40
50
75
100
200
500
1,99
2,66 2.00
2.70 2.02
2.74 2.04
2.78 2.07
2.83 2.09
2.88 2.12
2.94 2.15
3.00 2.19
3.07 2.23
3.16 2.28
3.25 2.33
3.36 2.39
3.51
1,95
2,58 1,96
2,62 1,98
2,66 2.00
2.70 2.03
2.75 2.05
2.80 2.08
2.86 2.11
2.92 2.15
3.00 2.19
3.08 2.24
3.18 2.29
3.29 2.35
3.43
1,90
2,50 1,92
2,54 1,94
2,58 1,96
2,62 1,98
2,67 2.00
2.72 2.04
2.77 2.07
2.84 2.11
2.91 2.15
3.00 2.20
3.10 2.25
3.20 2.31
3.34
1.85
2.41 1.87
2.45 1,89
2,49 1,91
2,53 1,93
2,58 1,96
2,63 1,99
2,69 2.02
2.76 2.07
2.83 2.11
2.92 2.16
3.01 2.21
3.12 2.27
3.26
1.82
2.36 1.84
2.40 1,86
2,44 1.88
2.48 1,91
2,53 1,93
2,58 1,96
2,63 2.00
2.70 2.04
2.78 2.08
2.86 2.13
2.96 2.18
3.07 2.24
3.21
1.78
2.28 1.80
2.32 1.82
2.36 1.84
2.41 1.87
2.46 1,89
2,51 1,92
2,56 1,96
2,63 2.00
2.71 2.04
2.79 2.09
2.98 2.15
3.00 2.21
3.14
1,76
2,25 1.77
2.29 1.80
2.33 1.82
2.37 1,84
2,42 1.87
2.47 1,90
2,53 1,94
2,60 1.89
2.68 2.02
2.76 2.07
2.86 2.12
2.97 2.19
3.11
(bersambung
ke
halaman
berikutnya)
1.72
2.19 1,74
2,23 1,76
2,27 1,79
2,32 1.81
2.37 1,84
2,42 1.87
2.47 1,91
2,54 1,95
2,62 1,99
2,70 2.04
2.80 2.10
2.92 2.16
3.06
1.70
2.15 1.72
2.19 1,74
2,23 1.77
2.28 1.80
2.33 1.82
2.38 1,85
2,44 1,90
2,51 1,93
2,59 1,97
2,67 2.02
2.77 2.08
2.89 2.14
3.02
1.69
2.13 1.71
2.17 1.73
2.21 1,76
2,26 1.78
2.31 1.81
2.36 1,84
2,42 1.88
2.49 1,92
2,57 1,96
2,65 2.01
2.75 2.07
2.87 2.13
3.00
26 25 24 23 22 21 20 19 18 17 16 15 14
Lampiran C 191
Machine Translated by Google
Derajat
Kebebasan
(untuk
Penyebut
dari atio)
RF
Nilai
Kritis
Distribusi
F
(lanjutan)
7.19
48
4.04 7.21
46
4.05 7.25
44
4.06 7.27
42
4.07 7.31
40
4.08 7.35
38
4.10 7.39
36
4.11 7.44
34
4.13 7.50
32
4.15 7.56
30
4.17 7.60
29
4.18 7.64
28
4.20 7.68
27
4.21
1
3.19
5.08 3.20
5.10 3.21
5.12 3.22
5.15 3.23
5.18 3.25
5.21 3.26
5.24 3.28
5.29 3.30
5.34 3,32
5,39 3,33
5,42 3,34
5,45 3,35
5,49
2
2.80
4.22 2.81
4.24 2.82
4.26 2.83
4.29 2.84
4.31 2.85
4.34 2.86
4.38 2.88
4.42 2.90
4.46 2.92
4.51 2.93
4.54 2,95
4,57 2.96
4.60
3
2.56
3.74 2.57
3.76 2.58
3.78 2.59
3.80 2.61
3.83 2.62
3.86 2.63
3.89 2.65
3.93 2.67
3.97 2.69
4.02 2,70
4,04 2.71
4.07 2.73
4.11
4
5
2.41
3.42 2.42
3.44 2.43
3.46 2.44
3.49 2,45
3,51 2.46
3.54 2.48
3.58 2.49
3.61 2.51
3.66 2.53
3.70 2.54
3.73 2.56
3.76 2.57
3.79
2.30
3.20 2.30
3.22 2.31
3.24 2.32
3.26 2.34
3.29 2.35
3.32 2.36
3.35 2.38
3.38 2.40
3.42 2.42
3.47 2.43
3.50 2,44
3,53 2.46
3.56
6
2.21
3.04 2.22
3.05 2.23
3.07 2.24
3.10 2.25
3.12 2.26
3.15 2.28
3.18 2.30
3.21 2.32
3.25 2.34
3.30 2.35
3.33 2.36
3.36 2.37
3.39
7
Level
.05
(Lightface)
dan
.01
(Boldface)
untuk
Distribusi
F
2.14
2.90 2.14
2.92 2.16
2.94 2.17
2.96 2.18
2.99 2.19
3.02 2.21
3.04 2.23
3.08 2.25
3.12 2.27
3.17 2.28
3.20 2.29
3.23 2.30
3.26
8 Derajat
Kebebasan
(untuk
Pembilang
Rasio
F)
(lanjutan)
2.08
2.80 2.09
2.82 2.10
2.84 2.11
2.86 2.12
2.88 2.14
2.91 2.15
2.94 2.17
2.97 2.19
3.01 2.21
3.06 2.22
3.08 2.24
3.11 2.25
3.14
9
10
2.03
2.71 2.04
2.73 2.05
2.75 2.06
2.77 2.07
2.80 2.09
2.82 2.10
2.86 2.12
2.89 2.14
2.94 2.16
2.98 2.18
3.00 2.19
3.03 2.20
3.06
1,99
2,64 2.00
2.66 2.01
2.68 2.02
2.70 2.04
2.73 2.05
2.75 2.06
2.78 2.08
2.82 2.10
2.86 2.12
2.90 2.14
2.92 2.15
2.95 2.16
2.98
11
1,96
2,58 1,97
2,60 1,98
2,62 1,99
2,64 2.00
2.66 2.02
2.69 2.03
2.72 2.05
2.76 2.07
2.80 2.09
2.84 2.10
2.87 2.12
2.90 2.13
2.93
12
1,90
2,48 1,91
2,50 1,92
2,52 1,94
2,54 1,95
2,56 1,96
2,59 1,98
2,62 2.00
2.66 2.02
2.70 2.04
2.74 2.05
2.77 2.06
2.80 2.08
2.83
14
1.86
2.40 1.87
2.42 1.88
2.44 1,89
2,46 1,90
2,49 1,92
2,51 1,93
2,54 1,95
2,58 1,97
2,62 1,99
2,66 2.00
2.68 2.02
2.71 2.03
2.74
16
20
24
30
40
50
75
100
200
500
1,79
2,28 1.80
2.30 1.81
2.32 1.82
2.35 1.84
2.37 1.85
2.40 1.87
2.43 1,89
2,47 1,91
2,51 1,93
2,55 1,94
2,57 1.96
2.60 1,97
2,63
1,74
2,20 1,75
2,22 1,76
2,24 1.78
2.26 1,79
2,29 1.80
2.32 1.82
2.35 1.84
2.38 1,86
2,42 1,89
2,47 1,90
2,49 1,91
2,52 1,93
2,55
1.70
2.11 1.71
2.13 1.72
2.15 1.73
2.17 1,74
2,20 1,76
2,22 1.78
2.26 1.80
2.30 1.82
2.34 1.84
2.38 1.85
2.41 1.87
2.44 1.88
2.47
1,64
2,02 1,65
2,04 1.66
2.06 1.68
2.08 1.69
2.11 1.71
2.14 1.72
2.17 1,74
2,21 1,76
2,25 1,79
2,29 1.80
2.32 1.81
2.35 1.84
2.38
1.61
1.96 1.62
1.98 1,63
2,00 1,64
2,02 1,66
2,05 1,67
2,08 1.69
2.12 1,71
2,15 1,74
2,20 1,76
2,24 1.77
2.27 1.78
2.30 1.80
2.33
1.56
1.88 1.57
1.90 1.58
1.92 1,60
1,94 1.61
1.97 1,63
2,00 1,65
2,04 1,67
2,08 1.69
2.12 1.72
2.16 1.73
2.19 1,75
2,22 1,76
2,25
1,53
1,84 1,54
1,86 1.56
1.88 1.57
1.91 1.59
1.94 1,60
1,97 1.62
2.00 1,64
2,04 1,67
2,08 1.69
2.13 1,71
2,15 1.72
2.18 1,74
2,21
1.50
1.78 1,51
1,80 1,52
1,82 1,54
1,85 1.55
1.88 1.57
1.90 1.59
1.94 1.61
1.98 1,64
2,02 1,66
2,07 1.68
2.10 1.69
2.13 1,71
2,16
1,47
1,73 1,48
1,76 1.50
1.78 1,51
1,80 1,53
1,84 1,54
1,86 1.56
1.90 1.59
1.94 1.61
1.98 1.64
2.03 1,65
2,06 1,67
2,09 1.68
2.12
1,45
1,70 1,46
1,72 1,48
1,75 1,49
1,78 1,51
1,81 1,53
1,84 1.55
1.87 1.57
1.91 1.59
1.96 1.62
2.01 1.64
2.03 1,65
2,06 1.67
2.10
48 46 44 42 40 38 36 34 32 30 29 28 27
192 Lampiran C
Machine Translated by Google
Sumber:
Snedecor,
GW,
&
Cochran,
WW,
Metode
Statistik
(edisi
ke-8).
1980
©Pers
Universitas
Negeri
Iowa.
Dicetak
ulang
dengan
izin
dari
John
Wiley
&
Sons,
Inc.
Catatan:
Agar
signifikan
secara
statistik,
Fyang
diperoleh
dari
data
harus
sama
atau
lebih
besar
dari
nilai
yang
ditunjukkan
pada
tabel.
6.66
1000
6.63
3.843.85
6.70
400
3.86
6.76
200
3.89 6.84
125
3.92
6.81
150
3.91 6.90
100
3.94 7.01
70
3.98
6.96
80
3.96 7.04
65
3.99 7.12
55
4.02
7.08
60
4.00 7.17
50
4.03
1
2.99
4.60
3,00
4,623.02
4.66
3,04
4,71 3.07
4.78
3.06
4.75 3.09
4.82
3.11
4.88
3.13
4.92
3.14
4.95
3.15
4.98
3.17
5.01
3.18
5.06
2
2.60
3.78
2.61
3.802.62
3.83
2.65
3.88 2.68
3.94
2.67
3.91 2,72
4,04
2.70
3.98 2.74
4.08
2.75
4.10
2.76
4.13
2.78
4.16
2.79
4.20
3
2.37
3.32
2.38
3.342.39
3.36
2.41
3.41 2.44
3.47
2.43
3.44 2.46
3.51
2.48
3.56
2.50
3.60
2.51
3.62
2.52
3.65
2.54
3.68
2.56
3.72
4
5
2.21
3.02
2.22
3.042.23
3.06
2.26
3.11 2.29
3.17
2.27
3.14 2.30
3.20
2.33
3.25
2.35
3.29
2.36
3.31
2.37
3.34
2.38
3.37
2.40
3.41
2.09
2.80
2.10
2.822.12
2.85
2.14
2.90 2.17
2.95
2.16
2.92 2.19
2.99
2.21
3.04
2.23
3.07
2.24
3.09
2.25
3.12
2.27
3.15
2.29
3.18
6
2.01
2.64
2.02
2.662.03
2.69
2.05
2.73 2.08
2.79
2.07
2.76 2.10
2.82
2.12
2.87
2.14
2.91
2.15
2.93
2.17
2.95
2.18
2.98
2.20
3.02
7
1,94
2,51
1,95
2,53
1,96
2,55
1.98
2.60 2.01
2.65
2.00
2.62 2.03
2.69
2.05
2.74
2.07
2.77
2.08
2.79
2.10
2.82
2.11
2.85
2.13
2.88
8
1.88
2.41
1,89
2,43
1,90
2,46
1,92
2,50 1,95
2,56
1,94
2,53 1.97
2.59
1,99
2,64
2.01
2.67
2.02
2.70
2.04
2.72
2.05
2.75
2.07
2.78
9
10
1.83
2.32
1.84
2.34
1.85
2.37
1.87
2.41
1,89
2,44 1,92
2,51
1,90
2,47 1,95
2,55
1.97
2.59
1,98
2,61
1,99
2,63
2.00
2.66 Derajat
Kebebas
(untuk
Pembila
2.02
2.70Rasio
F)
(lanjuta
1,79
2,24
1.80
2.26
1.81
2.29
1.83
2.34
1.85
2.37 1.88
2.43
1.86
2.40 1.91
2.48
1,93
2,51
1,94
2,54
1,95
2,56
1.97
2.59
1,98
2,62
11
1,75
2,18
1,76
2,20
1,78
2,23
1.80
2.28
1.82
2.30 1.85
2.36
1.83
2.33 1.88
2.41
1,89
2,45
1,90
2,47
1,92
2,50
1,93
2,53
1,95
2,56
12
1,69
2,07
1.70
2.09
1.72
2.12
1.74
2.17
1,76
2,20 1,79
2,26
1.77
2.23 1.82
2.32
1.84
2.35
1.85
2.37
1.86
2.40
1.88
2.43
1,90
2,46
14
1,65
1,64
1,992,01
1,67
2,04
1,69
2,09
1.71
2.12 1,75
2,19
1.72
2.15 1.77
2.24
1,79
2,28
1.80
2.30
1.81
2.32
1.83
2.35
1.85
2.39
16
20
24
30
40
50
75
100
200
500
1.57
1.87
1.58
1.89
1,60
1,92 1.64
2.00
1,62
1,97 1.68
2.06
1,65
2,03 1.70
2.11
1.72
2.15
1.73
2.18
1,75
2,20
1,76
2,23
1.78
2.26
1,52
1,79
1,53
1,81
1,54
1,84
1.57
1.88
1.59
1.91 1,65
2,03
1,63
1,98
1,60
1,94 1,67
2,07
1.68
2.09
1.70
2.12
1.72
2.15
1,74
2,18
1,46
1,69
1,47
1,71
1,49
1,74
1,52
1,79
1,54
1,83 1.57
1.89
1.55
1.85 1,60
1,94 1,63
2,00
1.62
1.98 1,65
2,03
1,67
2,06
1.69
2.10
1.40
1.59
1.41
1.61
1.42
1.64
1,45
1,69
1,47
1,72 1,51
1,79
1,49
1,75 1,54
1,84
1.56
1.88
1.57
1.90
1.59
1.93 1,63
2,00
1.61
1.96
1,35
1,52
1,36
1,54
1.38
1.57
1,42
1,62
1.44
1.66 1.48
1.73
1,45
1,68 1,51
1,78
1,53
1,82
1,54
1,84
1.56
1.87
1.58
1.90
1,60
1,94
1.28
1.41
1.30
1.44
1.32
1.47
1,35
1,53
1.37
1.56 1.42
1.64
1.39
1.59 1,45
1,70
1,47
1,74
1,49
1,76
1.50
1.79
1,52
1,82
1.55
1.86
1.24
1.36
1.26
1.38
1.28
1.42
1.32
1.48
1,34
1,51 1.39
1.59
1,36
1,54 1.42
1.65
1,45
1,69
1,46
1,71
1,48
1,74
1.50
1.78
1,52
1,82
1.17
1.25
1.19
1.28
1.22
1.32
1.26
1.39
1,29
1,43 1,34
1,51
1.31
1.46 1.38
1.57
1.40
1.62
1.42
1.64
1.44
1.68
1,46
1,71
1,48
1,76
1.11
1.15
1.13
1.19
1.16
1.24
1.22
1.33
1,25
1,37 1.30
1.46
1.27
1.40 1,35
1,52
1.37
1.56
1,39
1,60
1,41
1,63
1.43
1.66
1,46
1,71
1.00
1.00
1.08
1.11
1.13
1.19
1.19
1.28
1.22
1.33 1.28
1.43
1,25
1,37 1.32
1.49
1,35
1,53
1.37
1.56
1,39
1,60
1.41
1.64
1.44
1.68
100040020015012510080 70 65 60 55 50
Lampiran C 193
Machine Translated by Google
Machine Translated by Google
Machine Translated by Google

Lampiran D
Nilai Kritis dari Statistik Rentang Pelajar (untuk Tes Tukey HSD)

195
Sumber:
Harter,
ML,
dan
Tabel
jangkauan
siswa,
Annals
of
Mathematical
Statistics,
31,
1122-1147
(1960).
Dicetak
ulang
dengan
izin.
120 Kritis
dari
Statisti
Rentan
Pelajar
(untuk
Tes
Tukey
HSD)
kesalahan
df Nilai
40
60 24
3020
1918
17
16
1514
13
12
1110
987654321
2.77
2.80
2.83
2.86
2.89
2.92
2.95
2.96
2.97
2.98
3,00
3.01
3.03
3.06
3.08
3.11
3.15
3.20
3.26
3.34
3.46
3.64
3.9317.97
4.50
6.08
2
3.31
3.36
3.40
3.44
3.49
3.53
3.58
3.59
3.61
3.63
3.65
3.67
3.70
3.74
3.77
3.824.04
4.16
3.88
3.954.34
4.60
5.0426.98
5.91
8.33
3
3.63
3.74
3.79
3.693.84
3.904.00
3.964.02
3.984.05
4.08
4.11
4.15
4.204.42
4.264,53
4.68
4.33 4.90
5.22
5.762.82
6.82
9.80
4
4.04
3.92
3.86 4.10
3.984.17
4.23
4.25
4.28
4.30
4.33
4.37
4.41
4.45
4.51
4.57
4.65
4.76
4.89
5.06
5.31
5.67 37.07
10.88
7.50
6.29 5
4.03
4.10
4.16
4.23
4.30
4.37
4.44
4.47
4.50
4,52
4.56
4.60
4.64
4.69
4.75
4.82
4.91
5.02
5.17
5.36
5.63
6.03
6.7140.41
11.74
8.046Jumlah
Tingkatan
Variabel
Independe
4.24
4.17
4.31
4.39
4.46
4,54
4.62
4.64
4.67
4.70
4.74
4.78
4.83
4.88
4.95
5.03
5.12
5.24
5.40
5.61
5.90
7.05
6.33 43.12
12.44
8.487
4.29
4.36
4.44
4,52
4.60
4.68
4.77
4.79
4.82
4.86
4.90
4.94
4.99
5.05
5.12
5.20
5.30
5.43
5.60
5.827.35
6.12
6.58 45,40
47,36
49,07
50,59
51,96
53,20
54,33
13.03
8.858 = 0,05
4.39
4.47
4.55
4.64
4.72
4.81
4.90
4.92
4.96
4.99
5.03
5.08
5.13
5.19
5.26
5.35
5.46
5.60
5.77
6.00 13,54
7.60
6.32
6.80
9.189
4.47
4.56
4.65
4.74
4.82
4.92
5.01
5.04
5.07
5.11
5.15
5.20
5.25
5.32
5.40
5.49
5.60
5.74
5.927,00
6.16 13.99
7.33
6.49
9.4610
4.55
4.64
4.73
4.82
4.92
5.01
5.11
5.14
5.17
5.21
5.26
5.31
5.36
5.43
5.51
5.60
5.72
5.87
6.057.17
6.30
6.65 14.39
9.72
8.03 11
4.62
4.71
4.81
4.90
5.00
5.10
5.20
5.23
5.27
5.31
5.35
5.40
5.46
5.53
5.625.98
5.71
5.83
6.187.32
6.43
6.79 14,75
9.95
8.21 12
4.68
4.88
4.98
4.785.08
5.18
5.28
5.32
5.35
5.39
5.44
5.49
5.55
5.63
5.71
5.81
5,94
6.09
6.29 10.15
7.47
6.55
6.92 15.08
8.37 13
4.74
4.84
4.94
5.04
5.15
5.25
5.36
5.39
5.43
5.47
5.52
5.57
5.64
5.71
5.79
5.90
6.03
6.19 10.35
7.03
6.397.60
6.66 15.38
8.52 14
4.80
4.90
5.00
5.11
5.21
5.32
5.43
5.46
5.50
5.54
5.59
5,65
5.71
5.79
5.88
5.98
6.11
6.287.14
6.487.72
6.768.6655.36
10.53
15,65
15
196 Lampiran D
Machine Translated by Google
kesalahan
df
120
14,04
6040302420191817161514131211109 8 7 6 5 4 3 2 190.03
135.00
164.30
185.60
202.20
215.80
227.20
237.00
245.60
253.20
260.00
266.20
271.80
277.00
3.64
3.70
3.76
3.82
3.894.02
3.964.05
4.07
4.10
4.13
4.17
4.21
4.26
4.32
4.39
4.48
4.60
4.75
4.95
5.24
5.70
6.51
8.26 2
4.12
4.20
4.28
4.37
4.46
4.55
4.64
4.67
4.70
4.74
4.79
4.84
4.90
4.96
5.05
5.15
5.27
5.43
5.64
5.92
6.33
6.9810.62
8.1219.023
4.404.60
3.504.70
4.80
4.91
5.02
5.05
5.09
5.14
5.19
5.25
5.32
5.40
5.50
5.62
5.77
5.96
6.207.03
6.547.80
9.1722.29
24.72
12.17 4
4.60
4.71
4.82
4.93
5.05
5.17
5.29
5.33
5.38
5.43
5.49
5.56
5.63
5.73
5.84
5.97
6.14
6.357,00
6.627.569.96
8.4213.33 5
4.76
4.87
4.99
5.11
5.24
5.37
5.51
5.55
5.60
5.66
5.72
5.80
5.88
5.98
6.10
6.25
6.43
6.667.37
6.967.9710.58
8.9114.24
26.636
Jumlah
Tingkatan
Variabel
Independen
4.88
5.01
5.13
5.26
5.40
5.54
5.69
5.74
5.79
5,85
5.92
5,99
6.08
6.19
6.32
6.48
6.677.24
6.927.689.32
8.32 28.20
29.53
15.00
11.10 7
4.99
5.12
5.25
5.39
5.54
5.69
5.84
5.89
5,94
6.01
6.08
6.16
6.26
6.37
6.51
6.677.13
6.887.47
7.94 11.55
9.67
8.62 15.64 8 =
0,01
5.08
5.21
5.36
5.50
5,65
5.81
5.97
6.02
6.08
6.15
6.22
6.31
6.41
6.53
6.677.06
6.847.32
7.68
8.179.97
8.87 30.68
11.93
12.60 9
5.16
5.30
5,45
5.60
5.76
5.92
6.09
6.14
6.20
6.27
6.35
6.44
6.54
6.67
6.81
6.997.50
7.217.86 10.24
9.10
8.37 12.27
16.69
31.6910
5.23
5.38
5.53
5.69
5,85
6.02
6.19
6.25
6.31
6.38
6.46
6.56
6.66
6.797.13
6.947.36
7.65
8.03 10.48
9.30
8.55 12.57
17.13
32.5911
5.29
5.44
5.60
5.76
5.93
6.11
6.28
6.34
6.41
6.48
6.56
6.66
6.777.06
6.907.25
7.48
7.78
8.18 10.70
9.48
8.71 12.84
17.53
33.4012
5.35
5.51
5.67
5.84
6.01
6.19
6.37
6.43
6.50
6.57
6.66
6.767.01
6.877.17
7.36
7.60
7.91
8.31 10.89
9.65
8.86 13.09
17.89
34.1313
5.40
5.56
5.73
5.90
6.08
6.26
6.45
6.51
6.58
6.66
6.74
6.847.10
6.967.26
7.46
7.71
8.029.00
8.44 11.08
9.8113.32
18.22
34.8114
5,45
5.61
5.78
5.96
6.14
6.33
6.52
6.58
6.66
6.73
6.827.05
6.937.19
7.36
7.56
7.81
8.139.12
8.55 11.24
9.9513.53
18.52
35.4315
Lampiran D 197
Machine Translated by Google
Machine Translated by Google
Machine Translated by Google

Lampiran E
Nilai Kritis dari 2 Distribusi

Tingkat

df .10 .05 .02 .01 .001

1 2.71 3.84 5.41 6.64 10.83


2 4.60 5,99 7.82 9.21 13.82
3 6.25 7.82 9.84 11.34 16.27
4 7.78 9.49 11.67 13.28 18.46
5 9.24 11.07 13.39 15.09 20.52
6 10.64 12.59 15.03 16.81 22.46
7 12.02 14.07 16.62 18.48 24.32
8 13.36 15.51 18.17 20.09 26.12
9 14.68 16.92 19.68 21.67 27.88
10 15,99 18.31 21.16 23.21 29.59
11 17.28 19.68 22.62 24,72 31.26
12 18.55 21.03 24.05 26.22 32.91
13 19.81 22.36 25.47 27.69 34.53
14 21.06 23.68 26.87 29.14 36.12
15 22.31 25.00 28.26 30.58 37.70
16 23.54 26.30 29.63 32.00 39.25
17 24.77 27.59 31.00 33.41 40.79
18 25,99 28.87 32.35 34.80 42.31
19 27.20 30.14 33.69 36.19 43.82
20 28.41 31.41 35.02 37.57 45.32
21 29.62 32.67 36.34 38.93 46.80
22 30.81 33.92 37.66 40.29 48.27
23 32.01 35.17 38.97 41.64 49.73
24 33.20 36.42 40.27 42,98 51.18
25 34.38 37.65 41.57 44.31 52.62
26 35.56 38.88 42.86 45.64 54.05
27 36.74 40.11 44.14 46.96 55.48
28 37.92 41.34 45.42 48.28 56.89
29 39.09 42.56 46.69 49.59 58.30
30 40.26 43.77 47.96 50.89 59.70

Catatan: Agar signifikan, 2 yang diperoleh dari data harus sama atau lebih besar dari nilai yang ditunjukkan pada tabel.
Sumber: Fisher, RA, & Yates, F., Tabel Statistik untuk Penelitian Biologi, Pertanian, dan Medis (edisi ke-6), Tabel IV,
diterbitkan oleh Addison Wesley Longman Ltd., Pearson Education Ltd. (1995). Dicetak ulang dengan izin.

199
Machine Translated by Google
Machine Translated by Google

Referensi

Aiken, LS, & Barat, SG (1991). Regresi berganda: Menguji dan menafsirkan interaksi. Taman Newbury,
CA: Bijak.
Berliner, DC, & Biddle, BJ (1995). Krisis buatan: Mitos, penipuan, dan serangan terhadap publik Amerika
sekolah. New York: Addison-Wesley.
Berry, WD, & Feldman, S. (1985). Regresi berganda dalam praktik. Beverly Hills, CA: Sage.
Bracey, GW (1991, 5 Oktober). Mengapa mereka tidak bisa seperti kita? Phi Delta Kappan (Oktober), 104–117.
Burger, JM (1987). Peningkatan kinerja dengan peningkatan kontrol pribadi: Sebuah interpretasi presentasi
diri. Jurnal Psikologi Sosial Eksperimental, 23, 350-360.
Cohen, J., & Cohen, P. (1975). Terapan analisis regresi/ korelasi berganda untuk ilmu perilaku.
Hillsdale, NJ: Lawrence Erlbaum Associates.
Eccles, J., Adler, T., & Meece, JL (1984). Perbedaan jenis kelamin dalam prestasi: Tes teori alternatif. Jurnal
Psikologi Kepribadian dan Sosial, 46, 26-43.
Kaca, GV, & Hopkins, KD (1996). Metode statistik dalam pendidikan dan psikologi (3rd ed.). Boston: Allyn
& Daging babi asap.

Hinkle, DE, Wiersma, W., & Jurs, SG (1998). Statistik terapan untuk ilmu perilaku (edisi ke-4).
Boston: Houghton Mifflin.
Iverson, GR, & Norpoth, H. (1987). Analisis varians (2nd ed.) Newbury Park, CA: Sage.
Jaccard, J., Turrisi, R., & Wan, CK (1990). Efek interaksi dalam regresi berganda. Taman Newbury,
CA: Bijak.
Kim, JO, & Mueller, CW (1978). Analisis faktor: Metode statistik dan masalah praktis. Taman Newbury,
CA: Bijak.
Marascuilo, LA, & Serlin, RC (1988). Metode statistik untuk ilmu sosial dan perilaku. Baru
York: Orang bebas.

Midgley, C., Kaplan, A., Middleton, M., dkk. (1998). Pengembangan dan validasi skala penilaian orientasi tujuan
pencapaian siswa. Psikologi Pendidikan Kontemporer, 23, 113-131.
Mohr, LB (1990). Memahami pengujian signifikansi. Taman Newbury, CA: Sage.
Naglieri, JA (1996). Tes kemampuan nonverbal Naglieri. San Antonio, TX: Penjepit Harcourt.
Pedhazur, EJ (1982). Regresi berganda dalam penelitian perilaku: Penjelasan dan prediksi (edisi ke-2).
New York: Penjepit Harcourt.
Spatz, C. (2001). Statistik dasar: Tales of distribution (edisi ke-7). Belmont, CA: Wadsworth.
Wildt, AR, & Ahtola, PL (1978). Analisis kovarians. Beverly Hills, CA: Sage.

201
Machine Translated by Google
Machine Translated by Google

Glosarium Simbol

Jumlah dari; menjumlahkan.


X Seorang individu, atau mentah, skor dalam distribusi.
X Jumlah X; menjumlahkan semua skor dalam distribusi.
-
X Berarti sampel.
Arti dari sebuah populasi.
n Jumlah kasus, atau skor, dalam sampel.
N Jumlah kasus, atau skor, dalam suatu populasi.
P50 median.
s2
Varian sampel.
s Standar deviasi sampel.
2
Varian populasi.
simpangan baku populasi.
SS Jumlah kuadrat, atau jumlah simpangan kuadrat.
z Sebuah skor standar.

s–x Kesalahan standar rata-rata yang diperkirakan dari deviasi standar sampel
(yaitu, ketika deviasi standar populasi tidak diketahui).
–x Kesalahan standar rata-rata ketika simpangan baku populasi diketahui.
p nilai p , atau probabilitas.
tingkat alfa.
d Ukuran efek.
S Simpangan baku yang digunakan dalam rumus ukuran efek.

Ketakterbatasan.

H Hai
Hipotesis nol.
H A atau H 1 Hipotesis alternatif.
r Koefisien korelasi sampel Pearson.
Rho, koefisien korelasi populasi.
sr Kesalahan standar koefisien korelasi.
r2 Koefisien determinasi.
df Derajat kebebasan.
Koefisien phi, yang merupakan korelasi antara dua variabel dikotomis.
s–x1––x2 Kesalahan standar perbedaan antara dua rata-rata sampel independen.
SD Kesalahan standar perbedaan antara dua sampel dependen, cocok, atau
berpasangan.
SD Standar deviasi perbedaan antara dua sampel dependen atau berpasangan
cara.
t Nilai t .
MSw Persegi rata-rata dalam kelompok.
203
Machine Translated by Google

204 Daftar Istilah Simbol

XT

ng
MSS × T

R2
2
Machine Translated by Google

Indeks

Interval kepercayaan 95%, 71, 75 Efek langit-langit, 84


Interval kepercayaan 99%, 71 Ukuran sel, 120, 125, 130
Teorema limit pusat, 53, 60

SEBUAH
Distribusi chi-kuadrat, 6, 10
Uji independensi chi-kuadrat, 161-162, 166
Kontras apriori , 111, 117 penghitungan, 162-163 gabungan frekuensi yang
Penarikan akademik, 157 diamati dan yang diharapkan, 163, 164 sebagai uji nonparametrik,
Alpha, 181. Lihat juga tingkat Alpha Alpha 161 penulisan, 166
Cronbach, 66, 67, 72, 77, 78 untuk tes satu
sisi, 187 untuk tes dua sisi, 187 vs. nilai Koefisien determinasi, 87–88, 91, 92, 145
p, 74 Hipotesis alternatif, 65, 66, 77, 78 Grafik kolom, 6, 7, 9
Analisis kovarians (ANCOVA), 125-126, menunjukkan tren dengan,
130 Analisis varians (ANOVA), 10, 20, 24, 8 bertumpuk, 8
49, 63, 155 asumsi, 161 faktorial, 119-130 satu -way, 105– Prediktor gabungan, 155
106 pengukuran berulang, 131-144 Area di bawah kurva normal Komunitas, 173 untuk
di luar konten probabilitas Z, 185 untuk probabilitas ekor analisis faktor eksplorasi, 174
kanan, 186 Interval kepercayaan, 21, 61–62, 71–73, 75, 77 rumus,
72 untuk uji t satu sampel , 73–76 dan rata-rata
populasi, 72 dan ukuran sampel, 73

Analisis faktor konfirmatori, 177-178, 181 model


Asumsi, pelanggaran, 161 teoretis, 177
Distribusi asimtotik, 29, 34 Konstanta, 4, 10
Produk silang rata-rata, 82 Konstruksi, 169, 170, 181
Penyimpangan kuadrat rata-rata, 25 pengukuran andal, 178
Gol penghindaran, 158, 159 Tabel kontingensi, 162, 166
Variabel kontinu, 4, 79, 88, 91, 93, 104, 169
dalam ANOVA faktorial, 119
B
Efek terkontrol, 120-121, 129, 130, 136 dalam
Kurva lonceng, 29, ANCOVA, 125 waktu reaksi dan berat, 133
34 dan teorema limit pusat, 53 dalam studi regresi berganda, 152 variabel
Efek antar-grup, 106, 107, 112, 117, 133, 137, 144 prediktor, 156 dalam teknik regresi, 146
Efek antar subjek, 139, 140, 141, 143, 144 interaksi
dengan efek dalam subjek, 138
Distribusi bimodal, 15, 18 Kontrol, ketiadaan dalam desain penelitian korelasional, 6
Korelasi bivariat, 172 Pengambilan sampel praktis, 3, 10, 31, 35
Plot kotak, 27, 28 Koefisien korelasi, 63, 68, 79, 81-82, 91 analogi
dengan factor loading, 171 menghitung, 82-83
koefisien determinasi, 87-88 arah, 79 makna dan
C
kegunaan, 83-85 koefisien phi, 89 titik biserial, 88
2 distribusi, nilai kritis, 199
Perhitungan
uji chi-kuadrat independensi, 162-163 interval
kepercayaan untuk mean, 72 koefisien korelasi,
82-83 analisis faktor, 169-172 ukuran tendensi Koefisien rho spearman, 89
sentral, 14-15 teknik regresi, 146-151 standar penulisan, 90
error untuk menghitung skor t , 69 kesalahan Desain penelitian korelasional, 5, 10 tidak
standar perbedaan antara rata-rata sampel adanya kontrol, 6 kekuatan dan
dependen, 100 kesalahan standar perbedaan kelemahan, 6
antara rata-rata sampel independen, 95 kesalahan standar rata-rata, Korelasi, 49, 79-81, 145 antar
52–53 kesalahan jumlah kuadrat, 108 variabel dalam model regresi, 153, 154 asumsi, 161
membingungkan dengan sebab akibat, 83, 84, 87
antara nilai dan nilai ujian, 89-90

Koefisien korelasi Pearson, 81-88 hubungan


Variabel kategori, 4, 93, 104, 136 uji chi- dengan regresi, 146 dalam analisis reliabilitas,
square dengan, 161 pada ANOVA 179 signifikan secara statistik, 85-87
faktorial, 119
Penyebab, 91 Kovarians, 82, 91, 139
membingungkan dengan korelasi, 83, 84, 87 Efek kovariat, 138
205
Machine Translated by Google

206 Indeks _

Kovariat, 125, 130 uji Rumus ukuran efek, 69


standar berulang ANOVA, 139-140 Nilai Eigen, 174, 181
Variabel kriteria, dalam studi regresi, 147, 159 Kesalahan, dalam studi regresi, 150
Nilai F kritis , 162, 189-193 Varians kesalahan, 133
Nilai t kritis , 162 Frekuensi yang diharapkan, 162, 166
Nilai kritis 2 dibandingkan dengan frekuensi yang diamati, 163
distribusi, 199 statistik Nilai rata-rata yang diharapkan, 51, 60
rentang terpelajar, 195-197 distribusi t , 187 Desain penelitian eksperimental, 4-5, 10
kelemahan, 5 variabel independen dan
Alfa Cronbach, 166, 178, 179, 181 dependen dalam, 5
Item yang dimuat silang, 181 Varians yang dijelaskan, 87, 91
Hubungan lengkung, 84, 91 Analisis faktor eksplorasi, 170, 172-178, 180, 181 tabel
komunalitas, 176 penulisan, 180 eExtraction, 171, 176,
D 181

Derajat kebebasan, 60, 75, 86, 91, 92, 96, 100, 112
dalam ANOVA faktorial, 129 F
temuan dalam uji t sampel independen , 97
pembilang rasio F , 190-193 contoh ANOVA Distribusi F , 6, 10 nilai
ukuran berulang, 140 dan ukuran sampel, 54 kritis, 189-193 rasio F , 63
digunakan dengan nilai chi-kuadrat, 162 penghitungan, 114 nilai F , 68,
106, 117, 126, 127, 129
Uji t sampel dependen , 93, 94, 98–100, 104 hasil, 103 penghitungan, 107 kritis dan diamati untuk
standar error perbedaan antara mean sampel contoh ANOVA, 114, 115 ANOVA
dependen, 100 pengukuran berulang contoh, 140 signifikan secara statistik,
110, 115 Analisis faktor, 165, 169, 181 penghitungan, 169-172
Variabel terikat, 5, 10, 93, 104, 145, 156 dalam contoh konkret eksplorasi, 172-178 analisis faktor konfirmatori,
analisis ANCOVA, 126 kelompok berarti 177-178 matriks korelasi untuk eksplorasi, 173 statistik deskriptif
perbedaan, 116 mengurai varians menjadi untuk, 173 empat- solusi faktor dengan pembebanan faktor,
komponen, 143-144 partisi varians menjadi bagian- 175 hasil interpretasi dari, 174 rotasi faktor miring, 172 rotasi
bagian komponen, 119 dalam studi regresi, 146-147, 152 , faktor ortogonal, 172 matriks faktor yang diputar, solusi 4
159 faktor, 175 solusi tiga faktor dengan pembebanan faktor, 176
Statistik deskriptif, 3-4, 10, 29, 35, 61, 77, 126, 172 penulisan, 180 Pemuatan faktor, 171, 175 , 176, 177–178, 181
Rumus skor penyimpangan, 21 Rotasi faktor, 171, 181 ortogonal vs. miring, 172 ANOVA
Penyimpangan, 20, 23 Faktorial, 24, 103, 117, 119, 120, 130 dan analisis kovarians,
Variabel dikotomis, 4, 10, 88, 91 dalam 125–126 peringatan, 119–120 dan terkontrol/ efek parsial,
studi regresi, 146, 159 120-121 dan ukuran efek, 126-128 interaksi dalam, 121-123
Selisih antara rata-rata, peluang menemukan secara kebetulan, 56 interpretasi ting efek utama dengan adanya efek interaksi, 123–
Rotasi oblimin langsung, 172, 181 125 dan efek utama, 120–121 hasil SPSS untuk gender
Hipotesis alternatif terarah, 65 berdasarkan IPK, 127 pengujian efek sederhana, 125 kapan
Distribusi, 6-10, 13, 18 asimtotik, harus digunakan, 119 penulisan, 129 Statistik kesesuaian, 177,
29 bimodal, 15 chi-kuadrat, 178, 181 Efek lantai , 84 Rumus. Lihat juga Perhitungan interval
6 kepercayaan untuk rata-rata, 72 ukuran efek, uji t sampel
independen , nilai 98 F , 107 koefisien korelasi Pearson, 82 standar
F, 6 deviasi, 22 standar error perbedaan antara mean sampel
tinggi atau kerataan, 32 dependen, 100 standar error perbedaan antara independen
leptokurtik, 32 multimodal, rata-rata sampel, 95 kesalahan standar rata-rata, 53
14 condong negatif, 15
normal, 6, 29 persentase
skor di atas dan di bawah
angka yang ditetapkan, 42 skor persentil dan, 41 platikurtik,
32 condong positif, 15 proporsi antara dua skor mentah , 43,
44 simetris, 27 t, 6 unimodal, 29

Ukuran efek, 61–62, 68–71, 70, 76, 77, 78, 98


menghitung untuk uji t sampel independen , 98 dan
ANOVA faktorial, interpretasi 126–128 dari, 70 untuk
uji t satu sampel , 73–76 dan ANOVA satu arah, 111–
113 sebagai persentase varians dalam variabel terikat,
111 pengukuran berulang Contoh ANOVA, 140
Machine Translated by Google

Indeks 207 _

nilai t , 55 M
varians, 22
skor z, 38, 55 Besarnya hubungan, 80, 92
Distribusi frekuensi, 25, 26, 33, 45, 46, 47 Efek utama, 119, 120-121, 122, 130 antar-
kelompok, 137 antar-subyek, 137
menafsirkan dengan adanya efek
G interaksi, 123-125, 124, 129

Efek gender, 140 tabel Uji Mann–Whitney U, 96, 161, 166


Sampel dependen yang cocok, 104
kontingensi untuk gender berdasarkan status generasi, 166
Kemungkinan maksimum, 182
Generalisasi, 3, 11 dalam
Nilai maksimum, 19
desain eksperimental, 5
Rata-rata, 7, 11, 13, 18, 23, 24, 26, 38
Rata-rata besar, 107, 117
membandingkan untuk sampel independen, 93
menghitung, 114
membandingkan untuk sampel yang cocok/
Grafik, 6–10
berpasangan, 94 membandingkan untuk dua
peringatan tentang interpretasi, 143
kelompok atau lebih, 105, 115 interval kepercayaan
Kelompok berarti
untuk, 72 efek outlier pada , 17 nilai harapan, 51
perbedaan rata-rata antara, 109
untuk distribusi miring, 15-17 dalam distribusi normal,
perbedaan signifikan, 109–110
29 distribusi sampling dari, 51

H
Rata-rata kuadrat antara, 106, 117
Homogenitas varians, 119-120, 130
menghitung, 114
Sumbu y yang jujur, 143
Rata-rata kesalahan kuadrat, 106,
Sumbu horizontal, 6
117 penghitungan, 114
Bangunan hipotesis, 65
Rata-rata kuadrat untuk perbedaan antara percobaan, 135, 144
Pengujian hipotesis, 64–68, 164
Rata-rata kuadrat untuk subjek dengan interaksi percobaan, 135, 144
Rata-rata persegi di dalam, 106, 117
Saya Rata-rata kuadrat, ubah jumlah kuadrat menjadi, 110
Pengukuran, skala, 4
Variabel kelompok independen, 136-138 Ukuran tendensi sentral, 13
Uji t sampel independen , 93–94, 100, 103, 104 penghitungan, 14–15 rata-rata,
masalah konseptual, 94-95 median, dan mode distribusi miring, 15–17
formula untuk ukuran efek, 98 Median, 13, 18
signifikansi nilai t untuk, 96-98 menghitung, 14
kesamaan dengan ANOVA satu arah, 105 dalam distribusi normal, 29
hasil SPSS, 101 kesalahan standar
Perpecahan rata-rata, 13, 18
perbedaan antara rata-rata sampel independen, 95-96 Variabel Nilai minimum, 19
independen, 5 , 11, 104, 126, 145, 152 kelipatan, 129 dalam
Modus, 13, 18
studi regresi, 146, 159 Skor individu, 37 Statistik inferensial, 3-4, 11, 21, 30,
menghitung, 14–15
35, 49, 60, 61, 62, 67, 77 penggunaan kesalahan standar dalam, 56 Efek
menghitung untuk distribusi miring, 15–17 dalam
interaksi, 119, 130, 137, 138 dengan cara yang sama, 124 menafsirkan distribusi normal, 29
efek utama dengan adanya, 123–125 antara variabel prediktor dalam regresi,
Efek moderator, 119
146 signifikan secara statistik, 122 efek dalam subjek dengan antara- efek
Multikolinearitas, 154
subjek, 138 penulisan, 143 Interaksi, 121–123. Lihat juga Efek interaksi
Distribusi multimoda, 14, 18
Koefisien korelasi berganda, 154, 159
Beberapa variabel independen, 129
Beberapa variabel prediktor, 153
Regresi berganda, 145-146, 152-156, 159
Hasil ANOVA, 155
korelasi antar variabel dalam model regresi, 153 koefisien regresi,
155 varians bersama, 154 koefisien standar, 155 koefisien tidak
standar, 155 varians dijelaskan, 155
meningkat dengan jumlah variabel independen, 121
Cegat, 149, 151, 155, 159
Rentang interkuartil (IQR), 19, 20, 27, 28
Variabel skala interval, 93, 104

N
K
n - 1, 21, 22
Uji Kruskal–Wallis, 161, 166 efek pada standar deviasi, 22
Kurtosis, 31, 32, 35 Koefisien korelasi negatif, 83, 91
Korelasi negatif, 80

L Distribusi miring negatif, 15, 17, 18, 25, 32, 33, 35


Variabel skala nominal, 4, 11, 93, 104 uji chi-
Variabel laten, 169, 182 square digunakan dengan, 161
Distribusi leptokurtik, 32, 35 Distribusi tidak normal
Grafik garis, 7, 8, 9 menerapkan probabilitas distribusi normal untuk, 33–34
Hubungan linier, 84, 146 menghitung skor persentil dalam, 44
Machine Translated by Google

208 Indeks _

Statistik nonparametrik, 161, 166 Uji t sampel berpasangan , 93, 98–100, 104
Distribusi normal, 6, 11, 29, 35, 44 keuntungan ANOVA pengukuran berulang, 131
menerapkan probabilitas pada distribusi tidak normal, 33–34 Parameter, 1, 11, 18
karakteristik, 29 pembagian menjadi satuan deviasi standar, 34 Efek parsial, 120-121, 129, 130, 136 di
kepentingan, 29–30 diskusi mendalam, 30–32 persentase jatuh ANCOVA, 125
antara skor rata-rata dan z, 44 hubungan dengan metode Koefisien korelasi Pearson, 79, 81-82, 86, 92
pengambilan sampel, 31 dan ukuran sampel , 55, 56 condong dan rumus definisi, 82 pembeda
kurtosis, 31–32 standar, 39 simetri dalam, 29, 33 dari analisis regresi, 145
Skor persentil, 38, 40, 41, 43, 47
menghitung dengan distribusi tidak normal, 44
konversi dari skor mentah ke, 41
Korelasi negatif sempurna, 80, 91 Korelasi
positif sempurna, 80, 91 Koefisien Phi,
Asumsi 79, 89, 91, 92 Diagram lingkaran, 6, 7
normalitas, 161 Distribusi Platykurtic, 32 Koefisien korelasi
melanggar asumsi, 31 biserial titik, 79, 88, 91 Koefisien korelasi
Hipotesis nol, 30, 35, 65, 66, 75, 77, 78 menolak, populasi, 92 Populasi mean, 38, 54, 55, 76 dan interval
66 mempertahankan, 67, 75 kepercayaan, 72 vs mean sampel, 75 Parameter
populasi, 13 Standar deviasi populasi, 38, 55 Populasi,
1, 2, 11, 13, 18, 35, 62, 77 cukup mendefinisikan ,

HAI
62 mendefinisikan, 3 dan signifikansi statistik, 62

Rotasi faktor miring, 172


Perbedaan yang diamati antara rata-rata sampel, 95
Nilai F yang diamati , untuk contoh ANOVA, 115
Frekuensi yang diamati, 162, 166
dibandingkan dengan frekuensi yang diharapkan, 163
Nilai t teramati , 96 Korelasi positif, 79, 80, 91 Condong
signifikansi statistik, 97 positif, 18 Distribusi condong positif,
Nilai yang diamati, 151, 159 15, 31, 32, 35 Tes post hoc, 110–111, 118 Signifikansi
variabel dependen, 160 praktis, 62, 71, 77, 98, 126, 127 vs signifikansi
Variabel yang diamati, 169, 182 statistik , 97 Nilai yang diprediksi, 146, 150, 159
Uji t satu sampel , 69, 73–76, 74
Hipotesis alternatif satu arah, 65, 71, 77
Tingkat alfa uji variabel dependen, 152, 160
satu sisi, 187 Prediksi
wilayah penolakan, 67 dalam teknik regresi, 145
ANOVA satu arah, 103, 105–106, 117, 133 Variabel prediktor, 145, 146, 152, 156
Hasil ANOVA, 112 masalah dengan korelasi yang kuat, 153
penyimpangan antar-kelompok dan dalam-kelompok, 107 dalam studi regresi, 159 koefisien regresi
penghitungan, 106–109 dan ukuran efek, 111–113 tidak standar untuk, 157
Analisis komponen prinsip (PCA), 176, 182 Probabilitas,
Rumus nilai F , 107 uji 21, 30, 35 berdasarkan distribusi normal, 34, 96 dan
post hoc, kontras 110–111 nilai yang diharapkan vs. yang diamati, 163
apriori , 111 mean kelompok menemukan perbedaan antara rata-rata, 56
signifikan, 109–110 kemiripan dengan menemukan menggunakan distribusi t , 64 peran
uji t independen , 195 dalam statistik inferensial , 62 dan signifikansi
Keluaran SPSS memeriksa minat oleh kelompok perlakuan obat, 112 statistik, 62–64 Statistik probabilitas, 30
kuadrat deviasi, 114 dan kesalahan dalam kelompok, 106 penulisan, 116

Variabel ordinal, 4, 5, 11
Regresi kuadrat terkecil biasa (OLS), 148, 159 Q
Rotasi faktor ortogonal, 171, 172, 176
Variabel hasil, 145 dalam Variabel kualitatif, 4, 11
Variabel kuantitatif, 4, 11
studi regresi, 159
Pencilan, 16, 17, 18
efek pada mean, 17
Prediksi berlebihan, 151, 159 R
Representasi berlebihan, 165
Tugas acak, 5, 11
Peluang acak, 63, 64, 66, 77, 97, 161, 162 dan

P ukuran sampel, 71
Kesalahan acak, 106, 118
nilai p , 67, 71, 77, 78, 127 Sampling acak, 1, 3, 11, 31, 35 asumsi,
contoh ANOVA pengukuran berulang, 140 vs. 161
level alfa, 74 Kesalahan pengambilan sampel acak, 63, 66, 77, 97
Machine Translated by Google

Indeks 209 _

Variasi acak, 49 pengaruh signifikansi statistik, 68 pengaruh


Rentang, 19, 24, 26, 28 terhadap galat baku, 56, 58–59 dan
sebagai ukuran penyebaran total, distribusi normal, 55, 56 dan peluang acak,
20 kegunaan sebagai statistik, 26 64, 71 dan bentuk distribusi t , 96 dan galat
Urutan peringkat data, 44 baku perbedaan rata-rata sampel
Skala rasio, 4, 5, 11 independen, 95, 98 dan signifikansi statistik, 68 dan distribusi t , 93
Skor mentah, 38, 40, 46, 47, 54
diubah menjadi satuan simpangan baku, 37 diubah
menjadi skor z, 42 proporsi antara dua, 43, 44
Standar deviasi sampel, 38
Daerah penolakan, 67, 102, 103 Sampel, 1, 11, 13, 18, 35, 62, 77 diambil
Regresi, 24, 144, 145 asumsi, 161 dari populasi, 2 keterwakilan, 2, 3
penghitungan, 146-151 scatterplot dan signifikansi statistik, 62
dengan garis regresi, 151
sederhana vs ganda, 145-146 variabel Distribusi sampel, 60
yang digunakan dalam, 146 penulisan, 159 Distribusi sampel perbedaan antara rata-rata, 57, 60
koefisien regresi, 49 , 63, 155, 159–160 Distribusi sampel mean, 49, 50, 51, 60
untuk variabel prediktor, 155 studi self- Masalah pengambilan sampel, 3-4
handicapping, 158 Persamaan regresi, 146, 149, 152, Metode pengambilan sampel, dan distribusi normal, 31
155–156, 160 Garis regresi, 148, 150, 151, 160 Skala, 182
penyadapan, 149 kemiringan, 149 Model regresi, Timbangan pengukuran, 4
korelasi antar variabel dalam, 153 Menolak hipotesis nol, Scattergrams, 80, 91
66, 67, 105 Analisis reliabilitas, 169, 178-179, 182 skala rata- koefisien korelasi, 81
rata, 179 varians skala, 179 korelasi ganda kuadrat, 179 Scatterplots, 147, 160
penulisan, 180 Terpercaya, 182 Berulang- mengukur dengan garis regresi, 151
analisis kovarians (ANCOVA), 131 kapan harus digunakan, 131– Varians bersama, 88, 92
133 ANOVA tindakan berulang, 103, 117, 119, 131, 144
dalam regresi berganda, 154
menambahkan variabel kelompok independen dalam, 136-138
Signifikansi, 94, 95, 104
keunggulan dibandingkan uji t berpasangan , 131 efek antar-
nilai t untuk uji t sampel independen , 96–98
mata pelajaran , 141 menghitung, 133–136 dan berubah
Efek sederhana, 120, 130
seiring waktu, 144 statistik deskriptif, 141 kesamaan dengan
pengujian, 125
uji t berpasangan s, 143 keluaran SPSS, 141 kapan harus
Regresi linier sederhana, 145-146, 160
digunakan, 131–133 efek dalam subjek, 141 penulisan, 143
Miring, 18, 31, 35
Pengambilan sampel representatif, 3-4, 11, 31, 35 Desain penelitian, 4–
Distribusi miring, 15–17, 46
6 korelasional, 5–6 eksperimental, 4– 5 Residuals, 151, 160
Kemiringan, 151,
Response scales, 24 Mempertahankan hipotesis nol, 67, 75 Probabilitas
160 garis regresi, 149
sisi kanan, area di bawah kurva normal di luar Z, 186 Rotated factor
Koefisien rho spearman, 79, 89, 92
matrix, 174, 182 Solusi 4-faktor, 175
Program perangkat lunak statistik SPSS, 27, 74, 100, 153, 165, 175, 178 tabel
komunalitas, 173 tabel kontingensi untuk gender menurut status generasi,
166 penanganan probabilitas, 102 hasil uji t sampel independen , 101
output untuk ANOVA pemeriksaan minat obat kelompok perlakuan, 112
keluaran untuk uji t satu sampel , 74 keluaran untuk ANCOVA pengukuran
berulang, 141 hasil untuk jenis kelamin berdasarkan ANOVA faktorial IPK,
127 hasil uji post hoc Tukey HSD, 113

Koefisien korelasi kuadrat, 88


Penyimpangan kuadrat, 23, 28, 148
untuk contoh ANOVA, 114
Standar deviasi, 19, 24, 26, 28, 38, 52, 54, 69 perhitungan,
22 pembagian distribusi normal menjadi, 34 efek
ukuran sampel dan n - 1 on, 22 efek pada kesalahan
standar, 57, 58–59 as perkiraan, 54 untuk distribusi
sampel rata-rata, 50 dalam distribusi miring, 46

S
Unit deviasi standar, mengubah skor mentah menjadi, 37
Rata-rata sampel, 38, 50, 55, 75, 76 Kesalahan standar perbedaan antara rata-rata sampel dependen, 99, 100, 103,
vs rata-rata populasi, 75 Ukuran 104
sampel, 24, 26, 52, 69, 120 interval Kesalahan standar perbedaan antara rata-rata sampel independen, 95-96
kepercayaan dan, 73 dan derajat dengan ukuran sampel yang sama, 95
kebebasan, 54 berpengaruh pada
simpangan baku, 22 Kesalahan standar perbedaan antara rata-rata, 95
Machine Translated by Google

210 Indeks _

Kesalahan standar rata-rata, 49–51, 52, 60, 68, 69, 71, 78 untuk kesetaraan rata-rata,
pengaruh ukuran sampel pada, 101 jenis sampel independen, 93-94, 94-98
59 dan ukuran statistik sampel, 56 signifikansi statistik, interval kepercayaan, dan ukuran efek,
menggunakan standar deviasi populasi, 55 73–76
Ukuran kesalahan standar, dan ukuran statistik, writeups, 103
59 Kesalahan standar, 21, 49 penghitungan, 52– nilai t , 63, 86
53 teorema limit pusat dan, 53 deskripsi menghitung, 55
konseptual, 49–51 efek ukuran sampel aktif, membandingkan dengan skor z, 53–
58–59 efek simpangan baku aktif, 58–59 56 signifikansi untuk uji t sampel independen , 96–98
dan distribusi normal, 53–56 dan distribusi signifikan secara statistik, 64, 86
t , 53–56 digunakan dalam statistik inferensial, Tabel komunalitas, 173 dari
56 Distribusi normal standar, 39 Skor standar, analisis faktor eksplorasi, 174
37, 47 Standardisasi, 37–38 membandingkan Ekor
skor mentah dan skor z, 45–47 Koefisien kurva distribusi, skor 31 dan
regresi terstandarisasi, 156, 160 Skor z, 39
terstandarisasi, 45 Variabel terstandarisasi, 82 Distribusi teoritis, 30, 35
Signifikansi statistik, 59, 60, 61-62, 77, 99, 106 Waktu, percobaan,
korelasi, 85-87 perbedaan rata-rata dua sampel, 144 varians disebabkan, 134
95, 97 pengaruh ukuran sampel pada, 68 nilai F , 110 Efek waktu, 138
dan pengujian hipotesis, 64–68 efek interaksi, 122 efek Rentang terpotong, 84, 92
utama, 122 nilai t yang diamati , 97 untuk uji t satu Tes post hoc Tukey HSD, 110, 111, 118 nilai
sampel , 73–76 dan probabilitas, 62–64 ukuran sampel kritis untuk statistik rentang siswa, 195–197
dan, 68 sampel, populasi, dan, nilai t 62 , kesalahan 6 Hasil SPSS, 113
dan Tipe I, 64–68 vs. signifikansi praktis, 127 Statistik, 1, 11, hasil tes, 116
18 der iving inferensi dari, 21 deskriptif, 3-4 inferensial, 3-4 Hipotesis alternatif dua sisi, 65, 66, 77, 102, 103
Kekuatan hubungan, 80, 92 Pemodelan persamaan struktural, Uji dua sisi, 71, 72 tingkat
177, 182 Statistik rentang pelajar, 116, 118 nilai kritis untuk alfa, 187 wilayah
tes Tukey HSD, 195-197 penolakan, 67
Efek interaksi dua arah, 121
Tingkat kesalahan tipe I, 66
Kesalahan tipe I, 64–68, 66, 67, 77
saat menjalankan beberapa tes t , 105
Jumlah kuadrat tipe III, 127

kamu

Variabel tidak berkorelasi, 87


Underprediksi, 151, 160
Kurang terwakili, 165
Distribusi unimodal, 29, 35
Varians unik, 154, 160
Variabel yang tidak teramati, 169, 182
Koefisien tidak standar, 155
Koefisien regresi tidak standar, 148–149, 157

Jumlah deviasi kuadrat, 21, 23, 24, 28, 148 V


Jumlah kuadrat (SS), 23, 24, 28, 112
Jumlah kuadrat antara, 107, 118 Variabel, 4, 11
menghitung, 114 kategoris, 4
Jumlah kesalahan kuadrat, 107, 118, 155 hubungan kausal vs korelasional, 83 kontinu, 4
perhitungan, 108 diubah menjadi dependen, 5 dikotomis, 4 dalam desain
kesalahan kuadrat rata-rata, 109 penelitian eksperimental, 5 independen, 5
Jumlah kuadrat total, 108, 118 hubungan linier, 84 skala nominal, 4 ordinal, 4
Jumlah kuadrat kualitatif, 4 kuantitatif, 4 hubungan antara
yang diubah menjadi kuadrat rata-rata, kelipatan, 79, 145 jenis, 4 Varians, 19–20, 24,
110 contoh ANOVA pengukuran berulang, 140 26, 28 menyesuaikan untuk perkiraan yang
Simbol, lihat Daftar Istilah Simbol, 203–204 terlalu rendah, 21 mengubah ke standar deviasi,
Distribusi simetris, 27, 29, 33, 35 23 dalam uji t independen , 96 partisi dari, 137

distribusi t , 6, 11, 53, 93 nilai


kritis, 187 dan ukuran
sampel, 55 uji t , 93 asumsi,
161 jenis sampel dependen, 94,
98–100
Machine Translated by Google

Indeks 211 _

meremehkan, 21 kegunaan kamu

sebagai statistik, 27
Rotasi varimax, 172, 182 Sumbu Y, 7,
8 jujur, 143
dalam distribusi normal, 29
W
Kesediaan untuk berpartisipasi, sampel berdasarkan, 3
Z
Perbedaan dalam kelompok, 106, 107, 118
Kesalahan dalam grup, 106 z tabel skor, 40 skor
Desain dalam subjek, 135, 136, 144 z, 37–38, 41, 43, 47, 68, 82, 83, 92 menghitung,
Efek dalam subjek, 143 38 membandingkan dengan skor mentah, 45–
Faktor dalam mata pelajaran, 142 47 membandingkan dengan nilai t , 53–56
Varians dalam mata pelajaran, 134, 139, 141, 142, 144 mengubah skor mentah menjadi, 43
interaksi dengan efek antar mata pelajaran, 138 menentukan skor persentil dari, 38
menafsirkan, 38-45 probabilitas menemukan
tertentu, 47 dan skor mentah, 46 dan ekor dari
X
distribusi normal, 39
Sumbu X, 6,
8 dalam distribusi normal, 29

Anda mungkin juga menyukai