Anda di halaman 1dari 26

HIPOTESIS DAN UJI HIPOTESIS

TUGAS SUMMARY
MATA KULIAH STATISTIKA

Oleh :
RHOMIY HANDICAN
NIM. 22169029

Dosen Pengampu:
Prof. Dr. Ahmad Fauzan, M.Pd., M.Sc
Dr. Syafriadi, M.Si

Link : https://www.youtube.com/watch?v=VK-rnA3-41c
Summary
Bab VI Buku Lomax, R, G. & Hahs-Vaughn, D, L., (2012). An Introduction to
Statistical Concepts Third Edition. Routledge : New York London
Summary
Bab VII Buku Jackson. (2009). Research Method and Statistic (A Critical Thinking
Approach) Third Edition. Jacksonville University : Nelson Education, Ltd

PROGRAM DOKTOR (S3) ILMU PENDIDIKAN


PROGRAM PASCASARJANA
UNIVERSITAS NEGERI PADANG
2023
Summary
Bab VI Buku Lomax, R, G. & Hahs-Vaughn, D, L., (2012). An Introduction to
Statistical Concepts Third Edition. Routledge : New York London

Types of Hypotheses
Pengujian hipotesis adalah proses pengambilan keputusan di mana dua
kemungkinan keputusan ditimbang secara statistik. Di satu sisi, hal ini mirip dengan
keputusan lain yang melibatkan dua kemungkinan, seperti apakah Anda akan
membawa payung hari ini atau tidak. Dalam Pengambilan Keputusan statistik, dua
kemungkinan keputusan tersebut dikenal sebagai hipotesis. Data sampel kemudian
digunakan untuk membantu kita memilih salah satu dari keputusan tersebut. Dua jenis
hipotesis yang saling bersaing satu sama lain dikenal sebagai hipotesis nol atau
hipotesis statistik, dilambangkan dengan H0, dan hipotesis ilmiah, alternatif, atau
hipotesis penelitian, dilambangkan dengan H1.
Hipotesis nol atau hipotesis statistik adalah pernyataan tentang nilai parameter
populasi yang tidak diketahui. Mempertimbangkan prosedur yang kita bahas dalam
bab ini, uji rata-rata satu sampel, salah satu contohnya H0 mungkin adalah bahwa
skor IQ rata-rata populasi adalah 100, yang kita nyatakan sebagai;

Secara matematis, kedua persamaan tersebut menyatakan hal yang sama. Versi
di sebelah kiri adalah bentuk yang lebih tradisional dari hipotesis nol yang melibatkan
satu rata-rata. Namun, versi di sebelah kanan menjelaskan kepada pembaca mengapa
istilah "nol" adalah tepat. Artinya, tidak ada perbedaan atau perbedaan "nol" antara
rata-rata populasi dan nilai rata-rata yang dihipotesiskan sebesar 100. Secara umum,
nilai rata-rata yang dihipotesiskan dilambangkan dengan μ0 (di sini μ0 = 100). H0
lainnya mungkin adalah nilai rata-rata populasi ujian statistika sama untuk siswa laki-
laki dan perempuan, yang kita nyatakan sebagai;

di mana
μ1 adalah rata-rata populasi untuk laki-laki
μ2 adalah rata-rata populasi untuk perempuan

Di sini tidak ada perbedaan atau perbedaan "nol" antara dua rata-rata populasi.
Ketika kita melanjutkan ke bab-bab berikutnya, kita akan mengenal hipotesis nol yang
melibatkan parameter populasi lainnya seperti proporsi, varians, dan korelasi.
Hipotesis nol pada dasarnya dibuat oleh peneliti dalam upaya untuk menolak hipotesis
nol dan mendukung hipotesis ilmiah, alternatif, atau hipotesis penelitian kita sendiri.
Dengan kata lain, hipotesis ilmiah adalah apa yang kita yakini sebagai hasil penelitian,
berdasarkan teori dan penelitian sebelumnya. Dengan demikian, kita mencoba
menolak hipotesis nol dan menemukan bukti yang mendukung hipotesis ilmiah kita.
Hipotesis ilmiah H1 untuk kedua contoh kita adalah;

Berdasarkan data sampel, pengujian hipotesis melibatkan pengambilan


keputusan apakah hipotesis nol atau hipotesis penelitian didukung. Karena kita
berurusan dengan statistik sampel dalam proses pengambilan keputusan, dan mencoba
untuk membuat kesimpulan kembali ke parameter populasi, selalu ada risiko
membuat keputusan yang salah. Dengan kata lain, data sampel dapat membuat kita
membuat keputusan yang tidak konsisten dengan populasi. Kita mungkin
memutuskan untuk membawa payung dan ternyata tidak turun hujan, atau kita
mungkin memutuskan untuk meninggalkan payung di rumah dan ternyata hujan turun.
Dengan demikian, seperti halnya dalam keputusan apa pun, selalu ada kemungkinan
bahwa keputusan yang salah dapat dibuat. Ketidakpastian ini disebabkan oleh
kesalahan pengambilan sampel, yang akan kita lihat, dapat dijelaskan dengan
pernyataan probabilitas. Artinya, karena keputusan dibuat berdasarkan data sampel,
sampel mungkin tidak terlalu mewakili populasi dan oleh karena itu membawa kita
pada keputusan yang salah. Jika kita memiliki data populasi, kita akan selalu
membuat keputusan yang benar tentang parameter populasi. Karena kita biasanya
tidak memiliki data populasi, kita menggunakan statistik inferensial untuk membantu
membuat keputusan dari data sampel dan menyimpulkan hasil tersebut kembali ke
populasi. Sifat dari kesalahan keputusan tersebut dan probabilitas yang dapat kita
kaitkan dengan kesalahan tersebut akan dijelaskan pada bagian selanjutnya.

Types of Decision Errors


1. Example Decision-Making Situation
Mari kita ajukan sebuah contoh situasi pengambilan keputusan dengan
menggunakan instrumen kecerdasan orang dewasa. Diketahui bahwa deviasi standar
populasi dari instrumen tersebut adalah 15 (yaitu, σ2 = 225, σ = 15). (Dalam dunia
nyata, jarang sekali deviasi standar populasi diketahui, dan kita akan kembali ke
kenyataan nanti di bab ini ketika konsep dasar telah dibahas. Namun untuk saat ini,
asumsikan bahwa kita mengetahui simpangan baku populasi). Hipotesis nol dan
hipotesis alternatif kita adalah sebagai berikut:

Oleh karena itu, kami tertarik untuk menguji apakah rata-rata populasi untuk
instrumen kecerdasan sama dengan 100, nilai rata-rata yang kami hipotesiskan, atau
tidak sama dengan 100.
Selanjutnya kita mengambil beberapa sampel acak individu dari populasi
orang dewasa. Kita temukan untuk sampel pertama kita Y1 = 105 (yaitu,
menunjukkan rata-rata untuk sampel 1). Melihat informasi untuk sampel 1, rata-rata
sampel adalah sepertiga dari standar deviasi di atas nilai yang dihipotesiskan [yaitu,
dengan menghitung nilai z sebesar (105 - 100)/15 = .3333], sehingga kesimpulan kita
mungkin akan gagal menolak H0. Dengan kata lain, jika rata-rata populasi sebenarnya
adalah 100, maka kita percaya bahwa kita sangat mungkin mengamati rata-rata
sampel 105. Dengan demikian, keputusan kita untuk sampel 1 adalah gagal menolak
H0; namun, ada kemungkinan atau probabilitas bahwa keputusan kita salah. Kita
mengambil sampel kedua dan menemukan Y2 = 115 (yaitu, menunjukkan rata-rata
sampel 2).
Melihat informasi untuk sampel 2, rata-rata sampel adalah satu standar deviasi
di atas nilai yang dihipotesiskan [yaitu, z = (115 - 100)/15 = 1,0000], sehingga
kesimpulan kita mungkin akan gagal menolak H0. Dengan kata lain, jika rata-rata
populasi sebenarnya adalah 100, maka kita percaya bahwa kemungkinan besar kita
akan melihat rata-rata sampel sebesar 115. Dengan demikian, keputusan kita untuk
sampel 2 adalah gagal menolak H0. Namun, ada kemungkinan yang lebih besar lagi
bahwa keputusan kita salah dibandingkan dengan sampel 1; hal ini dikarenakan rata-
rata sampel lebih jauh dari nilai yang dihipotesiskan.
Kita mengambil sampel ketiga dan menemukan Y3 = 190 (yaitu,
menunjukkan rata-rata sampel 3). Melihat informasi untuk sampel 3, rata-rata sampel
adalah enam standar deviasi di atas nilai yang dihipotesiskan [yaitu, z = (190-100) /
15 = 6,0000], sehingga kesimpulannya adalah tolak H0.
Dengan kata lain, jika rata-rata populasi sebenarnya adalah 100, maka kami
percaya bahwa sangat tidak mungkin untuk mengamati rata-rata sampel sebesar 190.
Dengan demikian, keputusan kita untuk sampel 3 adalah menolak H0; namun, ada
beberapa kemungkinan atau probabilitas kecil bahwa keputusan kita salah.
2. Decision-Making Table
Mari kita pertimbangkan Tabel 6.1 sebagai mekanisme untuk memilah-milah
hasil yang mungkin terjadi dalam proses pengambilan keputusan statistik. Tabel
tersebut terdiri dari kasus umum dan kasus khusus. Pertama, pada bagian (a) dari tabel
tersebut, kita memiliki hasil yang mungkin untuk kasus umum. Untuk keadaan alam
atau kenyataan (yaitu, bagaimana keadaan sebenarnya dalam populasi), ada dua
kemungkinan yang berbeda seperti yang digambarkan oleh baris-baris tabel. Entah H0
memang benar atau H0 memang salah. Dengan kata lain, menurut kondisi dunia nyata
dalam populasi, H0 benar atau H0 salah. Harus diakui, kita biasanya tidak tahu apa
kondisi alam yang sebenarnya; namun, kondisi alam itu ada dalam data populasi.
Keadaan alam inilah yang kita coba perkirakan dengan sebaik-baiknya ketika
membuat keputusan statistik berdasarkan data sampel.
Untuk keputusan statistik kita, ada dua kemungkinan yang berbeda seperti
yang digambarkan oleh kolom-kolom pada tabel. Kita gagal menolak H0 atau kita
menolak H0. Dengan kata lain, berdasarkan data sampel kita, kita gagal menolak H0
atau menolak H0. Karena tujuan kita biasanya untuk menolak H0 yang mendukung
hipotesis penelitian kita, kita lebih memilih istilah gagal tolak daripada menerima.
Menerima menyiratkan bahwa Anda bersedia membuang hipotesis penelitian Anda
dan mengakui kekalahan berdasarkan satu sampel. Gagal tolak menyiratkan bahwa
Anda masih memiliki harapan untuk hipotesis penelitian Anda, meskipun bukti dari
satu sampel menunjukkan sebaliknya.
Jika kita melihat ke dalam tabel, kita akan melihat empat hasil yang berbeda
berdasarkan kombinasi keputusan statistik dan keadaan alam. Perhatikan baris
pertama dari tabel di mana H0 pada kenyataannya benar. Pertama, jika H0 benar dan
kita gagal menolak H0, maka kita telah membuat keputusan yang benar; yaitu, kita
telah gagal menolak H0 yang benar. Probabilitas dari hasil pertama ini dikenal
sebagai 1 - α (di mana α mewakili alpha). Kedua, jika H0 benar dan kita menolak H0,
maka kita telah membuat kesalahan keputusan yang dikenal sebagai kesalahan Tipe I.
Artinya, kita telah salah menolak H0 yang benar. Data sampel kita telah membawa
kita pada kesimpulan yang berbeda dari data populasi. Probabilitas dari hasil kedua
ini dikenal sebagai α. Oleh karena itu, jika H0 sebenarnya benar, maka data sampel
kita akan membawa kita pada salah satu dari dua kesimpulan, yaitu kita dengan benar
gagal menolak H0, atau kita salah menolak H0. Jumlah dari probabilitas untuk kedua
hasil ini ketika H0 benar adalah sama dengan 1 [yaitu, (1 - α) + α = 1]. Sekarang
perhatikan baris kedua dari tabel di mana H0 sebenarnya salah. Pertama, jika H0
benar-benar salah dan kita gagal menolak H0, maka kita telah membuat kesalahan
keputusan yang dikenal sebagai kesalahan keputusan Tipe II.
Artinya, kita telah gagal menolak H0 yang salah. Data sampel kita telah
membawa kita pada kesimpulan yang berbeda dari data populasi. Probabilitas dari
hasil ini dikenal sebagai β (beta). Kedua, jika H0 benar-benar salah dan kita menolak
H0, maka kita telah membuat keputusan yang benar; yaitu, kita telah menolak H0
yang salah dengan benar. Probabilitas dari hasil kedua ini dikenal sebagai 1 - β atau
pangkat (akan dibahas lebih lanjut dalam bab ini). Oleh karena itu, jika H0
sebenarnya salah, maka data sampel kita akan membawa kita pada salah satu dari dua
kesimpulan, kita salah menolak H0, atau kita menolak H0 dengan benar. Jumlah dari
probabilitas untuk kedua hasil ini ketika H0 salah adalah sama dengan 1 [yaitu, β + (1
- β) = 1].
Sebagai aplikasi dari tabel ini, pertimbangkan kasus spesifik berikut, seperti
yang ditunjukkan pada bagian (b) dari Tabel 6.1. Kita ingin menguji hipotesis berikut
ini tentang apakah besok akan berlatih atau tidak.
H0: tidak ada hujan besok
H1: hujan besok

Kita mengumpulkan beberapa data sampel dari tahun-tahun sebelumnya untuk


bulan dan hari yang sama, dan membuat keputusan statistik. Dua keputusan statistik
yang mungkin kita ambil adalah (a) kita tidak yakin besok akan hujan sehingga tidak
membawa payung, atau (b) kita yakin besok akan hujan sehingga membawa payung.
Sekali lagi, ada empat kemungkinan hasil yang mungkin terjadi. Pertama, jika
H0 benar (tidak akan hujan) dan kita tidak membawa payung, maka kita telah
membuat keputusan yang tepat karena tidak perlu membawa payung (probabilitas = 1
- α). Kedua, jika H0 benar-benar benar (tidak ada hujan) dan kita membawa payung,
maka kita telah membuat kesalahan Tipe I karena kita terlihat konyol membawa
payung sepanjang hari (probabilitas = α). Ketiga, jika H0 benar-benar salah (hujan)
dan kita tidak membawa payung, maka kita telah melakukan kesalahan Tipe II dan
kita basah kuyup (probabilitas = β). Keempat, jika H0 benar-benar salah (hujan) dan
kita membawa payung, maka kita telah membuat keputusan yang benar karena
payung membuat kita tetap kering (probabilitas = 1 - β).
Mari kita buat dua pernyataan kesimpulan tentang tabel keputusan. Pertama,
kita tidak akan pernah bisa membuktikan kebenaran atau kepalsuan H0 dalam satu
penelitian. Kita hanya mengumpulkan bukti yang mendukung atau menentang
hipotesis nol. Sesuatu terbukti dalam penelitian ketika seluruh kumpulan penelitian
atau bukti mencapai kesimpulan yang sama berkali-kali. Pembuktian ilmiah sulit
dicapai dalam ilmu sosial dan perilaku, dan kita tidak boleh menggunakan istilah
membuktikan atau pembuktian secara bebas. Sebagai peneliti, kita mengumpulkan
banyak bukti yang pada akhirnya mengarah pada pengembangan satu atau beberapa
teori. Ketika sebuah teori terbukti benar secara pasti (yaitu, dalam semua kasus),
maka pembuktian telah ditetapkan.
Kedua, mari kita pertimbangkan kesalahan keputusan dalam sudut pandang
yang berbeda. Kita dapat sepenuhnya menghilangkan kemungkinan kesalahan Tipe I
dengan memutuskan untuk tidak pernah menolak H0. Artinya, jika kita selalu gagal
menolak H0 (tidak pernah membawa payung), maka kita tidak akan pernah
melakukan kesalahan Tipe I (terlihat konyol dengan payung yang tidak perlu).
Meskipun strategi ini terdengar bagus, strategi ini benar-benar mengambil alih
kekuasaan pengambilan keputusan dari tangan kita. Dengan strategi ini, kita bahkan
tidak perlu mengumpulkan data sampel, karena kita telah memutuskan untuk tidak
pernah menolak H0.
Kita dapat sepenuhnya menghilangkan kemungkinan kesalahan Tipe II dengan
memutuskan untuk selalu menolak H0. Artinya, jika kita selalu menolak H0 (selalu
membawa payung), maka kita tidak akan pernah melakukan kesalahan Tipe II (basah
kuyup tanpa payung). Meskipun strategi ini juga terdengar bagus, strategi ini benar-
benar mengambil alih kekuasaan pengambilan keputusan dari tangan kita. Dengan
strategi ini, kita bahkan tidak perlu mengumpulkan data sampel karena kita telah
memutuskan untuk selalu menolak H0. Secara keseluruhan, kita tidak akan pernah
bisa sepenuhnya menghilangkan kemungkinan kesalahan Tipe I dan Tipe II. Apa pun
keputusan yang kita ambil, selalu ada kemungkinan terjadinya kesalahan Tipe I
dan/atau Tipe II. Oleh karena itu, sebagai peneliti, tugas kita adalah membuat
keputusan secara sadar dalam merancang dan melaksanakan penelitian serta
menganalisis data sehingga kemungkinan kesalahan keputusan dapat diminimalkan.

Level of Significance (α)


Uraian di atas telah menjelaskan bahwa kesalahan Tipe I terjadi ketika
keputusannya adalah menolak H0 ketika pada kenyataannya H0 sebenarnya benar.
Kita mendefinisikan probabilitas kesalahan Tipe I sebagai α, yang juga dikenal
sebagai taraf signifikansi atau tingkat signifikansi. Sekarang α sebagai dasar untuk
membantu kita membuat keputusan statistik. Memanggil kembali dari contoh
sebelumnya bahwa hipotesis alternatif, masing-masing, adalah sebagai berikut:
H0:  = 100 or H0:  - 100 = 0
H1:  ≠ 100 or H1:  - 100 ≠ 0
Kita perlu mekanisme untuk memutuskan seberapa jauh rata-rata sampel
berarti perlu dari nilai rata-rata hipotesis μ0 = 100 untuk menolak H0. Dengan kata
lain, pada titik atau jarak jauh dari 100, kita akan memutuskan untuk menolak H0.
Disini akan menggunakan α untuk menentukan bahwa bagi kita, di mana dalam
konteks ini, α dikenal sebagai tingkat signifikansi. Gambar 6.1a menunjukkan
distribusi pengambilan sampel rata-rata di mana nilai hipotesis μ0 digambarkan di
pusat distribusi. Menuju kedua ekor distribusi, kita melihat dua berbayang wilayah
yang dikenal sebagai wilayah kritis atau wilayah penolakan. Area gabungan dari dua
bidang berbayang sama α, dan, dengan demikian, area ekor atas atau bawah wilayah
kritis sama dengan α/2 (yaitu, kami membagi α menjadi dua dengan membagi oleh
dua). Jika rata-rata sampel cukup jauh dari nilai rata-rata hipotesis, μ0, bahwa nilai itu
jatuh ke dalam maka keputusan statistik kami adalah menolak H0.
Dalam hal ini, keputusan kami adalah menolak H0 pada tingkat α signifikansi.
Namun, jika sampel berarti cukup dekat dengan μ0 yang jatuh ke wilayah yang tidak
disiram (yaitu, bukan ke wilayah kritis), maka keputusan statistik kami gagal menolak
H0. Titik-titik tepat pada sumbu X di mana daerah kritis berada dibagi dari wilayah
yang tidak dibayangkan dikenal sebagai nilai-nilai kritis.
Dibawah ini adalah gambar mengenai hipotesis alternatif dan daerah kritis: (a)
tes dua arah; (b) uji ekor kanan ekor satu; (c) satu ekor, kiri uji ekor.
Gambar6.1a:

Taraf signifikansi atau sering juga disebut dengan tingkat kesalahan erat
kaitannya dengan pengambilan keputusan dalam pengujian hipotesis baik pengujian
hipotesis satu arah (one-tailed) ataupun dua arah (two-tailed). Taraf signifikansi ini
muncul pada penelitian kuantitatif, tapi tidak selamanya penelitian kuantitatif
menggunakannya, tergantung dengan jenis penelitiannya juga ya.
Signifikansi dalam statistik berarti kemungkinan atau berpeluang betul-betul
benar. benar berbeda atau nyata. Dalam penelitian, Taraf signifikansi (α) merupakan
angka yang menunjukkan probabilitas atau peluang kesalahan yang ditetapkan
peneliti dalam mengambil keputusan untuk menolak atau mendukung hipotesis nol,
atau dapat diartikan juga sebagai tingkat kesalahan atau tingkat kekeliruan yang dapat
ditolerir/ ditoleransi oleh peneliti, yang sebabkan kemungkinan adanya kesalahan
dalam pengambilan sampel (sampling error).
Taraf signifikansi dinyatakan dalam bentuk persen dan dilambangkan dengan
α (alpha). Pada umumnya dalam penelitian nilai tingkat kesalahan yang digunakan
adalah 1%, 5% ataupun 10%. Semakin kecil nilainya, maka semakin besar tingkat
kepercayaan pengambilan keputusan. Pada penelitian pendidikan atau sosial ekonomi
sering digunakan 5%, namun dalam ekonomipun sering juga digunakan 10%,
sedangkan 1% digunakan untuk penelitian kesehatan karna pada penelitian kesehatan
atau penelitian yang berkaitan dengan keselamatan dengan keberlangsungan makhluk
hidup sehingga diperlukan tingkat kesalahan sekecil mungkin.
Sebagai contoh misalkan kita menggunakan tingkat kesalahan 5%, maka jika
dari 100 sampel penelitian, maka kesalahan pengambilan sampel yang masih bisa
diterima yaitu 5 sampel (5% dari 100), atau jika dikaitkan dengan pengujian hipotesis,
tingkat kesalahan 5% atau 0,05 artinya kita mengambil resiko salah dalam mengambil
keputusan untuk menolak hipotesis yang benar maksimal 5% dan benar dalam
mengambil keputusan sedikitnya 95% (tingkat kepercayaan).

Overview of Steps in Decision-Making Process


Sebelum kita masuk ke rincian spesifik dalam melakukan uji rata-rata tunggal,
kami ingin membahas langkah-langkah dasar untuk pengujian hipotesis dari setiap uji
inferensial:
1. Nyatakan hipotesis nol dan hipotesis alternatif.
2. Pilih tingkat signifikansi (yaitu, alfa, α).
3. Hitung nilai statistik uji.
4. Buatlah keputusan statistik (tolak atau gagal tolak H0).
Langkah 1: Langkah pertama dalam proses pengambilan keputusan adalah
menyatakan hipotesis nol dan alternatif. Ingatlah dari contoh sebelumnya bahwa
hipotesis nol dan hipotesis alternatif tidak searah, masing-masing, untuk uji dua sisi
adalah sebagai berikut:

Kita juga dapat memilih salah satu dari hipotesis alternatif terarah yang telah
dijelaskan sebelumnya.
Jika kita memilih untuk menulis hipotesis nol kita sebagai H0: μ = 100, kita
ingin menulis hipotesis penelitian kita dengan cara yang konsisten, H1: μ ≠ 100
(daripada H1: μ - 100 ≠ 0). Dalam publikasi, banyak peneliti memilih untuk
menyajikan hipotesis dalam bentuk naratif (misalnya, "hipotesis nol menyatakan
bahwa rata-rata populasi akan sama dengan 100, dan hipotesis alternatif menyatakan
bahwa rata-rata populasi tidak akan sama dengan 100"). Bagaimana Anda menyajikan
hipotesis Anda (secara matematis atau menggunakan notasi statistik) terserah Anda.
Langkah 2: Langkah kedua dalam proses pengambilan keputusan adalah
memilih tingkat signifikansi α. Ada dua pertimbangan yang harus dilakukan dalam
memilih tingkat signifikansi. Salah satu pertimbangannya adalah biaya yang terkait
dengan membuat kesalahan Tipe I, yang sebenarnya adalah α. Ingatlah bahwa alpha
adalah probabilitas untuk menolak hipotesis nol jika pada kenyataannya hipotesis nol
itu benar. Ketika kesalahan Tipe I terjadi, itu berarti bukti-bukti yang ada mendukung
hipotesis penelitian (yang sebenarnya salah). Mari kita ambil contoh sebuah obat baru.
Untuk menguji keampuhan obat tersebut, sebuah eksperimen dilakukan di mana
beberapa orang mengonsumsi obat baru tersebut sementara yang lain menerima
plasebo. Hipotesis nol, yang dinyatakan secara tidak langsung, pada dasarnya akan
menunjukkan bahwa efek obat dan plasebo adalah sama. Menolak hipotesis nol
tersebut berarti bahwa efeknya tidak sama-menunjukkan bahwa mungkin obat baru ini,
yang pada kenyataannya tidak lebih baik dari plasebo, disebut-sebut sebagai obat
yang efektif. Hal ini jelas bermasalah dan berpotensi sangat berbahaya. Jadi, jika ada
biaya yang relatif tinggi yang terkait dengan kesalahan Tipe I-misalnya, seperti nyawa
melayang, seperti dalam profesi medis-maka kita akan memilih tingkat signifikansi
yang relatif kecil (misalnya, 0,01 atau lebih kecil). Alfa yang kecil akan menghasilkan
probabilitas yang sangat kecil untuk menolak null jika memang benar (yaitu,
probabilitas yang kecil untuk membuat keputusan yang salah). Jika ada biaya yang
relatif rendah yang terkait dengan kesalahan Tipe I-misalnya, sehingga anak-anak
harus memakan permen dengan nilai kedua daripada yang pertama-maka memilih
tingkat signifikansi yang lebih besar mungkin tepat (misalnya, 0,05 atau lebih besar).
Akan tetapi, biaya tidak selalu diketahui. Pertimbangan kedua adalah tingkat
signifikansi yang biasa digunakan dalam bidang studi Anda. Dalam banyak disiplin
ilmu, tingkat signifikansi 0,05 telah menjadi standar (meskipun tampaknya tidak ada
yang memiliki alasan yang benar-benar baik). Hal ini berlaku dalam banyak ilmu
sosial dan perilaku. Oleh karena itu, sebaiknya Anda membaca literatur yang
dipublikasikan di bidang Anda untuk mengetahui apakah ada standar yang umum
digunakan dan mempertimbangkannya untuk penelitian Anda sendiri.
Langkah 3: Langkah ketiga dalam proses pengambilan keputusan adalah
menghitung statistik uji. Untuk uji rata-rata satu sampel, kita akan menghitung rata-
rata sampel Y- dan membandingkannya dengan nilai yang dihipotesiskan μ0. Hal ini
memungkinkan kita untuk menentukan ukuran perbedaan antara Y dan μ0, dan
selanjutnya, probabilitas yang terkait dengan perbedaan tersebut. Semakin besar
perbedaannya, semakin besar kemungkinan bahwa rata-rata sampel benar-benar
berbeda dari nilai rata-rata yang dihipotesiskan dan semakin besar probabilitas yang
terkait dengan perbedaan tersebut.
Langkah 4: Langkah keempat dan terakhir dalam proses pengambilan
keputusan adalah membuat keputusan statistik mengenai hipotesis nol H0. Artinya,
keputusan dibuat apakah akan menolak H0 atau gagal menolak H0. Jika perbedaan
antara rata-rata sampel dan nilai yang dihipotesiskan cukup besar relatif terhadap nilai
kritis (kita akan membahas tentang nilai kritis secara lebih rinci nanti), maka
keputusan kita adalah menolak H0. Jika perbedaan antara rata-rata sampel dan nilai
yang dihipotesiskan tidak cukup besar relatif terhadap nilai kritis, maka keputusan
kita adalah gagal menolak H0. Ini adalah proses empat langkah dasar untuk pengujian
hipotesis dari setiap uji inferensial. Rincian spesifik untuk pengujian rata-rata tunggal
diberikan di bagian berikut.

Inferences About μ When σ Is Known


1) z Test
Ingatlah kembali tentang skor z sebagai;

di mana
Yi adalah skor pada variabel Y untuk individu ke-I
μ adalah rata-rata populasi untuk variabel Y
σY adalah deviasi standar populasi untuk variabel Y
Nilai z digunakan untuk memberi tahu kita berapa unit standar deviasi skor
individu dari nilai rata-rata.
Namun, dalam konteks bab ini, kita akan membahas sejauh mana rata-rata
sampel berbeda dari nilai rata-rata yang dihipotesiskan. Kita dapat membuat variasi
dari skor z untuk menguji hipotesis tentang rata-rata tunggal. Dalam situasi ini, kita
peduli dengan distribusi sampling dari mean (diperkenalkan di Bab 5), sehingga
persamaan harus mencerminkan nilai rata-rata dan bukan nilai mentah. Persamaan
nilai z kita untuk menguji hipotesis tentang mean tunggal menjadi;

di mana
Dimana:
Y- adalah rata-rata sampel untuk variabel Y
μ0 adalah nilai rata-rata yang dihipotesiskan untuk variabel Y
σY- adalah kesalahan standar populasi dari rata-rata untuk variabel Y
ingat bahwa galat standar populasi dari rata-rata σY- dihitung dengan;

di mana
σY adalah deviasi standar populasi untuk variabel Y
n adalah ukuran sampel

Dengan demikian, pembilang dari persamaan skor z adalah perbedaan antara


rata-rata sampel dan nilai hipotesis dari rata-rata, dan penyebutnya adalah kesalahan
standar dari rata-rata. Apa yang sebenarnya kita tentukan di sini adalah berapa banyak
unit deviasi standar (atau kesalahan standar) dari rata-rata sampel dari rata-rata yang
dihipotesiskan. Untuk selanjutnya, kita menyebut variasi skor z ini sebagai statistik uji
untuk uji rata-rata tunggal, yang juga dikenal sebagai uji z. Ini adalah yang pertama
dari beberapa statistik uji yang kami jelaskan dalam teks ini; setiap uji inferensial
membutuhkan beberapa statistik uji untuk tujuan pengujian hipotesis.
Kita perlu membuat asumsi statistik mengenai situasi pengujian hipotesis ini. Kita
mengasumsikan bahwa z terdistribusi secara normal dengan rata-rata 0 dan standar
deviasi 1. Hal ini dituliskan secara statistik sebagai z ∼ N (0, 1) mengikuti notasi
yang kita kembangkan pada Bab 4. Dengan demikian, asumsinya adalah bahwa z
mengikuti distribusi normal satuan (dengan kata lain, bentuk distribusinya kira-kira
normal). Pemeriksaan terhadap statistik uji z menunjukkan bahwa hanya rata-rata
sampel yang dapat bervariasi dari satu sampel ke sampel lainnya. Nilai yang
dihipotesiskan dan kesalahan standar dari rata-rata adalah konstan untuk setiap sampel
berukuran n dari populasi yang sama. Untuk membuat keputusan statistik, daerah
kritis perlu didefinisikan. Karena statistik uji adalah z dan kita telah mengasumsikan
normalitas, maka distribusi teoritis yang relevan yang kita bandingkan dengan
statistik uji adalah distribusi normal satuan.

2) Example
Menguji apakah populasi mahasiswa S1 dari Awesome State University (ASU)
memiliki nilai rata-rata tes inteligensi yang berbeda dengan nilai rata-rata yang
dihipotesiskan, yaitu μ0 = 100 (ingatlah bahwa nilai rata-rata yang dihipotesiskan
bukan berasal dari sampel kita, melainkan dari sumber lain; pada contoh ini,
katakanlah nilai 100 ini adalah norma nasional seperti yang disajikan pada buku
panduan teknis tes inteligensi ini). Ingatlah bahwa langkah pertama kita dalam
pengujian hipotesis adalah menyatakan hipotesis. Hipotesis alternatif nondireksional
menjadi menarik karena kita hanya ingin mengetahui apakah populasi ini memiliki
rata-rata kecerdasan yang berbeda dari nilai yang dihipotesiskan, lebih besar atau
lebih kecil dari. Dengan demikian, hipotesis nol dan hipotesis alternatif dapat
dituliskan sebagai berikut:

Rata-rata sampel sebesar Y- = 103 diamati untuk sampel sebanyak n = 100


mahasiswa S1 ASU. Dari pengembangan tes kecerdasan ini, kita tahu bahwa deviasi
standar populasi teoretis adalah σY = 15 (sekali lagi, untuk tujuan ilustrasi, katakanlah
deviasi standar populasi sebesar 15 dicatat dalam manual teknis untuk tes ini).
Langkah kedua adalah memilih tingkat signifikansi. Tingkat signifikansi standar
dalam bidang ini adalah tingkat .05; dengan demikian, kami melakukan uji
signifikansi pada α = .05. Langkah ketiga adalah menghitung nilai statistik uji. Untuk
menghitung nilai statistik uji, pertama-tama kita menghitung kesalahan standar dari
rata-rata (penyebut dari rumus statistik uji) sebagai berikut:
Kemudian kita menghitung statistik uji z, di mana pembilangnya adalah
perbedaan antara rata-rata sampel kita (Y- = 103) dan nilai rata-rata yang
dihipotesiskan (μ0 = 100), dan penyebutnya adalah kesalahan standar rata-rata:

Terakhir, pada langkah terakhir, kita membuat keputusan statistik dengan


membandingkan statistik uji z dengan nilai kritis. Untuk menentukan nilai kritis untuk
uji z, kita menggunakan distribusi normal satuan pada Tabel A.1. Karena α = .05 dan
kita melakukan uji satu arah, kita perlu mencari nilai kritis untuk ekor atas dan ekor
bawah, di mana luas masing-masing dari kedua daerah kritis tersebut adalah
sebesar .025 (yaitu, membagi alpha menjadi dua: α/2 atau .05/2 = .025). Dari tabel
normal satuan, kita menemukan nilai kritis ini menjadi +1,96 (titik pada sumbu X di
mana area di atas titik tersebut sama dengan .025) dan -1,96 (titik pada sumbu X di
mana area di bawah titik tersebut sama dengan .025). Seperti yang ditunjukkan pada
Gambar 6.2, statistik uji z = 2.00 jatuh ke dalam daerah kritis ekor atas, hanya sedikit
lebih besar dari nilai kritis ekor atas +1.96. Keputusan kami adalah menolak H0 dan
menyimpulkan bahwa populasi ASU yang menjadi sampel penelitian ini memiliki
nilai rata-rata kecerdasan yang secara statistik berbeda secara signifikan dengan nilai
rata-rata yang dihipotesiskan yaitu 100 pada tingkat signifikansi 0,05.
Cara yang lebih tepat untuk memikirkan proses ini adalah dengan menentukan
probabilitas yang tepat untuk mengamati rata-rata sampel yang berbeda dari nilai rata-
rata yang dihipotesiskan. Dari tabel normal satuan, area di atas z = 2,00 sama dengan
0,0228. Oleh karena itu, area di bawah z = -2.00 juga sama dengan .0228. Dengan
demikian, probabilitas p untuk mengamati, secara kebetulan, rata-rata sampel sebesar
2,00 atau lebih kesalahan standar (yaitu, z = 2,00) dari nilai rata-rata yang
dihipotesiskan sebesar 100, di kedua arah, adalah dua kali tingkat probabilitas yang
diamati atau p = (2)(.0228) = 0,0456. Untuk menempatkan ini dalam konteks nilai
dalam contoh ini, ada probabilitas yang relatif kecil (kurang dari 5%) untuk
mengamati rata-rata sampel 103 secara kebetulan jika rata-rata populasi yang
sebenarnya benar-benar 100.
Karena probabilitas yang tepat ini (p = .0456) lebih kecil dari tingkat
signifikansi α = .05, maka kami menolak H0. Dengan demikian, ada dua pendekatan
untuk menangani probabilitas. Salah satu pendekatan adalah keputusan yang hanya
didasarkan pada nilai kritis. Kita menolak atau gagal menolak H0 pada tingkat α yang
diberikan, tetapi tidak ada informasi lain yang diberikan. Pendekatan lainnya adalah
keputusan yang didasarkan pada perbandingan probabilitas yang tepat dengan tingkat
α yang diberikan. Kita menolak atau gagal menolak H0 pada tingkat α yang diberikan,
tetapi kita juga memiliki informasi yang tersedia tentang kedekatan atau keyakinan
dalam keputusan tersebut.
Gambar1 Contoh Daerah Kritis

Dalam contoh ini, temuan dalam naskah akan dilaporkan berdasarkan


perbandingan nilai p dengan alpha dan dilaporkan sebagai z = 2 (p < .05) atau sebagai
z = 2 (p = .0456). (Anda mungkin ingin merujuk pada panduan gaya penulisan yang
relevan dengan disiplin ilmu Anda, seperti Publication Manual for the American
Psychological Association (2010), untuk mendapatkan informasi mengenai gaya
penulisan yang direkomendasikan). Jelas kesimpulannya sama dengan kedua
pendekatan tersebut; ini hanya masalah bagaimana hasilnya dilaporkan. Sebagian
besar program komputer statistik, termasuk SPSS, melaporkan probabilitas yang tepat
sehingga pembaca dapat mengambil keputusan berdasarkan tingkat signifikansi yang
mereka pilih. Program-program ini tidak memberikan nilai kritis, yang hanya
ditemukan dalam lampiran buku teks statistik.

3) Constructing Confidence Intervals Around the Mean


Ingatlah kembali diskusi kita dari Bab 5 tentang CI. CI sering kali sangat
berguna dalam statistik inferensial untuk memberikan estimasi interval parameter
populasi kepada peneliti. Meskipun rata-rata sampel memberi kita estimasi titik (yaitu,
hanya satu nilai) dari rata-rata populasi, CI memberi kita estimasi interval dari rata-
rata populasi dan memungkinkan kita untuk menentukan akurasi atau ketepatan rata-
rata sampel. Untuk uji inferensial dari rata-rata tunggal, CI di sekitar rata-rata sampel
Y dibentuk dari;

di mana
zcv adalah nilai kritis dari distribusi normal satuan
σY- adalah kesalahan standar populasi dari rata-rata

CI biasanya dibentuk untuk uji satu arah atau uji dua ekor seperti yang
ditunjukkan dalam persamaan. CI akan menghasilkan batas bawah dan batas atas. Jika
nilai rata-rata yang dihipotesiskan berada di dalam batas bawah dan batas atas, maka
kita akan gagal menolak H0. Dengan kata lain, jika nilai rata-rata yang dihipotesiskan
berada di dalam (atau berada di dalam) CI di sekitar nilai rata-rata sampel, maka kita
menyimpulkan bahwa nilai rata-rata sampel dan nilai rata-rata yang dihipotesiskan
tidak berbeda secara signifikan dan nilai rata-rata sampel dapat berasal dari populasi
yang memiliki nilai rata-rata yang dihipotesiskan. Jika nilai rata-rata yang
dihipotesiskan berada di luar batas interval, maka kita akan menolak H0. Di sini kita
menyimpulkan bahwa kecil kemungkinan rata-rata sampel berasal dari populasi
dengan rata-rata yang dihipotesiskan.
Salah satu cara untuk berpikir tentang CI adalah sebagai berikut. Bayangkan
kita mengambil 100 sampel acak dengan ukuran sampel n yang sama, menghitung
setiap rata-rata sampel, dan kemudian membuat masing-masing 95% CI. Kemudian
kita dapat mengatakan bahwa 95% dari CI ini akan mengandung parameter populasi
dan 5% tidak. Singkatnya, 95% dari CI yang dibangun dengan cara yang sama akan
mengandung parameter populasi. Perlu juga disebutkan bahwa pada tingkat
signifikansi tertentu, seseorang akan selalu mendapatkan keputusan statistik yang
sama dengan uji hipotesis dan CI. Kedua prosedur tersebut menggunakan informasi
yang sama persis. Uji hipotesis didasarkan pada estimasi titik; CI didasarkan pada
estimasi interval yang memberikan informasi lebih banyak kepada peneliti. Untuk
contoh situasi ASU, 95% CI akan dihitung dengan ;

Dengan demikian, CI 95% berkisar antara 100,06 hingga 105,94. Karena


interval tersebut tidak mengandung nilai rata-rata yang dihipotesiskan yaitu 100, kita
menolak H0 (keputusan yang sama yang kita dapatkan dengan mengikuti langkah-
langkah pengujian hipotesis). Dengan demikian, sangat tidak mungkin bahwa rata-
rata sampel kami berasal dari distribusi populasi dengan rata-rata 100.

Type II Error (β) and Power (1 − β)


1) Full Decision-Making Context
Sebelumnya, kami mendefinisikan kesalahan Tipe II sebagai probabilitas
gagal menolak H0 ketika H0 benar-benar salah. Dengan kata lain, pada kenyataannya,
H0 adalah salah, namun kita membuat kesalahan keputusan dan tidak menolak H0.
Probabilitas yang terkait dengan kesalahan Tipe II dilambangkan dengan β. Power
adalah konsep yang terkait dan didefinisikan sebagai probabilitas menolak H0 ketika
H0 benar-benar salah. Dengan kata lain, pada kenyataannya, H0 adalah salah, dan kita
membuat keputusan yang benar untuk menolak H0. Probabilitas yang terkait dengan
power dilambangkan dengan 1 - β. Mari kita kembali ke contoh "hujan" untuk
menjelaskan kesalahan Tipe I dan Tipe II serta power secara lebih lengkap.

Gambar 2. Distribusi sampel untuk kasus hujan.


Konteks pengambilan keputusan lengkap untuk contoh "hujan" diberikan
pada Gambar 6.3. Distribusi di sisi kiri gambar adalah distribusi sampling ketika H0
benar, yang berarti pada kenyataannya tidak turun hujan. Garis vertikal menunjukkan
nilai kritis untuk memutuskan apakah akan membawa payung atau tidak. Di sebelah
kiri garis vertikal, kita tidak membawa payung, dan di sebelah kanan garis vertikal,
kita membawa payung. Untuk distribusi pengambilan sampel tanpa hujan di sebelah
kiri, ada dua kemungkinan. Pertama, kita tidak membawa payung dan tidak turun
hujan. Ini adalah bagian yang tidak diarsir di bawah distribusi pengambilan sampel
tanpa hujan di sebelah kiri garis vertikal. Ini adalah keputusan yang benar, dan
probabilitas yang terkait dengan keputusan ini adalah 1 - α. Kedua, kita membawa
payung dan tidak hujan.
Ini adalah bagian yang diarsir di bawah distribusi pengambilan sampel tanpa
hujan di sebelah kanan garis vertikal. Ini adalah keputusan yang salah, kesalahan Tipe
I, dan probabilitas yang terkait dengan keputusan ini adalah α/2 di ekor atas atau
bawah, dan α secara keseluruhan. Distribusi di sebelah kanan gambar adalah distribusi
sampling ketika H0 salah, yang berarti pada kenyataannya, hujan turun. Untuk
distribusi pengambilan sampel hujan, ada dua kemungkinan. Pertama, kita memang
membawa payung dan hujan turun. Ini adalah bagian yang tidak diarsir di bawah
distribusi pengambilan sampel hujan di sebelah kanan garis vertikal. Ini adalah
keputusan yang benar
keputusan yang benar, dan probabilitas yang terkait dengan keputusan ini
adalah 1 - β atau pangkat. Kedua, kita tidak membawa payung dan hujan turun. Ini
adalah bagian yang diarsir di bawah distribusi sampling hujan di sebelah kiri garis
vertikal. Ini adalah keputusan yang salah, kesalahan Tipe II, dan probabilitas yang
terkait dengan keputusan ini adalah β.

2) Power Determinants
Kekuatan ditentukan oleh lima faktor yang berbeda: (1) tingkat signifikansi, (2)
ukuran sampel, (3) deviasi standar populasi, (4) perbedaan antara rata-rata populasi
yang sebenarnya μ dan nilai rata-rata yang dihipotesiskan μ0, dan (5) arah pengujian
(yaitu, uji satu atau dua ekor). Mari kita bahas masing-masing faktor ini secara lebih
rinci.
Pertama, kekuatan ditentukan oleh tingkat signifikansi α. Ketika α meningkat,
kekuatan meningkat. Dengan demikian, jika α meningkat dari 0,05 menjadi 0,10,
maka power akan meningkat. Hal ini akan terjadi pada Gambar 6.4 jika garis vertikal
digeser ke kiri (sehingga menciptakan daerah kritis yang lebih besar dan dengan
demikian membuatnya lebih mudah untuk menolak hipotesis nol). Hal ini akan
meningkatkan tingkat α dan juga meningkatkan daya. Faktor ini berada di bawah
kendali peneliti.
Kedua, power ditentukan oleh ukuran sampel. Ketika ukuran sampel n
meningkat, power juga meningkat. Dengan demikian, jika ukuran sampel meningkat,
yang berarti kita memiliki sampel yang terdiri dari proporsi yang lebih besar dari
populasi, hal ini akan menyebabkan kesalahan standar dari rata-rata menurun, karena
ada lebih sedikit kesalahan pengambilan sampel dengan sampel yang lebih besar. Hal
ini juga akan menyebabkan garis vertikal bergeser ke kiri (sekali lagi sehingga
menciptakan daerah kritis yang lebih besar dan dengan demikian membuatnya lebih
mudah untuk menolak hipotesis nol). Faktor ini juga berada di bawah kendali peneliti.
Selain itu, karena sampel yang lebih besar menghasilkan kesalahan standar yang lebih
kecil, maka akan lebih mudah untuk menolak H0 (semua hal lain dianggap sama), dan
CI yang dihasilkan juga akan lebih sempit.
Ketiga, power ditentukan oleh ukuran deviasi standar populasi σ. Meskipun
tidak berada di bawah kendali peneliti, ketika σ meningkat, power menurun. Dengan
demikian, jika σ meningkat, yang berarti variabilitas dalam populasi lebih besar, hal
ini akan menyebabkan kesalahan standar rata-rata meningkat karena ada lebih banyak
kesalahan pengambilan sampel dengan variabilitas yang lebih besar. Hal ini akan
menyebabkan garis vertikal bergeser ke kanan. Jika σ menurun, yang berarti
variabilitas dalam populasi lebih kecil, hal ini akan menyebabkan kesalahan standar
rata-rata menurun karena ada lebih sedikit kesalahan pengambilan sampel dengan
variabilitas yang lebih kecil. Hal ini akan menyebabkan garis vertikal bergeser ke kiri.
Sebagai contoh, pada uji rata-rata satu sampel, kesalahan standar dari rata-rata adalah
penyebut dari rumus statistik uji. Ketika standar error term menurun, penyebutnya
menjadi lebih kecil dan dengan demikian nilai statistik uji menjadi lebih besar (dan
dengan demikian lebih mudah untuk menolak hipotesis nol).
Keempat, daya ditentukan oleh perbedaan antara rata-rata populasi yang
sebenarnya μ dan nilai rata-rata yang dihipotesiskan μ0. Meskipun tidak selalu berada
di bawah kendali peneliti (hanya dalam eksperimen yang sebenarnya seperti yang
dijelaskan dalam Bab 14), ketika perbedaan antara rata-rata populasi yang sebenarnya
dan nilai rata-rata yang dihipotesiskan meningkat, daya meningkat. Dengan demikian,
jika perbedaan antara rata-rata populasi yang sebenarnya dan nilai rata-rata yang
dihipotesiskan besar, maka akan lebih mudah untuk menolak H0 dengan benar. Hal
ini akan menghasilkan pemisahan yang lebih besar antara dua distribusi sampling.
Dengan kata lain, seluruh distribusi sampling H1 yang benar akan bergeser ke kanan.
Sebagai contoh, pertimbangkan uji rata-rata satu sampel. Pembilangnya adalah selisih
antara rata-rata. Semakin besar pembilangnya (dengan menjaga penyebutnya tetap
konstan), semakin besar kemungkinan untuk menolak hipotesis nol.
Terakhir, kekuatan ditentukan oleh arah dan jenis prosedur statistik - apakah
kita melakukan uji satu atau dua sisi, serta jenis uji kesimpulan. Ada kekuatan yang
lebih besar dalam uji satu sisi, seperti ketika μ > 100, dibandingkan dengan uji dua
sisi. Pada uji satu sisi, garis vertikal akan bergeser ke kiri, sehingga menciptakan
wilayah penolakan yang lebih besar. Faktor ini berada di bawah kendali peneliti.
Sering kali terdapat kekuatan yang lebih besar dalam melakukan uji parametrik
dibandingkan dengan uji nonparametrik untuk menyimpulkan (kita akan membahas
lebih lanjut mengenai uji parametrik versus nonparametrik di bab-bab selanjutnya).
Faktor ini berada di bawah kendali peneliti sampai batas tertentu tergantung pada
skala pengukuran variabel dan sejauh mana asumsi uji parametrik terpenuhi.
Kekuasaan telah menjadi minat dan perhatian yang jauh lebih besar bagi
peneliti terapan dalam beberapa tahun terakhir. Kita mulai dengan membedakan
antara kekuatan apriori, ketika kekuatan ditentukan saat penelitian sedang
direncanakan atau dirancang (yaitu, sebelum penelitian), dan kekuatan post hoc,
ketika kekuatan ditentukan setelah penelitian dilakukan dan data dianalisis. Untuk
kekuatan a priori, jika Anda ingin memastikan jumlah kekuatan tertentu dalam sebuah
penelitian, maka Anda dapat menentukan ukuran sampel yang diperlukan untuk
mencapai tingkat kekuatan tersebut. Hal ini membutuhkan input karakteristik seperti α,
σ, perbedaan antara μ dan μ0, dan uji satu versus dua ekor. Sebagai alternatif,
seseorang dapat menentukan kekuatan yang diberikan masing-masing karakteristik
tersebut. Hal ini dapat dilakukan dengan menggunakan perangkat lunak statistik
[seperti Power and Precision, Ex-Sample, G*Power (freeware), atau CD yang
disertakan dengan teks Murphy, Myors, dan Wolach (2008)] atau dengan
menggunakan tabel [kumpulan tabel yang paling pasti ada di Cohen (1988)]. Untuk
kekuatan post hoc (juga disebut kekuatan yang diamati), sebagian besar paket
perangkat lunak statistik (misalnya, SPSS, SAS, STATGRAPHICS) akan
menghitungnya sebagai bagian dari analisis untuk berbagai jenis statistik inferensial
(misalnya, analisis varians). Namun, meskipun kekuatan post hoc secara rutin
dilaporkan dalam beberapa jurnal, hal ini telah ditemukan memiliki beberapa
kekurangan. Sebagai contoh, Hoenig dan Heisey (2001) menyimpulkan bahwa hal ini
tidak boleh digunakan untuk membantu dalam menafsirkan hasil yang tidak signifikan.
Mereka menemukan bahwa kekuatan yang rendah dapat mengindikasikan efek yang
kecil (misalnya, perbedaan rata-rata yang kecil) daripada studi yang kurang kuat.
Dengan demikian, meningkatkan ukuran sampel mungkin tidak membuat banyak
perbedaan. Yuan dan Maxwell (2005) menemukan bahwa daya yang diamati hampir
selalu bias (terlalu tinggi atau terlalu rendah), kecuali jika daya yang sebenarnya
adalah 0,50. Oleh karena itu, kami tidak merekomendasikan penggunaan post hoc
power untuk menentukan ukuran sampel pada penelitian berikutnya; namun kami
merekomendasikan penggunaan CI sebagai tambahan dari post hoc power. (Contoh
yang disajikan kemudian dalam bab ini akan menggunakan G*Power untuk
mengilustrasikan persyaratan ukuran sampel apriori yang diberikan dengan kekuatan
yang diinginkan dan analisis post hoc power).

Statistical Versus Practical Significance


Nilai rata-rata tes kecerdasan sampel sebesar Y- = 101 diamati untuk ukuran
sampel n = 2000 dan standar deviasi populasi yang diketahui sebesar σY = 15. Jika
kita melakukan pengujian pada tingkat signifikansi 0,01, kita dapat menolak H0
meskipun rata-rata yang diamati hanya berjarak 1 unit dari nilai rata-rata yang
dihipotesiskan. Alasannya adalah, karena ukuran sampel yang cukup besar, kesalahan
standar dari rata-rata yang dihitung cukup kecil (σY- = 0,3354), dan dengan demikian
kita menolak H0 karena statistik uji (z = 2,9815) melebihi nilai kritis (z = 2,5758).
Dengan mempertahankan nilai rata-rata dan standar deviasi konstan, jika kita
memiliki ukuran sampel 200 dan bukan 2000, kesalahan standar menjadi jauh lebih
besar (σY- = 1,0607), dan dengan demikian kita gagal untuk menolak H0 karena
statistik uji (z = 0,9428) tidak melebihi nilai kritis (z = 2,5758). Dari contoh ini, kita
dapat melihat bagaimana ukuran sampel dapat mempengaruhi hasil uji hipotesis, dan
bagaimana mungkin signifikansi statistik dapat dipengaruhi hanya sebagai artefak dari
ukuran sampel.
Haruskah kita mempermasalahkan hasil rata-rata sampel tes kecerdasan yang
berjarak 1 unit dari rata-rata kecerdasan yang dihipotesiskan? Jawabannya adalah
"mungkin tidak". Jika kita mengumpulkan data sampel yang cukup, perbedaan sekecil
apa pun, sekecil apa pun, dapat menjadi signifikan secara statistik. Dengan demikian,
sampel yang lebih besar lebih mungkin menghasilkan hasil yang signifikan secara
statistik. Signifikansi praktis tidak sepenuhnya merupakan masalah statistik. Hal ini
juga merupakan masalah untuk bidang substantif yang sedang diselidiki. Dengan
demikian, kebermaknaan dari perbedaan kecil adalah untuk bidang substantif untuk
menentukan. Yang benar-benar dapat ditentukan oleh statistik inferensial adalah
signifikansi statistik. Namun, kita harus selalu mengingat signifikansi praktis ketika
menginterpretasikan temuan kita.
Dalam beberapa tahun terakhir, perdebatan besar telah berlangsung dalam
komunitas statistik tentang peran pengujian signifikansi. Perdebatan ini berpusat pada
apakah pengujian signifikansi hipotesis nol (null hypothesis significance testing atau
NHST) paling sesuai dengan kebutuhan peneliti. Di satu sisi, beberapa orang
berpendapat bahwa NHST baik-baik saja. Di sisi lain, ada yang berpendapat bahwa
NHST harus ditinggalkan sama sekali. Di tengah-tengah, ada juga yang berpendapat
bahwa NHST harus dilengkapi dengan ukuran ukuran efek. Dalam tulisan ini, kami
mengambil jalan tengah dengan keyakinan bahwa lebih banyak informasi adalah
pilihan yang lebih baik. Mari kita perkenalkan secara formal pengertian ukuran efek.
Meskipun ada beberapa ukuran yang berbeda dari ukuran efek, ukuran yang paling
umum digunakan adalah Cohen's δ (delta) atau d (1988).
Untuk kasus populasi dari uji rata-rata satu sampel, delta Cohen dihitung
sebagai berikut:

Untuk kasus sampel yang sesuai, Cohen's d dihitung sebagai berikut:

Untuk uji rata-rata satu sampel, d menunjukkan berapa banyak deviasi standar
dari rata-rata sampel dari rata-rata yang dihipotesiskan. Dengan demikian, jika d = 1.0,
rata-rata sampel adalah satu standar deviasi dari rata-rata yang dihipotesiskan. Cohen
telah mengusulkan standar subjektif berikut untuk ilmu sosial dan perilaku sebagai
konvensi untuk menginterpretasikan d: ukuran efek kecil, d = .2; ukuran efek sedang,
d = .5; ukuran efek besar, d = .8. Interpretasi ukuran efek harus selalu dibuat terlebih
dahulu berdasarkan perbandingan dengan penelitian serupa; apa yang dianggap
sebagai efek "kecil" menggunakan aturan praktis Cohen mungkin sebenarnya cukup
besar jika dibandingkan dengan penelitian terkait lainnya yang telah dilakukan.
Sebagai pengganti perbandingan dengan penelitian lain, seperti dalam kasus-kasus di
mana tidak ada atau sedikit penelitian terkait, maka standar subyektif Cohen mungkin
sesuai.
Menghitung CI untuk ukuran efek juga bermanfaat. Manfaat dalam membuat
CI untuk nilai ukuran efek serupa dengan membuat CI untuk estimasi parameter-CI
untuk ukuran efek memberikan ukuran presisi tambahan yang tidak diperoleh dari
pengetahuan tentang ukuran efek saja. Namun, menghitung CI untuk indeks ukuran
efek tidak semudah memasukkan nilai yang diketahui ke dalam rumus. Hal ini karena
d merupakan fungsi dari rata-rata populasi dan standar deviasi populasi (Finch &
Cumming, 2009). Oleh karena itu, perangkat lunak khusus harus digunakan untuk
menghitung CI untuk ukuran efek, dan pembaca yang tertarik dirujuk ke sumber yang
sesuai (misalnya, Algina & Keselman, 2003; Algina, Keselman, & Penfield, 2005;
Cumming & Finch, 2001).

Inferences About μ When σ Is Unknown


1) New Test Statistic t
Apa yang harus dilakukan oleh peneliti terapan ketika σ tidak diketahui?
Jawabannya adalah memperkirakan σ dengan deviasi standar sampel s. Hal ini
mengubah kesalahan standar rata-rata menjadi;

Sekarang kita memperkirakan dua parameter populasi: (1) rata-rata populasi,


μY, diperkirakan dengan rata-rata sampel, Y-; dan (2) deviasi standar populasi, σY,
diperkirakan dengan deviasi standar sampel, sY. Baik Y- maupun sY dapat bervariasi
dari satu sampel ke sampel lainnya. Dengan demikian, meskipun kesalahan
pengambilan sampel dari rata-rata diperhitungkan secara eksplisit dalam uji z, kita
juga perlu memperhitungkan kesalahan pengambilan sampel dari deviasi standar,
yang sama sekali tidak dipertimbangkan oleh uji z. Sekarang kita akan
mengembangkan uji inferensial baru untuk situasi di mana σ tidak diketahui. Statistik
uji ini dikenal sebagai uji t dan dihitung sebagai berikut:

Uji t dikembangkan oleh William Sealy Gossett, yang juga dikenal dengan
nama samaran Student, yang telah disebutkan sebelumnya di Bab 1. Distribusi normal
satuan tidak dapat digunakan di sini untuk situasi σ yang tidak diketahui. Distribusi
teoritis yang berbeda harus digunakan untuk menentukan nilai kritis untuk uji t, yang
dikenal sebagai distribusi t.

2) Distribution t
Distribusi t adalah distribusi teoritis yang digunakan untuk menentukan nilai
kritis dari uji t. Seperti distribusi normal, distribusi t sebenarnya adalah sebuah
keluarga distribusi. Terdapat distribusi t yang berbeda untuk setiap nilai derajat
kebebasan. Namun, sebelum kita melihat lebih dekat pada distribusi t, beberapa
diskusi tentang konsep derajat kebebasan diperlukan. Sebagai contoh, katakanlah kita
mengetahui rata-rata sampel Y- = 6 untuk ukuran sampel n = 5. Berapa banyak dari
lima skor yang diamati yang bebas bervariasi? Jawabannya adalah empat skor bebas
bervariasi. Jika empat skor yang diketahui adalah 2, 4, 6, dan 8 dan rata-ratanya
adalah 6, maka skor yang tersisa haruslah 10. Skor yang tersisa tidak bebas bervariasi,
tetapi sudah ditentukan sepenuhnya. Kita dapat melihat hal ini pada persamaan
berikut di mana, untuk mendapatkan solusi 6, jumlah pada pembilang harus sama
dengan 30, dan Y5 harus 10:

Oleh karena itu, jumlah derajat kebebasan sama dengan 4 dalam kasus khusus
ini dan n - 1 secara umum. Untuk uji t yang dipertimbangkan di sini, kami
menetapkan derajat kebebasan sebagai ν = n - 1 (ν adalah huruf Yunani "nu"). Kita
sering menggunakan ν dalam statistik untuk menunjukkan beberapa jenis derajat
kebebasan.
Cara lain untuk berpikir tentang derajat kebebasan adalah bahwa kita tahu
jumlah penyimpangan dari rata-rata harus sama dengan 0 (ingat pembilang yang tidak
dikuadratkan dari rumus konseptual varians). Sebagai contoh, jika n = 10, ada 10
penyimpangan dari rata-rata. Setelah nilai rata-rata diketahui, hanya sembilan deviasi
yang bebas bervariasi. Cara terakhir untuk memikirkan hal ini adalah, secara umum,
df = (n - jumlah batasan). Untuk uji t satu sampel, karena varians populasi tidak
diketahui, kita harus mengestimasinya dengan satu batasan. Dengan demikian, df = (n
- 1) untuk uji inferensial khusus ini. Beberapa anggota keluarga distribusi t
ditunjukkan pada Gambar 6.5. Distribusi untuk ν = 1 memiliki ekor yang lebih tebal
daripada distribusi normal satuan dan puncak yang lebih pendek. Hal ini
mengindikasikan bahwa terdapat kesalahan pengambilan sampel yang cukup besar
dari deviasi standar sampel dengan hanya dua pengamatan (karena ν = 2 - 1 = 1).
Untuk ν = 5, ekornya lebih tipis dan puncaknya lebih tinggi dibandingkan dengan ν =
1. Dengan meningkatnya derajat kebebasan, distribusi t menjadi lebih mendekati
normal. Untuk ν = ∞ (yaitu, tak terhingga), distribusi t justru merupakan distribusi
normal satuan.

Beberapa Jenis distribusi t.

Beberapa karakteristik penting dari distribusi t perlu disebutkan. Pertama,


seperti distribusi normal satuan, rata-rata dari setiap distribusi t adalah 0, dan
distribusi t simetris di sekitar rata-rata dan unimodal. Kedua, tidak seperti distribusi
normal satuan, yang memiliki varians 1, varians distribusi t adalah sebagai berikut:

Dengan demikian, varians dari distribusi t agak lebih besar dari 1 tetapi
mendekati 1 ketika ν meningkat. Tabel untuk distribusi t diberikan pada Tabel A.2,
dan cuplikan dari tabel tersebut disajikan pada Gambar 6.6 untuk tujuan ilustrasi.
Dalam melihat tabel tersebut, setiap judul kolom memiliki dua nilai. Nilai paling atas
adalah tingkat signifikansi untuk uji satu sisi, dilambangkan dengan α1. Dengan
demikian, jika Anda melakukan uji satu sisi pada tingkat signifikansi 0,05, Anda
dapat melihat pada kolom angka kedua. Nilai paling bawah adalah tingkat signifikansi
untuk uji dua sisi, dilambangkan dengan α2. Jadi, jika Anda melakukan uji dua sisi
pada tingkat signifikansi .05, Anda harus melihat pada kolom angka ketiga. Baris-
baris pada tabel menunjukkan berbagai derajat kebebasan ν.

Tabel distribusi t
Jadi, jika ν = 3, yang berarti n = 4, Anda ingin melihat pada baris ketiga dari
angka-angka tersebut. Jika ν = 3 untuk α1 = .05, nilai yang ditabelkan adalah 2,353.
Nilai ini mewakili titik persentil ke-95 dalam distribusi t dengan tiga derajat
kebebasan. Hal ini karena tabel hanya menyajikan persentil ekor atas. Karena
distribusi t simetris di sekitar 0, persentil ekor bawah memiliki nilai yang sama
kecuali untuk perubahan tanda. Persentil kelima untuk tiga derajat kebebasan adalah -
2,353. Dengan demikian, untuk hipotesis berekor kanan, nilai kritisnya adalah +2.353,
dan untuk hipotesis berekor kiri, nilai kritisnya adalah -2.353. Jika ν = 120 untuk α1
= .05, maka nilai yang ditabelkan adalah 1.658. Dengan demikian, ketika ukuran
sampel dan derajat kebebasan meningkat, nilai t menurun. Hal ini membuat lebih
mudah untuk menolak hipotesis nol ketika ukuran sampel besar.
3) t Test
Sekarang kita telah membahas distribusi teoritis yang mendasari pengujian
rata-rata tunggal untuk σ yang tidak diketahui, kita dapat melanjutkan dan melihat uji
inferensial. Pertama, hipotesis nol dan alternatif untuk uji t ditulis dengan cara yang
sama seperti uji z yang disajikan sebelumnya. Dengan demikian, untuk uji dua sisi,
kita memiliki notasi yang sama seperti yang disajikan sebelumnya:

Statistik uji t ditulis sebagai berikut;

Untuk menggunakan distribusi t teoritis untuk menentukan nilai kritis, kita


harus mengasumsikan bahwa Yi ∼ N (μ, σ2) dan bahwa pengamatan tidak
bergantung satu sama lain (juga disebut sebagai "independen dan berdistribusi
identik" atau IID). Dalam hal distribusi skor pada Y, dengan kata lain, kita
mengasumsikan bahwa populasi skor pada Y terdistribusi secara normal dengan
beberapa rata-rata populasi μ dan beberapa varians populasi σ2. Asumsi yang paling
penting untuk uji t adalah normalitas populasi. Penelitian konvensional telah
menunjukkan bahwa uji t sangat kuat terhadap ketidaknormalan untuk uji dua sisi
kecuali untuk sampel yang sangat kecil (misalnya, n < 5). Uji t tidak begitu kuat
terhadap ketidaknormalan untuk uji satu sisi, bahkan untuk sampel sebesar 40 atau
lebih (misalnya, Noreen, 1989; Wilcox, 1993). Ingatlah kembali dari Bab 5 tentang
teorema batas tengah bahwa ketika ukuran sampel meningkat, distribusi sampling dari
rata-rata menjadi lebih mendekati normal. Karena bentuk distribusi populasi mungkin
tidak diketahui, secara konservatif akan lebih baik untuk melakukan uji dua sisi ketika
ukuran sampel kecil, kecuali jika ada bukti normalitas yang tersedia.
Namun, penelitian terbaru (misalnya, Basu & DasGupta, 1995; Wilcox, 1997,
2003) menunjukkan bahwa penyimpangan kecil dari normalitas dapat meningkatkan
kesalahan standar rata-rata (karena standar deviasi lebih besar). Hal ini dapat
mengurangi kekuatan dan juga mempengaruhi kontrol atas kesalahan Tipe I. Dengan
demikian, sikap angkuh untuk mengabaikan ketidaknormalan mungkin bukan
merupakan pendekatan terbaik, dan jika ketidaknormalan merupakan masalah,
prosedur lain, seperti uji satu sampel nonparametrik Kolmogorov-Smirnov, dapat
dipertimbangkan. Dalam hal asumsi independensi, asumsi ini terpenuhi ketika kasus
atau unit dalam sampel Anda telah dipilih secara acak dari populasi. Dengan demikian,
sejauh mana asumsi ini terpenuhi tergantung pada desain pengambilan sampel Anda.
Pada kenyataannya, pemilihan secara acak sering kali sulit dilakukan dalam bidang
pendidikan dan ilmu-ilmu sosial dan mungkin layak atau tidak layak dilakukan dalam
penelitian Anda.
Nilai-nilai kritis untuk distribusi t diperoleh dari tabel t pada Tabel A.2, di
mana Anda memperhitungkan tingkat α, apakah pengujiannya satu atau dua sisi, dan
derajat kebebasan ν = n - 1. Jika statistik uji jatuh ke dalam daerah kritis, sebagaimana
didefinisikan oleh nilai kritis, maka kesimpulan kita adalah menolak H0. Jika statistik
uji tidak jatuh ke dalam daerah kritis, maka kesimpulan kita adalah gagal menolak H0.
Untuk uji t, nilai kritis bergantung pada ukuran sampel, sedangkan untuk uji z, nilai
kritis tidak bergantung pada ukuran sampel.
Seperti halnya pada uji z, untuk uji t, CI untuk μ0 dapat dikembangkan. (1 -
α)% CI dibentuk dari ;
Dimana tcv yang merupakan nilai kritis dari tabel t. Jika nilai rata-rata yang
dihipotesiskan μ0 tidak terdapat dalam interval tersebut, maka kesimpulannya adalah
tolak H0. Jika nilai rata-rata yang dihipotesiskan μ0 terdapat dalam interval, maka
kesimpulan kita adalah gagal menolak H0. Prosedur CI untuk uji t kemudian
sebanding dengan prosedur untuk uji z.

Summary
Bab VII Buku Jackson. (2009). Research Method and Statistic (A Critical Thinking
Approach) Third Edition. Jacksonville University : Nelson Education, Ltd

Uji Hipotesis
Penelitian biasanya dirancang untuk menjawab pertanyaan spesifik-misalnya-
apakah siswa jurusan sains mendapat nilai lebih tinggi dalam tes kecerdasan
dibandingkan siswa pada populasi umum? Proses untuk menentukan apakah
pernyataan ini didukung oleh hasil proyek penelitian disebut sebagai hipotesis
Pengujian

Null and Alternative Hypotheses


Seringkali, para peneliti tertarik untuk menunjukkan kebenaran dari suatu
pernyataan. Dengan kata lain, mereka tertarik untuk mendukung hipotesis mereka.
Akan tetapi, tidak mungkin secara statistik menunjukkan bahwa sesuatu itu benar.
Faktanya, teknik statistik jauh lebih baik dalam menunjukkan bahwa sesuatu itu
tidak benar. Hal ini menimbulkan dilema bagi para peneliti. Mereka ingin
mendukung hipotesis mereka, tetapi teknik yang tersedia bagi mereka lebih baik
untuk menunjukkan bahwa sesuatu itu salah. Apa yang harus mereka lakukan? Rute
logisnya adalah mengusulkan kebalikan dari apa yang ingin mereka tunjukkan
sebagai kebenaran dan kemudian menyangkal atau memalsukan hipotesis tersebut.
Apa yang tersisa (hipotesis awal) haruslah benar (Kranzler & Moursund, 1995).
Mari kita gunakan contoh hipotesis kita untuk menunjukkan apa yang kita
maksud. Kami ingin menunjukkan bahwa anak-anak yang mengikuti program
akademis setelah sekolah memiliki nilai IQ yang berbeda (lebih tinggi) daripada
mereka yang tidak. Kami memahami bahwa statistik tidak dapat menunjukkan
kebenaran pernyataan ini. Oleh karena itu, kami menyusun apa yang dikenal sebagai
hipotesis nol (H0 ). Apa pun topik penelitiannya, hipotesis nol selalu memprediksi
bahwa tidak ada perbedaan antara kelompok-kelompok yang dibandingkan. Hal ini
biasanya yang tidak diharapkan oleh peneliti. Pikirkan tentang arti null-nothing atau
nol. Hipotesis nol berarti kita tidak menemukan apa pun-tidak ada perbedaan di
antara kedua kelompok.
Untuk studi sampel, hipotesis nolnya adalah bahwa anak-anak yang
mengikuti program akademis setelah sekolah memiliki tingkat kecerdasan yang sama
dengan anak-anak lainnya. Ingat, kita telah mengatakan bahwa statistik
memungkinkan kita untuk menyangkal atau memalsukan hipotesis. Oleh karena itu,
jika hipotesis nol tidak didukung, maka hipotesis awal kita-bahwa anak-anak yang
mengikuti program akademik setelah jam sekolah memiliki IQ yang berbeda dari
anak-anak lain-adalah yang tersisa. Dalam notasi statistik, hipotesis nol untuk
penelitian ini adalah H0 :
Tujuan dari penelitian ini adalah untuk memutuskan apakah H0 mungkin
benar atau mungkin salah. Hipotesis yang ingin didukung oleh peneliti dikenal
sebagai hipotesis alternatif (Ha), atau hipotesis penelitian (H1). Notasi statistik untuk
Ha adalah;

Ketika kita menggunakan statistik inferensial, kita mencoba untuk menolak


H0 , yang berarti Ha didukung.

One and Two Tailed Hypothesis Tests


Cara hipotesis penelitian sebelumnya (Ha) dinyatakan mencerminkan apa
yang dikenal secara statistik sebagai hipotesis satu ekor, atau hipotesis satu arah-
hipotesis alternatif di mana peneliti memprediksi arah perbedaan yang diharapkan di
antara kelompok-kelompok. Dalam kasus ini, peneliti memprediksi arah
perbedaannya-yaitu, bahwa anak-anak yang mengikuti program akademik setelah
sekolah akan lebih cerdas dibandingkan anak-anak pada populasi umum. Ketika kita
menggunakan hipotesis alternatif yang terarah, hipotesis nolnya juga, dalam
beberapa hal, terarah. Jika hipotesis alternatifnya adalah bahwa anak-anak yang
mengikuti program bimbel akademik akan memiliki nilai tes inteligensi yang lebih
tinggi, maka hipotesis nolnya adalah bahwa mengikuti program bimbel akademik
tidak akan berpengaruh terhadap nilai tes inteligensi atau akan menurunkan nilai tes
inteligensi. Dengan demikian, hipotesis nol untuk tes satu arah dengan satu ekor
mungkin lebih tepat ditulis sebagai;

Dengan kata lain, jika hipotesis alternatif untuk uji satu sisi adalah μ0 > μ1 ,
maka hipotesis nolnya adalah μ0 ≤ μ1 , dan untuk menolak H0 , anak-anak yang
mengikuti program akademik setelah sekolah harus memiliki nilai tes kecerdasan
yang lebih tinggi daripada populasi umum. Alternatif dari uji satu sisi atau uji satu
arah adalah hipotesis dua sisi, atau hipotesis tidak satu arah-hipotesis alternatif di
mana peneliti berharap untuk menemukan perbedaan di antara kedua kelompok,
namun tidak yakin apa perbedaannya. Dalam contoh kita, peneliti akan memprediksi
perbedaan skor IQ antara anak-anak yang mengikuti program akademis setelah
sekolah dan mereka yang berada di populasi umum, tetapi arah perbedaannya tidak
dapat diprediksi. Mereka yang mengikuti program akademis diharapkan memiliki IQ
yang lebih tinggi atau lebih rendah, namun tidak memiliki IQ yang sama dengan
populasi anak-anak pada umumnya. Notasi statistik untuk uji dua sisi adalah;

Dalam contoh kita, hipotesis dua sisi tidak masuk akal. Asumsikan bahwa
peneliti telah memilih sampel acak anak-anak dari program akademik setelah sekolah
untuk membandingkan IQ mereka dengan IQ anak-anak dalam populasi umum
(seperti yang telah disebutkan sebelumnya, kita tahu bahwa rata-rata IQ untuk
populasi adalah 100). Jika kita mengumpulkan data dan menemukan bahwa tingkat
kecerdasan rata-rata anak-anak dalam program akademik setelah sekolah "secara
signifikan" (istilah yang akan segera dibahas) lebih tinggi daripada tingkat
kecerdasan rata-rata untuk populasi, kita dapat menolak hipotesis nol. Ingatlah
bahwa hipotesis nol menyatakan bahwa tidak ada perbedaan antara sampel dan
populasi. Dengan demikian, peneliti menyimpulkan bahwa hipotesis nol-bahwa tidak
ada perbedaan-tidak didukung.
Ketika hipotesis nol ditolak, hipotesis alternatif-bahwa mereka yang
mengikuti program akademik memiliki skor IQ yang lebih tinggi daripada mereka
yang berada di populasi umum-didukung. Kita dapat mengatakan bahwa bukti-bukti
tersebut menunjukkan bahwa sampel anak-anak yang mengikuti program akademis
setelah sekolah mewakili populasi tertentu yang memiliki nilai lebih tinggi pada tes
IQ daripada populasi umum.
Sebaliknya, jika nilai rata-rata IQ anak-anak yang mengikuti program bimbel
tidak berbeda secara signifikan dengan nilai rata-rata populasi, maka peneliti gagal
menolak hipotesis nol dan, secara default, gagal mendukung hipotesis alternatif.
Dalam kasus ini, hipotesis alternatif-bahwa anak-anak dalam program akademik
memiliki IQ yang lebih tinggi daripada populasi umum-tidak didukung.

Type I and II Errors in Hypothesis Testing


Dalam pengujian hipotesis, kita mengenal dua jenis kesalahan, yaitu kesalah
tipe 1 dan kesalahan tipe 2. Kesalahan tipe 1 adalah kesalahan yang terjadi jika kita
menolak hipotesis awal padahal hipotesi awal benar. Kesalahan tipe 2 adalah
kesalahan yang terjadi jika kita menerima hipotesis awal padahal hipotesis awal kita
salah. Kedua kesalahan ini memiliki kemungkinan terjadi dalam uji hipoteisis yang
kita lakukan. jika kita ingin mengurangi peluang terjadinya kedua kesalahan ini, hal
yang bisa kita lakukan adalah menambah sampel. Jika tidak bisa menambah sampel,
maka hal yang bisa kita lakukan adalah memilih mana disalah satu kemungkinan
kesalahan yang paling tidak diinginkan. Pemilihan ini disebabkan pengurangan
kemungkinan terjadinya kesalahan tipe 1 akan meningkatkan kemungkinan
terjadinya kesalihan tipe 2 atau sebaliknya.
Sugiyono (2008: 88) menyatakan bahwa dalam menaksir populasi
berdasarkan data sampel kemungkinan akan terdapat dua kesalahan, yaitu:
Kesalahan Tipe I adalah suatu kesalahan bila menolak hipotesis nol (Ho)
yang benar (seharusnya diterima). Dalam hal ini tingkat kesalahan dinyatakan
dengan α.
Kesalahan tipe II, adalah kesalahan bila menerima hipotesis yang salah
(seharusnya ditolak). Tingkat kesalahan untuk ini dinyatakan dengan β.
Berdasarkan hal tersebut, maka hubungan antara keputusan menolak atau
menerima hipotesis dapat digambarkan sebagai berikut:

Keadaan Sebenarnya
Keputusan
Hipotesis Benar Hipotesis Salah
Terima hipotesis Tidak membuat kesalahan Kesalahan tipe II ( )
Tolak hipotesis Kesalahan tipe I ( ) Tidak membuat kesalahan

Dari tabel di atas dapat dijelaskan sebagai berikut:


1) Keputusan menerima hipotesis nol yang benar, berarti tidak membuat kesalahan.
2) Keputusan menerima hipotesis nol yang salah, berarti terjadi kesalahan tipe II.
3) Keputusan menolak hipotesis nol yang benar, berarti terjadi kesalahan tipe I.
4) Keputusan menolak hipotesis nol yang salah, berarti tidak membuat kesalahan.
Tingkat kesalahan ini kemudian disebut level of significant atau tingkat
signifikansi. Dalam prakteknya tingkat signifikansi telah ditetapkan oleh peneliti
terlebih dahulu sebelum hipotesis diuji. Biasanya tingkat signifikansi (tingkat
kesalahan) yang diambil adalah 1% dan 5%. Suatu hipotesis terbukti dengan
mempunyai kesalahan 1% berarti bila penelitian dilakukan pada 100 sampel yang
diambil dari populasi yang sama, maka akan terdapat satu kesimpulan salah yang
dilakukan untuk populasi.
Dalam pengujian hipotesis kebanyakan digunakan kesalahan tipe I yaitu
berapa persen kesalahan untuk menolak hipotesis nol (Ho) yang benar (yang
seharusnya diterima). Prinsip pengujian hipotesis yang baik adalah meminimalkan
nilai α dan β. Dalam perhitungan, nilai α dapat dihitung sedangkan nilai β hanya
bisa dihitung jika nilai hipotesis alternatif sangat spesifik. Pada pengujian hipotesis,
kita lebih sering berhubungan dengan nilai α. Dengan asumsi, nilai α yang kecil
juga mencerminkan nilai β yang juga kecil. Menurut Furqon (2004:167), kedua tipe
kekeliruan tersebut berhubungan negatif (berlawanan arah). Para peneliti biasanya,
secara konservatif menetapkan sekecil mungkin (0,05 atau 0,01) sehingga
meminimalkan peluang kekelliruan tipe I. Dalam hal ini, mereka beranggapan bahwa
menolak hipotesis nol yang seharusnya diterima merupakan kekeliruan yang serius
mengingat akibat yang ditimbulkannya. Namun perlu diingat dalam menetapkan
taraf signifikansi kita harus melihat situasi penelitian.
Contoh lain :

Jika kita menolak hipotesis nol (bahwa tidak ada perbedaan IQ antar
kelompok), keputusan kita mungkin benar, atau mungkin juga salah. Jika keputusan
kita untuk menolak H0 benar, itu berarti memang ada perbedaan IQ antara anak-anak
yang mengikuti program akademik setelah sekolah dan populasi anak-anak pada
umumnya. Akan tetapi, keputusan kita bisa saja salah. Hasilnya mungkin disebabkan
oleh faktor kebetulan. Meskipun kami mengamati perbedaan yang signifikan dalam
IQ antara anak-anak dalam penelitian kami dan populasi umum, hasilnya mungkin
saja kebetulan-mungkin anak-anak dalam sampel kami kebetulan menebak dengan
benar pada banyak pertanyaan. Dalam kasus ini, kita telah membuat apa yang
dikenal sebagai kesalahan Tipe I-kita menolak H0, padahal pada kenyataannya, kita
seharusnya gagal menolaknya (memang benar tidak ada perbedaan IQ antara sampel
dan populasi). Kesalahan Tipe I dapat dianggap sebagai alarm palsu-kita mengatakan
bahwa ada perbedaan, namun pada kenyataannya, tidak ada perbedaan.
Bagaimana jika keputusan kita adalah untuk tidak menolak H0, yang berarti
kita menyimpulkan bahwa tidak ada perbedaan dalam IQ antara anak-anak dalam
program sekolah tambahan akademis dan anak-anak dalam populasi umum?
Keputusan ini bisa jadi benar, artinya pada kenyataannya tidak ada perbedaan IQ
antara sampel dan populasi. Akan tetapi, keputusan ini juga bisa saja salah. Dalam
kasus ini, kita akan membuat kesalahan Tipe II-mengatakan bahwa tidak ada
perbedaan di antara kelompok-kelompok, padahal pada kenyataannya ada perbedaan.
Entah bagaimana, kita telah melewatkan perbedaan yang benar-benar ada dan gagal
menolak hipotesis nol ketika hipotesis tersebut salah. Kemungkinan-kemungkinan
ini dirangkum dalam Tabel 7.1.
Signifikansi dan Kesalahan Statistik
Misalkan kita benar-benar melakukan penelitian tentang tingkat IQ dan
program akademik setelah sekolah. Selain itu, misalkan kita menemukan bahwa ada
perbedaan antara tingkat IQ anak-anak dalam program akademik setelah sekolah dan
anak-anak dalam populasi umum (mereka yang mengikuti program akademik
memiliki nilai yang lebih tinggi). Terakhir, anggaplah perbedaan ini signifikan secara
statistik pada tingkat 0,05 (atau 5%) (juga dikenal sebagai tingkat alfa 0,05). Untuk
mengatakan bahwa suatu hasil memiliki signifikansi statistik pada tingkat .05 berarti
bahwa perbedaan sebesar atau lebih besar dari apa yang kita amati antara sampel dan
populasi dapat terjadi secara kebetulan hanya 5 kali atau kurang dari 100. Dengan
kata lain, kemungkinan bahwa hasil ini disebabkan oleh kebetulan adalah kecil. Jika
hasilnya bukan karena kebetulan, maka kemungkinan besar hal tersebut disebabkan
oleh perbedaan yang benar atau nyata di antara kedua kelompok. Jika hasil kami
signifikan secara statistik, kami dapat menolak hipotesis nol dan menyimpulkan
bahwa kami telah mengamati perbedaan yang signifikan dalam skor IQ antara
sampel dan populasi.
Namun, ingatlah bahwa ketika kita menolak hipotesis nol, bisa jadi keputusan
kita benar, atau bisa jadi kita membuat kesalahan Tipe I. Mungkin hipotesis nol
benar, dan ini adalah salah satu dari 5 atau kurang dari 100 kali ketika perbedaan
yang diamati antara sampel dan populasi terjadi secara kebetulan. Ini berarti bahwa
ketika kita menggunakan tingkat signifikansi 0,05 (tingkat alfa 0,05), sebanyak 5 kali
dari 100 kali, kita dapat membuat kesalahan Tipe I. Maka, tingkat .05 adalah
probabilitas untuk membuat kesalahan Tipe I (untuk alasan ini, ini juga disebut
sebagai nilai p, yang berarti nilai probabilitas-kemungkinan kesalahan Tipe I). Dalam
ilmu sosial dan perilaku, alpha biasanya ditetapkan pada 0,05 (bukan 0,01, 0,08, atau
yang lainnya). Ini berarti bahwa para peneliti di bidang-bidang ini bersedia menerima
risiko hingga 5% untuk melakukan kesalahan Tipe I.
Bagaimana jika Anda ingin mengurangi risiko membuat kesalahan Tipe I dan
memutuskan untuk menggunakan tingkat alpha .01-mengurangi risiko kesalahan
Tipe I menjadi 1 dari 100 kali? Hal ini tampaknya cukup sederhana: Cukup kurangi
alpha menjadi .01, dan Anda telah mengurangi peluang Anda untuk membuat
kesalahan Tipe I. Namun, dengan melakukan hal ini, Anda sekarang telah
meningkatkan peluang Anda untuk membuat kesalahan Tipe II. Apakah Anda
mengerti mengapa? Jika saya mengurangi risiko membuat alarm palsu-menganggap
ada perbedaan padahal sebenarnya tidak ada-saya meningkatkan risiko kehilangan
perbedaan yang sebenarnya ada. Ketika kita mengurangi tingkat alfa, kita bersikeras
pada kondisi yang lebih ketat untuk menerima hipotesis penelitian kita, sehingga
lebih besar kemungkinannya bahwa kita dapat melewatkan perbedaan yang
signifikan ketika perbedaan itu ada. Kita akan kembali ke kesalahan Tipe I dan II di
bagian akhir bab ini saat kita membahas kekuatan statistik dan mendiskusikan cara-
cara alternatif untuk mengatasi masalah ini.
Menurut Anda, tipe kesalahan mana, Tipe I atau Tipe II, yang dianggap lebih
serius oleh para peneliti? Sebagian besar peneliti menganggap kesalahan Tipe I lebih
serius. Mereka lebih suka melewatkan sebuah hasil (kesalahan Tipe II) daripada
menyimpulkan bahwa ada perbedaan yang berarti padahal sebenarnya tidak ada
(kesalahan Tipe I). Bagaimana dengan di arena lain, misalnya, di ruang sidang?
Seorang juri dapat membuat keputusan yang benar dalam sebuah kasus (memutuskan
bersalah ketika benar-benar bersalah atau memutuskan tidak bersalah ketika benar-
benar tidak bersalah). Mereka juga dapat membuat kesalahan Tipe I (menyatakan
bersalah padahal tidak bersalah) atau kesalahan Tipe II (menyatakan tidak bersalah
padahal bersalah). Mana yang lebih serius di sini? Kebanyakan orang percaya bahwa
kesalahan Tipe I lebih buruk dalam situasi ini. Bagaimana dengan profesi medis?
Bayangkan seorang dokter yang mencoba menentukan apakah seorang pasien
menderita kanker atau tidak. Di sini, sekali lagi, dokter dapat membuat salah satu
dari dua keputusan yang benar atau salah satu dari dua jenis kesalahan. Apa yang
dimaksud dengan kesalahan Tipe I? Ini berarti dokter mengatakan bahwa ada kanker,
padahal sebenarnya tidak. Bagaimana dengan kesalahan Tipe II? Ini berarti
mengatakan bahwa tidak ada kanker, padahal sebenarnya ada. Dalam situasi ini,
kebanyakan orang akan menganggap kesalahan Tipe II lebih serius.

Anda mungkin juga menyukai