Anda di halaman 1dari 9

Z-score

Z-score adalah skor standard berupa jarak skor seseorang dari mean kelompoknya dalam satuan
Standard Deviasi. Z-score memiliki banyak sekali kegunaan, misalnya membandingkan posisi
seseorang dengan orang lain dalam kelompok masing-masing. Budi, mendapat nilai 7 sementara Andi
9. Budi berargumen bahwa guru kelasnya itu pelit nilai sementara guru kelas Andi itu baik hati. Nah
untuk membuktikan apakah memang Budi mendapat nilai yang sama atau lebih baik dari Andi, kita
menggunakan Z-score. Pemikirannya begini, karena semua anak di kelas Andi atau Budi mendapat
perlakuan yang sama (tentu saja dengan asumsi tidak ada anak emas, anak perak, dll), kita tinggal
membandingkan posisi Budi dan Andi dalam kelas mereka masing-masing. Jika posisi Budi lebih
tinggi daripada Andi dalam kelas mereka, kita bisa bilang Budi sebenarnya memiliki nilai lebih baik
dari Andi.
Rumus? Mari kita baca definisi Z-score sekali lagi: jarak skor seseorang dari mean kelompoknya ini
berarti:
dalam satuan Standard Deviasi, ini berarti jarak tadi dibagi Standard Deviasi. Rumusnya jadi begini:
Kegunaan lain dari Z-score adalah kita bisa menghitung persentase orang-orang yang berada di
atas atau di bawah skor tertentu. Nah, biasanya diasumsikan sebaran data yang diacu itu normal. Lagi-
lagi saya mendengar suara nun jauh di st="on"sana,Mengapa?. Karena bentuk ini yang paling mudah
dijadikan acuan. Sebenarnya bentuk lain juga bisa dihitung persentasenya, hanya saja akan sangat
banyak variasinya sehingga kita harus menghitung kasus per kasus. Ini akan menyulitkan pembuatan
formula yang dapat berlaku umum. Oleh karena itu sebaran data yang normal ini yang dijadikan acuan.
Gambarannya seperti ini:
Dalam gambar ini bisa dikatakan area berwarna biru adalah persentase banyaknya orang-orang yang
skornya lebih besar dari -2 SD. Sementara area yang berwarna hijau menggambarkan persentase orang-
orang yang skornya lebih kecil dari -2SD atau bisa dibilang juga lebih ekstrim. Nah untuk mendapat
angka persisnya bisa kita lihat di tabel. Caranya? Lihat posting sebelumnya mengenai Confidential
Interval ya.
Contoh? Misalnya contoh yang kita lihat tadi. Benarkah Andi memiliki kemampuan lebih dibanding
Budi? Kita tahu bahwa skor Andi itu 9 sementara Budi itu 7. Nah misalnya saja di kelas Andi rata-rata
murid mendapat skor 8, sementara Budi 5. Standard Deviasi di kelas Andi dan Budi misalnya sama-
sama 1. Dan kita anggap saja kedua kelas memiliki sebaran data yang normal. Nah mari kita terapkan
data ini:
OK, dari perhitungan terlihat bahwa ternyata Andi hanya berada dalam jarak 1 SD dari mean
kelompoknya, sementara Budi 2 SD lebih tinggi dari mean kelompok. Dari sini sudah terlihat bahwa
Budi sebenarnya memiliki skor yang lebih tinggi. Ini makin terlihat jika kita membandingkan
persentase orang-orang yang berada di bawah skor mereka. Andi berada di atas 84.13% murid-murid
lain di kelasnya, sementara 97.72% murid-murid di kelas Budi berada di bawah nilai Budi. Ini berarti
Budi termasuk murid pintar di kelasnya, karena hanya ada 2.28% (100%-97.72%) murid di kelas Budi
yang memperoleh nilai sama seperti Budi atau lebih tinggi.
Kita juga bisa berkata bahwa Budi dan 2.28% murid di kelasnya termasuk murid langka, jarang
atau sulit ditemui (kayak pejabat aja ya sulit ditemui). Dengan kata lain, jika kita masuk ke kelas dan
memilih secara random, kecil kemungkinan kita akan memilih Budi dan 2.28% temannya. Ini yang
kemudian akan jadi dasar penentuan uji hipotesis menggunakan signifikasi.

Central Limit Theorem
Nah ide ini kemudian juga digunakan untuk mencari berapa besar probabilitas kita memilih
secara random sebuah kelompok dengan mean tertentu dari populasi dengan mean tertentu. Misalnya
begini: berapa besar probabilitas memperoleh sekelompok mahasiswa dengan rata-rata IP di atas 3.5
dari populasi mahasiswa yang rata-rata IP-nya 2.5 secara random?
Jika kita menganggap rerata sampel sebagai unit analisis seperti Budi dalam kasus di atas, kita
bisa menerapkan ide yang sama dengan Z score tadi, lihat gambar berikut:

Lingkaran besar ini menggambarkan kelas Budi dalam kasus di atas.
Lingkaran kecil di dalamnya menggambarkan tiap siswa di kelas
tersebut termasuk Budi. Anggap saja lingkaran kecil tersebut banyak.
Dalam kasus tersebut Budi dan siswa di kelasnya menjadi unit analisis.
Tiap siswa merupakan satu unit analisis. Jika kelas Budi berisi 40
siswa, maka ada 40 unit analisis atau kita sering menyebut dengan n =
40. Kita menghitung mean kelas, SD kelas dari unit-unit analisis ini.
Sekarang kita bandingkan seandainya sampel yang menjadi unit analisisnya.
Nah dalam kasus mahasiswa gambarnya kurang lebih seperti ini.
Sama? Ya tentu saja karena saya hanya copy paste hehe Tapi
memang idenya sama. Sekarang, lingkaran besar merupakan populasi,
dan lingkaran kecil adalah sampel mahasiswa termasuk sampel yang
memiliki rerata 3.5.

Jika kita ingin tahu berapa persen sampel mahasiswa yang reratanya
3.5, kita dapat menggunakan ide yang sama dengan kasus Budi tadi.
Benarkah? Baiklah kita coba terapkan rumus Z di atas.
Hmsepertinya ada yang salah? Ya berapa SD-nya saudara-saudara?
Perhitungan SD di sini sebenarnya sama dengan perhitungan SD dalam kasus Budi.
Perbedaannya, dalam kasus Budi kita menghitung SD dari distribusi skor individu, sementara dalam
kasus ini kita menghitung SD dari distribusi mean sampel atau mean dari sekelompok individu. Lihat
ilustrasi berikut:









Rumusnya? Lihat perbandingan berikut ini:
Sama kan? Hanya saja masalahnya, kita bisa menarik sampel hingga jumlah yang tak terbatas
berkali-kali (k=tak terhingga), sehingga menghitung SD dari distribusi mean sampel hampir merupakan
pekerjaan mustahil buat kita. Selain itu cara ini mengharuskan kita mengambil sampel sangat banyak
dan menghitung meannya padahal ketertarikan kita hanya pada satu sampel dengan mean 3.5. Ini
tentunya tidak efisien alias repot!
Untung saja ada Central Limit Theorem (CLT). Salah satu hal yang dinyatakan oleh CLT ini
adalah SD dari distribusi mean sampel besarnya akan sama dengan hasil bagi antara SD populasi
dengan akar dari besarnya sampel, atau begini:
Yang perlu diingat di sini,
X
adalah SD dari populasi bukan SD dari sampel yang kita dapatkan.
Tentu saja ini akan menimbulkan masalah baru, tapi untuk sementara anggap saja kita tahu besarnya
SD dari populasi.
Jadi mari kita bereskan masalah tadi. Misalnya kita tahu bahwa besarnya sampel mahasiswa dengan
rerata IP 3.5 yang kita miliki adalah 9 orang dan SD dari populasi adalah 1.8 Berapa persentase
mendapatkan sampel dengan mean IP 3.5 atau lebih besar?
Ini berarti kemungkinan kita memperoleh sampel dengan mean sebesar 3.5 dalam populasi ini sebesar
4.78%. Besarkah atau kecilkah kemungkinannya? Itu tergantung penilaian masing-masing. Beberapa
orang menggunakan patokan p lebih kecil dari 0.05 judgment, penilaian sendiri . Penilaian sendiri ini
tentunya terkait dengan pertimbangan-pertimbangan tertentu seperti apakah ini penelitian awal atau
lanjutan, temuan-temuan dalam penelitian sebelumnya, dsb.
Jadi aplikasinya begini: jika kita mengambil suatu sampel (sebesar 9 orang) secara random dari
suatu populasi A, kemudian menghitung mean IP-nya dan mendapatkan angka 3.5, dapat kita
simpulkan bahwa sampel kita ini kecil kemungkinannya (jika 4.78% dianggap kecil) berasal dari
populasi dengan mean IP 2.5. Kemudian disimpulkan bahwa sampel ini bukan berasal dari populasi
dengan IP 2.5. Ini yang kemudian diberi label signifikan: ada perbedaan signifikan antara mean
populasi dengan mean sampel. Kesimpulan lanjutannya jadi seperti ini: karena sampel kita kecil
kemungkinannya berasal dari populasi dengan mean IP 2.5, ini berarti populasi A (tempat sampel kita
berasal) kecil kemungkinannya memiliki mean IP sebesar 2.5.
OK . Beres.
Tadi saya bilang kalo menggunakan standard deviasi populasi (
X
) akan menimbulkan masalah
tersendiri. Masalahnya, kita seringkali (bahkan hampir selalu) nggak pernah tahu berapa besarnya
standard deviasi di populasi. Tenang, penjelasan tadi memang perlu untuk memahami apa yang akan
saya bahas berikutnya dan juga melihat kaitan keduanya.

Distribusi t
Karena kita nggak pernah bisa tahu standard deviasi populasi, kita perlu melakukan estimasi terhadap
standard deviasi populasi ini. Estimasinya berasal dari Yak betul! Dari standard deviasi sampelnya.
Jadi kita akan mengganti
X
dengan SD
X
. Di sini muncul masalah baru. Ternyata dengan mengganti

X
dengan SD
X
distribusi sebaran mean sampel jadi berubah. Bukan lagi mengikuti kurve normal,
tetapi mengikuti distribusi baru. Aha! Tepat sekali! Distribusi baru ini adalah distribusi t (t kecil).
Distribusi ini ditemukan oleh seseorang bernama William Gosset dengan nama samaran
student. Oleh karena itu statistik ini disebut student t distribution. Dia adalah salah satu staf di
perkebunan anggur milik Guiness. Hmm Siapa bilang statistik itu membosankan. Probabilitas
ditemukan di meja judi, distribusi t ditemukan di tempat pembuatan bir, F test (yang akan kita pelajari
berikutnya) berasal dari jamuan minum teh. Adakah yang lebih menyenangkan dari ini?
Nah sekarang rumusnya akan berubah sedikit menjadi seperti ini:
Ya kita akan menggunakan istilah estimated karena standard deviasi dari distribusi mean sampel ini
adalah hasil estimasi dari sampelnya.
ini sering juga disebut estimated standard error atau banyak yang menyebut hanya sebagai standard
error.
Teknik atau rumus ini kemudian disebut sebagai one sample-t test, atau t-test
untuk satu sample, digunakan untuk menguji perbedaan antara mean satu sample dengan mean populasi
atau suatu acuan lainnya.
Dengan demikian sekarang jadi jelas bukan kaitan antara Z dan t. Semua prosesnya kemudian
menjadi sama dengan jika kita menggunakan Z. Perbedaannya terletak pada tabel acuan distribusinya.
Jika menggunakan Z kita mengacu ke tabel distribusi normal, di sini kita akan menggunakan acuan
tabel distribusi t. Selain itu distribusi t ternyata juga berbeda-beda untuk tiap derajat
kebebasan/degrees of freedom (db / df). Jadi untuk tiap db akan ada distribusi t-nya sendiri sehingga
sangat penting untuk mengetahui db ini. Makin besar dbnya, distribusi t ini akan menyerupai distribusi
normal.

Derajat keBebasan?
Ya derajat kebebasan (db). Db ini bersumber dari pemikiran ini: tiap kali kita mengestimasi
parameter (karakteristik populasi), kita akan kehilangan satu derajat kebebasan. Ilustrasinya
begini: misalnya ada populasi dengan mean sebesar 10. Jika kita diijinkan untuk mengambil sampel
sebesar 10 orang dari populasi ini, berapa banyak orang yang dapat kita ambil dengan bebas? Misalnya
kita ambil orang pertama secara bebas, ia memiliki skor 14. Orang kedua masih dengan bebas, ia
memiliki skor 8. Kemudian berturut-turut orang selanjutnya: 15, 6, 11, 14, 8, 6, 5 dan orang
kesepuluh. Tidak. Orang kesepuluh tidak dapat diambil secara bebas lagi. Jika sudah ada 9 angka,
angka ke sepuluh tidak lagi dapat ditentukan dengan bebas agar mendapat estimasi yang sama (mean =
10). Misalnya jumlah skor-skor tadi adalah 87. Agar estimasi yang kita dapatkan sama, yaitu mean = 10,
orang kesepuluh harus ditentukan sebesar 13. Dengan demikian dapat dikatakan kita kehilangan satu
derajat kebebasan.Nah db inilah yang kemudian digunakan untuk melihat tabel t.
Dalam perhitungan kita tadi, kita hanya mengestimasi satu parameter yaitu
X
, oleh karena itu
kita hanya kehilangan satu derajat kebebasan, sehingga db yang kita miliki sekarang adalah N-1, yaitu
49-1 = 48.

Contoh
OK, contohnya begini. seorang peneliti sosial ingin mengetahui apakah desa A itu dapat
digolongkan dalam desa miskin atau tidak. Peneliti kemudian mengambil data penghasilan penduduk
dari sampel yang diambilnya secara random sejumlah 49 KK. Peneliti kemudian menghitung standard
deviasi dan mean dari penghasilan 49 KK ini, ditemukan S
X
=140000, dan Mean penghasilan= 290000
rupiah perbulan. Misalnya batas kemiskinan itu adalah 250.000 rupiah perbulan. Jadi apakah desa A
masih dapat digolongkan sebagai desa miskin? Mari kita buktikan:
Dari perhitungan di atas kita mendapatkan p(t(49))=2.55% (baca: probabilitas munculnya t dengan
df=49 sama atau lebih besar dari 2 adalah 2.55%). Karena angka sebesar 2.55% itu termasuk kecil
(menurut saya) saya bisa berkata bahwa desa A sudah tidak dapat dianggap sebagai desa miskin lagi,
tapi sudah di atas peringkat desa miskin. Berapa peringkat di atasnya? Itu tidak dapat dijawab dalam
penelitian lagi, diperlukan penelitian lagi dengan acuan yang berbeda.
Nah sekarang baru beres? Belum. Pertanyaan selanjutnya: bagaimana jika yang saya inginkan
adalah membandingkan mean dari dua sampel, mean tiga sampel, mean dari sampel-sampel yang
berkaitan?

Anda mungkin juga menyukai