Untungnya, Anda diberi tahu jenis pertanyaan yang mungkin diajukan komite:
• Bisakah Anda menjelaskan hasil pemeriksaan?
• Dapatkah Anda memberi kami ringkasan singkat tentang mereka?
• Berapa nilai rata-ratanya?
• Bagaimana penyebaran skor?
• Apakah nilai tertinggi dan terendah?
• Berikut hasil tahun lalu, bagaimana perbandingan tahun ini?
Anda duduk melihat tabel di atas. Jawaban atas pertanyaan tidak jelas dari data
'mentah', yaitu data asli sebelum ada statistik yang dihitung. Kita perlu melakukan sesuatu
untuk membuatnya lebih jelas. Hal pertama yang dapat kita lakukan adalah membuat daftar
data secara berurutan, dari yang terendah hingga tertinggi:
Dengan pengurutan ini, hal-hal tertentu menjadi lebih jelas: sekarang kita dapat
melihat skor terendah dan tertinggi dengan lebih mudah, dengan skor jatuh antara 0 dan
90.
Hal lain yang dapat kami lakukan untuk meningkatkan presentasi kami adalah
dengan menambahkan jumlah orang yang mencapai nilai yang sama. Kami menghitung
frekuensi setiap tanda. Misalnya, 5 orang mendapat skor 52 dan hanya 1 yang mendapat
nilai 69. Saat kita melakukan ini, kita dapat melihat bahwa tanda paling 'populer' adalah 56
dengan frekuensi 7. Kita tidak boleh lupa bahwa ada sejumlah kemungkinan nilai yang tidak
ada yang mencapai: tidak ada yang mendapat nilai 8 atau 35 misalnya, jadi masing-masing
nilai ini memiliki frekuensi 0.
Kami dapat menyajikan informasi ini dalam bentuk grafik jika kami mengubahnya
menjadi histogram, di mana frekuensi tanda direpresentasikan sebagai batang vertikal.
Dalam histogram, yang ditunjukkan pada Gambar 2.1, kami mencantumkan semua
kemungkinan nilai yang dapat diperoleh siswa, 0 hingga 100, dan menggambar batang di
atas setiap nilai, dengan panjang batang sesuai dengan frekuensi nilai dalam set tersebut.
hasil. Untuk nilai 55 kami menggambar batang dengan panjang 6 (karena 6 siswa
memperoleh nilai 55) dan untuk 64 kami menggambar batang dengan panjang 2. Ini
memberikan presentasi visual yang jelas dari hasil.
Histogram ini disebut distribusi frekuensi, karena kita dapat melihat bagaimana
tanda didistribusikan ke seluruh rentang tanda yang mungkin. Distribusi frekuensi sangat
penting dalam analisis statistik karena memberikan representasi dasar dari informasi kami.
Distribusi frekuensi adalah bagan informatif yang jelas, memberi kami cara untuk
menunjukkan pola tanda yang kami peroleh: distribusinya di seluruh rentang nilai yang
memungkinkan. Kami mungkin ingin mempresentasikan distribusi frekuensi kepada komite
karena memberikan kami representasi grafis dari tanda tersebut. Namun yang tidak
dilakukannya adalah memberi kami ringkasan dari temuan-temuannya.
Jangkauan
Ukuran spread yang paling sederhana adalah range. Rentang adalah perbedaan
antara skor tertinggi dan terendah. Dalam contoh kita, skor tertinggi adalah nilai 90 dan
terendah 0. Karenanya kisarannya adalah 90.
Ukuran ini agak kasar, menetapkan batas-batas skor tetapi tidak memberi tahu kita
apa pun tentang penyebaran umum mereka. Memang, bahkan jika nilai kita tersebar
merata antara 0 dan 90 daripada berkelompok di 50-an, kisaran kita akan tetap 90.
Rentang ini menggunakan informasi hanya dari dua skor, sisanya bisa berupa apa saja,
jadi agak terbatas pada apa itu memberitahu kita.
Kuartil
Cara lain untuk melihat penyebaran adalah dengan menghitung kuartil. Kita telah
melihat sebelumnya bahwa median memotong data yang dipesan menjadi dua; kuartil
hanya memotong data yang dipesan menjadi empat. Kuartil pertama menunjukkan skor
seperempat naik daftar dari yang terendah. Kuartil kedua menunjukkan skor dua perempat
di atas daftar. Tidak perlu terlalu banyak untuk menyadari bahwa kuartil kedua berada di
tengah-tengah daftar dan karenanya merupakan median. Kuartil ketiga adalah skor tiga
perempat atas daftar. Kuartil keempat adalah sampai akhir daftar dan dengan demikian
merupakan skor tertinggi.
Dari daftar urutan hasil ujian kami, seperempat dari daftar seratus nilai berada di
antara nilai orang kedua puluh lima dan dua puluh enam, sehingga kuartil pertama berada
di tengah-tengah antara 48 dan 49, yaitu 48,5. Kita sudah tahu bahwa kuartil kedua (antara
nilai orang kelima puluh dan kelima puluh satu) adalah 55 saat kita menghitung median di
atas. Kuartil ketiga adalah tiga perempat sepanjang daftar, begitu juga antara nilai orang
ketujuh puluh lima dan tujuh puluh enam: ini adalah 59.5.2 Dan tentu saja kuartil keempat
adalah 90, karena itu adalah skor tertinggi. Jika kita menggunakan simbol Q untuk kuartil,
kita mendapatkan Q1 = 48.5, Q2 = 55, Q3 = 59.5, Q4 = 90.
Ukuran penyebaran yang sedikit lebih canggih daripada kisaran adalah kisaran
interkuartil: yaitu perbedaan antara kuartil ketiga dan pertama, Q3 - Q1. Dalam contoh kita,
ini adalah 59,5 - 48,5 = 11. Ini adalah kisaran dari separuh skor, yang berada di tengah
distribusi. Alasan mengapa kisaran antarkuartil digunakan adalah bahwa, tidak seperti
kisaran, rentang tersebut tidak akan dipengaruhi oleh satu skor yang sangat tinggi atau
rendah dan mungkin mewakili penyebaran distribusi dengan lebih tepat. (Beberapa orang
menggunakan rentang semi-interkuartil, yang merupakan setengah dari rentang interkuartil.
Dalam contoh kita, ini adalah 5,5.)
Menghitung kuartil sangat berguna karena dapat memberi tahu kita beberapa hal
menarik tentang distribusi, khususnya apakah distribusi tersebut simetris tentang median
dalam rentang interkuartil. Q2 - Q1 memberitahu kita kisaran seperempat skor di bawah
median dan Q3 - Q2 menunjukkan kisaran seperempat skor di atas median. Dalam contoh
kita, yang pertama adalah 6,5 dan yang kedua adalah 4,5. Kami memiliki skor yang
dikumpulkan lebih dekat pada kuartal di atas median daripada di kuartal di bawah median,
karena 4,5 adalah kisaran yang lebih kecil dari 6,5, untuk jumlah skor yang sama.
Perlu dicatat di sini bagaimana setiap statistik baru memberi tahu kita sesuatu yang
berbeda tentang data. Ini mungkin sesuatu yang sudah kita ketahui dengan melihat
distribusinya tetapi seringkali statistik membuatnya lebih jelas dan lebih eksplisit, dengan
nomor terlampir. Namun, statistik ini tidak muncul secara ajaib. Mereka diciptakan oleh
orang-orang yang berusaha menemukan cara terbaik untuk mendeskripsikan data mereka.
Ketika kami ingin mendeskripsikan data kami, kami memilih statistik yang paling sesuai
untuk tujuan kami.
Variasi
Menghitung kuartil tidak menggunakan semua informasi yang tersedia dari skor
dalam data, dan sekali lagi, seperti dalam pembahasan kita tentang median, beberapa skor
mungkin berbeda dan kita akan tetap mendapatkan rentang interkuartil yang sama. Oleh
karena itu, pertanyaannya adalah apakah kita dapat membuat ukuran penyebaran yang
memperhitungkan setiap skor. Untuk menjawab pertanyaan inilah sejumlah ukuran
penyebaran telah dikembangkan. Ciri umum dari mereka adalah bahwa mereka semua
dimulai dengan mean (sekali lagi menunjukkan pentingnya mean). Logikanya adalah
sebagai berikut. Jika kita mengambil mean sebagai posisi 'pusat' kita, maka kita dapat
membandingkan masing-masing skor dengan mean dan menemukan seberapa jauh setiap
skor bervariasi atau menyimpang darinya. Jika kita menjumlahkan deviasi masing-masing
skor dari mean, kita akan memiliki ukuran variabilitas total dalam data. Jika kita mau, kita
dapat membagi total ini dengan jumlah skor untuk menemukan deviasi rata-rata skor dari
mean.
Kita dapat menghitung deviasi skor dari mean hanya dengan menghitung X - µ, di
mana X adalah skor dan µ adalah mean. Kami dapat melakukan ini untuk setiap skor.
Namun, kita memiliki masalah: ketika kita menjumlahkannya untuk menemukan variabilitas
total, deviasi cenderung meniadakan satu sama lain. Dalam contoh kita, tanda 55
memberikan deviasi dari mean 55 - 52,62 = +2,38 dan tanda 50 memberikan deviasi dari
mean 50 - 52,62 = −2,62. Jika kita menjumlahkan deviasi ini kita mendapatkan 2,38 plus
−2,62, yang sama dengan - 0,24. Karena tanda minus, dua nilai, keduanya lebih dari dua
nilai rata-rata, akhirnya memberikan deviasi kurang dari satu saat dijumlahkan. Kami tidak
menginginkan ini; ini bukan statistik yang mencerminkan variabilitas sebagaimana adanya.
Memang, karena mean adalah posisi 'keseimbangan' dalam skor, menambahkan semua
penyimpangan akan memberi kita total nol karena semua penyimpangan positif benar-
benar membatalkan penyimpangan negatif. Karena jumlah penyimpangan skor kami selalu
berubah menjadi nol berapa pun skor yang kami miliki, ini tidak berguna sebagai statistik
karena tentu saja tidak memberi kami ukuran tentang seberapa tersebar skor tersebut.
Ketika kita mempertimbangkannya, semua yang ditunjukkan oleh tanda minus dari
penyimpangan adalah bahwa skornya lebih rendah dari mean. Kami sebenarnya tidak
tertarik pada apakah skornya lebih tinggi atau lebih rendah dari mean hanya seberapa
jauhnya dari mean. Apa yang perlu kita lakukan adalah menemukan cara untuk
menjumlahkan deviasi agar tidak saling meniadakan, sehingga kita berakhir dengan
estimasi yang masuk akal dari variabilitas skor yang sebenarnya. Ada dua solusi:
1 Penyimpangan mutlak
Kita bisa menyelesaikan masalah kita dengan mengabaikan tanda minus sama
sekali dan memperlakukan semua penyimpangan sebagai positif. Jika kita mendapatkan
deviasi −2.62 kita menyebutnya +2.62. Kami menempatkan dua garis vertikal di sekeliling
rumus untuk menunjukkan bahwa kami mengambil nilai absolut, yaitu, mengabaikan tanda
minus dalam solusi dan memperlakukannya sebagai positif. Deviasi mutlak adalah | X - µ |.
Kami menjumlahkan penyimpangan untuk semua skor. Untuk menemukan simpangan rata-
rata kita membaginya dengan jumlah skor, dilambangkan dengan N. Kita menyebutnya
simpangan mutlak rata-rata dan merepresentasikannya dengan rumus berikut:
2 Varians
Solusi alternatif untuk mengambil nilai absolut adalah dengan mengkuadratkan
simpangan, karena kuadrat angka selalu positif. Kuadrat dari −2.16 adalah +4.67. Kami
kemudian menjumlahkan kuadrat dari masing-masing simpangan untuk menghasilkan
jumlah kuadrat: ∑ (X - µ) 2. Rumus ini dapat diterjemahkan ke dalam bahasa Inggris
sebagai:
'Temukan deviasi setiap skor dari mean, kuadratkan setiap deviasi, lalu jumlahkan deviasi
yang dikuadratkan'. Kita kemudian dapat membagi gambar ini dengan jumlah skor (N)
untuk menemukan rata-rata deviasi kuadrat. Nilai ini disebut varians.
Varians memberi kita angka untuk variabilitas rata-rata skor tentang mean, yang
dinyatakan sebagai deviasi kuadrat. Ia juga melakukan apa yang kita inginkan: memberi
kita angka besar untuk skor yang disebar dan yang lebih kecil untuk skor yang berdekatan.
Menariknya, karena berurusan dengan deviasi kuadrat, varians memberi bobot lebih pada
skor ekstrem. Misalnya, skor yang menyimpang 2 dari rata-rata akan berkontribusi 4 pada
varians, tetapi skor 4 yang jauh dari rata-rata akan berkontribusi 16 pada varians, jadi
meskipun skor kedua hanya dua kali lebih jauh dari rata-rata seperti skor pertama. itu
berkontribusi empat kali lebih banyak untuk varians.
Jika kita hanya menginginkan ukuran variabilitas maka varians tidak masalah.
Namun, perhatikan bahwa angka yang kami hitung dari 176,52 tidak dapat ditempatkan
pada distribusi frekuensi sebagai jarak dari rata-rata. Ini karena varians adalah rata-rata
deviasi kuadrat, bukan deviasi rata-rata. Untuk mengembalikan statistik ke istilah yang kita
mulai, kita perlu menemukan akar kuadrat. (Saat kita mengkuadratkan penyimpangan
sebelumnya untuk menghilangkan tanda minus kita perlu 'membatalkan' ini sekarang telah
memenuhi tujuannya.) Kita menyebut statistik ini, akar kuadrat dari varians, deviasi standar
dan mewakilinya dengan simbol σ (huruf kecil Yunani sigma).
Contoh sederhana akan menunjukkan bagaimana kita menghitung deviasi standar.
Bayangkan kita hanya memiliki 4 skor 2, 2, 3, 5 dalam data kita. Artinya adalah 3. Kami
mengerjakan σ sebagai berikut:
Varians adalah ukuran yang baik dari variabilitas dalam data. Ini menggunakan
semua skor dan akan memberikan angka kecil jika semua skor mengelompok
membulatkan mean dan angka besar jika tersebar. Seperti yang akan kita lihat dalam bab-
bab tentang analisis varians, statistik ini sangat penting dalam beberapa analisis statistik.
Namun, ketika kita mendeskripsikan sekumpulan data, varians mungkin tidak terlalu
berguna sebagai deskripsi penyebaran skor karena angka yang dihasilkan tidak dalam
urutan yang sama dengan skor. Ini dinyatakan dalam deviasi kuadrat dari mean. Dalam
contoh kita, varians dari 176,52 tampak besar tetapi ini mungkin karena varians itu
diekspresikan dalam bentuk tanda kuadrat, bukan tanda.
Deviasi absolut rata-rata dan deviasi standar keduanya merupakan statistik
deskriptif yang baik dari penyebaran sekumpulan skor. Keduanya menggunakan informasi
dari semua skor dan keduanya menghasilkan angka yang mengekspresikan penyimpangan
'rata-rata' dari mean dalam istilah yang kita inginkan (dalam contoh kita: tanda). Karena
mereka diekspresikan dalam istilah yang sama dengan skor, mereka mudah dipahami. Kita
bisa, jika kita mau, memplot angka-angka ini sebagai jarak dari mean pada distribusi
frekuensi, sehingga bisa juga ditampilkan secara grafis.
Mengapa penyebaran sekumpulan hasil hampir selalu dinyatakan, dalam laporan
penelitian, sebagai deviasi standar dan jarang sebagai deviasi absolut rata-rata? Jika data
yang kami gambarkan adalah semua yang kami minati, maka tidak ada argumen yang
meyakinkan. Namun, ada keuntungan berbeda menggunakan deviasi standar ketika data
kita adalah sampel dari himpunan yang lebih besar (populasi) yang ingin kita wakili. Dalam
contoh kami, 100 siswa adalah satu-satunya yang kami minati. Namun, jika 1000 siswa
telah mengikuti ujian dan 100 kami adalah sampel yang representatif, maka kami ingin
menggunakan deviasi standar. Alasannya, yang akan dibahas dalam Bab 5, menyangkut
sampel yang mewakili populasi dan penggunaan statistik sampel untuk memperkirakan nilai
populasi.
Menggambarkan satu set data: sebagai kesimpulan
Saat mendeskripsikan sekumpulan data, kami ingin meringkas distribusi frekuensi
dengan dua ukuran, satu menunjukkan nilai sentral yang menunjukkan skor 'rata-rata' dan
yang kedua untuk menunjukkan penyebaran skor. Dua statistik yang paling umum
digunakan untuk pengukuran ini, karena kegunaannya, adalah mean dan deviasi standar.
Hasil pemeriksaan dapat diringkas dengan statistik sebagai berikut: mean = 52,62 mark,
standar deviasi = 13,29 mark.
Data nominal
Terkadang angka digunakan seperti nama. Misalnya, dalam regu olahraga pemain
nomor 15 di bagian belakang kemeja pemain memungkinkan kami untuk
mengidentifikasinya selama bermain. Bukan berarti pemain nomor 15 itu lebih baik dari
pemain 1 sampai 14 atau lebih buruk dari pemain 16 sampai 22. Tidak ada artinya
menghitung statistik angka-angka ini karena hanya nominal, digunakan sebagai nama.
Ketika kita mengkategorikan seseorang atau sesuatu, kita dapat menggunakan
angka untuk memberi label pada kategori tersebut. Misalnya, jika kita mengelompokkan
orang berdasarkan warna mata kita mungkin memilih untuk memberi label coklat sebagai 1,
biru sebagai 2, hijau sebagai 3 dan seterusnya. Perhatikan bahwa nomor-nomor tersebut
secara sewenang-wenang ditetapkan ke warna: kita dapat memilih nomor lain atau
menetapkan nomor yang sama dengan cara yang berbeda. Penggunaan angka-angka ini
bersifat nominal. Kita tidak dapat menggunakan angka-angka ini untuk menghitung statistik:
tidak masuk akal untuk mengatakan bahwa rata-rata orang bermata coklat (1) dan orang
bermata hijau (3) adalah orang bermata biru (2)!
Data ordinal
Kita dapat menggunakan angka untuk menentukan urutan kinerja. Misalnya, Susan
adalah pemain catur terbaik di kelasnya, diikuti oleh Robert, Marie, dan Peter. Kita dapat
memberi Susan peringkat teratas 1, Robert 2, Marie 3, dan Peter 4. Angka-angka ini
memberi tahu kita urutan peringkat tetapi sedikit yang lain. Mereka TIDAK memberi tahu
kita bahwa perbedaan antara 1 dan 2 (Susan dan Robert) sama dengan perbedaan antara
3 dan 4 (Marie dan Peter) meskipun hanya ada satu tempat di antara mereka di peringkat.
Susan bisa menjadi pemain terbaik untuk usianya di negara ini sedangkan tiga lainnya
mungkin tidak sebagus orang lain seusia mereka dari sekolah terdekat. Karena itu kami
tidak dapat menghitung rata-rata dan deviasi standar pada data ordinal. Bab 16 membahas
data ordinal lebih lanjut dan mempertimbangkan bagaimana kita dapat menghitung statistik
dengannya.
Data interval dan rasio
Waktu, kecepatan, jarak, dan suhu semuanya dapat diukur pada skala interval dan
kami memiliki jam, spedometer, pengukur pita, dan termometer untuk melakukannya.
Mereka disebut skala interval karena perbedaan antara angka-angka berurutan memiliki
interval yang sama: perbedaan antara 1 dan 2 sama dengan perbedaan antara 3 dan 4
atau 10 dan 11. Tidak seperti skala ordinal di mana ini bisa berbeda, pada sebuah skala
interval mereka semua sama. Misalnya, perbedaan antara 6 dan 7 menit sama dengan
perbedaan antara 20 dan 21 menit, yaitu 1 menit pada kedua kasus. Ketika angka kita
berasal dari skala dengan interval yang sama maka kita dapat menghitung rata-rata dan
deviasi standar.
Data rasio adalah jenis data interval khusus. Dengan data interval, nilai nol dapat
berubah-ubah, seperti posisi nol pada beberapa skala suhu: nol Fahrenheit berada pada
posisi yang berbeda dengan skala Celsius, sedangkan dengan data rasio nol sebenarnya
menunjukkan titik di mana 'tidak ada' diberi skor pada skala, seperti nol pada speedometer
saat tidak ada gerakan, jadi nol ini berarti sama terlepas dari apakah kita mengukur dalam
mil per jam atau kilometer per detik. Kita dapat mengilustrasikan perbedaannya dalam
contoh berikut. Dalam ujian terdapat 100 pertanyaan dengan kesulitan yang sama dan
siswa diwajibkan untuk mendapatkan setidaknya 50 jawaban yang benar untuk lulus ujian.
Penguji dapat memilih untuk memberi label nilai kelulusan sebagai nol. Skor 0
menunjukkan 50 jawaban benar, +1 menunjukkan 51 jawaban benar, −1 menunjukkan 49
jawaban benar dan seterusnya. Ini adalah skala interval dengan nol arbitrer: penguji
memilih tempat untuk meletakkannya. Sekarang mari kita pertimbangkan ujian yang sama
di mana nol menunjukkan tidak ada jawaban yang benar dan nilai kelulusan diberi skor 50.
Kali ini nol tidak sewenang-wenang karena menentukan skor 'tidak ada' dalam hal kinerja
ujian. Di sini skala interval menjadi skala rasio.
Hanya pada skala rasio, dengan nol asli, kami dapat membuat klaim terkait rasio,
seperti: skor Susan dua kali lebih baik dari skor John, skor Robyn sepertiga skor Peter. Jika
Susan mendapat skor 80 dan John 40 pada pemeriksaan skala rasio maka skornya benar-
benar dua kali skor John. Pada skala interval dengan nol ditetapkan secara sewenang-
wenang pada 50 skor mereka adalah 30 dan -10. Dengan skala interval kami tidak akan
dapat membuat penilaian rasio dengan tepat.
Banyak dari statistik kami membutuhkan data interval atau rasio. Di sebagian besar
buku ini (hingga Bab 16) kita hanya akan mempertimbangkan data yang merupakan
interval atau rasio karena jenis data ini memungkinkan kita untuk melakukan uji statistik
dengan rentang terbesar. Untuk alasan ini, peneliti sering memilih untuk mengumpulkan
data interval atau rasio untuk dianalisis. Dengan subjek manusia, penelitian sering kali
berfokus pada seberapa cepat atau akurat suatu tugas dapat dilakukan, di mana kecepatan
dan akurasi dapat diukur pada skala rasio.