# Statistik dalam Psikologi

Statistik dalam Psikologi............................................................................................................. 1 Mengolah Data Statistik Deskriptif dan Statistik Inferensial.........................................................2 Statistik Deskriptif.................................................................................................................... 2 MEAN ................................................................................................................................... 6 MEDIAN................................................................................................................................ 9 MODUS............................................................................................................................... 12 Eksplorasi data...................................................................................................................19 Kovarian dan Korelasi.........................................................................................................21 Standarisasi........................................................................................................................ 21 Asumsi................................................................................................................................ 23 Koefisien Determinasi......................................................................................................... 24 PENGANTAR STATISTIK.......................................................................................................... 29 ELEMENT STATISTIK............................................................................................................ 30 TIPE DATA STATISTIK.......................................................................................................... 30 STATISTIK DAN KOMPUTER................................................................................................. 31

## Mengolah Data Statistik Deskriptif dan Statistik Inferensial

Statistik adalah sekumpulan prosedur untuk mengumpulkan, mengukur, mengklasifikasi, menghitung, menjelaskan, mensintesis, menganalisis, dan menafsirkan data kuantitatif yang diperoleh secara sistematis. Secara garis besar, statistik dibagi menjadi dua komponen utama, yaitu Statistik Deskriptif dan Statistik inferensial.

Statistik Deskriptif

Statistik deskriptif menggunakan prosedur numerik dan grafis dalam meringkas gugus data dengan cara yang jelas dan dapat dimengerti. Statistik Deskriptif membantu kita untuk menyederhanakan data dalam jumlah besar dengan cara yang logis. Data yang banyak direduksi dan diringkas sehingga lebih sederhana dan lebih mudah diinterpretasi. Terdapat dua metode dasar dalam statistik deskriptif, yaitu numerik dan grafis.
1. Pendekatan numerik dapat digunakan untuk menghitung nilai statistik dari sekumpulan data, seperti

mean dan standar deviasi. Statistik ini memberikan informasi tentang rata-rata dan informasi rinci tentang distribusi data.
2. Metode grafis lebih sesuai daripada metode numerik untuk mengidentifikasi pola-pola tertentu dalam

data, dilain pihak, pendekatan numerik lebih tepat dan objektif. Dengan demikian, pendekatan numerik dan grafis satu sama lain saling melengkapi, sehingga sangatlah bijaksana apabila kita menggunakan kedua metode tersebut secara bersamaan. Terdapat tiga karakteristik utama dari variabel tunggal: a. Distribusi data (distribusi frekuensi)
b. Ukuran pemusatan/tendensi sentral (Central Tendency) c. Ukuran penyebaran (Dispersion)

dari bentuk distribusi data secara kualitatif. Sebagai contoh, distribusi dapat bimodal (memiliki 2 puncak) ataupun multimodal (lebih dari 2 puncak). Hal ini menunjukkan bahwa sampel tidak homogen dan unsurunsurnya berasal dari dua populasi yang berbeda. UKURAN PEMUSATAN (Central Tendency) Salah satu aspek yang paling penting untuk menggambarkan distribusi data adalah nilai pusat pengamatan. Setiap pengukuran aritmatika yang ditujukan untuk menggambarkan suatu nilai yang mewakili nilai pusat atau nilai sentral dari suatu gugus data (himpunan pengamatan) dikenal sebagai ukuran tendensi sentral. Terdapat tiga jenis ukuran tendensi sentral yang sering digunakan, yaitu: 1. Mean 2. Median
3. Modus

Rata-rata hitung atau arithmetic mean atau sering disebut dengan istilah mean saja merupakan metode yang paling banyak digunakan untuk menggambarkan ukuran tendensi sentral. Mean dihitung dengan menjumlahkan semua nilai data pengamatan kemudian dibagi dengan banyaknya data. Mean dipengaruhi oleh nilai ekstrem. Median adalah nilai yang membagi himpunan pengamatan menjadi dua bagian yang sama besar, 50% dari pengamatan terletak di bawah median dan 50% lagi terletak di atas median. Median dari n pengukuran atau pengamatan x1, x2 ,..., xn adalah nilai pengamatan yang terletak di tengah gugus data setelah data tersebut diurutkan. Apabila banyaknya pengamatan (n) ganjil, median terletak tepat ditengah gugus data, sedangkan bila n genap, median diperoleh dengan cara interpolasi yaitu rata-rata dari dua data yang berada di tengah gugus data. Median tidak dipengaruhi oleh nilai ekstrem. Mode adalah data yang paling sering muncul/terjadi. Untuk menentukan modus, pertama susun data dalam urutan meningkat atau sebaliknya, kemudian hitung frekuensinya. Nilai yang frekuensinya paling besar (sering muncul) adalah modus. Modus digunakan baik untuk tipe data numerik atau pun data kategoris. Modus tidak dipengaruhi oleh nilai ekstrem. Karakteristik penting untuk ukuran pusat yang baik Ukuran nilai pusat (average) merupakan nilai pewakil dari suatu distribusi data, sehingga harus memiliki sifat-sifat berikut: Harus mempertimbangkan semua gugus data Tidak boleh terpengaruh oleh nilai-nilai ekstrim. Harus stabil dari sampel ke sampel. Harus mampu digunakan untuk analisis statistik lebih lanjut.
Dari beberapa ukuran nilai pusat, Mean hampir memenuhi semua persyaratan tersebut, kecuali syarat pada point kedua, rata-rata dipengaruhi oleh nilai ekstrem. Sebagai contoh, jika item adalah 2; 4; 5; 6; 6; 6; 7; 7; 8; 9 maka mean, median dan modus yang semua sama dengan 6. Jika nilai terakhir adalah 90 bukan 9, rata-rata akan menjadi 14.10, sedangkan median dan modus yang tidak berubah. Meskipun median dan modus lebih baik dalam hal ini, namun mereka tidak memenuhi persyaratan lainnya. Oleh karena itu Mean merupakan ukuran nilai pusat yang terbaik dan sering digunakan dalam analisis statistik. Kapan kita menggunakan nilai pusat yang berbeda? Nilai ukuran pusat yang tepat untuk digunakan tergantung pada sifat data, sifat distribusi frekuensi dan tujuan. Jika data kualitatif, hanya modus yang dapat digunakan. Sebagai contoh, apabila kita tertarik untuk mengetahui jenis tanah yang khas di suatu lokasi, atau pola tanam di suatu daerah, kita dapat menggunakan modus. Di sisi lain, jika data bersifat kuantitatif, kita dapat menggunakan salah satu dari ukuran nilai pusat tersebut. Jika data bersifat kuantitatif, kita harus mempertimbangkan sifat distribusi frekuensi gugus data tersebut. Bila distribusi frekuensi data tidak normal (tidak simetris), median atau modus merupakan ukuran pusat yang tepat. Apabila terdapat nilai-nilai ekstrim, baik kecil atau besar, lebih tepat menggunakan median atau modus. Apabila distribusi data normal (simetris), semua ukuran nilai pusat, baik mean, median, atau modus dapat digunakan. Namun, mean lebih sering digunakan dibanding yang lainnya karena lebih memenuhi persyaratan untuk ukuran pusat yang baik. Ketika kita berhadapan dengan laju, kecepatan dan harga lebih tepat menggunakan rata-rata harmonik.

Jika kita tertarik pada perubahan relatif, seperti dalam kasus pertumbuhan bakteri, pembelahan sel dan sebagainya, rata-rata geometrik adalah rata-rata yang paling tepat.

## UKURAN PEMUSATAN DATA

Salah satu aspek yang paling penting untuk menggambarkan distribusi data adalah nilai pusat data pengamatan (Central Tendency). Setiap pengukuran aritmatika yang ditujukan untuk menggambarkan suatu nilai yang mewakili nilai pusat atau nilai sentral dari suatu gugus data (himpunan pengamatan) dikenal sebagai ukuran pemusatan data (tendensi sentral). Terdapat tiga ukuran pemusatan data yang sering digunakan, yaitu: Mean, Median, Modus

MEAN

Rata-rata hitung atau arithmetic mean atau sering disebut dengan istilah mean saja merupakan metode yang paling banyak digunakan untuk menggambarkan ukuran tendensi sentral. Mean dihitung dengan menjumlahkan semua nilai data pengamatan kemudian dibagi dengan banyaknya data. Definisi tersebut dapat di nyatakan dengan persamaan berikut: Sampel: Populasi: Keterangan: = lambang penjumlahan semua gugus data pengamatan n = banyaknya sampel data N = banyaknya data populasi = nilai rata-rata sampel = nilai rata-rata populasi Mean dilambangkan dengan (dibaca "x-bar") jika kumpulan data ini merupakan contoh (sampel) dari populasi, sedangkan jika semua data berasal dari populasi, mean dilambangkan dengan (huruf kecil Yunani mu). Contoh 1: Hitunglah nilai rata-rata dari nilai ujian matematika kelas 3 SMU berikut ini: 2; 4; 5; 6; 6; 7; 7; 7; 8; 9 Jawab:

Nilai rata-rata dari data yang sudah dikelompokkan bisa dihitung dengan menggunakan formula berikut:

Keterangan: = lambang penjumlahan semua gugus data pengamatan fi = frekuensi data ke-i n = banyaknya sampel data = nilai rata-rata sampel Contoh 2: Berapa rata-rata hitung pada tabel frekuensi berikut: xi 70 69 45 80 56 fi 5 6 3 1 1

Catatan: Tabel frekuensi pada tabel di atas merupakan tabel frekuensi untuk data tunggal, bukan tabel frekuensi dari data yang sudah dikelompokkan berdasarkan selang/kelas tertentu. Jawab: xi fi 70 5 69 6 45 3 80 1 56 1 Jumlah 16 fixi 350 414 135 80 56 1035

A. MEAN DARI DATA DISTRIBUSI FREKUENSI ATAU DARI GABUNGAN Distribusi Frekuensi: Rata-rata hitung dari data yang sudah disusun dalam bentuk tabel distribusi frekuensi dapat ditentukan dengan menggunakan formula yang sama dengan formula untuk menghitung nilai rata-rata dari data yang sudah dikelompokkan, yaitu:

Keterangan: = lambang penjumlahan semua gugus data pengamatan fi = frekuensi data ke-i = nilai rata-rata sampel
Contoh 3: Tabel berikut ini adalah nilai ujian statistik 80 mahasiswa yang sudah disusun dalam tabel frekuensi. Berbeda dengan contoh 2, pada contoh ke-3 ini, tabel distribusi frekuensi dibuat dari data yang sudah dikelompokkan berdasarkan selang/kelas tertentu (banyak kelas = 7 dan panjang kelas = 10). Kelas ke- Nilai Ujian fi 1 31 - 40 2 2 41 - 50 3 3 51 - 60 5 4 61 - 70 13 5 71 - 80 24 6 81 - 90 21 7 91 - 100 12 Jumlah 80 Jawab: Buat daftar tabel berikut, tentukan nilai pewakilnya (xi) dan hitung fixi. Kelas ke- Nilai Ujian fi 1 31 - 40 2 2 41 - 50 3 3 51 - 60 5 4 61 - 70 13 5 71 - 80 24 6 81 - 90 21 7 91 - 100 12 Jumlah 80 xi 35.5 45.5 55.5 65.5 75.5 85.5 95.5 fixi 71.0 136.5 277.5 851.5 1812.0 1795.5 1146.0 6090.0

Catatan: Pendekatan perhitungan nilai rata-rata hitung dengan menggunakan distribusi frekuensi kurang akurat dibandingkan dengan cara perhitungan rata-rata hitung dengan menggunakan data aktualnya. Pendekatan ini seharusnya hanya digunakan apabila tidak memungkinkan untuk menghitung nilai rata-rata hitung dari sumber data aslinya. Rata-rata Gabungan atau rata-rata terboboti (Weighted Mean) Rata-rata gabungan (disebut juga grand mean, pooled mean, atau rata-rata umum) adalah cara yang tepat untuk menggabungkan rata-rata hitung dari beberapa sampel.
Contoh 4: Tiga sub sampel masing-masing berukuran 10, 6, 8 dan rata-ratanya 145, 118, dan 162. Berapa rata-ratanya? Jawab:

MEDIAN

Median dari n pengukuran atau pengamatan x1, x2 ,..., xn adalah nilai pengamatan yang terletak di tengah gugus data setelah data tersebut diurutkan. Apabila banyaknya pengamatan (n) ganjil, median terletak tepat ditengah gugus data, sedangkan bila n genap, median diperoleh dengan cara interpolasi yaitu rata-rata dari dua data yang berada di tengah gugus data. Dengan demikian, median membagi himpunan pengamatan menjadi dua bagian yang sama besar, 50% dari pengamatan terletak di bawah median dan 50% lagi terletak di atas median.
Median sering dilambangkan dengan (dibaca "x-tilde") apabila sumber datanya berasal dari sampel (dibaca "-tilde") untuk median populasi. Median tidak dipengaruhi oleh nilai-nilai aktual dari pengamatan melainkan pada posisi mereka. Prosedur untuk menentukan nilai median, pertama urutkan data terlebih dahulu, kemudian ikuti salah satu prosedur berikut ini:
Banyak data ganjil mediannya adalah nilai yang berada tepat di tengah gugus data. Banyak data genap mediannya adalah rata-rata dari dua nilai data yang berada di tengah gugus data

A. MEDIAN DATA TUNGGAL Untuk menentukan median dari data tunggal, terlebih dulu kita harus mengetahui letak/posisi median tersebut. Posisi median dapat ditentukan dengan menggunakan formula berikut:

dimana n = banyaknya data pengamatan. Median apabila n ganjil: Contoh 5: Hitunglah median dari nilai ujian matematika kelas 3 SMU berikut ini: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9; 10 Jawab: data: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9; 10 setelah diurutkan: 2; 4; 5; 6; 6; 7; 7; 7; 8; 9; 10 banyaknya data (n) = 11 posisi Me = (11+1) = 6 jadi Median = 7 (data yang terletak pada urutan ke-6)

## 2 4 5 6 6 7 7 7 8 9 10 1 2 3 4 5 6 7 8 9 10 11 Median apabila n genap:

Contoh 6: Hitunglah median dari nilai ujian matematika kelas 3 SMU berikut ini: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9 Jawab: -

## data: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9 setelah diurutkan: 2; 4; 5; 6; 6; 7; 7; 7; 8; 9

banyaknya data (n) = 10 posisi Me = (10+1) = 5.5 Data tengahnya: 6 dan 7 jadi Median = (6+7) = 6.5 (rata-rata dari 2 data yang terletak pada urutan ke-5 dan ke-6)

Nilai Ujian 2456677789 Urutan data ke- 1 2 3 4 5 6 7 8 9 10 B. MEDIAN DALAM DISTRIBUSI FREKUESI Formula untuk menentukan median dari tabel distribusi frekuensi adalah sebagai berikut:

b = batas bawah kelas median dari kelas selang yang mengandung unsur atau memuat nilai median p = panjang kelas median n = ukuran sampel/banyak data f = frekuensi kelas median F = Jumlah semua frekuensi dengan tanda kelas lebih kecil dari kelas median (fi)

Contoh 7: Tentukan nilai median dari tabel distribusi frekuensi pada Contoh 3 di atas! Jawab: Kelas ke- Nilai Ujian fi fkum 1 31 - 40 2 2 2 41 - 50 3 5 3 51 - 60 5 10 4 61 - 70 13 23 5 71 - 80 24 47 letak kelas median 6 81 - 90 21 68 7 91 - 100 12 80 8 Jumlah 80 Letak kelas median: Setengah dari seluruh data = 40, terletak pada kelas ke-5 (nilai ujian 71-80) b = 70.5, p = 10 n = 80, f = 24 f = 24 (frekuensi kelas median)
F = 2 + 3 + 5 + 13 = 23

MODUS

Mode adalah data yang paling sering muncul/terjadi. Untuk menentukan modus, pertama susun data dalam urutan meningkat atau sebaliknya, kemudian hitung frekuensinya. Nilai yang frekuensinya paling besar (sering muncul) adalah modus. Modus digunakan baik untuk tipe data numerik atau pun data kategoris. Modus tidak dipengaruhi oleh nilai ekstrem. Beberapa kemungkinan tentang modus suatu gugus data: -

Apabila pada sekumpulan data terdapat dua mode, maka gugus data tersebut dikatakan bimodal. Apabila pada sekumpulan data terdapat lebih dari dua mode, maka gugus data tersebut dikatakan multimodal. Apabila pada sekumpulan data tidak terdapat mode, maka gugus data tersebut dikatakan tidak mempunyai modus.\

Meskipun suatu gugus data mungkin saja tidak memiliki modus, namun pada suatu distribusi data kontinyu, modus dapat ditentukan secara analitis. Untuk gugus data yang distribusinya simetris, nilai mean, median dan modus semuanya sama. Untuk distribusi miring ke kiri (negatively skewed): mean < median < modus untuk distribusi miring ke kanan (positively skewed): terjadi hal yang sebaliknya, yaitu mean > median > modus.

Hubungan antara ketiga ukuran tendensi sentral untuk data yang tidak berdistribusi normal, namun hampir simetris dapat didekati dengan menggunakan rumus empiris berikut: Mean - Mode = 3 (Mean - Median) A. MODUS DATA TUNGGAL Contoh 8: Berapa modus dari nilai ujian matematika kelas 3 SMU berikut ini: 2, 4, 5, 6, 6, 7, 7, 7, 8, 9 2, 4, 6, 6, 6, 7, 7, 7, 8, 9 2, 4, 6, 6, 6, 7, 8, 8, 8, 9 2, 4, 5, 5, 6, 7, 7, 8, 8, 9 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Jawab:
2, 4, 5, 6, 6, 7, 7, 7, 8, 9 Nilai yang sering muncul adalah angka 7 (frekuensi terbanyak = 3), sehingga Modus (M) = 7 2, 4, 6, 6, 6, 7, 7, 7, 8, 9 Nilai yang sering muncul adalah angka 6 dan 7 (masing-masing muncul 3 kali), sehingga Modusnya ada dua, yaitu 6 dan 7. Gugus data tersebut dikatakan bimodal karena mempunyai dua modus. Karena ke-2 mode tersebut nilainya berurutan, mode sering dihitung dengan menghitung nilai rata-rata keduanya, (6+7) = 6.5.

2, 4, 6, 6, 6, 7, 8, 8, 8, 9 Nilai yang sering muncul adalah angka 6 dan 8 (masing-masing muncul 3 kali), sehingga Modusnya ada dua, yaitu 6 dan 8. Gugus data tersebut dikatakan bimodal karena mempunyai dua modus. Nilai mode tunggal tidak dapat dihitung karena ke-2 mode tersebut tidak berurutan.

2, 4, 5, 5, 6, 7, 7, 8, 8, 9 Nilai yang sering muncul adalah angka 5, 6 dan 7 (masing-masing muncul 2 kali), sehingga Modusnya ada tiga, yaitu 5, 6 dan 7. Gugus data tersebut dikatakan multimodal karena modusnya lebih dari dua.

1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Pada gugus data tersebut, semua frekuensi data sama, masing-masing muncul satu kali, sehingga gugus data tersebut dikatakan tidak mempunyai modusnya

## B. MODUS DALAM DISTRIBUSI FREKUENSI

dimana: Mo = modal = kelas yang memuat modus b = batas bawah kelas modal p = panjang kelas modal bmo = frekuensi dari kelas yang memuat modus (yang nilainya tertinggi) b1= bmo bmo-1 = frekuensi kelas modal frekuensi kelas sebelumnya b2 = bmo bmo+1 = frekuensi kelas modal frekuensi kelas sesudahnya Contoh 9: Tentukan nilai median dari tabel distribusi frekuensi pada Contoh 3 di atas! Jawab: Kelas ke- Nilai Ujian fi 1 31 - 40 2 2 41 - 50 3 3 51 - 60 5 4 61 - 70 13 5 6 7 8 71 - 80 81 - 90 91 - 100 Jumlah b1 = (24 13) = 11 24 kelas modal (frekuensinya paling besar) b2 =(24 21) =3 21 12 80

## b = 71-0.5 = 70.5 b1 = 24 -13 = 11 b2 = 24 21 = 3 p = 10

Selain tiga ukuran tendensi sentral di atas (mean, median, dan mode), terdapat ukuran tendensi sentral lainnya, yaitu rata-rata ukur (Geometric Mean) dan rata-rata harmonis (Harmonic Mean) RATA-RATA UKUR (Geometric Mean) Untuk gugus data positif x1, x2, , xn, rata-rata geometrik adalah akar ke-n dari hasil perkalian unsur-unsur datanya. Secara matematis dapat dinyatakan dengan formula berikut:

Dimana: U = rata-rata ukur (rata-rata geometrik) n = banyaknya sampel = Huruf kapital (pi) yang menyatakan jumlah dari hasil kali unsur-unsur data. Rata-rata geometrik sering digunakan dalam bisnis dan ekonomi untuk menghitung rata-rata tingkat perubahan, rata-rata tingkat pertumbuhan, atau rasio rata-rata untuk data berurutan tetap atau hampir tetap atau untuk rata-rata kenaikan dalam bentuk persentase. A. RATA-RATA UKUR UNTUK DATA TUNGGAL Contoh 10: Berapakah rata-rata ukur dari data 2, 4, 8? Jawab:

atau:

B. DISTRIBUSI FREKUENSI

xi = tanda kelas (nilai tengah) fi = frekuensi yang sesuai dengan xi Contoh 11: Tentukan rata-rata ukur dari tabel distribusi frekuensi pada Contoh 3 di atas! Jawab Kelas ke- Nilai Ujian fi xi log xi fi.log xi 1 31 - 40 2 35.5 1.5502 3.1005 2 41 - 50 3 45.5 1.6580 4.9740 3 51 - 60 5 55.5 1.7443 8.7215 4 61 - 70 13 65.5 1.8162 23.6111 5 71 - 80 24 75.5 1.8779 45.0707 6 81 - 90 21 85.5 1.9320 40.5713 7 91 - 100 12 95.5 1.9800 23.7600 8 Jumlah 80 149.8091

## RATA-RATA HARMONIK (H)

Rata-rata harmonik dari suatu kumpulan data x1, x2, , xn adalah kebalikan dari nilai rata-rata hitung (aritmetik mean). Secara matematis dapat dinyatakan dengan formula berikut:

Secara umum, rata-rata harmonic jarang digunakan. Rata-rata ini hanya digunakan untuk data yang bersifat khusus. Misalnya,rata-rata harmonik sering digunakan sebagai ukuran tendensi sentral untuk kumpulan data yang menunjukkan adanya laju perubahan, seperti kecepatan. A. RATA-RATA HARMONIC UNTUK DATA TUNGGAL Contoh 12: Si A bepergian pulang pergi. Waktu pergi ia mengendarai kendaraan dengan kecepatan 10 km/jam, sedangkan waktu kembalinya 20 km/jam. Berapakah rata-rata kecepatan pulang pergi?
Jawab: Apabila kita menghitungnya dengan menggunakan rumus jarak dan kecepatan, tentu hasilnya 13.5 km/jam! Apabila kita gunakan perhitungan rata-rata hitung, hasilnya tidak tepat!

## B. RATA-RATA HARMONIK UNTUK DISTRIBUSI FREKUENSI

Contoh 13: Berapa rata-rata Harmonik dari tabel distribusi frekuensi pada Contoh 3 di atas! Jawab: Kelas ke- Nilai Ujian fi xi fi/xi 1 31 - 40 2 35.5 0.0563 2 41 - 50 3 45.5 0.0659 3 51 - 60 5 55.5 0.0901 4 61 - 70 13 65.5 0.1985 5 71 - 80 24 75.5 0.3179 6 81 - 90 21 85.5 0.2456 7 91 - 100 12 95.5 0.1257 8 Jumlah 80 1.1000

## Perbandingan Ketiga Rata-rata (Mean):

Karakteristik penting untuk ukuran tendensi sentral yang baik Ukuran nilai pusat/tendensi sentral (average) merupakan nilai pewakil dari suatu distribusi data, sehingga harus memiliki sifat-sifat berikut: Harus mempertimbangkan semua gugus data Tidak boleh terpengaruh oleh nilai-nilai ekstrim.
Harus stabil dari sampel ke sampel. Harus mampu digunakan untuk analisis statistik lebih lanjut.

Korelasi Pearson merupakan salah satu ukuran korelasi yang digunakan untuk mengukur kekuatan dan arah hubungan linier dari dua veriabel. Dua variabel dikatakan berkorelasi apabila perubahan salah satu variabel disertai dengan perubahan variabel lainnya, baik dalam arah yang sama ataupun arah yang sebaliknya. Harus diingat bahwa nilai koefisien korelasi yang kecil (tidak signifikan) bukan berarti kedua variabel tersebut tidak

saling berhubungan. Mungkin saja dua variabel mempunyai keeratan hubungan yang kuat namun nilai koefisien korelasinya mendekati nol, misalnya pada kasus hubungan non linier. Dengan demikian, koefisien korelasi hanya mengukur kekuatan hubungan linier dan tidak pada hubungan non linier. Harus diingat pula bahwa adanya hubungan linier yang kuat di antara variabel tidak selalu berarti ada hubungan kausalitas, sebab-akibat.

Pendahuluan
Seringkali peneliti mengamati beberapa parameter dari sampling atau satuan pengamatan yang sama. Sebagai contoh, pada penelitian pengujian suatu jenis pupuk tertentu, selain mencatat hasil padi, mungkin juga Peneliti ingin mencatat beberapa respons lainnya, seperti jumlah bulir, berat 100 biji, jumlah anakan, serapan Nitrogen, serapan kalium dsb. Apabila hanya terdapat dua variabel yang dicatat, dikatakan bivariate, sedangkan apabila lebih, dikatakan multivariate. Variabel yang di catat tersebut nilainya bersifat acak, sehingga dikatakan sebagai variabel acak. Berbeda dengan dosis pupuk yang sudah ditentukan sebelumnya, variabel pupuk tersebut bersifat tetap, sehingga dikatakan variabel tetap. Mungkin saja, selain peneliti ingin melihat hubungan antara dosis pupuk (faktor) dengan hasil padi (respons) , dia juga ingin melihat hubungan di antara pasangan variabel-variabel respons yang dia amati. Apakah peningkatan serapan nitrogen seiring dengan peningkatan hasil atau justru sebaliknya dan bagaimanakah pula kekuatan hubungannya? Kekuatan dan arah hubungan linier di antara kedua variabel tersebut bisa dijelaskan dengan ukuran statistik yang dinamakan dengan "koefisien korelasi".

Eksplorasi data
Sebelum melakukan analisis korelasi antar variabel, sebaiknya kita mengeksplorasi data tersebut terlebih dahulu secara grafis. Seringkali kita melihat pola hubungan di antara variabel dengan cara memplotkan pasangan sampel data tersebut pada diagram kartesian yang disebut dengan scatterplot atau diagram pencar. Setiap pasangan data (x, y) diplotkan sebagai titik tunggal. Contoh diagram pencar dapat dilihat pada gambar berikut.

## Kovarian dan Korelasi

Untuk memahami korelasi linier antara dua variabel, terdapat dua elemen yang harus kita tinjau, mengukur hubungan diantara dua variabel (kovarian) dan proses standarisasi. Kovarian Salah satu ukuran kekuatan hubungan linear antara dua variabel acak kontinu adalah dengan menentukan seberapa banyak kedua variabel tersebut co-vary, yaitu bervariasi bersama-sama. Jika salah satu variabel meningkat (atau menurun) sebagai akibat peningkatan (atau penurunan) variabel pasangannya, maka dua variabel tersebut dinamakan covary. Namun jika satu variabel tidak berubah dengan meningkatnya (atau penurunan) variabel lain, maka variabel tersebut tidak covary. Statistik untuk mengukur berapa banyak kedua variabel covary dalam sampel pengamatan adalah kovarian.

Selain mengukur besarnya kekuatan hubungan di antara dua variabel, kovarian juga menentukan arah hubungan dari kedua variabel tersebut.
1. Apabila nilainya positif, berati bahwa apabila nilai x berada di atas nilai rata-ratanya, maka nilai y juga

## berada di atas nilai rata-rata y, dan sebaliknya (Searah).

2. Nilai kovarian negatif menunjukkan bahwa apabila nilai x berada di atas nilai rata-ratanya sedangkan

## nilai y berada di bawah nilai rata-ratanya (berlawanan arah).

3. Terakhir, apabila nilai kovarian mendekati nol, menandakan bahwa kedua variabel tersebut tidak saling

berhubungan.

Standarisasi
Salah satu keterbatasan kovarian sebagai ukuran kekuatan hubungan linier adalah arah/besarnya gradien yang tergantung pada satuan dari kedua variabel tersebut. Misalnya, kovarian antara serapan N (%) dan Hasil Padi (ton) akan jauh lebih besar apabila satuan % (1/100) kita konversi ke ppm (1/sejuta). Agar nilai kovarian tidak tergantung kepada unit dari masing-masing variabel, maka kita harus membakukannya terlebih dahulu yaitu dengan cara membagi nilai kovarians tersebut dengan nilai standar deviasi dari kedua variabel tersebut sehingga nilainya akan terletak antara -1 dan +1. Ukuran statistik tersebut dikenal dengan Pearson product moment correlation yang mengukur kekuatan hubungan linier (garis lurus) dari kedua variabel tersebut. Koefisien korelasi linear kadang-kadang disebut sebagai koefisien korelasi pearson untuk menghormati Karl Pearson (1857-1936), yang pertama kali mengembangkan ukuran statistik ini.
Kovarian:

## Standar Deviasi variabel X dan Y:

Korelasi: Nilai kovarian distandarkan dengan membagi nilai kovarian tersebut dengan nilai standar deviasi kedua variabel.

atau

atau

Koefisien Korelasi
Koefisien korelasi mengukur kekuatan dan arah hubungan linier dari dua veriabel. Harus diingat bahwa nilai koefisien korelasi yang kecil (tidak signifikan) bukan berarti kedua variabel tersebut tidak saling berhubungan. Mungkin saja dua variabel mempunyai keeratan hubungan yang kuat namun nilai koefisien korelasinya mendekati nol, misalnya pada kasus hubungan non linier. Dengan demikian, koefisien korelasi hanya mengukur kekuatan hubungan linier dan tidak pada hubungan non linier.
Harus diingat pula bahwa adanya hubungan linier yang kuat di antara variabel tidak selalu berarti ada hubungan kausalitas, sebab-akibat. Kedua pasang variabel, x dan y bisa saja nilai koefisien korelasinya tinggi sebagai akibat adanya faktor z. Sebagai contoh, suhu (x) dengan tekanan udara (y) mungkin saja nilai koefisien korelasinya tinggi, namun belum tentu keduanya menunjukkan adanya hubungan sebab akibat (misal, semakin rendah suhu udara maka tekanan udara akan semakin rendah). Adanya korelasi suhu dan tekanan udara tersebut bisa saja semata-mata sebagai akibat dari perubahan ketinggian (z) suatu tempat, semakin tinggi tempat maka baik suhu ataupun tekanan udara akan semakin menurun. (meskipun secara teoritis memang terdapat hubungan sebanding antara suhu dan tekanan: PV = nRT). Dengan demikian, Korelasi hanya menjelaskan kekuatan hubungan tanpa memperhatikan hubungan kausalitas, mana yang dipengaruhi dan mana yang mempengaruhi. Kedua variabel masing-masing bisa berperan sebagai Variabel X maupun Variabel Y.

Karakteristik korelasi

Nilai r selalu terletak antara -1 dan +1 Nilai r tidak berubah apabila seluruh data baik pada variabel x, variabel y, atau keduanya dikalikan dengan suatu nilai konstanta (c) tertetu (asalkan c 0). Nilai r tidak berubah apabila seluruh data baik pada variabel x, variabel y, atau keduanya ditambahkan dengan suatu nilai konstanta (c) tertetu. Nilai r tidak akan dipengaruhi oleh penentuan mana variabel x dan mana variabel y. Kedua variabel bisa saling dipertukarkan. Nilai r hanya untuk mengukur kekuatan hubungan linier, dan tidak dirancang untuk mengukur hubungan non linier

Asumsi
Asumsi untuk analisis korelasi: 1. Sampel data berpasangan (x, y) berasal dari sampel acak dan merupakan data kuantitatif. 2. Pasangan data (x, y) harus berdistribusi normal. Harus diingat bahwa analisis korelasi sangat sensitif terhadap data pencilan (outliers)! Asumsi bisa dicek secara visual dengan menggunakan:

Boxplots, histograms & univariate scatterplots untuk masing-masing variabel Bivariate scatterplots
Apabila tidak memenuhi asumsi misalnya data tidak berdistribusi normal (atau ada nilai data pencilan), kita bisa menggunakan korelasi Spearman (Spearman rank correlation), korelasi untuk analisis non-parametrik.

Koefisien Determinasi
Koefisien korelasi, r, hanya menyediakan ukuran kekuatan dan arah hubungan linier antara dua variabel. Akan tetapi tidak memberikan informasi mengenai berapa proporsi keragaman (variasi) variabel dependen (Y) yang dapat diterangkan atau diakibatkan oleh hubungan linier dengan nilai variabel independen (X). Nilai r tidak bisa dibandingkan secara langsung, misalnya kita tidak bisa mengatakan bahwa nilai r = 0.8 merupakan dua kali lipat dari nilai r =0.4. Untungnya, nilai kuadrat dari r bisa mengukur secara tepat rasio/proposi tersebut, dan nilai statistik ini dinamakan dengan Koefisien Determinasi, r2. Dengan demikian, Koefisien Determinasi bisa didefinisikan sebagai nilai yang menyatakan proporsi keragaman Y yang dapat diterangkan/dijelaskan oleh hubungan linier antara variabel X dan Y. Misalnya, apabila nilai korelasi (r) antara Serapan N dengan hasil = 0.8, maka r2 = 0.8 x 0.8 = 0.64=64%. Hal ini berarti bahwa 64% keragaman Hasil padi bisa diterangkan/dijelaskan oleh tinggi rendahnya Serapan N. Sisanya, sebesar 36% mungkin disebabkan oleh faktor lain dan atau error (galat) dari percobaan.

## Pengujian Koefisien Korelasi

Terdapat dua metode yang biasa digunakan untuk menguji kebermaknaan koefisien korelasi. Metode pertama dengan menggunakan Uji-t dan Metode kedua dengan menggunakan tabel r. Bagan Alir untuk pengujian hipotesis:

Catatan: Nilai tabel kritis r bisa di lihat pada tabel di bawah ini. Nilai kritis r selengkapnya bisa di download pada tautan berikut: nilai kritis tabel r:

## Faktor yang akan mempengaruhi nilai uji korelasi:

Ukuran koefisien korelasi dan ukuran/banyaknya sampel.

Contoh Terapan
Berikut adalah data usia, berat, dan tekanan darah. Individual Age Weight Systolic Pressure A 34 45 108 B 43 44 129 C 49 56 126 D 58 57 149 E 64 65 168 F 73 63 161 G 78 55 174 Untuk kasus ini, kita ingin melihat apakah terdapat hubungan linier antara usia dengan tekanan darah sistolik? Taraf nyata yang digunakan adalah 5%. Hipotesis: H0: = 0 vs H1: 0 Eksplorasi Data

Berdasarkan diagram pencar (scatterplot), tampak bahwa sebaran titik-titik mengikuti pola linier dengan kemiringan positif, yang berarti terdapat hubungan yang sejalan antara usia dengan tekanan darah sistolik. Dengan demikian, kita bisa menggunakan koefisien korelasi untuk menentukan apakah hubungan linier kedua variabel tersebut bermakna atau tidak. Apabila pola hubungannya tidak linier, kita tidak tepat menggunakan koefisien korelasi karena nilai r hanya untuk mengukur kekuatan dan arah hubungan linier antara kedua varibel kuantitatif. Asumsi:
Kedua data berasal dari data kuantitatif. Selanjutnya apakah sebaran kedua variabel berdistribusi normal? Uji Formal: H0: data berdistribusi normal H1: data tidak berdistribusi normal

Interpretasi: Apabila nilai sig (p-value) 0.05, maka Tolak H0 yang berarti data tidak berdistribusi normal Apabila nilai sig (p-value) > 0.05, maka Terima H0 yang berarti data berdistribusi normal Pada kasus di atas, nilai p-value untuk kedua variabel > 0.05, sehingga kita bisa menyimpulkan bahwa data berdistribusi normal. Tampak bahwa uji normalitas untuk kedua variabel tersebut memenuhi persyaratan, sebarannya mengikuti distribusi normal, baik dengan menggunakan Uji Kolmogorov-Smirnov ataupun Shapiro-Wilk. Grafis:

Secara grafis juga tampak bahwa kedua variabel tersebut berdistribusi normal. Penggunaan box plot untuk melihat apakah sebaran data berdistribusi normal ataukah tidak, diuraikan pada topik: Mengenal Box Plot Perhitungan nilai koefisien korelasi (r) No Age (X) Systolic Pressure (Y) 1 34 108 2 43 129 3 49 126 4 58 149 5 64 168 6 73 161 7 78 174 Jumlah 399 1015 Rata-rata 57 145 X2 Y2 XY 1156 11664 3672 1849 16641 5547 2401 15876 6174 3364 22201 8642 4096 28224 10752 5329 25921 11753 6084 30276 13572 24279 150803 60112

## Pengujian Hipotesis Metode 1:

Tentukan nilai t-tabel dengan taraf nyata ()= 5% dan db = n-2. Dari tabel distribusi t, kita peroleh: t(0.05/2, 5)= 2.57 Bandingkan t-hitung dengan t-tabel: Dari hasil perhitungan, kita peroleh nilai t-hitung = 7.30 dan t-tabel = 2.57. Jelas bahwa nilai |t-hitung| > ttabel sehingga Tolak H0 dan Terima H1. Dengan demikian, kita bisa menyatakan bahwa terdapat hubungan linier antara usia dengan tekanan darah sistolik.
Metode 2: Bandingkan nilai |r| dengan nilai tabel kritis r untuk n = 7. Nilai r pada tabel kritis = 0.754. Dari hasil perhitungan, diperoleh nilai r = 0.956. Jelas bahwa |r|> 0.754 sehingga kita bisa menyimpulkan bahwa terdapat hubungan linier antara usia dengan tekanan darah sistolik. Output Analisis dengan menggunakan SPSS

Kita bisa menyatakan seperti ini: Korelasi antara usia dengan tekanan darah sistolik: r(7) = 0.956; p < 0.01 Koefisien Determinasi

Nilai koefisien determinasi diatas menyatakan proporsi keragaman Tekanan darah sistolik yang dapat diterangkan/dijelaskan oleh hubungan linier antara variabel usia dan tekanan darah sistolik. Berdasarkan hasil analisis, kita yakin 95% bahwa sekitar 91% variasi tinggi rendahnya tekanan darah sistolik ditentukan oleh usia seseorang.

PENGANTAR STATISTIK

Berhubungan dengan banyak angka Numerical description Contoh : pergerakan IHSG, jumlah penduduk di suatu wilayah Dunia usaha sekumpulan data : pergerakan tingkat inflasi, biaya promosi bulanan. Statistika juga dipakai untuk melakukan berbagai analisis terhadap data, contoh : forecasting, uji hipotesis
## Aplikasi ilmu statisitk dalam bisnis dibagi 2 bagian :

Statistik Deskriptif : Menjelaskan atau menggambarkan berbagai karakteristik data seperti berapa ratarata, seberapa jauh data bervariasi Statistik Induktif (Inferensi) : Membuat berbagai inferensi terhadap sekumpulan data yang berasal dari suatu sampel. Inferensi Melakukan perkiraan, peramalan, pengambilan keputusan

Contoh : Data tentang penjualan mobil merek ABC perbulan di suatu show room mobil di Jakarta selama tahun 1999. Dari data tersebut pertama akan dilakukan deskripsi terhadap data spt menghitung rata-rata penjualan, berapa standar deviasinya dll Kemudian baru dilakukan berbagai inferensi terhadap hasil deskripsi spt : perkiraan penjualan mobil tsb bulan Januari tahun berikut, perkiraan rata-rata penjualan mobil tsb di seluruh Indonesia.

ELEMENT STATISTIK

Populasi masalah dasar dari persoalan statistik. Definisi : Sekumpulan data yang mengidentifikasi suatu fenomena Sampel : Sekumpulan data yang diambil atau diseleksi dari suatu populasi Statistik Inferensi : Suatu keputusan, perkiraan atau generalisasi tentang suatu populasi berdasarkan informasi yg terkandung dari suatu sampel. Pengukuran Realibilitas Konsekuensi dari kemungkinan bias dalam inferensi.

## TIPE DATA STATISTIK

I. Data Kualitatif : Data yang bukan berupa angka, ciri : tidak bisa dilakukan operasi matematika. Terbagi dua : a.Nominal Data yang paling rendah dalam level pengukuran data Contoh : Jenis kelamin, tgl dan tempat lahir seseorang b.Ordinal ada tingkatan data. Contoh : Sangat setuju, Setuju, kurang setuju, tidak setuju II. Data Kuantitatif Data berupa angka dalam arti sebenarnya dapat dilakukan operasi matematika. Terbagi dua :
a. Data Interval, Contoh : Interval temperatur ruang adalah sbb : Cukup panas jika antara 50C-80 C Panas jika antara 80 C-110 C Sangat panas jika antara 110 C-140 C b. Data Rasio tingkat pengukuran paling tinggi ; bersifat angka dalam arti sesungguhnya. Beda dengan interval mempunyai titik nol dalam arti sesungguhnya.

## STATISTIK DAN KOMPUTER

Statistik menyediakan metode/cara pengolahan data, komputer menyediakan sarana pengolahan datanya. Dengan bantuan komputer, pengolahan data statistik hingga dihasilkan informasi yang relevan menjadi lebih cepat dan akurat dibutuhkan bagi para pengambil keputusan.

Dengan keunggulan kecepatan, ketepatan dan keandalan komputer dibutuhkan untuk mengolah data statistik

Program komputer statistik : 1. Membuat sendiri; dengan bahasa pemrograman misal BASIC, PASCAL 2. Sebagai Add Ins dari Program lain, contoh: Microsoft Excell 3. Program khusus Statistik, contoh : Microstat, SAS, SPSS

MICROSOFT EXCEL Dalam Excell, sebuah sel pd lembar kerja dapat diisi dengan data : Label atau teks string Numerik Alfanumerik Formula / rumus Formula/rumus : alat yg memungkinkan anda utk melakukan kalkulasi thd terhadap nilai2x pd sel itu sendiri maupun nilai yg tersimpan pada sel2x yg lain

Formula/rumus dapat terdiri dari : Operator perhitungan, referensi alamat suatu sel, nilai, fungsi sel, nama sel/nama range Fungsi : Jenis formula khusus siap pakai yg disediakan oleh Excell Contoh penulisan : =SQRT(ABS(-8))

Fungsi2x dlm Excell : Finansial, Tanggal & Waktu, Matematika & Trigonometri, Statistika, Database, Teks, Logika.

FUNGSI STATISTIK Average : Untuk menghasilkan rata-rata sekumpulan data yg dimasukkan sebagai argumen dlm fungsi ini. Bentuk Penulisan : Average(bil1, bil2, Contoh : Average(A1:A5) Count : Untuk menghitung berapa jumlah bilangan yg ada dlm suatu range Bentuk Penulisan : Count(value1,value2,..) Contoh : Count(A1:A5) Fungsi FREQUENCY Menghasilkan suatu distribusi frekwensi sebagai array vertikal. Suatu distribusi frekwensi berguna utk menghitung berapa nilai yang tepat pada setiap interval. Bentuk Penulisan : =FREQUENCY(data array, bin array) data array : suatu array atau alamat range pada sekelompok nilai yg akan dihitung distribusi frekwensinya bin array : suatu array atau alamat range yg berisi interval, dimana anda hendak mengelompokkan data Fungsi MAX Menghasilkan data numerik dengan nilai maksimum yg terdapat dlm suatu range data Bentuk Penulisan : =MAX(number1,number2,) 30 bilangan Fungsi MEDIAN Menghasilkan median dari sekumpulan data. Median : Nilai tengah Bentuk Penulisan : =MEDIAN(number1,number2,)

Fungsi MIN Menghasilkan nilai data numerik terkecil yang terdapat dalam suatu range Bentuk Penulisan : = MIN(number1,) Fungsi RANK Menghasilkan ranking suatu bilangan diantara sekumpulan data Bentuk Penulisan : =RANK(number,ref,order) Fungsi STDEV Menghasilkan standar deviasi berdasar pada sampel. Standar deviasi ini mengukur seberapa luas penyimpangan nilai data tsb dari nilai rata-ratanya. Bentuk Penulisan : =STDEV(number1,number2,) FUNGSI DATABASE DAVERAGE, Mencari rata-rata sekumpulan data dalam daftar hanya yang sesuai kriteria yg dikehendaki. Bentuk Penulisan : =DAVERAGE(database,field,criteria) DCOUNT, Menghasilkan jumlah sel yang memuat data numerik sekumpulan data dalam sebuah daftar atau database yg memenuhi kriteria. Bentuk Penulisan : =DCOUNT(database,field,criteria) DMAX, Menghasilkan data nilai tertinggi dalam suatu daftar yang sesuai dengan kriteria yg diberikan DMIN, Menghasilkan data nilai terendah dalam suatu daftar yang sesuai dengan kriteria yg diberikan DSTDEV, Memperkirakan standar deviasi dari sekelompok data yang memenuhi kriteria yang diberikan DSUM, Menjumlahkan sekelompok data yang memenuhi kriteria

ANALISIS

Jumlah Data valid = 25 buah Mean /rata-rata tinggi badan = 169.4 cm, standar error 0,993 cm. Standar error : memperkirakan besar rata-rata populasi dari sampel. Rata-rata populasi tinggi badan = 169,4 (2x0,993) = 167,414 171,386 cm

Median, menunjukkan bahwa 50%t tinggi badan adalah 168,9 keatas dan 50%nya 168,9 kebawah Standar deviasi utk melihat dispersi rata-rata dari sampel. 169,4 (2x4,963) = 159,474-179,326 cm

Rata-rata tinggi badan menjadi : Jika rasio skewness diantara 2 sampai 2 maka distribusi normal. Maka dapat dikatakan distribusi data adalah normal.

Data maksimum dan minimum berbeda tipis dari rata-rata tinggi badan sebaran data baik. Pada tabel frekuensi diperlihatkan banyaknya responden pada setiap tinggi badan mencapai 100% kumulatif.

Terdapat hubungan yg erat antara persentase kumulatif dengan percentil. Terlihat pada grafik mempunyai kemiripan dengan bentuk kurva normal. Hal ini membuktikan bahwa distribusi tersebut sudah dapat dikatakan mendekati normal.

