Anda di halaman 1dari 18

BAB 2PENGUMPULAN DATA

ILMIAH
Dalam metode statistic telah dikembangkan untuk mengumpulkan
data secara acak, namun tetap relevan dengan pertanyaan khusus yang
kita inginkan. Kesimpulan selalu bergabung pada model probabilitas yang
kita asumsikan benar. Ketika data tidak dikumpulkan secar acak, maka
terdapat resiko bahwa pola yang diamati menjadi lurking variable dan
bukan cerminan sejati dari pola yang mendasarinya.

2.1 Pengambilan Sample Dari Populasi yang Nyata


Istilah mendasar sebagai berikut:

Populasi : kelompok objek atau orang yang diinginkan informasinya.


Setiap anggota populasi memiliki nomor terkait dengan informasi.
Secara khusus kita menginginkan informasi tentang parameter
populasi, yang mana nomor terkait dengan distribusi dari populasi,
misalnya rata-rata, median, dan standar deviasi. Karena jumlah
yang terlalu besar, area yang luas, dan biaya yang banyak, sulit
untuk mendapat informasi tentang seluruh unit populasi, sehingga
kita tidak mengetahui parameternya.
Sampel : bagian dari populasi. Statistic sampel dihitung dari data
sampel. Statistik memiliki hubungan erat dengan sampel ,
sebagaimana pada parameter dengan populasi. Namun, sampel
diketahui, jadi statistiknya dapat dihitung.
Kesimpulan statistic : membuat pernyataan tentang parameter
populasi dengan basis statistic sampel. Kesimpulan yang bagus
dapat dibuat jika sampel representatif dari populasi. Distribusi
sampel harus mirip dengan distribusi populasi.

Random sampel memberikan representatif sampel daripada metode


non random sampel seperti quota sampel atau judgement sampel.
Random sampel tidak hanya meminimalkan error pada kesimpulan,
mereka juga mengizinkan pengukuran error.
Random Sampling Sederhana (tanpa penggantian)

Random sampling sederhana membutuhkan kerangka sampling, yang


mana daftar dari populasi di nomori dari 1 sampai N. Urutan dari n
nomor acak ditarik dari nomor 1 sampai N. Nomor yang telah di tarik
telah dihapus dari pertimbangan (tidak bisa ditarik lagi). Setiap
kemungkinan sampel dari ukuran yang dibutuhkan adalah sama.

Stratified Random Sampling/ Random Sampling Berstrata


Dalam stratified random sampling atau random sampling bertingkat,
populasi dibagi menjadi subpopulasi yang dinamakan strata. Setelah
itu random sapling sederhana digunakan untuk setiap subpopulasi
dimana setiap ukuran stratum(lapisan) sampel proporsional dengan
ukuran subpopulasi. Setiap kemungkinan item adalah sama untuk
dipilih. Dan setiap kemungkinan sampel dari setiap representasi
stratum sebagai proporsi yang benar adalah sama. Metode ini
memberikan kesimpulan yang lebih akurat ketika variable yang
berkepentingan memiliki distribusi yang berbeda atas strata. Jika
variabel sama untuk setiap strata, stratified random sampling tidak
leboh akurat daripada random sampling sederhana.
Cluster Random Sampling/ Klaster Random Sampling
Dalam cluster random sampling, kita membagi daerah menjadi
klaster(gugus). Kemudian kita membuat kerangka sampling untuk
klaster. Sampel random dari cluster terpilih. Segala item di cluster
yang dipilih adalah termasuk dalam sampel. Kekurangan metode ini
adalah item pada klaster cenderung sama dengan item pada klaster
yang berbeda. Kelebihannya jika mendapat sampel yang besar
biasanya lebih murah dengan metode ini.
Nonsampling Errors in Sample Surveys /
Nonsampling error ini termasuk respon yang bias; orang yang
merespon bisa saja agak berbeda dengan yang tidak merespon.
Survey yang terencana dengan baik akan memiliki callback, dimana
pada sampel yang belum menanggapi akan dihubungi kembali, dalam
urutan untuk mendapatkan respon dari beberapa orang di sampel asli
yang mungkin. Error juga muncul dari pertanyaan yang kurang baik
untuk responden. Pertanyaan survey harus diuji coba pada studi
percontohan untuk menentukan apakah ada ambiguitas.

Randomized Response Methods / Metode Respon Acak


Metode random acak digunakan agar responden dapat memberikan
jawaban yang baik dan tidak menolak untuk menanggapi pertanyaan.
Ada dua pertanyaan, pertanyaan sensitive dan pertanyaan boneka.
Kedua pertnyaan memiliki set jawaban yang sama. Namun jawaban
yang salah berasal dari probabilitas acak yang diketahui. Untuk itu,
informasi tentag populasi dapat diperoleh tanpa mengetahui informasi
personal dari individu yang disurvei, karena hanya individu yang tau
pertanyaan mana yang mereka jawab.

2.2 Observational Studies And Designed Experiments


Observational Study
Jika kita mengamati perbedaan substansial antara dua grup, kita tidak
dapat menyimpulkan hubungan sebab akibat dari studi observational.
Beberapa kesimpulan kita buat dari studi observasioal adalah saling
terikat dari asumsi bahwa tidak ada perbedaan antara distribusi dari
kelompok perlakuan dan kelompok kontrol. Peneliti mengumpulkan
data dari kumpulan unit eksperimen yang tidak dipilih secara acak,
maka mungkin ada lurking variabel menjadi kurangnya pengacakan

Designed Experiment/ Perancangan Percobaan


Kita memerlukan data dari perancangan percobaan jika kita ingin
membuat kesimpulan tentang hubungan sebab akibat. Peneliti
menggunakan pengacakan untuk memutuskan subjek pada grup yang
diperlakukan sebagai eksperimen (treatmet group) dan grup kontrol.

Kita harus memastikan bahwa setiap grup memiliki rentangan unit


yang mirip.
Completely Randomized Design
Peneliti secara acak menugaskan unit menjadi grup yang diamati
(treatment group) secara bebas. Satu-satunya ketergantungan adalah
pembatas bahwa treatment grop adalah jumlah yang benar.
Pengacakan yang saling bebas memastikan bahwa perbandingan
antara treatment group dan kontrol group itu adil (grup mengandung
kisaran yang sama dari unit eksperimen)

Pada gambar 2.2 kita melihat empat treatmen grup memiliki kisaran
yang sama unit eksperimental. Nilai yang diharapkan dari lurking
variabel adalah sama untuk setiap grup. Rata-rata dari lurking variabel
dari setiap grup mendekati nilai rata-rata dari populasi karena angka
pengacakan saling bebas itu besar.
Randomized Block design
Peneliti mengelompokkan unit grup menjadi blok yang mengandung
unit yang mirip. Orang mungkin berpikir bahwa penilaian tentang
menugaskan unit ekperimental untuk kelompok yang diamati dan
kelompok kontrol akan menyebabkan kisaran unit yang mirip yang
diberikan kepada kedua kelompok.

Segala pengetahuan sebelumnya yang kita miliki seharusnya kita


gunakan sebelum pengacakan. Dengan memilih yang mana menuju
setiap blok variabel, kita menjaga terhadap resiko dari variabel
pengamatan yang lain. Pada gambar 2.3, memperlihatkan unit
eksperimental disetiap blok mirip. Kemudian unit di setiap block secara
random di tugaskan, satu dari setiap kelompok. Pengacakan di blok
yang terpisah dilakukan secara saling bebas satu sama lain.

BAB 3
MENAMPILKAN DAN
MERINGKAS DATA
Kita menggunakan metode statistik untuk mengekstrak informasi dari
data dan memperoleh wawasan menuju proses dasar yang menghasilkan
data. Sering kali set data terdiri dari pengukuran dari satu atau lebih
variabel atas unit eksperimental satau atau lebih sampel. Distribusi dari
sample akan memberikan kita wawasan dari distribusi populasi.
Alat untuk analisis data standar

Statistik terurut. Data diurut dari terkecil menuju terbesar y 1 , . . . ,


yn.

Median. Nilai tengah dari data observasi. Ketika statistik terurut n

adalah genap maka nilai tengahnya

n+1
2 ]. Ketika n adalah ganjil
y

maka nilai tengahnya adalah rata-rata dari 2 dua statistik terurut


yang terdekat

[ ]

n+ 1 1
1
= .y n + . yn
2
2 |2| 2 |2 +1| . Median juga diketahui

sebagai quartil kedua.

Quartil bawah (Q1).

Q 1= y

n+ 1
]
4

. Jika bukan bilangan bulat, maka

diambil rata-rata dari dua statistic terurut yang terdekat.

Quartil atas (Q3).

Q 3= y

3 (n +1)
]
4

. Jika bukan bilangan bulat, maka

diambil rata-rata dari dua statistic terurut yang terdekat.

3.1 Graphically Displaying A Single Variable / Grafik


Menampilkan Satu Variabel

Tampilan visual dari pengukuran sampel , sebagai berikut :


Dotplot
Setiap observasi di representasikan dengan titik sepanjang sumbu
horizontal. Sangat mudah untuk mengambil ide umum dari distribusi
nilai sampel.

Boxplot ( Box and Whisker Plot)


Metode grafik yang simpel untuk meringkaskan distribusi dari data
adalah boxplot. Nilai dari sampel diberikan adalah statistic terurut y 1 , .
. . , yn. Lima ringkasan data diketahui ialah y 1, Q1, Q2, Q3 dan yn.
Langkah dalam membuat boxplot adalah:

Gambar dan beri nama sumbu


Gambar Box (kotak) yang diakhir dengan Kuartil pertama dan
kuartil ketiga.
Gambar garis melalui garis sebagai kuartil kedua (median)
Gambar garis (whisker) dari kuartil pertama sampai observasi
terendah. Dan gambar garis (whisker) dari kuartil ketiga sampai
observasi tertinggi.

Gambar 3.2 adalah boxplot dari table 3.1. Terlihat bahwa distribusi
data cukup simetris tetapi dengan ekor bawah sedikit panjang.

Steam and Leaf Diagram / Diagram Batang-Daun


Grafik yang cepat dan mudah yang mengizinkan kita untuk
mengekstrak informasi dari sampel. Untuk batang merepresentasikan

digit pertama dari setiap data item, dan daun merepresentasikan digit
selanjutnya. Langkahnya adalah

Gambar sumbu vertical (batang) dan berikan skala untuk unit


batang. Selalu gunakan skala linear.
Plot daun untuk digit selanjutnya. Kita dapat membulatkan digit
daun, tetapi tidak perlu repot jika kita melakukannya dengan
tangan. Kasus lain, kita bisa saja kehilangan beberapa informasi jika
melakukan pembulatan.
Urutkan daun dengan yang terkecil dekat dengan batang sampai
yang terbesar jauh dengan batang.
Gambarkan unit daun pada diagram kita.

Gambar 3.3 adalah diagram batang daun dari pengukuran table 3.1

Terdapat 29 pengukuran. Kita dapat median

dan Q1

X 29+1 = X 7
4

1
2

1
1
Q 1= . X 7 + . X 8
2
2

X 29+1 = X 15
2

adalah 5,46

adalah 5,295.

Frequency Table / Tabel Frekuensi


Langkan dalam membuat table frekuensi adalah :

Partisi nilai yang mungkin dalam kelompok yang tidak tumpang


tindih (sampah). Biasanya menggunakan kelompok dengan banyak
yang sama.
Simpan setiap item dalam grup.
Hitung angka dari item setiap grup.

Tabel 3.2 memperlihatkan table frekuensi. Terdapat dua cara untuk


memperlihatkan data dalam table frekuensi. Mereka adalah Histogram
dan Poligon Frekuensi Kumulatif.
Histogram
Langkah untuk mengkonstruksi histogram adalah:

Berikan batas grup pada sumnbu horizontal , tariklah skala linear.


Gambar persegi panjang untuk setiap grup dimana area balok
proporsional untuk frekuensi grup tersebut.
Tidak menempatkan celan antara balok jika data kontinyu.
Skala pada sumbu vertical adalah kepadatan, dimana frekuensi
grup terbagi atas lebar grup. Area batang proporsional terhadap
frekuensi. Yang penting adalah bentuk grafik, bukan skala
vertikalnya

Gambar 3.4 menunjukkan histogram dari table 3.1 dengan


menggunakan 12, 6 dan 4 grup. Kita liha histogram dengan 12 grup
memiliki gigi gergaji . histogram dengan 6 grup memberikan
representasi yang baik dari dasar distribusi. Histogram dengan 4
grup menghilangkan banyak detail. Dan histogram terakhis dengan
lebar grup yang berbeda. Tinggi dari baris terlbear dipersingkat
untuk membuat area proporsional kepada frekuensi.
Cumulative
Frequency
Polygon / Poligon Frekuensi
Kumulatif
Poligon Frekuensi Kumulatif biasanya disebut Ogiv. Langkah
membuat Ogiv adalah :
Kelompokkan batas pada sumbu horizontal , tariklah skala
linear
Frekuensi atau persentasi diperlihatkan pada sumbu vertical.
Untuk setiap grup, plot( batas atas kelas, frekuensi kumulatif).
Kita tidak mengetahui nila eksak dari setiap observsi dalam
grup. Namun kita mengetahui bah semua nilai dalam grup lebih
kecil atau sama dengan batas atas.
Gabungkan poin yang di plot dengan garis. Menggabungkannya
dengan
garis
lurus,
menunjukkan
bahwa
kita
mempertimbangkan setiap nilai dengan kemungkinan yang
sama.

Untuk mendapatkan median, naik hingga 50% pada sumbu vertical dan
tarik garis horizontal untuk polygon frekuensi kumulaif dan garis vertical
hingga sumbu horizontal. Begitupun untuk kuartil pertama dan kuartil
ketiga.

3.2 Graphically Comparing Two Samples/ Grafik


Membandingkan Dua Sampel
Kita mungkin memiliki tanggapan treatment grup dan control grup dari
percobaan acak. Kita ingin menentukan apakah perlakuan telah efektif
atau belum. Gambar untuk dua sampel harus sebaris dan dengan skala
yang sama.
Contoh

Antara tahun 1879 dan 1882, para saintis merancang eksperimen


untuk menentukan kecepatan cahaya. Pada table 3.3 , 20 pengukuran

pertama dibuat tahun 1879, dan 23 pengukuran tambahan telah


dibuat tahun 1882.

Gambar 3.6 menunjukkan dotplot yang ditumpuk untuk 2 set data.


Gambar 3.7 menunjukkan boxplot yang ditumpuk untuk 2 data set.
Dan gambar 3.8 menunjukkan diagram batang daun, dengan batang
berada di tengah dan simpan daun untuk satu set data di bagian
kanan, dan daun untuk set data lainnya di bagian kanan.

3.3 Measure Of Location / Ukuran Lokasi


Ukuran Lokasi yang paling umum digunakan
adalah mean dan
median. Kita akan melihat pada setiap keuntungan dan kerugiannya.
Mean : Keuntungan dan Kerugian
n

1
1
y = x y i= x ( y 1 ++ y n)
n i=1
n

Mean mudah dan sederhana untuk dihitung.


Mean memiliki sifat matematika yang baik

y i=ui +v i+wi

Contoh

akan bernilai sama jika kita mengambil

mean dari setiap aspeknya

y =u + v + w

Mean menggabungkan dengan baik. Misal data berasal dari 2


sumber, pria dan wanita yang di wawancara terpisah. Mean
seluruhnya dari rata-rata dari mean prian dan rata-rata dari
mean wanita adalah proposional dari sample pria dan wanita.
Mean adalah pusat dari data. Mean adalah poin yang seimbang
dalam garis data. Namun ini sangat dipengaruhi oleh outliers.

Menghitung mean untuk data berkelompok


Untuk data yang dalam bentuk table frekuensi, kita hanya
mengetahui batas setiap pengamatan, kita tidak memiliki nilai yang
actual. Berikut dua asumsi yang dapat dibuat dari nilai actual:
1. Semua nilai dalam kelompok terletak di titik tengah
kelompok
2. Semua nilai dalam kelompok secara merata tersebar di
kelompok
J

y =

n
1
n j x m j= j x m j

n h=1
h=1 n

Dimana nj adalah nomor dari pengamatan dari interval ke-j , n


adalah total nomor dari pengamatan dan mj adalah titik tengah
dari interval ke-j.
Median : Keuntungan dan Kerugian

Median tidak terpengaruh oleh outlier.


Median digunakan terutama untuk data yang miring seperti
pendapatan, dimana terdapa outlier yang mungkin mempengaruhi
rata-rata.

Mean yang dipangkas


nk

xk =

i=k+1

x0

n2k

Dengan membuang k terbesar atau k terkecil dari statistic terurut


dan mengambil rata-rata sisa.
X0 adalah mean (tidak ada
pemangkasan). Jika n genap, maka k=

n
2

adalah mediannya. Jika n ganjil, maka k=

n2
2

, kemudian

xk

kemudian

xk

adalah mediannya. Jika k bernilai kecil, mean yang dipangkas akan


memiliki sifat mirip dengan mean (tanpa pemangkasan). Jika k
bernilai besar, maka mean yang dipangkas memiliki sifat mirip
dengan median.

3.4 Measures Of Spread/Ukuran Penyebaran


Setelah menentukan penempatan data pada garis angka, selanjutnya
adalah distribusi dari data untuk menentukan bagaimana penyebaran
datanya. Ukuran penyebaran akan memberikan ukuran dari
variabilitas. Berikut adalah ukuran umum dari variabilitas :
Range : Keuntungan dan Kerugian

R= y [ n] y [1]
Observasi yang terbesar dan terkecil paling mungkin menjadi outliers.
Maka range sangat terpengaruh dengan outliers
Interquartil Range Keuntungan dan Kerugian

IQR=Q3Q1
Interquartil range tidak terpengaruh oleh outlier. Tetapi tidak
digunakan dalam kesimpulan karena seperti median yang peka
terhadap penambahan jumlah.
Variansi : Keuntungan dan Kerugian
n

1
Var ( y )= x ( y i y )2
n i=1
Rata-rata dari kuadrat deviasi dari mean, sangat dipengaruhi oleh
outliers. Variansi memilih sifat matematika yang baik dan
penggabungan yang baik, tetapi itu adalah unit kuadrat dan tidak
langsung dibandingkan dengan mean.
Menghitung Variansi untuk Data Berkelompok
Untuk data yang dalam bentuk table frekuensi, kita hanya mengetahui
batas setiap pengamatan, kita tidak memiliki nilai yang actual. Berikut
dua asumsi yang dapat dibuat dari nilai actual:
1. Semua nilai dalam kelompok terletak di titik tengah kelompok
2. Semua nilai dalam kelompok secara merata tersebar di
kelompok
Dari asumsi diatas didapatkan
J

Var ( y )=

1
2
n j x (m j y )

n j=1

Dimana nj adalah nomor observasi dari interval ke j, n adalah jumlah


nomor observasi, mj adalah titik tengan dari interval ke-j.

Dibalik asumsi kedua, kita tambahkan dalam variasi setiap grup untuk
mendapatkan formula

nj

1
Vary ( y )=
n j=1
Dimana Rj adalah batas atas dikurang batas bawa dari kelompok ke-j.
Standar Deviasi : Keuntungan dan Kerugian

sd ( y )=

1
x ( y y )2
n i=1 i

Standar deviasi adalah akar dari variansi. Standar deviasi kurang


sensitive dengan outlier daripada variansi dan dibandingkan langsung
dengan mean ketika unitnya sama. Standar Deviasi mewarisi sifat
matematika yang baik dan sifat penggabungan dari variansi.

3.5 Menampilkan Hubungan Antara Dua atau Lebih


Variabel
Scatterplot
Scatterplot adalah dotplot yang dua dimensi. Beri nama untuk sumbu
horizontal untuk variabel pertama dan sumbu vertical untuk yang
kedua. Ketika kita memiliki dua sampel dari data bivariat dan ingin
melihat hubungan antara dua variabel adalah mirip dalam dua sampel,
kita dapat plot poin untuk kedua sampel dalam scatterplot
menggunakan symbol yang berbeda.

Contoh diatas adalah scatter plot dari panjang kepala dan lebar kepala
dari beruang. Dari plot diatas, terlihat beruang dengan lebar kepala
yang besar cenderung memiliki kepala yang panjang. Kita juga dapat
melihat beruang jantan cenderung memiliki kepala lebih besar
daripada beruang betina.
Scatterplot Matrix
Untuk menyelidiki hubungan antara variabel-variabe (data multivariat),
bentuklah scatterplot matriks. Kita membangun scatterplot untuk
setiap variabel yang berpasangan kemudian tunjukkan dalam bentuk
array seperti matriks.

Gambar 3.12 menunjukkan scatterplot matriks dari panjang kepala,


lebar kepala, lingkar leher, tinggi, lingkar dada, dan berat untuk

pengukuran data beruang. Kita melihat hubungan positif antar variabel


dan beberapa dari mereka nonlinear.

3.6 Ukuran Asosiasi untuk Dua atau Lebih Variabel


Pengukuran ini bagaimana variabel bervariasi bersama-sama,
kovariansi dari dua variabel:
n

Cov ( x , y )=

1
( x x ) ( y i y )
n i=1 i

Untuk korelasi untuk mengukur kekuatan dari hubungan linear antara


dua variabel

Corr ( x , y )=

Cov ( x , y )
Var ( x ) x Var ( y)

Korelasi +1 mengindikasikan poin terletak di garis lurus dengan


kemiringan positif. Korelasi -1 mengindikasikan poin terletak di garis
lurus dengan kemiringan negatif. Korelasi positif, mengindikasikan poin
tersebar, secara umum nilai rendah dari variabel pertama berasosiasi
dengan nilai rendah variabel kedua, dan nilai tinggi dari variabel
pertama berasosiasi dengan nilai tinggi variabel kedua. Jika korelasi
negative, mengindikasikan bahwa korelasi memiliki nilai rendah untuk
asosiasi pertama dengan nilai tinggi untuk asosiasi kedua dan
sebaliknya. Jika korelasi 0, mengindikasikan bahwa tidak ada asosiasi
antara variabel. Bukan berarti variabel tidak memiliki relasi, hanya saja
mereka tidak memiliki relasi linear.

Anda mungkin juga menyukai