Fundamental of Sampling
Distributions & Data Descriptions
LEARNING OUTCOMES
1. Peserta memahami penggunaan teori Probabilitas, Konsep, dan Metode Statistik untuk
memecahkan permasalahan teknik industri dalam kehidupan sehari-hari.
2. Mampu menerapkan dan menganalisis data menggunakan perangkat lunak pengolahan data
statistik.
OUTLINE MATERI :
Types of Sampling
Statistika adalah ilmu tentang data. Aspek penting ketika mengolah sebuah data adalah
mengatur dan merangkum data dengan cara yang tepat sehingga dapat memberikan
makna pada data tersebut. Visualisasi data yang baik juga dapat digunakan untuk
menyajikan informasi terkait data agar dapat dengan mudah dimengerti oleh orang lain.
Selain itu, rangkuman dan visualisasi data dapat membantu analis data untuk
menginterpretasi dan melakukan analisis selanjutnya. Aspek dalam ilmu statistik ini
disebut juga sebagai statistik deskriptif.
Ringkasan dan tampilan data yang disusun dengan baik sangat penting untuk pemikiran
statistik yang baik, karena dengan demikian, insinyur dapat lebih focus pada fitur-fitur
penting dari data atau memberikan wawasan tentangnya jenis model yang harus
digunakan dalam memecahkan masalah. Penggunaan perangkat lunak statistic telah
menjadi sebuah alat penting dalam penyajian dan analisis data.
Ukuran statistik adalah bilangan yang diperoleh dari sekumpulan data statistic melalui proses
sritmatik tertentu. Dalam analisis data, ukuran statistik ini mengisyaratkan gejala spesifik,
misalnya Gejala Letak Pusat Pengelompokkan Data, Gejala Penyebaran/Variasi/ Keseragaman
Data, atau gejala lainnya yang dikandung oleh data yang sedang dianalisis. Apabila ukuran statistik
ini diperolehnya atas dasar perhitungan yang menyeluruh (complete enumeration) atau sensus,
maka namanya parameter, sedangkan jika diperolehnya atas dasar perhitungan terhadap data
statistik yang ada dalam sampel, ukuran statistik ini disebut statistik.
Ukuran ini mengisyaratkan letak pemusatan pengelompokkan data. Oleh karena itu ukuran-ukuran
statistik ini disebut juga Ukuran Letak (Measures of Location).
Terdapat dua rata-rata hitung yaitu rata-rata hitung untuk populasi yang berukuran N dan rata-rata
hitung untuk sampel berukuran n. Jika yang dicari adalah rata-rata hitung untuk populasi, maka
dapat diperoleh dengan menggunakan rumus:
a. Nilai numerik rata-rata hitung ditentukan secara ketat oleh bilangan-bilangan yang
menyusunnya.
d. Rata-rata hitung hanya boleh dihitung (valid sebagai ukuran gejala pusat) untuk variabel
yang memenuhi tingkat pengukuran sekurang-kurangnya interval,
e. Apabila dalam urutan data yang dihadapi terdapat bilangan ekstrim, tidak disarankan untuk
menggunakan rata-rata hitung sebagai ukuran gejala pusat, sebab bisa memberikan
kesimpukan yang keliru.
f. Tidak disarankan untuk mengambil kesimpulan yang hanya didasarkan kepada rata-rata
hitung.
2. Median
Median merupakan suatu harga yang merupakan titik tengah dari keseluruhan harga pada suatu
satuan data. Oleh karena itu terdapat 50% data yang berada di bawah atau sama dengan nilai
tersebut dan terdapat 50% lagi data yang berada di atas atau sama dengan data tersebut. Untuk
menghitung Median dari data bergolong, dipergunakan rumus:
1) Nilai numerik median tidak ditentukan secara ketat oleh bilangan-bilangan yang
menyusunnya. Oleh karena itu, jika dalam rentetan bilangan ada yang berubah nilai
numeriknya, median belum tentu berubah.
2) Median tidak dipengaruhi oleh nilai ekstrim, dan nilai median adalah unik.
3) Median boleh dihitung (valid sebagai ukuran gejala pusat) untuk variabel yang memenuhi
skala pengukuran sekurang-kurangnya ordinal.
Apabila dalam rentetan bilangan terdapat nilai ekstrim, disarankan untuk menggunakan median
sebagai pengganti rata-rata hitung.
3. Modus
Modus didefinisikan sebagai bilangan yang paling banyak muncul atau bilangan yang frekuensi
kemunculannya paling besar dari sutau satuan data. Modus tidak selalu dengan mudah diperoleh.
Hal ini akan terjadi jika dihadapkan pada suatu harga yang mempunyai frekuensi kemunculan yang
sama dengan yang lainnya. Untuk menghitung modus pada data bergolong dipergunakan rumus:
Adapun yang menjadi sifat-sifat dan penggunaan modus adalah sebagai berikut:
b) Modus digunakan sebagai ukuran gejala pusat untuk variabel dengan tingkat pengukuran
sekurang-kurangnya nominal.
Dari sifat-sifat penggunaan ukuran gejala pusat berdasarkan skala pengukuran, maka dapat
digambArkan secara sederhana seperti pada tabel 2.1. di bawah ini
Selain ukuran gejala pusat, terdapat ukuran lain yaitu ukuran dispersi atau ukuran vasiasi yang
mengisyaratkan keseragaman data. Nilai numerik ukuran ini tidak pernah negatif (selalu positif).
Apabila nilai ukuran ini diperoleh sama dengan nol (0), hal ini menunjukkan bahwa data yang kita
miliki keadaannya seragam sempurna (tidak ada variasi, atau semua bilangan nilai numeriknya
sama). Oleh karena itu makin jauh nilai numerik ukuran ini dari nol (0), makin tidak seragam
keadaan data tersebut. Terdapat bebeapa ukuran variasi yang biasa digunakan, yang juga akan
diuraikan di sini, adalah; rentang (range), varians (variance), simpangan baku (standar deviation),
koefisien variasi (koeficient of variation), rentang antar kuartil (interquartiles ranges), dan indeks
dispersi (index of dispersion).
1. Rentang (Range)
Rentang pada suatu satuan data adalah selisih terbesar dan terkecil dari suatu satuan data tersebut.
Contoh 8. IQ lima orang anggota keluarga adalah; 108, 112, 127, 118, dan 113. Tentukan
rentangnya!
2. Varians (variance)
Rumus yang dipergunakan untuk menghitung varians, jika data berasal dari populasi
adalah:
Varians dan simpangan bau hanya boleh digunakan sebagai alat pembanding keseragaman data,
apabila data yang dibandingkan keseragamannya itu berasal dari variabel yang sama dengan
satuan pengukuran (unit of measurement) yang sama pula.
Varians dan Simpangan Baku hanya valid digunakan sebagai ukuran variasi untuk variabel yang
memenuhi tingkat pengukuran sekurang-kurangnya interval.
Untuk mengukur keseragaman (variasi) data yang mempunyai tingkat pengukuran nominal,
digunakan Indeks dispersi dengan rumus:
ID = 0 menunjukkan bahwa data seragam sempurna. Keadaan ini terjadi apabila semua frekuensi
terdapat pada satu kategri dan kategori lainnya frekuensinya sama dengan nol (0). ID=1
mengisyaratkan variasi maksimal. Fenomenon ini terjadi jika frekuensi terbagi rata untuk semua
kategori.
5. Ukuran Kemiringan
Ukuran statistik ini mengisyaratkan keadaan bentuk kurva distribusi data nilai-nilai sebuah
variabel, apakah Simetri atau Miring (kurvanya landai ke kiri atau ke kanan). Salah satu rumus
yang menyatakan kurva distribusi data adalah koefisien kemiringan yang didasarkan kepada
kuartil.
KK = 0; kurva simetri
Diagram batang dan daun ini dapat digunakan untuk visualisasi data dengan
jumlah data yang sangat besar. Adapun cara menggambarkan diagram batang dan
daun, adalah dengan:
(1) Bagilah setiap bilangan xi menjadi dua bagian: batang, terdiri dari satu atau
lebih bilangan yang merupakan digit terdepan, dan pada kolom daun
merupakan terdiri dari digit sisanya.
(3) Hitung frekuensi setiap pengamatan pada kolom paling kanan, di sebelah
kanan kolom ‘daun’
c. Box Plots
Tampilan batang dan daun serta histogram memberikan kesan visual umum
tentang suatu data. Namun, besaran numerik seperti x atau s hanya memberikan
informasi tentang satu fitur saja. Box Plot merupakan tampilan grafis dari
sekumpulan data yang juga menggambarkan beberapa hal penting seperti titik
Tengah dari sebaran data, penyimpangan dari simetri, dan identifikasi
pengamatan yang tidak biasa atau outlier.
Box Plot sering disebut juga sebagai box-and-whisker plots, menampilkan tiga
kuartil yaitu data minimum dan maksimum digambarkan pada kotak persegi
panjang, disejajarkan secara horizontal atau vertikal.
Kotak tersebut melingkupi rentang interkuartil dengan tepi kiri (atau bawah) pada
kuartil pertama, q1, dan tepi kanan (atau atas) pada kuartil ketiga, q3. Sebuah
garis ditarik melalui kotak di kuartil kedua (yaitu persentil ke-50 atau median), q2
= x. Sedangkan sebuah garis ditarik memanjang pada setiap ujung kotak tersebut
mulai dari data terkecil dalam rentang 1,5 interkuartil dari kuartil pertama dan
Jika masih ada data yang lebih jauh dari garis dan kotak tersebut, maka data
tersebut kita sebut sebagai data outlier atau dikenal dengan istilah pencilan.
Berikut ini adalah contoh gambar dari Box Plot atau Box and Whisker Plot
Diagram:
Tampilan grafis yang telah kita bahas sejauh ini seperti histogram, plot batang dan
daun, dan box plot adalah metode visual yang sangat berguna untuk menunjukkan
variabilitas data. Namun, tidak menggambarkan waktu yang juga merupakan faktor
penting yang berkontribusi terhadap variabilitas data. Deret waktu atau urutan
waktu adalah kumpulan data yang di dalamnya terdapat catatan pengamatan sesuai
urutan terjadinya. Plot deret waktu adalah grafik yang pada Sumbu vertikal
menunjukkan nilai variabel yang diamati (katakanlah, x) dan sumbu horizontal
menunjukkan waktu (yang bisa berupa menit, hari, tahun, dll.). Ketika pengukuran
diplot sebagai deret waktu, kita dapat melihat tren, siklus, atau fitur umum lainnya
dari data yang tidak dapat dilihat dengan cara lain. Berikut ini adalah contoh time
sequence plots.
f. Probability Plots
Pada bab-bab selanjutnya, kita akan membahas mengenai beberapa uji statistic
yang didasarkan pada asumsi bahwa sebaran data populasi bersifat spesifik
mengikuti distribusi peluang tertentu, sebagai contoh kita bisa melakukan uji
statistic parametrik jika data berdistribusi normal. Oleh karena itu, kita perlu
Beberapa tampilan visual yang kita gunakan sebelumnya, seperti histogram, dapat
memberikan wawasan tentang bentuk distribusi yang mendasarinya. Namun,
histogram biasanya bukan merupakan indikator yang dapat diandalkan, terutama
jika jumlah sampelnya sangat besar. Histogram dapat digunakan untuk visualisasi
data dengan sampel berukuran kecil hingga sedang.
Dengan melakukan visualisasi data probability plot grafik, kita dapat mengetahui
apakah data sampel sesuai dengan distribusi yang dihipotesiskan berdasarkan
pemeriksaan visual subjektif terhadap data. Prosedur umumnya sangat sederhana
dan dapat dilakukan dengan cepat. Plot probabilitas biasanya menggunakan sumbu
khusus dengan skalak spesifik untuk distribusi yang dihipotesiskan.
iii. Untuk setiap pengamatan dan frekuensinya digambarkan seperti grafik berikut
ini
Distribusi probabilitas suatu statistik disebut juga sebagai distribusi sampling. Jika kita
mengambil sampel dari populasi yang distribusi probabilitasnya tidak diketahui, maka
distribusi sampling mean sampel akan tetap mendekati normal dengan mean μ dan
varians σ2 / n jika ukuran sampel n besar sampai tak hingga.
Permasalahan estimasi ini umumnya terjadi pada rekayasa Teknik, seringkali insinyur
harus melakukan perhitungan estimasi untuk:
Jika kita mengambil sampel dari populasi yang distribusi peluangnya tidak diketahui,
maka distribusi pengambilan sampel dari mean sampel akan tetap mendekati normal
dengan mean μ dan variansi σ2 / n jika ukuran sampel n besar. Hal ini merupakan salah
satu teorema paling berguna dalam statistik, disebut central limit theorem atau dapat
disebut juga teorema limit pusat. Berikut ini merupakan ilustrasi singkat mengenai
teorema tersebut.
Pada statistic, terdapat dua jenis metode sampling, yaitu probability sampling dan non-
probability sampling.
Dalam teknik pengambilan sampel acak sederhana, setiap item dalam populasi
mempunyai peluang yang sama dan berpeluang besar untuk terpilih menjadi sampel.
Karena pemilihan item sepenuhnya bergantung pada peluang, metode ini dikenal
sebagai “Metode Pemilihan Peluang”. Karena ukuran sampelnya besar dan itemnya
dipilih secara acak, maka hal ini disebut dengan “Representative Sampling”.
Misalkan kita ingin memilih sampel acak sederhana sebanyak 200 siswa dari sebuah
sekolah. Di sini, kita dapat menetapkan nomor untuk setiap siswa di database sekolah
dari 1 hingga 500 dan menggunakan generator nomor acak untuk memilih sampel
sebanyak 200 nomor
Dalam metode pengambilan sampel sistematis, item dipilih dari populasi sasaran
dengan memilih titik pemilihan acak dan memilih metode lain setelah interval sampel
tetap. Ini dihitung dengan membagi jumlah total populasi dengan jumlah populasi yang
diinginkan.
Contoh:
Misalkan nama 300 siswa suatu sekolah diurutkan dalam urutan abjad terbalik. Untuk
memilih sampel dalam metode sampling sistematis, kita harus memilih sekitar 15 siswa
dengan memilih nomor awal secara acak, katakanlah 5. Dari nomor 5 dan seterusnya,
akan dipilih setiap orang ke-15 dari daftar yang diurutkan. Akhirnya, kita bisa
mendapatkan sampel dari beberapa siswa.
Misalnya ada tiga tas (A, B dan C) yang masing-masing berisi bola berbeda. Kantong
A berisi 50 bola, kantong B berisi 100 bola, dan kantong C berisi 200 bola. Kita harus
memilih sampel bola dari setiap kantong secara proporsional. Misalkan 5 bola dari
kantong A, 10 bola dari kantong B, dan 20 bola dari kantong C.
Dalam metode clustered sampling, klaster atau sekelompok orang dibentuk dari
kumpulan populasi. Kelompok tersebut memiliki karakteristik penting yang serupa.
Selain itu, mereka juga mempunyai peluang yang sama untuk menjadi bagian dari
sampel. Metode ini menggunakan simple random sampling untuk cluster populasi.
Contoh:
Keempat metode ini dapat dipahami secara lebih baik dengan bantuan gambar di bawah
ini. Gambar tersebut berisi berbagai contoh bagaimana sampel akan diambil dari
populasi dengan menggunakan teknik yang berbeda-beda.
1. Convenience Sampling
Dalam metode convenience sampling, sampel dipilih langsung dari populasi karena
sampel tersebut tersedia bagi peneliti. Sampelnya mudah untuk dipilih, dan peneliti
tidak memilih sampel yang menguraikan seluruh populasi.
Contoh:
• Mengetahui karakteristik data sesederhana mungkin tetapi memiliki pengertian yang dapat
menjelaskan data secara keseluruhan
• Data Numerik memiliki pusat dan keragaman: Ukuran pemusatan, Ukuran penyebaran.
1. Montgomery, D.C. and Runger, G.C., 2018, Applied Statistics and Probability for Engineer,
7th Ed, John Wiley and Sons, New York.
2. Walpole, R. E., Myers, R. H., and Myers, S. L, Keying E. Ye, 2011, Probability and Statistics
for Engineers and Scientists (9th Edition), Prentice-Hall International, New Jersey
3. Montgomery, D.C., Runger, G.C., Hubele, 2009, Engineering Statistics, John Wiley and Sons,
New York
4. Hayter, Anthony.J, (2012), Probabilty and Statistics for Engineers and Scientiest 4th edition,
Cengage Learning