Anda di halaman 1dari 43

MODUL PERKULIAHAN

PROBABILITAS &
STATISTIKA

PENGANTAR STATISTIKA
DAN ANALISIS DATA

Fakultas Program Studi Tatap Muka Kode MK Disusun Oleh

01
FAKULTAS TEKNIK TEKNIK ELEKTRO 2A3142SP Said Attamimi, Ir., MT
Lukman Medriavin Silalahi ST.,MT

Abstract Kompetensi
Diharapkan setelah mengikuti Setelah membaca modul ini,
perkuliahan ini mahasiswa mampu mahasiswa diharapkan mampu:
memahami dan menerapkan konsep- 1. Ketepatan menghitung dan
konsep yang meliputi: Pengertian menyelesaikan soal nilai rata-
statistik, populasi dan sampel,
menentukan nilai rata, median , rata, median , modus dan
modus dan deviasi standar serta deviasi standar serta koefisien
koefisien variasi. Aturan dasar variasi.
peluang, menghitung peluang dan 2. Ketepatan menghitung dan
memahami permutasi dan kombinasi. menyelesaikan soal peluang
Nilai harapan dan varians dari dan memahami permutasi dan
variabel acak diskrit, menghitung kombinasi
peluang dengan menggunakan
distribusi Binomial maupun Poisson.
Kurva peluang kontinu & fungsi
kerapatan peluang, menyelesaikan
permasalahan dengan pendekatan
distribusi normal.
BAB I
PENGANTAR STATISTIKA DAN
ANALISIS DATA
1.1. PENDAHULUAN
Dimulai pada 1980an dan berlanjut hingga abad ke-21, sejumlah besar perhatian
telah difokuskan pada peningkatan kualitas di industri Amerika. Banyak yang telah
dikatakan dan ditulis tentang "keajaiban industri Jepang”, yang dimulai pada pertengahan
abad ke20. Orang Jepang dapat berhasil di mana kita dan negara lain telah gagal - yaitu,
menciptakan suasana yang memungkinkan produksi produk berkualitas tinggi. Banyak
keberhasilan orang Jepang telah dikaitkan dengan penggunaan metode statistik dan
pemikiran statistik di antara personel manajemen.
A. Penggunaan Data Ilmiah
Penggunaan metode statistik di bidang manufaktur, pengembangan produk
makanan, perangkat lunak komputer, sumber energi, obat-obatan, dan banyak bidang
lainnya melibatkan pengumpulan informasi atau data ilmiah. Tentunya pengumpulan data
bukanlah hal baru. Itu telah dilakukan selama lebih dari seribu tahun. Data telah
dikumpulkan, diringkas, dilaporkan, dan disimpan untuk dibaca dengan teliti. Akan tetapi,
terdapat perbedaan yang mencolok antara kumpulan informasi ilmiah dan statistik
inferensial (sesuatu yang dapat disimpulkan - KBBI). Yang terakhir inilah yang telah
mendapat perhatian yang semestinya dalam beberapa dekade terakhir. Keturunan statistik
inferensial telah menjadi “kotak peralatan” besar metode statistik yang digunakan oleh
praktisi statistik. Metode statistik ini dirancang untuk memberikan kontribusi pada proses
membuat penilaian ilmiah dalam menghadapi ketidakpastian dan variasi. Kepadatan produk
bahan tertentu dari proses pembuatan tidak selalu sama. Memang, jika proses yang terlibat
adalah proses batch daripada kontinu, tidak hanya akan ada variasi dalam kepadatan
material di antara batch yang keluar dari jalur (variasi batch ke batch), tetapi juga variasi
dalam batch. Metode statistik digunakan untuk menganalisis data dari proses seperti ini
untuk mendapatkan pemahaman yang lebih tentang di mana dalam proses perubahan
dapat dilakukan untuk meningkatkan kualitas proses. Dalam proses ini, kualitas dapat
didefinisikan dengan baik dalam kaitannya dengan kedekatan dengan nilai kepadatan target
selaras dengan bagian waktu disaat kriteria kedekatan ini terpenuhi. Seorang insinyur

2021 Probabilitas dan Statistik


2 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
mungkin peduli dengan instrumen khusus yang digunakan untuk mengukur sulfur
monoksida di udara selama studi polusi. Jika insinyur meragukan keefektifan instrumen, ada
dua sumber variasi yang harus ditangani. Yang pertama adalah variasi nilai sulfur
monoksida yang ditemukan di lokasi yang sama pada hari yang sama. Yang kedua adalah
variasi antara nilai yang diamati dan jumlah sebenarnya dari sulfur monoksida yang ada di
udara pada saat itu. Jika salah satu dari dua sumber variasi ini sangat besar (menurut
beberapa standar yang ditetapkan oleh insinyur), instrumen mungkin perlu diganti. Dalam
studi biomedis tentang obat baru yang mengurangi hipertensi, 85% pasien mengalami
kelegaan, sementara secara umum diketahui bahwa obat saat ini, atau obat "lama",
membawa kelegaan pada 80% pasien yang menderita hipertensi kronis. Namun, obat baru
ini lebih mahal untuk dibuat dan dapat mengakibatkan efek samping tertentu. Haruskah obat
baru diadopsi? Ini adalah masalah yang sering dihadapi (seringkali dengan kompleksitas
yang jauh lebih) oleh perusahaan farmasi dalam hubungannya dengan FDA (Federal Drug
Administration). Sekali lagi, pertimbangan variasi perlu diperhitungkan. Nilai "85%"
didasarkan pada sejumlah pasien yang dipilih untuk penelitian. Mungkin jika penelitian
diulangi dengan pasien baru, jumlah "keberhasilan" yang diamati akan menjadi 75%! Variasi
alami dari studi ke studi yang harus diperhitungkan dalam proses keputusan. Jelaslah
bahwa variasi ini penting, karena variasi dari pasien ke pasien adalah endemik masalah
tersebut.
B. Variabilitas dalam Data Ilmiah
Dalam masalah yang dibahas di atas, metode statistik yang digunakan melibatkan
penanganan variabilitas, dan dalam setiap kasus variabilitas yang akan dipelajari adalah
yang ditemukan dalam data ilmiah. Jika density (kerapatan/massa jenis) produk yang
diamati dalam proses selalu sama dan selalu sesuai target, maka tidak diperlukan metode
statistik. Jika perangkat untuk mengukur sulfur monoksida selalu memberikan nilai yang
sama dan nilainya akurat (yaitu benar), tidak diperlukan analisis statistik. Jika tidak ada
variabilitas pasien-ke-pasien yang melekat dalam respons terhadap obat (yaitu, selalu
membawa kelegaan atau tidak), hidup akan menjadi sederhana bagi ilmuwan di perusahaan
farmasi dan FDA dan tidak ada ahli statistik yang diperlukan dalam pengambilan keputusan
proses. Peneliti statistik telah menghasilkan sejumlah besar metode analitik yang
memungkinkan analisis data dari sistem seperti yang dijelaskan di atas. Hal ini
mencerminkan sifat sains yang sebenarnya (yang kita biasa sebut statistik inferensial), yaitu
menggunakan teknik yang memungkinkan kita untuk melampaui sekadar melaporkan data
menjadi menarik konklusi (inferensi/kesimpulan) tentang sistem ilmiah. Ahli statistik

2021 Probabilitas dan Statistik


3 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
menggunakan hukum dasar probabilitas dan inferensi statistik untuk menarik kesimpulan
tentang sistem ilmiah. Informasi dikumpulkan dalam bentuk sampel, atau kumpulan
observasi. Proses pengambilan sampel diperkenalkan pada pertemuan ke 2, dan
didiskusikan pada seluruh pertemuan.
Sampel dikumpulkan dari populasi, yang merupakan kumpulan semua individu atau
item individu dari jenis tertentu. Terkadang suatu populasi menandakan sistem ilmiah.
Misalnya, produsen papan komputer mungkin ingin menghilangkan cacat. Proses
pengambilan sampel mungkin melibatkan pengumpulan informasi pada 50 papan komputer
yang diambil sampelnya secara acak dari proses tersebut. Di sini, populasinya adalah
semua papan komputer yang diproduksi oleh perusahaan selama periode waktu tertentu.
Jika perbaikan dibuat dalam proses papan komputer dan sampel papan kedua
dikumpulkan, kesimpulan apa pun yang diambil mengenai keefektifan perubahan proses
harus meluas ke seluruh populasi papan komputer yang diproduksi di bawah "proses yang
ditingkatkan." Dalam percobaan obat, sampel pasien diambil dan masing-masing diberi obat
khusus untuk menurunkan tekanan darah. Minat tersebut difokuskan untuk menarik
kesimpulan tentang populasi dari mereka yang menderita hipertensi.
Seringkali, sangat penting untuk mengumpulkan data ilmiah dengan cara yang
sistematis, dengan perencanaan sebagai agenda utama. Terkadang perencanaannya
adalah, berdasarkan pada kebutuhan yang sangat terbatas. Kita seringkali hanya berfokus
pada properti atau karakteristik tertentu dari item atau objek dalam populasi. Setiap
karakteristik memiliki teknik tertentu atau, katakanlah, kepentingan biologis bagi
"pelanggan", ilmuwan atau insinyur yang berusaha mempelajari populasi. Misalnya, dalam
salah satu ilustrasi di atas, kualitas proses berkaitan dengan kepadatan/massa jenis produk
dari output suatu proses. Seorang insinyur mungkin perlu mempelajari pengaruh kondisi
proses, suhu, kelembaban, jumlah bahan tertentu, dan seterusnya. Ia dapat secara
sistematis memindahkan faktor-faktor ini ke tingkat apa pun yang disarankan sesuai dengan
resep atau rancangan eksperimen apa pun yang diinginkan. Namun, seorang ilmuwan
kehutanan yang tertarik dengan studi tentang faktor-faktor yang mempengaruhi kerapatan
kayu pada jenis pohon tertentu tidak serta merta merancang sebuah eksperimen. Kasus ini
mungkin memerlukan studi observasi di mana data dikumpulkan di lapangan tetapi tingkat
faktor tidak dapat dipilih sebelumnya. Kedua jenis studi ini cocok dengan metode inferensi
statistik. Yang pertama adalah kualitas kesimpulan akan bergantung pada perencanaan
eksperimen yang tepat. Yang terakhir adalah ilmuwan bergantung pada apa yang bisa
dikumpulkan. Misalnya, sangat menyedihkan jika seorang ahli agronomi tertarik

2021 Probabilitas dan Statistik


4 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
mempelajari pengaruh curah hujan terhadap hasil tanaman dan datanya dikumpulkan pada
saat musim kemarau.
Pentingnya pemikiran statistik oleh manajer dan penggunaan inferensi statistik oleh
personel ilmiah telah diakui secara luas. Ilmuwan riset mendapatkan banyak keuntungan
dari data ilmiah. Data memberikan pemahaman tentang fenomena ilmiah. Insinyur produk
dan proses belajar banyak dalam upaya off-line mereka untuk meningkatkan proses.
Mereka juga mendapatkan wawasan berharga dengan mengumpulkan data produksi
(pemantauan online) secara teratur. Ini memungkinkan mereka untuk menentukan
modifikasi yang diperlukan untuk menjaga proses pada tingkat kualitas yang diinginkan.
Ada kalanya seorang praktisi ilmiah hanya ingin mendapatkan semacam ringkasan
dari sekumpulan data yang direpresentasikan dalam sampel. Dengan kata lain, statistik
inferensial tidak diperlukan. Sebaliknya, satu set statistik angka tunggal atau statistik
deskriptif sangat membantu. Angka-angka ini memberikan gambaran tentang pusat lokasi
data, variabilitas data, dan sifat umum distribusi observasi dalam sampel. Meskipun tidak
ada metode statistik khusus yang mengarah ke inferensi statistik yang digabungkan, banyak
yang bisa dipelajari. Kadang-kadang, statistik deskriptif disertai dengan grafik. Paket
perangkat lunak statistik modern memungkinkan untuk penghitungan sarana, median,
deviasi standar, dan statistik bilangan tunggal lainnya serta produksi grafik yang
menunjukkan “jejak” sifat sampel. Definisi dan ilustrasi statistik dan grafik bilangan tunggal,
termasuk histogram, stem-and-leaf plots (petak batang dan daun), scatter plots (petak
sebar), dot plots (petak titik), dan box plots (petak kotak).
C. Peran Probabilitas
Dalam perkuliah Probabilitas dan Statistika, akan dibahas pengertian dasar tentang
probabilitas. Landasan menyeluruh dalam konsep ini memungkinkan kita memiliki
pemahaman yang lebih baik tentang inferensi statistik. Tanpa beberapa formalisme teori
probabilitas, kita tidak dapat memberikan appresiasi pada interpretasi yang sebenarnya dari
analisis data melalui metode statistik modern. Sangat wajar untuk mempelajari probabilitas
sebelum mempelajari inferensi statistik. Elemen probabilitas memungkinkan kita untuk
mengukur kekuatan atau "keyakinan" dalam kesimpulan kita. Dalam pengertian ini, konsep
dalam probabilitas membentuk komponen utama yang melengkapi metode statistik dan
membantu kita mengukur kekuatan inferensi statistik. Disiplin probabilitas, kemudian,
memberikan transisi antara statistik deskriptif dan metode inferensial. Elemen probabilitas
memungkinkan kesimpulan dimasukkan ke dalam bahasa yang dibutuhkan oleh para
praktisi sains atau teknik. Sebuah contoh berikut yang akan memungkinkan kita untuk

2021 Probabilitas dan Statistik


5 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
memahami gagasan tentang nilai-P, yang sering kali memberikan "garis bawah" dalam
interpretasi hasil dari penggunaan metode statistik.
Contoh 1.1: Misalkan seorang insinyur menemukan data dari proses manufaktur di
mana 100 item dijadikan sampel dan 10 ditemukan cacat. Diharapkan dan diantisipasi
bahwa sesekali akan ada barang yang cacat. Tentunya 100 item ini mewakili sampel.
Namun, telah ditentukan bahwa dalam jangka panjang, perusahaan hanya dapat mentolerir
5% cacat dalam proses tersebut. Sekarang, elemen probabilitas memungkinkan insinyur
untuk menentukan seberapa konklusif informasi sampel berkaitan dengan sifat proses.
Dalam hal ini, populasi secara konseptual mewakili semua kemungkinan item dari proses
tersebut. Misalkan kita belajar bahwa jika proses dapat diterima (yaitu jika tidak
menghasilkan item yang tidak lebih dari 5% yang cacat), ada kemungkinan 0,0282 untuk
mendapatkan 10 atau lebih item cacat dalam sampel acak 100 item dari proses.
Kemungkinan kecil ini menunjukkan bahwa proses tersebut memang memiliki tingkat jangka
panjang untuk item cacat yang melebihi 5%. Dengan kata lain, dalam kondisi proses yang
dapat diterima, informasi sampel yang diperoleh jarang terjadi. Namun, itu memang terjadi!
Jelas, meskipun, itu akan terjadi dengan probabilitas yang jauh lebih tinggi jika tingkat
kerusakan proses melebihi 5% dalam jumlah yang signifikan.
Dari contoh ini menjadi jelas bahwa elemen bantuan probabilitas dalam
menterjemahkan informasi sampel menjadi sesuatu yang konklusif atau inkonkusif pada
sistem ilmiah. Sebenarnya, apa yang dipelajari kemungkinan besar adalah informasi yang
mengkhawatirkan bagi insinyur atau manajer. Metode statistik, yang akan kita pelajari pada
pertemuan akhir, menghasilkan nilai P 0,0282. Hasilnya menunjukkan bahwa proses
tersebut kemungkinan besar tidak dapat diterima. Konsep nilai-P dibahas secara meluas
pada pertemuan-pertemuan berikutnya. Contoh berikut memberikan ilustrasi kedua.
Contoh 1.2: Seringkali sifat studi ilmiah akan mendikte bahwa peran probabilitas
dan penalaran deduktif adalah bermain dalam inferensi statistik. Latihan 9.40 di halaman
294 memberikan data yang terkait dengan studi yang dilakukan di Virginia Polytechnic
Institute dan State University tentang pengembangan hubungan antara akar pohon dan aksi
jamur. Mineral dipindahkan dari jamur ke pohon dan gula dipindahkan dari pohon ke jamur.
Dua sampel dari 10 bibit pohon oak merah utara ditanam di rumah kaca, satu berisi bibit
yang diberi perlakuan nitrogen dan satu lagi berisi bibit tanpa nitrogen. Semua kondisi
lingkungan lainnya dipertahankan konstan. Semua bibit mengandung jamur Pisolithus
tinctorus. Rincian lebih lanjut diberikan di Bab 9. Bobot batang dalam gram dicatat setelah
akhir 140 hari. Data diberikan pada Tabel 1.1.

2021 Probabilitas dan Statistik


6 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
Tabel 1.1 Kumpulan Data untuk Contoh 1.2

Gambar 1.1 Dot Plots (petak titik) data berat batang


Dalam contoh ini terdapat dua sampel dari dua populasi yang terpisah. Tujuan
percobaan ini adalah untuk mengetahui apakah penggunaan nitrogen berpengaruh
terhadap pertumbuhan akar. Studi ini adalah studi komparatif (yaitu, kita berusaha
membandingkan dua populasi dengan mengacu pada karakteristik penting tertentu).
Sebaiknya plot data seperti yang ditunjukkan pada plot titik pada Gambar 1.1. Nilai “◦”
mewakili data "nitrogen" dan nilai “×” mewakili data " no nitrogen (tanpa nitrogen)".
Perhatikan bahwa tampilan umum data mungkin memberi kesan kepada kita bahwa,
rata-rata, penggunaan nitrogen meningkatkan bobot batang. Empat pengamatan nitrogen
jauh lebih besar daripada pengamatan tanpa nitrogen. Sebagian besar pengamatan tanpa
nitrogen tampaknya berada di bawah pusat data. Munculnya kumpulan data tampaknya
menunjukkan bahwa nitrogen efektif. Tapi bagaimana ini bisa diukur? Bagaimana semua
bukti visual yang tampak diringkas dalam arti tertentu? Seperti pada contoh sebelumnya,
dasar-dasar probabilitas dapat digunakan. Kesimpulan dapat diringkas dalam pernyataan
probabilitas atau nilai-P. Di sini kita tidak akan menunjukkan inferensi statistik yang
menghasilkan probabilitas ringkasan. Seperti pada Contoh 1.1, metode ini akan dibahas
dalam bab Hipotesis. Masalahnya adalah seputar "kemungkinan bahwa data seperti ini
dapat diamati" saat bahwa nitrogen tidak berpengaruh, dengan kata lain, saat kedua sampel
dihasilkan dari populasi yang sama. Misalkan probabilitas ini kecil, katakanlah 0,03. Hal itu
tentunya akan menjadi bukti kuat bahwa penggunaan nitrogen memang mempengaruhi
(tampaknya meningkatkan) rata-rata bobot batang bibit pohon oak merah.
D. Bagaimana Probabilitas Dan Interferensi Statistik Bekerja Sama?
Penting bagi kita untuk memahami perbedaan yang jelas antara disiplin probabilitas,

2021 Probabilitas dan Statistik


7 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
ilmu yang terkandung didalamnya, dan disiplin statistik inferensial. Seperti yang telah lihat,
penggunaan atau penerapan konsep dalam probabilitas memungkinkan interpretasi
kehidupan nyata dari hasil inferensi statistik. Akibatnya, dapat dikatakan bahwa inferensi
statistik menggunakan konsep-konsep dalam probabilitas. Kita dapat mengambil dari dua
contoh di atas bahwa informasi sampel disediakan untuk analisis dan, dengan bantuan
metode statistik dan elemen probabilitas, kesimpulan ditarik tentang beberapa fitur populasi
(proses sepertinya tidak dapat diterima di Contoh 1.1, dan nitrogen sepertinya
mempengaruhi bobot batang rata-rata di Contoh 1.2). Jadi untuk masalah statistik, sampel
bersama dengan statistik inferensial memungkinkan kita untuk menarik kesimpulan yang
berkaitan dengan populasi, dengan statistik inferensial juga dapat memperjelas penggunaan
elemen probabilitas. Dimana, penalaran seperti ini bersifat induktif. Sekarang saatnya kita
beralih ke Bab ke-2 dan seterusnya, kita akan mencatat bahwa, tidak seperti yang kita
lakukan dalam dua contoh sebelumnya, kita tidak akan fokus pada pemecahan masalah
statistik. Banyak contoh akan diberikan tanpa melibatkan sampel. Akan ada suatu populasi
yang digambarkan dengan jelas dengan semua ciri populasi yang diketahui. Kemudian
pertanyaan-pertanyaan penting akan difokuskan pada sifat data yang secara hipotetis dapat
diambil dari populasi. Dengan demikian, dapat dikatakan bahwa elemen dalam probabilitas
memungkinkan kita untuk menarik kesimpulan tentang karakteristik data hipotetis yang
diambil dari populasi, berdasarkan ciri-ciri populasi yang diketahui. Diamana, jenis
penalaran seperti ini bersifat deduktif. Gambar 1.2 menunjukkan hubungan
fundamental/dasar antara probabilitas dan statistik inferensial.

Gambar 1.2 Hubungan fundamental antara probabilitas dan statistik inferensial.


Sekarang, dalam skema besar, mana yang lebih penting, bidang probabilitas atau
bidang statistik? Keduanya sangat penting dan jelas saling melengkapi. Satu-satunya
kepastian mengenai pedagogi dari dua disiplin ini terletak pada kenyataan bahwa jika
statistik diajarkan lebih dari sekedar tingkat sederhana, maka disiplin probabilitas harus
dipelajari terlebih dahulu. Aturan ini berasal dari fakta bahwa tidak ada yang dapat dipelajari
mengenai suatu populasi dari sampel sampai analisa kita mempelajari dasar-dasar

2021 Probabilitas dan Statistik


8 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
ketidakpastian dalam sampel tersebut. Misalnya, perhatikan Contoh 1.1. Pertanyaannya
berpusat pada apakah populasi, yang ditentukan oleh proses, tidak lebih dari 5% cacat atau
tidak. Dengan kata lain, perkiraannya adalah rata-rata 5 dari 100 item rusak. Sekarang,
sampel berisi 100 item dan 10 rusak. Apakah ini mendukung dugaan atau membantahnya?
Di permukaan, ini akan tampak seperti sanggahan atas dugaan karena 10 dari 100
tampaknya "agak berlebihan". Tetapi tanpa unsur probabilitas, bagaimana kita tahu? Hanya
melalui studi materi di bab-bab selanjutnya kita akan mempelajari kondisi di mana proses
tersebut dapat diterima (5% rusak). Probabilitas untuk mendapatkan 10 atau lebih item
cacat dalam sampel 100 adalah 0,0282.
Kita telah dihadapkan dengan dua contoh di mana elemen probabilitas memberikan
ringkasan yang dapat digunakan ilmuwan atau insinyur sebagai bukti untuk membangun
keputusan. Jembatan antara data dan kesimpulan, tentu saja, didasarkan pada dasar-dasar
inferensi statistik, teori distribusi, dan distribusi sampling yang dibahas dalam bab-bab
selanjutnya.

1.2. PROSEDUR PENGAMBILAN SAMPEL; PENGUMPULAN DATA


Pada Bagian 1.1 kita membahas secara singkat pengertian pengambilan sampel
dan proses pengambilan sampel. Walaupun pengambilan sampel tampaknya merupakan
konsep yang sederhana, kompleksitas pertanyaan yang harus dijawab tentang populasi
atau keperluan dari populasi, menjadi proses pengambilan sampel menjadi sangat
kompleks pada waktu-waktu tertentu. Sementara gagasan pengambilan sampel dibahas
secara teknis dibahan pada topik Hipotesis, pada bagian pengantar ini kita akan mencoba
untuk memahami pengertian pengambilan sampel yang masuk akal. Ini adalah transisi
alami ke diskusi tentang konsep variabilitas.

2021 Probabilitas dan Statistik


9 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
2021 Probabilitas dan Statistik
10 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
2021 Probabilitas dan Statistik
11 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
2021 Probabilitas dan Statistik
12 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
2021 Probabilitas dan Statistik
13 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
2021 Probabilitas dan Statistik
14 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
2021 Probabilitas dan Statistik
15 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
2021 Probabilitas dan Statistik
16 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
2021 Probabilitas dan Statistik
17 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
A. Sampling Acak Sederhana
Pentingnya pengambilan sampel yang tepat adalah berkisar pada tingkat
kepercayaan yang dapat digunakan penganalisa untuk menjawab pertanyaan yang
diajukan. Mari kita asumsikan bahwa hanya ada satu populasi dalam sebuah masalah.
Ingatlah bahwa dalam Contoh 1.2 dua populasi terlibat. Pengambilan sampel acak

2021 Probabilitas dan Statistik


18 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
sederhana menyiratkan bahwa sampel tertentu dengan ukuran sampel tertentu memiliki
peluang yang sama untuk dipilih sebagai sampel lain dengan ukuran yang sama. Istilah
ukuran sampel berarti jumlah elemen dalam sampel. Jelas, tabel angka acak dapat
digunakan dalam pemilihan sampel dalam banyak hal. Keunggulan dari pengambilan
sampel acak sederhana adalah bahwa dengannya kita dapat menghilangkan masalah
dalam memiliki sampel yang mencerminkan populasi berbeda (mungkin lebih terbatas)
daripada populasi yang perlu dibuat kesimpulannya. Misalnya, sampel akan dipilih untuk
menjawab pertanyaan tertentu tentang preferensi politik di negara bagian tertentu di
Amerika Serikat. Sampel melibatkan pemilihan, katakanlah, 1000 keluarga, dan survei akan
dilakukan. Dengan memisalkan, bahwa kita tidak menggunakan random sampling.
Sepertinya, semua atau hampir semua dari 1000 keluarga yang dipilih tinggal di lingkungan
perkotaan. Namun, diyakini bahwa preferensi politik di pedesaan berbeda dengan di
perkotaan. Dengan kata lain, sampel yang diambil benar-benar membatasi populasi dan
dengan demikian kesimpulan perlu dibatasi pada “populasi terbatas,” dan dalam kasus ini,
pembatasan mungkin tidak diinginkan. Jika, memang, kesimpulan perlu dibuat mengenai
keadaan secara keseluruhan, sampel dengan ukuran 1000 yang dijelaskan di sini sering
disebut sebagai biased sample (sampel yang bias).
Seperti yang kita dapati sebelumnya, pengambilan sampel acak sederhana tidak
selalu tepat. Pendekatan alternatif mana yang digunakan tergantung pada kompleksitas
masalah. Seringkali, misalnya, unit pengambilan sampel tidak homogen dan secara alami
membagi dirinya sendiri menjadi kelompok yang tidak tumpang tindih yang homogen.
Kelompok-kelompok ini disebut strata, dan prosedur yang disebut pengambilan sampel
acak berstrata melibatkan pemilihan sampel secara acak dalam setiap strata. Hal seperti ini
bertujuan untuk memastikan bahwa setiap strata tidak terlalu terwakili atau kurang terwakili.
Misalnya, survei sampel dilakukan untuk mengumpulkan pendapat awal tentang referendum
obligasi yang sedang dipertimbangkan di kota tertentu. Kota ini terbagi menjadi beberapa
kelompok etnis yang mewakili strata alam. Agar tidak mengabaikan atau merepresentasikan
kelompok mana pun, sampel keluarga acak yang terpisah dapat dipilih dari setiap
kelompok.
B. Desain Eksperimental
Konsep keacakan atau penugasan acak memberikan peran besar dan penting
dalam bidang desain eksperimental, yang diperkenalkan dengan sangat singkat di Bagian
1.1 dan merupakan pokok penting di hampir semua bidang ilmu teknik atau eksperimental.
Ini akan dibahas panjang lebar di pada lanjutan sebuah probabilitas. Namun, presentasi

2021 Probabilitas dan Statistik


19 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
singkat di sini bermanfaat dalam konteks pengambilan sampel acak. Seperangkat yang
disebut pengobatan atau kombinasi pengobatan menjadi populasi yang akan dipelajari atau
dibandingkan dalam arti tertentu. Contohnya adalah perlakuan nitrogen versus tanpa
nitrogen dalam Contoh 1.2. Contoh sederhana lainnya adalah "plasebo" versus "obat aktif",
atau dalam studi kelelahan korosi, kita mungkin memiliki kombinasi pengobatan yang
melibatkan spesimen yang dilapisi atau tidak dilapisi serta kondisi kelembaban rendah atau
tinggi di mana spesimen terpapar. Faktanya, ada empat kombinasi perlakuan atau faktor
(yaitu, 4 populasi), dan banyak pertanyaan ilmiah dapat ditanyakan dan dijawab melalui
metode statistik dan inferensial. Pertimbangkan dulu situasi di Contoh 1.2. Ada 20 bibit
penyakit yang dilibatkan dalam percobaan ini. Mudah dilihat dari datanya sendiri bahwa bibit
berbeda satu sama lain. Dalam kelompok nitrogen (atau kelompok tanpa nitrogen) terdapat
variabilitas yang cukup besar dalam bobot batang. Variabilitas ini disebabkan oleh apa yang
umumnya disebut unit eksperimental. Ini adalah konsep yang sangat penting dalam statistik
inferensial, yang penjelasannya tidak akan berakhir di bahasan ini. Sifat variabilitas sangat
penting. Jika terlalu besar, yang berasal dari kondisi nonhomogenitas yang berlebihan
dalam unit eksperimen, variabilitas akan "menghapus" perbedaan yang dapat dideteksi
antara dua populasi. Ingatlah bahwa dalam kasus ini itu tidak terjadi.
Plot titik pada Gambar 1.1 dan nilai P menunjukkan perbedaan yang jelas antara
kedua kondisi ini. Peran apa yang dimainkan unit eksperimen tersebut dalam proses
pengambilan data itu sendiri? Akal sehat dan, memang, pendekatan yang cukup standar
adalah dengan menetapkan 20 bibit atau unit percobaan secara acak ke dua perlakuan atau
kondisi. Dalam studi obat, kita mungkin memutuskan untuk menggunakan total 200 pasien
yang tersedia, pasien yang jelas akan berbeda dalam beberapa hal. Mereka adalah unit
eksperimental. Namun, mereka semua mungkin memiliki kondisi kronis yang sama dimana
obat tersebut merupakan pengobatan potensial. Kemudian dalam apa yang disebut desain
yang sepenuhnya acak, 100 pasien secara acak menggunakan plasebo dan 100 untuk obat
aktif. Sekali lagi, unit eksperimental dalam kelompok atau pengobatan inilah yang
menghasilkan variabilitas dalam hasil data (yaitu, variabilitas dalam hasil yang diukur),
misalnya tekanan darah, atau nilai kemanjuran obat apa pun yang penting. Pada studi
kelelahan korosi, unit eksperimen adalah spesimen yang menjadi subjek korosi.
C. Mengapa Menetapkan Unit Eksperimen Secara Acak?
Apa dampak negatif yang mungkin terjadi jika tidak menetapkan unit eksperimen
secara acak ke perawatan atau kombinasi perawatan? Ini terlihat paling jelas dalam kasus
studi obat. Di antara karakteristik pasien yang menghasilkan variabilitas dalam hasil adalah

2021 Probabilitas dan Statistik


20 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
usia, jenis kelamin, dan berat badan. Anggap saja secara kebetulan kelompok plasebo
berisi sampel orang yang sebagian besar lebih berat daripada treatment group. Mungkin
orang yang lebih berat memiliki kecenderungan untuk memiliki tekanan darah yang lebih
tinggi. Ini jelas membiaskan hasil, dan memang, hasil apa pun yang diperoleh melalui
penerapan kesimpulan statistik mungkin tidak ada hubungannya dengan obat dan lebih
berkaitan dengan perbedaan bobot di antara dua sampel pasien.
Kita harus menekankan keterikatan pentingnya istilah variabilitas. Variabilitas yang
berlebihan di antara unit eksperimental “menyamarkan” temuan ilmiah. Di bagian
selanjutnya, kita akan mencoba untuk mengkarakterisasi dan mengukur ukuran variabilitas.
Pada bagian selanjutnya, kita akan mendiskusikan jumlah spesifik yang dapat dihitung
dalam sampel; kuantitas memberikan gambaran tentang sifat sampel sehubungan dengan
pusat lokasi data dan variabilitas dalam data. Pembahasan tentang beberapa ukuran angka
tunggal ini berfungsi untuk memberikan tinjauan tentang informasi statistik apa yang akan
menjadi komponen penting dari metode statistik yang digunakan dalam bab-bab
selanjutnya. Pengukuran ini yang membantu mengkarakterisasi sifat kumpulan data
termasuk dalam kategori statistik deskriptif. Materi ini merupakan pendahuluan dari
presentasi singkat metode bergambar dan grafis yang melangkah lebih jauh dalam
karakterisasi kumpulan data. Pembaca harus memahami bahwa metode statistik yang
diilustrasikan di sini akan digunakan di seluruh teks. Untuk memberikan gambaran yang
lebih jelas tentang apa yang terlibat dalam studi desain eksperimental, kita bisa lihat Contoh
1.3.
Contoh 1.3: Sebuah studi korosi dilakukan untuk menentukan apakah melapisi
logam aluminium dengan zat penghambat korosi dapat mengurangi jumlah korosi. Pelapis
adalah pelindung yang diiklankan untuk meminimalkan kerusakan akibat kelelahan pada
jenis bahan ini. Yang juga menarik adalah pengaruh kelembaban terhadap jumlah korosi.
Pengukuran korosi dapat diekspresikan dalam ribuan siklus menuju kegagalan. Dua tingkat
pelapisan, tanpa pelapis dan pelapis korosi kimia, digunakan. Selain itu, dua tingkat
kelembapan relatif adalah kelembapan relatif 20% dan kelembapan relatif 80%.
Eksperimen ini melibatkan empat kombinasi treatment yang tercantum dalam tabel
berikut. Ada delapan unit percobaan yang digunakan, yaitu spesimen aluminium yang
disiapkan; dua diperankan secara acak untuk masing-masing dari empat kombinasi
pengobatan. Data disajikan pada Tabel 1.2.
Tabel 1.2 Data untuk Contoh 1.3

2021 Probabilitas dan Statistik


21 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
Gambar 1.3 Hasil Korosi untuk Contoh 1.3.
Data korosi adalah rata-rata dari dua spesimen. Plot rata-rata digambarkan pada
Gambar 1.3. Nilai siklus menuju kegagalan yang relatif besar menunjukkan sejumlah kecil
korosi. Seperti yang diharapkan, peningkatan kelembapan tampaknya membuat korosi
semakin parah. Penggunaan prosedur pelapisan korosi kimia tampaknya mengurangi
korosi.
Dalam ilustrasi desain eksperimental ini, insinyur telah secara sistematis memilih
empat kombinasi perlakuan. Untuk menghubungkan situasi ini dengan konsep, harus
diasumsikan bahwa kondisi yang mewakili empat kombinasi treatment adalah empat
populasi terpisah dan bahwa dua nilai korosi yang diamati untuk setiap populasi merupakan
bagian informasi penting. Pentingnya rata-rata dalam menangkap dan meringkas ciri-ciri
tertentu dalam populasi akan disoroti di Bagian 1.3. Meskipun kita dapat menarik
kesimpulan tentang peran kelembaban dan dampak pelapisan spesimen dari gambar, kita
tidak dapat secara benar-benar mengevaluasi hasil dari sudut pandang analisis tanpa
memperhitungkan variabilitas di sekitar rata-rata. Sekali lagi, seperti yang kita dapati
sebelumnya, jika dua nilai korosi untuk setiap kombinasi treatment berdekatan, ilustrasi
pada Gambar 1.3 mungkin merupakan gambaran yang akurat. Tetapi jika setiap nilai korosi
pada ilustrasi adalah rata-rata dari dua nilai yang tersebar luas, maka variabilitas ini
mungkin benar-benar “menghilangkan” informasi yang muncul ketika seseorang hanya
mengamati rata-rata. Contoh di atas menggambarkan konsep-konsep ini:
a. penugasan acak kombinasi perlakuan (pelapisan, kelembaban) ke unit
percobaan (spesimen)

2021 Probabilitas dan Statistik


22 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
b. penggunaan rata-rata sampel (nilai korosi rata-rata) dalam meringkas informasi
sampel
c. perlunya pertimbangan ukuran variabilitas dalam analisis setiap sampel atau set
sampel
Contoh ini menunjukkan perlunya hal-hal berikut dalam Bagian 1.3 dan 1.4, yaitu,
statistik deskriptif yang menunjukkan ukuran pusat lokasi dalam satu set data, dan yang
mengukur variabilitas.

1.3. PENGUKURAN LOKASI: SAMPLE MEAN DAN MEDIAN


Pengukuran lokasi dirancang untuk memberikan penganalisa beberapa nilai
kuantitatif di mana pusat, atau beberapa lokasi lain, data berada. Dalam Contoh 1.2, tampak
seolah-olah pusat sampel nitrogen jelas melebihi sampel tanpa nitrogen. Satu ukuran yang
jelas dan sangat berguna adalah mean sampel. Mean hanyalah rata-rata numerik
Definisi 1.1: Misalkan observasi dalam sampel adalah x1, x2,. . . , xn. Rata-rata sampel, dilambangkan
dengan x́ , adalah

Ada ukuran lain dari tendensi sentral yang dibahas secara rinci bahasan perkulian
selanjutnya. Salah satu ukuran penting adalah median sampel. Tujuan median sampel
adalah untuk mencerminkan tendensi sentral sampel sedemikian rupa sehingga tidak
dipengaruhi oleh nilai ekstrim atau pencilan.
Definisi 1.2: Diketahui bahwa observasi dalam sampel adalah x1, x2,. . . , xn, disusun dalam urutan
kenaikan besarnya, median sampel adalah

Catatan: Odd=Ganjil
Even=Genap
Sebagai contoh, misalkan kumpulan data adalah sebagai berikut: 1.7, 2.2, 3.9, 3.11,
dan 14.7. Rata-mean/rata-rata sampel dan median adalah,

Jelas, mean sangat dipengaruhi oleh kehadiran pengamatan ekstrim, 14,7,


sedangkan median menempatkan penekanan pada “pusat” sebenarnya dari kumpulan data.

2021 Probabilitas dan Statistik


23 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
Dalam kasus kumpulan data dua sampel dari Contoh 1.2, dua ukuran tendensi sentral untuk
sampel individu adalah

Jelas ada perbedaan konsep antara mean dan median. Mungkin menarik bagi kita
dengan latar belakang teknik bahwa rata-rata sampel adalah pusat data dalam sampel.
Dalam arti tertentu, ini adalah titik di mana titik tumpu dapat ditempatkan untuk
menyeimbangkan sistem "bobot" yang merupakan lokasi data individu. Hal ini ditunjukkan
pada Gambar 1.4 berkaitan dengan sampel dengan-nitrogen.

Gambar 1.4 Rata-rata sampel sebagai sentroid dari bobot batang dengan-nitrogen
Dalam perkuliahan selanjutnya, dasar penghitungan   x́ adalah perkiraan rata-rata
populasi. Seperti yang kita dapati sebelumnya, tujuan dari kesimpulan statistik adalah untuk
menarik kesimpulan tentang karakteristik atau parameter populasi dan estimasi adalah fitur
yang sangat penting dari inferensi statistik.
Median dan mean bisa sangat berbeda satu sama lain. Perhatikan, bagaimanapun,
bahwa dalam kasus data berat batang, nilai rata-rata sampel untuk tanpa nitrogen sangat
mirip dengan nilai median.
Ada beberapa metode lain untuk mengukur pusat lokasi data dalam sampel. Namun,
kita tidak akan membahasnya saat ini. Sebagian besar, alternatif mean sampel dirancang
untuk menghasilkan nilai yang mewakili kompromi antara mean dan median. Meskipun, kita
jarang menggunakan tindakan lain seperti ini. Akan tetapi, ada baiknya membahas satu
kelas penduga, yaitu kelas sarana yang dipangkas. Rata-rata yang dipotong dihitung
dengan "memotong" persentase tertentu dari kumpulan nilai terbesar dan terkecil. Misalnya,
rata-rata pemangkasan 10% ditemukan dengan menghilangkan 10% terbesar dan 10%
terkecil dan menghitung rata-rata dari nilai yang tersisa. Misalnya, untuk data berat batang,
kita akan menghilangkan yang terbesar dan terkecil karena ukuran sampel adalah 10 untuk
setiap sampel. Jadi untuk kelompok tanpa nitrogen diberikan rata-rata pemangkasan 10%.

2021 Probabilitas dan Statistik


24 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
dan rata-rata pemangkasan 10% untuk grup dengan nitrogen adalah

Perhatikan bahwa dalam kasus ini, seperti yang diharapkan, mean yang dipotong
mendekati mean dan median untuk sampel individu. Rata-rata yang dipangkas, tentu saja,
lebih tidak sensitif terhadap pencilan daripada rata-rata sampel tetapi tidak sekensensitif
median. Di sisi lain, pendekatan rata-rata yang dipangkas menggunakan lebih banyak
informasi daripada median sampel. Perhatikan bahwa median sampel, memang, kasus
khusus dari rata-rata yang dipotong di mana semua data sampel dihilangkan terlepas dari
satu atau dua pengamatan di tengah.
1.4. UKURAN VARIABILITAS
Variabilitas sampel memainkan peran penting dalam analisis data. Variabilitas
proses dan produk adalah fakta kehidupan dalam sistem teknik dan ilmiah: Pengendalian
atau pengurangan variabilitas proses sering kali menjadi sumber kesulitan utama. Semakin
banyak insinyur dan manajer proses mempelajari bahwa kualitas produk dan, sebagai
hasilnya, keuntungan yang diperoleh dari produk manufaktur sangat banyak merupakan
fungsi dari variabilitas proses. Akibatnya, sebagian besar pada bahasan lanjutan statistikan
membahas analisis data dan prosedur pemodelan di mana variabilitas sampel memainkan
peran utama. Bahkan dalam masalah analisis data kecil, keberhasilan metode statistik
tertentu mungkin bergantung pada besarnya variabilitas di antara pengamatan dalam
sampel. Pengukuran lokasi dalam sampel tidak memberikan ringkasan yang tepat tentang
sifat kumpulan data. Misalnya, dalam Contoh 1.2 kita tidak dapat menyimpulkan bahwa
penggunaan nitrogen meningkatkan pertumbuhan tanpa memperhitungkan variabilitas
sampel.
Sementara rincian analisis dari jenis kumpulan data ini berada pada bahasan
Hipotesis, harus jelas dari Gambar 1.1 bahwa variabilitas di antara pengamatan tanpa
nitrogen dan variabilitas di antara pengamatan nitrogen tentu saja memiliki beberapa
konsekuensi. Nyatanya, tampak bahwa variabilitas dalam sampel nitrogen lebih besar
daripada sampel tanpa nitrogen. Mungkin ada sesuatu tentang pemasukan nitrogen yang
tidak hanya meningkatkan tinggi batang (  x́ dari 0,565 gram dibandingkan dengan x́ dari
0,399 gram untuk sampel tanpa nitrogen) tetapi juga meningkatkan variabilitas dalam tinggi

2021 Probabilitas dan Statistik


25 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
batang (yaitu, membuat tinggi batang lebih tidak konsisten).
Sebagai contoh lain, kontraskan dua kumpulan data di bawah ini. Masing-masing
berisi dua sampel dan perbedaan cara kira-kira sama untuk kedua sampel, tetapi kumpulan
data B tampaknya memberikan kontras yang jauh lebih tajam antara dua populasi tempat
sampel diambil. Jika tujuan eksperimen semacam itu adalah untuk mendeteksi perbedaan
antara dua populasi, tugas diselesaikan dalam kasus kumpulan data B. Namun, dalam
kumpulan data A, variabilitas yang besar dalam dua sampel menimbulkan kesulitan.
Faktanya, tidak jelas apakah ada perbedaan antara kedua populasi tersebut.

A. Rentang Sampel dan Deviasi Standar Sampel


Seperti halnya ada banyak ukuran kecender ungan atau lokasi pusat, ada banyak
ukuran penyebaran atau variabilitas. Mungkin yang paling sederhana adalah rentang
sampel Xmax - Xmin. Rentang ini bisa sangat berguna pada kendali mutu statistik. Ukuran
sampel penyebaran yang paling sering digunakan adalah deviasi standar sampel. Misal
x 1 , x 2 , . . ., x n menunjukkan nilai sampel.
Definisi 1.3: Varians sampel, dilambangkan dengan s2, diberikan oleh

Simpangan baku sampel, dilambangkan dengan s, adalah akar kuadrat positif dari
s2, yaitu,

Harus jelas bagi kita bahwa deviasi standar sampel sebenarnya adalah ukuran

variabilitas. Variabilitas yang besar dalam satu set data menghasilkan nilai ( x−x́ )2 yang
relatif besar dan dengan demikian varian sampel yang besar. Besaran n−1 sering disebut
degree of freedom (derajat kebebasan) yang diasosiasikan dengan estimasi varians. Dalam
contoh sederhana ini, derajat kebebasan menggambarkan jumlah informasi independen

2021 Probabilitas dan Statistik


26 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
yang tersedia untuk menghitung variabilitas. Misalnya, kita ingin menghitung varians sampel
dan deviasi standar dari kumpulan data (5, 17, 6, 4). Rata-rata sampel adalah x́ = 8.
Perhitungan varians melibatkan

Kuantitas di dalam tanda kurung berjumlah nol. Secara umum

Kemudian perhitungan varians sampel tidak melibatkan n independent squared


deviations (penyimpangan kuadrat independent) dari mean x́ . Faktanya, karena nilai
terakhir dari x−x́ ditentukan oleh awal n - 1 dari mereka, kita katakan bahwa ini adalah n - 1
“potongan informasi” yang menghasilkan s2. Jadi, ada n - 1 derajat kebebasan daripada n
derajat kebebasan untuk menghitung varians sampel.
Contoh 1.4: Seorang insinyur tertarik untuk menguji "bias" dalam pengukur pH. Data
dikumpulkan di meteran dengan mengukur pH zat netral (pH = 7,0). Sampel berukuran 10
diambil, dengan hasil yang diberikan oleh

Rata-rata sampel x́ diberikan adalah

Varians sampel s2 yang diberikan adalah

Hasilnya, deviasi standar sampel yang diberikan adalah

Jadi standar deviasi sampel adalah 0,0440 dengan n - 1 = 9 degree of freedom


(derajat kebebasan)
B. Satuan Untuk Standar Deviasi dan Varians
Jelas dari Definisi 1.3 bahwa varians adalah ukuran deviasi kuadrat rata-rata dari
mean   x́ . Kita menggunakan istilah deviasi kuadrat rata-rata meskipun definisi
menggunakan pembagian dengan derajat kebebasan n - 1 daripada n. Tentu saja, jika n
besar, perbedaan penyebutnya tidak penting. Akibatnya, varians sampel memiliki satuan

2021 Probabilitas dan Statistik


27 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
yang merupakan kuadrat dari satuan dalam data yang diamati sedangkan simpangan baku
sampel ditemukan dalam satuan linier. Sebagai contoh, perhatikan data dari Contoh 1.2.
Berat batang diukur dalam gram.
Hasilnya, simpangan baku sampel dalam gram dan variansnya diukur dalam gram.
Faktanya, deviasi standar individu adalah 0,0728 gram untuk kasus tanpa nitrogen dan
0,1867 gram untuk kelompok nitrogen. Perhatikan bahwa deviasi standar menunjukkan
variabilitas yang jauh lebih besar dalam sampel nitrogen. Kondisi ini ditunjukkan pada
Gambar 1.1.
C. Ukuran Variabilitas Mana Yang Lebih Penting?
Seperti yang didapati sebelumnya, rentang sampel memiliki aplikasi di bidang
kendali mutu statistik. Bagi kita mungkin terlihat bahwa penggunaan varians sampel dan
deviasi standar sampel adalah berlebihan. Kedua ukuran tersebut mencerminkan konsep
yang sama dalam mengukur variabilitas, tetapi deviasi standar sampel mengukur variabilitas
dalam satuan linier sedangkan varians sampel diukur dalam satuan kuadrat. Keduanya
memainkan peran besar dalam penggunaan metode statistik. Banyak dari apa yang dicapai
dalam konteks inferensi statistik melibatkan penarikan kesimpulan tentang karakteristik
populasi. Diantara karakteristik tersebut terdapat konstanta yang disebut parameter
populasi. Dua parameter penting adalah mean populasi dan varians populasi. Varians
sampel memainkan peran eksplisit dalam metode statistik yang digunakan untuk menarik
kesimpulan tentang varians populasi. Simpangan baku sampel memiliki peran penting
bersama dengan mean sampel dalam kesimpulan yang dibuat tentang mean populasi.
Secara umum, varians dianggap lebih banyak dalam teori inferensial, sedangkan deviasi
standar lebih banyak digunakan dalam aplikasi.

1.5. DATA DISKRIT DAN KONTINU


Inferensi statistik melalui analisis studi observasional atau eksperimen yang
dirancang digunakan di banyak bidang ilmiah. Data yang dikumpulkan mungkin terpisah
atau kontinu, tergantung pada area aplikasi. Misalnya, seorang insinyur kimia mungkin
tertarik untuk melakukan percobaan yang akan mengarah pada kondisi dimana hasil
dimaksimalkan. Di sini, tentu saja, hasil mungkin dalam persen atau gram/pon, diukur dalam
satu kontinum. Di sisi lain, ahli toksikologi yang melakukan percobaan obat kombinasi
mungkin menemukan data yang bersifat biner (yaitu, pasien merespons atau tidak).
Perbedaan besar dibuat antara data diskrit dan kontinu dalam teori probabilitas yang
memungkinkan kita untuk menarik kesimpulan statistik. Seringkali aplikasi inferensi statistik

2021 Probabilitas dan Statistik


28 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
ditemukan ketika datanya adalah data hitungan. Misalnya, seorang insinyur mungkin tertarik
mempelajari jumlah partikel radioaktif yang melewati penghitung dalam, katakanlah, 1
milidetik. Personil yang bertanggung jawab atas efisiensi fasilitas pelabuhan mungkin
tertarik dengan properti jumlah kapal tanker minyak yang tiba setiap hari di kota pelabuhan
tertentu. Dalam pertemuan 6, beberapa skenario berbeda, yang mengarah ke cara
penanganan data yang berbeda, dibahas untuk situasi dengan data hitungan.
Perhatian khusus bahkan pada tahap awal buku teks ini harus diberikan pada
beberapa detail yang terkait dengan data biner. Aplikasi yang membutuhkan analisis
statistik data biner sangat banyak. Seringkali ukuran yang digunakan dalam analisis adalah
proporsi sampel. Jelas, situasi biner melibatkan dua kategori. Jika ada n unit yang terlibat
dalam data dan x didefinisikan sebagai bilangan yang termasuk dalam kategori 1, maka n -
x termasuk dalam kategori 2. Jadi, x/n adalah proporsi sampel dalam kategori 1, dan 1 - x/n
adalah proporsi sampel dalam kategori 2. Dalam aplikasi biomedis, 50 pasien mungkin
mewakili unit sampel, dan jika 20 dari 50 mengalami perbaikan pada penyakit perut (umum
untuk semua 50) setelah semua diberi obat, maka 20/50 = 0,4 adalah proporsi sampel yang
obatnya berhasil dan 1 - 0,4 = 0,6 adalah proporsi sampel yang obatnya tidak berhasil.
Sebenarnya pengukuran numerik dasar untuk data biner umumnya dilambangkan dengan 0
atau 1. Sebagai contoh, dalam contoh medis kita, hasil yang berhasil dilambangkan dengan
1 dan tidak berhasil dengan 0. Akibatnya, proporsi sampel sebenarnya adalah sampel rata-
rata dari satu dan nol. Untuk kategori sukses,

Jenis masalah yang dihadapi para ilmuwan dan insinyur yang berurusan dengan
data biner tidak banyak berbeda dengan yang terlihat di mana pengukuran berkelanjutan
menjadi perhatian. Namun, teknik yang berbeda digunakan karena sifat statistik dari
proporsi sampel sangat berbeda dari mean sampel yang dihasilkan dari rata-rata yang
diambil dari populasi berkelanjutan. Perhatikan contoh data di Latihan 1.6 di halaman 13.
Masalah statistik yang mendasari ilustrasi ini berfokus pada apakah intervensi, katakanlah,
peningkatan suhu pengeringan, akan mengubah kekuatan tarik rata-rata populasi yang
terkait dengan proses karet silikon. Di sisi lain, di area kendali mutu, misalkan sebuah pabrik
ban mobil melaporkan bahwa pengiriman 5.000 ban yang dipilih secara acak dari proses
menghasilkan 100 di antaranya menunjukkan cacat. Di sini proporsi sampelnya adalah
100/5000 = 0,02. Setelah perubahan dalam proses yang dirancang untuk mengurangi noda,
sampel kedua diambil 5000 dan 90 ban rusak. Proporsi sampel telah dikurangi menjadi

2021 Probabilitas dan Statistik


29 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
90/5000 = 0,018. Timbul pertanyaan, “Apakah penurunan proporsi sampel 5000 dari 0,02
menjadi 0,018 cukup substansial untuk menunjukkan peningkatan nyata dalam proporsi
populasi?” Kedua ilustrasi ini memerlukan penggunaan properti statistik rata-rata sampel —
satu dari sampel dari populasi kontinu, dan yang lainnya dari sampel dari populasi diskrit
(biner). Dalam kedua kasus, rata-rata sampel adalah perkiraan parameter populasi, rata-
rata populasi dalam ilustrasi pertama (yaitu, kekuatan tarik rata-rata), dan proporsi populasi
dalam kasus kedua (yaitu, proporsi ban yang rusak dalam populasi). Jadi di sini kita
memiliki perkiraan sampel yang digunakan untuk menarik kesimpulan ilmiah tentang
parameter populasi. Seperti yang kita dapati di Bagian 1.3, ini adalah tema umum dalam
banyak masalah praktis yang menggunakan inferensi statistic

1.6. PEMODELAN STATISTIK, INSPEKSI ILMIAH, DAN DIAGNOSTIK GRAFIS


Seringkali hasil akhir dari analisis statistik adalah estimasi parameter model yang
didalilkan. Ini wajar bagi para ilmuwan dan insinyur karena mereka sering berurusan dengan
pemodelan. Model statistik tidak deterministik tetapi harus melibatkan beberapa aspek
probabilistik. Suatu bentuk model seringkali menjadi landasan asumsi yang dibuat oleh
analis/pengamat. Misalnya, dalam Contoh 1.2, ilmuwan mungkin ingin menggambarkan
beberapa tingkat perbedaan antara populasi nitrogen dan tanpa nitrogen melalui informasi
sampel. Analisis tersebut mungkin memerlukan model tertentu untuk datanya, misalnya,
kedua sampel tersebut berasal dari distribusi normal atau Gaussian (yang dibahas pada
perkuliahan selanjutnya).
Jelas, pengguna metode statistik tidak dapat menghasilkan informasi yang cukup
atau data eksperimen untuk mengkarakterisasi populasi secara keseluruhan. Tetapi
kumpulan data sering kali digunakan untuk mempelajari sifat-sifat tertentu dari populasi.
Ilmuwan dan insinyur terbiasa berurusan dengan kumpulan data. Pentingnya
mengkarakterisasi atau meringkas sifat kumpulan data harus jelas. Seringkali ringkasan dari
kumpulan data melalui tampilan grafis dapat memberikan pemahaman tentang sistem dari
mana data tersebut diambil. Misalnya, di Bagian 1.1 dan 1.3, kita telah dapati dengan dot
plots plot titik.
Pada bagian ini, peran pengambilan sampel dan tampilan data untuk peningkatan
inferensi statistik dieksplorasi secara rinci. Kita hanya diperkenalkan dengan beberapa
tampilan sederhana namun seringkali efektif yang melengkapi studi populasi statistik.
A. Plot Sebar
Kadang-kadang model yang didalilkan mungkin mengambil bentuk yang agak rumit.

2021 Probabilitas dan Statistik


30 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
Pertimbangkan, misalnya, produsen tekstil yang merancang eksperimen di mana spesimen
kain yang mengandung berbagai persentase kapas diproduksi. Perhatikan data pada Tabel
1.3.
Tabel 1.3 Kekuatan tarik

Lima spesimen kain diproduksi untuk masing-masing dari empat persentase kapas.
Dalam hal ini, baik model eksperimen maupun jenis analisis yang digunakan harus
mempertimbangkan tujuan eksperimen dan masukan penting dari ilmuwan tekstil. Beberapa
grafik sederhana dapat menjelaskan perbedaan yang jelas antara sampel. Lihat Gambar
1.5; rata-rata sampel dan variabilitas digambarkan dengan baik dalam plot pencar. Satu
tujuan yang mungkin dari percobaan ini adalah untuk menentukan persentase kapas mana
yang benar-benar berbeda dari yang lain. Dengan kata lain, seperti dalam kasus data
nitrogen/tanpa nitrogen, untuk persentase kapas manakah terdapat perbedaan yang jelas
antara populasi atau, lebih khusus lagi, antara rata-rata populasi? Dalam kasus ini, mungkin
model yang masuk akal adalah bahwa setiap sampel berasal dari distribusi normal. Di sini
tujuannya sangat mirip dengan data nitrogen/tanpa nitrogen kecuali bahwa lebih banyak
sampel yang terlibat. Formalisme analisis melibatkan gagasan pengujian hipotesis yang
dibahas dalam perkuliahan akhir. Secara kebetulan, formalitas ini mungkin tidak diperlukan
dalam kaitannya dengan plot diagnostik. Tetapi apakah ini menjelaskan tujuan sebenarnya
dari eksperimen dan karenanya merupakan pendekatan yang tepat untuk analisis data?
Kemungkinan bahwa ilmuwan mengantisipasi keberadaan kekuatan tarik rata-rata populasi
maksimum dalam kisaran konsentrasi kapas dalam percobaan. Di sini analisis data harus
berkisar pada jenis model yang berbeda, model yang mendalilkan jenis struktur yang
menghubungkan kekuatan tarik rata-rata populasi dengan konsentrasi kapas. Dengan kata
lain, model dapat ditulis

dimana μt,c adalah populasi rata-rata kekuatan tarik, yang bervariasi dengan jumlah
kapas dalam produk C. Implikasi dari model ini adalah bahwa untuk tingkat kapas tetap, ada
populasi pengukuran kekuatan tarik dan rata-rata populasi adalah μt,c. Jenis model ini, yang

2021 Probabilitas dan Statistik


31 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
disebut model regresi, dibahas dalam perkuliahan 14 dan 15. Bentuk fungsional dipilih oleh
ilmuwan. Terkadang analisis data mungkin menyarankan agar model diubah. Kemudian
analis data "menghibur" model yang mungkin diubah setelah beberapa analisis dilakukan.
Penggunaan model empiris disertai dengan teori estimasi, dimana β0, β1, dan β2 diestimasi
oleh data. Selanjutnya, inferensi statistik kemudian dapat digunakan untuk menentukan
kecukupan model.

Gambar 1.5 Plot sebar kekuatan tarik dan persentase kapas


Dua poin menjadi bukti dari dua ilustrasi data di sini: (1) Jenis model yang digunakan
untuk mendeskripsikan data seringkali bergantung pada tujuan eksperimen; dan (2) struktur
model harus memanfaatkan masukan ilmiah nonstatistik. Pilihan model mewakili asumsi
mendasar yang menjadi dasar inferensi statistik yang dihasilkan. Di seluruh perkuliahan
akan terlihat betapa pentingnya grafik. Seringkali, plot dapat menggambarkan informasi
yang memungkinkan hasil inferensi statistik formal untuk dikomunikasikan dengan lebih baik
kepada ilmuwan atau insinyur. Kadang-kadang, plot atau analisis data eksplorasi dapat
mengajarkan analis sesuatu yang tidak diambil dari analisis formal. Hampir semua analisis
formal membutuhkan asumsi yang berkembang dari model data. Grafik dapat dengan baik
menyoroti pelanggaran asumsi yang sebaliknya akan luput dari perhatian. Di sepanjang
buku ini, grafik digunakan secara ekstensif untuk melengkapi analisis data formal. Bagian
berikut mengungkapkan beberapa alat grafis yang berguna dalam analisis data eksplorasi
atau deskriptif.

B. Stem-and-Leaf Plot (Plot Batang dan Daun)


Data statistik, yang dihasilkan dalam massa besar, dapat sangat berguna untuk
mempelajari perilaku distribusi jika disajikan dalam tampilan tabel dan grafik gabungan yang

2021 Probabilitas dan Statistik


32 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
disebut plot batang dan daun.
Untuk mengilustrasikan konstruksi petak batang-dan-daun, perhatikan data pada
Tabel 1.4, yang menjelaskan “masa pakai” 40 aki mobil serupa yang direkam hingga
sepersepuluh tahun terdekat. Baterai dijamin bertahan 3 tahun. Pertama, bagi setiap
pengamatan menjadi dua bagian yang terdiri dari batang dan daun sehingga batang
mewakili digit sebelum desimal dan daun sesuai dengan bagian desimal dari angka
tersebut. Dengan kata lain, untuk angka 3.7, angka 3 melambangkan batang dan angka 7
melambangkan daun. Empat batang 1, 2, 3, dan 4 untuk data kita terdaftar secara vertikal di
sisi kiri pada Tabel 1.5; daun dicatat pada sisi kanan berlawanan dengan nilai batang yang
sesuai. Jadi, daun 6 dari angka 1.6 dicatat di seberang batang 1; daun 5 nomor 2.5 dicatat
di seberang batang 2; Dan seterusnya. Jumlah daun yang dicatat di seberang setiap batang
diringkas di bawah kolom frekuensi
Tabel 1.4 Umur baterai mobil

Tabel 1.5 Plot batang-dan-daun umur baterai

Plot batang dan daun pada Tabel 1.5 hanya berisi empat batang dan akibatnya tidak
memberikan gambaran yang memadai tentang sebarannya. Untuk mengatasi masalah ini,
kita perlu menambah jumlah batang di petak kita. Salah satu cara sederhana untuk
melakukannya adalah dengan menulis setiap nilai batang dua kali dan kemudian mencatat
daun 0, 1, 2, 3, dan 4 yang berlawanan dengan nilai batang yang sesuai di mana ia muncul
pertama kali, dan daun 5, 6, 7, 8, dan 9 berlawanan dengan nilai batang yang sama ini di
mana ia muncul untuk kedua kalinya. Petak batang dan daun yang dimodifikasi ini
diilustrasikan pada Tabel 1.6, di mana batang yang berhubungan dengan daun 0 sampai 4
diberi kode dengan simbol ⋆ dan batang yang berhubungan dengan daun 5 sampai 9 diberi
simbol ·.
Dalam masalah apa pun, kita harus memutuskan nilai batang yang sesuai.

2021 Probabilitas dan Statistik


33 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
Keputusan ini dibuat agak sewenang-wenang, meskipun kita dipandu oleh ukuran sampel
kita. Biasanya, kita akan memilih antara 5 dan 20 batang. Semakin kecil jumlah data yang
tersedia, semakin kecil pilihan kita untuk jumlah batangnya. Misalnya, jika data terdiri dari
angka 1 sampai 21 yang mewakili jumlah orang di antrean kafetaria pada 40 hari kerja yang
dipilih secara acak dan kita memilih plot batang dan daun ganda, batangnya akan menjadi
0⋆, 0 ·, 1⋆, 1 ·, dan 2⋆ sehingga pengamatan terkecil 1 memiliki batang 0⋆ dan daun 1,
angka 18 memiliki batang 1 · dan daun 8, dan pengamatan terbesar 21 memiliki batang 2⋆
dan daun 1. Sebaliknya, jika data terdiri dari angka dari $18.800 hingga $19.600 yang
mewakili kemungkinan kesepakatan terbaik untuk 100 mobil baru dari dealer tertentu dan
kita ingin memilih untuk menggunakan plot batang dan daun tunggal, batangnya akan
menjadi 188, 189, 190,. . . , 196 dan daunnya sekarang masing-masing berisi dua digit.
Sebuah mobil yang dijual seharga $ 19.385 akan memiliki nilai batang 193 dan daun dua
digit 85. Daun multi digit yang berasal dari batang yang sama biasanya dipisahkan dengan
koma di petak batang dan daun. Titik desimal dalam data umumnya diabaikan jika semua
angka di sebelah kanan desimal mewakili daun. Seperti yang terjadi pada Tabel 1.5 dan
1.6. Namun, jika data terdiri dari angka-angka mulai dari 21,8 hingga 74,9, kita dapat
memilih angka 2, 3, 4, 5, 6, dan 7 sebagai batang sehingga bilangan seperti 48,3 memiliki
nilai batang 4 dan a daun 8.3.
Tabel 1.6 Petak umur baterai dengan batang dan daun ganda

Plot batang dan daun merupakan cara yang efektif untuk meringkas data. Cara lain
adalah melalui penggunaan distribusi frekuensi, di mana data, yang dikelompokkan ke
dalam kelas atau interval yang berbeda, dapat dibuat dengan menghitung daun yang ada di
setiap batang dan mencatat bahwa setiap batang menentukan interval kelas. Pada Tabel
1.5, batang 1 dengan 2 daun mendefinisikan interval 1.0–1.9 yang berisi 2 pengamatan;
batang 2 dengan 5 daun menentukan interval 2.0–2.9 yang berisi 5 pengamatan; batang 3
dengan 25 daun menentukan interval 3,0–3,9 dengan 25 pengamatan; dan batang 4
dengan 8 daun mendefinisikan interval 4,0–4,9 yang berisi 8 pengamatan. Untuk plot
batang dan daun ganda pada Tabel 1.6, batang menentukan tujuh kelas dengan interval

2021 Probabilitas dan Statistik


34 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
1.5–1.9, 2.0–2.4, 2.5–2.9, 3.0–3.4, 3.5–3.9, 4.0–4.4, dan 4.5–4.9 dengan frekuensi 2, 1, 4,
15, 10, 5, dan 3, masing-masing.
C. Histogram
Dengan membagi frekuensi tiap kelas dengan jumlah observasi, diperoleh proporsi
himpunan observasi di masing-masing kelas. Tabel yang mencantumkan frekuensi relatif
disebut distribusi frekuensi relatif. Distribusi frekuensi relatif untuk data pada Tabel 1.4, yang
menunjukkan titik tengah setiap interval kelas, disajikan pada Tabel 1.7.
Informasi yang diberikan oleh distribusi frekuensi relatif dalam bentuk tabel lebih
mudah dipahami jika disajikan dalam bentuk grafik. Dengan menggunakan titik tengah dari
setiap interval dan frekuensi relatif yang sesuai, histogram frekuensi relatif (Gambar 1.6).
Banyak distribusi frekuensi kontinu dapat direpresentasikan secara grafis oleh
karakteristik kurva berbentuk lonceng pada Gambar 1.7. Alat grafis seperti yang kita lihat
pada Gambar 1.6 dan 1.7 membantu dalam karakterisasi sifat populasi. Dalam Bab 5 dan 6
kita membahas properti populasi yang disebut distribusinya. Sementara definisi yang lebih
ketat dari distribusi atau distribusi probabilitas akan diberikan nanti dalam teks, pada titik ini
orang dapat melihatnya seperti yang akan terlihat pada Gambar 1.7 dalam batas ketika
ukuran sampel menjadi lebih besar.
Sebuah distribusi dikatakan simetris jika dapat dilipat sepanjang sumbu vertikal
sehingga kedua sisinya bertepatan. Distribusi yang kurang simetris sehubungan dengan
sumbu vertikal disebut miring. Distribusi yang diilustrasikan pada Gambar 1.8 (a) dikatakan
miring ke kanan karena memiliki ekor kanan yang panjang dan ekor kiri yang jauh lebih
pendek. Pada Gambar 1.8 (b) kita melihat bahwa distribusinya simetris, sedangkan pada
Gambar 1.8 (c) distribusinya miring ke kiri.
Jika kita memutar plot batang dan daun berlawanan arah jarum jam melalui sudut
90◦, kita amati bahwa kolom daun yang dihasilkan membentuk gambar yang mirip dengan
histogram. Akibatnya, jika tujuan utama kita dalam melihat data adalah untuk menentukan
bentuk umum atau bentuk distribusi, jarang diperlukan pembuatan histogram frekuensi
relatif (Gambar 1.6).
Tabel 1.7 Distribusi frekuensi relatif umur baterai

2021 Probabilitas dan Statistik


35 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
Gambar 1.6 Histogram frekuensi relatif
Banyak distribusi frekuensi kontinu dapat direpresentasikan secara grafis oleh
karakteristik kurva berbentuk lonceng pada Gambar 1.7. Alat grafis seperti yang kita lihat
pada Gambar 1.6 dan 1.7 membantu dalam karakterisasi sifat populasi. Dalam perkuliahan
kita membahas properti populasi yang disebut distribusinya. Sementara definisi yang lebih
ketat dari distribusi atau distribusi probabilitas akan diberikan nanti pada pertengahan
perkuliahan, pada titik ini kita dapat melihatnya seperti yang akan terlihat pada Gambar 1.7
dalam batas ketika ukuran sampel menjadi lebih besar.

Gambar 1.7 Penaksiran distribusi frekuensi


Sebuah distribusi dikatakan simetris jika dapat dilipat sepanjang sumbu vertikal
sehingga kedua sisinya bertepatan. Distribusi yang kurang simetris sehubungan dengan
sumbu vertikal disebut miring. Distribusi yang diilustrasikan pada Gambar 1.8 (a) dikatakan
miring ke kanan karena memiliki ekor kanan yang panjang dan ekor kiri yang jauh lebih
pendek. Pada Gambar 1.8 (b) kita melihat bahwa distribusinya simetris, sedangkan pada
Gambar 1.8 (c) distribusinya miring ke kiri. Jika kita memutar plot batang dan daun
berlawanan arah jarum jam melalui sudut 90◦, kita amati bahwa kolom daun yang dihasilkan

2021 Probabilitas dan Statistik


36 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
membentuk gambar yang mirip dengan histogram. Akibatnya, jika tujuan utama kita dalam
melihat data adalah untuk menentukan bentuk umum atau bentuk distribusi, jarang
diperlukan pembuatan histogram frekuensi relatif.

Gambar 1.8 Kecondongan data


D. Plot Box-and-Whisker atau Box Plot (Plot Kotak-dan-Kumis atau Plot Kotak)
Tampilan lain yang berguna untuk mencerminkan properti sampel adalah plot kotak
dan kumis. Plot ini membungkus rentang interkuartil dari data dalam kotak yang mediannya
ditampilkan di dalamnya. Rentang interkuartil memiliki persentil ke-75 (kuartil atas) dan
persentil ke-25 (kuartil bawah) yang ekstrem. Selain kotak, “kumis” memanjang,
menunjukkan pengamatan ekstrim pada sampel. Untuk sampel yang cukup besar, tampilan
menunjukkan pusat lokasi, variabilitas, dan derajat asimetri. Selain itu, variasi yang disebut
plot kotak dapat memberikan informasi kepada pengamat tentang pengamatan mana yang
mungkin merupakan pencilan. Outlier/Pencilan adalah pengamatan yang dianggap sangat
jauh dari kumpulan data. Ada banyak uji statistik yang dirancang untuk mendeteksi
pencilan. Secara teknis, seseorang mungkin melihat pencilan sebagai pengamatan yang
mewakili "peristiwa langka" (ada kemungkinan kecil untuk mendapatkan nilai yang jauh dari
sebagian besar data). Konsep pencilan muncul kembali perkuliahan akhir dalam konteks
analisis regresi. Informasi visual dalam plot box-and-whisker atau box plot tidak
dimaksudkan sebagai tes formal untuk outlier. Sebaliknya, ini dipandang sebagai alat
diagnostik. Sementara penentuan observasi mana yang outlier bervariasi dengan jenis
perangkat lunak yang digunakan, salah satu prosedur yang umum adalah dengan
menggunakan beberapa rentang interkuartil. Misalnya, jika jarak dari kotak melebihi 1,5 kali
jarak interkuartil (di kedua arah), observasi dapat diberi label outlier.
Contoh 1.5 Kadar nikotin diukur dalam sampel acak sebanyak 40 batang rokok. Data
tersebut ditampilkan pada Tabel 1.8.
Tabel 1.8 Data Nikotin untuk Contoh 1.5

2021 Probabilitas dan Statistik


37 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
Gambar 1.9 Plot kotak-dan-kumis untuk Contoh 1.5
Gambar 1.9 menunjukkan plot kotak-dan-kumis dari data, yang menggambarkan
pengamatan 0,72 dan 0,85 sebagai outlier/pencilan ringan di ekor bawah, sedangkan
pengamatan 2,55 adalah pencilan ringan di ekor atas. Dalam contoh ini, rentang interkuartil
adalah 0,365, dan 1,5 kali rentang interkuartil adalah 0,5475. Gambar 1.10, sebaliknya,
memberikan plot batang dan daun.
Contoh 1.6: Perhatikan data pada Tabel 1.9, yang terdiri dari 30 sampel pengukur
ketebalan cat “kuping”. Gambar 1.11 menggambarkan plot box-and-whisker untuk kumpulan
data asimetris ini. Perhatikan bahwa balok kiri jauh lebih besar dari balok di kanan.
Mediannya adalah 35. Kuartil bawah adalah 31, sedangkan kuartil atas adalah 36.
Perhatikan juga bahwa pengamatan ekstrim di sebelah kanan lebih jauh dari kotak daripada
pengamatan ekstrim di sebelah kiri. Tidak ada pencilan dalam kumpulan data ini.

Gambar 1.10 Plot batang dan daun untuk data nikotin


Tabel 1.9 Data untuk contoh 1.6

2021 Probabilitas dan Statistik


38 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
Ada cara tambahan agar plot box-and-whisker dan tampilan grafis lainnya dapat
membantu analis. Beberapa sampel dapat dibandingkan secara grafis. Plot data dapat
menunjukkan hubungan antar variabel. Grafik dapat membantu dalam mendeteksi anomali
atau observasi luar dalam sampel. Ada jenis alat grafis dan plot lain yang digunakan. Ini
dibahas dalam perkuliahan tengah setelah kita dikenalkan secara detail tentang teoretis-
teoretis tambahan.

Gambar 1.11 Plot kotak-dan-kumis untuk ketebalan cat bisa “telinga”

E. Fitur Pembeda Lain dari Sampel


Terdapat ciri-ciri distribusi atau sampel selain ukuran pusat lokasi dan variabilitas
yang menentukan sifatnya lebih jauh. Misalnya, saat median membagi data (atau distribusi)
menjadi dua bagian, ada ukuran lain yang membagi bagian atau bagian dari distribusi yang
bisa sangat berguna. Pemisahan dibuat menjadi empat bagian oleh kuartil, dengan kuartil
ketiga memisahkan kuartil atas dari data lainnya, kuartil kedua menjadi median, dan kuartil
pertama memisahkan kuartil bawah dari data lainnya. Distribusi bahkan dapat lebih halus
dibagi dengan menghitung persentil distribusi. Kuantitas ini memberi analis gambaran
tentang apa yang disebut ekor distribusi (yaitu, nilai yang relatif ekstrim, baik kecil maupun

2021 Probabilitas dan Statistik


39 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
besar). Misalnya, persentil ke-95 memisahkan 5% tertinggi dari 95% terbawah. Definisi
serupa berlaku untuk ekstrem di sisi bawah atau ekor bawah distribusi. Persentil ke-1
memisahkan 1% terbawah dari distribusi lainnya. Konsep persentil akan memainkan peran
utama dalam banyak hal yang akan dibahas di bab-bab selanjutnya.

1.7. JENIS UMUM STUDI STATISTIK: EKSPERIMEN DIRANCANG, STUDI


OBSERVASIONAL, DAN STUDI RETROSPEKTIF
Pada bagian sebelumnya kita ditekankan pada pengertian pengambilan sampel dari
populasi dan penggunaan metode statistik untuk mempelajari atau mungkin menegaskan
informasi penting tentang populasi. Informasi yang dicari dan dipelajari melalui penggunaan
metode statistik ini seringkali dapat berpengaruh dalam pengambilan keputusan dan
pemecahan masalah di banyak bidang ilmiah dan teknik yang penting. Sebagai ilustrasi,
Contoh 1.3 menjelaskan percobaan sederhana di mana hasil dapat memberikan bantuan
dalam menentukan jenis kondisi di mana tidak disarankan untuk menggunakan paduan
aluminium tertentu yang mungkin memiliki kerentanan berbahaya terhadap korosi. Hasilnya
mungkin berguna tidak hanya bagi mereka yang memproduksi paduan, tetapi juga bagi
pelanggan yang mungkin mempertimbangkan untuk menggunakannya. Ilustrasi ini, serta
banyak lagi yang muncul bahasan statistika kita kedepan, menyoroti konsep perancangan
atau pengendalian kondisi eksperimental (kombinasi kondisi pelapisan dan kelembaban)
yang menarik untuk dipelajari tentang beberapa karakteristik atau pengukuran (tingkat
korosi) yang menghasilkan dari kondisi ini. Metode statistik yang menggunakan ukuran
tendensi sentral dalam pengukuran korosi, serta pengukuran variabilitas, digunakan.
Sebagaimana kita akan amati nanti dalam perkuliahan, metode ini sering mengarah pada
model statistik seperti yang dibahas di Bagian 1.6. Dalam hal ini, model dapat digunakan
untuk memperkirakan (atau memprediksi) ukuran korosi sebagai fungsi kelembaban dan
jenis lapisan yang digunakan. Sekali lagi, dalam mengembangkan model semacam ini,
statistik deskriptif yang menonjolkan tendensi sentral dan variabilitas menjadi sangat
berguna.
Informasi yang diberikan dalam Contoh 1.3 mengilustrasikan dengan baik jenis
pertanyaan teknik yang diajukan dan dijawab dengan menggunakan metode statistik yang
digunakan melalui eksperimen yang dirancang dan disajikan dalam perkuliahan ini. Yaitu,
(i) Apa sifat dari dampak kelembaban relatif terhadap korosi paduan aluminium
dalam kisaran kelembaban relatif dalam percobaan ini?
(ii) Apakah lapisan korosi kimiawi mengurangi tingkat korosi dan dapatkah

2021 Probabilitas dan Statistik


40 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
efeknya diukur dengan cara tertentu?
(iii) Apakah ada interaksi antara jenis lapisan dan kelembaban relatif yang
mempengaruhi pengaruhnya terhadap korosi paduan? Jika ya, apa
interpretasinya?
Pertanyaan (i) dan (ii) menjadi sangat penting dan harus jelas bagi kita, karena
menangani masalah yang penting bagi produsen dan pengguna paduan. Tapi bagaimana
dengan pertanyaan (iii)? Konsep interaksi akan dibahas panjang lebar di pertemuan 14 dan
15. Perhatikan plot pada Gambar 1.3. Ini adalah ilustrasi pendeteksian interaksi antara dua
faktor dalam eksperimen yang dirancang sederhana. Perhatikan bahwa garis yang
menghubungkan sarana sampel tidak sejajar. Paralelisme akan menunjukkan bahwa efek
(terlihat sebagai hasil kemiringan garis) dari kelembaban relatif adalah sama, yaitu efek
negatif, baik untuk kondisi tanpa lapisan maupun lapisan korosi kimia. Ingatlah bahwa
kemiringan negatif menyiratkan bahwa korosi menjadi lebih jelas saat kelembaban
meningkat. Kurangnya paralelisme menyiratkan interaksi antara jenis lapisan dan
kelembaban relatif. Garis yang hampir “datar” untuk lapisan korosi dibandingkan dengan
kemiringan yang lebih curam untuk kondisi tidak dilapisi menunjukkan bahwa tidak hanya
lapisan korosi kimiawi yang bermanfaat (perhatikan perpindahan antar garis), tetapi adanya
lapisan tersebut membuat efek kelembaban diabaikan. Jelas semua pertanyaan ini sangat
penting untuk pengaruh dua faktor individu dan interpretasi interaksi, jika ada.
Model statistik sangat berguna dalam menjawab pertanyaan seperti yang tercantum
dalam (i), (ii), dan (iii), di mana datanya berasal dari eksperimen yang dirancang. Tetapi
seseorang tidak selalu memiliki kemewahan atau sumber daya untuk menggunakan
eksperimen yang dirancang. Misalnya, ada banyak contoh di mana kondisi yang diminati
ilmuwan atau insinyur tidak dapat diterapkan hanya karena faktor penting yang tidak dapat
dikontrol. Dalam Contoh 1.3, kelembaban relatif dan jenis lapisan (atau kurangnya lapisan)
cukup mudah untuk dikontrol. Ini tentu saja adalah fitur penentu dari eksperimen yang
dirancang. Di banyak bidang, faktor-faktor yang perlu dipelajari tidak dapat dikendalikan
karena berbagai alasan. Kontrol ketat seperti pada Contoh 1.3 memungkinkan analis untuk
yakin bahwa setiap perbedaan yang ditemukan (misalnya, dalam tingkat korosi) disebabkan
oleh faktor-faktor yang dikendalikan. Sebagai ilustrasi kedua, pertimbangkan Forum 1.
Misalkan dalam hal ini 24 spesimen karet silikon dipilih dan 12 ditetapkan untuk masing-
masing tingkat suhu pengasapan. Suhu dikontrol dengan hati-hati, dan sehingga ini adalah
contoh eksperimen yang dirancang dengan faktor tunggal yang dianggap sebagai suhu
pengeringan. Perbedaan yang ditemukan dalam kekuatan tarik rata-rata akan diasumsikan

2021 Probabilitas dan Statistik


41 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
terkait dengan suhu pengeringan yang berbeda.

1.8. LATIHAN SOAL


1. Apa perbedaan statistik dengan statistika?
2. Apa beda statistika matematis (teoritis) dengan statistika praktis?
3. Bagaimana peranan statistika dalam kehidupan kita sehari-hari?
4. Bagaimana landasan kerja statistik?
5. tulis ketentuan dalam setiap jumlah yang ditunjukkan berikut:
6

∑ Xj
j=1 (a)
4

∑ ( X j −a )
j=1
(b)
5

∑ f k . Xk
k =1
(c)
4

∑ ( Y j−3 )2
j=1
(d)

6. Nilai siswa pada enam pemeriksaan adalah 84.91.72.68.87.78. Temukan rata-


rata aritmatika nilai !
7. Temukan rata-rata aritmatika angka : 5,3,6,5,4,5,2,8,6,5,4,8,3,4,5,4,8,2,5,4 !
8. Dari 100 angka, 20 adalah 4, 40 adalah 5, 30 adalah 6 dan sisanya adalah 7.
Tenemukan rata-rata aritmatika angka !
9. Hitunglah Mean, Median, dan Modus dari table berikut ini :

2021 Probabilitas dan Statistik


42 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.
Daftar Pustaka
1. Dayan, Anto, Pengantar Metode Statistik Jilid I, LP3ES, Jakarta, 1984
2. J.Supranto, Statistik Teori dan Aplikasi, Erlangga, Jakarta, 2000
3. Nasoetion, Andi Hakim & Barizi, Metode Statistika, PT. Gramedia Jakarta, Jakarta,
1987
4. Hasan M Iqbal 2003. Statistik I(statistic deskriptif). Jakarta. Bumi Aksara
5. Sudjana.1992. Metode Statistika. Bandung: Tarsito.
6. Sutrisno Hadi. 1992. Statistik Jilid I. Yogyakarta. Andi offset.
7. Amudi Pasaribu, 19830, Pengantar Statistik , Edisi keenam, Ghalia Indonesia.
8. J. Supranto, 2000, Statistik Teori dan Aplikasi , Edisi keenam Jilid I dan II, Penerbit
Erlangga
9. Murray R.Spiegel; I. Nyoman Susila, 1992, Teori dan Soal-Soal Statistik Versi SI
(Metrik), Penerbit Erlangga.
10. Ronald E.Walpole, 1982, Pengantar Statistika , Edisi ketiga, Penerbit PT. Gramedia,
Jakarta.

2021 Probabilitas dan Statistik


43 Dr. Setiyo Budiyanto, ST., MT
Lukman Medriavin Silalahi A.Md., ST.,MT.

Anda mungkin juga menyukai