Anda di halaman 1dari 15

SAMPEL DAN POPULASI

Elise Whitle* dan Jonathan Ball+

*Lecturer in Medical Statistics, University of Bristol, UK

Correspondence: Editorial Office, Critical Care, editorial@ccforum.com

Published online: 7 Ferbuary 2002 Critical Care 2002, 6:143-148


© 2002 BioMed Central Ltd (Print ISSN 1466-609X)

Abstrak

Tinjauan sebelumnya dalam seri ini memperkenalkan konsep deskripsi data dan menjelaskan
beberapa ringkasan langkah-langkah umum yang digunakan untuk menggambarkan
dataset. Namun, dataset biasanya hanya dari minat terhadap informasi yang diberikannya tentang
populasi darimana hal itu diambil. Ulasan ini berfokus pada estimasi nilai populasi dari sampel.
Kata kunci interval kepercayaan, distribusi normal, kisaran referensi, standar error

Dalam penelitian medis (dan lainnya) umumnya ada beberapa populasi pada akhirnya menarik
perhatian peneliti (mis. unit perawatan intensif [ICU], pasien dengan sindrom distress
pernapasan akut, atau pasien yang menerima terapi mengganti ginjal). Hal ini jarang mungkin
untuk mendapatkan informasi dari Setiap individu dalam populasi, bagaimanapun, perhatiannya
adalah lebih banyak dibatasi pada sampel yang diambil darinya. Pertanyaan tentang cara terbaik
untuk mendapatkan sampel semacam itu adalah subjek layak didiskusikan dengan sendirinya dan
tidak tercakup di sini. Namun demikian, sangat penting bahwa setiap sampel sedapat mungkin
menjadi wakil dari populasi yang diambil, dan cara terbaik untuk mendapatkan sampel semacam
itu umumnya melalui random sampling (Untuk lebih jelasnya lihat Bland [1].)

Begitu sampel (perwakilan) diperoleh penting untuk menggambarkan data dengan menggunakan
metode yang dijelaskan dalam tinjauan Statistik 1. Namun, minat jarang terfokus pada sampel itu
sendiri, tapi lebih sering pada informasi itu Sampel dapat menyajikan perihal populasi yang
diminati.

1
Distribusi Normal
Data klinis kuantitatif mengikuti lebarnya jarak distriusi. Sejauh ini yang paling seiring adalah
simetris dan unimodal, dengan satu puncak di tengah dan ekor yang sama di kedua sisinya.
Distribusi berbentuk lonceng khas ini dikenal sebagai 'Normal' atau 'Gaussian'. Perhatikan bahwa
Normal dalam konteks ini (ditulis dengan huruf besar 'N') tidak memiliki implikasi dalam hal
klinis normal, dan digunakan murni untuk menggambarkan bentuk distribusi.

Sebenarnya, distribusi teoritis normal terus berkelanjutan, seperti yang ditunjukkan pada Gambar
1. Namun, data seperti yang ditunjukkan pada Gambar 2, yang menyajikan admisi konsentrasi
hemoglobin dari pasien perawatan intensif, seringkali memberikan perkiraan yang terbaik dalam
praktek

Ada banyak teori distribusi lainnya yang mungkin ditemui dalam data medis, misalnya Binary
atau Poisson [2], tetapi distribusi normal adalah yang paling sering. Selain itu penting karena
memiliki banyak khasiat yang bermanfaat dan sangat penting bagi banyak teknik
statistik. Sebenarnya tidak jarang distribusi lainnya cenderung ke arah Normal distribusi dengan
ukuran sampel yang meningkat, artinya memang sering mungkin untuk menggunakan
pendekatan normal. Ini adalah kasus dengan dua distribusi Binary dan Poisson.

Salah satu fitur terpenting dari distribusi Normal adalah bahwa itu sepenuhnya didefinisikan oleh
dua kuantitas: mean dan standar deviasi (SD). Mean menentukan dimana puncak terjadi dan SD
menentukan bentuk kurva.
Misalnya, Gambar 3 menunjukkan dua kurva normal. Keduanya memiliki Mean yang sama dan
karena itu memiliki puncak pada nilai yang sama. Namun, satu kurva memiliki SD besar, yang
mencerminkan jumlah deviasi yang besar dari mean, yang tercermin pada pendek, lebar pada
bentuknya. Yang lainnya memiliki SD kecil, menunjukkan bahwa nilai individu umumnya
mendekati nilai mean, dan ini tercermin pada tinggi, sempit distribusinya.

Ada kemungkinan untuk menuliskan persamaan untuk kurva Normal dan, dari sini, untuk
menghitung daerah di bawahnya yang jatuh di antara dua nilai. Karena kurva Normal
didefinisikan sepenuhnya oleh mean dan SD, aturan berikut (ditunjukkan oleh bagian a-c pada

2
Gambar 4) akan selalu berlaku terlepas dari nilai spesifik dari kuantintas ini: (a) 68,3% dari
distribusi jatuh pada 1 SD dari mean (yaitu antara mean - SD dan mean + SD); (b) 95,4% dari
distribusi jatuh antara mean - 2 SD dan mean + 2 SD; (c) 99,7% dari distribusi jatuh antara mean
- 3 SD dan mean + 3 SD; dan seterusnya.

Proporsi kurva Normal yang jatuh antara rentang lain (tidak harus simetris, seperti di sini) dan,
kalau tidak, rentang yang berisi proporsi tertentu dari Kurva normal dapat dihitung dari nilai
tabulasi [3]. Namun, satu proporsi dan rentang minat tertentu adalah sebagai berikut (ditunjukkan
oleh bagian d pada Gambar 4); 95% dari distribusi turun antara rata-rata - 1,96 SD dan rata-rata
1,96 SD.

3
4
5
Standar Deviasi dan Rentang Referensi
Dari Sifat-sifat distribusi Normal yang dijelaskan di atas muncul pengukuran variabilitas lainnya
yang berguna dalam dataset. Dari pada menggunakan SD secara terpisah, rentang referensi 95%
dapat dihitung sebagai (mean - 1.96 SD) sampai (mean + 1,96 SD), asalkan datanya (kurang
lebih) adalah distribusi normal. Rentang ini akan berisi sekitar 95% dari data. Hal ini juga
memungkinkan untuk menentukan kisaran referensi 90%, Rentang referensi 99% dan seterusnya
dengan cara yang sama, tapi secara konvensional Rentang referensi 95% adalah yang paling
umum digunakan.
Misalnya, pertimbangkan konsentrasi masuk hemoglobin dari sampel 48 pasien perawatan
intensif (lihat ulasan statistik 1 untuk rinciannya). Mean dan SD konsentrasi hemoglobin masing-
masing adalah 9.9g / dl dan 2.0g / dl. Rentang referensi 95% untuk konsentrasi hemoglobin pada
pasien-pasien ini :
(9.9 - [1.96 × 2.0]) sampai (9.9 + [1.96 × 2.0]) = 5,98 sampai 13,82 g / dl.

Dengan demikian, sekitar 95% dari semua pengukuran hemoglobin Dalam dataset ini harus
terletak antara 5,98 dan 13,82 g / dl. Perbandingan hal ini dengan pengukuran dicatat pada Tabel
1 ulasan statistic 1, ada tiga pengamatan di luar jarak ini. Dengan kata lain, 94% (45/48) dari
semua pengamatan dalam rentang referensi, seperti yang diharapkan.

Sekarang perhatikan data yang ditunjukkan pada Gambar.5. gambar tersebut adalah pengukuran
laktat darah diambil dari 99 pasien perawatan intensif saat masuk ke ICU. Mean dan SD dari
pengukuran ini masing-masing adalah 2.74mmol / l dan 2.60mmol / l, sesuai dengan kisaran
referensi 95% dari -2,36 sampai +7.84 mmol / l. Jelas batas bawah ini tidak mungkin karena
Konsentrasi laktat harus lebih besar dari 0, dan hal ini muncul karena datanya tidak terdistribusi
secara normal. Menghitung rentang referensi dan jumlah statistik lainnya tanpa terlebih dahulu
memeriksa distribusi data adalah kesalahan umum dan dapat menyebabkan hasil yang sangat
menyesatkan dan kesimpulan yang keliru. Dalam kasus ini kesalahannya sudah jelas, tapi hal ini
tidak selalu demikian Oleh karena itu penting bahwa apapun Asumsi yang mendasari
perhitungan statistik secara hati-hati diperiksa sebelum diproses. Contoh saat ini transformasi
sederhana (misalnya logaritmik) dapat membuat data kurang lebih Normal, dalam hal ini rentang

6
referensi bisa secara sah dihitung sebelum mengubah kembali ke skala aslinya (lihat tinjauan
Statistik 1 untuk rinciannya).

Dua kuantitas yang terkait dengan SD dan rentang referensi yaitu standar error (SE) dan interval
kepercayaan. Kuantitas ini memiliki beberapa kesamaan tetapi mereka mengukur hal yang sangat
berbeda dan hal ini penting agar mereka tidak membingungkan.

Dari Sampel ke Populasi


Seperti disebutkan di atas, sampel umumnya dikumpulkan dan dilakukan perhitungan sampel
untuk ditarik kesimpulan tentang populasi dari mana itu ditarik. Namun, sampel ini merupakan
satu dari sekian banyak kemungkinan sampel yang mungkin sudah ditarik. Semua sampel-sampe
ini akan berbeda dalam kondisi secara individu dan pengamatan yang dikandungnya, dan jadi
perkiraan nilai populasi dari satu sampel tunggal tidak harus mewakili populasi. Oleh karena itu
penting untuk mengukur variabilitas yang melekat dalam perkiraan sampel. Secara sederhana,
sisa dari Kajian saat ini berkonsentrasi secara khusus pada estimasi mean populasi.

Pertimbangkan semua kemungkinan sampel ukuran tetap (n) yang diambil dari
populasi. Masing-masing sampel memiliki meannya sendiri dan mean ini akan bervariasi antar
sampel. Karena variasi ini, mean sampel akan memiliki distribusi sendiri.

7
Padahal, jika sampelnya cukup besar (lebih besar dari sekitar 30 dalam praktek) maka distribusi
mean sampel ini berarti diketahui Normal, apapun yang mendasari distribusi populasi. Hal ini
adalah hasil yang sangat dahsyat dan merupakan konsekuensi dari apa yang dikenal sebagai
Central Limit Theorem. Karena hal ini maka mungkin untuk menghitung mean dan SD dari
mean-mean sampel.
Mean dari semua mean sampel sama dengan mean populasi (karena setiap kemungkinan sampel
akan berisi jumlah waktu yang sama secara individu). Sama seperti SD dalam sampel mengukur
deviasi nilai individu dari mean sampel, SD dari mean sampel mengukur deviasi mean sampel
individu dari mean populasi. Dengan kata lain, hal itu mengukur variabilitas dalam mean
sampel. Untuk membedakannya dari sampel SD, hal tersebut dikenal sebagai standar error
(SE). Seperti SD, SE besar menunjukkan Ada banyak variasi dalam mean sampel dan bahwa
banyak terletak jauh dari mean populasi. Begitu pula SE kecil menunjukkan sedikit variasi antara
mean sampel. Ukuran dari SE tergantung pada variasi antara individu dalam populasi dan pada
ukuran sampel, dan dihitung sebagai berikut:
SE = σ / √ n (1)
dimana σ adalah SD populasi dan n adalah ukuran sampel.
Dalam prakteknya, σ tidak diketahui namun sampel SD umumnya memberikan perkiraan yang
baik sehingga SE diperkirakan oleh persamaan berikut:
SE = Sampel SD / √ n (2)
Bisa dilihat dari sini bahwa SE akan selalu diperhatikan lebih kecil dari SD dalam sampel. Hal
ini dikarenakan kurangnya variabilitas antara mean sampel daripada antara nilai
vidual. Misalnya, tingkat hemoglobin individual 8 g / dl tidak jarang terjadi, namun untuk
mendapatkan sampel 100 pasien dengan mean kadar hemoglobin 8 g / dl akan membutuhkan
mayoritas untuk memiliki nilai di bawah rata-rata, dan Hal ini tidak mungkin terjadi dalam
praktik jika sampel benar-benar mewakili populasi pasien ICU.
Juga jelas bahwa ukuran sampel yang lebih besar menyebabkan lebih kecil standar error (karena
penyebut, √ n , lebih besar). Dengan kata lain, ukuran sampel yang besar menghasilkan perkiraan
yang lebih tepat nilai populasi yang dimaksud. Ha Ini adalah hal yang penting untuk diingat saat
menentukan ukuran sampel yang dibutuhkan sebuah studi tertentu, dan akan dibahas secara lebih
rinci dalam review selanjutnya pada perhitungan ukuran sampel.

8
Standar Error dan Interval Kepercayaan
Karena mean sampel didistribusikan secara normal, seharusnya mungkin untuk menggunakan
teori yang sama seperti untuk rentang referensi untuk menghitung rentang nilai dimana 95%
mean sampel terletak. Dalam prakteknya, mean populasi (mean dari semua mean sampel) tidak
diketahui tapi ada kuantitas yang sangat berguna, dikenal sebagai interval kepercayaan 95%,
yang bisa diperoleh dengan cara yang sama. Interval kepercayaan 95% tidak dapat dinilai pada
perkiraan karena interval kepercayaan tersebut menyediakan rentang nilai di mana mean
populasi sebenarnya cenderung terletak. Interval kepercayaan 95% dihitung dari satu sampel
dengan menggunakan mean dan SE (berasal dari SD, seperti yang dijelaskan di atas).
Hal didefinisikan sebagai berikut: (mean sampel - 1,96 SE) menjadi (sampel berarti + 1,96 SE).

Untuk menghargai nilai interval kepercayaan 95%, perhatikan Gambar 6. menunjukkan distribusi
(hipotetis) dari mean sampel berpusat di sekitar mean populasi. Karena SE adalah SD dari
distribusi semua mean sampel, kira-kira 95% dari semua mean sampel akan berada dalam 1,96
SEs dari mean populasi (tidak diketahui), seperti yang ditunjukkan oleh daerah teduh. Interval
kepercayaan 95% dihitung dari sampel dengan mean yang terletak di dalam area yang teduh ini
(mis. interval kepercayaan A pada Gambar 6) akan berisi mean populasi sebenarnya. Sebaliknya,
interval kepercayaan 95% berdasarkan sampel dengan mean di luar area ini (misalnya interval
kepercayaan B pada Gambar 6) tidak termasuk mean populasi. Dalam prakteknya tidak mungkin
untuk mengetahui apakah sampel jatuh ke dalam kategori yang pertama atau kedua; Namun,
karena 95% dari semua mean sampel jatuh ke daerah yang teduh, yaitu interval keyakinan
berdasarkan sampel tunggal kemungkinan mengandung mean populasi 95% yang sebenarnya
waktu itu. Dengan kata lain, diberi 95% interval kepercayaan berdasarkan sampel tunggal,
penyidik dapat 95% yakin bahwa mean populasi sebenarnya (yaitu pengukuran kepentingan
yang sebenarnya) terletak pada rentang tersebut. Sama pentingnya adalah bahwa 5% dari interval
semacam itu tidak akan mengandung nilai populasi sebenarnya. Namun, pilihan dari 95% adalah
murni berubah-ubah, dan menggunakan interval kepercayaan 99% (dihitung rata-rata ± 2,56SE)
malah akan membuatnya lebih mungkin bahwa nilai sebenarnya terkandung dalam rentang
tersebut. Namun, biaya perubahan ini adalah kisarannya akan lebih luas dan karena itu kurang
tepat.

9
Sebagai contoh, pertimbangkan contoh dari 48 pasien perawatan intensif yang konsentrasi
hemoglobinnya dijelaskan di atas. Mean dan SD dari dataset tersebut adalah 9,9 g / dl dan 2,0 g /
dl, yang sesuai dengan Rentang referensi 95% dari 5,98 sampai 13,82 g / dl. Perhitungan Interval
kepercayaan 95% bergantung pada SE, yang dalam kasus ini adalah 2,0 / √48 = 0,29. Maka
Interval kepercayaan 95% adalah:
(9.9 - [1.96 × 0.29]) sampai (9.9 + [1.96 × 0.29]) = 9,33 sampai 10,47 g / dl
Jadi, mengingat sampel ini, kemungkinan besar mean populasi Konsentrasi hemoglobin antara
9,33 dan 10,47 g / dl. Perhatikan bahwa kisaran ini secara substansial lebih sempit daripada
sesuai kisaran referensi 95% (yaitu 5,98 sampai 13,82 g / dl; lihat di atas). Jika sampel
didasarkan pada 480 pasien bukan hanya 48, maka SE akan jauh lebih kecil (SE = 2,0 / √480 =
0,09) dan interval kepercayaan 95% (9,72 sampai 10,08 g / dl) akan menjadi lebih sempit.

Tentu saja interval kepercayaan hanya bisa ditafsirkan pada konteks populasi tempat sampel
diambil.
Misalnya, interval kepercayaan untuk penerimaan konsentrasi hemoglobin dari sampel
perwakilan pasca operasi jantung pasien perawatan intensif bedah menyediakan rentang nilai di
mana mean populasi penerimaan konsentrasi haemoglobin terletak, pada pasien perawatan
intensif pasca operasi bedah jantung. Itu tidak memberikan informasi pada kisaran kemungkinan
konsentrasi hemoglobin masuk di pasien perawatan intensif medis.

10
Interval Kepercayaan untuk Sampel Lebih Kecil
Perhitungan interval kepercayaan 95%, seperti yang dijelaskan Di atas, bergantung pada dua
asumsi: bahwa distribusi mean sampel kira-kira Normal dan bahwa populasi SD dapat didekati
dengan sampel SD. Asumsi ini, terutama yang pertama, umumnya berlaku jika sampel cukup
besar. Mungkin ada saat dimana asumsi ini rusak, bagaimanapun, dan ada metode alternative
yang bisa digunakan dalam keadaan seperti ini. Jika Distribusi populasi sangat tidak normal dan
Ukuran sampel sangat kecil maka mungkin perlu menggunakan metode non-parametrik (Ini
akan dibahas dalam review selanjutnya.) Namun, dalam kebanyakan situasi masalahnya bisa
ditangani dengan menggunakan t-distribution menggantikan Normal distribusi.
t-distribution serupa dengan distribusi Normal, simetris dan unimodal, namun umumnya lebih
menyebar keluar dengan ekor yang lebih panjang. Bentuk yang tepat tergantung pada kuantitas
dikenal sebagai 'derajat kebebasan', yang dalam konteks ini adalah sama dengan ukuran sampel
minus 1. t-distribution untuk ukuran sampel 5 (derajat kebebasan = 4) diperlihatkan dalam
11
bentuk perbandingan dengan distribusi Normal pada Gbr.7, di mana ekor yang lebih panjang dari
t-distribution ditunjukkan dengan jelas. Namun, t-distribution cenderung menuju distribusi
Normal (missal menjadi kurang menyebar) sebagai derajat kebebasan / sampel ukuran
meningkat. Gambar 8 menunjukkan t-distribution yang sesuai dengan ukuran sampel 20 (derajat
kebebasan = 19), dan bisa juga terlihat bahwa itu sudah sangat mirip dengan yang sesuai Kurva
normal.
Menghitung interval kepercayaan menggunakan t-distribution ini sangat mirip dengan
menghitungnya dengan menggunakan distribusi Normal, seperti dijelaskan di atas. Pada kasus
distribusi normal, Perhitungannya didasarkan pada fakta bahwa 95% sampel berarti berada
dalam 1,96 SEs dari mean populasi. Ekor yang lebih panjang dari t-distribution berarti perlu
pergi sedikit lebih jauh dari mean untuk mengambil 95% dari mean sampel. Namun,
perhitungannya sama, dengan hanya angka 1.96 yang berubah. Perkalian faktor alternative
tergantung pada derajat kebebasan t-distribution yang dimaksud, dan beberapa nilai tipikal
adalah disajikan pada Tabel 1.

Sebagai contoh, pertimbangkan penerimaan konsentrasi hemoglobin yang dijelaskan di


atas. Mean dan SD masing-masing adalah 9,9 g / dl dan 2.0g / dl. Jika sampel didasarkan pada 10
Pasien bukan 48, akan lebih tepat untuk menggunakan t- distribution untuk menghitung interval
kepercayaan 95%. Pada Kasus ini interval kepercayaan 95% diberikan oleh berikut ini: mean ±
2,26 SE. SE berdasarkan ukuran sampel 10 adalah 0,63, dan interval kepercayaan 95% adalah
8,47 11.33 g / dl.

Perhatikan karena ukuran sampel meningkatkan perkalian faktor yang ditunjukkan pada Tabel 1
menurun menjadi 1,96 (faktor perkalian untuk ukuran sampel tak terbatas adalah 1,96). Faktor
perkalian yang lebih besar untuk hasil sampel yang lebih kecil pada interval kepercayaan yang
semakin lebar, dan ini mencerminkan ketidakpastian pada perkiraan populasi SD oleh sampel

12
SD. Penggunaan t-distribution diketahui sangat kuat dan akan demikian memberikan interval
kepercayaan yang valid kecuali distribusi populasi sangat tidak normal.

Standar Deviasi atau Standar Error?


Sering terdapat banyak kebingungan antara SD dan SE (dan, sama, antara rentang referensi dan
interval kepercayaan). SD (dan rentang referensi) menggambarkan jumlah variabilitas antara
individu dalam satu sampel. SE (dan interval kepercayaan) mengukur ketelitian dengan nilai

13
populasi (yaitu mean) diperkirakan oleh satu sampel tunggal. Pertanyaan tentang ukuran mana
yang harus digunakan dengan baik disimpulkan oleh Campbell dan Machin [4] pada mnemonic
berikut ini: "Jika tujuannya adalah deskriptif gunakan standar Deviasi ; Jika tujuannya adalah
Estimasi gunakan Standard Error. "
Interval kepercayaan adalah bagian yang sangat berguna dari setiap analisis statistic, dan dirujuk
secara ekstensif pada sisa ulasan dalam seri ini. Kajian ini berkonsentrasi pada perhitungan
interval kepercayaan untuk mean tunggal. Namun, hasil yang disajikan di sini berlaku sama
untuk proporsi populasi, rentang, perbedaan, rasio dan sebagainya. Untuk rincian tentang cara
menghitung SE dan interval kepercayaan, lihat Kirkwood [2] dan Altman [3].

Pesan Kunci
SD dan rentang reverensi 95% menggambarkan variabilitas sebuah sampel. Jumlah ini paling
baik digunakan saat tujuannya adalah deskripsi.
SE dan interval kepercayaan 95% menggambarkan variabilitas antar sampel, dan oleh karena itu
memberikan ukuran ketepatan nilai populasi yang diperkirakan dari satu sampel. Dengan kata
lain, interval kepercayaan 95% menyediakan rentang nilai di mana nilai populasi sebenarnya
cenderung terletak. Jumlah ini paling baik digunakan saat Tujuannya adalah estimasi.

Kepentingan Bersaing
Tidak ada yang menyatakan

14
REFERENSI
1. Bland M: Pengantar Statistik Medis . Ed. Oxford, Inggris: Oxford University
Press; 2001.
2. Kirkwood BR: Petunjuk Medis Penting . London, Inggris: Blackwell Science Ltd; 1988.
3. Altman DG: Statistik Praktis untuk Penelitian Medis . London, Inggris: Chapman &
Hall; 1991.
4. Campbell MJ, Machin D: Statistik Medis: sebuah Commonsense Pendekatan. Edisi ke
2 Chichester, Inggris: John Wiley & Sons Ltd; 1993.

15

Anda mungkin juga menyukai