Sepuluh Kesalahan Dalam Statistik, Tambahan Bacaan

Sepuluh Kesalahan dalam Menyimpulkan Hasil Analisis
Statistik
(Rumsey, 2007. Intermediate Statistics for Dummies)
1. Statistik membuktikan ….
2. Terlalu Mendewakan Nilai Signifikan
3. Kesalahan Menyimpulkan Hubungan Sebab-
Akibat
4. Mengasumsikan Data Berdistribusi Normal. . .
5. Hanya Menampilkan Hasil-hasil yang "Penting" …
6. Sampel yang besar selalu “lebih baik”
7. Random Sampel, Tapi . . .
8. Seribu Responden sama dengan 1.000 Respon….
9. Hasil penelitian selalu dapat menggambarkan
populasi umum....
10. Lewatkan informasi penting dan dirasa tidak
perlu…
1.Statistik membuktikan ….
Faktanya statistik tidak pernah membuktikan apapun. Statistik
hanyalah alat bantu. Statistik membantu dalam menguji suatu
teori (menerima atau menolak) berdasarkan data/sampel yang
dikumpulkan, kemudian ia meninggalkan Anda untuk membuat
kesimpulan sendiri.
Statistik hanya membimbing Anda/sebagai alat bantu untuk
percaya/untuk menyimpulkan – tapi tidak pernah statistik
membuktikan apapun.
2. Terlalu Mendewakan Nilai Signifikan (P-value)
Suatu penelitian efek minum teh terhadap kejadian jantung

koroner (PJK) pada 4000 orang, ditemukan insiden PJK pada
yang biasa minum teh adalah 17% dan pada yang tidak biasa
minum teh 15% (berbeda 2%) dengan nilai-p = 0,048. Peneliti
menyimpulkan "Saya percaya kebiasaan minum teh berisiko
untuk PJK dengan nilai-p 0,048 yang secara statistik signifikan
(nilai-p kurang dari 0,05)".
Penelitian lain, untuk membuktikan teori ESP (anjing punya

indera ke-enam) dilakukan 10 kali percobaan terhadap anjing,
ternyata 70 persen benar dengan nilai-p = 0,345. Secara teknis
70% lebih tinggi dari nilai yang diharapkan 50 persen), namun
itu tidak cukup untuk menjamin signifikan secara statistik
(percobaan terlalu sedikit hanya 10 kali). Dengan kata lain, tidak
cukup bukti untuk mendukung teori ESP . Peneliti
menyimpulkan " Anjing-anjing itu benar 65 persen. Walaupun
secara statistik tidak signifikan, tapi saya percaya bahwa anjing
memiliki ESP ".
3. Kesalahan Menyimpulkan Hubungan Sebab-Akibat
Suatu penelitian terhadap diare pada Balita, hasil analisis regresi

logistik multivariat menyimpulkan bahwa faktor paling utama
adalah kepemilikan antene parabola. Sarannya: “pasanglah
antene parabola untuk menurunkan kejadian diare pada
Balita”.
Suatu penelitian terhadap nilai ujian mahasiswa, hasil analisis

regresi linier multivariat menyimpulkan bahwa faktor utama
yang menentukan nilai ujian adalah lama waktu belajar dan
lama waktu tidur pada malam sebelum ujian. Simpulannya
adalah belajar lebih lama dan tidur lebih lama pada malam
sebelum ujian menyebabkan nilai ujian lebih tinggi.
Semua penelitian memerlukan cara untuk mengendalikan faktor
terkait lainnya (konfounding). Satu-satunya cara untuk
mengendalikan faktor-faktor lain adalah dengan melakukan
eksperimen
(lengkap dengan kelompok perlakuan dan kelompok kontrol
serta konfounding). Mengklaim penyebab tanpa melakukan
eksperimen adalah kesalahan fatal beberapa peneliti ketika
mereka menarik kesimpulan.
4. Mengasumsikan Data Berdistribusi Normal. . .

Asumsi adalah sesuatu yang Anda percaya tanpa memeriksanya.
Asumsi dapat menyebabkan salah
analisis. Misalnya uji-T atau Anova hanya akurat apabila data
berdistribusi normal (statistik parametrik), jika tidak normal
harus digunakan uji median atau kruskal-wallis (statistik non
parametrik).
Peneliti sering hanya berasumsi data berdistribusi normal tanpa
memastikan secara tepat.
Uji distribusi normal  Histogram
2. Hasil Uji Normalitas...
1. Histogram Sistolik Normal
2. Uji statistik  Sistolik tidak
Normal
(Hati2 jika n besar, rentan untuk
tidak normal, karena n besar SE
mengecil)
. swilk sistol Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z
-------------+--------------------------------------------------
sistol | 4635 0.92521 189.408 13.727 0.00000
Besral, FKM UI, 2010 Hal 15
5. Hanya Menampilkan Hasil-hasil yang "Penting" menurut

peneliti…
Sebagai seorang analis data, Anda harus menghindari untuk

melaporkan hanya hasil yang signifikan, menarik, dan
bermakna saja. Tetapi harus menampilkan juga hasil yang tidak
signifikan, tidak menarik, dan tidak bermakna secara berimbang.
Seorang peneliti harus jujur melaporkan apa adanya, jangan ada
yang ditutup-tutupi.
6. Sampel yang “lebih besar” selalu “lebih baik”
Semakin besar sampel, semakin tinggi akurasi (kesalahan akibat

pengambilan sampel/sampling error semakin kecil), dan
semakin tinggi kemungkinan untuk menolak Ho (semakin tinggi
kemampuan untuk mendeteksi adanya perbedaan antar
kelompok). Kemampuan untuk mendeteksi perbedaan antar
kelompok disebut kekuatan uji (power of the test).
Contoh: Dinkes Kab X melaporkan cakupan imunisasi Bayi telah

mencapai 80%. Untuk membuktikannya, dilakukan survei
terhadap 200 anak usia 12-24 bulan yang dipilih secara acak,
ditemukan cakupan imunisasi lengkap adalah 77,5%. Setelah
dilakukan uji statistik beda proporsi didapatkan nilai-p 0,123,
gagal menolak Ho, disimpulkan cakupan 77,5% sama dengan
80%. Laporan Dinkes benar.
Sebuah LSM kesehatan tidak puas dengan hasil tersebut,

mereka minta dilakuan survei ulang dengan jumlah sampel yang
lebih besar. Dilakukanlah survei kedua dengan 1.200 sampel,
ditemukan cakupan imunisasi lengkap 78%. Setelah dilakukan uji
statistik didapatkan nilai-p 0,048, Ho ditolak, disimpulkan
cakupan imunisasi 78% lebih rendah dari 80%. Cakupan
imunisasi belum mencapai 80%, laporan Dinkes salah.
7. Random Sampel, Tapi . . .

Pada peringatan hari AIDS sedunia, Anda berdiri di pintu suatu
Mall di Kota Depok kemudian meminta kesediaan pengunjung
untuk mengisi kuesioner tentang HIV/AIDS. Sebanyak 200
pengunjung berhasil mengisi kuesioner dan 20 orangnya
memiliki pengetahuan yang baik. Kemudian anda simpulkan
bahwa hanya 10% penduduk kota Depok yang memiliki
pengetahuan yang baik tentang HIV/AIDS. Kesimpulan anda
salah, karena sampel anda tidak dipilih secara random dari
populasi penduduk di kota Depok.
Pada peringatan hari Kesehatan Nasional, Anda mendatangi

semua Puskesmas di Kota Depok (32 Puskesmas), kemudian
memeriksa tinggi badan dan berat anak balita pengunjung
puskesmas pada hari itu. Sebanyak 320 balita berhasil anda
periksa, dan anda menyimpulkan bahwa prevalensi gizi kurang
dan gizi buruk di kota Depok adalah sekian persen. Kesimpulan
anda salah, karena sampel anda hanya mewakili populasi
Balita yg sakit (berkunjung ke Puskesmas) di kota Depok.
Untuk memilih penduduk di Kota Depok secara random, anda

membutuhkan daftar yang berisi Nomor, Nama, dan Alamat
semua penduduk dewasa (misalnya Daftar penduduk berusia 17
-- 49 tahun) kemudian pilih secara acak menggunakan bilangan
random di program Excel.
Untuk memilih anak Balita di Kota Depok secara random, anda
membutuhkan daftar yang berisi Nomor, Nama dan Alamat
semua balita (anak usia 0-59 bulan) kemudian pilih secara acak
menggunakan bilangan random di program Excel.
8. Seribu Responden sama dengan 1.000 Respon….
Adanya bias (selection bias, information bias, dan confounding)

akan membuat rancu hasil survei (internal validity rendah).
Salah satu bentuk selection bias adalah non-respon atau drop-
out. Survei yang dilakukan dengan metode telepon, email, surat
POS, dan sejenisnya sangat rawan terhadap non-respon.
Contoh: Dari 4000 responden yang kirimkan kuesioner via POS

tentang kecurangan pada laporan pajak, hanya 1000 responden
yang mengisi dan mengembalikan kuesioner. Dari 1000
responden, sebanyak 400 mengaku melakukan kecurangan pada
laporan pajaknya (400/1000 = 40%).
Apa yang terjadi dengan 3000 responden lainnya, hanya Tuhan
yang tahu? Tetapi peneliti yang cermat juga bisa tahu.
Anggaplah 2000 dari mereka langsung membuang kuesioner
karena merasa takut ketahuan telah melakukan kecurangan
pada laporan pajaknya dan 1000 lainnya tidak berminat untuk
mengisi kuesioner dan juga tidak melakukan kecurangan pada
laporan pajaknya. Jadi, sebetulnya yang melakukan kecurangan
pada laporan pajak = (400 + 2000)/4000 = 60%
9. Hasil penelitian selalu dapat menggambarkan populasi

umum....
Dalam mengeneralisasikan hasil studi harus dipastikan siapa

sampel dari studi tersebut (eksternal validity). Jangan sampai
terjadi sampel yang ditarik dari daftar telepon PT Telkom, daftar
alamat email, daftar mahasiswa, daftar pelanggan
koran/majalah dan sejenisnya kemudian disimpulkan hasil studi
dapat menggambarkan populasi umum.
Contoh: Survei tentang calon presiden, jika hanya ditanyakan

pada penduduk yang memiliki nomor telepon, dipastikan
hasilnya tidak akan akurat untuk menggambarkan pilihan calon
presiden dari penduduk Indonesia. Survei tentang seks pranikah
pada mahasiswa UI tidak dapat menggambarkan perilaku seks
pranikah pada generasi muda Indonesia.
10. Melewatkan informasi penting dan dirasa tidak perlu…
Pembaca sering hanya menelan mentah-mentah hasil survei

tanpa memikirkan apakah internal validity sudah akurat
(selection bias, information bias, confounding) dan eksternal
validity sudah akurat (sampling and generalization).
Kesalahan ini dapat terjadi karena:

1. Peneliti: Keterbatasan waktu, prosedur, sampel, dll
2. Media: Keterbatasan tempat dan waktu (deadline), dll
3. Pembaca: Meyakini informasi yang belum tentu benar
hanya karena sumber informasi (informan) sudah dipercaya
(tetangga, teman, koran langganan, twitter, facebook, dll)
Sepuluh Panduan Praktis dalam Statistik:
(Rumsey, 2007. Intermediate Statistics for Dummies)
1. Membandingkan nilai rerata dengan One-way ANOVA

2. Melakukan uji multiple comparison (perbandingan ganda)
3. Melihat efek nilai rerata dari 2 faktor dengan Two-way
ANOVA
4. Memprediksi variabel kuantitatif (var.numerik) dengan
regresi linier
5. Memprediksi probabilitas (var.kategorik) dengan regresi
logistik
6. Gunakan regresi non-linier untuk korelasi yang tidak linier
(kuadratik, log, dll)
7. Memprediksi probabilitas (var.kategorik) dengan regresi
logistik
8. Gunakan chi-square untuk menguji independensi (korelasi
antara variabel kategorik)
9. Mencek spesifik-model dengan uji Goodness-of-fit
10. Mencek fit-model dengan menggunakan nilai R2

Sepuluh Kesalahan Dalam Statistik, Tambahan Bacaan

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Sepuluh Kesalahan Dalam Statistik, Tambahan Bacaan

Diunggah oleh

Hak Cipta:

Format Tersedia

Sepuluh Kesalahan dalam Menyimpulkan Hasil Analisis

2. Terlalu Mendewakan Nilai Signifikan (P-value)

Suatu penelitian efek minum teh terhadap kejadian jantung

Penelitian lain, untuk membuktikan teori ESP (anjing punya

3. Kesalahan Menyimpulkan Hubungan Sebab-Akibat

Suatu penelitian terhadap diare pada Balita, hasil analisis regresi

Suatu penelitian terhadap nilai ujian mahasiswa, hasil analisis

4. Mengasumsikan Data Berdistribusi Normal. . .

. swilk sistol Shapiro-Wilk W test for normal data

5. Hanya Menampilkan Hasil-hasil yang "Penting" menurut

Sebagai seorang analis data, Anda harus menghindari untuk

6. Sampel yang “lebih besar” selalu “lebih baik”

Semakin besar sampel, semakin tinggi akurasi (kesalahan akibat

Contoh: Dinkes Kab X melaporkan cakupan imunisasi Bayi telah

Sebuah LSM kesehatan tidak puas dengan hasil tersebut,

7. Random Sampel, Tapi . . .

Pada peringatan hari Kesehatan Nasional, Anda mendatangi

Untuk memilih penduduk di Kota Depok secara random, anda

8. Seribu Responden sama dengan 1.000 Respon….

Adanya bias (selection bias, information bias, dan confounding)

Contoh: Dari 4000 responden yang kirimkan kuesioner via POS

9. Hasil penelitian selalu dapat menggambarkan populasi

Dalam mengeneralisasikan hasil studi harus dipastikan siapa

Contoh: Survei tentang calon presiden, jika hanya ditanyakan

Pembaca sering hanya menelan mentah-mentah hasil survei

Kesalahan ini dapat terjadi karena:

1. Membandingkan nilai rerata dengan One-way ANOVA

Anda mungkin juga menyukai