Anda di halaman 1dari 8

Tujuan pembelajaran

Setelah menyelesaikan unit kursus, siswa harus dapat:


A. gunakan ukuran numerik dan/atau tampilan visual yang sesuai,
jelaskan distribusinya dari variabel kategoris dalam konteks.
B. menggunakan tampilan grafis yang sesuai dan/atau ukuran numerik,
jelaskan distribusi variabel kuantitatif dalam konteks:
a) menggambarkan pola keseluruhan, dan
b) jelaskan penyimpangan yang mencolok dari pola
C. mendefinisikan dan menggambarkan fitur distribusi satu variabel
kuantitatif (bentuk, tengah, sebaran, outlier).
D. menerapkan aturan simpangan baku untuk kasus khusus distribusi
yang memiliki bentuk "biasa".
E. mendefinisikan dan menafsirkan ukuran posisi (persentil, kuartil, lima
angka) ringkasan, z-skor).
F. mendefinisikan dan menggunakan kriteria 1,5(IQR) dan 3(IQR) untuk
mengidentifikasi potensi outlier dan outlier ekstrim.
G. menulis tabel ilmiah dalam format yang benar dan menafsirkan isinya

• Saat melakukan EDA, kita harus selalu:


– menggunakan tampilan visual (grafik atau tabel) ditambah ringkasan numerik.
– jelaskan pola keseluruhan dan sebutkan setiap penyimpangan yang mencolok dari
pola itu.
– menafsirkan hasil yang kita temukan dalam konteks.
• Saat memeriksa distribusi variabel tunggal, kami membedakan
antara variabel kategoris dan variabel kuantitatif.

Sebuah variabel kategori


• Distribusi variabel kategori diringkas menggunakan:
– Tampilan: diagram lingkaran atau diagram batang (variasi: piktogram –> dapat
menyesatkan — hati-hati!)
– Ringkasan numerik: persentase kategori (kelompok).
• Distribusi variabel kuantitatif diringkas menggunakan:
– Tampilan: histogram (atau plot batang, terutama untuk kumpulan data kecil).

Sebuah variabel kategori


• Saat menjelaskan distribusi seperti yang ditampilkan oleh histogram, kami
harus menggambarkan:
A. Pola keseluruhan -> bentuk, tengah, menyebar.
B. Penyimpangan dari pola: outlier.
– Ringkasan numerik: statistik deskriptif (ukuran pusat plus
ukuran penyebaran):
A. Jika distribusi simetris tanpa outlier, gunakan mean dan standar
deviasi.
B. Jika tidak, gunakan ringkasan lima angka, khususnya, median dan
IQR (rentang antar kuartil).
• Ringkasan lima angka dan 'Kriteria 1,5 (IQR)' untuk mendeteksi
outlier adalah bahan yang kita butuhkan untuk membangun boxplot.
• Plot kotak paling efektif bila digunakan berdampingan untuk membandingkan
distribusi (lihat juga kasus C−− >Q dalam memeriksa hubungan).

Sebuah variabel kategori


• Dalam kasus khusus distribusi yang berbentuk normal,
Aturan Standar Deviasi berlaku. Aturan ini memberitahu kita kira-kira
berapa persen pengamatan yang termasuk dalam 1,2, atau 3 standar?
penyimpangan dari rata-rata. Khususnya, ketika distribusi adalah
kira-kira normal, hampir semua pengamatan (99,7%) termasuk dalam
3 simpangan baku rata-rata.
• Saat memeriksa hubungan antara dua variabel, langkah pertama
adalah untuk mengklasifikasikan dua variabel yang relevan sesuai dengan peran
mereka dan
Tipe; dan hanya kemudian untuk menentukan alat yang tepat untuk
meringkas data. (Kami tidak menangani kasus Q–>C dalam kursus ini).

Pertimbangan dasar antara tanggungan(dependent) dan


Variabel independen

Case C–>Q

• Menjelajahi hubungan sama dengan membandingkan


distribusi variabel respon kuantitatif untuk setiap kategori
dari variabel penjelas. Untuk melakukan ini, kami menggunakan:
• Tampilan: boxplot berdampingan.
• Ringkasan numerik: statistik deskriptif dari variabel respon,
untuk setiap nilai (kategori) dari variabel penjelas secara terpisah
Case C–>C

• Menjelajahi hubungan sama dengan membandingkan


distribusi variabel respon kategoris, untuk setiap kategori
dari variabel penjelas. Untuk melakukan ini, kami menggunakan:
• Tampilan: tabel dua arah.
• Ringkasan numerik: persentase bersyarat (dari respons
variabel untuk setiap nilai (kategori) dari variabel penjelas
terpisah).

Case Q–>Q

Kami memeriksa hubungan menggunakan:


• Tampilan: diagram sebar. Saat menggambarkan hubungan seperti yang
ditampilkan oleh
scatterplot, pastikan untuk mempertimbangkan:
• Pola keseluruhan –> arah, bentuk, kekuatan.
• Penyimpangan dari pola –> outlier.

Labeling the scatterplot

Memberi label pada scatterplot (termasuk variabel kategori ketiga yang relevan
dalam
analisis kami), mungkin menambahkan beberapa wawasan tentang sifat
hubungan.
• Dalam kasus khusus dimana scatterplot menampilkan hubungan linier
(dan hanya kemudian), kami melengkapi scatterplot dengan:
• Ringkasan numerik: koefisien korelasi Pearson
(r) mengukur arah dan, yang lebih penting, kekuatan
hubungan linier.
• Semakin dekat r ke 1 (atau -1), semakin kuat linear positif (atau negatif)
hubungan. r adalah unitless, dipengaruhi oleh outlier, dan harus digunakan
hanya sebagai pelengkap dari scatterplot.
• Ketika hubungan linear (seperti yang ditampilkan oleh scatterplot, dan
didukung oleh korelasi r), kita dapat meringkas pola linier
menggunakan garis regresi kuadrat terkecil.
Using regression

Ingat bahwa:
• Kemiringan garis regresi memberitahu kita perubahan rata-rata dalam
variabel respon yang dihasilkan dari peningkatan 1 unit dalam
variabel penjelas.
• Saat menggunakan garis regresi untuk prediksi, Anda harus berhati-hati
terhadap
ekstrapolasi.
• Saat memeriksa hubungan antara dua variabel (terlepas dari
kasus), setiap hubungan yang diamati (asosiasi) tidak
menyiratkan sebab-akibat, karena kemungkinan adanya variabel yang
mengintai.
• Saat kita memasukkan variabel yang mengintai dalam analisis kita, kita
mungkin perlu
memikirkan kembali arah hubungan -> paradoks Simpson.

Activities

A. Memahami desain dan pengumpulan data studi Framingham


berhubungan dengan penyakit kardiovaskuler
B. Membuat dan memahami buku kode untuk data Framingham
C. Demonstrasi visualisasi data Framingham menggunakan grafik stat
perintah
D. Demonstrasi untuk membuat tabel dasar untuk informasi dasar
e. Tugas membuat grafik dan tabel terkait artikel jurnal
ditugaskan untuk pekerjaan rumah ini
Studi Jantung Framingham

Penyakit kardiovaskular (CVD) adalah penyebab utama kematian dan serius


penyakit di Amerika Serikat. Pada tahun 1948, Framingham Heart Study–di bawah
arahan dari National Heart Institute (sekarang dikenal sebagai National
Institut Jantung, Paru-Paru, dan Darah; NHLBI)–memulai ambisi
proyek dalam penelitian kesehatan. Pada saat itu, sedikit yang diketahui tentang sang
jenderal
penyebab penyakit jantung dan stroke, tetapi tingkat kematian untuk CVD telah
terus meningkat sejak awal abad ini dan telah menjadi
epidemi Amerika. Tujuan dari Framingham Heart Study adalah untuk
mengidentifikasi faktor atau karakteristik umum yang berkontribusi terhadap CVD
dengan:
mengikuti perkembangannya dalam jangka waktu yang lama dalam kelompok besar
peserta yang belum mengembangkan gejala CVD atau
mengalami serangan jantung atau stroke. Para peneliti merekrut 5.209 pria
dan wanita berusia antara 30 dan 62 tahun dari kota Framingham,
Massachusetts dan memulai babak pertama fisik yang ekstensif
ujian dan wawancara gaya hidup yang nantinya akan mereka analisis
pola umum yang terkait dengan perkembangan CVD.

Studi Jantung Framingham (lanjutan)


Sejak 1948, subjek terus kembali ke studi setiap dua tahun
tahun untuk riwayat medis rinci, pemeriksaan fisik, dan laboratorium
tes. Pada tahun 1971, penelitian ini mendaftarkan kelompok generasi kedua–5.124
dari
anak-anak dewasa peserta asli dan pasangan mereka–untuk berpartisipasi dalam
pemeriksaan serupa. Generasi Ketiga (anak-anak Keturunan
Cohort) saat ini sedang direkrut dan diperiksa, berusaha untuk lebih lanjut
memahami bagaimana faktor genetik berhubungan dengan penyakit kardiovaskular.
Ini
peserta diberikan pemeriksaan kardiovaskular yang ekstensif
mirip dengan orang tua dan kakek-nenek mereka. Tujuannya adalah untuk merekrut
dan
memeriksa 3.500 cucu dari kohort asli.

Bacaan Wajib untuk Latihan Kelas


1. Connie W Tsao, Ramachandran S Vasan, Profil Kelompok: The
Framingham Heart Study (FHS): ikhtisar tonggak sejarah dalam
epidemiologi kardiovaskular, Jurnal Epidemiologi Internasional,
Volume 44, Edisi 6, Desember 2015, Halaman 1800-1813, Kepemimpinan
di Pelayanan Kesehatan, Vol. 27 No. 3, hlm. 224-239.
2. Pencina Michael, J., D'Agostino Ralph, B., Larson Martin, G.,
Massaro Joseph, M., & Vasan Ramachandran, S. (2009). Memprediksi
Risiko 30 Tahun Penyakit Kardiovaskular. Sirkulasi, 119 (24),
3078-3084.
Petunjuk
• Setiap siswa harus membaca jurnal sebelum latihan kelas dan
diskusikan pertanyaan-pertanyaan berikut ini dengan teman-temannya di bawah
bimbingan gurumu.
• Dalam diskusi kelompok, Anda didorong untuk mendiskusikan pertanyaan
dan kemungkinan jawaban dengan siswa lain.
• Selama diskusi kelompok tutor Anda akan dapat membantu beberapa
konsep yang belum pernah Anda paparkan sebelumnya.

Topic for the class exercise Exploratory Data Analysis (EDA) using number and graph. You should answer
these following questions at the end of class discussion, including its interpretation
1. Read third examination of the Framingham study which is presented as framingham03.dta
2. Write code-book for this data set
3. Describe the data set
• What is a sample size
• How many variables are there
• Can you evaluate the missing values?
• How many subjects were lost to follow up from first to thir examination.

Topik untuk latihan kelas


Analisis Data Eksplorasi (EDA) menggunakan angka dan grafik. Anda harus
jawablah pertanyaan-pertanyaan berikut ini di akhir diskusi kelas, termasuk
interpretasinya
1. Baca pemeriksaan ketiga dari studi Framingham yang disajikan
sebagai framingham03.dta
2. Tulis buku kode untuk kumpulan data ini
3. Jelaskan kumpulan data
• Apa yang dimaksud dengan ukuran sampel?
• Berapa banyak variabel yang ada?
• Dapatkah Anda mengevaluasi nilai-nilai yang hilang?
• Berapa banyak mata pelajaran yang mangkir dari pemeriksaan pertama sampai
ketiga.

Topic for the class exercise 4. Create basic table for all variables explain in the
table 1 article number 2 by Pencina Michael, J. et al. 2009 (note: we have
difference sample size) • Interprate this table • Did you find an interesting
finding? • Can you sure that your claimed correct?

Topik untuk latihan kelas


4. Buat tabel dasar untuk semua variabel yang dijelaskan dalam artikel tabel 1
nomor 2 oleh Pencina Michael, J. et al. 2009 (catatan: kami memiliki
perbedaan
ukuran sampel)
• Tafsirkan tabel ini
• Apakah Anda menemukan temuan yang menarik?
• Dapatkah Anda yakin bahwa klaim Anda benar?
Topic for the class exercise 5. Create histogram of BMI at first examination (bmi1) and compare between
male and female • Can you justify that distrubtion of BMI is a normal? • Can you change the bin of this
histogram so that shows better distribution? • Are there any difference distribution between male and
female subjects.

Topik untuk latihan kelas


5. Buat histogram BMI pada pemeriksaan pertama (bmi1) dan bandingkan
antara pria dan wanita
• Dapatkah Anda membenarkan bahwa gangguan IMT itu normal?
• Bisakah Anda mengubah bin histogram ini agar terlihat lebih baik?
distribusi?
• Apakah ada perbedaan distribusi antara subjek laki-laki dan perempuan.

Topic for the class exercise 6. Create boxplot of BMI at first examination (bmi1) and compare between
male and female • Please summarize the 5 numbers form this boxplot • Do you see any outliers in this
data? • Are there difference between male and female?

Topik untuk latihan kelas


6. Buat boxplot BMI pada pemeriksaan pertama (bmi1) dan bandingkan
antara pria dan wanita
• Tolong rangkum 5 angka dari boxplot ini
• Apakah Anda melihat adanya outlier dalam data ini?
• Apakah ada perbedaan antara laki-laki dan perempuan?

Topic for the class exercise 7. Create scatterplot BMI and age at first examination (bmi1 and age1) and
compare between male and female. How to make graph to be interpreteable? Please make means of
bmi and age for every 10 subjects and plot the mean between bmi and age. alternatively create a
scatterplot for every 50 subjects. • Are there any a linear relationship between bmi and age? • Can you
see outliers in this data? • Please conclude are there any difference relationship between male and
female

Topik untuk latihan kelas


7. Buat scatterplot BMI dan umur pada pemeriksaan pertama (BMI1 dan Age1)
dan membandingkan antara laki-laki dan perempuan. Cara membuat grafik menjadi
bisa ditafsirkan? Tolong buatkan sarana bmi dan umur untuk setiap 10
subjek dan plot rata-rata antara bmi dan usia. alternatif buat
sebar untuk setiap 50 mata pelajaran.
• Apakah ada hubungan linier antara bmi dan usia?
• Dapatkah Anda melihat outlier dalam data ini?
• Tolong simpulkan apakah ada perbedaan hubungan antara laki-laki
dan perempuan

Pekerjaan rumah
Jawablah pertanyaan-pertanyaan berikut dan kirimkan jawaban Anda dengan
format elektronik melalui GAMEL.
1 Ulangi latihan kelas tentang membuat grafik tetapi periksa variabel
tekanan darah sistolik dan kolesterol HDL (mg/dL), pemeriksaan 3 (hdlc3)
atau pemeriksaan ketiga.
2 Buatlah tabel neraca seperti yang disajikan pada tabel 1 pasal nomor 2 dengan
Pencina Michael, J. et al. 2009. Bandingkan antara yang pertama dan ketiga
pemeriksaan untuk variabel berikut: kematian angina hospmi stroke
sysbp1 diabp bmi totchol hdlc ldlc cursmoke
3 Harap interpretasikan hasil Anda
Buat semua tugas Anda dalam format yang dapat diterima atau sejenisnya
diterbitkan
artikel.

Catatan
• Selama Latihan Laboratorium siswa akan dibantu untuk menggunakan komputer
program oleh asisten pengajar Anda. Setiap siswa harus menyerahkan
pekerjaan rumah dalam waktu paling lama 2 minggu setelah latihan laboratorium.
• Berikut tautan ke web kelas
• http://gamel.fk.ugm.ac.id/course/view.php?id=40088&lang=en

Required Reading • Course material on Exploratory Data Analysis (EDA) I: Using number and graph. •
Course material on Exploratory Data Analysis (EDA) II: Using number and table. • Tukey, John W. (1977)
Exploratory Data Analysis. New York: Addison Wesle

Anda mungkin juga menyukai