Anda di halaman 1dari 21

An EDA/Graphics

Example
Kelompok 2
Anggota
Kelompok
• Ahmad Hilmi (1314621027)
• Farah Fadhilah Ridana
(1314621019)
• Gilbert Ramos (1314621036)
• Karin Eka Anggraini (1314621038)
• Mawar Qurnelia Ramadhani
(1314621009)
• Muhammad Rizqi Fathullah
(1314621020)
Contoh Anscombe
Contoh sederhana dan klasik (Anscombe)
tentang peran sentral yang dimainkan
grafik dalam hal memberikan wawasan
tentang kumpulan data dimulai dengan
kumpulan data berikut:
Ringkasan Statistik • N = 11
• Mean of X = 9.0
• Mean of Y = 7.5
Jika tujuan analisisnya adalah untuk • Intercept = 3
• Slope = 0.5
menghitung statistik ringkasan dan
• Residual standard deviation =
menentukan kecocokan linier terbaik 1.237
• Correlation = 0.816
untuk Y sebagai fungsi dari X, hasilnya
dapat diberikan sebagai:
OUTPUT
Analisis kuantitatif tersebut,
walaupun penting, hanya
memberikan kita wawasan
terbatas ke dalam data.
OUTPUT

Scatter Plot
Berikut adalah simple scatter plot dari data set 1:
Simple Scatter Plot dari data
menunjukkan hal berikut:
• Kumpulan data "berperilaku seperti"
kurva linier dengan beberapa pencaran;
• tidak ada bukti untuk model yang lebih
rumit (misalnya, kuadratik);
• tidak terdapat outlier;
• penyebaran vertikal pada data tampaknya
memiliki ketinggian yang sama terlepas
dari nilai-X; ini menunjukkan bahwa data
sama-sama persis di seluruh dan oleh
karena itu kecocokan "reguler" (yaitu,
berbobot sama) adalah tepat.
Tiga Data Set Tambahan

Karakterisasi data semacam ini berfungsi sebagai inti untuk mendapatkan


wawasan/perasaan terhadap data. Wawasan/perasaan seperti itu tidak datang dari statistik
kuantitatif; sebaliknya, perhitungan statistik kuantitatif seperti intersep dan kemiringan
harus mengikuti karakterisasi dan akan masuk akal hanya jika karakterisasi itu benar. Untuk
mengilustrasikan hilangnya informasi yang dihasilkan saat langkah wawasan grafik
dilewati, pertimbangkan tiga kumpulan data berikut [kumpulan data Anscombe 2, 3, dan 4]
OUTPUT

Data Set 2
OUTPUT

Scatter Plot
Berikut adalah simple scatter plot dari data set 2:
OUTPUT

Data Set 3
OUTPUT

Scatter Plot
Berikut adalah simple scatter plot dari data set 3:
OUTPUT

Data Set 4
OUTPUT

Scatter Plot
Berikut adalah simple scatter plot dari data set 4:
Statistik Kuantitatif untuk Data Set 2 Statistik Kuantitatif untuk Data Set 3 dan
4

• N = 11
• N = 11
• Mean of X = 9.0
• Mean of X = 9.0
• Mean of Y = 7.5
• Mean of Y = 7.5
• Intercept = 3
• Intercept = 3
• Slope = 0.5
• Slope = 0.5
• Residual standard deviation =
• Residual standard deviation =
1.236
1.237
• Correlation = 0.816 (0.817 for
• Correlation = 0.816
data set 4)
yang menyiratkan bahwa dalam
beberapa pengertian kuantitatif,
keempat set data adalah
"equivalent/setara". Faktanya, empat
set data jauh dari "equivalent/setara"
dan sebuah scatter plot dari setiap set
data, yang akan menjadi langkah
pertama dari pendekatan EDA apapun,
yang akan memberitahu kita segera.
interpretasi dari masing-masing
Scatter Plot
Kesimpulan dari masing-masing Scatter Plot adalah:
• Data set 1 sudah jelas linier dengan beberapa pencar.
• Data set 2 sudah jelas kuadratik.
• Data set 3 jelas memiliki outlier.
• Data set 4 jelas merupakan korban dari desain
eksperimental yang buruk dengan satu titik yang
jauh dari sebagian besar data.
Poin-poin ini adalah substansi yang menyediakan dan
mendefinisikan "wawasan" dan "perasaan" untuk
kumpulan data. Mereka ini bahwasannya adalah tujuan
dan buah dari pendekatan analisis data eksplorasi (ADE) Pentingnya Analisis
terbuka terhadap data. Eksploratif
Statistik kuantitatif tidak salah, tetapi tidak lengkap. Mereka
tidak lengkap karena mereka adalah ringkasan numerik yang
dalam operasi peringkasan melakukan pekerjaan yang baik
untuk berfokus pada aspek tertentu dari data (misalnya, lokasi,
intersep, kemiringan, tingkat keterkaitan, dll.) dengan secara
bijaksana mengurangi data menjadi beberapa angka karena
peringkasan tersebut.

Melakukannya juga memfilter data, menghilangkan dan


menyaring informasi penting lainnya yang terkadang penting
dalam operasi pemfokusan. Statistik kuantitatif fokus tetapi
juga menyaring; dan penyaringan adalah apa yang membuat
pendekatan kuantitatif menjadi tidak lengkap dan paling
buruk menyesatkan.
Estimasi intersep (3) dan kemiringan (0,5) untuk
kumpulan data 2, 3, dan 4 tidak akurat karena
estimasi dilakukan dalam konteks model linear
yang diasumsikan dan asumsi linieritas tersebut
merupakan kesalahan fatal dalam analisis ini.
Dengan sengaja menunda pemilihan model
pendekatan ADE bahwasannya menghasilkan
banyak manfaat. Tidak sedikit diantaranya
adalah perubahan akhir ke mode yang jauh lebih
baik dan perumusan kesimpulan ilmiah serta
teknik yang valid dan dapat didukung.
Terima Kasih

Anda mungkin juga menyukai