Rangkuman Pembelajaran ADE Dan EVD

Perhatian
Rangkuman Pembelajaran ini, dapat diunduh, digandakan, disalin, dicetak, dialihmediakan, ataupun
difotokopi.
Penggandaan baik dalam bentuk penyalinan, pencetakan, dan lain sebagainya yang bertujuan untuk
dikomersilkan/dijual tidak dapat dilakukan tanpa izin tertulis dari PJ Modul Pengurus Angkatan 64
dan Pengurus Angkatan 64. Apabila melanggar, akan diberikan sanksi sesuai peraturan yang berlaku.
Catatan Tambahan
Rangkuman Pembelajaran Analisis Data Eksploratif dan Eksplotasi dan Visualisasi Data adalah
rangkuman yang sama (diambil dari powerpoint Analisis Data Eksploratif)
KRITIK DAN SARAN

Untuk kritik dan saran terhadap rangkuman pembelajaran ini, dapat dikirimkan melalui Google
Formulir yang tersedia di bawah.
https://forms.gle/6PbAFj8UmioDHvCd8
1
RANGKUMAN
ANALISIS DATA EKSPLORATIF / EKSPLORASI DAN VISUALISASI DATA
Sekilas
Kita belajar statistika, agar bisa menjelaskan atau menggambarkan segala sesuatu kepada orang lain
untuk itu, kita harus mempunyai kemampuan:
● Mengekstrak informasi dari tabel dan grafik.
● Mengerti alasan dari sebuah angka.
● Mengetahui dasar bagaimana data tersebut akan diringkas, dan dianalisis untuk
menggambarkan kesimpulan secara statistik.
Untuk bisa menjadi statistisi yang profesional, maka ada beberapa hal yang perlu dilakukan:
● Putuskan apakah data yang ada memadai atau apakah diperlukan informasi tambahan.
● Jika diperlukan, kumpulkan lebih banyak informasi dengan cara yang masuk akal dan
bijaksana.
● Ringkas data yang tersedia dengan cara yang bermanfaat dan informatif.
● Analisis data yang tersedia.
● Buat kesimpulan, buat keputusan, dan nilai risiko jika keputusan yang diambil salah.
Jenis Analisis Data

● Klasikal
Masalah ⇒ Data ⇒ Model ⇒ Analisis ⇒ Kesimpulan
● Eksploratory (EDA)
Masalah ⇒ Data ⇒ Analisis ⇒ Model ⇒ Kesimpulan
Perbedaan
● Untuk klasikal, setelah pengumpulan data dilanjutkan dengan pengenaan model, analisis, dan
simpulan.
● Untuk EDA setelah pengumpulan data dilanjutkan dengan analisis guna menentukan model
yang akan digunakan dan yang terakhir simpulan.
Analisis Data Eksploratif adalah metode untuk menampilkan (melalui grafik) dan meringkas
(menghitung ukuran statistik) data.
Manfaat ADE
2
● memperoleh pemahaman tentang karakteristik/perilaku data dengan lebih baik sehingga
membantu menentukan metode analisis yang sesuai;
● mengenali pola yang tidak dapat ditangkap oleh metode analisis yang digunakan dapat
mendeteksi outlier dan anomali;
● dapat mendiagnosa ada/tidak pelanggaran asumsi
Teknik Grafis dalam Analisis Data Eksploratif
1. Mem-plot data mentah
Stem-and-Leaf plot: untuk mengurutkan data, melihat pola/bentuk distribusi data (simetris,
menceng kiri/kanan), dan membandingkan distribusi 2 atau lebih kelompok data
Histogram: untuk menggambarkan bentuk distribusi data (dimana data memusat, bagaimana data
menyebar, ada/tidak outlier)
3
Probability Plot: untuk melihat apakah data mengikuti suatu distribusi
tertentu atau tidak, misal Normal
Scatter Plot: untuk melihat pola hubungan antar 2 variabel
4
2. Membuat plot statistik sederhana, misal:
Box (and whisker) plot adalah alat yang sangat baik untuk menggambarkan lokasi dan informasi
variasi sekumpulan data, terutama untuk mendeteksi dan menggambarkan lokasi dan variasi
perubahan antara kelompok data yang berbeda.
Menggunakan 5 statistik sederhana, yaitu nilai minimum (L), maksimum (U), 𝑄1, 𝑄2, 𝑄3
Plot rata-rata (mean plot): untuk melihat apakah ada perbedaan rata-rata dari beberapa kelompok
data. Perbandingan juga dapat dilakukan antar waktu (tahun, bulan, minggu, dsb).
5
Plot simpangan baku (standard deviation plot): untuk melihat apakah ada perbedaan keragaman
(variasi) dari beberapa kelompok data. Perbandingan juga dapat dilakukan antar waktu (tahun, bulan,
minggu, dsb).
Diagram batang dan daun

Penyajian data dalam bentuk diagram dengan cara menyusun/menata data menjadi dua bagian, yaitu
batang dan daun, Pembagian batang dan daun mengikuti aturan tertentu (Key). Misal angka yang
terdiri dari 2 digit: angka (digit) pertama ditempatkan pada bagian batang, dan angka (digit) kedua
ditempatkan (secara berurutan) pada bagian daun.
6
Komponen dari diagram batang dan daun
● Stem (Batang)
● Leaf (daun)
● Key
*A key dari diagram batang dan daun menunjukkan kekhususan apa yang direpresentasikan oleh data
(cara penyusunan data). A key juga bisa menunjukkan satuan pengukuran (persen, kaki, inci, dll).
Membuat diagram batang dan daun untuk barisan data

yang terdiri dari 2 digit:
1. Masukkan angka pada digit pertama dari setiap potongan data (secara berurutan) ke sisi kiri
(batang).
2. Perhatikan barisan data satu persatu, masukkan angka pada digit kedua ke sisi kanan (daun)
sesuai dengan angka pada digit pertamanya (sesuai dengan batang dimana seharusnya daun
tersebut berada).
3. Setelah semua barisan data dimasukkan ke dalam diagram, atur kembali angka pada bagian daun
pada masing-masing batang secara berurutan (dari yang terkecil pada sebelah kiri dan terbesar
pada sebelah kanan.)
Ingat:
7
• Selalu cantumkan aturan (cara) penyusunan data (a Key).
• Selalu susun/tata datanya secara berurutan.
• Median: untuk menghitung median, Anda harus menemukan nilai tengahnya. jika ada dua nilai
tengah, Anda perlu menghitung rata-rata dari dua nilai tersebut.
Berapakah nilai mediannya?
• Range(Jarak), untuk menghitung Range (jarak), hitung selisih antara nilai terbesar dan terkecil.
Berapakah nilai terkecilnya?
Berapakah nilai terbesarnya?
Berapakah range (jarak) nya?
Kegunaan Diagram batang dan daun
● Untuk melihat penyebaran dari suatu data, sehingga secara keseluruhan data individu-
individu dapat terlihat apakah ada kecenderungan data tersebut menyebar atau memusat pada
suatu nilai tertentu
● Untuk melihat pola/bentuk distribusi data (simetris, menceng kiri/kanan) dan
● Untuk membandingkan distribusi 2 atau lebih kelompok data
● Untuk melihat nilai manakah yang paling sering muncul dan yang jarang muncul.
● Bisa untuk mengurutkan data (daun harus terurut)
● Memudahkan dalam menentukan median dan range.
Keuntungan dan Kerugian dari stem-and–leaf Diagrams
Keuntungan:
8
● Mudah membuat dan membacanya.
● Menunjukkan data asli
● Mempertahankan informasi dalam data
● Membolehkan kita untuk merekonstruksi kumpulan data.
● Mudah untuk mengidentifikasi pengamatan yang berurutan.
Kerugian:
● Hanya cocok untuk menggambarkan kumpulan data kecil.

● Kurang fleksibel dalam pemilihan batang
● Tidak menyampaikan pembacaan frekuensi kelas secara cepat.
9
RINGKASAN NUMERIK UNTUK DATA KUANTITATIF
Untuk mengetahui kondisi pemusatan dan persebaran nilai data
Pemusatan
● Mean
● Median
● Modus
Persebaran
● Range
● Inter-quartile range
● Standard deviation
5 ringkasan nilai yang biasanya digunakan adalah:

• Nilai minimum,
• kuartil I (q1),
10
• median,
• kuartil III (q3), dan
• nilai maksimum
Central Tendency (Tendensi Sentral) merupakan nilai yang menunjukkan titik tengah dari suatu
dataset untuk mengetahui dimana posisi banyak nilai data berkumpul di dalam distribusi. Nilai Mean,
Median, dan Modus adalah ukuran Central Tendency yang paling umum digunakan. Ketiganya
menunjukkan lokasi berkumpulnya data, namun dengan metode dan makna yang berbeda.
MEDIAN
Median adalah nilai yang ada di tengah dari suatu agregat dimana nilai-nilai yang diobservasi dan
diurutkan dari nilai terendah sampai nilai yang tertinggi.
Hal ini berarti bahwa separuh (50%) pengamatan mempunyai nilai di bawahnya median dan
separuhnya lagi (50%) berada di atasnya.
Contoh: TB (cm) dari 5 anak : 79 - 82 - 86 - 92 - 93. Dengan demikian nilai median adalah = 86 cm.
Sifat median:
Beberapa hal yang perlu dipahami dengan median adalah:
1. Median mudah dihitung dan mudah dimengerti, dipengaruhi oleh jumlah pengamatan
Contoh: 3,4,5,5,6,7,8 → median 5
3,4,5,5,6,7,8,8 → median 5,5
2. Tidak dipengaruhi oleh nilai observasi
Contoh: 3,4,5,5,6,7,8 →median 5
3,4,5,5,6,7,100 → median 5
Median digunakan pada distribusi frekuensi yang miring (skewed)
3. Cocok untuk data heterogen
Contoh: pendapatan di perkotaan
4. Hanya ada 1 median dalam data
MODUS
Modus adalah nilai pengamatan yang mempunyai frekuensi paling banyak (paling sering muncul)
Contoh: Data berat badan (kg) 6 anak berikut 34 - 32 - 33 - 33 - 35 - 37. Dengan demikian modus =
33
11
Sifat modus:
Modus kurang dikenal dibandingkan dengan mean dan median. Dalam suatu distribusi frekuensi bisa
terdapat dua atau lebih modus, tetapi dapat juga tidak ada modus. Beberapa hal yang perlu dipahami
tentang modus adalah:
Modus tidak dipengaruhi oleh adanya nilai ekstrim dalam suatu distribusi frekuensi;
Contoh: 4,4,4,4,5,6 → Modus 4
4,4,4,4,5,200 → Modus 4
Modus dapat digunakan baik pada data yang bersifat kuantitatif maupun kualitatif, dan berskala
rasio, interval, ordinal dan nominal;
Bila ada satu modus disebut unimodal, dua modus disebut bimodal, dan bila ada tiga modus atau
lebih disebut multimodal.
MEAN
Mean atau rata-rata hitung dari suatu agregat adalah jumlah semua nilai agregat dibagi dengan
jumlah observasi dalam agregat tersebut.
Contoh: Berikut ini adalah hasil pengukuran berat badan (kg) dari 10 anak: 45; 42; 44; 49; 45; 50;
47; 41; 46; 44.
Dengan demikian, maka Mean = 45,3
Sifat mean:
Beberapa hal yang perlu dipahami tentang sifat dan penggunaan nilai mean adalah:
Untuk nilai rerata populasi (mean populasi) digunakan lambang 𝜇(baca myu), sedangkan untuk nilai
rerata sampel (mean sampel) digunakan lambang 𝑥̅ ).
Mean digunakan pada variabel yang berskala rasio atau memiliki data numerik, misal : berat badan,
umur, atau tekanan darah;
• Rata-rata lebih populer dan lebih mudah digunakan;
• Rata-rata selalu ada dan hanya ada 1
• Tidak peka terhadap penambahan jumlah data
• Cocok untuk data homogen
Kelemahan
• Sangat dipengaruhi oleh nilai-nilai ekstrim, baik terlalu rendah maupun terlalu tinggi. Setiap
ada perubahan nilai dari setiap individu mempengaruhi besarnya mean.
12
• Tidak cocok untuk data heterogen
Perbedaan penggunaan mean, median & modus:

Beberapa hal yang perlu diperhatikan adalah:
● Mean pada umumnya dipilih untuk mengukur tendensi sentral terutama bilamana distribusi
mendekati normal, sebab mean mempunyai stabilitas variasi yang baik dan dapat digunakan
sebagai dasar statistik selanjutnya;
● Median adalah nilai tengah dan umumnya paling tepat menggambarkan tendensi sentral bila
distribusi menunjukkan keistimewaan, seperti miring ke kanan atau ke kiri, dsb. Pada
distribusi yang miring ini lebih tepat digunakan nilai median, karena nilai median berada
diantara nilai modus dan mean;
● Modus merupakan alat yang paling sederhana untuk menafsirkan tendensi sentral dalam
waktu cepat atau waktu terbatas.
Ukuran pemusatan data saja kurang cukup untuk menggambarkan distribusi data, sehingga
diperlukannya ukuran lain.
UKURAN PENYEBARAN DATA
Jarak /range (R) :

R= Max-Min
Jarak antar kuartil/Inter-quartile range:
IQR=Q3-Q1
Standard Deviation (SD):
“rata-rata” jarak nilai data terhadap mean
HINGES
Misalkan ada deretan angka: -3.2, -1.7, -0.4, 0.1, 0.3, 1.2, 1.5, 1.8, 2.4, 3.0, 4.3, 6.4, 9.8
13
IQR (INTERQUARTILE RANGE)
14
The interquartile range (IQR) is the length of the middle 50% of that interval of space.
Deteksi outlier dengan IQR

Batas Atas = 𝑄3 + 𝐼𝑄𝑅
Batas Bawah = 𝑄1 − 𝐼𝑄𝑅
Jika data setelah 𝑄3 ada yang melewati batas atas maka data tersebut outlier
Jika data sebelum 𝑄1 ada yang melewati batas bawah maka data tersebut outlier
Diagram Titik dan Diagram Kotak
Diagram Titik (Dot Plot)
● Cara sederhana untuk menggambarkan data numerik

● Cocok untuk data yang memiliki sedikit observasi
● Cocok untuk data dengan jangkauan tidak terlalu besar
● Setiap observasi dinyatakan dengan sebuah titik (dot)
15
● Informasi yang dapat diperoleh dari dot plot:
● Nilai setiap observasi
● Sebaran data
● Bentuk distribusi
● Kandidat pencilan
Cara Membuat Dot Plot

● Gambar garis horizontal dan tandai dengan skala yang sesuai
● Gambarkan setiap observasi dalam bentuk titik di atas garis horizontal pada skala yang
sesuai. Jika dua atau lebih observasi bernilai sama, tempatkan titik-titik secara vertikal
Singkatnya dalam membuat dot plot dapat dilakukan 4 langkah berikut

1. Organize (mengurut data dari kecil ke besar)
2. Frequency table (membuat tabel frekuensi tiap data)
3. Melihat kondisi data dan menentukan interval
4. Menaruh titik sebagai representasi dalam grafik
Titik pada dot plot dapat juga ditambahkan hanya untuk merepresentasikan frekuensi (sumbu y) dan
data itu sendiri (sumbu−𝑥̅)
16
Diagram Kotak (Box Plot)
● Sebuah box plot adalah grafik untuk menggambarkan five number summary
● Kotak yang di tengah melambangkan IQR
● Garis yang berada di dalam melambangkan median
● Garis penutup melambangkan nilai max dan min dari data
● Outlier ditambahkan di luar range data berupa titik
Five number summary seringnya lebih baik dari mean dan standar deviasi dikarenakan ketahanannya
terhadap outlier. Konsep ini juga seringnya lebih baik dalam menjelaskan kemencengan dan outlier
ekstrim.
Kegunaan Box Plot
● Menggambarkan ringkasan numerik secara visual

● Memberikan gambaran pusat data, sebaran data, bentuk distribusi data
Panjang kotak dapat digunakan untuk menggambarkan sebaran data pengamatan
Letak median dan panjang whisker menggambarkan kesimetrisan
● Dapat membandingkan antar angkatan
BAGIAN-BAGIAN BOX PLOT
● Bagian utama kotak berbentuk persegi (box), merupakan bidang yang menyajikan IQR, dimana
50 % dari nilai data pengamatan terletak di sana. IQR menggambarkan ukuran penyebaran data.
Semakin panjang bidang IQR menunjukkan data semakin menyebar.
● Garis bawah kotak = 𝑄1 (kuartil bawah)
● Garis tengah kotak = 𝑄2 (median)
● Garis atas kotak = 𝑄3 (kuartil atas)
● Garis yang merupakan perpanjangan dari box (baik ke arah atas ataupun ke arah bawah)
dinamakan dengan whiskers.
● Panjang whisker ≤ 1,5 × 𝐼𝑄𝑅.
● Garis whisker dimulai dari ujung kotak dan berakhir pada nilai data yang bukan dikategorikan
sebagai pencilan.
17
Tiap tiap bagian mendistribusikan 25% data, bukan semakin panjang brarti semakin banyak data di
sana.
Cara Membuat Box Plot
18
● Hitung 5 number summary data
● Identifikasi data yang merupakan pencilan
● Buat kotak dengan bagian bawah/kiri sesuai kuartil bawah dan bagian atas/kanan sesuai
kuartil atas. Tinggi kotak adalah IQR
● Gambar garis dalam kotak sesuai nilai median
● Untuk data tanpa pencilan, buat garis dari bagian bawah kotak hingga nilai minimum dan dari
bagian atas kotak hingga nilai maksimum
● Untuk data dengan pencilan, buat garis dari bagian bawah kotak hingga nilai observasi
terkecil yang bukan pencilan dan dari bagian atas kotak hingga nilai observasi terbesar yang
bukan pencilan
Interpretasi Box Plot
19
Transformasi Data
Tujuan
Mengubah nilai asli data menjadi data baru menggunakan suatu formula/operasi matematika dengan
tujuan tertentu 𝑦 ⇒ 𝑦’
Beberapa tujuan dilakukannya transformasi:
● Membuat pola sebaran data menjadi simetris (sesuai dengan anggapan normalitas pada
berbagai prosedur pengujian hipotesis)/ Make skewed distributions more symmetric
● Membuat pola hubungan antar variabel menjadi linier/ Linearize a curved scatterplot
● Membuat pesebaran di tiap sisi box plot lebih simetris
● Membuat pesebaran titik di scatterplot lebih baik (linear)
20
Cara Transformasi Data
21
Tangga Transformasi Tukey
lebih kuat sedang tetap sedang lebih kuat
Contoh Transformasi Data
22
Transformasi dengan Log
● Saat data tidak ada yang 0 ataupun negatif, transformasi dengan logaritma cukup membantu
● Hal ini dapat dilakukan dengan log x ataupun log y lalu melihat efek setelah transformasi
23
Kenapa harus mentransformasi?
● Untuk mengubah skala pengukuran data ke dalam bentuk lain supaya memenuhi asumsi
analisis, untuk bisa dianalisis kedua variabel perlu kejelasan hubungan ntah punya hubungan
yang kuat atau tidak punya hubungan. Jika hubungan kedua variabel tidak jelas, maka data
sulit dianalisis.
● Mentransformasi memperkuat scatter plot,menyeimbangkan varians, dan menyeimbangkan
histogram
Transformasi dengan Akar Kuadrat
Transformasi ini bekerja ketika kita melihat perubahan varians sebagai fungsi linear dari rata-rata.
Standarisasi Data
Tujuan
● Membandingkan beberapa angkatan data:
24
- satuan data berbeda
- satuan data sama, varians berbeda
● Melihat posisi relatif nilai observasi
● Memeriksa pencilan
Cara Menstandarkan Data
● Data mentah
● Kurangi nilai observasi dengan pusat data (tidak merubah sebaran data, membuat pusat data
menjadi nol (memusatkan data)
● Bagi hasilnya dengan sebaran data, membuat sebaran data menjadi 1 (membakukan data),
letak relatif nilai ekstrim sama, bentuk umum angkatan sama
Data distandarisasi dalam bentuk 𝑧, 𝑧 sendiri memiliki rumus
𝑧 = (𝑥̅𝑖 − 𝑥̅ )/𝑠
Keterangan:
𝑥̅𝑖 = nilai observasi
𝑥̅ = rata rata sampel
𝑠 = simpangan baku sampel
Prinsip Standarisasi Data

Data distandarisasi dengan prinsip
● Hanya mengubah pusat dan sebaran data
● Menghindari sifat pengukuran yang berlainan
Pemulusan Data Deret Waktu
TIME SERIES
Time series data adalah data yang dikumpulkan dari waktu ke waktu dengan interval waktu konstan.
25
4 jenis fluktuasi pada time series
● Trend
● Seasonal Variation
26
● Cyclical Variation
● Random Variation
27
PEMULUSAN DATA
Pemulusan adalah proses menghilangkan random variation dari data time series, membuat tren data
lebih terlihat, dan mempermudah analisa.
TEKNIK DALAM PEMULUSAN DATA DERET WAKTU
Moving average dan median smoothing adalah teknik yang digunakan untuk menghaluskan time
series.
Moving Average adalah metode pemulusan data dengan setiap kalinya mengambil sekelompok nilai
pengamatan untuk kemudian dicari rata-ratanya
● Banyak data yang dirata-ratakan bergantung pada ordo yang digunakan
● Disebut rata-rata bergerak karena setiap kali ada observasi baru tersedia, maka rata-rata yang
baru dihitung
MOVING MEDIAN
Moving Median adalah metode pemulusan data dengan setiap kalinya mengambil sekelompok nilai
pengamatan untuk kemudian dicari mediannya.
Keuntungan :
● Time series yang dihasilkan didapat dari data time series langsung
● Tidak dipengaruhi outlier
28
29
Referensi
Kumpulan salindia yang telah diberikan dosen, diakses melalui FOSIL 63.
30
31

Rangkuman Pembelajaran ADE Dan EVD

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Rangkuman Pembelajaran ADE Dan EVD

Diunggah oleh

Hak Cipta:

Format Tersedia

Perhatian

KRITIK DAN SARAN

Jenis Analisis Data

Scatter Plot: untuk melihat pola hubungan antar 2 variabel

Diagram batang dan daun

Membuat diagram batang dan daun untuk barisan data

Kegunaan Diagram batang dan daun

Keuntungan dan Kerugian dari stem-and–leaf Diagrams

● Hanya cocok untuk menggambarkan kumpulan data kecil.

Untuk mengetahui kondisi pemusatan dan persebaran nilai data

5 ringkasan nilai yang biasanya digunakan adalah:

Perbedaan penggunaan mean, median & modus:

UKURAN PENYEBARAN DATA

Jarak /range (R) :

Deteksi outlier dengan IQR

Diagram Titik dan Diagram Kotak

Diagram Titik (Dot Plot)

● Cara sederhana untuk menggambarkan data numerik

Cara Membuat Dot Plot

Singkatnya dalam membuat dot plot dapat dilakukan 4 langkah berikut

Kegunaan Box Plot

● Menggambarkan ringkasan numerik secara visual

BAGIAN-BAGIAN BOX PLOT

Cara Membuat Box Plot

Interpretasi Box Plot

lebih kuat sedang tetap sedang lebih kuat

Contoh Transformasi Data

Transformasi dengan Akar Kuadrat

Cara Menstandarkan Data

Prinsip Standarisasi Data

Anda mungkin juga menyukai