Rangkuman Pembelajaran ini, dapat diunduh, digandakan, disalin, dicetak, dialihmediakan, ataupun
difotokopi.
Penggandaan baik dalam bentuk penyalinan, pencetakan, dan lain sebagainya yang bertujuan untuk
dikomersilkan/dijual tidak dapat dilakukan tanpa izin tertulis dari PJ Modul Pengurus Angkatan 64
dan Pengurus Angkatan 64. Apabila melanggar, akan diberikan sanksi sesuai peraturan yang berlaku.
Catatan Tambahan
Rangkuman Pembelajaran Analisis Data Eksploratif dan Eksplotasi dan Visualisasi Data adalah
rangkuman yang sama (diambil dari powerpoint Analisis Data Eksploratif)
https://forms.gle/6PbAFj8UmioDHvCd8
1
RANGKUMAN
ANALISIS DATA EKSPLORATIF / EKSPLORASI DAN VISUALISASI DATA
Sekilas
Kita belajar statistika, agar bisa menjelaskan atau menggambarkan segala sesuatu kepada orang lain
untuk itu, kita harus mempunyai kemampuan:
● Mengekstrak informasi dari tabel dan grafik.
● Mengerti alasan dari sebuah angka.
● Mengetahui dasar bagaimana data tersebut akan diringkas, dan dianalisis untuk
menggambarkan kesimpulan secara statistik.
Untuk bisa menjadi statistisi yang profesional, maka ada beberapa hal yang perlu dilakukan:
● Putuskan apakah data yang ada memadai atau apakah diperlukan informasi tambahan.
● Jika diperlukan, kumpulkan lebih banyak informasi dengan cara yang masuk akal dan
bijaksana.
● Ringkas data yang tersedia dengan cara yang bermanfaat dan informatif.
● Analisis data yang tersedia.
● Buat kesimpulan, buat keputusan, dan nilai risiko jika keputusan yang diambil salah.
Perbedaan
● Untuk klasikal, setelah pengumpulan data dilanjutkan dengan pengenaan model, analisis, dan
simpulan.
● Untuk EDA setelah pengumpulan data dilanjutkan dengan analisis guna menentukan model
yang akan digunakan dan yang terakhir simpulan.
Analisis Data Eksploratif adalah metode untuk menampilkan (melalui grafik) dan meringkas
(menghitung ukuran statistik) data.
Manfaat ADE
2
● memperoleh pemahaman tentang karakteristik/perilaku data dengan lebih baik sehingga
membantu menentukan metode analisis yang sesuai;
● mengenali pola yang tidak dapat ditangkap oleh metode analisis yang digunakan dapat
mendeteksi outlier dan anomali;
● dapat mendiagnosa ada/tidak pelanggaran asumsi
Teknik Grafis dalam Analisis Data Eksploratif
1. Mem-plot data mentah
Stem-and-Leaf plot: untuk mengurutkan data, melihat pola/bentuk distribusi data (simetris,
menceng kiri/kanan), dan membandingkan distribusi 2 atau lebih kelompok data
Histogram: untuk menggambarkan bentuk distribusi data (dimana data memusat, bagaimana data
menyebar, ada/tidak outlier)
3
Probability Plot: untuk melihat apakah data mengikuti suatu distribusi
tertentu atau tidak, misal Normal
4
2. Membuat plot statistik sederhana, misal:
Box (and whisker) plot adalah alat yang sangat baik untuk menggambarkan lokasi dan informasi
variasi sekumpulan data, terutama untuk mendeteksi dan menggambarkan lokasi dan variasi
perubahan antara kelompok data yang berbeda.
Menggunakan 5 statistik sederhana, yaitu nilai minimum (L), maksimum (U), 𝑄1, 𝑄2, 𝑄3
Plot rata-rata (mean plot): untuk melihat apakah ada perbedaan rata-rata dari beberapa kelompok
data. Perbandingan juga dapat dilakukan antar waktu (tahun, bulan, minggu, dsb).
5
Plot simpangan baku (standard deviation plot): untuk melihat apakah ada perbedaan keragaman
(variasi) dari beberapa kelompok data. Perbandingan juga dapat dilakukan antar waktu (tahun, bulan,
minggu, dsb).
6
Komponen dari diagram batang dan daun
● Stem (Batang)
● Leaf (daun)
● Key
*A key dari diagram batang dan daun menunjukkan kekhususan apa yang direpresentasikan oleh data
(cara penyusunan data). A key juga bisa menunjukkan satuan pengukuran (persen, kaki, inci, dll).
1. Masukkan angka pada digit pertama dari setiap potongan data (secara berurutan) ke sisi kiri
(batang).
2. Perhatikan barisan data satu persatu, masukkan angka pada digit kedua ke sisi kanan (daun)
sesuai dengan angka pada digit pertamanya (sesuai dengan batang dimana seharusnya daun
tersebut berada).
3. Setelah semua barisan data dimasukkan ke dalam diagram, atur kembali angka pada bagian daun
pada masing-masing batang secara berurutan (dari yang terkecil pada sebelah kiri dan terbesar
pada sebelah kanan.)
Ingat:
7
• Selalu cantumkan aturan (cara) penyusunan data (a Key).
• Selalu susun/tata datanya secara berurutan.
• Median: untuk menghitung median, Anda harus menemukan nilai tengahnya. jika ada dua nilai
tengah, Anda perlu menghitung rata-rata dari dua nilai tersebut.
Berapakah nilai mediannya?
• Range(Jarak), untuk menghitung Range (jarak), hitung selisih antara nilai terbesar dan terkecil.
Berapakah nilai terkecilnya?
Berapakah nilai terbesarnya?
Berapakah range (jarak) nya?
● Untuk melihat penyebaran dari suatu data, sehingga secara keseluruhan data individu-
individu dapat terlihat apakah ada kecenderungan data tersebut menyebar atau memusat pada
suatu nilai tertentu
● Untuk melihat pola/bentuk distribusi data (simetris, menceng kiri/kanan) dan
● Untuk membandingkan distribusi 2 atau lebih kelompok data
● Untuk melihat nilai manakah yang paling sering muncul dan yang jarang muncul.
● Bisa untuk mengurutkan data (daun harus terurut)
● Memudahkan dalam menentukan median dan range.
Keuntungan:
8
● Mudah membuat dan membacanya.
● Menunjukkan data asli
● Mempertahankan informasi dalam data
● Membolehkan kita untuk merekonstruksi kumpulan data.
● Mudah untuk mengidentifikasi pengamatan yang berurutan.
Kerugian:
9
RINGKASAN NUMERIK UNTUK DATA KUANTITATIF
Pemusatan
● Mean
● Median
● Modus
Persebaran
● Range
● Inter-quartile range
● Standard deviation
10
• median,
• kuartil III (q3), dan
• nilai maksimum
Central Tendency (Tendensi Sentral) merupakan nilai yang menunjukkan titik tengah dari suatu
dataset untuk mengetahui dimana posisi banyak nilai data berkumpul di dalam distribusi. Nilai Mean,
Median, dan Modus adalah ukuran Central Tendency yang paling umum digunakan. Ketiganya
menunjukkan lokasi berkumpulnya data, namun dengan metode dan makna yang berbeda.
MEDIAN
Median adalah nilai yang ada di tengah dari suatu agregat dimana nilai-nilai yang diobservasi dan
diurutkan dari nilai terendah sampai nilai yang tertinggi.
Hal ini berarti bahwa separuh (50%) pengamatan mempunyai nilai di bawahnya median dan
separuhnya lagi (50%) berada di atasnya.
Contoh: TB (cm) dari 5 anak : 79 - 82 - 86 - 92 - 93. Dengan demikian nilai median adalah = 86 cm.
Sifat median:
Beberapa hal yang perlu dipahami dengan median adalah:
1. Median mudah dihitung dan mudah dimengerti, dipengaruhi oleh jumlah pengamatan
Contoh: 3,4,5,5,6,7,8 → median 5
3,4,5,5,6,7,8,8 → median 5,5
2. Tidak dipengaruhi oleh nilai observasi
Contoh: 3,4,5,5,6,7,8 →median 5
3,4,5,5,6,7,100 → median 5
Median digunakan pada distribusi frekuensi yang miring (skewed)
3. Cocok untuk data heterogen
Contoh: pendapatan di perkotaan
4. Hanya ada 1 median dalam data
MODUS
Modus adalah nilai pengamatan yang mempunyai frekuensi paling banyak (paling sering muncul)
Contoh: Data berat badan (kg) 6 anak berikut 34 - 32 - 33 - 33 - 35 - 37. Dengan demikian modus =
33
11
Sifat modus:
Modus kurang dikenal dibandingkan dengan mean dan median. Dalam suatu distribusi frekuensi bisa
terdapat dua atau lebih modus, tetapi dapat juga tidak ada modus. Beberapa hal yang perlu dipahami
tentang modus adalah:
Modus tidak dipengaruhi oleh adanya nilai ekstrim dalam suatu distribusi frekuensi;
Contoh: 4,4,4,4,5,6 → Modus 4
4,4,4,4,5,200 → Modus 4
Modus dapat digunakan baik pada data yang bersifat kuantitatif maupun kualitatif, dan berskala
rasio, interval, ordinal dan nominal;
Bila ada satu modus disebut unimodal, dua modus disebut bimodal, dan bila ada tiga modus atau
lebih disebut multimodal.
MEAN
Mean atau rata-rata hitung dari suatu agregat adalah jumlah semua nilai agregat dibagi dengan
jumlah observasi dalam agregat tersebut.
Contoh: Berikut ini adalah hasil pengukuran berat badan (kg) dari 10 anak: 45; 42; 44; 49; 45; 50;
47; 41; 46; 44.
Dengan demikian, maka Mean = 45,3
Sifat mean:
Beberapa hal yang perlu dipahami tentang sifat dan penggunaan nilai mean adalah:
Untuk nilai rerata populasi (mean populasi) digunakan lambang 𝜇(baca myu), sedangkan untuk nilai
rerata sampel (mean sampel) digunakan lambang 𝑥̅ ).
Mean digunakan pada variabel yang berskala rasio atau memiliki data numerik, misal : berat badan,
umur, atau tekanan darah;
• Rata-rata lebih populer dan lebih mudah digunakan;
• Rata-rata selalu ada dan hanya ada 1
• Tidak peka terhadap penambahan jumlah data
• Cocok untuk data homogen
Kelemahan
• Sangat dipengaruhi oleh nilai-nilai ekstrim, baik terlalu rendah maupun terlalu tinggi. Setiap
ada perubahan nilai dari setiap individu mempengaruhi besarnya mean.
12
• Tidak cocok untuk data heterogen
● Median adalah nilai tengah dan umumnya paling tepat menggambarkan tendensi sentral bila
distribusi menunjukkan keistimewaan, seperti miring ke kanan atau ke kiri, dsb. Pada
distribusi yang miring ini lebih tepat digunakan nilai median, karena nilai median berada
diantara nilai modus dan mean;
● Modus merupakan alat yang paling sederhana untuk menafsirkan tendensi sentral dalam
waktu cepat atau waktu terbatas.
Ukuran pemusatan data saja kurang cukup untuk menggambarkan distribusi data, sehingga
diperlukannya ukuran lain.
Misalkan ada deretan angka: -3.2, -1.7, -0.4, 0.1, 0.3, 1.2, 1.5, 1.8, 2.4, 3.0, 4.3, 6.4, 9.8
13
IQR (INTERQUARTILE RANGE)
14
The interquartile range (IQR) is the length of the middle 50% of that interval of space.
15
● Informasi yang dapat diperoleh dari dot plot:
● Nilai setiap observasi
● Sebaran data
● Bentuk distribusi
● Kandidat pencilan
16
Diagram Kotak (Box Plot)
● Sebuah box plot adalah grafik untuk menggambarkan five number summary
● Kotak yang di tengah melambangkan IQR
● Garis yang berada di dalam melambangkan median
● Garis penutup melambangkan nilai max dan min dari data
● Outlier ditambahkan di luar range data berupa titik
Five number summary seringnya lebih baik dari mean dan standar deviasi dikarenakan ketahanannya
terhadap outlier. Konsep ini juga seringnya lebih baik dalam menjelaskan kemencengan dan outlier
ekstrim.
● Bagian utama kotak berbentuk persegi (box), merupakan bidang yang menyajikan IQR, dimana
50 % dari nilai data pengamatan terletak di sana. IQR menggambarkan ukuran penyebaran data.
Semakin panjang bidang IQR menunjukkan data semakin menyebar.
● Garis bawah kotak = 𝑄1 (kuartil bawah)
● Garis tengah kotak = 𝑄2 (median)
● Garis atas kotak = 𝑄3 (kuartil atas)
● Garis yang merupakan perpanjangan dari box (baik ke arah atas ataupun ke arah bawah)
dinamakan dengan whiskers.
● Panjang whisker ≤ 1,5 × 𝐼𝑄𝑅.
● Garis whisker dimulai dari ujung kotak dan berakhir pada nilai data yang bukan dikategorikan
sebagai pencilan.
17
Tiap tiap bagian mendistribusikan 25% data, bukan semakin panjang brarti semakin banyak data di
sana.
18
● Hitung 5 number summary data
● Identifikasi data yang merupakan pencilan
● Buat kotak dengan bagian bawah/kiri sesuai kuartil bawah dan bagian atas/kanan sesuai
kuartil atas. Tinggi kotak adalah IQR
● Gambar garis dalam kotak sesuai nilai median
● Untuk data tanpa pencilan, buat garis dari bagian bawah kotak hingga nilai minimum dan dari
bagian atas kotak hingga nilai maksimum
● Untuk data dengan pencilan, buat garis dari bagian bawah kotak hingga nilai observasi
terkecil yang bukan pencilan dan dari bagian atas kotak hingga nilai observasi terbesar yang
bukan pencilan
19
Transformasi Data
Tujuan
Mengubah nilai asli data menjadi data baru menggunakan suatu formula/operasi matematika dengan
tujuan tertentu 𝑦 ⇒ 𝑦’
Beberapa tujuan dilakukannya transformasi:
● Membuat pola sebaran data menjadi simetris (sesuai dengan anggapan normalitas pada
berbagai prosedur pengujian hipotesis)/ Make skewed distributions more symmetric
● Membuat pola hubungan antar variabel menjadi linier/ Linearize a curved scatterplot
● Membuat pesebaran di tiap sisi box plot lebih simetris
● Membuat pesebaran titik di scatterplot lebih baik (linear)
20
Cara Transformasi Data
21
Tangga Transformasi Tukey
22
Transformasi dengan Log
● Saat data tidak ada yang 0 ataupun negatif, transformasi dengan logaritma cukup membantu
● Hal ini dapat dilakukan dengan log x ataupun log y lalu melihat efek setelah transformasi
23
Kenapa harus mentransformasi?
● Untuk mengubah skala pengukuran data ke dalam bentuk lain supaya memenuhi asumsi
analisis, untuk bisa dianalisis kedua variabel perlu kejelasan hubungan ntah punya hubungan
yang kuat atau tidak punya hubungan. Jika hubungan kedua variabel tidak jelas, maka data
sulit dianalisis.
● Mentransformasi memperkuat scatter plot,menyeimbangkan varians, dan menyeimbangkan
histogram
Transformasi ini bekerja ketika kita melihat perubahan varians sebagai fungsi linear dari rata-rata.
Standarisasi Data
Tujuan
● Membandingkan beberapa angkatan data:
24
- satuan data berbeda
- satuan data sama, varians berbeda
● Melihat posisi relatif nilai observasi
● Memeriksa pencilan
● Data mentah
● Kurangi nilai observasi dengan pusat data (tidak merubah sebaran data, membuat pusat data
menjadi nol (memusatkan data)
● Bagi hasilnya dengan sebaran data, membuat sebaran data menjadi 1 (membakukan data),
letak relatif nilai ekstrim sama, bentuk umum angkatan sama
Data distandarisasi dalam bentuk 𝑧, 𝑧 sendiri memiliki rumus
𝑧 = (𝑥̅𝑖 − 𝑥̅ )/𝑠
Keterangan:
𝑥̅𝑖 = nilai observasi
𝑥̅ = rata rata sampel
𝑠 = simpangan baku sampel
TIME SERIES
Time series data adalah data yang dikumpulkan dari waktu ke waktu dengan interval waktu konstan.
25
4 jenis fluktuasi pada time series
● Trend
● Seasonal Variation
26
● Cyclical Variation
● Random Variation
27
PEMULUSAN DATA
Pemulusan adalah proses menghilangkan random variation dari data time series, membuat tren data
lebih terlihat, dan mempermudah analisa.
TEKNIK DALAM PEMULUSAN DATA DERET WAKTU
Moving average dan median smoothing adalah teknik yang digunakan untuk menghaluskan time
series.
Moving Average adalah metode pemulusan data dengan setiap kalinya mengambil sekelompok nilai
pengamatan untuk kemudian dicari rata-ratanya
● Banyak data yang dirata-ratakan bergantung pada ordo yang digunakan
● Disebut rata-rata bergerak karena setiap kali ada observasi baru tersedia, maka rata-rata yang
baru dihitung
MOVING MEDIAN
Moving Median adalah metode pemulusan data dengan setiap kalinya mengambil sekelompok nilai
pengamatan untuk kemudian dicari mediannya.
Keuntungan :
● Time series yang dihasilkan didapat dari data time series langsung
● Tidak dipengaruhi outlier
28
29
Referensi
Kumpulan salindia yang telah diberikan dosen, diakses melalui FOSIL 63.
30
31