Anda di halaman 1dari 32

Perhatian

Rangkuman Pembelajaran ini, dapat diunduh, digandakan, disalin, dicetak, dialihmediakan, ataupun
difotokopi.

Penggandaan baik dalam bentuk penyalinan, pencetakan, dan lain sebagainya yang bertujuan untuk
dikomersilkan/dijual tidak dapat dilakukan tanpa izin tertulis dari PJ Modul Pengurus Angkatan 64
dan Pengurus Angkatan 64. Apabila melanggar, akan diberikan sanksi sesuai peraturan yang berlaku.

Catatan Tambahan
Rangkuman Pembelajaran Analisis Data Eksploratif dan Eksplotasi dan Visualisasi Data adalah
rangkuman yang sama (diambil dari powerpoint Analisis Data Eksploratif)

KRITIK DAN SARAN


Untuk kritik dan saran terhadap rangkuman pembelajaran ini, dapat dikirimkan melalui Google
Formulir yang tersedia di bawah.

https://forms.gle/6PbAFj8UmioDHvCd8

1
RANGKUMAN
ANALISIS DATA EKSPLORATIF / EKSPLORASI DAN VISUALISASI DATA

Sekilas

Kita belajar statistika, agar bisa menjelaskan atau menggambarkan segala sesuatu kepada orang lain
untuk itu, kita harus mempunyai kemampuan:
● Mengekstrak informasi dari tabel dan grafik.
● Mengerti alasan dari sebuah angka.
● Mengetahui dasar bagaimana data tersebut akan diringkas, dan dianalisis untuk
menggambarkan kesimpulan secara statistik.

Untuk bisa menjadi statistisi yang profesional, maka ada beberapa hal yang perlu dilakukan:
● Putuskan apakah data yang ada memadai atau apakah diperlukan informasi tambahan.
● Jika diperlukan, kumpulkan lebih banyak informasi dengan cara yang masuk akal dan
bijaksana.
● Ringkas data yang tersedia dengan cara yang bermanfaat dan informatif.
● Analisis data yang tersedia.
● Buat kesimpulan, buat keputusan, dan nilai risiko jika keputusan yang diambil salah.

Jenis Analisis Data


● Klasikal
Masalah ⇒ Data ⇒ Model ⇒ Analisis ⇒ Kesimpulan
● Eksploratory (EDA)
Masalah ⇒ Data ⇒ Analisis ⇒ Model ⇒ Kesimpulan

Perbedaan
● Untuk klasikal, setelah pengumpulan data dilanjutkan dengan pengenaan model, analisis, dan
simpulan.
● Untuk EDA setelah pengumpulan data dilanjutkan dengan analisis guna menentukan model
yang akan digunakan dan yang terakhir simpulan.

Analisis Data Eksploratif adalah metode untuk menampilkan (melalui grafik) dan meringkas
(menghitung ukuran statistik) data.

Manfaat ADE

2
● memperoleh pemahaman tentang karakteristik/perilaku data dengan lebih baik sehingga
membantu menentukan metode analisis yang sesuai;
● mengenali pola yang tidak dapat ditangkap oleh metode analisis yang digunakan dapat
mendeteksi outlier dan anomali;
● dapat mendiagnosa ada/tidak pelanggaran asumsi
Teknik Grafis dalam Analisis Data Eksploratif
1. Mem-plot data mentah
Stem-and-Leaf plot: untuk mengurutkan data, melihat pola/bentuk distribusi data (simetris,
menceng kiri/kanan), dan membandingkan distribusi 2 atau lebih kelompok data

Histogram: untuk menggambarkan bentuk distribusi data (dimana data memusat, bagaimana data
menyebar, ada/tidak outlier)

3
Probability Plot: untuk melihat apakah data mengikuti suatu distribusi
tertentu atau tidak, misal Normal

Scatter Plot: untuk melihat pola hubungan antar 2 variabel

4
2. Membuat plot statistik sederhana, misal:
Box (and whisker) plot adalah alat yang sangat baik untuk menggambarkan lokasi dan informasi
variasi sekumpulan data, terutama untuk mendeteksi dan menggambarkan lokasi dan variasi
perubahan antara kelompok data yang berbeda.
Menggunakan 5 statistik sederhana, yaitu nilai minimum (L), maksimum (U), 𝑄1, 𝑄2, 𝑄3

Plot rata-rata (mean plot): untuk melihat apakah ada perbedaan rata-rata dari beberapa kelompok
data. Perbandingan juga dapat dilakukan antar waktu (tahun, bulan, minggu, dsb).

5
Plot simpangan baku (standard deviation plot): untuk melihat apakah ada perbedaan keragaman
(variasi) dari beberapa kelompok data. Perbandingan juga dapat dilakukan antar waktu (tahun, bulan,
minggu, dsb).

Diagram batang dan daun


Penyajian data dalam bentuk diagram dengan cara menyusun/menata data menjadi dua bagian, yaitu
batang dan daun, Pembagian batang dan daun mengikuti aturan tertentu (Key). Misal angka yang
terdiri dari 2 digit: angka (digit) pertama ditempatkan pada bagian batang, dan angka (digit) kedua
ditempatkan (secara berurutan) pada bagian daun.

6
Komponen dari diagram batang dan daun

● Stem (Batang)
● Leaf (daun)
● Key

*A key dari diagram batang dan daun menunjukkan kekhususan apa yang direpresentasikan oleh data
(cara penyusunan data). A key juga bisa menunjukkan satuan pengukuran (persen, kaki, inci, dll).

Membuat diagram batang dan daun untuk barisan data


yang terdiri dari 2 digit:

1. Masukkan angka pada digit pertama dari setiap potongan data (secara berurutan) ke sisi kiri
(batang).
2. Perhatikan barisan data satu persatu, masukkan angka pada digit kedua ke sisi kanan (daun)
sesuai dengan angka pada digit pertamanya (sesuai dengan batang dimana seharusnya daun
tersebut berada).
3. Setelah semua barisan data dimasukkan ke dalam diagram, atur kembali angka pada bagian daun
pada masing-masing batang secara berurutan (dari yang terkecil pada sebelah kiri dan terbesar
pada sebelah kanan.)

Ingat:

7
• Selalu cantumkan aturan (cara) penyusunan data (a Key).
• Selalu susun/tata datanya secara berurutan.
• Median: untuk menghitung median, Anda harus menemukan nilai tengahnya. jika ada dua nilai
tengah, Anda perlu menghitung rata-rata dari dua nilai tersebut.
Berapakah nilai mediannya?
• Range(Jarak), untuk menghitung Range (jarak), hitung selisih antara nilai terbesar dan terkecil.
Berapakah nilai terkecilnya?
Berapakah nilai terbesarnya?
Berapakah range (jarak) nya?

Kegunaan Diagram batang dan daun

● Untuk melihat penyebaran dari suatu data, sehingga secara keseluruhan data individu-
individu dapat terlihat apakah ada kecenderungan data tersebut menyebar atau memusat pada
suatu nilai tertentu
● Untuk melihat pola/bentuk distribusi data (simetris, menceng kiri/kanan) dan
● Untuk membandingkan distribusi 2 atau lebih kelompok data
● Untuk melihat nilai manakah yang paling sering muncul dan yang jarang muncul.
● Bisa untuk mengurutkan data (daun harus terurut)
● Memudahkan dalam menentukan median dan range.

Keuntungan dan Kerugian dari stem-and–leaf Diagrams

Keuntungan:

8
● Mudah membuat dan membacanya.
● Menunjukkan data asli
● Mempertahankan informasi dalam data
● Membolehkan kita untuk merekonstruksi kumpulan data.
● Mudah untuk mengidentifikasi pengamatan yang berurutan.

Kerugian:

● Hanya cocok untuk menggambarkan kumpulan data kecil.


● Kurang fleksibel dalam pemilihan batang
● Tidak menyampaikan pembacaan frekuensi kelas secara cepat.

9
RINGKASAN NUMERIK UNTUK DATA KUANTITATIF

Untuk mengetahui kondisi pemusatan dan persebaran nilai data

Pemusatan
● Mean
● Median
● Modus

Persebaran
● Range
● Inter-quartile range
● Standard deviation

5 ringkasan nilai yang biasanya digunakan adalah:


• Nilai minimum,
• kuartil I (q1),

10
• median,
• kuartil III (q3), dan
• nilai maksimum

Central Tendency (Tendensi Sentral) merupakan nilai yang menunjukkan titik tengah dari suatu
dataset untuk mengetahui dimana posisi banyak nilai data berkumpul di dalam distribusi. Nilai Mean,
Median, dan Modus adalah ukuran Central Tendency yang paling umum digunakan. Ketiganya
menunjukkan lokasi berkumpulnya data, namun dengan metode dan makna yang berbeda.

MEDIAN
Median adalah nilai yang ada di tengah dari suatu agregat dimana nilai-nilai yang diobservasi dan
diurutkan dari nilai terendah sampai nilai yang tertinggi.
Hal ini berarti bahwa separuh (50%) pengamatan mempunyai nilai di bawahnya median dan
separuhnya lagi (50%) berada di atasnya.
Contoh: TB (cm) dari 5 anak : 79 - 82 - 86 - 92 - 93. Dengan demikian nilai median adalah = 86 cm.

Sifat median:
Beberapa hal yang perlu dipahami dengan median adalah:
1. Median mudah dihitung dan mudah dimengerti, dipengaruhi oleh jumlah pengamatan
Contoh: 3,4,5,5,6,7,8 → median 5
3,4,5,5,6,7,8,8 → median 5,5
2. Tidak dipengaruhi oleh nilai observasi
Contoh: 3,4,5,5,6,7,8 →median 5
3,4,5,5,6,7,100 → median 5
Median digunakan pada distribusi frekuensi yang miring (skewed)
3. Cocok untuk data heterogen
Contoh: pendapatan di perkotaan
4. Hanya ada 1 median dalam data

MODUS

Modus adalah nilai pengamatan yang mempunyai frekuensi paling banyak (paling sering muncul)

Contoh: Data berat badan (kg) 6 anak berikut 34 - 32 - 33 - 33 - 35 - 37. Dengan demikian modus =
33

11
Sifat modus:
Modus kurang dikenal dibandingkan dengan mean dan median. Dalam suatu distribusi frekuensi bisa
terdapat dua atau lebih modus, tetapi dapat juga tidak ada modus. Beberapa hal yang perlu dipahami
tentang modus adalah:
Modus tidak dipengaruhi oleh adanya nilai ekstrim dalam suatu distribusi frekuensi;
Contoh: 4,4,4,4,5,6 → Modus 4
4,4,4,4,5,200 → Modus 4

Modus dapat digunakan baik pada data yang bersifat kuantitatif maupun kualitatif, dan berskala
rasio, interval, ordinal dan nominal;

Bila ada satu modus disebut unimodal, dua modus disebut bimodal, dan bila ada tiga modus atau
lebih disebut multimodal.

MEAN

Mean atau rata-rata hitung dari suatu agregat adalah jumlah semua nilai agregat dibagi dengan
jumlah observasi dalam agregat tersebut.
Contoh: Berikut ini adalah hasil pengukuran berat badan (kg) dari 10 anak: 45; 42; 44; 49; 45; 50;
47; 41; 46; 44.
Dengan demikian, maka Mean = 45,3

Sifat mean:
Beberapa hal yang perlu dipahami tentang sifat dan penggunaan nilai mean adalah:
Untuk nilai rerata populasi (mean populasi) digunakan lambang 𝜇(baca myu), sedangkan untuk nilai
rerata sampel (mean sampel) digunakan lambang 𝑥̅ ).
Mean digunakan pada variabel yang berskala rasio atau memiliki data numerik, misal : berat badan,
umur, atau tekanan darah;
• Rata-rata lebih populer dan lebih mudah digunakan;
• Rata-rata selalu ada dan hanya ada 1
• Tidak peka terhadap penambahan jumlah data
• Cocok untuk data homogen

Kelemahan
• Sangat dipengaruhi oleh nilai-nilai ekstrim, baik terlalu rendah maupun terlalu tinggi. Setiap
ada perubahan nilai dari setiap individu mempengaruhi besarnya mean.

12
• Tidak cocok untuk data heterogen

Perbedaan penggunaan mean, median & modus:


Beberapa hal yang perlu diperhatikan adalah:
● Mean pada umumnya dipilih untuk mengukur tendensi sentral terutama bilamana distribusi
mendekati normal, sebab mean mempunyai stabilitas variasi yang baik dan dapat digunakan
sebagai dasar statistik selanjutnya;

● Median adalah nilai tengah dan umumnya paling tepat menggambarkan tendensi sentral bila
distribusi menunjukkan keistimewaan, seperti miring ke kanan atau ke kiri, dsb. Pada
distribusi yang miring ini lebih tepat digunakan nilai median, karena nilai median berada
diantara nilai modus dan mean;

● Modus merupakan alat yang paling sederhana untuk menafsirkan tendensi sentral dalam
waktu cepat atau waktu terbatas.

Ukuran pemusatan data saja kurang cukup untuk menggambarkan distribusi data, sehingga
diperlukannya ukuran lain.

UKURAN PENYEBARAN DATA

Jarak /range (R) :


R= Max-Min
Jarak antar kuartil/Inter-quartile range:
IQR=Q3-Q1
Standard Deviation (SD):
“rata-rata” jarak nilai data terhadap mean
HINGES

Misalkan ada deretan angka: -3.2, -1.7, -0.4, 0.1, 0.3, 1.2, 1.5, 1.8, 2.4, 3.0, 4.3, 6.4, 9.8

13
IQR (INTERQUARTILE RANGE)

14
The interquartile range (IQR) is the length of the middle 50% of that interval of space.

Deteksi outlier dengan IQR


Batas Atas = 𝑄3 + 𝐼𝑄𝑅
Batas Bawah = 𝑄1 − 𝐼𝑄𝑅
Jika data setelah 𝑄3 ada yang melewati batas atas maka data tersebut outlier
Jika data sebelum 𝑄1 ada yang melewati batas bawah maka data tersebut outlier

Diagram Titik dan Diagram Kotak

Diagram Titik (Dot Plot)

● Cara sederhana untuk menggambarkan data numerik


● Cocok untuk data yang memiliki sedikit observasi
● Cocok untuk data dengan jangkauan tidak terlalu besar
● Setiap observasi dinyatakan dengan sebuah titik (dot)

15
● Informasi yang dapat diperoleh dari dot plot:
● Nilai setiap observasi
● Sebaran data
● Bentuk distribusi
● Kandidat pencilan

Cara Membuat Dot Plot


● Gambar garis horizontal dan tandai dengan skala yang sesuai
● Gambarkan setiap observasi dalam bentuk titik di atas garis horizontal pada skala yang
sesuai. Jika dua atau lebih observasi bernilai sama, tempatkan titik-titik secara vertikal

Singkatnya dalam membuat dot plot dapat dilakukan 4 langkah berikut


1. Organize (mengurut data dari kecil ke besar)
2. Frequency table (membuat tabel frekuensi tiap data)
3. Melihat kondisi data dan menentukan interval
4. Menaruh titik sebagai representasi dalam grafik
Titik pada dot plot dapat juga ditambahkan hanya untuk merepresentasikan frekuensi (sumbu y) dan
data itu sendiri (sumbu−𝑥̅)

16
Diagram Kotak (Box Plot)

● Sebuah box plot adalah grafik untuk menggambarkan five number summary
● Kotak yang di tengah melambangkan IQR
● Garis yang berada di dalam melambangkan median
● Garis penutup melambangkan nilai max dan min dari data
● Outlier ditambahkan di luar range data berupa titik

Five number summary seringnya lebih baik dari mean dan standar deviasi dikarenakan ketahanannya
terhadap outlier. Konsep ini juga seringnya lebih baik dalam menjelaskan kemencengan dan outlier
ekstrim.

Kegunaan Box Plot

● Menggambarkan ringkasan numerik secara visual


● Memberikan gambaran pusat data, sebaran data, bentuk distribusi data
Panjang kotak dapat digunakan untuk menggambarkan sebaran data pengamatan
Letak median dan panjang whisker menggambarkan kesimetrisan
● Dapat membandingkan antar angkatan

BAGIAN-BAGIAN BOX PLOT

● Bagian utama kotak berbentuk persegi (box), merupakan bidang yang menyajikan IQR, dimana
50 % dari nilai data pengamatan terletak di sana. IQR menggambarkan ukuran penyebaran data.
Semakin panjang bidang IQR menunjukkan data semakin menyebar.
● Garis bawah kotak = 𝑄1 (kuartil bawah)
● Garis tengah kotak = 𝑄2 (median)
● Garis atas kotak = 𝑄3 (kuartil atas)
● Garis yang merupakan perpanjangan dari box (baik ke arah atas ataupun ke arah bawah)
dinamakan dengan whiskers.
● Panjang whisker ≤ 1,5 × 𝐼𝑄𝑅.
● Garis whisker dimulai dari ujung kotak dan berakhir pada nilai data yang bukan dikategorikan
sebagai pencilan.

17
Tiap tiap bagian mendistribusikan 25% data, bukan semakin panjang brarti semakin banyak data di
sana.

Cara Membuat Box Plot

18
● Hitung 5 number summary data
● Identifikasi data yang merupakan pencilan
● Buat kotak dengan bagian bawah/kiri sesuai kuartil bawah dan bagian atas/kanan sesuai
kuartil atas. Tinggi kotak adalah IQR
● Gambar garis dalam kotak sesuai nilai median
● Untuk data tanpa pencilan, buat garis dari bagian bawah kotak hingga nilai minimum dan dari
bagian atas kotak hingga nilai maksimum
● Untuk data dengan pencilan, buat garis dari bagian bawah kotak hingga nilai observasi
terkecil yang bukan pencilan dan dari bagian atas kotak hingga nilai observasi terbesar yang
bukan pencilan

Interpretasi Box Plot

19
Transformasi Data

Tujuan
Mengubah nilai asli data menjadi data baru menggunakan suatu formula/operasi matematika dengan
tujuan tertentu 𝑦 ⇒ 𝑦’
Beberapa tujuan dilakukannya transformasi:
● Membuat pola sebaran data menjadi simetris (sesuai dengan anggapan normalitas pada
berbagai prosedur pengujian hipotesis)/ Make skewed distributions more symmetric
● Membuat pola hubungan antar variabel menjadi linier/ Linearize a curved scatterplot
● Membuat pesebaran di tiap sisi box plot lebih simetris
● Membuat pesebaran titik di scatterplot lebih baik (linear)

20
Cara Transformasi Data

21
Tangga Transformasi Tukey

lebih kuat sedang tetap sedang lebih kuat

Contoh Transformasi Data

22
Transformasi dengan Log

● Saat data tidak ada yang 0 ataupun negatif, transformasi dengan logaritma cukup membantu
● Hal ini dapat dilakukan dengan log x ataupun log y lalu melihat efek setelah transformasi

23
Kenapa harus mentransformasi?

● Untuk mengubah skala pengukuran data ke dalam bentuk lain supaya memenuhi asumsi
analisis, untuk bisa dianalisis kedua variabel perlu kejelasan hubungan ntah punya hubungan
yang kuat atau tidak punya hubungan. Jika hubungan kedua variabel tidak jelas, maka data
sulit dianalisis.
● Mentransformasi memperkuat scatter plot,menyeimbangkan varians, dan menyeimbangkan
histogram

Transformasi dengan Akar Kuadrat

Transformasi ini bekerja ketika kita melihat perubahan varians sebagai fungsi linear dari rata-rata.

Standarisasi Data

Tujuan
● Membandingkan beberapa angkatan data:

24
- satuan data berbeda
- satuan data sama, varians berbeda
● Melihat posisi relatif nilai observasi
● Memeriksa pencilan

Cara Menstandarkan Data

● Data mentah
● Kurangi nilai observasi dengan pusat data (tidak merubah sebaran data, membuat pusat data
menjadi nol (memusatkan data)
● Bagi hasilnya dengan sebaran data, membuat sebaran data menjadi 1 (membakukan data),
letak relatif nilai ekstrim sama, bentuk umum angkatan sama
Data distandarisasi dalam bentuk 𝑧, 𝑧 sendiri memiliki rumus
𝑧 = (𝑥̅𝑖 − 𝑥̅ )/𝑠

Keterangan:
𝑥̅𝑖 = nilai observasi
𝑥̅ = rata rata sampel
𝑠 = simpangan baku sampel

Prinsip Standarisasi Data


Data distandarisasi dengan prinsip
● Hanya mengubah pusat dan sebaran data
● Menghindari sifat pengukuran yang berlainan
Pemulusan Data Deret Waktu

TIME SERIES

Time series data adalah data yang dikumpulkan dari waktu ke waktu dengan interval waktu konstan.

25
4 jenis fluktuasi pada time series
● Trend

● Seasonal Variation

26
● Cyclical Variation

● Random Variation

27
PEMULUSAN DATA
Pemulusan adalah proses menghilangkan random variation dari data time series, membuat tren data
lebih terlihat, dan mempermudah analisa.
TEKNIK DALAM PEMULUSAN DATA DERET WAKTU
Moving average dan median smoothing adalah teknik yang digunakan untuk menghaluskan time
series.
Moving Average adalah metode pemulusan data dengan setiap kalinya mengambil sekelompok nilai
pengamatan untuk kemudian dicari rata-ratanya
● Banyak data yang dirata-ratakan bergantung pada ordo yang digunakan
● Disebut rata-rata bergerak karena setiap kali ada observasi baru tersedia, maka rata-rata yang
baru dihitung

MOVING MEDIAN

Moving Median adalah metode pemulusan data dengan setiap kalinya mengambil sekelompok nilai
pengamatan untuk kemudian dicari mediannya.
Keuntungan :
● Time series yang dihasilkan didapat dari data time series langsung
● Tidak dipengaruhi outlier

28
29
Referensi
Kumpulan salindia yang telah diberikan dosen, diakses melalui FOSIL 63.

30
31

Anda mungkin juga menyukai