Anda di halaman 1dari 37

ANALISIS DATA EKSPLORATIF

PERTEMUAN 1-7

Dosen Pembimbing :
Liza Kurnia Sari S.Si., M.Stat.
Disusun Oleh :
Kelas 1-L

SEKOLAH TINGGI ILMU STATISTIK


2017
Materi :

Pert 1. Analisis Data Eksploratif ...................................................................... 3

Pert 2. Diagram Batang Daun ......................................................................... 7

Pert 3. Ringkasan Data Numerik ...................................................................... 13

Pert 4-5. Dotplot & Boxplot ............................................................................ 19

Pert 6. Transformasi Data ............................................................................... 25

Pert 7. Pemulusan Data Series ........................................................................ 32

1eLaSTIS |Analisis Data Eksploratif


PERTEMUAN 1

ANALISIS DATA EKSPLORATIF

Pengertian
Eksplorasi Data Analisis adalah sebuah kemampuan dalam
mengeksplorasi data dengan mengetahui pola sebaran data, meringkas data,
menggambarkan data dalam berbagai macam plot, grafik, chart dan tabel, sebelum
data tersebut dilakukan analisis lebih lanjut dengan menggunakan analisis
inferensia. Eksplorasi data Analisis juga dapat diartikan sebagai sebuah tahapan
pertama yang penting dalam menganalisis data dari sebuah percobaan. Eksplorasi
Data Analisis juga dapat diartikan sebagai pendekatan yang dilakukan untuk data
analisis yang menggunakan berbagai teknik.
Eksplorasi Data Analisis digunakan karena dapat mendeteksi kesalahan,
mengecek anggapan, menyeleksi model yang sesuai, menjelaskan hubungan antar
variable. Eksplorasi Data Analisis juga digunakan untuk menambah wawasan
tentang sebuah data, menemukan pokok struktur data, menemukan variable
penting, mendeteksi sebuah kelainan dalam sebuah data.

Perbedaan Eksplorasi Data dengan Konfirmatori Data


Analisis Konfirmatori digunakan dalam statistika inferensia dengan
pendekatan deduktif. Analisis Konfimatori sangat bergantung pada sebuah model,
harus menerima asumsi yang tidak perlu diuji, ditekankan pada pennghitungan
angka, hipotesis ditentukan di awal, dan mencari jawaban pasti dari sebuah
pertanyaan yang spesifik. Sedangkan untuk Analisis Eksplorasi digunakan dalam
statistika deskriptif dengan pendekatan induktif. Analisis Eksplorasi sangat
bergantung pada penyajian grafik, mencari cara yang flexible untuk memeriksa 3
data tanpa hipotesa awal, dilakukan untuk mengevaluasi kebenaran asumsi.

1eLaSTIS |Analisis Data Eksploratif


Keuntungan dari Analisis Konfirmatori adalah memberikan informasi
yang tepat pada keadaan yang benar dan teori serta metode yang kuat. Sedangkan
Keuntungan Analisis Eksplorasi adalah pernyataannya lebih akurat, cara yang
flexible untuk menghasilkan hipotesis.
Kekurangan dari Analisis Konfimatori adalah sulit untuk melihat apabila
ada hasil yang tidak diharapkan. Sedangakan Kekurangan Analisis Eksplorasi
adalah biasanya tidak menyediakan jawaban yang pasti.
Berfokus pada pendekatan eksplorasi data analisis dan pendekatan klasik
dibedakan sebagai berikut :
1. Models
2. Focus
3. Techniques
4. Rigor/Strict
5. Data Treatment
6. Assumptions

Pada bagian model perbedaan anatara pendekatan klasik dan EDA


adalah pendekatan klasik memaksakan deterministic dan probabilistic pada
data, sedangkan pendekatan EDA tidak memaksakan deterministic
ataupun probabilistic model pada data, melainkan menggunakan model
yang sesuai dengan data.
Dalam bagian fokus, pendekatan klasik berfokus pada modelnya
sedangkan untuk pendekatan EDA berfokus pada datanya untuk struktur
dan model berdasarkan pada data.
Pada bagian teknik pendekatan klasik menggunakan teknik secara
kuantitas termasuk ANOVA, t tests, chi-squared tests, dan F tests.
Pendekatan EDA menggunakan teknik grafik termasuk scatter plots,
character plots, box plots, histograms, bihistograms, probability plots,
residual plots, dan mean plots.
Teknik pendekatan klasik bersifat kaku, formal, dan objektif 4
sedangkan teknik pendekatan EDA tidak bersifat kaku maupun formal,

1eLaSTIS |Analisis Data Eksploratif


teknik EDA bersifat subjektif dan tergantung pada interpretasi yang
memungkinkan perbedaan dalam tiap analisis.
Pendekatan klasik menyajikan data dengan membaginya menurut
karakteristiknya dan membuatnya menjadi sedikit, dalam hal ini
memungkinkan adanya hilang informasi karena proses tersebut sedangkan
pendekatan EDA menggunakan semua data sehingga tidak ada hilangnya
informasi.
Pendekatan klasik dengan teknik klasik dapat dikatakan sangat
sensitive, apabila ada suatu perubahan dalam suatu lokasi pada data maka
dengan teknik klasik tersebut dapat langsung mendeteksi perubahan
tersebut dan menyimpulkan perubahan tersebut namun pengujian dengan
pendekatan klasik tergantung pada asumsi pokok dan karenanya hasil
kesimpulannya juga tergantung pada asumsi pokok, dan asumsi pokok
yang mendasari tidak diketahui oleh orang yang menganalisis jika
memang diketahui itu belum teruji sehingga pada hakekatnya hasil
kesimpulan terhubung dengan asumsi pokok yang digunakan, jika hal
tersebut dipraktikkan dengan menggunakan asumsi yang tidak teruji maka
hasil kesimpulannya menjadi diragukan. Sedangkan teknik dengan
pendekatan EDA tidak memiliki terlalu banyak asumsi bahkan tidak
memiliki asumsi, mereka menyajikan data apa adanya.

Teknik-Teknik dalam EDA


Eksplorasi data analisis secara umum diklasifikasikan dalam 2 cara yaitu
non-grafik atau grafik dan univariate atau multivariate sehingga dapat dibagi
menjadi :
1. Univariate non-grafik
2. Univariate grafik
3. Multivariate non-grafik
4. Multivariate grafik
5
Untuk metode non-grafik meliputi penghitungan sebuah ringkasan
statistik sedangkan metode grafik meringkas data menjadi diagram atau

1eLaSTIS |Analisis Data Eksploratif


gambar sedangkan metode univariate melihat pada 1 variabel dalam satu
waktu sedangkan multivariate melihat 2 atau lebih dalam satu waktu untuk
mengetahui hubungan antar variabelnya.
Univariate non-grafik untuk data kategorik atau non-numerik yaitu
dengan menggunakan pengolahan sederhana untuk mengelompokkan data
sesuai kategori. Untuk data kuantitas metode yang digunakan yaitu
membuat penilaian awal tentang distribusi variabel dalam data contohnya
seperti mean, median, skewness dan kurtosis.
Univariate grafik dalam teknik EDA contohnya yaitu histogram,
diagram batang dan daun, boxplots, dan quantile-normal plots.
Multivariate non-grafik dalam teknik EDA yaitu seperti melihat
korelasi dalam data kategorik, korelasi dan covariance, covariance dan
korelasi matriks.
Multivariate grafik dalam teknik EDA contohnya yaitu Scatterplots
dan mengkategorikan grafik-grafik univariate.

1eLaSTIS |Analisis Data Eksploratif


PERTEMUAN 2

DIAGRAM BATANG-DAUN

Diagram batang daun atau yang dikenal dengan istilah stem-leaf diagram

ditemukan oleh John Tukey. Stem-leaf diagram digunakan untuk menggambarkan

/menyajikan data dengan cara memisahkan setiap nilai menjadi dua bagian:

bagian batang (stem) yaitu digit angka paling kiri dan diikuti dengan angka

berikutnya, yaitu daun (leaf) digit angka paling kanan.

Tujuan Stem-leaf diagram adalah untuk mengetahui beberapa hal berikut ini:

1. Apakah pola pengamatan simetris

2. Penyebaran atau variasi dari data pengamatan

3. Apakah terdapat pencilan (outlier, nilai-nilai yang berada jauh dari yang

lainnya)

4. Titik pemusatan data

5. Ada lokasi yang merupakan gap (kesenjangan dalam data)

Kelebihan dari diagram batang-daun:

1. Menunjukkan data asli

2. Mengelompokkan ke dalam sebarang kategori

3. Mempertahankan informasi dalam data

4. Mudah dibuat dan dibaca

5. Bisa digunakan untuk menentukan range dan median (harus dalam daun 7

yang terurut)

1eLaSTIS |Analisis Data Eksploratif


6. Dapat digunakan untuk mengurutkan data, pola/bentuk distribusi data

(simetris, menceng kanan, mencemg kiri)

7. Membandingkan distribusi 2 atau lebih kelompok

Kelemahan:

1. Sulit untuk jumlah data yang banyak/besar dan rangenya besar.

Bentuk Distribusi

Menceng kiri/
Uniform Simetris Menjurai ke atas/
Negatively Skewed

Menceng kanan/
Menjurai ke bawah/
Bimodus/ 8
Positively Skewed Bimodal

1eLaSTIS |Analisis Data Eksploratif


Selain yang disebutkan di atas, juga terdapat distribusi data yang memiliki pola

tidak beraturan.

Cara membuat diagram batang daun secara umum:

1. Data diurutkan terlebih dahulu (dalam urutan naik/turun).

2. Tentukan batangnya, pastikan batang mencakup seluruh nilai.

3. Catat setiap nilai data dengan menuliskan daun bersebelahan dengan batang

yang bersesuaian.

4. Hitung jumlah daun, harus sesuai dengan banyak data

5. Pisahkan stem dan leaf dengan tanda

6. Beri keterangan stem dan leaf pada akhir diagram

7. Buatlah interpretasi dengan melihat bentuk diagram

Catatan : Batang bernilai lebih besar daripada daun.

Kebanyakan data itu menceng ke kanan atau menjurai ke bawah yang

artinya cenderung banyak data yang bernilai kecil.

Contoh diagram batang dan daun

Buatlah stemleaf diagram untuk data berikut ini:

23 58 43 32 26 44 49 30 99 38 57 36 65 45 48 66 53 44 26

Jawab :

i) 23 26 26 30 32 36 38 43 44 44 45 48 49 53 57 58 65 66 99

ii) Misal untuk tiga angka pertama, 23 26 dan 26. Angka puluhannya sama,

yaitu 2 sehingga angka tersebut ditempatkan pada stem (batang) yang


9
sama, begitupula angka satuannya 3, 6, 6 ditempatkan pada leaf yang sama

sehingga membentuk leaf 366.

1eLaSTIS |Analisis Data Eksploratif


Apabila kita masukkan ke dalam bentuk Stemleaf diagram :

2 | 366

Stemleaf diagram selengkapnya:

-------------------------------

Stem | Leaf

-------------------------------

2 | 366

3 | 0268

4 | 344589

5 | 378

6 | 56

7 |

8 |

9 |9

--------------------------------

keterangan :

2 | 3=23

iii) Interpretasi:

- Tidak simetris, data miring (menjulur) ke arah kanan

- Angka 99 merupakan outlier

- Gap (kekosongan/kesenjangan data) terdapat pada stem: 7 dan 8


10
- Pemusatan data terjadi pada stem 4, sekitar 4 puluhan.

1eLaSTIS |Analisis Data Eksploratif


Persentase Penduduk Berumur 7-24 Tahun yang Putus Sekolah

Sumber: Susenas BPS

Alasan kami memilih data tersebut:

1. Data itu merupakan data asli dan dapat dipertanggungjawabkan (Sumber

BPS).

2. Data itu dapat digunakan untuk menjelaskan keadaan pendidikan di

Indonesia.

3. Data itu memiliki banyak variabel (x) lain yg mempengaruhinya seperti

ekonomi,letak geografis, dll.

4. Mudah digunakan dan tidak terlalu rumit.

5. Cocok untuk pembelajaran dan pengetahuan.

Persentase penduduk berumur 7-24 tahun yang putus sekolah selama 14 tahun.

38.47 37.60 37.40 36.54 36.85 34.86 34.27


11

34.59 33.96 33.40 31.92 30.53 27.97 28.25

1eLaSTIS |Analisis Data Eksploratif


Buatlah stem leaf diagram untuk data di atas dan interpretasikan hasilnya

-------------------------------
Stem | Leaf
-------------------------------
2(6) | 7,97
2(8) | 8,25
3(0) | 0,53 1,92
3(2) | 3,40 3,96
3(4) | 4,27 4,59 4,86
3(6) | 6,54 6,85 7,40 7,60
3(8) | 8,47
--------------------------------
Keterangan :
2(6) | 7,97 = 27,97

Interpretasi:

- Tidak simetris, data miring (menjulur) ke arah kiri

- Pemusatan data terjadi pada stem 36 - 37

12

1eLaSTIS |Analisis Data Eksploratif


PERTEMUAN 3

RINGKASAN DATA NUMERIK

Analisis data eksplorasi merupakan metode statistik yang dapat digunakan


untuk memeriksa data sehingga peneliti akan mengetahui kondisi data. Strategi
dasar dari analisis data eksploratif sendiri dibedakan ke dalam 2 bentuk. Pertama
dalam bentuk gambar yang terdiri dari garfik stem-leaf, histogram, dan lain-lain.
Kedua, dengan menggunakan ringkasan numerik yang terdiri dari mean, median,
kuartil, range, standard deviation, dan lain-lain.
Ringkasan numerik digunakan untuk mengetahui kondisi pemusatan
dan persebaran data kuantitatif. Ringkasan tersebut diperlukan agar data
menjadi lebih sederhana, mengetahui gambaran data serta sifat penting dari data
tersebut.
Untuk mengetahui kondisi pemusatan nilai data, maka perlu menghitung :
1. Mean
Merupakan nilai rata-rata hitung dari keseluruhan nilai data yang dimiliki
Menggunakan data berkala rasio, seperti berat badan, umur, tekanan, dan
sebagainya.
Dipengaruhi oleh nilai ekstrim.
Apabila observasi berubah, maka mean juga akan berubah.
Notasi:
Mean populasi :
Mean sampel:
2. Median
Merupakan nilai yang berada tepat di tengah suatu distribusi nilai data
yang sudah diurutkan.
Dipengaruhi oleh jumlah observasi bukan nilai observasi. 13
Digunakan pada distribusi frekuensi miring.
Dapat digunakan untuk data kuantitatif atau kualitatif.

1eLaSTIS |Analisis Data Eksploratif


3. Modus

Merupakan nilai observasi yang sering muncul.


Tidak dipengaruhi oleh nilai ekstrim.
Digunakan pada data kualitatif maupun kuantitatif.
Unimodal artinya terdapat satu nilai modus dan bimodal artinya dua nilai
modus.
Tidak semua data memiliki modus.
Sedangkan untuk mengetahui kondisi persebaran nilai data, maka perlu
menghitung :

1. Jarak /range (R)

R = Max-Min
2. Jarak antar kuartil/Inter-quartile range:

Kuartil membagi data (n) yang berurutan atas 4 bagian yang sama banyak.

------|------|-------|-------
Q1 Q2 Q3
Q1=kuartil bawah
Q2=kuartil tengah/median
Q3 = kuartil atas
Untuk data yang tidak dikelompokkan terlebih dahulu dicari mediannya,
kemudian kuartil bawah dan kuartil atas.

Untuk data yang dikelompokkan rumusan kuartil identik dengan rumusan


mencari median.

Jarak antar kuartil atau IQR (Inter Quartile Range) merupakan selisih
antara Q3 dan Q1.

3. Standard Deviation (SD): rata-rata jarak nilai data terhadap mean

1n
xi
2
14
N i 1

SD 0. (SD = 0 saat nilai data sama semua)

1eLaSTIS |Analisis Data Eksploratif


Memiliki unit pengukuran yang sama dengan data observasi

Dipengaruhi oleh nilai ekstrim

Ringkasan numerik biasanya


disajikan dalam bentuk grafik box-plot
yang pada umumnya menampilkan 5
ringkasan nilai, yaitu:
1. Nilai minimum
2. Kuartil I (Q1)
3. Median
4. Kuartil III (Q3)
5. Nilai maksimum.

Hubungan Mean, Median, dan Modus :


1. Mean pada umumnya dipilih untuk mengukur ukuran pemusatan, bila
distribusi mendekati simetris maka data memiliki stabilitas yang besar
dan digunakan sebagai dasar statistika selanjutnya.
2. Median paling tepat menggambarkan ukuran pemusatan bila distribusi
menunjukkan keistimewaan. Saat menceng gunakan nilai median.
3. Modus biasanya digunakan untuk menafsirkan data serta mendapatkan
gambaran besar dari data secara cepat dan waktu yang singkat.

Mean vs Median
1. Nilai mean dan median sama, jika distribusi nilai data berupa kurva
yang setangkup/simetris
2. Mean dan median berbeda, jika distribusi nilai data menceng

3. Menceng kanan : mean lebih besar dari median

4. Menceng kiri: mean lebih kecil dari median


15

1eLaSTIS |Analisis Data Eksploratif


5. Mean ditarik oleh nilai ekstrim, namun tidak dengan median.
Median lebih baik digunakan sebagai ukuran pusat data jika nilai
datanya bervariasi

Hinges (Engsel)
Jenis:
Lower-Hinges (H1), merupakan median dari nilai minimum data s.d
nilai median (identik dengan Q1)
Upper-Hinges (H2), merupakan median dari nilai median s.d nilai
maksimum data ((identik dengan Q3)
*Note: Kecuali untuk data berjumlah genap, dimana median akan berada
diantara 2 nilai

Nilai Ekstrim
Outliers atau pencilan merupakan nilai yang terletak jauh atau
menyimpang dari kelompok utama dan penting untuk dapat
mengidentifikasi mereka.
Kandidatnya adalah nilai minimum dan maksimum
IQR digunakan sebagai bagian dari aturan praktis untuk
mengidentifikasi outlier.
Nilai data dianggap outlier rendah: setiap nilai < Q1 1,5IQR
Nilai data dianggap outlier tinggi: setiap nilai > Q3 + 1,5IQ
16

1eLaSTIS |Analisis Data Eksploratif


Ilustrasi Ringkasan Numerik :

Banyak Data
Nilai Median

Notasi Median pada


Nilai Hinges
nilai ke-7

Notasi Hinges pada


nilai ke-4

Notasi Nilai Eekstrim

Contoh soal :
Tabel. Jumlah anak tidak sekolah dari tahun 2002 s.d 2015

Jumlah anak tidak


Tahun
sekolah*

2002 38,47

2003 37,60

2004 37,40

2005 36,54

2006 36,85

2007 34,86

2008 34,27

2009 34,59

2010 33,96

2011 33,40

2012 31,92

2013 30,53

2014 27,97 17
2015 28,25
Sumber : Publikasi Statistik Indonesia

1eLaSTIS |Analisis Data Eksploratif


Dari tabel diatas didapatkan :
Nilai maksimum : 38,47
Kuartil I (Q1) : 31,92
Median : 34,43
Kuartil III (Q3) : 36,54
Nilai minimum : 27,97
Kelima ringkasan nilai tersebut kemudian digambarkan dalam ilustrasi
maka akan didapatkan :
#14

M7,5 34,43
H4 31,92 36,85
1 27,97 38,47

Dari data tersebut juga dapat dilihat apakah terdapat data yang
menyimpang dari kelompoknya dengan menentukan nilai outliersnya atau
pencilannya:
IQR = H2-H1 = 36,85-31,92 = 4,93
Q1-1,5(IQR) = 31,92-7,395 = 24,525
Q3+1,5(IQR) = 36,85+7,395 = 44,245
Dari hasil perhitungan diatas didapatkan nilai outliers rendah adalah
semua data yang nilainya kurang dari 24,525 dan nilai outliers tinngi
semua data yang lebih besar dari 44,245.
Dikarenakan tidak ada nilai yang lebih rendah dari 24,525 maupun
lebih tinggi dari 44,245 maka tidak ada pencilan dari data tersebut.

18

1eLaSTIS |Analisis Data Eksploratif


PERTEMUAN 4-5

DOT PLOT & BOX PLOT

A. Dot plot
Dot plot adalah jenis tampilan grafis yang digunakan untuk
membandingkan frekuensi dalam kategori atau kelompok. Dot plot berbentuk
seperti diagram batang dengan titik-titik sebagai gambaran dari frekuensi data
pada tiap kategori. Bentuk lain dari dot plot adalah seperti diagram kartesius
dengan sumbu x adalah frekuensi dan sumbu y adalah kategori.
Contoh penggunaan diagram dotplot Waktu yang dibutuhkan seseorang
untuk sarapan
Data:

Menit: 0 1 2 3 4 5 6 7 8 9 10 11 12
People: 6 2 3 5 2 5 0 0 2 3 7 4 1
Diagram:

Bentuk lain,

19

1eLaSTIS |Analisis Data Eksploratif


B. Box plot
Box plot (atau juga bisa disebut diagram whisker) adalah cara
menampilkan distribusi data berdasarkan ringkasan numerik yaitu: nilai
minimum, kuartil bawah, median, kuartil atas, dan nilai maksimum.
Box plot kita menggambarkan ringkasan numerik secara visual,
memberikan gambaran pusat data, sebaran data, bentuk distribusi data dan
dapat membandingkan antar data. Dengan membaca box plot, kita dapat
mengetahui nilai minimum, nilai maksimum, Q1, Median, Q3, ada tidaknya nilai
outlier (pencilan) dan nilai ekstrim (pencilan jauh), serta distribusi dari dari data
pengamatan.
Bagian-bagian Box Plot
1. Bagian utama kotak berbentuk persegi merupakan bidang menyajikan IQR,
dimana 50% dari nilai data pengamatan terletak di sana. IQR menggambarkan
ukuran penyebaran data. Semakin panjang bidang IQR menunjukkan data
semakin menyebar.
2. Garis bawah kotak (LQ) = Q1, dimana 25% data pengamatan lebih kecil atau
sama dengan Q1.
3. Garis tengah kotak = Q2 (median), dimana 50% data pengamatan lebih kecil
atau sama dengan nilai ini.
4. Garis atas kotak (UQ) = Q3 (Kuartil ketiga) dimana 75% data pengamatan lebih
kecil atau sama dengan nilai Q1.
5. Garis yang merupakan perpanjangan dari box (baik ke arah atas ataupun ke
arah bawah) dinamakan dengan whiskers.
6. Whiskers bawah menunjukkan nilai yang lebih rendah dari kumpulan data yang
berada dalam IQR.
7. Whiskers atas menunjukkan nilai yang lebih tinggi dari kumpulan data yang
berada dalam IQR
8. Panjang whisker 1.5 IQR. Garis whisker dimulai dari ujung kotak IQR, dan
berakhir pada nilai data yang bukan dikategorikan sebagai outlier. Dengan
demikian, nilai terbesar dan terkecil dari data pengamatan (tanpa termasuk
20
outlier) masih merupakan bagian dari Boxplot yang terletak tepat di ujung garis
tepi whiskers.

1eLaSTIS |Analisis Data Eksploratif


9. Panjang boxplot dapat digunakan untuk menggambarkan tingkat penyebaran
atau keragaman data pengamatan,
10. Letak median dan panjang whisker menggambarkan tingkat kesimetrisannya.

Kelebihan Box Plot


1. Secara visual menggambarkan lokasi dari data
2. Menunjukkan sebaran data tersebut simetri atau tidak
3. Tidak seperti metode yang lain, box plot memperlihatkan outlier
4. Dapat cepat digunakan untuk membandingkan lebih dari satu distribusi data
pada satu tampilan secara bersamaan.

Kelemahan Box Plot


1. Cenderung memperhatikan outlier, yang mungkin tidak diperlukan dalam
suatu data.
2. Selain itu bentuk distribusi terpengaruh pula adanya outlier.
3. Cenderung menyembunyikan detail dari distribusi data.

Untuk mengurangi kelemahan ini, perlu disertakan pula histogram data


sebagai pelengkap.

Pembuatan Box Plot


Dalam pembuatan box plot, nilai yang kita perlukan antara lain :
1. Median adalah nilai yang terletak di tengah setelah data diurutkan. Untuk
menentukan posisi nilai median suatu data tunggal dapat menggunakan rumus
.

2. Kuartil adalah nilai yang membagi data menjadi 4 bagian. Kuartil dinotasikan
dengan Q. Rumus untuk menentukan kuartil untuk data tunggal adalah

3. Interquartile Range (IQR) adalah selisih .


21
4. Nilai outlier atau pencilan adalah nilai data yang letaknya lebih dari 1.5 x
panjang kotak (IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak).

1eLaSTIS |Analisis Data Eksploratif


o Q3 + (1.5 x IQR) < outlier atas Q3 + (3 x IQR)
o Q1 (1.5 x IQR) > outlier bawah Q1 (3 x IQR)
5. Nilai ekstrim atau pencilan jauh adalah nilai-nilai yang letaknya lebih dari 3 x
panjang kotak (IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak).
a. Ekstrim bagian atas apabila nilainya berada di atas Q3 + (3 x IQR) dan
b. Ekstrim bagian bawah apabila nilainya lebih rendah dari Q1 (3 x IQR)
6. Panjang whisker maksimal adalah 1,5 x IQR dari kotak dan digambarkan
hingga nilai maksimum atau minimum data yang terletak diantara
Q1-1,5 x IQR dan Q3+1,5xIQR.
Contoh box plot:

22

1eLaSTIS |Analisis Data Eksploratif


Aplikasi Dot plot dan Box plot pada Data Jumlah anak tidak sekolah
Tabel 1. Data Jumlah Anak Tidak Sekolah

Jumlah anak tidak


Tahun sekolah*
2002 38,47
2003 37,60
2004 37,40
2005 36,54
2006 36,85
2007 34,86
2008 34,27
2009 34,59
2010 33,96
2011 33,40
2012 31,92
2013 30,53
2014 27,97
2015 28,25
Sumber: Susenas, BPS
Catatan :
1
Termasuk pendidikan nonformal (Paket A, Paket B, atau Paket C)
2
Tidak termasuk Nanggroe Aceh Darussalam (NAD)
3
Data Revisi
Diolah dari Hasil Survei Sosial Ekonomi Nasional (Susenas), BPS
Data dikutip dari publikasi Statistik Indonesia
Dotplot

Jumlah Anak Tidak Sekolah


45.00
40.00
35.00
30.00
Jumlah

25.00
20.00
15.00 Jumlah anak tidak
sekolah
10.00
5.00
0.00 23
2000 2005 2010 2015 2020
Tahun

1eLaSTIS |Analisis Data Eksploratif


Boxplot
Menentukan ringkasan numerik:
Median = 34,43
Quartil 1 = 32,29
Quartil 3 = 36,77
Nilai minimum = 27,97
Nilai maksimum = 38,47

Jumlah Anak Tidak Sekolah


45.00

40.00

35.00

30.00

25.00

20.00

15.00

10.00

5.00

0.00

Mencari Pencilan:
IQR = Q3 Q1 = 4,48
Batas Bawah: Q1 1,5 IQR = 32,29 - 6,72 = 25,57
Batas Atas: Q3 + 1,5 IQR = 36,77 + 6,72 = 43,49
Dari data tersebut, tidak terdapat pencilan maupun pencilan jauh.

24

1eLaSTIS |Analisis Data Eksploratif


PERTEMUAN 6

TRANSFORMASI DATA

1. Pengertian Transformasi Data


Transformasi data adalah proses mengubah nilai data asli menjadi data
baru menggunakan suatu formula/fungsi/operasi matematika dengan
tujuan tertentu.

2. Tujuan Transformasi Data


Beberapa tujuan dilakukannya transformasi adalah untuk :
a. Membuat pola sebaran data yang menceng menjadi simetris.
b. Membuat pola hubungan antar variabel menjadi linier.
c. Membuat lebar boxplot dari sisi ke sisi lebih sama.
d. Membuat penyebaran titik-titik di scatterplot menjadi lebih merata.

3. Cara Transformasi Data


Untuk membuat pola sebaran data menjadi simetris, transformasi dapat
dilakukan dengan cara :
a. Coba-coba sampai diperoleh bentuk/hasil yang sesuai, misalnya
menggunakan :
Transformasi kuadrat, berarti kita mengoperasikan pangkat dua
pada data variabel asli.

Transformasi kubik, berarti kita mengoperasikan pangkat tiga


pada data variabel asli. 25

1eLaSTIS |Analisis Data Eksploratif


Transformasi akar, berarti kita mengoperasikan akar pada data
variabel asli. Berguna untuk memperbaiki data yang terdistribusi
positive skewness dan unequal variance (data tidak memenuhi
asumsi kehomogenan). Dapat digunakan untuk data persentase, jika
nilainya kebanyakan kecil maka sebaiknya menggunakan
transformasi akar.

Transformasi invers / kebalikan, melakukan operasi balikan baik


balikan pangkat atau pun tidak.

Transformasi logaritma, berarti kita mengoperasikan data asli ke


bentuk logaritma. Digunakan untuk data yang terdistribusi Positive
Skewness dan Unequal Variance.

Ada beberapa hal yang perlu diperhatikan. Jika pada data


asli menunjukkan nilai kurang dari 10 atau mendekati nol, maka
gunakan jika data banyak mendekati nol seperti
desimal, maka sebaiknya dikalian 10 lalu dilogaritmakan atau

Dan seterusnya sampai diperoleh bentuk sebaran yang


simetris. Transformasi dapat dilakukan hanya pada ringkasan 5 angka
saja sampai diperoleh bentuk sebaran yang simetris.
b. Menggunakan tangga transformasi Tukey
Tangga transformasi Tukey dikemukakan oleh Tukey (1977)
dan merupakan bentuk khusus dari Transformasi Box-Cox. 26
Transformasi dituliskan dalam bentuk:

1eLaSTIS |Analisis Data Eksploratif


(disebut dengan parameter transformasi), dapat bernilai
negatif atau positif.

Jika = 0, maka
Transformasi dituliskan dalam bentuk:
.

-2 -1 0 1 2

Jika <0, maka bentuk transformasi dilakukan penyesuaian


(modifikasi), yaitu sebagai berikut:

-2 -1 0 1 2

Bentuk Transformasi Tukey :


ika > 0
{ ika = 0
( ) ika < 0

Tangga transformasi Tukey untuk membuat pola sebaran data


menjadi simetris (Normal shape):

Lebih Kuat Sedang Tetap Sedang Lebih Kuat


Positive Skewness Negative Skewness

c. Transformasi Box-Cox
Transformasi Box-Cox ini dikemukakan oleh George Box dan
27
David Cox. Tujuan penggunaannya sama seperti Transformasi Tukey,

1eLaSTIS |Analisis Data Eksploratif


hanya saja Box-Cox ketelitiannya lebih akurat sehingga akan
menghasilkan hasil transformasi data yang lebih simetris.
Langkah yang dilakukan adalah mencari yang dapat mengubah
pola sebaran data menjadi simetris.
Bentuk transformasi Box-Cox :

Transformasi Box-Cox ini sangat efektif (selalu dapat membuat


data menjadi simetris) jika data bernilai positif (lebih besar dari 0).

Pembahasan Soal
Tabel 1. Jumlah anak tidak sekolah dari tahun 2002 s.d 2015

Jumlah anak tidak


Tahun
sekolah
2002 38,47
2003 37,60
2004 37,40
2005 36,54
2006 36,85
2007 34,86
2008 34,27
2009 34,59
2010 33,96
2011 33,40
2012 31,92
2013 30,53
2014 27,97
2015 28,25
Sumber : Publikasi Statistik Indonesia

28

1eLaSTIS |Analisis Data Eksploratif


Dari tabel diatas didapatkan :
Nilai maksimum : 38,47
Kuartil I (Q1) : 31,92
Median : 34,43
Kuartil III (Q3) : 36,54
Nilai minimum : 27,97
Kelima ringkasan nilai tersebut kemudian digambarkan dalam ilustrasi
maka akan didapatkan :
#14

M7,5 34,43
H4 31,92 36,85
1 27,97 38,47
Dari data tersebut juga dapat dilihat apakah terdapat data yang
menyimpang dari kelompoknya dengan menentukan nilai outliernya atau
pencilannya:
IQR = H2-H1 = 36,85-31,92 = 4,93
Q1-1,5(IQR) = 31,92-7,395 = 24,525
Q3+1,5(IQR) = 36,85+7,395 = 44,245
Dari hasil perhitungan di atas, tidak ada nilai yang lebih rendah
dari 24,525 maupun lebih tinggi dari 44,245 maka tidak ada pencilan dari
data tersebut.
Berikut adalah Boxplot dari data di atas :

29

1eLaSTIS |Analisis Data Eksploratif


Percobaan transformasi data angka putus sekolah

Y y2 y1,5 log(y)
27.97 782.32 147.92 1.446692
28.25 798.06 150.15 1.451018
30.53 932.08 168.69 1.484727
31.92 1018.89 180.34 1.504063
33.40 1115.56 193.03 1.523746
33.96 1153.28 197.90 1.530968
34.27 1174.43 200.62 1.534914
34.59 1196.47 203.44 1.538951
34.86 1215.22 205.82 1.542327
36.54 1335.17 220.88 1.562769
36.85 1357.92 223.69 1.566437
37.40 1398.76 228.72 1.572872
37.60 1413.76 230.56 1.575188
38.47 1479.94 238.61 1.585122

y y2 y1.5 log (y)


MIN 27.97 782.3209 147.924 1.446692
H1 31.92 1018.886 180.3409 1.504063
MED 34.43 1185.425 202.0252 1.536937
H2 36.85 1357.923 223.695 1.566437
MAX 38.47 1479.941 238.6071 1.585122

MED-H1 2.51 166.5385 21.68426 0.032874


H2-MED 2.42 172.4976 21.66979 0.0295
Rasio 1.03719 0.965454 1.000668 1.11436

Setelah dilakukan transformasi menggunakan y2, y1.5 , log (y), rasio yang
lebih mendekati 1 adalah hasil dari transformasi menggunakan y1.5. Sehingga dapat kita
simpulkan bahwa data ini cocok kita transformasi menggunakan y1.5.

30

1eLaSTIS |Analisis Data Eksploratif


Box plot dari transformasi data angka putus sekolah
y y1.5

Log(y) y2

31

1eLaSTIS |Analisis Data Eksploratif


PERTEMUAN 7

PEMULUSAN DATA

A. Metode Peramalan
Metode Peramalan diklasifikasikan menjadi dua yaitu :
1. Metode Kualitatif
Metode kualitatif melibatkan pengalaman, judgements, maupun opini dari
sekelompok orang yang pakar di bidangnya. Kelemahan dari metode
kualitatif adalah kesulitan dalam mengukur keakuratan hasil ramalan, dan
kemungkinan tingginya subjektivitas pendapat.
2. Metode Kuantitatif
Metode kuantitatif melibatkan analisis statistik terhadap data-data yang
lalu, terbagi menjadi 2 yaitu :
a) Model Kausal
Model kusal adalah identifikasi dan determinasi hubungan
antarvariabel yang akan diramalkan. Contohnya : teknik regresi,
input output.
b) Univariate Time Series Model
Adalah observasi terhadap urutan pola data secara kronologis dari
suatu peubah tertentu. Contohnya : Moving average, exponential
smoothing, ARIMA, ARCH-GARCH

32

1eLaSTIS |Analisis Data Eksploratif


Metode smoothing digunakan untuk mengurangi ketidakteraturan
musiman dari data yang lalu, dengan membuat rata-rata tertimbang dari sederetan
data masa lalu. Ketepatan peramalan dengan metode ini akan terdapat pada
peramalan jangka pendek, sedangkan untuk peramalan jangka panjang kurang
akurat.

B. Metode Pemulusan Data

Salah cara untuk memuluskan data time series adalah dengan menggunakan
metode moving median. Berbeda dengan moving average, pada metode moving
median, nilai tengah atau median yang akan bergerak per orde pengamatan.
Dimana jika jumlah orde, sebut n, berjumlah 3, maka data observasi akan
berkurang sebanyak n-1.

Persentase Penduduk Berumur 7-24 Tahun yang Putus Sekolah

33

1eLaSTIS |Analisis Data Eksploratif


Persentase Penduduk Umur 7-24 tahun yang putus sekolah 14 tahun
Moving Median
Tahun Jumlah anak tidak sekolah*
Orde = 3 Orde = 5
2002 38.47
2003 37.60 37.60
2004 37.40 37.40 37.40
2005 36.54 36.85 36.85
2006 36.85 36.54 36.54
2007 34.86 34.86 34.86
2008 34.27 34.59 34.59
2009 34.59 34.27 34.27
2010 33.96 33.96 33.96
2011 33.40 33.40 33.40
2012 31.92 31.92 31.92
2013 30.53 30.53 30.53
2014 27.97 28.25
2015 28.25
*) Laki-laki + Perempuan Sumber : Susenas BPS

Grafik dari penggunaan moving median dengan orde 3 dan 5 sebagai


berikut
45.00

40.00

35.00

30.00

25.00

20.00

15.00

10.00

5.00
34
0.00
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015

1eLaSTIS |Analisis Data Eksploratif


Interpretasi :
Dari hasil pemulusan dengan menggunakan moving median tidak ada nilai ekstrim
dari data tersebut. Dari awal memang data sudah dalam kondisi yang ideal. Trend
terlihat menrun dari tahun ke tahun. Artinya penduduk Indonesia berumur 7 14
tahun yang putus sekolah semakin berkurang. Hal ini mengindikasikan bahwa
kinerja pemerintah dalam meningkatkan kesejahteraan masyarakat terutama di
bidang pendidikan sudah baik. Upaya pemerintah diwujudkan dengan sosialisasi
pentingnya pendidikan serta peningkatan fasilitas pendidikan seperti tenaga
pengajar, sarana prasarana kegiatan belajar mengajar, dan akses menuju sekolah.
Selain itu, pemerintah juga memberikan subsidi atau beasiswa untuk para pelajar
yang berprestasi maupun yang kurang mampu secara ekonomi.

35

1eLaSTIS |Analisis Data Eksploratif


#CeritaPenutup

Success is not a destination, but a journey

Ingat selalu bahwa kesuksesan itu sebuah perjalanan, bukan sebuah tujuan karena kita tidak
akan berhenti setelah berhasil meraih satu tujuan, akan terus muncul tujuan-tujuan baru yang
kembali harus diraih.

Nelson Mandela mengatakan, "After climbing a great hill, one only finds that there are many
more hills to climb". Setelah meraih satu tujuan, pikiran kita akan semakin terbuka dan
semakin jelas terlihat kalau ada banyak lagi tujuan dan mimpi yang harus diraih. Seperti saat
ini, kita dapat berkuliah di STIS. Mungkin salah satu tujuan hidup kita telah tercapai, namun
pastinya kita juga punya mimpi yang lain bukan?

Maka, anggap kesuksesan itu sebuah perjalanan. Ibarat akan menempuh sebuah perjalanan,
kita punya kota tujuan dalam satu waktu, ini mimpi yang harus diraih. Dalam satu waktu,
kita hanya bisa mengunjungi satu tempat, baru kemudian bisa pindah ke tempat yang lain, ini
berarti fokus, tidak perlu banyak mimpi yang harus diraih dalam satu waktu. Perjalanan kalau
terlalu banyak yang ingin dikunjungi pasti kalau tidak banyak yang batal, pasti kelelahan
yang akhirnya pencapaian tidak maksimal.

Dalam mempersiapkan sebuah perjalanan, kita perlu memperhitungkan rute yang akan
diambil, bagaimana cara mencapai tempat tujuan, apa yang dimiliki agar bisa bertahan dalam
perjalanan, apa yang harus diwaspadai selama perjalanan, dan lain sebagainya. Begitu juga
dengan jalan meraih sebuah mimpi, harus selalu mempersiapkan yang terbaik, pelajari semua
hal tentang mimpi yang ingin diraih, dan seterusnya. Cukupkan mengeluh, karena tidak akan
merubah keadaan menjadi lebih baik.

Perlu dipahami, dalam sebuah perjalanan, yang berangkat duluan belum tentu sampai lebih
awal dan dengan selamat. Kalau kita banyak yang harus dipersiapkan, fokus pada persiapan,
tidak usah hiraukan mereka yang sudah jalan duluan. Nikmati prosesnya. Hasil itu tidak selalu
mengikuti logika manusia, tetapi keajaiban selalu datang disaat seseorang sudah melakukan
persiapan dan usaha semaksimal mungkin.

Tidak sulit bagi Tuhan memutuskan kamu masuk surga dan kamu masuk neraka. Dia tidak
perlu menciptakan kehidupan dan membiarkan kita hidup bertahun-tahun. Menurut saya, ini
karena hasil akhir itu datangnya kedua setelah ada sebuah proses. Buang jauh-jauh pikiran
kalau bisa memanen padi setelah sehari menanam. Boleh menyesali kelalaian dan kekurangan
diri sekarang, tapi kemudian mulai perlahan perbaiki, mulai menanam agar bisa memanen
nanti.

Lets break the limits!


36

1eLaSTIS |Analisis Data Eksploratif


Ketika kita masuk STIS, kita telah menghilangkan kesempatan emas
ribuan orang lainnya. Jangan sampai kesempatan yang kita dapatkan
hanya dianggap biasa.

37

Selamat berjuang. Semoga sukses, 1L !

1eLaSTIS |Analisis Data Eksploratif