Anda di halaman 1dari 76

Modul Diklat Fungsional Statistisi Tingkat Ahli

Eksplorasi Data

Eksplorasi Data | i

DAFTAR ISI
DAFTAR ISI .............................................................................................................i DAFTAR GAMBAR ............................................................................................. iii Tujuan Pembelajaran ................................................................................................ v Tujuan Pembelajaran Umum ..................................................................... v Tujuan Pembelajaran Khusus .................................................................... v Bab I Pemeriksaan Pola Data Berstruktur Tunggal .............................................. 1 1.1 Pendahuluan ......................................................................................... 1 1.2 Ukuran Pemusatan ............................................................................... 1 1.2.1 Rata-Rata ................................................................................... 2 1.2.2 Median ....................................................................................... 5 1.2.3 Modus ........................................................................................ 7 1.3 Ukuran Penyebaran .............................................................................. 8 1.3.1 Range ......................................................................................... 8 1.3.2 Varian Dan Standar Deviasi ...................................................... 9 1.3.3 Koefisien Variasi ..................................................................... 12 1.4 Bentuk Sebaran Data.......................................................................... 13 1.5 Eksplorasi Data ................................................................................. 14 1.5.1 Diagram Batang Dan Daun (Stem-And-Leaf Plot).................. 14 1.5.2 Kuantil ..................................................................................... 16 1.5.3 Box Plot ................................................................................... 16 1.6 Eksplorasi Data dengan SPSS for Windows...................................... 20

Bab II Data Berpasangan dan Persamaan Garis Lurus .......................................... 27

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

ii | E k s p l o r a s i D a t a

2.1 Pendahuluan ...................................................................................... 32 2.2 Pola Data Berpasangan ...................................................................... 32 2.3 Garis Resisten .................................................................................... 33 2.4 Pemeriksaan Ketepatan Model .......................................................... 37 2.5 Proses Iterasi dalam Garis Resisten................................................... 39 Bab III Pemeriksaan Sisa dan Kenormalan .......................................................... 42 3.1 Pendahuluan ...................................................................................... 42 3.2 Pemeriksaan Terhadap Model ........................................................... 42 3.3 Kegunaan dan Tujuan Pemeriksaan Sisa........................................... 43 3.4 Pemeriksaan Kenormalan .................................................................. 48 BAB IV Transformasi Data ................................................................................... 51 4.1 Pendahuluan ..................................................................................... 51 4.1.1 Transformasi Logaritma .......................................................... 53 4.1.2 Transformasi Akar Kuadrat ..................................................... 54 4.2 Curve Estimation Pada SPSS ............................................................ 57 DAFTAR PUSTAKA ............................................................................................ 60 Latihan ................................................................................................................... 62

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | iii

DAFTAR GAMBAR
Gambar 1. Gambar 2. Gambar 3. Gambar 4. Gambar 5. Gambar 6. Gambar 7. Gambar 8. Gambar 9. Ilustrasi Letak Nilai Rata-Rata Pada Data Pedesaan A ...................... 3 Ilustrasi Letak Nilai Rata-Rata Pada Data Perkotaan B ..................... 3 Macam Kemencengan (Skewness) .................................................... 13 Contoh Stem-And-Leaf ...................................................................... 14 Contoh Stem-and-leaf Dengan Daun Ke Bawah Dan Ke Atas ........ 15 Boxplot data pada contoh 1.6 ........................................................... 17 Boxplot data pada contoh 1.7 ........................................................... 19 Windows SPSS Pada Saat Memilih Analyze Decriptive Statistics Explore........................................................................ 20 Kotak Dialog Explore ....................................................................... 20

Gambar 10. Kotak Dialog Explore: Statistics ...................................................... 21 Gambar 11. Kotak Dialog Explore : Plots............................................................ 21 Gambar 12. Kotak Dialog Explore : Options ....................................................... 22 Gambar 13. Histogram Data Contoh 1.8 .............................................................. 24 Gambar 14. Normal Q-Q Plot Dari Data Pada Contoh 1.8 .................................. 25 Gambar 15. Detrend Normal Q-Q plot data pada contoh 1.8 ............................... 26 Gambar 16. Box-Plot Data Pada Contoh 1.18 ...................................................... 26 Gambar 17. Beberapa Kemungkinan Tampilan Plot ............................................ 33 Gambar 18. Plot Pada Data Berpasangan ............................................................. 35 Gambar 19. Plot Data x Dan Sisaan ..................................................................... 39 Gambar 20. Residual Plot Dengan Mempertahankan Pencilan ............................ 46 Gambar 21. Residual Plot Dengan Membuang Pencilan..................................... 47 Gambar 22. Transformasi Tangga Tukey ............................................................. 53 Gambar 23. Contoh Kasus Transformasi Data X2 ................................................ 53 Gambar 24. Perbandingan Garis Regresi Linier Dan ........................................ 55 Gambar 25. Windows SPSS Pada Saat Memilih Analyze Regression Curve Estimation ............................................................................ 57 Gambar 26. Kotak Dialog Curve Estimation ........................................................ 58

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data | v

Tujuan Pembelajaran
Tujuan Pembelajaran Umum
Setelah mengikuti pembelajaran ini diharapkan peserta dapat memahami dan mampu melakukan eksplorasi terhadap data baik data tunggal maupun data berpasangan serta mampu membuat analisis sederhana.

Tujuan Pembelajaran Khusus


Setelah mempelajari modul ini peserta diharapkan dapat: Mengetahui dan mampu menganalisis pola serta sebaran data tunggal; Mengetahui dan mampu menganalisis pola serta sebaran data berpasangan; Mampu menganalisis apakah suatu data berpasangan mempunyai pola yang linier sehingga dapat dibentuk menjadi persamaan linier; Mampu menganalisis sisaan dari suatu persamaan.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data

Bab I Pemeriksaan Pola Data Berstruktur Tunggal


1.1 Pendahuluan
Kumpulan data yang merupakan hasil pengukuran terhadap variabel tertentu, pada umumnya tidak akan memiliki nilai yang persis sama satu dengan yang lain. Nilai-nilai keberagaman dapat dilihat melalui pola sebarannya, pola ini sangat berguna dalam penentuan karakteristik data tersebut. Ukuran numerik yang penting meliputi pemusatan data (central tendency), sebaran data (dispersion) dan bentuk dari sebaran data (shape).

1.2 Ukuran Pemusatan


Salah satu aspek yang paling penting untuk menggambarkan distribusi data adalah nilai pusat data pengamatan (tendensi sentral). Setiap pengukuran aritmatika yang ditujukan untuk menggambarkan suatu nilai yang mewakili nilai pusat atau nilai sentral dari suatu gugus data (himpunan pengamatan) dikenal sebagai ukuran tendensi sentral. Ukuran nilai pusat/tendensi sentral (average) merupakan nilai yang mewakili dari suatu distribusi data, sehingga harus memiliki sifat-sifat berikut: Harus mempertimbangkan semua gugus data Tidak boleh terpengaruh oleh nilai-nilai ekstrim. Harus stabil dari sampel ke sampel. Harus mampu digunakan untuk analisis statistik lebih lanjut. Dari beberapa ukuran nilai pusat, rata - rata (mean) hampir memenuhi semua persyaratan tersebut, kecuali syarat pada point kedua, rata-rata dipengaruhi oleh nilai ekstrem. Sebagai contoh, jika item adalah 2; 4; 5; 6; 6; 6; 7; 7; 8; 9 maka rata-rata, median dan modus semua bernilai sama, yaitu 6. Jika nilai terakhir adalah 90 bukan 9, rata-rata akan menjadi 14.10, sedangkan median dan modus tidak berubah. Meskipun dalam hal ini median dan modus lebih baik, namun tidak memenuhi persyaratan lainnya. Oleh karena itu, rata-rata merupakan ukuran nilai pusat yang terbaik dan sering digunakan dalam analisis statistik.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

2 | Eksplorasi Data

1.2.1 Rata-Rata Rata-rata adalah nilai yang mewakili himpunan atau sekelompok data (a set of data). Rata-rata layak digunakan apabila sebaran data merata atau nilai antara data yang satu dengan yang lainnya tidak jauh berbeda (homogen). Rata-rata hitung digunakan apabila: 1) Jenis Datanya Adalah Numerik Interval/Rasio. Jika datanya numerik ordinal, digunakan median. Jika datanya kategorik, digunakan modus. 2) Sebaran Datanya Simetrik 3) Tidak Ada Data Pencilan (Outlier) Maupun Pencilan Jauh (Outliest) Jika ada pencilan, periksa terlebih dahulu apakah pengukuran sudah dilakukan dengan benar atau tidak. Jika terjadi kekeliruan pengukuran, maka data dapat dibuang/diganti dengan data baru. Jika pengukuran sudah dilakukan dengan benar, maka data tidak boleh dihilangkan dan untuk menghilangkan pencilan, dapat ditambah jumlah sampel. Contoh 1.1: Pengeluaran rata-rata perbulan (dalam ratusan ribu) dari 6 rumah tangga di suatu daerah adalah sebagai berikut

Daerah

6 17 35

Pedesaan A 20 23 16 20 24 Perkotaan B 8 50 7 8 12 Gambaran data di atas adalah sebagai berikut:

Rata Rata 20 20

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data | 3

Pedesaan A

Rata-rata Gambar 1. Ilustrasi Letak Nilai Rata-Rata Pada Data Pedesaan A Perkotaan B

Rata-rata Gambar 2. Ilustrasi Letak Nilai Rata-Rata Pada Data Perkotaan B Pada contoh di atas, rata-rata akan mewakili data pada pedesaan A karena datanya cenderung homogen, sedangkan pada perkotaan B ratarata tidak mewakili keseluruhan data karena datanya terpencar dengan jarak yang berbeda. Contoh 1.2.1 : Hitunglah nilai rata-rata dari nilai ujian matematika kelas 3 SMU berikut ini: 2; 4; 5; 6; 6; 7; 7; 7; 8; 9

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

4|Eksplorasi Data

Penyelesaian:

Contoh 1.2.2 : Berikut adalah data produksi keripik singkong (bungkus) usaha Ibu Tina setiap hari selama satu minggu 50 65 60 55 54 53 60 Penyelesaian : Rata-rata produksi keripik singkong Ibu Tina per hari adalah
n 7

xi x
i 1 i 1

xi 7

397 7

56,7143

Contoh 1.3 : Misalkan suatu kelompok data yang terdiri dari 20 anggota mempunyai rata-rata 7.50. Tentukan rata-rata yang baru jika pada kelompok data tadi ditambahkan 3 buah data baru: 5.50, 6.25 dan 8.75. Penyelesaian: Misalkan sampel 1 terdiri dari 20 anggota mempunyai rata-rata X1 = 7,50 sampel 2 mempunyai 3 anggota mempunyai rata-rata X2 = (5,50 + 6,25 + 8,75)/3 = 6,83. Jadi rata-rata gabungannya adalah: X= = 7,41

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data |5

1.2.2 Median Median adalah nilai yang terletak di tengah dari data yang telah diurutkan. Nilai median dipengaruhi oleh banyaknya pengamatan, tidak tergantung besarnya nilai pengamatan walaupun nilainya sangat ekstrem, sehingga median cocok untuk mewakili data yang sebarannya tidak homogen. Sebagai contoh nilai pusat pada data perkotaan B cocok menggunakan median yaitu 10. Median digunakan bila: 1.Rata - rata tak memenuhi syarat pada data berjenis interval/rasio seperti: a) Sebaran data yang tidak simetrik b) Untuk inferensi jika sebaran data tidak normal dengan selang kepercayaan. 2.Data numerik ordinal. Catatan: Jika rata-rata tak memenuhi syarat untuk digunakan sehingga hanya digunakan Median, maka Varian dan Standar deviasi juga tak layak untuk digunakan. Dalam hal ini digunakan Interquartile Range dan Semi Interquartile Range(tidak terdapat di SPSS) untuk ukuran variannya. Contoh 1.4.1: Hitunglah median dari nilai ujian matematika kelas 3 SMU berikut ini: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9; 10 Penyelesaian: data: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9; 10 setelah diurutkan: 2; 4; 5; 6; 6; 7; 7; 7; 8; 9; 10 banyaknya data (n) = 11 posisi Me = (11+1) = 6 jadi Median = 7 (data yang terletak pada urutan ke-6)

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

6|Eksplorasi Data

Contoh 1.4.2: Ukuran sepatu siswa kelas IX Binsus SMA 8 Manado yang akan menjadi pasukan 17 di Pasukan Pengibar Bendera yaitu : 40 45 43 39 40 41 40 39 42 41 40 38 40 41 43 42 38 Penyelesaian : Median ukuran sepatu siswa-siswa tersebut adalah Data setelah diurutkan : 38 38 39 39 40 40 40 40 40 41 41 41 42 42 43 43 45 Banyaknya data (n) = 17
Me 1 (17 1) 2 9

Posisi median :

Jadi Median ukuran sepatunya adalah 40 (data yang terletak pada urutan ke-9) Contoh 1.5: (menghitung median untuk n berjumlah genap) Hitunglah median dari nilai ujian matematika kelas 3 SMU berikut ini: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9 Penyelesasian: data: 8; 4; 5; 6; 7; 6; 7; 7; 2; 9 setelah diurutkan: 2; 4; 5; 6; 6; 7; 7; 7; 8; 9 banyaknya data (n) = 10 posisi Me = (10+1) = 5.5 Data tengahnya: 6 dan 7 jadi Median = (6+7) = 6.5 (rata-rata dari 2 data yang terletak pada urutan ke-5 dan ke-6)

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data |7

1.2.3 Modus Modus adalah nilai yang paling sering muncul dari sekumpulan data. Modus tidak dipengaruhi oleh nilai ekstrem. Modus hanya digunakan untuk tujuan deskriptif karena tidak mempertimbangkan sebaran data. Kalau nilai-nilai pengamatan sangat bervariasi dari nilai pusatnya, maka modus tidak cocok digunakan untuk mengambarkan ukuran pemusatan. Modus dapat diaplikasikan pada penghitungan rating acara TV, polling sms, dan pada pemungutan suara pada suatu pemilihan. Contoh 1.6.1 : Seorang agen intelijen negara memberi informasi kepada kepolisian bahwa komplotan buronan yang selama ini mereka cari sering muncul secara bersama-sama antara tanggal 5-10 di setiap bulannya. Dalam satu bulan, mereka hanya muncul bersama-sama sebanyak 1 kali untuk melakukan konsolidasi. Pihak kepolisian harus memutuskan sebuah tanggal dimana pada tanggal tersebut akan dilakukan penggerebekan terhadap para buronan tersebut. Pihak kepolisian tidak mungkin akan selalu berjaga-jaga dengan membawa berbagai senjata dan kendaraan khusus antara tanggal 5 hingga 10 di setiap bulannya di titik lokasi tersebut karena hal ini akan membuat para buronan curiga dan kabur. Data tanggal setiap bulan mengenai kemunculan para buronan yang direkam selama 2 tahun adalah sebagai berikut: 6 5 5 5 6 6 9 5 5 7 8 5 7 5 7 5 5 7 7 5 6 5 10 5 Untuk itulah, kepala polisi memutuskan untuk menentukan modus dari data tanggal tersebut sebagai tanggal dimana akan dilakukan penggerebekan terhadap para buronan. Nilai modus dari data tanggal tersebut adalah: 5.(kemunculan terbanyak, sebanyak 12 kali dari 24 buah data) Dengan demikian, pada bulan ini, pihak kepolisian akan melakukan penggerebekan terhadap para buronan tepat pada tanggal 5. Contoh 1.6.2 : Dalam seminggu ada 13 laporan Kekerasan dalam Rumah Tangga (KDRT) di suatu kecamatan dengan latar belakang masalah sebagai berikut :

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

8|Eksplorasi Data

No 1 2 3 4 5 6 7

Masalah Ekonomi Seksual Ekonomi Perselingkuhan Ekonomi Ekonomi Perselingkuhan

No 8 9 10 11 12 13

Masalah Seksual Ekonomi Ekonomi Perselingkuhan Perselingkuhan Ekonomi

Penyelesaian : Modus latar belakang masalah dalam laporan di kecamatan tersebut adalah karena masalah ekonomi. Ini ditunjukkan dengan kemunculan masalah ekonomi lebih banyak (7 kasus) daripada latar belakang masalah yang lain.

1.3 Ukuran Penyebaran


Ukuran penyebaran digunakan untuk mengetahui sebaran dari data. Karena ukuran pemusatan tidak selalu mewakili sekelompok data, maka data perlu diketahui ukuran sebarannya. Ukuran penyebaran atau ukuran keragaman pengamatan dari nilai rata-ratanya disebut simpangan (deviation/dispersi). Terdapat beberapa ukuran untuk menentukan dispersi data pengamatan, seperti jangkauan/rentang (range), simpangan kuartil (quartile deviation), simpangan rata-rata (mean deviation), dan standar deviasi (standard deviation)

1.3.1 Range Range merupakan ukuran dari total lebar data atau juga selisih antara nilai maksimum dengan nilai minimum. Dari contoh 1, didapatkan range pedesaan A = 8 dan range perkotaan B = 42. Apabila terdapat nilai ekstrem, range kurang cocok digunakan sebagai ukuran sebaran data.

Contoh 1.7.1 : Jumlah penduduk di Kecamatan Mekarsari Kabupaten Pemalang setiap tahunnya berubah-ubah. Data selama 10 tahun terakhir jumlah penduduknya adalah sebagai berikut (dalam ribuan): 12 10 15 17 20 19 13 15 12 23

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data |9

Penyelesaian : Range jumlah penduduk adalah = nilai maksimum nilai minimum = 23 10 = 13 ribu orang

1.3.2 Varian Dan Standar Deviasi Varian dan standar deviasi adalah ukuran rata-rata posisi data terhadap rata-ratanya, sehingga menunjukkan seberapa besar simpangan pengamatan terhadap rata-ratanya baik data itu di atas maupun di bawah rata-ratanya.

atau Sedangkan Standar Deviasi Sampel memiliki formula:

s=

atau

Dari contoh 1.1 didapatkan standar deviasi pedesaan A = 3.16 (ratarata=20), artinya secara umum data berada 3.16 di sekitar rata-ratanya yaitu antara 16.84 dan 23.16. Standar deviasi perkotaan B = 18.14 (ratarata=20), artinya secara umum data berada 18.14 di sekitar rata-ratanya yaitu antara 1.86 dan 38.14. Karena standar deviasi pedesaan A lebih kecil dari perkotaan B, maka dikatakan bahwa sebaran data pedesaan A lebih baik dari pada pedesaan B. Mengapa? (lihat kondisi lapangan). Nilai varian dan standar deviasi tidak pernah nol kecuali semua datanya sama. Karena standar deviasi menunjukkan seberapa besar simpangan pengamatan terhadap rata-ratanya baik data itu di atas maupun di bawah rata-ratanya, maka secara umum nilai quiz mahasiswa tersebut berada di antara x s yaitu 59,13 dan 90,73. Contoh 1.7.2 : Data berikut adalah nilai quiz mahasiswa STIS kelas 1G 90 91 70 75 92 90 65 50 78 89 90 93 67 95 60 62 65 70 40 50 79 78 80 89 64 78 94 100 65 50 65

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

10 | E k s p l o r a s i D a t a

Penyelesaian :
31

xi s2
i 1

Varians nilai quiz mahasiswa tersebut adalah


31

n 1

dan

xi s
i 1

standar deviasinya adalah


31

n 1

xi x
i 1

Rata-rata

31

90 91 ... 65 31

2323 31

74,935

Varians (90 74,935) s2

(91 74,935) 30
s2

... (65 74,935)

249,5957

Standar deviasinya adalah s

249,5957

15,7986

Contoh 1.7.3 : Diberikan data mengenai hasil perolehan nilai pada 2 Quiz yg berbeda, sebagai berikut ini : 1 2 3 4 5 6 7 8 9 10 11 Quiz 1: 1 20 20 20 20 20 20 20 20 20 20 Quiz 2: 2 3 4 5 6 14 15 16 17 18 19

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 11

Quiz 1: rata-rata =18.27 Quiz 2: rata-rata = 10.82 Quiz 1 No (xi) 1 1 -17.27 298.35 2 20 1.73 2.98 3 20 1.73 2.98 4 20 1.73 2.98 5 20 1.73 2.98 6 20 1.73 2.98 7 20 1.73 2.98 8 20 1.73 2.98 9 20 1.73 2.98 10 20 1.73 2.98 11 20 1.73 2.98 Jumlah 328.1818 Quiz 1:

Quiz 2 (xi) 2 3 4 5 6 14 15 16 17 18 19

-8.82 -7.82 -6.82 -5.82 -4.82 3.18 4.18 5.18 6.18 7.18 8.18

77.76 61.12 46.49 33.85 23.21 10.12 17.49 26.85 38.21 51.58 66.94 453.6364

Quiz 2:

Kesimpulan: Berdasarkan nilai ragam dan standar deviasi, Quiz ke-2 lebih bervariasi dibandingkan dengan Quiz ke-1. (kesimpulannya berbeda dengan kesimpulan berdasarkan range)

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

12 | E k s p l o r a s i D a t a

1.3.3 Koefisien Variasi Koefisien variasi adalah perbandingan antara simpangan standar dengan nilai rata-rata yang dinyatakan dengan persentase. Koefisien Variasi digunakan untuk keperluan perbandingan dua kelompok nilai yang bebas dari satuan data asli. Koefisien variasi adalah perbandingan antara standar deviasi dengan rata-ratanya.

Dari contoh 1.1 didapatkan koefisien variasi pedesaan A = 15.8% dan koefisien variasi B = 90.7%. Ini berarti sebaran data pedesaan A lebih baik dari sebaran data perkotaan B. Contoh 1.8.1 : Perhatikan gugus data untuk Kelompok A dan Kelompok B A B 2 3 4 6 5 7 6 9 6 9 7 10 7 10 7 10 8 11 9 12

Kelompok A: Rata-rata = 6.1; s = 2.0 Kelompok B: Rata-rata = 8.7; s = 2.7

Contoh 1.8.2 : Sebuah perusahaan di Garut mempunyai dua produk andalannya yaitu produk gula (kg) dan produk syrup (botol). Data produksi kedua produk setiap hari dalam seminggu adalah
Gula (kg) Syrup (btl) 25 100 50 120 30 100 35 110 40 100 44 120 45 110

Penyelesaian : Sebaran produksi yang lebih baik antara kedua produk adalah s gula s syrup CVGula 100% dan CVsyrup 100% x gula x syrup

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 13

x gula

38,4285

s gula s syrup

8,8855 8,9973

x syrup

108,5714

Maka Coeffiecient Variation kedua produk tersebut adalah


CVgula 8,8855 38,4285 100% 23,12%

CVsyrup

8,9973 108,5714

100%

8,28%

Koefisien variasi dipakai untuk membandingkan dua kelompok yang mempunyai satuan yang berbeda dimana kelompok pertama yaitu gula mempunyai satuan nilai kilogram dan kelompok kedua yaitu syrup mempunyai satuan nilai botol. Dari nilai koefisien variasinya dapat dilihat bahwa produksi syrup mempunyai sebaran data yang lebih baik (lebih homogen) daripada produksi gula karena koefisien variasinya lebih kecil (8,28%) daripada koefisien variasi gula (23,12%).

1.4 Bentuk Sebaran Data


Bentuk sebaran data dapat dikelompokkan menjadi (symmetrical) dan tidak simetris (asymmetrical/skewed). a) Rata-rata > median : positif atau menceng kiri b) Rata-rata = median : simetris c) Rata-rata < median : negatif atau menceng kanan simetris

Gambar 3. Macam Kemencengan ( Skewness)

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

14 | E k s p l o r a s i D a t a

1.5 Eksplorasi Data


Statistik deskriptif merupakan teknik tradisional yang digunakan untuk menganalisis data kuantitatif. Untuk mendapatkan informasi tentang karakteristik data maka sering digunakan metode ekplorasi data. 1.5.1 Diagram Batang Dan Daun (Stem-And-Leaf Plot) Diagram batang dan daun adalah teknik yang cukup efektif untuk menggambarkan pola sebaran bagi data yang berukuran kecil. Dengan teknik ini gambaran distribusi data akan dapat diketahui dengan mudah. Diagram batang dan daun membagi data menjadi digit depan (leading) dan satu digit belakang (trailing). Sebagai contoh apabila data semuanya terdiri dari dua digit, maka digit depan merupakan puluhan dan digit di belakangnya merupakan satuan. Jika data 47 berarti leading (batang)=4 dan trailing (daun)=7, jika data 2 maka leading=0 dan trailing=2 Contoh 1.9.1 : Data pengeluaran rumah tangga di suatu daerah untuk 44 rumah tangga (dalam ratusan ribuan) adalah sebagai berikut: 47, 11, 46, 33, 19, 42, 27, 22, 62, 10, 44, 2, 15, 21, 67, 20, 26, 25, 6, 53, 18, 3, 30, 7, 21, 25, 20, 40, 16, 8, 4, 10, 46, 31, 14, 15, 8, 10, 19, 17, 12, 16, 42, 16 Dari data di atas, maka digit depan (sebagai batang) yang paling kecil adalah 0 dan yang paling besar adalah 6 Diagram batang dan daunnya sebagai berikut:
Batang 0 1 2 3 4 5 6 Daun 2637848 190586045097266 721065150 301 7624062 3 27 N = 44

Gambar 4. Contoh Stem-And-Leaf

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 15

Batang 0L 0H 1L 1H 2L 2H 3L 3H 4L 4H 5L 5H 6L 6H

Daun 234 6788 1050450 986976 2105150 76 301 2402 766 3 2 7 N=44

Gambar 5. Contoh Stem-and-leaf Dengan Daun Ke Bawah Dan Ke Atas Gambar 4 menunjukkan diagram batang dan daun yang daunnya merupakan nilai digit kedua dari data. Sedangkan Gambar 5 menunjukkan diagram batang dan daun dimana daunnya dibagi menjadi 2, yaitu 5 ke bawah dan di atas lima, sehingga batangnya dibagi menjadi 2 juga yaitu L (low) untuk daun 5 ke bawah dan H (high) untuk daun di atas 5. Contoh 1.9.2 : Data berikut adalah data berat badan mahasiswa STIS kelas 2C 45 50 51 50 55 70 72 68 58 50 48 40 76 71 70 60 65 56 55 54 52 51 50 50 58 56 53 52 60 70 54 55 51 50 58 59 52 50 45 46 48 50 54 40 55 68 Penyelesaian : Diagram batang dan daunnya memakai SPSS seperti di bawah ini

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

16 | E k s p l o r a s i D a t a

VAR00001 Stem-and-Leaf Plot Frequency Stem & Leaf 2,00 4 . 00 5,00 4 . 55688 18,00 5 . 000000001112223444 10,00 5 . 5555668889 2,00 6 . 00 3,00 6 . 588 5,00 7 . 00012 1,00 Extremes (>=76) Stem width: 10,00 Each leaf: 1 case(s)

1.5.2 Kuantil Kuantil merupakan ukuran yang sangat berguna untuk melihat ketidaksimetrisan data kuantitatif yang berskala besar. Kadang-kadang penggambaran ini menggunakan persentil (yang membagi data menjadi 100 kelompok), desil (yang membagi data ke dalam 10 kelompok) dan kuartil (yang membagi data menjadi 4 kelompok). Untuk kepentingan selanjutnya, di sini akan dibahas tentang kuartil. Kuartil pertama (Q1), nilai yang membagi 25% data yang lebih kecil dan 75% data yang lebih besar. Kuartil kedua (Q2), nilai yang membagi 50% data yang lebih kecil dan 50% data yang lebih besar. Kuartil ketiga (Q3), nilai yang membagi 75% data yang lebih kecil dan 25% data yang lebih besar. 1.5.3 Box Plot Box plot adalah representasi grafik dari sekelompok data yang memuat 5 ringkasan data yaitu median, Q1, Q3, minimum dan maksimum. Untuk data yang simetris, me = (Q1 + Q3)/2 = (min + maks)/2, sehingga cukup alasan untuk menganggap bahwa Q3 me = me - Q1 = (Q3 - Q1)/2. Boxplot menggambarkan distribusi dari data, sehingga dari grafik ini akan kelihatan kemencengan data, keruncingan data dan outlier.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 17

Contoh 1.10.1 : Berikut 20 data penelitian tentang penggunaan microcomputer selama seminggu (dalam jam) oleh mahasiswa pada jurusan matematika di suatu perguruan tinggi: 12, 16, 12, 13, 16, 14, 15, 15, 16, 17, 18, 14, 18, 19, 11, 15, 13, 15, 17, 14. Box plotnya sebagai berikut:

20.00

18.00

16.00

14.00

12.00

10.00

microcomputer

Gambar 6. Boxplot data pada contoh 1.6

Contoh 1.10.2 : Data berikut adalah data berat badan mahasiswa STIS kelas 2C 45 50 51 50 55 70 72 68 58 50 48 40 76 71 70 60 65 56 55 54 52 51 50 50 58 56 53 52 60 70 54 55 51 50 58 59 52 50 45 46 48 50 54 40 55 68 Penyelesaian : Box plot dari soal di atas menggunakan SPSS adalah

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

18 | E k s p l o r a s i D a t a

Kalau data mengikuti sebaran normal, maka data berada pada interval rata-rata 1.96 standar deviasi. Maka ekuivalen dengan hal ini, tanpa harus mengetahui sebaran data, data yang simetris akan berada pada interval ?

Berarti data yang berada di luar interval di atas, termasuk outlier (pencilan). Contoh 1.11 16.8 13.1 14.6 22.6 24.4 25.7 21.4 15.8 21.7 16.9 14.9 12.9 14.1 16.6 20.5 22.7 26.2 26.7 25.8 19.7 28.1 17.5 18.7 20.2 20.2 21.6 17.9 17.7 17.3 18.0 14.4 24.6 15.1 18.6 13.7 20.9 24.2 6.9 20.3 17.3

Distribusi datanya sebagai berikut: Diagram Batang dan Daun

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 19

data Stem-and-Leaf Plot Frequency Stem & Leaf (=<7) 233 444455 66677777 8889 00000111 22 44455 66 8

1,00 Extremes 3,00 1 . 6,00 1 . 8,00 1 . 4,00 1 . 8,00 2 . 2,00 2 . 5,00 2 . 2,00 2 . 1,00 2 . Stem width: Each leaf:

10,00 1 case(s)

30.00

25.00

20.00

15.00

10.00

37

5.00

VAR00002

Gambar 7. Boxplot data pada contoh 1.7

Untuk lebih memperjelas eksplorasi data berikut beberapa contoh data, bentuk box plot dan grafik distribusi datanya. (data simulasi)

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

20 | E k s p l o r a s i D a t a

1.6 Eksplorasi Data dengan SPSS for Windows


Untuk mendapatkan output eksplorasi data menggunakan SPSS for Windows, langkah-langkahnya adalah sebagai berikut: 1. Aktifkan datanya 2. Klik menu Analyze Decriptive Statistics Explore

Gambar 8. Windows SPSS pada saat memilih Analyze Decriptive Statistics Explore 3. Maka akan muncul window seperti di bawah ini

Gambar 9. kotak Dialog Explore

Dependent List, adalah daftar variabel yang akan dianalisis Factor List, adalah daftar variabel yang akan mengelompokkan output dari variabel yang dianalisis. Contoh eksplorasi pengeluaran rumah tangga berdasarkan daerah (kota dan desa). Berarti factor list-nya adalah daerah.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 21

Label Cases by, isian variabel yang akan ditampilkan pada output untuk masing-masing data, misalkan nomor rumah tangga. Display, bisa dipilih salah satu dari tiga opsi yang ada. Both: ditampilkan statistik dan ploting datanya. Statistics: akan ditampilkan output statistik saja. Plots: hanya ditampilkan ploting datanya saja. Statistics, berisi output statistik sebagai berikut:

Gambar 10. kotak dialog Explore: Statistics Descriptives, menampilkan output mean, median, modus, 5% trimmed mean, standar error, variancs, standar deviasi, minimum, maksimum, range, interquartile range, skewness, standar error skewness, kurtosis dan standard error kurtosis. M-estimators, menampilkan output robust maximum-likelihood estimators of central tendency. Outliers, menampilkan output lima data terkecil dan lima data terbesar. Pada outputnya akan ditampilkan nilai extreme. Percentiles, akan menampilkan output persentil: 5, 10, 25, 50, 75, 90, 95 dan Tukey's hinges. Plots, berisi output ploting data sebagai berikut:

Gambar 11. Kotak dialog Explore : Plots

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

22 | E k s p l o r a s i D a t a

Boxplots, organisasi output boxplot. Factor level together: boxplot dikelompokkan berdasarkan faktor. Dependents together, boxplot dikelompokkan berdasarkan dependent variabel untuk faktor yang sama. None: tidak menampilkan boxplot Descriptive, menampilkan plot descriptive. Steam and-leaf, menampilkan output steam-and-leaf. Histogram, menampilkan histogram data Normalty plot with test, menampilkan output uji kenormalan. Option, perlakuan analisis dengan mempertimbangkan missing value

Gambar 12. Kotak Dialog Explore : Options

Exclude cases listwise, missing value tidak diikutkan dalam analisis. Exclude cases pairwise, output menyertakan hasil analisis dengan missing value dan tidak dengan missing value. Report values, mendefinisikan missing value sebagai data tersendiri.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 23

Contoh 1.12: Perhatikan contoh data berikut: 47, 11, 46, 33, 19, 42, 27, 22, 62, 10, 44, 2, 15, 21, 67, 20, 26, 25, 6, 53, 18, 3, 30, 7, 21, 25, 20, 40, 16, 8, 4, 10, 46, 31, 14, 15, 8, 10, 19, 17, 12, 16, 42, 16, Output SPSS-nya adalah: Explore Case Processing Summary Cases Valid Missing N Percent N Percent 44 100,0% 0 ,0%

data6

Total N Percent 44 100,0%

Descriptives Statistic data6 Mean 95% Confidence Lower Bound Interval for Mean Upper Bound 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis 23,77 18,89 28,66 22,74 19,50 258,319 16,072 2 67 65 21 ,944 ,250 Std. Error 2,423

,357 ,702

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

24

Eksplorasi Data

Percentiles 5 3,25 Percentiles 10 25 50 75 90 95 6,50 11,25 19,50 32,50 46,50 59,75

Weighted data6 Average(Definition 1) Tukey's Hinges data6

11,50 19,50 32,00

Tests of Normality Kolmogorov-Smirnova Shapiro-Wilk Statistic df Sig. Statistic df Sig. data6 ,159 44 ,007 ,916 44 ,003 a. Lilliefors Significance Correction

Gambar 13. Histogram data contoh 1.8

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 25

Stem-and-Leaf Plot Frequency Stem & Leaf 7,00 0 . 2346788 15,00 1 . 000124556667899 9,00 2 . 001125567 3,00 3 . 013 7,00 4 . 0224667 1,00 5. 3 1,00 6. 2 1,00 Extremes (>=67) Stem width: 10 Each leaf: 1 case(s)

Gambar 14. Normal Q-Q plot dari data pada contoh 1.8

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

26

Eksplorasi Data

Gambar 15. Detrend Normal Q-Q plot data pada contoh 1.8

Gambar 16. Box-Plot Data Pada Contoh 1.18

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 27

Soal Latihan :
Berikut contoh kasus untuk soal nomor 1 sampai 7 Siswa-siswa MAN Cendekia Gorontalo mengadakan praktek agroindustri dengan produk nasi goreng (porsi) dan dodol durian (dus). Hasil penjualannya produkproduk tersebut selama 10 hari adalah sebagai berikut: Nasi (porsi) Dodol (dus) Goreng 20 30 25 45 50 25 35 40 45 50 Durian 10 30 12 13 15 25 26 30 11 10

1. Rata-rata penjualan nasi goreng adalah ... a. 365 c. 182 b. 36,5 d. 18,2 Penyelesaian :
10

xi x ns gr
i 1

10

20 30 ... 50 10

365 10

36,5

2. Rata-rata penjualan dodol duriannya adalah ... a. 365 c. 182 b. 36,5 d. 18,2 Penyelesaian :
10

xi x dl dr
i 1

10

10 30 ... 10 10

182 10

18.2

3. Median penjualan nasi goreng adalah ... a. 35 c. 37,5 b. 40 d. 45 Penyelesaian : Data yang sudah diurutkan : 20 25 25 30 35 40 45 45 50 50 Jumlah n = 10, oleh karena itu posisi median ada di urutan yang ke 10 1 Me 5,5 . Posisi 5,5 itu berada di antara posisi 5 dan posisi 6. Jadi 2 35 40 37,5 Mediannya adalah 2

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

28

Eksplorasi Data

4. Median penjualan dodol duriannya adalah... a. 13 c. 14 b. 15 d. 16 Penyelesaian : Data yang sudah diurutkan : 10 10 11 12 13 15 25 26 30 30 Karena jumlah n nya samadengan nasi goreng, maka posisi mediannya ada di 13 15 14 urutan 5,5. Dengan begitu Mediannya adalah 2 5. Nilai maksimum penjualan nasi goreng adalah ... a. 20 c. 50 b. 25 d. 60 6. Koefisien Variasi penjualan nasi goreng adalah ... a. 3,00% c. 4,00% b. 3,03% d. 4,66% Penyelesaian : s ns gr CVns gr 100% x ns gr

11,067 36,5

100%

3,03%

7. Koefisien Variasi penjualan dodol durian adalah ... a. 3,00% c. 4,00% b. 3,03% d. 4,66% Penyelesaian : s dl dr CVdl dr 100% x dl dr

8,482 18,2

100%

4,66%

Berikut contoh kasus untuk soal nomor 8 sampai 12 Data pengeluaran 40 mahasiswa STIS dalam sehari adalah sebagai berikut (dalam ribu rupiah) 12 15 20 50 25 15 10 30 10 13 15 16 18 19 25 20 30 50 45 40 46 20 21 22 13 20 25 30 21 15 18 20 25 10 26 38 27 30 21 30 8. Median pengeluaran mahasiswa STIS adalah ... a. 20 c. 22 b. 21 d. 23

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 29

Penyelesaian : Data setelah diurut : 10 10 10 12 13 13 15 15 15 15 16 18 18 19 20 20 20 20 20 21 21 21 22 25 25 25 25 26 27 30 30 30 30 30 38 40 45 46 50 50 Karena n nya ada 40, maka posisi median ada diurutan antara 20 dan 21. Oleh 21 21 21 karena itu mediannya adalah 2 9. Kuartil pertama data pengeluaran di atas adalah ... a. 10 c. 15 b. 10,5 d. 15,5 Penyelesaian : Kuartil adalah ukuran yang membagi data menjadi empat bagian. Kuartil pertama adalah titik yang membagi 25% data yang lebih kecil dan 75% data yang lebih besar. Oleh karena itu kuartil pertama ada di titik kedua yang membagi data menjadi 4 bagian. Karena n nya ada 40, maka titik kedua ada di 15 16 15,5 antara data ke 10 dan 11. Kuartil pertamanya adalah 2 10. Kuartil kedua data pengeluaran di atas adalah ... a. 20 c. 22 b. 21 d. 23 Penyelesaian : Kuartil kedua adalah titik yang membagi 50% data yang lebih kecil dan 50% data yang lebih besar. Oleh karena itu kuartil kedua berada di urutan antara 20 21 21 21 dan 21. Kuartil keduanya adalah 2 11. Kuartil ketiga data pengeluaran adalah ... a. 25 c. 25,5 b. 30 d. 30,5 Penyelesaian : Kuartil ketiga adalah titik yang membagi 75% data yang lebih kecil dan 25% data yang lebih besar. Oleh karena itu kuartil kedua berada di urutan antara 30 30 30 urutan 30 dan 31. Kuartil ketiganya adalah 2 12. Misalkan data pengeluaran di atas adalah data yang simetris, nilai median yang dihitung menggunakan nilai kuartilnya adalah ... a. 20 c. 21 b. 22 d. 22,75

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

30

Eksplorasi Data

Penyelesaian : Untuk data yang simetris, me = (Q1+Q3)/2 = (15,5+30)/2=22,75 13. Misalkan data pengeluaran di atas adalah data yang simetris, nilai median yang dihitung menggunakan nilai minimum maksimumnya adalah ... a. 20 c. 30 b. 25 d. 35 Penyelesaian : Untuk data yang simetris me = (min+maks)/2 = (10+50)/2=30 14. Perhatikan diagram batang dan daun berikut ini
VAR00001 Stem-and-Leaf Plot Frequency 1,00 2,00 4,00 7,00 3,00 3,00 Stem width: Each leaf: Stem & 4 5 6 7 8 9 . . . . . . Leaf 5 05 0578 0055589 059 058

10,00 1 case(s)

Median data di atas adalah ... a. 70 c. 72,5 b. 75 d. 75,5 Penyelesaian : Jumlah n di atas adalah 20 (dilihat dari frekuensi setiap steamnya, jumlah n adalah jumlah semua frekuensi dalam steamnya). Maka mediannya ada di 75 75 75 urutan ke 10 dan 11. Maka mediannya adalah 2 15. Perhatikan Q-Q Plot soal di bawah ini

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 31

Q-Q Plot di atas menggambarkan bahwa data tersebut berdistribusi ... a. Normal c. Seragam b. Tidak normal d. Chi-Square Penyelesaian : Karena Q-Q Plot tersebut mendekati linier, sebaran data tersebut dapat dikatakan berdistribusi normal.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

32

Eksplorasi Data

Bab II Data Berpasangan dan Persamaan Garis Lurus


2.1 Pendahuluan
Persamaan garis lurus sangat mudah dibuat, karena terdapat rumus baku untuk membuat persamaan yaitu dengan menghitung koefisien a dan b. Masalahnya adalah jika pola pencaran data (xi,yi) ternyata tidak mengikuti pola garis lurus atau memencar secara tidak beraturan, maka koefisien garis a dan b menjadi tidak relevan lagi untuk menerangkan pola hubungan x dan y tersebut. Teknik eksplorasi data sangat berguna dalam analisis regresi untuk mengatasi pengamatan yang berada di luar pola utamanya atau yang kelurusannya tidak terlalu jelas terlihat dalam plot pencaran titik. Regresi digunakan untuk menguji hubungan antara satu variabel dengan variabel dependen dengan satu atau beberapa variabel independen untuk kemudian memprediksi besar variabel dependen dengan menggunakan data variabel independen yang sudah diketahui besarnya. Regresi berbeda dengan korelasi. Korelasi memiliki pengertian analisis yang mempelajari apakah ada hubungan linier antara dua variabel atau lebih dimana variabel tersebut dianalisis secara bersama- sama dan jika memang ada hubungan, bagaimana arah dan hubungan tersebut.

2.2 Pola Data Berpasangan


Strategi yang cukup baik dan sederhana untuk memulai penelusuran pola hubungan y dengan x adalah dengan membuat plot atau pola pencaran titik-titik (xi,yi). Beberapa kemungkinan tampilan yang tampak dalam plot pada gambar 2.1 . Jika semua titik (xi,yi) mengumpul di sekitar garis lurus, maka perhitungan koefisien a dan b dapat dilakukan dengan metode kuadrat terkecil atau least square method yang merupakan metode baku dalam analisis regresi. Sehingga harus diperiksa apakah data yang dimiliki mempunyai pola yang membentuk garis lurus, sehingga kita dapat menggunakan metode kuadrat terkecil untuk memperoleh persamaan garis regresi.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 33

18

Gambar 17. Beberapa kemungkinan Tampilan Plot

2.3 Garis Resisten


Dalam membentuk persamaan regresi, harus diperiksa apakah pola titik (xi,yi) membentuk garis lurus atau lengkung. Untuk memeriksa pola tersebut diperlukan paling sedikit tiga titik yang dapat mewakili seluruh titik yang ada. Dengan menghubungkan ketiga titik tersebut dengan dua penggalan garis, masing-masing menghubungkan dua titik yang berdekatan, pola garis lurus itu dapat diperiksa. Garis lurus yang terdapat dalam diagram pencar, yang memperlihatkan hubungan antara variabel disebut dengan garis resisten. Pada sumber yang lain, garis resisten disebut juga dengan garis regresi atau garis perkiraan. Pilihan lain adalah dengan melihat rasio koefisien b kedua penggalan garis tersebut. Jika rasio menyimpang sangat jauh dari nilai 1 akan menunjukkan kelengkungan. Prosedur perhitungan yang ditempuh adalah sebagai berikut : Kita mulai dengan mengurutkan data (xi,yi) menurut besarnya nilai xi, sehingga x1 < x2 < < xn Garis lurus yang terdapat dalam diagram pencar, yang memperlihatkan hubungan antara variabel disebut dengan garis resisten. Pada sumber yang lain, garis resisten disebut juga dengan garis regresi atau garis perkiraan.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

34

Eksplorasi Data

Pilihan lain adalah dengan melihat rasio koefisien b kedua penggalan garis tersebut. Jika rasio menyimpang sangat jauh dari nilai 1 akan menunjukkan kelengkungan. Prosedur perhitungan yang ditempuh adalah sebagai berikut : Kita mulai dengan mengurutkan data (xi,yi) menurut besarnya nilai xi, sehingga x1 < x2 < < xn Kumpulan pasangan (xi,yi) yang telah diurutkan kemudian dibagi menjadi tiga bagian yang kurang lebih sama banyaknya yang akan membentuk kelompok B (bawah), T (tengah), dan A (atas) Dalam setiap kelompok, dicari titik yang dapat menjadi wakil dari kelompok yang bersangkutan. Kita gunakan nilai median x dan median y dari masing-masing kelompok sebagai koordinat titik-titik tersebut, yaitu : (xB,yB), (xT,yT), (xA,yA) Titik-titik ini belum tentu berupa titik pengamatan, karena penentuan median x dan y dilakukan secara terpisah. Koefisien b dihitung berdasarkan dua buah titik yang mewakili kelompok B dan A, sehingga mencerminkan rentangan nilai x yang paling lebar. b = (yA yB)/(xA xB) Koefisien a ditetapkan sehingga diharapkan garis tersebut dapat melalui bagian data yang berada di kelompok tengah (T). Kalau garis tersebut melalui titik (xT,yT) maka : a = yT b xT Akan tetapi untuk menghindari nilai a terlalu dipengaruhi oleh nilai pengamatan dalam kelompok T, maka kita dapat menggunakan ketiga titik sebagai patokan dan nilai a ditentukan sebagai rata-rata dari ketiganya, sehingga kita dapatkan : aB = yB bxB aT = yT bxT aA = yA bxA

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 35

yang selanjutnya menghasilkan a = { (yB bxB) + (yT bxT) + (yA bxA)} / 3 = { (yB + yT + yA) b (xB + xT + xA)} / 3 Sebagai contoh digunakan data sebagai berikut : Contoh 2.1 :
x y x y 2 31,1 5 46,8 3 36,9 5 54,0 4 41,6 6 48,9 4 46,1 6 50,1 4 48,4 6 51,2 4 48,4 6 56,2 5 30,1 6 68,4 5 44,4 7 77,1

Data Berpasangan dan Persam aan Garis Lurus

Plot untuk data di atas dapat dilihat pada Gambar 18.

80.00

70.00

60.00

y
50.00 40.00 30.00

2.00

3.00

4.00

5.00

6.00

7.00

Gambar 18. Plot pada data berpasangan

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 36

Karena data sudah diurutkan, maka langkah selanjutnya adalah membentuk tiga kelompok Bawah, Tengah dan Atas.
Kelompok B (Bawah) x 2 3 4 4 4 4 Median x Median y 4 43,8 y 31,1 36,9 41,6 46,1 48,4 48,4 5 45,6 T (Tengah) x 5 5 5 5 y 30,1 44,4 46,8 54,0 A (Atas) x 6 6 6 6 6 7 6 53,8 y 48,9 50,1 51,2 56,5 68,4 77,1

Koefisien b adalah : b = (yA yB)/(xA xB) = 10,0/2,0 = 5,0

Sedangkan koefisien a adalah : a = {(yB + yT + yA) b (xB + xT + xA)}/3 = {143,2 5 (15)}/3 = 68,2/3 = 22,7 Sehingga persamaan garis yang dimaksud adalah : = 22.7 + 5.0 x

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

37

Eksplorasi Data

Dengan menggunakan median sebagai dasar perhitungan bisa dilihat bahwa persamaan di atas tidak terlalu peka terhadap perubahan nilai pada titik (5; 30,1), (6; 68,4) dan (7; 77,1). Jika nilai y pada kedua titik terakhir menjadi jauh lebih besar dari 77,1, persamaan garis tersebut tidak akan berubah. Demikian pula seandainya nilai y pada titik (5; 30,1) menjadi lebih kecil dari 30,1 maka perubahan ini tidak akan berpengaruh terhadap persamaan garis yang telah didapatkan. Persamaan garis ini ternyata cukup resisten terhadap nilai pencilan dan garis yang ditentukan berdasarkan prosedur di atas disebut garis resisten (Tukey, 1977 dan Velleman & Hoaglin, 1981 dalam Aunuddin, 1989). Untuk memeriksa kelengkungan garis, berdasarkan penggalan garis sebelah kiri yang menghubungkan titik B dengan titik T kita dapatkan
bB = (45,6 43,8)/(5 4) = 1,8

sedangkan untuk penggalan sebelah kanan diperoleh :


bA = (53,8 45,6)/(6 5) = 8,2 sehingga rasionya

menjadi :
bA/bB = 8,2/1,8 = 4,55

berdasarkan rasio kedua nilai b terkesan bahwa pola garis tersebut melengkung dan menaik tajam. Meskipun demikian, karena datanya hanya sedikit dan dalam ploting data tidak menunjukkan adanya kelengkungan, persamaan garis lurus masih relevan dan tidak perlu dilakukan transformasi.

2.4 Pemeriksaan Ketepatan Model


Setelah mendapatkan model dugaan, perlu diperiksa apakah model yang kita buat sudah tepat dan sesuai dengan data yang ada. Proses penghitungan untuk memperoleh model dapat diuraikan menjadi komponen data berikut ini : Data = dugaan + sisaan Atau : yi = (a + b xi) + (yi a b xi)

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data

38

Ketepatan model disini sangat dipengaruhi oleh asumsi keaditifan dan komponen dugaannya merupakan persamaan garis lurus. Komponen sisaan atau y - dapat digunakan untuk memeriksa berbagai ketidakcocokan antara data dengan model. Sebagai contoh kalau model yang dipakai sudah tepat, maka pola keragamannya dapat diterangkan sepenuhnya oleh keragaman x dan sisaannya sudah tidak memiliki pola hubungan lagi dengan x. Dalam tabel berikut diperoleh dua nilai baru yaitu nilai y (dugaan) dan y - (sisaan) yang diperlukan dalam pemeriksaan ketepatan model, melalui: Plot antara sisaan dengan nilai x atau dengan nilai dugaan untuk memeriksa apakah keseluruhan keragaman y telah dapat diterangkan oleh keragaman x atau untuk memeriksa apakah rentangan penyebaran sisaan dipengaruhi oleh besarnya nilai dugaan Diagram stem-and-leaf atau kotak garis dari nilai sisaan dapat digunakan untuk memeriksa kesimetrikan bentuk sebarannya, yang akan kita perlukan dalam tahap konfirmasi model atau uji hipotesis dalam analisa statistika.
Tabel 2.1. Hasil Analisa Garis Resisten
x y y-

2 3 4 4 4 4 5 5 5 5 6 6 6 6 6 7

31,1 36,9 41,6 46,1 48,4 48,4 30,1 44,4 46,8 54,0 48,9 50,1 51,2 56,5 68,4 77,1

32,7 37,1 42,7 42,7 42,7 42,7 47,7 47,7 47,7 47,7 52,7 52,7 52,7 52,7 52,7 57,7

-1,6 -0,8 -1,1 3,4 5,7 5,7 -17,6 -3,3 -0,9 6,3 -3,8 -2,6 -1,5 3,8 15,7 19,4

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

39

Eksplorasi Data

20.00

10.00

sisaan

0.00

-10.00

-20.00

2.00

3.00

4.00

5.00

6.00

7.00

Gambar 19. Plot data x dan Sisaan

2.5 Proses Iterasi dalam Garis Resisten


Prosedur yang menghasilkan persamaan garis resisten memiliki kelemahan dalam pendugaan koefisien a dan b. Kedua nilai ini seringkali bukan dugaan yang paling cocok, akan tetapi kekurangan ini dapat diperbaiki dengan melakukan iterasi. Proses iterasi melibatkan nilai sisaan karena dalam komponen ini masih tersisa informasi yang dapat digunakan untuk memperbaiki nilai dugaan a dan b. Setelah kita mendapatkan nilai sisaan atau r i = yi - i , maka data tadi disusun menjadi pasangan data baru berupa (xi,ri) dan kembali melakukan pendugaan garis. Jika nilai b-nya nol atau relatif kecil sekali maka proses ini selesai, artinya dugaan a dan b pada tahap pertama cukup tepat. Dalam prakteknya, sering ditemui bahwa dugaan a dan b yang berasal dari pasangan (xi ,ri ) tidak sama dengan nol meskipun kemungkinan besar memiliki nilai yang lebih kecil dari dugaan sebelumnya. Seandainya pada tahap awal didapatkan penduga a1 + b1 x, dengan sisaannya r( 1 ) = y a1 b1 x. Berdasarkan pasangan baru (x,r(1)) kemudian didapatkan ai dan bi , sehingga nilai dugaan yang sudah diperbaiki menjadi a2 = a1 + a1 dan b2 = b1 + b1 . Pada tahap berikutnya diperoleh : Y( 2 ) = a2 + b2 x, dan R( 2 ) = y y( 2 )

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data |

40

Yang menghasilkan pasangan baru (x,r ) yang dapat dipergunakan untuk proses iterasi selanjutnya.
(2)

Dalam beberapa kasus tertentu, perubahan nilai tersebut dapat berjalan lambat sekali atau berfluktuasi karena nilai b selalu berganti tanda dengan besaran yang kurang lebih sama. Untuk mengatasi hal ini, perlu dilakukan penyesuaian yaitu setelah mendapatkan b2 maka
B 3 = b2 b2 [(b2 b1 )/(b2 b1 )]

Atau secara umum


B n + 1 = bn bn [(bn bn - 1 )/(bn bn - 1 ) ]

Proses iterasi ini dapat dihentikan jika nilai bn+1 sudah cukup kecil. Sebagai patokan, nilainya sudah lebih kecil dari 1% nilai b awal. (Emerson dan Hoaglin, 1983, hal 134 142 dalam Aunuddin, 1989)

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Bab III Pemeriksaan Sisa dan Kenormalan


3.1 Pendahuluan
Kendati namanya mungkin menyesatkan, sisa memiliki informasi yang sangat berharga dalam sebuah penelitian. Sehingga sisa merupakan bagian yang amat penting dalam setiap analisis data. Sisa didefiinisikan sebagai ei = yi - i dimana i = 1,2, ,n. Informasi dari data awal yang tidak terserap oleh model akan menjadi sisa. Jika semua pola yang ada pada data telah masuk ke dalam model maka sisa akan berbentuk acak, tetapi jika model yang terbentuk tidak mampu mengambil semua pola yang ada pada data maka sisa akan mempunyai kecenderungan tertentu. Dalam hal demikian dapat dikatakan bahwa model belum layak betul, dalam arti masih harus disempurnakan. Jika sisa sudah berbentuk acak maka anggapan tentang kenormalan dan kesamaan varian dapat diuji dari sisa.

3.2 Pemeriksaan Terhadap Model


Kita dapat melihat kelayakan suatu model diantaranya dengan : Melihat hasil pengujian kecocokan model dengan F-Test Membandingkan R 2 dari model yang berlainan Melakukan pengujian hipotesis mengenai koefisien regresinya. Kesemuanya itu bertujuan untuk melihat bagaimana kecocokan model dengan data. Akan tetapi penyimpangan suatu model dari data susah dilihat melalui pemeriksaan koefisien regresi dan R 2. Ketidakcocokan model dengan data juga dapat dilihat dengan mengamati sisa. Makin besar sisa makin jauh data menyimpang dari model. Begitupun adanya pola yang teratur (sistematis) dalam sisa menunjukkan bahwa modelnya belumlah baik. Model yang sudah baik ditandai oleh pola sisa yang acak.

43 | E k s p l o r a s i D a t a

3.3 Kegunaan dan Tujuan Pemeriksaan Sisa


Dari suatu kelompok data sering terdapat beberapa yang tidak mengikuti pola umum. Biasanya data seperti itu sering terdapat di pinggir. Kemungkinan hal ini terjadi karena kesalahan dalam mengamati atau mencatat tapi tidak jarang juga data itu memang data yang sesungguhnya. Salah satu kelemahan metode kuadrat terkecil ialah bahwa data yang aneh tersebut mempunyai pengaruh yang proporsional lebih besar dari data yang terletak di bagian tengah. Salah satu tujuan pemeriksaan sisa ialah untuk menentukan apakah data tersebut dapat dikategorikan sebagai pencilan(outlier) atau bukan. Ini yang disebut dengan diagnostik regresi. Adanya pencilan mungkin merupakan petunjuk bahwa modelnya belum cocok dengan data, jadi modelnya masih harus diperbaiki. Jika modelnya diperbaki, pencilan itu mungkin hilang. Akan tetapi, dalam banyak hal, pencilan muncul secara wajar dan tidak mengisyaratkan kekurangcocokan model. Bila n=100, misalnya, maka wajar saja bila ada sekitar lima data pengamatan yang menyimpang, yang tidak mengikuti pola umum. Secara umum, pencilan dapat diartikan sebagai data yang tidak mengikuti pola model dan secara kasar dapat diambil patokan yaitu yang sisanya berjarak 3 standar deviasi/standard error atau lebih dari rata-ratanya (yaitu nol). Tujuan pemeriksaan sisa, secara implisit, juga berarti apakah peubah bebas yang besar pengaruhnya sudah masuk ke dalam model dan dalam bentuk (linear, kuadrat, log, dsb.) yang sesuai. Lebih terperinci tujuan pemeriksaan sisa adalah : Apakah sisa telah berpola acak; Apakah anggapan normal tidak dilanggar; Apakah varian dapat dianggap tidak berubah (sama); Apakah ada data yang tidak mengikuti pola umum (pencilan); Apakah peubah yang masuk ke dalam model barangkali bukan berbentuk linear; Apakah peubah yang berpengaruh telah masuk ke dalam model.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Pemeriksaan Sisa dan Kenormalan

44

Jadi dalam membentuk model kita melihat pola umum data sedangkan dalam analisis sisa kita melihat penyimpangannya dari pola tersebut. Dalam setiap analisis data keduanya harus dipadu secara harmonis agar diperoleh model yang baik. Berikut ini akan disajikan pemeriksaaan sisa yang sederhana, dengan bantuan plot (pencaran data) sehingga perasaan kita diikutsertakan dalam menilai. Contoh 1. Tabel 1. Data tinggi (x) dan berat badan (y)
no. 1 2 3 4 5 x(cm) 120 126 135 135 143 y(kg) 38,4 41,6 46,2 49,8 55,9 no. 6 7 8 9 10 x(cm) 150 150 155 155 155 y(kg) 61,2 59,8 66,5 63,4 65,8 no. 11 12 13 14 15 x(cm) 160 162 162 170 172 y(kg) 67,5 68,7 81,8 75,8 78,6

Setelah diolah didapatkan hasil : Tabel 2. Penghitungan dengan dan tanpa pencilan
Seluruh pengamatan no. x 1 2 3 4 5 6 7 8 9 10 11 12 120 126 135 135 143 150 150 155 155 155 160 162 y 38,4 41,6 46,2 49,8 55,9 61,2 59,8 66,5 63,4 65,8 67,5 68,7 36,81 41,73 49,10 49,10 55,66 61,40 61,40 65,50 65,50 65,50 69,60 71,24 1,5906 -0,1275 -2,9047 0,6953 0,2378 -0,2000 -1,6000 1,0016 -2,0984 0,3016 -2,0969 -2,5362 37,30 41,97 48,96 48,96 55,17 60,61 60,61 64,49 64,49 64,49 68,38 69,93 1,0956 -0,3652 -2,7565 0,8435 0,7290 0,5913 -0,8087 2,0073 -1,0927 1,3073 -0,8768 -1,2304 Tanpa no. 13

y-

y-

Eksplorasi Data

| 45

13 14 15

162 170 172 Jumlah

81,8 75,8 78,6

71,24 77,79 79,43

10,5638 -1,9937 -0,8331 0,0011

76,14

-0,3449

77,70

0,9015 0,0003

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

46 | E k s p l o r a s i D a t a

Dari tabel 2 kita dapat melihat hasil dugaan dari model yang kemudian kita hitung sisaannya. Kita bandingkan model yang menggunakan seluruh pengamatan dan model yang membuang pengamatan no. 13, karena kita anggap sisanya terlalu besar. Plot dengan sisa diberikan pada gambar 1a dan 1b. Dari gambar ini terlihat dengan jelas bagaimana memencilnya sisa dari pengamatan no. 13, besarnya sisa ini melebihi 3s (s=standar error=3,3594). Jika anggapan kenormalan sisa dipenuhi maka peluangnya mendapat data seperti ini amat kecil, kurang dari 0,003.

Gambar 20. Residual Plot dengan mempertahankan Pencilan

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

E k s p l o r a s i D a t a | 47

Gambar 21. Residual Plot dengan Membuang Pencilan Karena itu sebaiknya telusuri kembali apakah tidak terdapat kesalahan dalam pengumpulan data atau pencatatannya. Jika kesalahan tidak ditemukan, dan memang ada orang yang beratnya seperti itu, maka kita harus menerima sebagaimana adanya dan sekali-kali tidak boleh membuangnya. Bayangkan kalau y menyatakan produksi susu sapi dan ternyata sapi no.13 menghasilkan susu yang jauh melebihi hasil sapi lainnya. Membuang informasi seperti itu berarti membuang bibit unggul. Tujuan analisis data bukan hanya mencari pola umum data tapi juga mencari data yang mana saja yang tidak mengikuti pola umum. Jika kita menangani data penyebaran emas dalam tambang maka kita lebih tertarik melihat data yang tidak mengikuti pola umum. Emas tersebar dalam tambang berbentuk bongkah. Bongkah yang besar lebih jarang ditemui, jadi lebih merupakan pencilan. Suatu cara menilai pengaruh data yang tidak mengikuti pola umum adalah dengan membuat analisis khusus tanpa mengikutsertakan data pencilan tersebut dalam analisis, kemudian membandingkan pengaruhnya dengan bila seluruh pengamatan diikutsertakan.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

48 | E k s p l o r a s i D a t a

Pada bagian kanan tabel 2. ditampilkan analisis tanpa mengikutsertakan pengamatan no. 13. Plot sisa diberikan pada gambar 3.1b. terlihat jauh lebih acak. Sedangkan pada tabel 3. ditampilkan perbandingan besaran regresi yang penting dari kedua analisis. Tabel 3. Menilai pengaruh pencilan
Besaran a b s (a) s (b) s R2 Menggunakan semua data -61,5530 0,8197 8,7858 0,0583 3,3594 93, 83% Tanpa pengamatan no.13 -55, 9129 0,7768 3,5504 0,0237 1,3331 98, 90%

Terlihat bahwa perubahan pada R2 dan s cukup besar. R2 naik 5% dan s turun menjadi hampir 0,4 kali besar semula. Begitupun b turun sedikit dan s (b) menjadi setengah besar semula. Bila pengaruh data kecil maka tidaklah menjadi persoalan, analisis mana yang akan dipakai. Tetapi bila cukup besar, maka kita dihadapkan pada pilihan yang tidak mudah. Hasil yang mana yang akan digunakan tergantung dari : keyakinan kita tentang kebenaran data pengamatan no.13 pemahaman kita tentang permasalahan dan pemahaman kita tentang tujuan analisis. Tidak ada formula yang pasti, apakah suatu pencilan itu harus dibuang atau tetap dipertahankan dalam suatu set data. Terkadang diperlukan juga kepekaan peneliti akan data data yang diolahnya (sense of data).

3.4 Pemeriksaan Kenormalan


Pelanggaran terhadap kenormalan dapat terjadi karena sampel tidak berasal dari populasi normal atau adanya beberapa data, biasanya di pinggir, yang merupakan pencilan. Banyak cara telah diciptakan untuk memeriksa kenormalan, dari yang paling sederhana sampai yang canggih, dan tidak ada satupun yang betul-betul memuaskan hati. Setiap cara memiliki keunggulan dan kelemahan, dan pengalaman selalu sangat menolong. Suatu distribusi normal N( , 2) akan berlaku :

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data

| 49

P(-s < y < s) = 0,6826 P(-2s < y < 2s) = 0,9544 P(-3s < y < 3s ) = 0,9974

0.68 0,95 0,997

Jadi cara yang sederhana memeriksa kenormalan sisa ialah dengan melihat apakah presentasi sisa memenuhi : antara s dan s sekitar 68% antara 2s dan 2s sekitar 95% antara 3s dan 3s sekitar 99,7% Perhatikan bahwa rata-rata sisa adalah nol dan standar deviasi dimisalkan s kita tidak mengharapkan bahwa persamaan 3.1 harus dipenuhi dengan tepat. Pelanggaran terhadap ketentuan di atas dapat terjadi karena sisa tidak memenuhi anggapan kenormalan atau ada pencilan dalam data, misalnya sisa yang terletak lebih dari 3s dari titik rataan 0. Cara yang lebih baik dan paling umum dilakukan orang adalah dengan menggambarkan plot data, dalam hal ini plot sisa. Plot yang paling sederhana misalnya ialah diagram batang-dandaun (stem & leaf). Yang ingin dilihat adalah apakah diagramnya setangkup, berpuncak tunggal dan kedua ujungnya tidak terlalu tebal.

Contoh.2. Lihat kembali data sisa dari contoh 1. yang diberikan di tabel 2. Pengamatan No. 13 dikutsertakan :
VAR00003 Stem-and-Leaf Plot Frequency 2,00 2,00 2,00 ,00 1,00 2,00 2,00 1,00 1,00 1,00 Stem & -2 -2 -1 -1 -0 -0 0 0 1 1 . . . . . . . . . . Leaf 59 00 69 8 12 23 6 0 5

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

50 | E k s p l o r a s i D a t a

1,00 Extremes

(>=10, 6) 1,00 1 case(s)

Stem width: Each leaf:

Pengamatan no. 13 tidak diikutseetakan :


VAR00004 Stem-and-Leaf Plot Frequency 1,00 2,00 4,00 4,00 2,00 1,00 Stem width: Each leaf: Stem & -2 -1 -0 0 1 2 . . . . . . Leaf 7 02 3388 5789 03 0

1,00 1 case(s)

Terlihat bahwa jika pengamatan no.13 ikut, kita memperoleh diagram yang tidak setangkup dan juga tidak berpuncak tunggal. Lebih dari itu, pengamatan no. 13 memberikan sisa yang sangat terpencil (extremes). Akan tetapi jika pengamatan no. 13 tidak diikutsertakan, maka kita akan memperoleh diagram yang cukup setangkup, berpuncak tunggal. Tidak ada petunjuk bahwa anggapan normal dilanggar.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data

| 51

BAB IV Transformasi Data


4.1 Pendahuluan
Jika pencilan (outlier) ternyata ada dalam hasil pengamatan dan pencilan itu akan digunakan dalam analisis data maka perlu dicari cara untuk mengatasinya agar pencilan itu tidak mengganggu dan kita mendapat hasil yang lebih baik. Salah satu cara untuk mengatasi pencilan ditempuh dengan melalui tranformasi terhadap data hasil pengamatan sebagai berikut. Dalam hal demikan, peubah tak bebas Y dan atau peubah bebas X mungkin perlu ditransformasikan. Caranya adalah dengan : Mengamati stem-and-leaf (dahan-daun), dan box plot dari data X dan data Y Pilihlah transformasi yang sesuai untuk Y dan atau untuk X. Misalkan hasil transformasi dari Y dan dari X berturut-turut adalah Z dan W Tentukan regresi linear dari Z terhadap W Bila regresi dari Z terhadap W memberikan harga R2 yang sudah memuaskan, maka proses pemodelan selesai. Bila belum, maka ulangi langkah 2 dan 3.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

52 | E k s p l o r a s i D a t a

Bentuk transformasi yang dapat dilakukan adalah : bentuk logaritma natural, akar kuadrat, inverse, atau bentuk yang lain tergantung dari bentuk kurva normalnya. Transformasi data adalah paling sesuai untuk perbaikan pengukuran keheterogenan ragam dimana ragam dan rataan memiliki hubungan fungsi. Dengan teknik ini data asli dikonversikan ke dalam skala baru menjadikannya data baru yang diharapkan memenuhi ketentuan kehomogenan ragam. Karena skala transformasi umum digunakan untuk semua pengamatan, nilai komparatif antara perlakuan tidak diubah dan pembandingan diantaranya tetap sah. Jenis transformasi data yang harus digunakan sangat tergantung pada jenis hubungan antara ragam dan rataannya. Sehingga tujuan dilakukan re-ekspresi atau transformasi salah satunya adalah untuk memperoleh sebaran data yang relatif normal atau setangkup.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

53 | E k s p l o r a s i D a t a

Transformasi dilakukan untuk mendapatkan bentuk distribusi yang lebih simetris.

untuk bentuk distribusi : skewness positif skewness negatif2222

Gambar 22. Transformasi Tangga Tukey

Data contoh kasus : skewness = -0,5 (menceng kiri), maka transformasi yang mungkin adalah x2, x3, dan 10x.

Gambar 23. Contoh kasus transformasi data X 2 Transformasi data bertujuan untuk mengubah data dari data yang tidak mengikuti sebaran normal dengan keragaman antar perlakuan tidak homogen menjadi mengikuti sebaran normal dengan keragaman antar perlakuan menjadi homogen (menyediakan data baru dengan sebaran yang lebih setangkup). 4.1.1 Transformasi Logaritma

Transformasi logaritma paling sesuai untuk data dimana standar deviasinya berbanding dengan rataan, pengaruhnya kelipatan atau memiliki hubungan fungsi. Jika rata-rataan sampel sebanding dengan standar deviasi masing-masing sampel, maka dengan mengganti tiap pengamatan dengan logaritmanya sering akan menghasilkan varian yang hampir sama. Keadaan ini umumnya diperoleh jika data

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

54 | E k s p l o r a s i D a t a

merupakan bilangan bulat dan mencakup wilayah yang lebar. Untuk data yang berukuran kecil (misalnya kurang dari 10) atau data yang memiliki nilai 0 (nol), sebaiknya model transformasinya diubah menjadi Log (Y + 1). Transformasi ini biasanya digunakan bila data berkaitan dengan waktu dan rata-ratanya ( ) mengikuti rata-rata Geometrik. Ciri-ciri data ini adalah bila rata-rata ( ) suatu perlakuan semakin besar, maka variannya ( ) juga semakin besar, sehingga homogenitas ragam/varian antar perlakuan tidak terpenuhi. Data yang mempunyai ciri-ciri tersebut adalah data yang berkaitan dengan waktu misalnya jumlah mikroorganisme pada daging yang disimpan pada suhu dingin selama 10 hari, bobot badan ayam dari minggu ke minggu. Transformasi logaritma dapat mengubah bentuk perkalian menjadi penambahan dan sebaran nilai yang dihasilkan menjadi lebih terpusat (variabilitas menurun dan ekor sebaran menjadi lebih pendek dibanding data asli). 4.1.2 Transformasi Akar Kuadrat Transformasi akar kuadrat cocok digunakan untuk bilangan bulat yang kecil, misalnya data yang diperoleh pada kejadian yang jarang, seperti banyaknya tanaman yang terserang penyakit dalam suatu petak atau banyaknya gulma per petak. Untuk data seperti ini, ragamnya cenderung berbanding dengan rataannya. Transformasi akar kuadrat juga cocok untuk data persentase apabila wilayahnya antara 0 30% atau 70 100% . Pada kasus yang sama Steel & Torrie (1989) memberikan batasan 0 20% atau 80 100%. Apabila kebanyakan data berukuran kecil (kurang dari 10%), terlebih jika memiliki nilai 0 (nol) maka sebaiknya menggunakan (Y + 0,5)0,5. Transformasi ini digunakan jika data mengikuti sebaran Poisson. Ciricirinya adalah rata-rata () data hasil pengamatan masing-masing perlakuan hampir sama dengan variannya (2), data yang mengikuti sebaran Poisson ini biasanya data dalam persen dengan persentase yang sangat kecil atau peluang kejadiannya sangat kecil atau sebaliknya yaitu sangat besar (mendekati 0% atau 100%). contoh : tabel data hubungan antara lamanya seseorang melaksanakan training dengan performance score yang didapatnya

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data

| 55

Sales trainee

1 2 3 4 5 6 7 8 9 10

Lamanya training (hari) (Xi) 0.5 0.5 1 1 1.5 1.5 2 2 2.5 2.5

Performance Xi= score (Yi) 46 51 71 75 92 99 105 112 121 125

Xi.Yi

0.70711 0.70711 1 1 1.22474 1.22474 1.41421 1.41421 1.58114 1.58114

32.527 36.062 71 75 112.677 121.250 148.492 158.392 191.138 197.643

0.5 0.5 1 1 1.5 1.5 2 2 2.5 2.5

jika dilihat dari scatter plotnya, maka data di atas akan memiliki scatter plot sebagai berikut:

Gambar 24. Perbandingan garis regresi linier dan

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

56 | E k s p l o r a s i D a t a

terlihat pada scatter plot di atas bahwa pola garis linier tidak cocok menggambarkan data yang ada karena seharusnya garis regresi agak sedikit memiliki lengkungan. Oleh karena itu, data tersebut harus ditransformasi ke dalam bentuk yang lain. Tangga Tranformasi Tukey merupakan sebuah pedoman yang cukup baik, namun untuk mendapatkan transformasi yang paling baik terkadang peneliti harus mencoba beberapa bentuk transformasi data (trial and error). Lagi lagi kepekaan peneliti akan data yang sedang ditelitinya kembali dibutuhkan.

Descriptives Statistic performance_score Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Lower Bound Upper Bound 89.7000 69.7182 109.6818 90.1667 95.5000 780.233 27.93266 46.00 125.00 79.00 48.25 -.389 -1.155 .687 1.334 Std. Error 8.83308

dilihat dari tabel output SPSS, data tersebut memiliki skewness yang negatif, maka menurut Tangga Transformasi Tukey, transformasi yang cocok adalah x2, x3, 10x. Namun jika dilihat dari garis regresi yang terbentuk dari scatter plot maka bentuk garis regresi mendekati pola garis regresi , oleh karena itu data tersebut akan ditransformasikan ke dalam bentuk . Maka setelah semua data lamanya training diakar kuadratkan, buat kembali persamaan garisnya. Persamaan garis barunya adalah = -11.69 + 85.53 X

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data

| 57

Namun perlu diingat bahwa x yang digunakan pada persamaan garis di atas adalah data lamanya training yang sudah diakar kuadratkan. Oleh karena itu, data selanjutnya yang akan dimasukkan ke dalam persamaan garis di atas haruslah diakar kuadratkan terlebih dahulu baru kemudian dimasukkan ke dalam persamaan garis untuk mendapatkan nilai perkiraan nilai Y.

4.2 Curve Estimation Pada SPSS


Pada SPSS 18 terdapat fasilitas Curve Estimation. Curve estimation sangat membantu sekali dalam menentukan pola garis regresi apa yang mendekati dengan data yang sedang kita teliti. Hal ini akan memudahkan peneliti dalam membuat persamaan garis dari data yang dimiliki sehingga tidak lagi membutuhkan proses trial and error yang cukup melelahkan dan memakan waktu. Berikut ini adalah langkah langkah untuk mendapatkan curve estimation pada SPSS 18 : 1. Aktifkan datanya 2. Klik menu Analyze Regression Curve Estimation

Gambar 25. Windows SPSS pada saat memilih Analyze Regression Curve Estimation

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

58 | E k s p l o r a s i D a t a

3. Maka akan muncul window seperti di bawah ini

Gambar 26. kotak Dialog Curve Estimation Kemudian beri tanda centang pada model yang kita perkirakan akan cocok garis regresi-nya dengan data yang kita miliki. 4. Setelah itu, klik OK 5. Kemudian akan muncul output sebagai berikut.

Model Summary and Parameter Estimates Dependent Variable:nilai_ekspor_alas_kaki Equation R Square Linear Logarithmic Inverse F df1 1 1 1 df2 46 46 46 Sig. Constant b1 427,851 6343,043 21935,909 Quadratic Cubic ,089 2,195 ,137 2,319 2 3 45 44 ,123 126490,927 ,088 140606,175 1139,336 -14,520 -2149,138 151,542 2,259 Compound Power Exponential Logistic ,054 2,650 ,048 2,330 ,054 2,650 ,054 2,650 1 1 1 1 46 46 46 46 ,110 132273,768 ,134 125734,098 ,110 132273,768 ,110 7,560E-6 1,003 ,040 ,003 ,997 b2 b3 Model Summary Parameter Estimates

,076 3,759 ,067 3,280 ,026 1,232

,059 132419,971 ,077 124312,715 ,273 144939,974

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data

| 59

Jika dilihat dari output yang muncul maka dengan tingkat kepercayaan 90% maka persamaan regresi linear-lah yang paling mendekati dengan data penelitian karena nilai signifikan-nya paling kecil. Namun jika tingkat kepercayaannya menjadi 95% maka data yang kita teliti tidak signifikan dengan persamaan garis manapun.

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

60 | E k s p l o r a s i D a t a

DAFTAR PUSTAKA
Aunuddin, 1989, Analisis Data, Institut Pertanian Bogor, Bogor. Berenson, Mark L., David M. Levine, 1986, Basic Bussiness Statistics: Concepts and Application 3r d Edition, Prentice-Hall International. Neter, John, 1989, Applied Linear Regression Models 2nd Edition, Irwin Sembiring, R.K, 2003, Analisis Regresi, Penerbit ITB, Bandung Supranto, J. 2000, Statistik Teori dan Aplikasi edisi ke-6, Erlangga, Jakarta

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

62 | E k s p l o r a s i D a t a

Latihan
1. Berikut data penerimaan pajak pada kuartal pertama dari sampel 9 outlet pada sebuah areal perdagangan (dalam ribuan dollar): 16, 18,11, 17, 13, 10, 22,15, 16 o Carilah rata-rata, median, Q1, Q2, Q3, modus dan standar deviasi o Buatlah diagram batang dan daun, dan box plot-nya 2. Diberikan raw data sebagai berikut: 32, 95, 11, 94, 36, 91, 62, 62, 74, 14, 63, 58, 87, 41, 10, 95, 99, 75, 57, 75. o Carilah rata-rata, median, Q1, Q2, Q3, modus dan standar deviasi o Buatlah diagram batang dan daun, dan box plot-nya 3. Nilai ulangan matematika dari 30 siswa sebagai berikut : Nilai 4 5 6 7 8 9 Frekuensi 2 4 12 8 3 1 Carilah rata-rata nilai ulangan matematika dari 30 siswa tersebut! 4. Contoh : Tentukan median dari data Nilai 4 5 6 7 8 9 30

frekuansi 2 4 12 8 3 1

Jawaban : 1. Diketahui : data penerimaan pajak sampel 9 outlet pada sebuah areal perdagangan sbb (sudah diurutkan dari yang terkecil ke terbesar) : Data 10 , 11 , 13 , 15 , 16 , 16 , 17, 18 , 22 Urutan 1 , 2 , 3 , 4 , 5 , 6 , 7, 8 , 9

Q1 Rata rata : = 15,3333

Q2

Q3

Median = urutan ke

= urutan ke- 5

Maka, median dari data di atas adalah data pada urutan ke-5 yaitu 16 Q1= = 12 Q2= 16 Q3= = 17,5

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data

| 63

Modus adalah angka yang memiliki frekuensi kemunculan paling banyak, yaitu 16, maka modus = 16

Standar Deviasi =

= 3,4641

penerimaan_pajak Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 5,00 1,00 1 . 013 1 . 56678 2. 2

Stem width: 10 Each leaf: 1 case(s)

2.Diketahui : Raw data yg berjumlah 20 sbb (sudah diurutkan dari yang terkecil ke terbesar) : Data 10, 11, 14, 32, 36, 41, 57, 58, 62, 62, 63, 74, 75, 75, 87, 91, 94, 95, 95, 99 Urutan 1, 2 , 3 , 4 , 5 , 6 , 7, 8 , 9 , 10, 11 , 12 ,13 , 14, 15, 16, 17, 18, 19, 20

Q1

Q2

Q3

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

64 | E k s p l o r a s i D a t a

Rata rata : = 61,55 Median = urutan ke = = antara urutan ke- 10 dan 11 = 62,5 Q3= = 89

Maka, median dari data di atas adalah = Q1= = 38,5 Q2= 62,5

Modus adalah angka yang memiliki frekuensi kemunculan paling banyak, yaitu 62,75, dan 95 , maka modus = 62, 75, dan 95

Standar Deviasi =
data Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 2,00 3,00 6,00 6,00 0. 0. 0. 0. 0. 111 33 455 666777 899999

= 29,18449

Stem width: 100 Each leaf: 1 case(s)

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik

Eksplorasi Data

| 65

3. Jawab : Xi fi Xi.fi

4 2 8
X

5 4 20
Xi .fi fi

6 12 72 =
189 30

7 8 56
6,30

8 3 24

9 1 9 30 189

4. Jawab : Letak Me =

n 1 2

30 1 2
X 15 2 X 16

31 15 2

1 2

X15

X16 6 6 6 = 2

Me =
12 2 6

jadi nilai Mediannya adalah 6

Modul Diklat Fungsional Statistisi Tingkat Ahli Badan Pusat Statistik