3.3 Ukuran Bentuk Distribusi, Lokasi relatif, dan Mendeteksi Outliers Sebuah ukuran numerik terpenting dari bentuk distribusi disebut kemiringan (skewness) Dua Formula: Koefisien kemiringan dapat berkisar dari -3 hingga +3 Nilai mendekati -3, seperti -2,57, menunjukkan kemiringan negatif (kiri) yang cukup besar. Nilai 1,63 menunjukkan kemiringan positif (kanan) sedang. Nilai 0, yang akan terjadi ketika mean dan median sama, menunjukkan distribusi simetris dan tidak ada kemiringan yang ada. Gambar 3.3 adalah empat histogram dibangun dari distribusi frekuensi relatif Untuk distribusi simetris, rata-rata dan mediannya adalah sama. Ketika data yang miring positif, rata-rata biasanya akan lebih besar dari median Ketika data miring negatif, biasanya rata-rata akan kurang dari median Contoh: Berikut ini adalah laba per saham untuk sampel 15 perusahaan perangkat lunak untuk tahun 2010. Laba per saham disusun dari terkecil hingga terbesar.
Temukan koefisien kemiringan
menggunakan estimasi Pearson dan metode perangkat lunak. Apa kesimpulan Anda tentang bentuk Pearson:
Inimenunjukkan ada kecenderungan positif Software:
Ini menunjukkan positif
A. Tentukan koefisien kemiringan menggunakan metode Pearson. B. Tentukan koefisien kemiringan menggunakan metode perangkat lunak. z-Scores Skor ini terkait dengan lokasi relatif nilai-nilai dalam suatu kumpulan data. Ukuran-ukuran dari lokasi relatif membantu kita menentukan seberapa jauh nilai tertentu (observasi) dari rata-rata (mean). Dengan menggunakan mean dan standar deviasi, kita dapat menentukan lokasi relatif pengamatan apapun. Rumus z-Score Z-skor yang sering disebut nilai standar. z-skor, zi, dapat diartikan sebagai jumlah standar deviasi xi dari rata-ratanya. Misalnya, z1 = 1,2 akan menunjukkan bahwa x1 = 1,2 standar deviasi lebih besar dari rata-rata sampel. Demikian pula, z2 = - 0,5 akan menunjukkan x2 = 0,5 atau ½ standar deviasi kurang dari rata- rata sampel. z-skor lebih besar dari nol terjadi untuk pengamatan dengan nilai lebih besar dari rata- rata, z-skor kurang dari nol terjadi untuk nilai pengamatan kurang dari rata-rata . z-skor nol menunjukkan bahwa nilai pengamatan adalah sama dengan rata-rata. Z-skor untuk pengamatan apapun dapat diartikan sebagai ukuran lokasi relatif pengamatan dalam satu set data. Dengan demikian, pengamatan di dua set data yang berbeda dengan z-skor yang sama dapat dikatakan memiliki lokasi yang relatif sama dalam hal jumlah standar deviasi yang sama dari rata-rata Z-skor -1,50 (32 - 44/8) untuk pengamatan kelima Menunjukkan pengamatan yang terjauh dari rata-rata yaitu 1,50 standar deviasi di bawah rata-rata. Teorema Chebyshev memungkinkan kita untuk membuat pernyataan tentang proporsi nilai data yang harus berada dalam jumlah tertentu standar deviasi dari rata- rata/mean. Teorema Chebyshev berbunyi: Setidaknya (1-1/z2) dari nilai data harus berada dalam standar deviasi z dari rata-rata, di mana z adalah lebih besar dari 1. Dimana Z tidak mesti bilangan bulat Beberapa implikasi dari teorema ini, dengan z = 2, 3, dan 4 standar deviasi adalah sbb: • Setidaknya 0,75, atau 75%, dari nilai-nilai data harus berada dalam 2 standar deviasi dari rata-rata/mean. • Setidaknya 0,89, atau 89%, dari nilai-nilai data harus berada dalam 3 standar deviasi dari mean. • Setidaknya 0,94, atau 94%, dari nilai-nilai data harus berada dalam 4 standar deviasi dari mean. Contoh Misalkan nilai ujian tengah semester untuk 100 siswa di mk statistik bisnis perguruan tinggi memiliki rata-rata 70 dan standar deviasi 5. Berapa banyak siswa memiliki skor tes antara 60 dan 80? Berapa banyak siswa memiliki skor tes antara 58 dan 82? Untuk skor tes antara 60 dan 80 Perlu dicatat bahwa 60 adalah dua standar deviasi di bawah rata-rata Rata-rata = 70; SD = 5 60 = 70 – (2x5) 60 adalah dua standar deviasi di bawah rata-rata. Rata-rata = 70; SD = 5 80 = 70 + (2x5) 80 adalah dua standar deviasi di atas rata-rata. Menggunakan teorema Chebyshev: Setidaknya 0,75, atau 75%, dari nilai-nilai data harus berada dalam z = 2 standar deviasi dari mean. Dengan demikian, setidaknya 75% dari siswa harus telah memiliki nilai antara 60 dan 80. Untuk skor tes antara 58 dan 82 Rata-rata = 70; SD = 5 (58-70)/5 = -2,4 menunjukkan 58 adalah 2,4 standar deviasi di bawah rata-rata (82-70)/5 = +2,4 menunjukkan 82 adalah 2,4 standar deviasi di atas rata-rata Dengan menggunkan teorema Chebyshev:
Paling sedikit 82,6% dari siswa memiliki
nilai tes antara 58 dan 82. Aturan empiris Salah satu keuntungan dari teorema Chebyshev adalah bahwa hal itu berlaku untuk setiap kumpulan data terlepas dari bentuk distribusi datanya Dalam banyak aplikasi praktis, kumpulan data menunjukkan gundukan berbentuk simetris dan distribusi berbentuk lonceng seperti yang ditunjukkan pada Gambar 3.4 Ketika data diyakini mendekati distribusi ini, aturan empiris dapat digunakan untuk menentukan persentase nilai data yang harus berada dalam jumlah standar deviasi tertentu dari rata-rata/mean. ATURAN EMPIRIS Untuk data yang memiliki distribusi berbentuk lonceng: • Sekitar 68% dari nilai data akan berada dalam satu standar deviasi dari mean. • Sekitar 95% dari nilai data akan berada dalam dua standar deviasi dari mean. • Hampir semua nilai data akan berada dalam tiga standar deviasi dari mean Contoh: karton deterjen cair diisi secara otomatis pada lini produksi. Berat karton tsb memiliki distribusi berbentuk lonceng. Jika rata-rata berat setiap pengisian adalah 16 ons dan standar deviasi 0,25 ons, kita dapat menggunakan aturan empiris untuk menarik kesimpulan berikut: • Sekitar 68% dari karton diisi akan memiliki bobot antara 15,75 dan16,25 ons (dalam satu standar deviasi dari mean). • Sekitar 95% dari karton diisi akan memiliki bobot antara 15,50 dan 16,50 ons (dalam dua standar deviasi dari mean). • Hampir semua diisi karton akan memiliki bobot antara 15,25 dan 16,75 ons (dalam tiga standar deviasi dari mean). Mendeteksi Outliers Kadang-kadang satu set data memiliki satu atau lebih pengamatan dengan nilai-nilai yang luar biasa besar atau luar biasa kecil Outlier kemungkin nilai data yang salah dicatat. Jika demikian, bisa diperbaiki sebelum analisis lebih lanjut. Outlier mungkin juga dari pengamatan yang tidak benar termasuk dalam mengumpulkan data; jika demikian, dapat dihapus. Outlier dapat menjadi nilai data yang tidak biasa yang telah tercatat dengan benar dan termasuk dalam kumpulan data. Dalam kasus seperti itu harus tetap ada dan tidak boleh dihapus/dimodifikasi. Cara Mendeteksi Outliers 1. Menggunakan skor z (z-scores) 2. Menggunakan nilai kuartil pertama dan ketiga (Q1 dan Q3) dan rentang/jangkauan interkuartil (IQR) 1. Menggunakan skor z (z-scores) Nilai standar (z-skor) dapat digunakan untuk mengidentifikasi outlier Dengan z-skor, setiap nilai data kurang dari - 3 atau lebih besar dari 3 dapat dikategorikan sebagai outlier. Nilai data tersebut kemudian dapat ditinjau untuk akurasi dan untuk menentukan apakah mereka termasuk dalam kumpulan data. Z-skor-1,50 menunjukkan ukuran kelas kelima adalah terjauh dari rata-rata. Namun, nilai standar ini masih berada dalam antara – 3 dan +3 sebagai pedoman untuk menunjukkan adanya outlier. Dengan demikian, z-skor tidak menunjukkan bahwa outlier ada dalam data ukuran kelas. 2. Menggunakan nilai kuartil pertama dan ketiga (Q1 dan Q3) dan rentang/jangkauan interkuartil (IQR) Dengan menggunakan metode ini, pertama-tama kita menghitung batas bawah dan atas berikut: Batas bawah = Q1 – 1,5(1QR) Batas atas = Q3 + 1,5(IQR) Pengamatan diklasifikasikan sebagai pencilan jika nilainya kurang dari batas bawah atau lebih besar dari batas atas Contoh: Gaji awal bulanan dari 12 lulusan sekolah bisnis