Anda di halaman 1dari 26

BAB 19 HATI-HATI DENGAN STATISTIK

19.1

Pendahuluan Bab-bab terdahulu telah membahas tentang berbagai teknik atau metoda statistik yang

dapat digunakan dalam membantu proses pembuatan kebijakan dan pengambilan keputusan, terutama melalui berbagai proses penelitian, seperti survei sampel (sample survey) atau percobaan baik di laboratorium (laboratory research) maupun di lapangan (field

research/experiment). Terlihat bahwa statistik, baik dalam pengertian sebagai angka ringkasan yang menggambarkan sebuah fenomena, maupun sebagai ilmu pengetahuan sebagai alat untuk penelitian dan pembuatan kebijakan dan pengambilan keputusan amatlah bermanfaat.

Akan tetapi, perlu diingat bahwa sebuah pisau yang merupakan alat, bisa membawa manfaat, seperti untuk mengupas kulit sebuah mangga sehingga mangga tersebut bisa dinikmati dagingnya, dan pisau juga bisa mendatangkan mudarat, seperti digunakan untuk mencelakakan orang lain. Manfaat yang bisa diperoleh dari pisau tersebut tergantung kepada siapa yang menggunakan dan terutama kepada bagaimana pisau itu digunakan.

Demikian pula halnya, statistik, kebermanfaatan statistik sangat tergantung kepada bagaimana statistik tersebut digunakan. Kalau digunakan secara salah maka tentunya bukan manfaat yang diperoleh, akan tetapi mudarat yang akan datang. Dalam kaitan ini, perlu diingat apa yang diucapkan Disraeli, seorang ahli filsafat, bahwa statistik adalah salah satu bentuk kebohongan yang ada di dunia ini.1 Mungkin dapat dibantah bahwah pernyataan Disraeli ini terlalu berlebihan, tetapi esensinya adalah perlu berhati-hati dalam menggunakan statistik karena bisa saja jadi menyesatkan (sebenarnya ini terjadi bukanlah karena statistik itu sendiri, akan tetapi karena manusia yang menggunakan statistik tersebut yang bisa, secara sengaja maupun tidak sengaja, menyesatkan). Dengan kata lain, baik penghasil statistik (producers), maupun
1

Dia menyatakan there are three lies in this world; lies, damned lies, and statistics.

pengguna (users), harus berhati-hati dalam menghasilkan (bagi penghasil) dan memanfaat (bagi pengguna) statistik.

Melandasi argument di atas, dirasa perlu pada Bab terakhir ini untuk membahas beberapa peringatan (cautions) untuk dipahami sehingga dapat dikurangi kemungkinan adanya statistik yang menyesatkan, atau pengguna yang tersesat dalam menggunakan statistik yang tersedia. Terutama bagi pengguna, mereka harus bisa memahami bagaimana membaca statistik yang disediakan oleh penghasil statistik secara bijaksana atau memahami hasil prosedur estimasi dan pengujian hipotesis yang diberikan oleh seorang peneliti yang menggunakan statistik. Bagi kedua mereka, baik penghasil dan pengguna statistik, perlu juga membaca sebuah buku klasik yang ditulis oleh Huff yang berjudul How to Lie with Statistics. Bab ini sebagian besar diambil dari 2 (dua) tulisan yaitu Asra, A. 2012. Peran Statistik dalam Merumuskan Kebijakan Pemerintah untuk Mewujudkan Lampung sebagai Sentra Produksi dan Pengolahan Hasil Pertanian Nasional. Makalah disajikan dalam Seminar Statistik diselenggarakan oleh BPS Provinsi Lampung, Amalia Hotel , Lampung, 25 September 2012 dan A. Asra. 2012. Cautions in Using Statistics in Research. Bahan Kuliah Kapita Selekta, Program S3, Universitas Hasanuddin, Kampus Jakarta. Beberapa peringatan (cautions)

19.2

1. Tentang grafik2 Penghasil statistik biasa menyajikan statistik yang tersedia dalam bentuk gambar, yang salah satunya adalah dalam bentuk grafik. Memang benar bahwa kadang-kadang penyajian statistik dalam bentuk gambar bisa lebih memberikan gambaran yang menyeluruh dan bisa dapat dipahami apa yang terjadi pada fenomena yang sedang dipelajari. Bahkan ada satu ungkapan, berkaitan dengan gambar, yang sering dikutip dalam berbagai tulisan, yaitu a picture is worth a
2

Contoh ini diambil dari Asra, A. (2012). Peran Statistik dalam Merumuskan Kebijakan Pemerintah untuk Mewujudkan Lampung sebagai Sentra Produksi dan Pengolahan Hasil Pertanian Nasional. Makalah disajikan dalam Seminar Statistik diselenggarakan oleh BPS Provinsi Lampung, Amalia Hotel , Lampung, 25 September 2012.

thousand words (sebuah gambar senilai seribu kata-kata). Dalam kehidupan sehari-hari, misalnya seorang ibu yang sedang menceritakan seorang anaknya kepada tetangganya dengan berbagai kata-kata akan segera diminta oleh tetangganya tersebut dengan ucapan Ibu, sudahlah, tolong saja kasih saya foto anak ibu itu, sehingga saya bisa secara cepat mendapat gambaran tentang anak ibu tersebut. Demikian pula statistik, angka-angka ringkasan mungkin tidak bisa secara cepat memberikan highlights kepada si pengguna, tetapi penyajian angka-angka statistik tersebut dalam bentuk gambar bisa saja membuat si pengguna bisa memahami fenomena yang akan digambarkan oleh statistik tersebut. Akan tetapi, penggunaan gambar, dalam hal ini grafil, perlu dilakukan secara berhati-hati, karena bisa saja grafik yang disajikan bisa memberikan impresi yang keliru.

Contoh 19.1 Untuk lebih jelasnya lihat grafik 1 dan 2 di bawah ini.

Grafik 1. Perkembangan produktivitas (kw/ha) di A, 1999-2011

Grafik 1 di atas memperlihatkan adanya kenaikan produktivitas yang kontinyu di wilayah A dari waktu ke waktu dalam periode 1999-2011. Terlihat bahwa kenaikan tersebut terjadi dengan kecepatan yang tampaknya biasa-biasa saja. Kalau pun dibuat suatu garis tren sebagai gambaran perubahan secara umum, maka garis tersebut akan terlihat tidak terlalu tajam menaik (dan agak mendatar).
3

Akan tetapi, berdasarkan grafik 2 di bawah ini (denagn angka-angka yang sama unutk wilayah B), bisa diperoleh gambaran bahwa telah terjadi kenaikan produktivitas yang lebih mengesankan (impressive) di wilayah B, dibandingkan perubahan di wilayah A yang tergambarkan di grafik 1. Seakan-akan, tren (kecenderungan) perkembangan produktivitas dari waktu ke waktu di wilayah B ini akan lebih tajam menaik ke atas, memberikan gambaran yang jauh berbeda dengan impresi dari tren di wilayah A. Seakan-akan, wilayah B lebih berhasil/sukses dalam menaikkan produktivitas. Nyatanya, keadaan di kedua wilayah tersebut
persis sama.

Grafik 2. Perkembangan produktivitas (kw/ha) di B, 1999-2011 Singkatnya, dalam contoh ini, hanya dengan merubah cara penyajian, yaitu mengganti besaran skala horizontal (sumbu datar)3 dalam grafik, bisa memberikan kesan yang berbeda. Berhatihatilah!

2. Tentang Rata-Rata Hitung (dalam kehidupan sehari-hari dikenal sebagai rata-rata)

Besaran skala vertikal (sumbu tegak) pun bisa dirubah-rubah sehingga bentuk perubahan dari waktu ke waktu seakan-akan terlihat berbeda.

Angka ringkasan, yang salah satunya adalah rata-rata hitung, sangat bermanfaat dalam penyajian statistik. Akan tetapi dalam menghasilkannya perlu berhati-hati, demikian juga dalam menggunakannya. Untuk lebih jelasnya dibahas di bawah ini.

2.1.

Bagi penghasil statistik

Dalam menyajikan angka ini, penghasil statistik haruslah ingat bahwa angka ini besarannya dipengaruhi oleh adanya satu atau lebih nilai ekstrim (extreme values), yaitu nilai yang amat jauh berbeda dari nilai yang umumnya terjadi/terdapat.

Contoh 19.2 Misalnya, ada suatu kelompok rumahtangga (katakan ada 7 rumahtangga) dengan banyaknya anggota rumahtangga sebagai berikut: 3, 4, 4, 3, 4, 4, 19 (memang rumahtangga ini merupakan pasangan yang subur, dengan banyaknya anak mencapai 19 orang, karena ada anak dari isteri pertama yang telah meninggal dunia juga tinggal bersama dalam runahtangga ini).

Dalam contoh ini maka rata-rata banyaknya anggota rumahtangga di kelompok ini adalah sebesar (41/7) yang mendekati 6. Sehingga laporan yang ada menyatakan bahwa rata-rata anggota rumahtangga di kelompok tersebut adalah 6 orang, padahal secara umum banyaknya anggota rumahtangga kelompok tersebut adalah sekitar 3 dan 4 orang. Rata-rata sebesar 6 orang tersebut, yang kurang menggambarkan fenomena banyaknya anggota rumahtangga terjad karena adanya satu nilai ekstrim dalam satu rumahtangga saja. Dalam kasus seperti ini, dimana terdapat adanya nilai ekstrim (baik terlau besar atau terlalu kecil dari yang umumnya), maka ukuran ratarata yang lebih baik digunakan adala Median, bukan rata-rata hitung.

2.2

Bagi pengguna statistik

Pengguna seharusnya menyadari bahwa mengguna nilai rata-rata harus berhati-hati karena nilai ini hanya menggambarkan gambaran umumnya, tetapi data yang ada mempunyai variasi atau keragaman. Rata-rata tidak merefleksikan variasi, bahkan dengan kata lain, rata-rata menyembunyikan variasi. Adanya variasi perlu dipahami oleh pengguna sehingga tidak bisa

dengan mudah terkecoh dengan angka rata-rata. Untuk lebih jelasnya lihat contoh klaisk di bawah ini.

Contoh 19.3 Rata-rata dalam suatu sungai 1,3 meter. Dalam contoh klasik ini, dikisahkan seorang komandan latihan taruna yang baru diterima mendapat laporan dari salah seorang ketua regu bahwa dalamnya sungai yang akan diseberangi adalah rata-rata 1,3 meter (berdasarkan jawaban dari salah seorang guru SMP yang dia tanyai sesudah mendapat perintah si komandan untuk mencari tahu dalamnya sungai tersebut). Mendapat laporan ini, dengan penuh semangat si komandan memerintahkan semua taruna (yang dia ketahui tak ada seorang pun yang tingginya kurang dari 1,5 meter) untuk segera menyeberangi sungai yang arusnya cukup deras tersebut dan ternyata sebagian dari taruna yang tidak begitu bisa berenang tenggelam dan akhirnya hanyut. Si komandan kemudian memarahi ketua regu dengan menanyakan mengapa ada taruna yang tenggelam pada hal laporannya ratarata dalam sungai hanya 1,3 meter?

Dalam contoh ini, terlihat jelas bahwa baik si komandan, apa lagi si ketua regu, kurang memahami bahwa rata-rata 1,3 meter, bukanlah berarti bahwa dalamnya sungai tersebut dari pinggir ke pinggir yang lain adalah 1,3 meter, tetapi ada yang 1 meter, yang 1,2 meter, bahkan ada yang 1,7 meter dan 2,1 meter. Setelah mendapat penjelasan tersebut maka mengertilah si komandan mengapa ada beberapa taruna yang tenggelam. Dengan kata lain, selain rata-rata, perlu diketahui pula ukuran variasi atau keragaman dari sekelompok data yang dipunyai, sehingga pengambilan keputusan tidak tersesat secara tidak perlu (unnecessarily misled). Dalam contoh kasus di atas, kalaulah si ketua regu dan si komandan mengetahui adanya dan manfaat ukuran keragaman, misal mengetahui bahwa dalamnya sungai bervariasi dengan minimum 1 meter dan maksimum 2,1 meter, maka mungkin akan berbeda tindakan yang diambil dan tidak akan banyak taruna yang mengalami kecelakaan.

3. Pembandingan dengan angka nominal

Dalam membandingkan kondisi suatu fenomena di 2 (dua) tempat yang berbeda atau antar waktu juga perlu berhati-hati, misalnya dengan pembandingan nilai nominal. Pembandingan 2 (dua) angka nominal di dua tempat bisa jadi kurang, atau bahkan tidak, tepat.

Contoh 19.4 Banyaknya

rumahtangga

miskin

di

kabupaten

adalah

2,000

rumahtangga sedangkan di kabupaten B adalah 4,000 rumahtangga. Apakah karena data ini, berarti kondisi di kabupaten A lebih baik dibandingkan kondisi di kabupaten B? Tentunya, belum tentu. Dalam hal banyaknya seluruh rumahtangga di kabupaten A sama dengan di kabupaten B, maka pembandingan di atas adalah sah.

Akan tetapi, bagaimana kalau ada 20.000 rumahtangga di kabupaten A sedangkan di kabupaten ada 100.000 rumahtangga? Ini berarti pembandingan dengan nilai nominal di atas kurang tepat, karena walaupun di B terdapat 4.000 rumahtangga miskin dan di A ada 2.000, tetapi di B yang 4.000 rumahtangga miskin tersebut dari 100.rumahtangga, sedangkan yang hanya 2.000 rumahtangga miskin di A, tetapi ini dari hanya 20.000 rumahtangga. Ini berarti insiden kemiskinan (poverty incidence) di A adalah 10% (yaitu 2.000/20.000 x 100%), sedangkan insiden kemiskinan di B adalah hanya 4% (yaitu 4,000/100,000 x 100%). Dengan demikian, pembandingan yang tepat adalah nilai relatif, yaitu 10% (di A) dibandingkan 4% (di B), yang artinya kondisi di B lebih baik.

4. Perubahan mutlak dan perubahan relatif (absolute and relative changes) Dalam melakukan pembandingan antara waktu maka perlu dibedakan antara perubahan mutlak (absolute change) dengan perubahan relatif (relative change). Kalau terjadi perubahan nilai suatu variable selama t1-t2, yaitu dari a ke b, maka perubahan mutlak adalah selisih dari kedua nilai tersebut, yaitu (b-a), sedangkan perubahan relatif adalah [(b-a)/a]x100%.

Kenapa perlu dipahami perbedaan di atas?

Minimal ada 2 (dua) hal yang memerlukan perhatian akan adanya perbedaan antara perubahan mutlak dan perubahan relatif di atas. Pertama, perubahan mutlak antara 2 nilai bisa
7

terlihat besar akan tetapi perubahan relatifnya bisa saja kecil. Ambil contoh, perubahan mutlak dari 10 ke 12 adalah 2, dan ini lebih kecil daripada perubahan mutlak dari 40 ke 44 yang sebesar 4. Akan tetapi, perubahan relatif dari fenomena pertama adalah [(12-10)/10] x 100% = 20%, dan ini lebih besar dari pada perubahan relatif dalam fenomena kedua yang adalah hanya [(4440)/40] x 100% = 10%. Dengan kata lain, ketika seseorang melakukan pembandingan perubahan di dua lokasi misalnya, maka mesti jelas yang dibandingkan adalah perubahan mutlak atau perubahan relatif, karena kesimpulan bisa berbeda.

Hal kedua yang menyebabkan perlu jelasnya pernyataan perubahan mutlak dan perubahan relatif adalah bilamana seseorang berbicara tentang perubahan dari nilai yang sudah dalam bentuk persentase, misal persentase orang dewasa yang buta huruf, persentase kemiskinan, dan persentase anak usia di bawah lima tahun.

Contoh 19.5

Pada t1 (misal 1995) persentase penduduk miskin adalah 20% dan pada t2

(misal pada 2013) persentase penduduk miskin adalah 10%. Dengan demikian dalam masa t1-t2, maka persentase penduduk miskin mengalami penurunan mutlak sebesar 20%-10%=10%, dan perubahan relatif sebesar [(20%-10%)/10%] = 50%. Nah, ada penulis yang menyatakan sebagai berikut: persentase penduduk miskin di Indonesia dalam kurun waktu mengalami penurunan sebesar 10% atau 50%.

Pernyataan di atas membingungkan pembaca: penurunan 10% atau 50%? Mana yang benar? Masalah ini timbul karena belum adanya pembakuan (yang biasa digunakan) untuk membedakan perubahan mutlak dan perubahan relatif dari suatu variabel yang telah berbentuk persentase. Dalam Bahasa Inggris, contoh kasus di atas sudah biasa dituliskan sebagai berikut: 10% or 10 percentage points. Dengan demikina, paralel dengan ini, maka dalam kasus perubahan mutlak dan relatif dari nilai persentase, penulisan dapat dilakukan, dalam contoh kasus di atas, sebagai 10 butir persentase atau 50 persen. Yang pertama (yaitu 10 butir persentase) menggambarkan perubahan mutlak dari nilai persentase (dari 20% turun menjadi 10%), sedangkan yang kedua (yaitu 50 persen) adalah perubahan relatif dari kedua nila persentase tersebut. Sekali lagi bila tidak dituliskan sebagai butir persentase, maka pernyataan
8

bahwa penurunan persentase penduduk miskin di Indonesia selama kurun waktu t1-t2 adalah 10% atau 50% akan membingungkan!

5. Inflasi menurun dan harga menaik terjadi secara bersamaan? Salah satu kebingungan yang terjadi dalam kehidupan sehari-hari adalah akibat kurangnya pemahaman si pengguna statistik akan apa yang dimaksudkan dengan statistik itu sendiri. Salah satu statistik yang bisa dan sering membingungkan masyarakat (awam) adalah angka inflasi yang biasa didefinisikan sebagai tingkat kenaikan harga rata-rata sekelompok komoditas. Tentunya, bisa juga inflasi dihitung berdasarkan satu komoditas saja. Perlu diingat akan kata tingkat kenaikan harga, bukan kenaikan harga.

Yang bisa membingungkan mayarakat adalah adanya pernyataan pemerintah misalnya bahwa inflasi mengalami penurunan dalam suatu kurun waktu, dan pada waktu yang bersamaan masyarakat melihat dan mengalami kenaikan harga. Bagi masyarakat (awam) kedua hal ini terjadi bersaam merupakan suatu keadaan yang tidak masuk akal, padahal memang mereka bisa terjadi secara bersamaan.

Contoh 19.6 Informasi dari survey harga mencatat harga komoditas P dalam kurun waktu Januari-Juli dalam tahun 2011 di kabupaten Q. Dari data yang ada, masyarakat melihat harga menaik terus dalam periode Januari-April tersebut, yaitu dari sebesar 10 ribu pada bulan Januari menjadi 12 ribu pada bulan Februari dan 15 ribu pada bulan Maret, serta 17 ribu pada bulan April, serta seterusnya (lihat tabel 1 kolom 2 di bawah ini).

Perlu diingat bahwa inflasi mengukur tingkat perubahan (dalam hal ini kenaikan) harga dalam bentuk kenaikan relatif. Pada bagian di atas telah dibahas bahwa kenaikan relatif berbeda dengan kenaikan absolut. Misal, perubahan dari 2 ke 3, menunjukkan peruban absolut atau mutlak sebesar 1, yaitu (3-2), sedangkan perubahan relatifnya adalah 50 persen, yaitu (3-2)/2 dikali 100 persen.

Kemudian, berdasarkan informasi harga di tabel 1, penghasil data melakukan penghitungan tingkat kenaikan harga (atau biasa dikenal dengan istilah inflasi) per bulan sebagai berikut: (i) tingkat kenaikan harga (atau biasa dikenal dengan sebutan inflasi) pada periode Januari-Februari adalah sebesar 20 persen, yaitu (12-10)/10 dikali 100 persen, dan dengan cara yang sama (ii) pada periode Februari-Maret, inflasi adalah sebesar 25 persen, serta (ii) pada periode Maret-April, inflasi adalah sebesar 13%, dan seterusnya (lihat kolom 4).

Tabel 1. Harga komoditas P (dalam ribu rupiah) di kabupaten Q, Januari-Juli 2011

Bulan (1) Januari Februari Maret April Mei Juni Juli

Harga (000 rph) (2) 10 12 15 17 19 21 23

Perubahan Absolut (3) --2 3 2 2 2 2

Perubahan Relatif (%) = Inflasi (4) 20.0 25.0 13.3 11.8 10.5 9.5

Dengan demikian, penghasil informasi statistik juga benar dalam menyatakan bahwa tingkat kenaikan (relatif) harga (yaitu inflasi) per bulan menaik dari 20 persen pada periode Januari-Februari ke 25 persen dalam periode Februari-Maret, lalu menurun menjadi 13% dalam periode Maret-April. Sedangkan masyarakat melihat adanya kenaikan harga secara konsisten (kontinyu) pada periode Januari-April, dan mereka susah memahami penurunan inflasi yang diumumkan. Yang terjadi adalah ibarat suatu fenomena yang dilihat dengan dua kaca mata yang berbeda. Contoh lebih lengkap akan kasus di atas bisa dilihat secara lebih jelas pada grafik 1 di bawah ini, yang menyajikan perkembangan harga dan inflasi secara bersamaan dalam periode
10

Januari-Juli berdasarkan data yang sama. Grafik ini memperlihatkan gambaran bahwa memang dalam periode pengamatan tersebut harga selalu mengalami kenaikan. Terlihat jelas bahwa harga menaik dari 10 ribu pada bulan Januari ke 12 ribu pada bulan Februari dan ke 15 ribu pada bulan Maret dan selanjutnya terus menaik menjadi 23 ribu pada bulan Juli.

Grafik 1. Perkembangan Harga dan Inflasi, Januari-Juli

Akan tetapi, berdasarkan data yang sama (dalam periode yang sama), Grafik 1 menunjukkan bahwa memang pada awalnya angka inflasi menaik, tetapi kemudian inflasi menurun terus. Angka inflasi bulanan pada bulan Februari adalah sebesar 20 persen (kenaikan harga 20 persen dari harga bulan Januari) dan bulan Maret adalah sebesar 25 persen, sedangkan pada bulan April menjadi hanya 13 persen. Kemudian pada bulan berikutnya angka inflasi bulanan mengecil terus menjadi hanya sebesar 9,5 persen pada bukan Juli. Singkatnya, grafik 1 menggambarkan bahwa walaupun harga memang terus menaik dalam periode Januari-Juli, akan tetapi inflasi tidak demikian halnya: inflasi bisa mengalami penurunan pada saat yang sama harga mengalami kenaikan. Jadi menurunnya inflasi dalam periode Maret-Juli di atas harus dibaca sebagai berikut: harga komoditas menaik dengan tingkat kenaikan harga relatif (inflasi) yang melambat atau menurun.
11

Dengan demikian, ketidaksesuaian pandangan masyarakat dengan pengumuman inflasi oleh pemerintah secara umum terjadi karena kerancuan pandangan tentang kenaikan atau penurunan harga-harga dengan kenaikan atau penurunan inflasi. Kenaikan (angka) inflasi berarti kenaikan harga yang semakin cepat, sedangkan penurunan (angka) inflasi berarti kenaikan harga yang semakin melambat, dan ini berbeda dengan konsep perubahan harga dalam periode waktu yang sama. Dengan kata lain, dalam kasus ini inflasi berhubungan dengan konsep tingkat perubahan (kenaikan) (relatif) dari harga sedangkan yang dipahami oleh masyarakat adalah konsep perubahan dari harga. Contoh ini memberikan sinyal (signal) perlunya komunikasi yang lebih intensif antara penghasil dan pengguna data dalam membaca statistik yang telah dihasilkan. Selain itu, masih ada 2 (dua) alasan lain mengapa, berkaitan dengan inflasi, apa yang dipahami oleh masyarakat (awam) bisa berbeda dengan apa yang dimaksud dengan angka yang disajikan penghasil data (untuk ini lihat tulisan Asra, A. 2012. Peran Statistik dalam Merumuskan Kebijakan Pemerintah untuk Mewujudkan Lampung sebagai Sentra Produksi dan Pengolahan Hasil Pertanian Nasional. Makalah disajikan dalam Seminar Statistik diselenggarakan oleh BPS Provinsi Lampung, Hotel Amalia, Lampung, 25 September 2012). 6. Korelasi, bukan sebab akibat? Ukuran statistik yang semakin sering digunakan adalah koefisien korelasi antara 2 (dua) variabel (misalnya, koefisien korekasi Pearson untuk data berskala minimal interval, dan koefisien korelasi Spearman untuk data berskala ordinal). Sayangnya, pada banyak kasus adanya nilai korelasi yang tinggi diartikan sebagai adanya hubungan sebab akibat antara kedua variabel tersebut. Adanya hubungan sebab akibat harus berdasarkan teori yang ada, minimal harus berdasarkan logika. Idealnya, kedua variabel yang dikorelasikan haruslah variabel yang secara teori atau logika berhubungan sebab akibat, sehingga interpretasi dari nilai korelasi bisa tepat. Penggunaan ukuran korelasi untuk 2 (dua) variabel yang sebenarnya tidak ada kaitan sama sekali akan terlhat lucu/konyol (absurd) dan bisa menyesatkan (misleading).

Contoh 19.7 Kalau kita catat dari waktu ke waktu misalnya 2 (dua) variabel, banyaknya burung di provinsi Papua Barat dan tingkat kejahatan (crime rate) di DKI Jakarta. Kemudian kita buat scatter plot dengan sumbu X adalah banyaknya burung jenis Q di Papua Barat dan sumbu Y adalah tingkat kejahatan di DKI Jakarta maka akan terlihat seakan-akan adanya hubungan negatif
12

antara banyaknya burung jenis Q di Papua Barat yang semakin menurun dari waktu ke waktu dengan tingkat kejahatan di Jakarta yang semakin meningkat dari waktu ke waktu. Bahkan, misalnya, kalau kita hitung koefisien korelasi Pearson bisa saja akan diperoleh sebesar -0,95 (yang secara statistik menunjukkan derajat keterkaitan linear dan berlawaan arah yang amat kuat). Pertanyaannya adalah apakah ini besarnya nilai koefisien korelasi yang negatif ini bisa digunakan sebagai dasar untuk menyatakan bahwa penurunan banyaknya burung jenis Q di Papua Barat mengakibatkan kenaikan tingkat kejahatan di DKI Jakarta? Apakah ini juga berarti untuk menurunkan tingkat kejahatan di DKI Jakarta maka banyaknya burung jenis Q di Papua Barat harus ditingkatkan? Tentunya penarikan kesimpulan secara gegabah ini amat berbahaya.

Selain itu, perlu dicatat bahwa ukuran korelasi yang biasa digunakan ini dengan asumsi bahwa hubungan yang ada berbentuk linear (garis lurus). Bisa saja nilai koefiesien korelasi (Pearson atau Spearman) antara 2 (dua) variabel adalah kecil atau mendekati nol, tetapi sebenarnya mereka berkorelasi dalam bentuk yang bukan linear.

7. Kebermaknaan statistik dan kebermaknaan secara praktis (statistical and practical significance) [Bagian ini diambil hampir seluruhnya (dengan sedikit perbaikan) dari Asra, 1984, halaman 94-96]. Sangat perlu dipahami bahwa kebermaknaan secara statistik berbeda dengan kebermaknaan secara praktis atau kebermakanaan dalam suatu bidang pengetahuan tertentu. Suatu hasil yang bermakna secara statistik bisa bermakna juga bermakna secara praktis, tetapi tidak selalu demikian. Misal, suatu pengujian statistik menunjukkan bahwa beda rata-rata sampel produksi padi per hektar antara kelompok sawah yang diberi pupuk A (baru) dengan yang diberi pupuk B (lama) berbeda secara bermakna (menunjukkan hasil pengujian statistik yang signifikan), dengan implikasi (menurut si statistisi yang melakukan analisis data) pupuk A lebih dianjurkan untuk dipergunakan. Akan tetapi dapat saja (bahkan beralasan) bila ahli pertanian yang merupakan anggota tim penelitian menganggap bahwa perbedaan tersebut (katakan, selisih mutlak/absolute mereka adalah 0,005kw/ha) berdasarkan pertimbangan praktis (seperti harga
13

pupuk A, prosedur pemakaian pupuk A dan sebagainya) serta pengetahuan pertanian merupakan perbedaan yang tidak bermakna.

Perlu diingat kembali bahwa kebermaknaan secara statistik (statistical significance) dalam suatu pengujian hipotesa statistik berkaitan tidak saja dengan besaran perbedaan antara nilai pengamatan dengan hipotesis nol, misalnya, tetapi juga dengan banyaknya unit pengamatan dalam sampel (ukuran sampel). Suatu perbedaan yang kecil dapat saya secara statistik dinyatakan perbedaan yang bermakna bila sampel yang digunakan berukuran besar (n besar), sebaliknya perbedaan yang besar antara nilai pengamatan (rata-rata sampel, misalnya) dengan nilao hipotesa nol (rata-rata populasi, misalnya) saja berdasarkan statistik dinyatakan tidak berbeda secara bermakna karena ukuran sampel yang digunakan dalam penelitian tidak besar.

Contoh 19.8 Seorang peneliti memberikan latihan tertentu kepada 81 orang anak mulai umut 3 bulan dengan harapan dapat mempersingkat waktu yang dibutuhkan sampai anak tersebut dapat berdiri dan berjalan tanpa bantuan orang lain. Berdasarkan pengalaman masa lalu, waktu yang dibutuhkan untuk seorang anak dapat berjalan dan berdiri sendiri adalah 12 bulan dengan deviasi standar (simpangan baku) 1,5 bulan. Dari sampel tersebut di atas diperoleh rata-rata waktu, = 11,6 bulan, maka dengan pengujian sebagai berikut : H0: = 12 bulan dan H1: < 12 bulan, dan Z = ( - 0)//n) = [(11,6-12)/(1,5/81] = -2,4, dan nilai ini lebih kecil dari -1,64 (merupakan nilai tabel normal baku untuk pengujian dua arah dan = 5%). Dengan demikian, secara statistik perbedaan tersebut (0,4) berbeda secara bermakna, sehingga H0 ditolak, yang berarti memang secara statistik latihan yang dilakukan tersebut memang dapat mempersingkat waktu yang dibutuhkan oleh seorang anak dapat berdiri dan berjalan sendiri.
Comment [B1]: Masukkan tanda rata-rata sampel

Akan tetapi perbedaan tersebut (0,4 bulan atau kurang lebih 1 minggu), bisa saja secara praktis atau berdasarkan ilmu kesehatan merupakan perbedaan yang tidak atau kurang bermakna. Kalaulah ukuran sampel tidak 81 akan tetapi 25, dan semuanya tetap sama, maka Z pengamatan akan menjadi -1,33 yang lebih besar dari nilai Z tabel untuk pengujian ini (-1,64), sehingga H0 tidak ditolak, yang berarti perbedaan tersebut tidak bermakna secara statistik. Ini
14

memperlihatkan bagaimana ukuran sampel dapat mempengaruhi hasil suatu pengujian statistik. Karena itu lah perlu keberhati-hatian dalam mengeinterpretasikan suatu hasil pengujian statistik. Sebagaimana dikatakan oleh Daniel (1990, hal. 12) statistical tests of hypotheses do not necessarily determine what is of practical significance. Only the person knowledageable in the area of investigation is qualified to decide that.

8. Kebermaknaan perbedaan dalam sampel tidaklah berarti adanya perbedaan dalam populasi (Diambil dari Daniel, 1990 ) Terkait dengan hal tersebut di atas (butir 7), dalam pengujian hipotesa secara statistik, kebermaknaan (significance) dari suatu perbedaan yang dihasilkan dalam nilai-nilai sampel (statistik) adalah berkaitan dengan kebermaknaan nilai statistik tersebut, bukan kebermaknaan perbedaan nilai-nilai parameter (populasi). Yang berbeda signifikan adalah nilai-nilai sampel, sedangkan perbedaan nilai-nilai parameter populasi tidak diketahui (karena memang nilai-nilai populasi tidak diketahui, dan kalau diketahui maka sesungguhnya tidak perlu ada pengujian statistik berdasarkan sampel!). Dengan kata lain, kita boleh menyakan bahwa ada perbedaan yang bermakna antara nilai rata-rata sampel, yang berarti adalah bahwa perbedaan yang diamati antara nilai ratasampel mempunyai nilai P (peluang) (P value) yang sangat kecil sehingga kita menolak hipotesis bahwa tidak ada perbedaan antara rata-rata populasi. Akan tetapi, kita tidak bisa menyatakan bahwa rata-rata populasi berbeda secara bermakna, karena pernyataan ini salah.

9. Teori dan Indikator Pengujian secara statistik sering digunakan untuk pengujian suatu teori, yang biasanya memberikan gambaran keterkaitan antar berbagai konsep (concept atau construct). Contoh yang sederhana adalah adanya sebuah teori yang menjelaskan bahwa secara umum status sosialekonomi rumahtangga di dalam masyarakat menentukan kebahagiaan yang mereka rasakan. Status sosial-ekonomi rumahtangga dan kebahagiaan adalah dua konsep yang masih bersifat abstrak dan masing-masing mempunyai berbagai dimensi (atau ada yang menyamakan dengan variabel) yang biasanya masih belum terukur. Misal dimensi dari status sosial-ekonomi
15

rumahtangga ada 2 (dua) yaitu status sosial dan status ekonomi rumahtangga di dalam masyarakat dan salah satu dimensi dari kebahagian adalah kesejahteraan.

Karena dimensi (atau variabel) masih belum terukur (measurable), maka perlu dibuatkan indikator yang merupakan refleksi atau pencerminan dari dimensi atau variabel tersebut. Proses ini biasa disebut juga sebagai usaha mengoperasionalisasi variabel. Sebuah dimensi atau variabel juga bisa mempunyai berbagai indikator, misal variabel status sosial rumahtangga dapat direfleksikan oleh tingkat pendidikan kepala rumahtangga (tamat perguruan tinggi atau tidak, misalnya) atau oleh jalur keturunan kepala rumahtangga (berdarah biru atau tidak, misalnya). Salah satu indikator dari kesejahteraan rumahtangga, yang biasa digunakan, adalah pengeluaran rumahtangga per kapita untuk makanan.

Dengan demikian, maka untuk menguji hipotesa bahwa status sosial ekonomi menentukan kebahagiaan, maka dalam prakteknya dapa dilakukan penilaian sejauhmana tingkat pendidikan kepala rumahtangga (indikator dari status sosial rumahtangga yang merupakan salah satu variabel dari status sosial-ekonomi rumahtangga) berhubungan positif pengeluaran rumahtangga per kapita untuk makanan (salah satu indikator kesejahteraan yang merupakan salah satu variabel dari kebahagiaan).

Kalau ternyata data yang menunjukkan bahwa tidak terdapat hubungan antara pendidikan kepala rumahtangga dengan pengeluaran per kapita rumahtangga untuk makanan, hipotesa bahwa ada kaitan antara status sosial rumahtangga dengan kebahagiaan ditolak. Akan tetapi, yang perlu dicatat, bahwa walaupun hipotesa tersebut ditolak, bukanlah berarti teori tersebut terbukti salah. Dengan kata lain, penolakan atau penerimaan hipotesa adanya keterkaitan antara indikator, tidak selalu berarti penolakan atau penerimaan teori yang melandasi hipotesa tersebut.

Mengapa demikian? Ada sekurang-kurangnya 2 (dua) alasan yang mendasari pernyataan di atas. Pertama, kalaulah penolakan atau penerimaan hipotesa nul yang dibuat untuk menguji hipotesa yang diturunkan dari teori yang ada tersebut merupakan pengujian kebermaknaan secara statistik, maka seperti yang dibahas dalam butir 7 di atas, kebermaknaan secara statistik tersebut
16

tidaklah selalu berarti kebermaknaan secara praktis atau secara teori sosial (dalam hal ini). Bahkan kebermaknaan secara statistik tersebut bisa saja terjadi karena pengaruh ukuran sampel yang besar. Dengan kata lain bisa saja korelasi atau asosiasi yang teramati antara pendidikan kepala rumahtangga dengan pengeluaran per kapita rumahtangga untuk makanan adalah kecil, tetapi bisa saja dinyatakan signifikan karena ukuran sampel yang besar (lihat prosedur pengujian signifikansi untuk korelasi pada Bab Analisa Regresi dan Korelasi). Alasan kedua mengapa penolakan atau penerimaan hipotesa tidak adanya kaitan antara pendidikan kepala rumahtangga dengan pengeluaran per kapita rumah tangga untuk makanan berdasarkan suatu pengujian hipotesa secara statistik tidaklah berarti penolakan atau penerimaan terhadap teori yang mendasari adalah karena pengujian statistik tersebut dilakukan berdasarkan salah satu indikator yang mencerminkan beberapa dimensi atau variabel dari konsep yang digunakan dalam teori. Sehingga, bisa saja pengujian berdasarkan indikator yang lain atau dengan dimensi atau variabel yang lain untuk konsep tersebut memberikan hasil yang berbeda. Bahkan, indikator atau dimensi yang digunakan dalam pengujian hipotesa tersebut bisa saja tidak secara sempurna mampu merefleksi konsep yang ada dalam teori. Inilah yang menyebabkan penolakan atau penerimaan suatu hipotesa, berdasarkan indikator atau dimensi/variabel yang digunakan, tidak selalu dapat diartikan penolakan atau penerimaan teori yang mendasari.

10. Elastisitas dan Korelasi Kesalahan yang sering terjadi dalam penelitian adalah menyamakan elastisitas (elasticity) dengan koefisien korelasi (correlation coefficient). Elastisitas atau kelenturan dari Y terhadap X, misal elastisitas permintaan terhadap harga (price elasticity of demand), adalah persentase perubahan Y bila X berubah 1 persen (misal persentase perubahan permintaan terhadap suatu jenis barang jika harganya berubah 1 persen).

Sedangkan, koefisien determinasi yang merupakan kuadrat dari koefiesien korelasi yang dinyatakan dalam persen (r2 x 100%) adalah persentase keragaman/perubahan-perubahan Y yang dapat dijelaskan oleh keragaman/perubahan-perubahan X (misal persentase keragaman permintaan terhadap suatu barang yang dapat dijelaskan oleh keragaman harga barang tersebut).
17

Memang sekilas terlihat sama antara elastisitas Y terhadap X dengan koefisien determinasi yang juga mengaitkan keragaman Y terhadap keragaman X. Akan tetapi, mereka sangat berbeda dan dalam penghitungan serta rumus mereka juga berbeda (lihat bab Ukuran Statistik Lainnya dan bab Analisa Regresi dan Korelasi di buku ini).

11. Elastisitas dan Koefisien Regresi Salah satu cara memperoleh perkiraan elastisitas Y terhadap X adalah dengan memperkirakan persamaan regresi antara Y dengan X, tetapi kedua variabel tersebut harus digunakan dalam bentuk logaritma natural atau ln (logaritma dengan basis e, bilangan Naperian, bukan berdasarkan basis 10 seperti logaritma biasa). Dengan kata lain yang diperkirakan adalah persamaan lnY = A + B lnX (bentuk liniear dalam log atau persamaan double-log). Dengan persamaan seperti ini dapat dibuktikan secara matematik bahwa perkiraan dari B yaitu b yang merupakan koefisien regresi tersebut adalah sama dengan elastisitas Y terhadap X.

Akan tetapi bila regresi yang diperkirakan adalah Y = B0 + B1X, maka perkiraan dari B1 yaitu b1 tidaklah sama dengan elastisitas. Dalam beberapa penelitian telah terjadi kesalahan, yaitu menganggap koefisien b1 sebagai elastisitas. Untuk memperkirakan elastisitas dari b1 ini diperlukan penghitungan lanjutan (lihat bab Ukuran Statistik d buku ini).

12. Membaca Koefisien Regresi dalam Analisa Regresi Berganda Dalam analisa regresi berganda (Y = B0 + B1X1 dan B2X2 + B3X3 + , misalnya) maka dalam membaca hasil perkiraan koefisien regresi X1, misal b1, disebutkan bahwa bilai X1 berubah sebesar 1 unit maka Y akan berubah b1 unit, bila variabel lain (dalam hal ini X2 dan X3) tetap (ceteris paribus). Demikian juga dalam membaca perkiraan koefisien X2 (yaitu b2) dan koefisien X3 (yaitu b3), selalu disebutkan bila variabel lain adalah tetap (holding other variables constant) atau ceteris paribus).

Akan tetapi, dalam dunia nyata, apalagi di bidang sosial dan ekonomi, hampir tidak mungkin kita bisa merubah salah satu variabel, dengan membuat sedemikian rupa sehingga variabel-variabel lain tetap. Biasanya semua variabel tersebut terjadi bersamaan, sehingga hanya
18

khayalan saja bahwa kita bisa melihat dampak perubahan salah satu X, dengan tanpa perubahan di variabel-variabel X yang lain. Dengan kata lain, besaran dampak X terhadapY, bila variabel lain tetap, yang diinterpretasikan berdasarkan koefisien regresi, hampir tidak pernah terjadi di dunia sesungguhnya, sehingga interpretasi koefisien regresi dari masing-masing variabel tersebut hanya berguna secara teori, tetapi sesungguhnya hal tersebut tidak atau hampir tidak pernah terjadi di dunia nyata.

13.

Ketidak bermaknaannya koefiesien regresi dan multikoliniaritas Dalam analisis regresi, biasa dilakukan pengujian statistik terhadap hipotesa nol (null

hypothesis) bahwa koefisien regresi pada populasi adalah sama dengan nol (H0: i = 0, untuk variabel independen/bebas ke i). Bila ternyata dalam pengujian statistik tidak terjadi penolakan terhadap hipotesa nol ini, maka peneliti cenderung menyatakan tidak adanya hubungan (tentunya secara statistik) antara variabel bebas ke i ini dengan dependent variabelnya, katakanY. Bahkan biasanya juga disimpulkan untuk tidak menggunakan variabel ini dalam regresi yang digunakan. Dengan kata lain, hanya variabel dengan koefisien regresi yang bermakna secara statistik yang tetap dipakai dalam regresi.

Kesimpulan di atas secara statistik mungkin merupakan standar dan dapat dimengerti, tetapi dalam melakukan tindakan ini perlu keberhati-hatian. Ada sekurang-kurangnya 2 hal yang melatarbelakangi perlunya sebuah variabel harus tetap ada/digunakan dalam regresi, walaupun berdasarkan pengujian hipotesa secara statistik, variable tersebut dianjurkan untuk tidak dipakai karena koefisien regresinya tidak signifikan secara statistik.

Pertama, ketidakbermaknaan koefisien regresi secara statistik dari variabel ke i tersebut bisa saja terjadi karena ukuran sampel yang digunakan dalam penelitian adalah kecil. Mungkin saja dengan ukuran sampel yang lebih besar, koefisien dari variabel tersebut akan menjadi signifikan dalam pengujian hipotesa secara statistiknya. Karena itu perlu tidaknya suatu variabel dalam regresi yang dibuat perlu juga memperhatikan faktor lain seperti yang dibahas di bawah ini.

19

Kedua, tidak signifikannya koefisien suatu variabel bebas ke i dalam pengujian hipotesa secara statistik bisa juga terjadi karena adanya yang disebut dengan multikolinearitas (multicollinearity), yaitu adanya korelasi antara variabel i tersebut dengan variabel independen lainnya. Dengan adanya multikolinearitas tersebut, maka sebagian dari efek dari variabel bebas ke i tersebut terhadap Y sudah terjelaskan/terambil oleh variabel lain yang berkorelasi dengan variabel ke i tersebut, sehingga efek variabel ke i tersebut menjadi tidak signifikan secara statistik. Contoh sederhana adalah bila kita ingin menjelaskan keragaman variabel terikat

(dependent variabel) Y, yaitu pengeluaran rumahtangga per bulan, dengan menggunakan 2 variabel bebas (X), yaitu banyaknya anggota rumahtangga (X1) dan pendapatan rumahtangga per bulan (X2). Dalam contoh ini, bisa saja koefisien regresi dari variabel banyaknya anggota rumahtangga (X1) tidak signifikan karena antara X1 dan X2 juga berkorelasi, padahal secara teori dan logika, variabel X1, yaitu banyaknya anggota rumahtangga ini sangat menentukan besarnya pengeluaran rumahtangga.

Dalam contoh kasus di atas, pertanyaan yang relevan adalah apakah variabel X1 ini harus tidak dipakai dalam model yang menjelaskan pengeluaran rumahtangga (Y)? Contoh lain, bila akan diperkirakan suatu persamaan regresi yang mengaitkan produksi padi per hektar (Y) dengan variabel luas lahan sawah yang ditanami (X1) dan variabel bebas lain. Bila ternyata koefisien regresi X1 tidak signifikan secara statistik, lalu apakah variabel luas lahan akan tidak dipakai dalam memperkirakan produksi padi dalam suatu lahan sawah? Kalau ini dilakukan, maka tentunya aneh ada suatu fungsi yang menjelaskan tingkat produksi padi (production function) yang didalamnya tidak memasukkan luas lahan sawah yang ditanami sebagai salah satu variabel penjelas dari besarnya produksi padi yang dihasilkan tersebut. Dengan kata lain, bisa saja secara statistik suatu variabel tidak perlu digunakan di dalam model regresi yang dibuat (karena hasil pengujian koefisien regresinya tidak signifikan secara statistik), tetapi secara teori atau akal sehat, variable tersebut masih tetap dipakai di dalam model tersebut karena memang variabel tersebut merupakan sebab dari variabel terkait (dependen).

Efek lain dari adanya multikolinearitas adalah, tidak hanya tidak signifikannya koefisien regresi suatu variabel bebas tertentu (yang berkaitan dengan besaran koefisien regresi), tetapi
20

bisa saja koefisien regresi tersebut mempunyai tanda (yang menunjukkan arah hubungan dengan variabel terikat, Y) yang tidak sesuai dengan teori atau logika (yang secara teori mestinya positif, menjadi negatif, atau sebaliknya). Dalam kondisi seperti ini, maka seorang peneliti harus berhatihati dalam melakukan interprestasi, bahkan walaupun koefisien regresi tersebut ternyata signifikan secara statistik (tetapi dengan tanda yang tidak logis). Secara statistik pun, bila ada multikolinearitas maka disarankan untuk mengatasi multikolinearitas tersebut sebelum menyajikan hasil akhir dari persamaan regresi yang akan dipergunakan.

Singkatnya, keberhati-hatian yang disarankan disini adalah bahwa didalam membuat serta membaca hasil suatu model regresi yang diturunkan secara statistik, diperlukan juga teori dan logika di luar pengetahuan statistik. Dengan kata lain, minimal diperlukan akal sehat (common sense). Jika akal sehat tidak dipunyai, maka seorang peneliti akan terjebak dalam permainan statistik. Inilah pesan moral yang ditekankan dalam bab ini.

14. Penggunaan koefisien Gini (Gini coefficient) Isu ketimpangan pendapatan merupakan salah satu isu penting dalam pembangunan, selain kemiskinan, pengangguran, dan pertumbuhan ekonomi. Bahkan dalam era pembangunan masa Orde Baru, pemerataan (equity) adalah salah satu dari Trilogi Pembangunan [dua yang lain adalah kestabilan politik (political stability) dan pertumbuhan ekonomi (economic growth)].

Salah satu ukuran ketimpangan dari suatu distribusi pendapatan (yang juga bisa dipakai untuk mengukur ketimpangan dari distribusi yang lain) yang popular digunakan adalah koefisien Gini (Gini coefficient) yang pertama kali diperkenalkan oleh pakar Itali yang bernama Alfredo Gini. Kenaikan nilai koefisein Gini dari distribusi pendapatan antar waktu dalam suatu kelompok masyarakat biasa diartikan sebagai menaiknya tingkat ketimpangan dari distribusi pendapatan tersebut.

Sayangnya, yang sering dilupakan oleh banyak peneliti adalah kenyataan bahwa koefisien Gini tersebut hanya bisa digunakan secara tidak meragukan untuk membandingkan tingkat ketimpangan dari 2 (dua) distribusi pendapatan jika kurva Lorentz dari kedua distribusi
21

pendapatan tersebut tidak berpotongan. Dengan kata lain, sebelum membandingkan nilai koefisien Gini dari 2 (dua) atau lebih distribusi pendapatan (bisa juga variabel lain, selain pendapatan), perlu dilihat terlebih dahulu bagaimana bentuk dan posisi kurva Lorentz dari distribusi pendapatan yang akan dibandingkan tersebut.

Contoh 19.9. Kurva Lorentz berpotongan

Contoh dibawah ini memberikan gambaran bahwa kalau kurva Lorentz dari kedua distribusi pendapatan adalah berpotongan maka pengambilan kesimpulan akan tingkat ketimpangan dari kedua distribusi pendapatan tersebut menjadi meragukan. Grafik 2 memberikan visualisasi dari kasus ini, di mana persentase pendapatan yang diperoleh oleh kelompok 40 persen terbawah pada tahun 2 lebih kecil dari persentase pendapatan yang diperoleh oleh kelompok 40 persen terendah pada tahun 1 (yang bisa mengindikasikan menaiknya ketimpangan distribusi pendapatan).

Grafik 2. Kurva Lorentz Tahun 1 dan 2 yang berpotongan

22

Akan tetapi, bila dihitung, maka nilai koefisien Gini pada tahun 2 adalah sebesar 0,294 lebih kecil dari nilai koefisien Gini pada tahun 1 yang sebesar 0,314. Dengan kata lain, ini bisa diinterpretasikan semakin menurunnya ketimpangan distribusi pendapatan, pada hal, seperti disebutkan di atas persentase pendapatan yang diterima oleh kelompok 40 persen terbawah (katakan ini merupakan kelompok miskin) telah mengalami penurunan yang menunjukkan kenaikan tingkat ketimpangan distribusi pendapatan. Dengan kata lain, berpotongannya kurva Lorentz dari kedua distribusi pendapatan telah menyebabkan pengambilan kesimpulan tentang tingkat ketimpangan distribusi pendapatan menjadi meragukan (ambivalent).

15. Pencilan (Outliers), dibuang? Keberhati-hatian yang amat penting untuk dilakukan adalah yang berkenaan dengan bagaimana memperlakukan apa yang disebut dengan pencilan (outliers). Pencilan adalah suatu pengamatan yang nilainya sangat jauh berbeda (sangat kecil atau sangat besar) dibandingkan nilai pengamatan lainnya.

Ada 2 (dua) kemungkinan tentang pencilan ini. Pertama, memang pencilan ini merupakan data yang salah, baik waktu pengumpulan maupun waktu pengolahan. Yang kedua, pencilan ini memang merupakan data yang sesungguhnya, dan data tersebut benar adanya, yang karena sesuatu hal maka nilainya jauh berbeda dari nilai-nilai yang lain. Tidak ada yang salah pada data tersebut, hanya pengamatan yang mempunyai nilai ini memang unik (unique).

Dalam penggambaran kelompok data yang ada atau bahkan juga dalam analisa regresi, maka biasanya pencilan tersebut, yang merupakan nilai ekstrim (extreme values) diabaikan, karena nilai ini akan menyebabkan diperolehnya gambaran yang menyesatkan. Ambil contoh sederhana, dalam menghitung rata-rata hitung, maka suatu nilai yang teramat besar akan menyebabkan rata-rata hitung menjadi besar juga, dan sebaliknya sutau nilai yang teramat kecil akan menyebabkan rata-rata hitung menjadi kecil juga, yang bisa jadi kurang menggambarkan keadaan kebanyakan nilai yang ada. Dalam hal ini, seperti pernah dibahas pada bab Ukuran Lokasi, median lebih disarankan sebagai angka ringkasan yang mewakili kelompok datanya.

23

Akan tetapi, pencilan, yang benar, walaupun dia tidak digunakan dalam, misalnya, penghitungan angka ringkasan atau analisis regresi, pencilan tersebut tidak boleh dibuang karena pencilan tersebut bermanfaat dalam analisis. Yang jelas, pencilan bisa memberikan gambaran tambahan tentang fenomena yang sedang dipelajari. Adanya pencilan yang benar tersebut bisa memberikan gambaran akan adanya suatu kemungkinan diperolehnya nilai tersebut dalam fenomena yang diteliti.

Satu hal yang merisaukan adalah bila pencilan, yang ternyata benar tersebut, dibuang, maka bisa terjadi gambaran tentang fenomena yang diteliti menjadi menyesatkan. Secara teori bila pencilan dibuang, maka yang dipunyai adalah tidak lagi distribusi asli (original distribution) dari data yang ada, tetapi distribusi terpotong (truncated distribution), yang tentunya saja angkaangka ringkasannya akan berbeda dengan yang dari distribusi asli. Salah satu cara mengatasi adanya pencilan (yang datanya meragukan) akan tetapi untuk tidak menghilangkan satu atau pengamatan tersebut, maka nilai pencilan tersebut bisa dianggap sama besar dengan nilai maksimum yang ada, jika nilai pencilan terlalu besar, atau sama besar dengan nilai minimum yang ada, jika nilai pencilan terlalu kecil. Dengan demikian distribusi data yang diperoleh dengan cara ini adalah distribusi tersensor (censored distribution), yang juga berbeda dengan distribusi yang asli.

Contoh 19.10 Tingkat kemiskinan rendah??

Contoh di bawah ini memberikan gambaran bahwa dengan membuang nilai pencilan (baik memang nilainya salah ataupun memang nilainya benar), maka tingkat kemiskinan bisa terlihat rendah, pada hal, angka kemiskinan adalah cukup tinggi.

Misal, katakan ada 11 rumahtangga dengan pendapatan per kapita per minggu (dalam ribu rupiah) sebagai berikut. 45; 40; 38; 34; 32; 30; 25; (Z= 24); 20; 20; 18; 2 (pencilan)

24

Pengamatan ke 11 bernilai 2, dan merupakan nilai yang mungkin tak masuk akal, sehingga merupakan pencilan (outlier). Bila garis kemiskinan (yaitu Z) untuk rumahtangga adalah 24 ribu rupiah per kapita per minggu, maka: Tingkat kemiskinan dengan pencilan adalah: (4/11) x 100% = 36%. Tingkat kemiskinan ini adalah yang sesungguhnya, kalau pencilan tersebut memang benar, atau pencilan itu salah tetapi nilai sesungguhnya masih di bawah Z (misal nilai sesungguhnya adalah 15). Akan tetapi, bila pencilan dibuang (dianggap data yang salah), maka, tingkat kemiskinan tanpa pencilan menjadi (3/10) x 100% = 30%.

Apa yang terjadi? Hanya dengan melakukan perapihan data, dengan pengertian membuang pencilan, maka tingkat kemiskinan menjadi 30%, padahal sesungguhnya tingkat kemiskinan adalah 36%, karena pencilan tersebut memang rumahtangga miskin, yang dalam contoh di atas, pendapatan per kapita per minggunya sesungguhnya 15 ribu (tetapi tercatat 2 ribu). Implikasi dari tingkat kemiskinan 30% akan berbeda dengan implikasi kalau tingkat kemiskinan 36%, apa lagi kalau dilakukan pembandingan antar waktu, karena tingkat kemiskinan bisa saja terlihat menurun akibat terjadinya perapihan data dengan membuang pencilan. Contoh 9.11. Tingkat ketimpangan atau keragaman pendapatan rendah? Demikian pula halnya dengan tingkat ketimpangan (yang sering diukur dengan koefisien Gini), bila telah dilakukan perapihan data (data cleaining atau data trimming), dengan membuang pencilan, maka bisa saja gambaran yang diperoleh adalah gambaran yang tidak menggambarkan keadaan yang sesungguhnya. Misal, kita mempunyai sekumpulan data sebagai berikut: 45; 40; 38; 36; 39; 42; 34; 36; 30; 29; 2 (pencilan). Bila yang bernilai 2 katakan salah dan nilai sesungguhnya adalah 20, maka mestinya data yang kita punyai adalah sebagai berikut: 45; 40; 38; 36; 39; 42; 34; 36; 30; 29; 15. Bila nilai pencilan tidak diabaikan, maka nilai-nilai tersebut berkisar antara 20 dan 45 (dengan Range=25) yang menunjukkan keragaman atau tingkat ketimpangan yang lebih tinggi dibandingkan kalau nilai pencilan diabaikan, yang mempunyai kisaran antara 29 dan 45 (dengan Range= 16).

25

Apa pesan yang akan disampaikan di sini? Terlihat bahwa dengan contoh kecil di atas bila dilakukan perapihan data atau bahkan data trimming, maka gambaran yang diperoleh akan berbeda dari keadaan yang sesungguhnya. Dengan kata lain, sebelum membaca nilai koefisien Gini yang biasa disajikan untuk menunjukkan tren tingkat ketimpangan pendapatan antar waktu atau perbandingan antar tempat, mesti ditanyakan terlebih dahulu, apakah penghitungannya berdasarkan data mentah (apa adanya) atau berdasarkan data yang telah dirapihkan (data trimming. Bila telah dilakukan data trimming dengan membuang data pencilan (yang memang benar bernilai sangat kecil atau sangat besar), maka nilai koefisien Gini akan pasti lebih kecil dibandingkan berdasarkan data aslinya.

Usaha perapihan data bisa membawa konsekwensi bahwa data yang awalnya amat beragam malah menjadi berkurang keragamannya, sehingga bisa saja menurunnya nilai koefisien Gini antar waktu tidaklah menunjukkanfenomena penurunan tingkat ketimpangan, tetapi hanya merefleksi data yang semakin dirapihkan! Disamping itu, perubahan besaran nilai koefisien Gini bisa saja terjadi karena perbedaab rumus penghitungan yang digunakan, dan atau bentuk data yang dipakai sebagai dasar penghitungan (data individual atau data yang sudah dikelompokkan dalam bentuk tabel frekwensi). Nilai koefisien Gini yang dihitung dari data individual, akan lebih besar, jika dibandingkan dengan nilai koefisien Gini yang dihitung berdasarkan data berkelompok untuk data yang sama.

Pesan yang disampaikan disini adalah berhati-hati dalam menghasilkan dan atau membaca statistik! (Ingat pernyataan Disraeli pada bab terdahulu). Berbuat salah adalah manusiawi, tetapi berbohong adalah jelas tidak dibenarkan!

26