Anda di halaman 1dari 9

EKSPLORASI, TAMPILAN DAN PEMERIKSAAN DATA Analisis data eksplorasi adalah perspektif analisis data dan sekumpulan teknik.

Didalam bab ini, kami akan menyajikan teknik-teknik yang unik dan konvesional termasuk peralatan grafis dan tabular untuk memvisualisasikan data. Peraga 17-1 mengingatkan anda akan pentingnya visualisasi data sebagai elemen integral didalam proses analisis data dan sebagai langkah yang perlu sebelum pengujian hipotesis. Dalam analisis data ekplorasi (e ploratory data analysis!"DA# periset mempunyai fleksibilitas untuk menanggapi pola-pola yang terungkap dalam anaalisis data a$al. %adi, pola-pola dalam data yang dikumpulkan akan menuntun analisis data atau mengusulkan akan revisi bagi ren&ana analisis data a$al. 'leksibilitas adalah atribut penting dari pendekatan buktikan sebab akibat, akan diperlukan analisis data konfirmasi. Analisis data konfirmasi adalah suatu proses analitis yang pengujian signifikansi dan keyakinan. (eorang ahli telah membandingkan analisis data eksplorasi antara peran detektif polisis dan investigator lain, dan analisis pengadilan. Analisis yang kedua mengevaluasi kekuatan bukti yang ditemukan. Analisis data eksplorasi, maka tidak ada apapun yang akan dievaluasi dalam analisis konfirmasi). *onsisten dengan analogi itu, "DA memiliki suatu kesamaan dengan desain eksplorasi, namun bukan dalam desain yang formal. +leh karena tidak mengikuti struktur yang kaku, "DA bebas mengambil banyak jalan dalam membongkar misteri dalam data menyaring yang tidak terduga dari yang diduga. *ontribusi utama dari pendekatan eksplorasi terletak pada penekanan atas reprensentasi visual dan teknik grafis atas statistik ringkasan. (tatistik ringkasan, seperti yang akan anda lihat, dapat mengaburkan, menutupi, atau bahkan salah menyajikan struktur data. *etika ringkasan numerik digunakan se&ara esklusiof dan diterima tanpa pemeriksaan visual, pemilihan model konfirmasi mungkin saja didasarkan pada asumsi yang &a&at. ,erdasarkan alasan-alasan ini, analisis data seharunya dimulai dengan pemeriksaan visual. (esudah itu, tidak hanya mungkin tetai juga diminta untuk membuat siklus antara pendekatan eksplorasi dan konfirmasi.

Tabel Frekuensi, bagan batang dan diagram kue ,eberapa teknik yang berguna untuk menampilkan data bukanlah hal baru bagi "DA. -eknik-teknik tersebut mutlak diperlukan bagi pemeriksaan data apapun. (ebagai &ontoh, tabel frekuensi adalah alat sederhana untuk menyusun data. (ebuah &ontoh disajikan dalam Peraga 17-.. -abel tersebut menyusun data menurut nilai numerik yang diberikan, dengan kolom untuk persen, persen yang valid (persen yang disuaikan untuk data hilang#, dan kumulatif. /ngat kembali pada iklan, suatu variabel nominal, menggambarkan iklan yang pernah dilihat atau didengar oleh partisipan tanpa didorong oleh riset atau instrumen pengukuran. 0alaupun ada 111 observasi hanya sejumlah ke&il dari penempatan media yang membuat variabel bersangkutan mudah dibuat dalam bentuk tabel. Data yang sama disajikan dalam peraga 17-12 menggunakan diagram kue dan bagan batang. 3ilai dan persentase lebih mudah dimengerti dalam format grafis ini, dan visualisasi penempatan media dan ukuran relatif mereka diperbaiki. *etika variabel yang diukur menggunakan skala interval-rasio dan merupakan variabel dengan berbagai nilai potensial, maka teknik-eknik ini tidak lagi informatif. Hist gram 4istogram adalah solusi konvesional untuk menampilkan data interval rasio. 4istogram digunakan ketika variabel-variabel dapat dikelompokkan menjadi interval-interval. 4istogram disusun dengan batang (atau asterisk# yang menggambarka nilai data, di mana tiap nilai menempati suatu jumlah area yang sama dalam area yang tertutup. Analisis data merasakan manfaat histogram untuk (1# menampilkan semua interval dalam suatu distribusi, bahkan interal tanpa nilai yang diobservasi, dan (.# memeriksa bentuk distribusi untuk melihat pola ke&ondongan kurtosis, dan modus. *etika melihat sebuah histrogram, mungkin timbul pertanyaan. Apabila ada pun&ak tunggal (modus# apakah subkelompok dapat diidentifikasi ketika terdapat banyak modus. Apakah nilai data yang terurai dipisahkan dari konsentrasi terpusat.

4istogram tidak dapat digunakan untuk variabel nominal seperti ingatan akan iklan (peraga 17-2# yang tidak mempunyai urutan pada kategori-kategorinya. 4istrogram dari rata-rata pembelian tahunan diperlihatkan dalam peraga 175. -itik tengah setiap interval untuk variabel terkait, yaitu rata-rata pembelian tahunan, diperlihatkan pada poros hori6ontal, frekuensi atau jumlah obsrvasi didalam setiap interval, diperlihatkan pada poros vertikal. *ita membuat batang vertikal diatas titik tengah dari tiap interval pada skala hori6ontal. -inggi batang sesuai dengan frekuensi observasi dalam interval yang dibuat tersebut. 4isto-gram ini dibangun dengan kenaikan lebar interval sebesar .1, dan interval terakhir hanya berisi dua observasi, .17,8 dan .19,.. 3ilai-nilai ini diperoleh dari tabel frekuensi rata-rata pembelian tahunan Prime(ell (Peraga 17-:#. /nterval dengan hitungan 1 memperlihatkan kesenjangan dalaa data dan harus diperhatikan oleh analis, untuk men&ari masalah sebaran. *etika ujung atas distribusi dibandingkan dengan tabel frekuensi, kita menemukan tiga nilai ekstrim (192,.,.17,8 dan .19,.#. Dengan memun&aknya titik tengah disertai dengan menurunnya jumlah observasi pada ujung atas, menunjukkan terdapat ketidakberesan dalam data. Tam!ilan "atang#dan#Daun -unipilan batang-dan-daun adalah teknik yang terkait erat dengan histogram. -eknik ini memiliki sejumlah &iri histogram, tetapi memberikan memiliki keuntungan yang unik. -eknik ini mudah disusun dengan tangan untuk sampel ke&il atau dapat dihasilkan dengan program komputer. Dibandingkan dengan histogram, yang kehilangan informasi akibat pengelompokan nilai data menjadi interval, batang-dan-daun menyajikan nilai data aktual yang dapat diperiksa se&ara langsung, tanpa menggunakan batang atau asterisk sebagai media representasi. ;iri ini dapat mngungkap distribusi nilai-nilai di dalam interval dan mempertahankan urutan peringkat nilai-ulai untuk memperoleh median, kuartil, dan statistik ringkasan lain. -ampilan ini juga memudah-kan menghubungkan observasi spesifik dengan arsip data dan subjek yang menghasilkannya. <isualisasi adalah keuntungan kedua dari tampilan batang-dan-dauh. =entang nilai langsung terlihat jelas, begitu pula dengan bentuk serta kesan sebarannya. Pola di dalam data seperti &elah di mana tidak terdapat nilai, area di

mana nilai-nilai dikelompokkan, atau pen&ilan nilai yang berbeda dengan isi utama data-dapat dengan mudah dilihat. >ntuk membuat tampilan batang-dan-daun dengan data dalam Peraga 17-:, digit pertama dari setiap item data disusun di sebelah kiri garis vertikal. ,erikutnya, kita mele$ati persentase rata-rata pembelian tahunan dan menempatkan digit terakhir dari setiap item (posisi unit, 1?1# di sebelah kanan garis vertikal. Perhatikan bah$a digit di sebelah kanan titik desimal diabaikan. Digit terakhir untuk setiap item diletakkan pada baris hori6ontal, sesuai dengan digit pertamanya. /ni hanyalah masalah menyusun peringkat digit di dalam setiap baris, yang men&iptakan tampilan batang-dan-daun seperti diperlihatkan dalam Peraga 17-7. (etiap baris dalam tampilan tersebut disebut sebagai batang, dan setiap informasi pada batang disebut daun. Diagram Paret Diagram Pareto berasal dari nama seorang ekonom /talia abad ke-18. Dalam manajemen mutu %. @. %uran merupakan orang pertama yang menerapkan konsep ini dengan menekankan bah$a sedikit &a&at vital akan bertanggung ja$ab atas sebagian besar mutu yang dievaluasi, dan selebihnya dijelaskan oleh hal-hal yang sepele. (e&ara historis, ini dikenal sebagai aturan 91!.1-yaitu, 91 persen peningkatan mutu atau kinerja dharapkan dapat menghilangkan .1 persen penyebab tidak diterimanya kualitas atau kinerja. Diagram Paret adalah bagan batang yang jumlah persentasenya 111 persen. Datanya diperoleh dari skala pilihan ganda, tanggapan tunggalA skala pilihan ganda, tanggapan ganda-atau hitungan frekuensi kata (atau tema# dari analisis isi. %a$aban responden disortir menurut penurunan kepentingan, dengan ketinggian batang dalam urutan menurun dari kiri ke kanan. (usunan gambar yang dihasilkan mengungkapkan konsentrasi tertinggi dari potensi peningkatan dengan jumlah perbaikan yang paling sedikit. Analisis atas keluhan pelanggan @ind0riter digambarkan dalam diagram Pareto Peraga 17-7. ,aris frekuensi kumulatif dalam peraga ini rn&mperlihatkan bah$a dua masalah teratas (reparasi tidak meme&ahkan masalah pelanggan, dan produk dikembalikan untuk berkali-

kali direparasi# bertanggung ja$ab atas 91 persen dari persepsi atas pelayanan reparasi yang tidak memadai. " $!l t " $!l t, atau box-and / vhisker plot, adalah teknik lain yang sering digunakan dalam analisis data eksplorasi. ,o plot mengurangi rin&ian tampilan batang-dan-daun dan memberikan &itra visual yang berbeda mengenai lokasi, sebaran, bentuk, panjang ekor, dan pen&ilan (outlier) oistribusi. ,o plot adalah perluasan dari ringkasan lima-angka dari suatu distribusi. =ingkasan ini terdiri atas median, kuartil atas dan ba$ah, serta observasi terbesar dan terke&il. @edian dan kuartil digunakan karena keduanya sangat statistik resistan. Resistansi adalah karakteristik yang tidak peka terhadap perilaku salah yang terlokalisasi di dalam data. (tatistik resistan tidak dipengaruhi oleh pen&ilan dan sedikit perubahan tanggapan karena penggantian porsi yang ke&il dari kumpulan data. akibat kesalahan entri harus dikoreksi atau dihapus selama penyuntingan. ,o plot merupakan alat diagnostik yang bagus, khususnya ketika digambar dengan skala yang sama. Dua plot di bagian atas peraga tersebut sama-sama simetris, tetapi yang satu lebih besar daripada yang lainnya. ,oks yang lebih lebar biasanya digunakan ketika variabel kedua, dari skala ukuran yang sama, berasal dari ukuran sampel yang lebih besar. Bebar boks seharusnya proporsional dengan akar kuadrat dari ukuran sampel, tetapi tidak semua program plotting memperhitungkan hal ini. Distribusi yang &ondong ke kanan dan ke kiri serta distribusi dengan sebaran yang /srkurang juga digambarkan dengan jelas dalam perbandingan plot. Akhirnya, kelompok-kelompok juga dapat dibandingkan melalui plot-plot. (uatu simpul pada median yang menandai interval keyakinan untuk menguji kesamaan median-median kelompok merupakan salah satu variasi bo plot, yang akan memba$a kita selangkah lebih dekat pada pengujian hipotesis. Di sini, sisi-sisi kotak kembali ke lebar penuh pada interval keyakinan atas dan ba$ah. *etika interval-interval tersebut tidak tumpang tindih, kita dapat meyakini pada tingkat keper&ayaan tertentu, oah$a median dari kedua populasi berbeda. Pemetaan

-erjadi peningkatan data partisipan yang dilekatkan pada dimensi geografis mereka karena perangkat lunak Ceographi& /nformation (ystem (C/(# dan alatalat pengukur koordinat telah lebih terjangkau dan lebih mudah digunakan. Pada dasarnya, C/( bekerja dengan menghubungkan kumpulan-kumpulan data dengan paling sedikit satu bidang data yang sama (misalnya, alamat rumah tangga#. C/( memungkinkan periset menghubungkan target dan variabel klasifikasi dari suatu survei dengan geografis tertentu berdasar basis data seperti data >.(. ;ensus, untuk mengembangkan pemahaman yang lebih baik mengenai sikap dan perilaku sampel. *etika data identifikasi frekuensi radio (radio freDuen&y identifi&ation!='/D# menjadi lebih la6im, banyak data perilaku akan dapat dihubungkan dengan basis data geografis yang baru dan kaya ini. Data seperti ini paling la6im ditampilkan dengan sebuah peta. 0arna dan pola yang menggam-barkan pengetahuan, sikap, perilaku, atau susunan data demografis ditumpang tindihkan di atas peta jalan (C/( tingkat terbaik#, peta kelompok-blok, atau peta $ilayah, negara bagian, atau pedesaan. ;ara ini membantu mengidentifikasi lokasi terbaik untuk toko berdasarkan data segmentasi demografis, psikografis, dan tahap-kehidupan. Penjual bunga menyusun informasi atas tanggapan promosi se&ara geografis dan menggunakan peta tersebut untuk meren&anakan promosi yang ditargetkan. Periset konsumen dan bisnis-dengan-bisnis menggunakan pemetaan data mengenai kepemilikan, tingkat penggunaan, dan kepekaan harga dalam membuat plot paparan produk baru. 4al ini merupakan pilihan yang menarik bagi analisis eksplorasi, namun membutuhkan perangkat lunak dan perangkat keras tertentu, serta keahlian untuk mengoperasi-kannya.

Tabulasi#Silang -ergantung pada pertanyaan manajemen, kita dapat memperoleh $a$asan yang lebih baik dengan menggunakan data tabulasi-silang. Tabulasi#silang adalah teknik untuk membandingkan data dari dua atau lebih variabel kategori seperti jenis dan seleksi untuk penugasan ke luar negeri. -abulasi silang digunakan dengan variabel demografis dan variabel target dari stdui bersangkutan

(operasionalisasi pertanyaan pengukuran#. -eknik-teknik tersebut menggunakan tabel-tabel yang mempunyai haris dan kolom yang sesuai dengan tingkat atau nilai sandi dari kategori masing-masing variabel. -abulasi silang adalah langkah pertama untuk mengidentifikasi hubungan antara variabel-variabel. *etika tabel disusun untuk pengujian statistik, kita menyebutnya tabel kemungkinan, dan pengujian tersebut menentukan apakah variabel-variabel klasifikasi tidak bergantung satu dengan yang lainnya. Penggunaan Persentase Persentase mempunyai dua tujuan dalam penyajian data. Pertama, persentase menyederhanakan data dengan mengurangi semua angka ke dalam rentang dari 1 sampai 111. *edua, persentase menerjemahkan data ke dalam bentuk standar, dengan basis 111, untuk perbandingan relatif. Dalam pengambilan sampel, jumlah kasus yang masuk kedalam suatu kategori tdak mempunyai makna ke&uali jika dihubungkan dengan suatu basis. 4itungan terdapat .9 orang mempunyai penugasan ke luar negeri akan sedikit makna jika kita tidak mengetahui bah$a data tersebut diambil dari 111 sampel. Dengan memakai angka 111 sebagai basis, kita menyimpulkan bah$a .9 persen dari sampel studi ini mempunyai penugasan luar negeri. Persentase-persentase yang digunakan tampaknya hanya masalah urusan dengan angka-angka saja-akan tetapi penggunaannya sering kali tidak benar. Pedoman berikut akan membantu men&egah kesalahan dalam pelaporan apabila digunakan selama analisis? Merata-ratakan persentase. Persentase tidak dapat dirata-rata, ke&uali masing-masing diberi bobot berdasarkan besar kelompok dari mana persentase itu berasal. %adi, rata-rata sederhana tidak akan memadaiA sangatperlu untuk menggunakan rata-rata tertimbang. Menggunakan persentase yang terlalu besar. /ni sering kali mengalahkan tujuan dari persentase-yaitu untuk menyederhanakan. Persentase yang besar sulit dimengerti dan membingungkan. *enaikan sebesar 1.111 persen, lebih baik dinyatakan sebagai kenaikan l+kalilipat.

Memakai basis yang terlalu kecil. Persentase menyembunyikan basis dari mana persentase itu dihitung. Angka 71 persen ketika dibandingkan dengan 21 persen akan mengesankan perbedaan yang besar. 3amun, apabila hanya terdapat tiga kasus dalam satu kategori dan enam dalam kategori lainnya, maka perbedaannya tidak akan signifikan dibandingkan jika dibuat dalam bentuk persentase.

Penurunan persentase tidak pernah melampaui !! persen. /ni jelas, tetapi jenis kesalahan ini sering terjadi. Angka yang lebih tinggi selalu digunakan sebagai basis atau denominator. (ebagai &ontoh, apabila suatu harga diturunkan dari E1 menjadi E1,.5, penurunan tersebut adalah 75 persen (75!111#.

Analisis Lain "erbasis label Pengakuan atas makna hubungan antara variabel-variabel menand.akan adanya kebutuhan untuk melakukan penyelidikan lebih lanjut. ,ahkan apabila ditemukan suatu hubungan yang signifikan se&ara statistik, pertanyaan-pertanyaan seperti mengapa dan di ba$ah kondisi apa, akan tetap ada. Pengenalan %ariabel k ntr l untuk menafsirkan hubungan seringkali diperlukan. -abel-tabel tabulasi silang berfungsi sebagai kerangka. Paket-paket statistik seperti @initab, (A(, dan (P(( mempunyai banyak pilihan untuk penyusunan tabel n-arah dengan ketentuan bagi banyak variabel kontrol. Andaikan saja Andatertarik unluk membuat tabulasi silang dua variabel dengan satu kontrol. ,erapa pun nilai variabel primer, variabel kontrol dengan lima nilai menentukan jumlah tabel. >ntuk beberapa aplikasi, adalah tepat untuk memiliki lima tabel yang terpisahA tetapi untuk aplikasi lainnya, mungkin lebih disukai tabel-tabel yang berdampingan atau satu tabel untuk semua nilai variabel. Baporan manajemen lebih sering menggunakan variasi yang disebutkan terakhir. <ariasi yang lebih maju pada tabel n-arah adalah deteksi interaksi t matis (automatic intruction detection/"#$). A/D adalah suatu proses statistik terkomputerisasi yang mensyaratkan persen mengenali suatu variabel terikat dan sekumpulan prediktor atau variabel bebas. *emudian komputer men&ari di antara hingga 211 variabel, satu pembagi menurut setiap variabel prediktor, memilih

satu, dan meme&ah sampel bersangkutan menggunakan pengujian statistik untuk memverifikasi ketepalan pilihan ini.