Anda di halaman 1dari 10

BAB 17 Eksplorasi, Tampilan, dan Pemeriksaan Data

Rumusan Masalah :
1. Apa itu Eksplorasi ?
2. Apa itu Tampilan ?
3. Apa itu Pemeriksaan Data ?
Tujuan Penelitian :
1. Untuk mengetahui apa itu Eksplorasi.
2. Untuk mengetahui apa itu Tampilan.
3. Untuk mengetahui apa itu Pemeriksaan Data.
EKSPLORASI, TAMPILAN DAN PEMERIKSAAN DATA

Analisis Data Eksplorasi


Analisis data eksplorasi adalah perspektif analisis data dan sekumpulan
teknik. Didalam bab ini, kami akan menyajikan teknik-teknik yang unik dan
konvesional termasuk peralatan grafis dan tabular untuk memvisualisasikan data.
Peraga 17-1 mengingatkan anda akan pentingnya visualisasi data sebagai elemen
integral didalam proses analisis data dan sebagai langkah yang perlu sebelum
pengujian hipotesis.
Dalam analisis data ekplorasi (exploratory data analysis/EDA) periset
mempunyai fleksibilitas untuk menanggapi pola-pola yang terungkap dalam
anaalisis data awal. Jadi, pola-pola dalam data yang dikumpulkan akan menuntun
analisis data atau mengusulkan akan revisi bagi rencana analisis data awal.
Fleksibilitas adalah atribut penting dari pendekatan buktikan sebab akibat, akan
diperlukan analisis data konfirmasi. Analisis data konfirmasi adalah suatu proses
analitis yang pengujian signifikansi dan keyakinan.
Seorang ahli telah membandingkan analisis data eksplorasi antara peran
detektif polisis dan investigator lain, dan analisis pengadilan. Analisis yang kedua
mengevaluasi kekuatan bukti yang ditemukan. Analisis data eksplorasi, maka
tidak ada apapun yang akan dievaluasi dalam analisis konfirmasi?. Konsisten
dengan analogi itu, EDA memiliki suatu kesamaan dengan desain eksplorasi,
namun bukan dalam desain yang formal. Oleh karena tidak mengikuti struktur
yang kaku, EDA bebas mengambil banyak jalan dalam membongkar misteri
dalam data menyaring yang tidak terduga dari yang diduga.
Kontribusi utama dari pendekatan eksplorasi terletak pada penekanan atas
reprensentasi visual dan teknik grafis atas statistik ringkasan. Statistik ringkasan,
seperti yang akan anda lihat, dapat mengaburkan, menutupi, atau bahkan salah
menyajikan struktur data. Ketika ringkasan numerik digunakan secara esklusiof
dan diterima tanpa pemeriksaan visual, pemilihan model konfirmasi mungkin saja
didasarkan pada asumsi yang cacat. Berdasarkan alasan-alasan ini, analisis data
seharunya dimulai dengan pemeriksaan visual. Sesudah itu, tidak hanya mungkin
tetai juga diminta untuk membuat siklus antara pendekatan eksplorasi dan
konfirmasi.

Tabel Frekuensi, bagan batang dan diagram kue


Beberapa teknik yang berguna untuk menampilkan data bukanlah hal baru bagi
EDA. Teknik-teknik tersebut mutlak diperlukan bagi pemeriksaan data apapun.
Sebagai contoh, tabel frekuensi adalah alat sederhana untuk menyusun data.
Sebuah contoh disajikan dalam Peraga 17-2. Tabel tersebut menyusun data
menurut nilai numerik yang diberikan, dengan kolom untuk persen, persen yang
valid (persen yang disuaikan untuk data hilang), dan kumulatif. Ingat kembali
pada iklan, suatu variabel nominal, menggambarkan iklan yang pernah dilihat atau
didengar oleh partisipan tanpa didorong oleh riset atau instrumen pengukuran.
Walaupun ada 100 observasi hanya sejumlah kecil dari penempatan media yang
membuat variabel bersangkutan mudah dibuat dalam bentuk tabel. Data yang
sama disajikan dalam peraga 17-13 menggunakan diagram kue dan bagan batang.
Nilai dan persentase lebih mudah dimengerti dalam format grafis ini, dan
visualisasi penempatan media dan ukuran relatif mereka diperbaiki.
Ketika variabel yang diukur menggunakan skala interval-rasio dan merupakan
variabel dengan berbagai nilai potensial, maka teknik-eknik ini tidak lagi
informatif.

Histogram
Histogram adalah solusi konvesional untuk menampilkan data interval rasio.
Histogram digunakan ketika variabel-variabel dapat dikelompokkan menjadi
interval-interval. Histogram disusun dengan batang (atau asterisk) yang
menggambarka nilai data, di mana tiap nilai menempati suatu jumlah area yang
sama dalam area yang tertutup. Analisis data merasakan manfaat histogram untuk
(1) menampilkan semua interval dalam suatu distribusi, bahkan interal tanpa nilai
yang diobservasi, dan (2) memeriksa bentuk distribusi untuk melihat pola
kecondongan kurtosis, dan modus. Ketika melihat sebuah histrogram, mungkin
timbul pertanyaan. Apabila ada puncak tunggal (modus) apakah subkelompok
dapat diidentifikasi ketika terdapat banyak modus. Apakah nilai data yang terurai
dipisahkan dari konsentrasi terpusat.
Histogram tidak dapat digunakan untuk variabel nominal seperti ingatan
akan iklan (peraga 17-3) yang tidak mempunyai urutan pada kategori-kategorinya.
Histrogram dari rata-rata pembelian tahunan diperlihatkan dalam peraga 17-
5. Titik tengah setiap interval untuk variabel terkait, yaitu rata-rata pembelian
tahunan, diperlihatkan pada poros horizontal, frekuensi atau jumlah obsrvasi
didalam setiap interval, diperlihatkan pada poros vertikal. Kita membuat batang
vertikal diatas titik tengah dari tiap interval pada skala horizontal. Tinggi batang
sesuai dengan frekuensi observasi dalam interval yang dibuat tersebut. Histo-gram
ini dibangun dengan kenaikan lebar interval sebesar 20, dan interval terakhir
hanya berisi dua observasi, 206,9 dan 218,2. Nilai-nilai ini diperoleh dari tabel
frekuensi rata-rata pembelian tahunan PrimeSell (Peraga 17-4). Interval dengan
hitungan 0 memperlihatkan kesenjangan dalaa data dan harus diperhatikan oleh
analis, untuk mencari masalah sebaran. Ketika ujung atas distribusi dibandingkan
dengan tabel frekuensi, kita menemukan tiga nilai ekstrim (183,2,206,9 dan
218,2). Dengan memuncaknya titik tengah disertai dengan menurunnya jumlah
observasi pada ujung atas, menunjukkan terdapat ketidakberesan dalam data.

Tampilan Batang-dan-Daun
Tunipilan batang-dan-daun adalah teknik yang terkait erat dengan
histogram. Teknik ini memiliki sejumlah ciri histogram, tetapi memberikan
memiliki keuntungan yang unik. Teknik ini mudah disusun dengan tangan untuk
sampel kecil atau dapat dihasilkan dengan program komputer. Dibandingkan
dengan histogram, yang kehilangan informasi akibat pengelompokan nilai data
menjadi interval, batang-dan-daun menyajikan nilai data aktual yang dapat
diperiksa secara langsung, tanpa menggunakan batang atau asterisk sebagai media
representasi. Ciri ini dapat mngungkap distribusi nilai-nilai di dalam interval dan
mempertahankan urutan peringkat nilai-ulai untuk memperoleh median, kuartil,
dan statistik ringkasan lain. Tampilan ini juga memudah-kan menghubungkan
observasi spesifik dengan arsip data dan subjek yang menghasilkannya.
Visualisasi adalah keuntungan kedua dari tampilan batang-dan-dauh.
Rentang nilai langsung terlihat jelas, begitu pula dengan bentuk serta kesan
sebarannya. Pola di dalam data seperti celah di mana tidak terdapat nilai, area di
mana nilai-nilai dikelompokkan, atau pencilan nilai yang berbeda dengan isi
utama data-dapat dengan mudah dilihat.
Untuk membuat tampilan batang-dan-daun dengan data dalam Peraga 17-4,
digit pertama dari setiap item data disusun di sebelah kiri garis vertikal.
Berikutnya, kita melewati persentase rata-rata pembelian tahunan dan
menempatkan digit terakhir dari setiap item (posisi unit, 1:0) di sebelah kanan
garis vertikal. Perhatikan bahwa digit di sebelah kanan titik desimal diabaikan.
Digit terakhir untuk setiap item diletakkan pada baris horizontal, sesuai dengan
digit pertamanya. Ini hanyalah masalah menyusun peringkat digit di dalam setiap
baris, yang menciptakan tampilan batang-dan-daun seperti diperlihatkan dalam
Peraga 17-6.
Setiap baris dalam tampilan tersebut disebut sebagai batang, dan setiap
informasi pada batang disebut daun.

Diagram Pareto
Diagram Pareto berasal dari nama seorang ekonom Italia abad ke-19. Dalam
manajemen mutu J. M. Juran merupakan orang pertama yang menerapkan konsep
ini dengan menekankan bahwa sedikit cacat vital akan bertanggung jawab atas
sebagian besar mutu yang dievaluasi, dan selebihnya dijelaskan oleh hal-hal yang
sepele. Secara historis, ini dikenal sebagai aturan 80/20-yaitu, 80 persen
peningkatan mutu atau kinerja dharapkan dapat menghilangkan 20 persen
penyebab tidak diterimanya kualitas atau kinerja.
Diagram Pareto adalah bagan batang yang jumlah persentasenya 100
persen. Datanya diperoleh dari skala pilihan ganda, tanggapan tunggal; skala
pilihan ganda, tanggapan ganda-atau hitungan frekuensi kata (atau tema) dari
analisis isi. Jawaban responden disortir menurut penurunan kepentingan, dengan
ketinggian batang dalam urutan menurun dari kiri ke kanan. Susunan gambar yang
dihasilkan mengungkapkan konsentrasi tertinggi dari potensi peningkatan dengan
jumlah perbaikan yang paling sedikit. Analisis atas keluhan pelanggan
MindWriter digambarkan dalam diagram Pareto Peraga 17-7. Baris frekuensi
kumulatif dalam peraga ini rncmperlihatkan bahwa dua masalah teratas (reparasi
tidak memecahkan masalah pelanggan, dan produk dikembalikan untuk berkali-
kali direparasi) bertanggung jawab atas 80 persen dari persepsi atas pelayanan
reparasi yang tidak memadai.

Boxplot
Boxplot, atau box-and / vhisker plot, adalah teknik lain yang sering
digunakan dalam analisis data eksplorasi. Boxplot mengurangi rincian tampilan
batang-dan-daun dan memberikan citra visual yang berbeda mengenai lokasi,
sebaran, bentuk, panjang ekor, dan pencilan (outlier) oistribusi. Boxplot adalah
perluasan dari ringkasan lima-angka dari suatu distribusi. Ringkasan ini terdiri
atas median, kuartil atas dan bawah, serta observasi terbesar dan terkecil. Median
dan kuartil digunakan karena keduanya sangat statistik resistan. Resistansi adalah
karakteristik yang tidak peka terhadap perilaku salah yang terlokalisasi di dalam
data. Statistik resistan tidak dipengaruhi oleh pencilan dan sedikit perubahan
tanggapan karena penggantian porsi yang kecil dari kumpulan data.
akibat kesalahan entri harus dikoreksi atau dihapus selama penyuntingan.
Boxplot merupakan alat diagnostik yang bagus, khususnya ketika digambar
dengan skala yang sama. Dua plot di bagian atas peraga tersebut sama-sama
simetris, tetapi yang satu lebih besar daripada yang lainnya. Boks yang lebih lebar
biasanya digunakan ketika variabel kedua, dari skala ukuran yang sama, berasal
dari ukuran sampel yang lebih besar. Lebar boks seharusnya proporsional dengan
akar kuadrat dari ukuran sampel, tetapi tidak semua program plotting
memperhitungkan hal ini. Distribusi yang condong ke kanan dan ke kiri serta
distribusi dengan sebaran yang Isrkurang juga digambarkan dengan jelas dalam
perbandingan plot. Akhirnya, kelompok-kelompok juga dapat dibandingkan
melalui plot-plot. Suatu simpul pada median yang menandai interval keyakinan
untuk menguji kesamaan median-median kelompok merupakan salah satu variasi
boxplot, yang akan membawa kita selangkah lebih dekat pada pengujian hipotesis.
Di sini, sisi-sisi kotak kembali ke lebar penuh pada interval keyakinan atas dan
bawah. Ketika interval-interval tersebut tidak tumpang tindih, kita dapat meyakini
pada tingkat kepercayaan tertentu, oahwa median dari kedua populasi berbeda.

Pemetaan
Terjadi peningkatan data partisipan yang dilekatkan pada dimensi geografis
mereka karena perangkat lunak Geographic Information System (GIS) dan alat-
alat pengukur koordinat telah lebih terjangkau dan lebih mudah digunakan. Pada
dasarnya, GIS bekerja dengan menghubungkan kumpulan-kumpulan data dengan
paling sedikit satu bidang data yang sama (misalnya, alamat rumah tangga). GIS
memungkinkan periset menghubungkan target dan variabel klasifikasi dari suatu
survei dengan geografis tertentu berdasar basis data seperti data U.S. Census,
untuk mengembangkan pemahaman yang lebih baik mengenai sikap dan perilaku
sampel. Ketika data identifikasi frekuensi radio (radio frequency
identification/RFID) menjadi lebih lazim, banyak data perilaku akan dapat
dihubungkan dengan basis data geografis yang baru dan kaya ini.
Data seperti ini paling lazim ditampilkan dengan sebuah peta. Warna dan
pola yang menggam-barkan pengetahuan, sikap, perilaku, atau susunan data
demografis ditumpang tindihkan di atas peta jalan (GIS tingkat terbaik), peta
kelompok-blok, atau peta wilayah, negara bagian, atau pedesaan. Cara ini
membantu mengidentifikasi lokasi terbaik untuk toko berdasarkan data
segmentasi demografis, psikografis, dan tahap-kehidupan. Penjual bunga
menyusun informasi atas tanggapan promosi secara geografis dan menggunakan
peta tersebut untuk merencanakan promosi yang ditargetkan. Periset konsumen
dan bisnis-dengan-bisnis menggunakan pemetaan data mengenai kepemilikan,
tingkat penggunaan, dan kepekaan harga dalam membuat plot paparan produk
baru. Hal ini merupakan pilihan yang menarik bagi analisis eksplorasi, namun
membutuhkan perangkat lunak dan perangkat keras tertentu, serta keahlian untuk
mengoperasi-kannya.

Tabulasi-Silang
Tergantung pada pertanyaan manajemen, kita dapat memperoleh wawasan
yang lebih baik dengan menggunakan data tabulasi-silang. Tabulasi-silang adalah
teknik untuk membandingkan data dari dua atau lebih variabel kategori seperti
jenis dan seleksi untuk penugasan ke luar negeri. Tabulasi silang digunakan
dengan variabel demografis dan variabel target dari stdui bersangkutan
(operasionalisasi pertanyaan pengukuran). Teknik-teknik tersebut menggunakan
tabel-tabel yang mempunyai haris dan kolom yang sesuai dengan tingkat atau nilai
sandi dari kategori masing-masing variabel.
Tabulasi silang adalah langkah pertama untuk mengidentifikasi hubungan
antara variabel-variabel. Ketika tabel disusun untuk pengujian statistik, kita
menyebutnya tabel kemungkinan, dan pengujian tersebut menentukan apakah
variabel-variabel klasifikasi tidak bergantung satu dengan yang lainnya.

Penggunaan Persentase
Persentase mempunyai dua tujuan dalam penyajian data. Pertama,
persentase menyederhanakan data dengan mengurangi semua angka ke dalam
rentang dari 0 sampai 100. Kedua, persentase menerjemahkan data ke dalam
bentuk standar, dengan basis 100, untuk perbandingan relatif.
Dalam pengambilan sampel, jumlah kasus yang masuk kedalam suatu
kategori tdak mempunyai makna kecuali jika dihubungkan dengan suatu basis.
Hitungan terdapat 28 orang mempunyai penugasan ke luar negeri akan sedikit
makna jika kita tidak mengetahui bahwa data tersebut diambil dari 100 sampel.
Dengan memakai angka 100 sebagai basis, kita menyimpulkan bahwa 28 persen
dari sampel studi ini mempunyai penugasan luar negeri.
Persentase-persentase yang digunakan tampaknya hanya masalah urusan
dengan angka-angka saja-akan tetapi penggunaannya sering kali tidak benar.
Pedoman berikut akan membantu mencegah kesalahan dalam pelaporan apabila
digunakan selama analisis:
Merata-ratakan persentase. Persentase tidak dapat dirata-rata, kecuali
masing-masing diberi bobot berdasarkan besar kelompok dari mana
persentase itu berasal. Jadi, rata-rata sederhana tidak akan memadai;
sangatperlu untuk menggunakan rata-rata tertimbang.
Menggunakan persentase yang terlalu besar. Ini sering kali mengalahkan
tujuan dari persentase-yaitu untuk menyederhanakan. Persentase yang besar
sulit dimengerti dan membingungkan. Kenaikan sebesar 1.000 persen, lebih
baik dinyatakan sebagai kenaikan lOkalilipat.
Memakai basis yang terlalu kecil. Persentase menyembunyikan basis dari
mana persentase itu dihitung. Angka 60 persen ketika dibandingkan dengan
30 persen akan mengesankan perbedaan yang besar. Namun, apabila hanya
terdapat tiga kasus dalam satu kategori dan enam dalam kategori lainnya,
maka perbedaannya tidak akan signifikan dibandingkan jika dibuat dalam
bentuk persentase.
Penurunan persentase tidak pernah melampaui 100 persen. Ini jelas, tetapi
jenis kesalahan ini sering terjadi. Angka yang lebih tinggi selalu digunakan
sebagai basis atau denominator. Sebagai contoh, apabila suatu harga
diturunkan dari $1 menjadi $0,25, penurunan tersebut adalah 75 persen
(75/100).

Analisis Lain Berbasis label


Pengakuan atas makna hubungan antara variabel-variabel menand.akan
adanya kebutuhan untuk melakukan penyelidikan lebih lanjut. Bahkan apabila
ditemukan suatu hubungan yang signifikan secara statistik, pertanyaan-pertanyaan
seperti mengapa dan di bawah kondisi apa, akan tetap ada. Pengenalan variabel
kontrol untuk menafsirkan hubungan seringkali diperlukan. Tabel-tabel tabulasi
silang berfungsi sebagai kerangka.
Paket-paket statistik seperti Minitab, SAS, dan SPSS mempunyai banyak
pilihan untuk penyusunan tabel n-arah dengan ketentuan bagi banyak variabel
kontrol. Andaikan saja Andatertarik unluk membuat tabulasi silang dua variabel
dengan satu kontrol. Berapa pun nilai variabel primer, variabel kontrol dengan
lima nilai menentukan jumlah tabel. Untuk beberapa aplikasi, adalah tepat untuk
memiliki lima tabel yang terpisah; tetapi untuk aplikasi lainnya, mungkin lebih
disukai tabel-tabel yang berdampingan atau satu tabel untuk semua nilai variabel.
Laporan manajemen lebih sering menggunakan variasi yang disebutkan terakhir.
Variasi yang lebih maju pada tabel n-arah adalah deteksi interaksi
otomatis (automatic intruction detection/AID). AID adalah suatu proses statistik
terkomputerisasi yang mensyaratkan persen mengenali suatu variabel terikat dan
sekumpulan prediktor atau variabel bebas. Kemudian komputer mencari di antara
hingga 300 variabel, satu pembagi menurut setiap variabel prediktor, memilih
satu, dan memecah sampel bersangkutan menggunakan pengujian statistik untuk
memverifikasi ketepalan pilihan ini.

Kesimpulan :
Analisis data eksplorasi (exploratory data analysis/EDA) memberikan
perspektif dan kuimpulan alat untuk mencari petunjuk dan pola didalam
data.
Penggunaan histogram lebih optimal apabila digunakan untuk variable
yang berkesinambungan dimana terdapat interval atas tanggapan.
Pemeriksaan hubungan yang melibatkan variable kategoris menggunakan
tabulasi-silang

Anda mungkin juga menyukai