Anda di halaman 1dari 5

BAB 16

Menjelajahi, Menampilkan, dan Meneliti Data

Analisis Data Eksplorasi


Kemudahan entri data melalui spreadsheet, pengenalan tanda optimal (OMR), atau
editor data program statistik membuatnya tergoda untuk beralih langsung ke analisis statistik.
Analisis data eksplorasi adalah perspektif analisis data dan serangkaian teknik. Dalam
analisis data eksplorasi (EDA) peneliti memiliki fleksibilitas untuk merespon pola-pola yang
diungkapkan dalam analisis awal data. Dengan demikian, pola dalam data yang dikumpulkan
menjadi pedoman analisis data atau menyarankan revisi rencana analisis data awal.
Fleksibilitas ini merupakan atribut penting dari pendekatan ini. Namun, ketika peneliti
mencoba untuk membuktikan penyebab, data konfirmatori analisis diperlukan. Analisis data
konfirmatori adalah proses analisis yang dipandu oleh statistik klasik kesimpulan dalam
penggunaan pengujian dan kepercayaan yang signifikan.
Satu otoritas telah membandingkan analisis data eksplorasi dengan peran detektif
polisi dan lainnya penyelidik dan analisis konfirmatori dengan hakim dan sistem peradilan.
Yang pertama terlibat dalam mencari petunjuk dan bukti; yang terakhir disibukkan dengan
mengevaluasi kekuatan bukti yang ditemukan. Analisis data eksplorasi adalah langkah
pertama dalam mencari bukti, tanpa yang mana analisis konfirmatori tidak perlu dievaluasi.
Konsisten dengan analogi tersebut, EDA berbagi kesamaan dengan desain eksplorasi, bukan
desain formal. Karena tidak mengikuti struktur yang kaku, itu bebas mengambil banyak jalan
untuk mengungkap misteri dalam data — untuk menyaring hal-hal yang tidak terduga dari
bisa ditebak. Kontribusi utama dari pendekatan eksplorasi terletak pada penekanan pada
representasi visual dan teknik grafis di atas statistik ringkasan. Saat ringkasan numerik
digunakan secara eksklusif dan diterima tanpa inspeksi visual, pemilihan model konfirmatori
mungkin didasarkan pada asumsi yang salah. Untuk alasan ini, analisis data harus dimulai
dengan inspeksi visual. Setelah itu, tidak hanya mungkin tetapi juga diinginkan untuk
melakukan siklus antara eksplorasi dan konfirmasi pendekatan.

Tabel Frekuensi, Diagram Batang, dan Diagram Lingkaran


Beberapa teknik yang berguna untuk menampilkan data bukanlah hal baru bagi EDA.
Mereka penting untuk pemeriksaan apa pun dari data. Misalnya, tabel frekuensi adalah
perangkat sederhana untuk menyusun data. Menyusun data dengan nilai numerik yang
ditetapkan, dengan kolom untuk persen, valid persen (persen disesuaikan untuk data yang
hilang), dan persen kumulatif. Variabel nominal ini menjelaskan usia minimum yang
dianggap diinginkan untuk diizinkan memiliki akun jejaring sosial. Jadi, kontribusi utama
tabel untuk data ini adalah daftar nilai yang diurutkan. Bagan batang tidak menyediakan
ruang untuk nilai di mana tidak ada pengamatan terjadi dalam jangkauan. Membuat diagram
lingkaran untuk variabel ini juga tidak ada gunanya.

Histogram
Histogram adalah solusi konvensional untuk menampilkan data rasio interval.
Histogram digunakan bila memungkinkan untuk mengelompokkan nilai variabel ke dalam
interval. Histogram dibuat dengan batang (atau tanda bintang) yang mewakili nilai data, di
mana setiap nilai menempati jumlah area yang sama di dalam area tertutup. Analis data
menemukan histogram yang berguna untuk (1) menampilkan semua interval dalam suatu
distribusi, bahkan yang tanpa nilai yang diamati, dan (2) memeriksa bentuk distribusi untuk
kemiringan, kurtosis, dan pola modal. Variabel lain yang memiliki urutan yang mendasarinya
juga sesuai untuk histogram. Histogram tidak akan digunakan untuk variabel nominal seperti
usia minimum jejaring sosial yang tidak memiliki urutan kategorinya. Interval dengan 0
hitungan menunjukkan celah dalam data dan memperingatkan analis untuk mencari masalah
dengan penyebaran.

Tampilan Batang dan Daun


Tampilan batang dan daun merupakan teknik yang sangat erat kaitannya dengan
histogram. Ini berbagi beberapa fitur histogram tetapi menawarkan beberapa keuntungan
unik. Mudah dibangun dengan tangan untuk yang kecil sampel atau mungkin diproduksi oleh
program komputer. Berbeda dengan histogram, yang kehilangan informasi dengan
mengelompokkan nilai data ke dalam interval, batang-dan-daun menyajikan nilai data aktual
yang dapat diperiksa secara langsung, tanpa menggunakan batang atau tanda bintang tertutup
sebagai media representasi. Ini fitur mengungkapkan distribusi nilai dalam interval dan
mempertahankan urutan peringkatnya untuk pencarian statistik median, kuartil, dan ringkasan
lainnya. Ini juga memudahkan menghubungkan kembali pengamatan tertentu file data dan
subjek yang memproduksinya. Visualisasi adalah keuntungan kedua dari tampilan batang dan
daun. Kisaran nilai terlihat di pandangan sekilas, dan kesan bentuk dan penyebaran langsung
terlihat. Pola dalam data — seperti celah di mana tidak ada nilai, area di mana nilai-nilai
dikelompokkan, atau nilai-nilai terpencil yang berbeda dari bagian utama datanya — mudah
diamati.

Diagram Pareto
Diagram Pareto mendapatkan namanya dari seorang ekonom Italia abad ke-19. Dalam
manajemen mutu, J. M. Juran pertama kali menerapkan konsep ini dengan mencatat bahwa
hanya sedikit cacat vital yang menyebabkan sebagian besar masalah dievaluasi untuk kualitas
dan bahwa hal sepele dapat menjelaskan sisanya. Diagram Pareto adalah diagram batang
yang persentasenya berjumlah 100 persen. Data diturunkan dari pilihan ganda, skala respon
tunggal; skala pilihan ganda, tanggapan ganda; atau frekuensi jumlah kata (atau tema) dari
analisis konten. Jawaban responden diurutkan secara menurun kepentingan, dengan tinggi
batang dalam urutan menurun dari kiri ke kanan. Larik bergambar yang dihasilkan
mengungkapkan konsentrasi potensi peningkatan tertinggi dalam jumlah solusi paling sedikit.

Plot Kotak
Boxplot atau box-and-whisker plot, adalah teknik lain yang sering digunakan dalam
analisis data eksplorasi. Diagram kotak mengurangi detail tampilan batang dan daun dan
memberikan gambar visual yang berbeda lokasi distribusi, penyebaran, bentuk, panjang ekor,
dan pencilan. Boxplots adalah perpanjangan dari ringkasan lima nomor dari sebuah distribusi.
Ringkasan ini terdiri dari median, atas dan bawah kuartil, dan pengamatan terbesar dan
terkecil. Median dan kuartil digunakan karena keduanya adalah statistik yang sangat resisten.
Resistensi adalah karakteristik yang “memberikan ketidakpekaan terhadap lokalisasi perilaku
buruk dalam data."
Statistik resisten tidak terpengaruh oleh pencilan dan hanya berubah sedikit
menanggapi penggantian sebagian kecil dari kumpulan data. Baik mean dan deviasi standar
dianggap statistik nonresistant; mereka rentan terhadap efek ekstrim nilai di ekor distribusi
dan tidak mewakili nilai tipikal dengan baik dalam kondisi asimetri. Deviasi standar sangat
bermasalah karena dihitung dari kuadrat penyimpangan dari mean. Sebaliknya, median dan
kuartil sangat tahan terhadap perubahan. Karena sifat kuartil, hingga 25 persen data dapat
dibuat ekstrem tanpa mengganggu median, komposisi persegi panjang dari plot, atau kuartil
itu sendiri. Ini karakteristik hambatan dimasukkan ke dalam konstruksi plot kotak.
Plot kotak dapat dibuat dengan mudah dengan tangan atau dengan program komputer. Bahan
dasar dari plotnya adalah:
1. Plot persegi panjang yang mencakup 50 persen dari nilai data.
2. Garis tengah (atau notasi lain) yang menandai median dan melewati lebar kotak.
3. Tepi kotak, disebut engsel.
4. The "kumis" yang membentang dari engsel kanan dan kiri ke nilai terbesar dan
terkecil.
Boxplots adalah file alat diagnostik yang sangat baik, terutama jika dibuat grafik pada skala
yang sama. Dua plot teratas di pameran keduanya simetris, tetapi yang satu lebih besar dari
yang lain. Lebar kotak yang lebih besar terkadang digunakan saat variabel kedua, dari skala
pengukuran yang sama, berasal dari ukuran sampel yang lebih besar. Kotak lebar harus
proporsional dengan akar kuadrat ukuran sampel, tetapi tidak semua program plotting untuk
ini. Distribusi kemiringan kanan dan kiri serta penyebaran yang berkurang juga disajikan
jelas dalam perbandingan plot. Terakhir, kelompok dapat dibandingkan dengan menggunakan
beberapa plot. Perhatikan kesamaan profil keuangan dan ritel berbeda dengan sektor
teknologi tinggi dan asuransi.

Pemetaan
Semakin banyak data peserta dilampirkan ke dimensi geografis mereka sebagai
Informasi Geografis Perangkat lunak sistem (GIS) dan alat pengukur koordinat menjadi lebih
terjangkau dan lebih mudah digunakan. Pada dasarnya GIS bekerja dengan menghubungkan
kumpulan data satu sama lain dengan setidaknya satu data umum bidang (mis., alamat jalan
rumah tangga). GIS memungkinkan peneliti untuk menghubungkan target dan klasifikasi
variabel dari survei ke database berbasis geografis tertentu seperti data Sensus A.S., untuk
dikembangkan pemahaman yang lebih kaya tentang sikap dan perilaku sampel. Saat
identifikasi frekuensi radio Data (RFID) menjadi lebih lazim, banyak data perilaku akan
dapat terhubung dengan yang baru ini database yang kaya secara geografis.
Cara paling umum untuk menampilkan data tersebut adalah dengan peta. Warna dan
pola yang menunjukkan pengetahuan, sikap, perilaku, atau susunan data demografis
ditumpangkan di atas peta jalan (GIS tingkat sarang), peta grup blok, atau peta wilayah,
negara bagian, atau negara untuk membantu mengidentifikasi lokasi terbaik untuk toko
berbasis pada data segmentasi demografis, psikografis, dan tahap-kehidupan. Beberapa
pendekatan memiliki menekankan perlunya matematika tingkat lanjut, dan semua memiliki
daya tarik intuitif bagi analis.
Tabulasi Silang
Tabulasi silang adalah teknik untuk membandingkan data dari dua atau lebih
kategorikal variabel seperti jenis kelamin dan pilihan oleh perusahaan seseorang untuk tugas
di luar negeri. Tabulasi silang digunakan dengan variabel demografis dan variabel target
penelitian (pertanyaan pengukuran yang dioperasionalkan). Teknik ini menggunakan tabel
yang memiliki baris dan kolom yang sesuai dengan level atau nilai kode dari setiap kategori
variabel. Tabel ini memiliki dua baris untuk jenis kelamin dan dua kolom untuk pemilihan
tugas. Kombinasi dari variabel dengan nilainya menghasilkan empat sel. Setiap sel berisi
jumlah kasus klasifikasi gabungan kation dan juga baris, kolom, dan persentase total. Sel-sel
tersebut diidentifikasi secara individual dengan nomor baris dan kolom. Total baris dan
kolom, disebut margin, muncul di "margin" bawah dan kanan tabel. Tabulasi silang adalah
langkah pertama untuk mengidentifikasi hubungan antar variabel.

Penggunaan Persentase
Persentase memiliki dua tujuan dalam penyajian data. Pertama, mereka
menyederhanakan data dengan mengurangi semua angka ke rentang dari 0 hingga 100.
Kedua, mereka menerjemahkan data ke dalam bentuk standar, dengan basis 100, untuk
perbandingan relatif. Dalam situasi pengambilan sampel, jumlah kasus yang termasuk dalam
kategori tidak ada artinya kecuali itu terkait dengan beberapa basis. Meskipun penjelasan di
atas bermanfaat, bahkan lebih berguna ketika masalah penelitian membutuhkan perbandingan
dari beberapa distribusi data.
Dengan tabel dua dimensi, pemilihan baris atau kolom akan menonjolkan distribusi
atau perbandingan tertentu. Ini menimbulkan pertanyaan tentang ke arah mana persentase
harus dihitung. Sebagian besar program komputer menawarkan opsi untuk menyajikan
persentase di kedua arah dan pertukaran baris dan kolom dari tabel. Tetapi dalam situasi di
mana satu variabel dihipotesiskan sebagai dugaan penyebab, dianggap mempengaruhi atau
memprediksi respons, atau hanya anteseden ke variabel lain, kami beri label variabel
independen. Persentase kemudian harus dihitung ke arah variabel ini. Jadi, jika variabel
independen ditempatkan di baris, pilih persentase baris; jika ada di kolom, pilih persentase
kolom.
Jika persentase dilaporkan per baris, implikasinya adalah gender berpengaruh seleksi
untuk tugas luar negeri. Persentase digunakan oleh hampir semua orang yang berurusan
dengan angka — tetapi sering kali salah. Pengikut pedoman, jika digunakan selama analisis,
akan membantu mencegah kesalahan dalam pelaporan:
 Persentase rata-rata. Persentase tidak dapat dirata-ratakan kecuali masing-masing
ditimbang dengan ukuran kelompok yang darinya itu berasal. Jadi, rata-rata sederhana
saja tidak cukup; itu perlu digunakan rata-rata tertimbang.
 Penggunaan persentase yang terlalu besar. Ini sering kali mengalahkan tujuan
persentase — yaitu untuk menyederhanakan. Sebagian besar sulit untuk dipahami dan
membingungkan. Jika meningkat 1.000 persen berpengalaman, lebih baik
menggambarkannya sebagai peningkatan 10 kali lipat.
 Menggunakan alas yang terlalu kecil. Persentase menyembunyikan basis dari mana
mereka telah dihitung. Figur dari 60 persen bila dibandingkan dengan 30 persen akan
menunjukkan perbedaan yang cukup besar. Namun jika hanya ada tiga kasus di satu
kategori dan enam di kategori lainnya, perbedaannya akan terjadi tidak signifikan
karena mereka telah dibuat tampil dengan persentase.
 Persentase penurunan tidak pernah bisa melebihi 100 persen. Ini jelas, tetapi jenis
kesalahan ini sering terjadi. Angka yang lebih tinggi harus selalu digunakan sebagai
alas atau penyebut. Untuk Misalnya, jika harga diturunkan dari $ 1 menjadi $ 0,25,
penurunannya menjadi 75 persen (75/100).

Analisis Berbasis Tabel Lainnya


Pengakuan hubungan yang bermakna antara variabel umumnya menandakan
kebutuhan lebih lanjut penyelidikan. Pengenalan variabel kontrol untuk menafsirkan
hubungan sering kali perlu. Tabel lintas tabulasi berfungsi sebagai kerangka kerja. Paket
statistik seperti Minitab, SAS, dan SPSS memiliki banyak opsi di antara modul mereka
konstruksi tabel n-way dengan ketentuan untuk beberapa variabel kontrol. Misalkan Anda
tertarik dalam membuat tabulasi silang dari dua variabel dengan satu kontrol. Berapa pun
jumlah nilai dalam file variabel primer, variabel kontrol dengan lima nilai menentukan
jumlah tabel. Untuk beberapa aplikasi, sebaiknya memiliki lima tabel terpisah; bagi yang
lain, mungkin lebih baik jika berdampingan tabel atau memiliki nilai semua variabel dalam
satu. Laporan manajemen adalah jenis yang terakhir.
Variasi lanjutan pada tabel n-way adalah deteksi interaksi otomatis (AID). AID adalah
komputerisasi proses statistik yang mengharuskan peneliti mengidentifikasi variabel
dependen dan satu set prediktor atau variabel independen. Komputer kemudian mencari
hingga 300 variabel untuk divisi tunggal terbaik dari data sesuai dengan masing-masing
variabel prediktor, memilih satu, dan membagi sampel menggunakan uji statistik untuk
memverifikasi kesesuaian pilihan ini. Variabel dependen awal adalah kesan keseluruhan
layanan perbaikan. Variabel ini diukur pada skala interval 1 sampai 5. Variabel yang
berkontribusi persepsi efektivitas perbaikan juga diukur pada skala yang sama tetapi
diskalakan kembali data ordinal untuk contoh ini (1–2 = buruk, 3 = rata-rata, dan 4–5 =
sangat baik).

Anda mungkin juga menyukai