>belajartujuan
Setelah membaca bab ini, Anda harus mengerti. . .
1 Pentingnya mengedit data mentah yang dikumpulkan untuk mendeteksi kesalahan dan kelalaian.
2 Bagaimana pengkodean digunakan untuk menetapkan angka dan simbol lain untuk jawaban dan untuk mengkategorikan tanggapan.
4 Masalah dengan dan solusi untuk tanggapan “tidak tahu” dan data yang hilang.
“ bekerja untuk
pola,orang lainAnda
dan menerapkannya
”
Pemikiran di mana melihat apa itu
untuk situasi Anda sendiri, adalah salah satu yang terbaik
cara membuat b ig hal-hal terjadi untuk Anda
dan tim Anda.
David Novak, ketua dan CEO,
Nyam! Merek, Inc.
>membawapenelitianuntukkehidupan PikiranPenulis
Orang awam sering berpikir bahwa data hanya perlu dihitung untuk disajikan. Tetapi seorang peneliti
terlatih memahami bahwa data jarang siap untuk dihitung setelah dikumpulkan. Entri data, jika tidak
terjadi bersamaan dengan proses survei, akan menambah hari pada proses, seperti halnya memeriksa
keakuratan data. Myra Wines, kontak utama MindWriter dengan Henry!and Associates, datang lebih awal
untuk pertemuan yang dia minta dengan Jason dan menyela sesi data pada proyek Jason lainnya. Dia
memiliki kepentingan dalam apa yang sedang dikerjakan Jason, dan dia akan menawarkan proyek baru
kepada Henry and Associates.
"Apakah kehadiranku lebih awal untuk pertemuan kita menjadi Pagi ini saya menjalankan satu set frekuensi penuh. Jill, David,
masalah?" tanya Myra saat dia bergerak melewati setumpuk dan Sammye memulai analisis awal mereka … eh, 90 menit
cetakan komputer yang ditumpuk sangat tinggi tepat di dalam yang lalu.”
pintu kantor Jason. “Mungkinkah tim yang rajin di luar Anda "Jadi saya kira saya harus menunggu sampai Anda memiliki sesuatu yang
sedang mempelajari data Proyek MindWriter 2 saya?” lebih solid untuk dipelajari bahkan secara singkat tentang apa yang telah
"Belum," komentar Jason sambil melambaikan tangan ke Anda temukan sejauh ini?" tanya Myra sambil tersenyum.
kursi kosong Myra. "Beri aku satu detik saja." Dia dengan "Ah," balas Jason sambil tersenyum, "Anda telah mempelajari
cepat menulis dua catatan di Post-its dan menempelkan satu proses H&A dengan cukup baik." Myra menyeringai dan kemudian
di sketsa pensil grafik dan menempelkan yang lain ke mengubah posisinya di kursi, sedikit condong ke arah Jason. Tepat
histogram. "Sammye, kamu mau ambil ini?" Jason memanggil sebelum dia berbicara, Jason mengamati, “Oh, tidak! Anda
salah satu anggota tim di luar!ce. berubah menjadi postur 'Saatnya turun ke bisnis'. Jadi apa proyek
Sementara itu, Myra memilih kursi yang tersedia dan baru yang ingin Anda diskusikan. . . dan tenggat waktu yang
menunggu. Dia di sini untuk meyakinkan Jason untuk mustahil yang harus aku penuhi?”
mengambil proyek lain untuk MindWriter. Yang satu ini “Dengarkan aku dulu, Jason. Grup produk LT3000 MindWriter telah
memiliki perputaran yang singkat. Mengalihkan perhatiannya memutuskan perlu menggunakan 'keunggulan dalam sistem yang
ke Myra, Jason mengekstrak folder yang tergeletak di dirancang khusus' sebagai klaimnya dalam kampanye iklan baru, tetapi
credenza di belakangnya. “Sebenarnya lebah pekerja itu hukum mengatakan kami tidak memiliki cukup data untuk mendukung
adalah anggota baru staf saya, mahasiswa pascasarjana dari klaim tersebut. Biro iklan yang kami pilih memiliki peluang yang
universitas. Mereka ditugaskan ke proyek CityCenter for pendek. Kami membutuhkan data pendukung dalam waktu 10 hari.”
PerformingArts,” kata Jason. “Karena rekomendasi Anda, kami Myra mengangkat tangannya untuk menghentikan keberatan yang dia
mendapat pekerjaan itu. Saya pikir Anda tahu.” harapkan dari Jason. “Kami tahu Anda tidak punya waktu untuk
“Tentu saja aku tahu. Saya telah melayani di dewan CCPA mengumpulkan data primer baru dan menganalisisnya dalam 10 hari
selama dua tahun. Apakah Anda akan mempresentasikan … jadi saya membawa hal terbaik berikutnya. Saya punya tiga kotak
analisis pendahuluan pada pertemuan berikutnya Jumat ini?” catatan lain-lain di bagasi saya ... "
"Seperti lusa?" tanya Jason. “Hanya dalam mimpi kita! "Ayo kita lihat apa yang kamu bawakan untukku," erang Jason
Analisis awal yang Anda lihat mereka kerjakan hanya untuk dengan ramah saat dia berdiri dari kursinya. “Kemudian kita akan
kami. Meskipun kami dapat mengembangkan bagan melihat apakah proyek ini layak.” Saat dia melewati bagian luar
presentasi yang mungkin dipresentasikan ke Dewan Pusat, kantor, Jason memberi isyarat agar salah satu siswa mengikuti;
kemungkinan besar tidak ada materi yang Anda lihat lalu di samping Myra dia berkata, “Myra, temui David Chesley.
ditumpuk di sini akan berakhir di laporan sebagaimana Anda hanya beruntung bahwa pekerja magang baru saya sangat
adanya. Kami belum siap untuk menulis laporan klien. Kami bersemangat sehingga mereka akan menikmati menyulap dua
baru saja !selesai membersihkan data !le kemarin. proyek sekaligus.”
376 >bagian IV Analisis dan Penyajian Data
> pengantar
Begitu data mulai mengalir, perhatian peneliti beralih ke analisis data. Bab ini berfokus pada fase pertama dari
proses itu, persiapan data, dan deskripsi. Persiapan data meliputi penyuntingan, pengkodean, dan entri data dan
merupakan aktivitas yang memastikan keakuratan data dan konversinya dari bentuk mentah ke bentuk tereduksi
dan terklasifikasi yang lebih sesuai untuk analisis. Mempersiapkan ringkasan statistik deskriptif adalah langkah
awal lain yang mengarah pada pemahaman tentang data yang dikumpulkan. Selama langkah inilah kesalahan entri
data dapat terungkap dan diperbaiki. Peraga 15-1 mencerminkan langkah-langkah dalam
fase proses penelitian ini.
Pengukuran
Pertanyaan
Desain Instrumen
Instrumen Instrumen
Mengumpulkan data
> Mengedit
Langkah pertama yang biasa dilakukan dalam analisis adalah mengedit data mentah. Mengedit mendeteksi kesalahan dan kelalaian,
memperbaikinya bila memungkinkan, dan menyatakan bahwa standar kualitas data maksimum telah tercapai. Tujuan editor adalah
untuk menjamin bahwa data adalah:
• Tepat.
• Konsisten dengan maksud pertanyaan dan informasi lain dalam survei.
• Dimasukkan seragam.
• Lengkap.
• Disusun untuk menyederhanakan pengkodean dan tabulasi.
Dalam pertanyaan berikut yang diajukan kepada orang dewasa berusia 18 tahun ke atas, satu responden memeriksa dua kategori, yang
menunjukkan bahwa dia adalah seorang pensiunan perwira dan saat ini sedang bertugas aktif.
Tanggung jawab editor adalah untuk memutuskan jawaban mana yang konsisten dengan maksud
pertanyaan atau informasi lain dalam survei dan paling akurat untuk peserta individu ini.
Pengeditan Lapangan
Dalam proyek besar, !peninjauan pengeditan lapangan adalah tanggung jawab !penyelia lapangan. Itu juga harus
dilakukan segera setelah data terkumpul. Selama stres pengumpulan data dalam wawancara pribadi dan
pencatatan kertas dan pensil dalam pengamatan, peneliti sering menggunakan singkatan ad hoc dan simbol
khusus. Segera setelah wawancara, eksperimen, atau observasi, peneliti harus meninjau formulir pelaporan. Sulit
untuk menyelesaikan apa yang disingkat atau ditulis dengan singkatan atau dicatat secara tidak terbaca jika entri
tidak tertangkap hari itu. Ketika ada celah masuk dari wawancara, panggilan balik harus dilakukan daripada
menebak apa yang "mungkin akan dikatakan oleh responden". Wawancara diri tidak memiliki tempat dalam
penelitian yang berkualitas.
Fungsi kontrol penting kedua dari !penyelia lapangan adalah untuk memvalidasi hasil !lapangan. Ini biasanya
berarti dia akan mewawancarai kembali beberapa persentase responden, setidaknya pada beberapa pertanyaan,
memverifikasi bahwa mereka telah berpartisipasi dan bahwa pewawancara bekerja dengan baik. Banyak
perusahaan riset akan menghubungi kembali sekitar 10 persen responden dalam proses validasi data ini.
Pengeditan Tengah
Sementara survei online dan entri data berikutnya telah menghilangkan beberapa masalah
pengeditan, terlepas dari mode pengumpulannya, semua data harus mendapatkan
pengeditan menyeluruh. Untuk penelitian kecil, penggunaan editor tunggal menghasilkan
konsistensi maksimum. Dalam studi besar, tugas pengeditan harus dialokasikan sehingga
setiap editor menangani satu bagian keseluruhan. Meskipun pendekatan terakhir tidak akan
mengidentifikasi inkonsistensi antara jawaban di bagian yang berbeda, masalah dapat
ditangani dengan mengidentifikasi pertanyaan di bagian yang berbeda yang mungkin
menunjukkan kemungkinan inkonsistensi dan meminta satu editor memeriksa data yang
dihasilkan oleh pertanyaan ini.
Kadang-kadang jelas bahwa suatu entri salah—misalnya, ketika seorang responden Kualitas data tidak bisa dibiarkan begitu saja. Data tidak ada
artinya jika tidak berkualitas baik, jadi membersihkan data sangat
dengan jelas menyebutkan waktu dalam hari (misalnya, 13) ketika diminta dalam
penting. Jika penelitian memberikan orang yang tepat pada waktu
minggu (misalnya, Anda mengharapkan angka 4 atau kurang)—atau data dimasukkan
yang tepat untuk menghasilkan data yang tepat untuk sebuah
di tempat yang salah. Ketika balasan tidak sesuai (di luar kisaran nilai yang diharapkan keputusan, maka peneliti tidak mempertaruhkan wawasan.
atau tidak terkait dengan pertanyaan yang diajukan) atau tidak ada,
378 >bagian IV Analisis dan Penyajian Data
>Menutupnaik
Seberapa Kotor Masalah Data Kotor?
Data kotor, data yang “menyesatkan, salah, tanpa format umum, bidang "pemasok" dari beberapa basis data, mencegah basis data tersebut
mengandung kesalahan ejaan atau tanda baca, salah input, atau digabungkan dengan benar atau mencegah peneliti menemukan pola yang
dipalsukan oleh responden”Sebuah merupakan masalah bisnis utama. Di berkaitan dengan setiap pemasok. Data salah hanya salah; paling sering
era pengumpulan data online ini, data menjadi kotor ketika data terjadi ketika data hilang, atau dipalsukan, atau ketika data, seperti pesanan
duplikat dibuat, seperti ketika responden “tidak sengaja mengklik dua pelanggan, tidak dimasukkan sama sekali.
kali tombol 'kirim' pada formulir [atau survei], atau [dalam studi klik- Langkah-langkah dasar untuk menangani data yang buruk adalah sama:
tayang web] mengunjungi kembali halaman yang telah 'kedaluwarsa' mendeteksi dan menghapus atau memperbaikinya. Tetapi beberapa ahli
dan menyegarkannya.”b Data menjadi kotor ketika sudah usang, seperti menyarankan langkah ketiga: menentukan seberapa besar kesalahan yang harus
ketika calon pelanggan pindah atau mengubah nomor telepon atau ditoleransi.g Jika data buruk ada di area kritis, seperti hasil tes darah pasien atau
alamat emailnya. Data kotor juga dapat terjadi ketika ada “terputusnya piutang perusahaan, kemungkinan besar waktu dan upaya organisasi untuk
hubungan antara data dalam sistem komputer dan data yang tertanam memperbaikinya sepadan. Jika data kotor ada di bagian catatan dari file manajemen
dalam kertas atau dokumen elektronik yang tidak dapat dibaca oleh kontak seorang salesman, itu mungkin tidak memerlukan waktu dan usaha seperti
mesin.”c itu. Masalahnya menjadi sangat buruk sehingga beberapa perusahaan telah
Di mana data kotor menjadi masalah? Cobalah ke kantor dokter Anda mempekerjakan petugas data—seseorang yang ditugaskan untuk menjaga
ketika dia mencoba mendiagnosis penyakit atau kondisi Anda. Atau restoran kebersihan data perusahaannya.h
favorit Anda sedang mencoba memutuskan item apa yang akan dikeluarkan Menurut firma riset dan penasihat Gartner Inc., 25 persen data
dari menunya. Atau pabrikan mencoba mengidentifikasi praktik perawatan penting di 1.000 perusahaan teratas dunia masih dan akan terus cacat.
mesin yang membuat komponen rusak. Atau seorang manajer hubungan saya Perkiraan lain menunjukkan bahwa jumlahnya bisa mencapai 30
manusia yang mencoba membedakan rejimen pelatihan mana yang memiliki persen.j Dun & Bradstreet Corp., yang membantu perusahaan
dampak paling positif pada laba organisasi. Craig Focardi, menulis di membersihkan file pemasok mereka, memperkirakan sebagian besar
Perbankan Hipotek, menggambarkan pemberi pinjaman sebagai hidup dari perusahaan menunjukkan 20 persen duplikat catatan pemasok.k
"diet elemen data yang hilang, tidak lengkap, dan tidak akurat untuk asal Sebuah studi PricewaterhouseCoopers menunjukkan bahwa
pinjaman." Dia menyamakannya dengan "brigade ember air, di mana air manajemen data yang buruk merugikan bisnis global “lebih dari $1,4
hilang saat ember air berpindah dari tangan ke tangan."d Dia percaya bahwa miliar per tahun dalam penipuan penagihan, akuntansi, dan
data berkualitas buruk adalah penyebab yang berkontribusi terhadap krisis inventaris.” aku Profesor pemenang Penghargaan Roger Needham dari
likuiditas hipotek saat ini di Amerika Serikat. “Selama musim panas 2007, British Computer Society, Wenfei Fan, memperkirakan bahwa "data
likuiditas pendanaan subprime mortgage menghilang sebagian karena kotor merugikan bisnis AS sebanyak $611 miliar—dan pelanggan AS
pemberi pinjaman subprime dan investor hipotek tidak memiliki data untuk sebanyak $2,5 miliar setahun."saya
secara akurat menilai kembali dan menilai ulang risiko kredit, agunan, dan Sebagian besar ahli sepakat bahwa langkah pertama adalah menetapkan
pembayaran di muka.” protokol data, aturan sederhana tentang bagaimana data dimasukkan, seperti item
Untuk mengatasi masalah kualitas data, ada baiknya mengkategorikan apa (celana, celana panjang, atau celana panjang) dipanggil atau bagaimana tanggal
masalah data kotor ke dalam empat kategori: data tidak valid, data tidak dimasukkan (20 Maret 2010 atau 20 10 Maret). Saran lainnya termasuk
lengkap, data tidak konsisten, dan data salah.e Data tidak valid adalah data mencadangkan data secara teratur, mengontrol akses ke data melalui mekanisme
yang berisi kesalahan entri, seperti kode pos yang tidak ada. Data tidak keamanan, merancang antarmuka pengguna yang mencegah input data yang tidak
lengkap ada data yang hilang yang diperlukan untuk membuat keputusan; valid, dan menggunakan perangkat lunak pendeteksi dan koreksi kesalahan saat
menghapus data dari satu database karena crash disk atau kehilangan mengirimkan data.tidak Presiden Tigris Consulting menambahkan, “Anda harus sangat
tautan antara database di gudang data dapat membuat data yang tidak berhati-hati saat menarik data dari sistem yang berbeda bersama-sama untuk
lengkap, seperti halnya data dapat menjadi medan pertempuran dalam memastikan bahwa itu adalah nama bidang yang tepat, format yang tepat dan
perang internal—“setiap orang berpegang teguh pada bagian kecilnya secara semantik, [data] berarti apa yang Anda inginkan. ”Hai Tetapi sebagian besar
sendiri dari penyimpanan data, tidak ada yang mau berbagi.”f Data tidak pakar data percaya bahwa situasinya tidak akan membaik sampai manajemen
konsisten sering dilihat hanya dari perspektif gambaran besar; data dari satu puncak menjadikan data bersih sebagai prioritas.
database mungkin sedikit atau tidak masuk akal jika dilihat dari perspektif www.tigris.com; www.gartner.com; www.dnb.com;
data dalam database yang terpisah tetapi terhubung. Ini mungkin karena www.pwc.com; www.bcs.org;
protokol data, seperti penamaan perusahaan: IBM dapat dimasukkan www.mortgagebankingmagazine.com
sebagai IBM, IBM, atau Mesin Bisnis Internasional di
>bab 15 Persiapan dan Deskripsi Data 379
>jeprettembakan
CBS: Beberapa Lab Luar Biasa
Pengunjung Las Vegas memiliki kesempatan untuk menentukan arah mengamati peserta dan umpan balik mereka dari kantor terpencil di seluruh
program CBS dengan mengunjungi Pusat Penelitian Kota Televisi CBS negeri. Fasilitas, yang dirancang oleh GES, juga menyediakan kemampuan
di MGMGrand Hotel and Casino. Apa yang membuat Las Vegas menjadi kelompok fokus, yang digunakan untuk wawancara lanjutan bersama
lokasi yang ideal untuk laboratorium penelitian adalah populasi dengan inisiatif penelitian lainnya. Peserta diberi kompensasi dengan
penduduk Amerika dan jumlah besar warga internasional di antara 39 kesempatan untuk memenangkan sistem home theater, serta kupon $10!
juta pengunjungnya setiap tahun. Dalam skrining khas dengan 250 yang dapat mereka tukarkan dengan kaos berlogo program, topi, pin,
orang, individu mewakili lebih dari 40 negara bagian dan setiap gaya gantungan kunci, dan bahkan perangkat lunak komputer di Pusat Penelitian
hidup yang mungkin. Peserta menonton segmen program baru atau Kota Televisi CBS toko. Timbul dari tes sementara yang dilakukan di
yang diusulkan selama 30 hingga 45 menit, tanpa gangguan komersial, 1991, fasilitas penelitian hari ini beroperasi 12 jam per hari sepanjang tahun.
diikuti dengan proses survei yang berlangsung selama 15 menit. Setiap Jadi pada kunjungan Anda berikutnya ke City of Lights, ketika slot atau
kursi dilengkapi dengan layar sentuh komputer yang terhubung penghibur terkenal kehilangan daya tarik, hibur diri Anda dengan riset.
dengan Nielsen ReelResearch milik Nielsen Entertainment. Peserta Apa saja keuntungan memiliki entri data layar sentuh?
berbagi umpan balik tentang pertunjukan dan demografi pribadi
secara real time, www.nielsen.com; www.viad.com
editor terkadang dapat mendeteksi jawaban yang tepat dengan meninjau informasi lain dalam kumpulan data. Namun,
praktik ini harus dibatasi pada beberapa kasus di mana sudah jelas apa jawaban yang benar. Mungkin lebih baik untuk
menghubungi responden untuk mendapatkan informasi yang benar, jika waktu dan anggaran memungkinkan. Alternatif
lain adalah editor untuk mencoret jawaban jika tidak pantas. Di sini diperlukan entri pengeditan "tidak ada jawaban" atau
"tidak diketahui".
Masalah lain yang dapat dideteksi oleh pengeditan saat menggunakan wawancara pribadi atau telepon adalah memalsukan
wawancara yang tidak pernah terjadi. “Wawancara kursi” ini sulit dikenali, tetapi editor berada dalam posisi terbaik untuk
melakukannya. Salah satu pendekatan adalah untuk memeriksa tanggapan terhadap pertanyaan terbuka. Ini adalah yang paling sulit
untuk dipalsukan. Pola respons yang khas pada pertanyaan lain akan sering muncul jika terjadi pemalsuan data. Untuk mengungkap
ini, editor harus menganalisis sebagai seperangkat instrumen yang digunakan oleh setiap pewawancara.
Berikut adalah beberapa aturan yang berguna untuk memandu editor dalam pekerjaan mereka:
• Jangan merusak, menghapus, atau membuat entri asli oleh pewawancara atau responden tidak
terbaca; entri asli harus tetap terbaca.
• Buat semua entri pengeditan pada instrumen atau kumpulan data dalam beberapa warna khusus dan dalam
bentuk standar.
• Inisial semua jawaban diubah atau diberikan.
• Tempatkan inisial dan tanggal pengeditan pada setiap instrumen yang diselesaikan atau di bidang terpisah dalam
kumpulan data.
> Pengkodean
Pengkodean melibatkan pemberian nomor atau simbol lain untuk jawaban sehingga tanggapan dapat
dikelompokkan ke dalam sejumlah kategori. Dalam pengkodean,kategori adalah partisi dari kumpulan data dari
variabel tertentu (misalnya, jika variabelnya adalah jenis kelamin, partisi adalah pria dan Perempuan). Kategorisasi
adalah proses menggunakan aturan untuk mempartisi tubuh data. Baik pertanyaan tertutup maupun terbuka
harus diberi kode. Beberapa pertanyaan survei kertas dan online berisi kode numerik atau tekstual dan ini adalah:
380 >bagian IV Analisis dan Penyajian Data
terlihat oleh responden. Pertanyaan lain, misalnya pertanyaan tanggapan terbuka, diberi kode setelah data
dikumpulkan. Pengodean ulang variabel setelah data dianalisis awalnya dimungkinkan ketika mencoba
memahami pola di dalam data.
Kategorisasi data mengorbankan beberapa detail data tetapi diperlukan untuk analisis yang efisien. Sebagian besar
program perangkat lunak statistik dan spanduk/tabel bekerja lebih efisien dinumerik mode. Alih-alih memasukkan katapria
atau Perempuan sebagai jawaban atas pertanyaan yang menanyakan identifikasi jenis kelamin seseorang, kita akan
menggunakan kode numerik (misalnya, 0 untuk pria dan 1 untuk wanita). Pengkodean numerik menyederhanakan tugas
peneliti dalam mengubah variabel nominal, seperti jenis kelamin, menjadi "variabel dummy", topik yang kami diskusikan
dalam suplemen Pusat Pembelajaran Online: Analisis Multivariat, Sebuah Tinjauan. Perangkat lunak statistik juga dapat
menggunakan kode alfanumerik, seperti ketika kita menggunakan M dan F, atau huruf lain, dalam kombinasi dengan
angka dan simbol untuk jenis kelamin.
terkomputerisasi n dari
www.ibm.com/software/
analitik/spss
>bab 15 Persiapan dan Deskripsi Data 381
Variabel Variabel
Pertanyaan Jumlah Deskripsi Kode Nama
______ 1 Nomor catatan RECNUM
______ 2 Nomor responden RESID
lahir 99 5 hilang
1 5 Pria
2 5 Perempuan
9 5 hilang
6 Alasan pembelian
1 5 Tersebut
0 5 Tidak disebutkan
data, prakode diperlukan karena perangkat lunak menghitung data saat dikumpulkan. Prakode sangat membantu
untuk entri data manual (misalnya, dari survei yang dilakukan sendiri melalui pos atau intersep) karena membuat
langkah perantara dalam menyelesaikan lembar kode entri data entry tidak perlu. Dengan instrumen yang telah
dikodekan sebelumnya, kode untuk kategori variabel dapat diakses langsung dari kuesioner. Partisipan,
pewawancara, pengawas lapangan, atau peneliti (tergantung metode pengumpulan data) dapat memberikan kode
yang sesuai pada instrumen dengan cara mencentang, melingkari, atau mencetaknya di tempat pengkodean yang
tepat.
Tampilan 15-3 menunjukkan pertanyaan dalam contoh buku kode. Saat precoding digunakan, pengeditan
mendahului pemrosesan data. Perhatikan pertanyaan 4, di mana responden dapat memilih di antara lima kategori
status perkawinan dan memasukkan nomor item yang paling mewakili status sekarang di bagian pengkodean
kuesioner. Kode ini kemudian ditransfer ke media input untuk analisis.
382 >bagian IV Analisis dan Penyajian Data
___________________________________
___________________________________
______________________
___________________________________
________________________________________________
________________________________________________
Aturan Pengkodean
Empat aturan memandu pra dan pasca pengkodean dan kategorisasi kumpulan data. Kategori dalam satu
variabel harus:
Peneliti mengatasi masalah ini ketika mengembangkan atau memilih setiap pertanyaan pengukuran tertentu.
Salah satu tujuan uji coba instrumen pengukuran apa pun adalah untuk mengidentifikasi dan mengantisipasi
masalah kategorisasi.
Kelayakan
Kesesuaian ditentukan pada dua tingkat: (1) partisi terbaik dari data untuk menguji hipotesis dan menunjukkan
hubungan dan (2) ketersediaan data perbandingan. Misalnya, ketika usia sebenarnya diperoleh (skala rasio), editor
dapat memutuskan untuk mengelompokkan data berdasarkan rentang usia untuk menyederhanakan penemuan
pola dalam data. Jumlah kelompok usia dan luasnya setiap rentang, serta titik akhir di setiap rentang, harus
ditentukan oleh data perbandingan—misalnya, rentang usia sensus AS, basis data pelanggan yang mencakup
rentang usia, atau data usia yang tersedia dari Fox TV digunakan untuk melakukan pembelian media iklan.
Ketuntasan
Peneliti sering menambahkan opsi "lain" ke pertanyaan pengukuran karena mereka tahu bahwa mereka tidak dapat
mengantisipasi semua kemungkinan jawaban. Namun, sejumlah besar tanggapan "lainnya", menunjukkan bahwa skala
pengukuran yang dirancang peneliti tidak mengantisipasi berbagai informasi. Editor harus menentukan apakah tanggapan
“lainnya” dengan tepat dimasukkan ke dalam kategori yang telah ditetapkan, apakah kategori baru harus ditambahkan,
apakah data “lainnya” akan diabaikan, atau jika beberapa kombinasi dari tindakan ini akan diambil.
Meskipun persyaratan kelengkapan untuk satu variabel mungkin jelas, aspek kedua kurang jelas. Apakah
satu set kategori—sering kali ditentukan sebelum data dikumpulkan—mengambil semua informasi dalam
data? Misalnya, jawaban atas pertanyaan terbuka tentang prospek ekonomi keluarga untuk tahun depan
mungkin awalnya hanya dikategorikan sebagai “optimis” atau “pesimis”. Mungkin juga mencerahkan untuk
mengklasifikasikan tanggapan dalam hal konsep lain seperti fokus yang tepat dari harapan ini (pendapatan
atau pekerjaan) dan variasi dalam tanggapan antara kepala keluarga dan orang lain dalam keluarga.
Saling Eksklusivitas
Aturan penting lainnya ketika menambahkan kategori atau menyelaraskan kembali kategori adalah bahwa
komponen kategori harus saling eksklusif. Standar ini terpenuhi ketika jawaban spesifik dapat ditempatkan dalam
satu dan hanya satu sel dalam satu set kategori. Misalnya, dalam sebuah survei, asumsikan bahwa Anda meminta
peserta untuk pekerjaan mereka. Skema kategorisasi satu editor mungkin termasuk (1) profesional, (2) manajerial,
(3) penjualan, (4) klerus, (5) kerajinan, (6) koperasi, dan (7) pengangguran. Sebagai editor, bagaimana Anda
mengkodekan jawaban peserta yang menyebutkan “penjual di Gap dan siswa tetap” atau mungkin “guru sekolah
dasar dan ahli pajak”? Menurut data sensus, tidak jarang orang dewasa di masyarakat kita memiliki lebih dari satu
pekerjaan. Di sini, definisi operasional dari pekerjaan yang dikategorikan sebagai "profesional", "manajerial, ” dan
“penjualan” akan membantu memperjelas situasi. Tetapi editor yang menghadapi situasi ini juga perlu menentukan
bagaimana data pekerjaan kedua ditangani. Salah satu opsinya adalah menambahkan !lapangan pekerjaan kedua
ke kumpulan data; lain adalah mengembangkan kode yang berbeda untuk setiap kombinasi pekerjaan ganda yang
unik.
384 >bagian IV Sebuah
>fotoprofil
QSR International telah merilis versi dua dari program perangkat lunak penelitian kualitatif XSight. Dengan alat untuk menguji teori,
memetakan analisis Anda, dan melaporkan temuan, XSight digunakan di berbagai industri lain yang menangani informasi tidak terstruktur,
termasuk SDM, hukum, pemasaran, dan pariwisata. Layar ini menunjukkan fungsi "peta" XSight. Sama seperti bagan terbalik atau papan
tulis, "peta" memberi Anda ruang untuk mengatur pemikiran Anda dan mewakili hubungan di antara mereka secara visual. Apa yang
membuat “peta” XSight unik adalah peta tersebut dapat didukung dengan tautan langsung ke informasi pendukung, seperti kutipan
peserta. Anda juga dapat mengimpor peta ke dalam brief dan presentasi klien Anda.www.qsinternational.com
Dimensi Tunggal
Masalah bagaimana menangani entri pekerjaan seperti "penjual yang menganggur" memunculkan aturan
keempat dari desain kategori. Kebutuhan set kategori untuk mengikuti prinsip klasifikasi tunggal berarti
setiap pilihan dalam set kategori didefinisikan dalam satu konsep atau konstruk. Kembali ke contoh
pekerjaan, orang dalam penelitian ini mungkin seorang tenaga penjualan dan pengangguran. Label
“penjual” mengungkapkan konsepnyajenis pekerjaan; tanggapan "menganggur" adalah dimensi lain yang
berkaitan dengan status pekerjaan saat ini tanpa memperhatikan pekerjaan normal responden. Bila
kumpulan kategori mencakup lebih dari satu dimensi, editor dapat memilih untuk membagi dimensi dan
mengembangkan bidang data tambahan; "pekerjaan" sekarang menjadi dua variabel: "jenis pekerjaan" dan
"status pekerjaan."
Analisis konten Naisbitt Group dari 2 juta artikel surat kabar lokal yang dikumpulkan selama periode 12
tahun menghasilkan publikasi: Megatren.
Jenis Konten
Analisis isi telah digambarkan sebagai "teknik penelitian untuk deskripsi objektif, sistematis, dan
kuantitatif dari isi nyata dari suatu komunikasi."2 Karena definisi ini terkadang dikacaukan dengan
sekadar menghitung aspek pesan yang jelas seperti kata atau atribut, interpretasi yang lebih baru
telah memperluas definisi untuk memasukkan konten laten dan manifes, makna simbolis pesan, dan
analisis kualitatif. Seorang penulis menyatakan:
Dalam satu pesan tertulis, seseorang dapat menghitung huruf, kata, atau kalimat. Seseorang dapat mengkategorikan frasa,
menggambarkan struktur logis dari ekspresi, memastikan asosiasi, konotasi, denotasi, kekuatan elokusi, dan seseorang juga dapat
menawarkan interpretasi psikiatris, sosiologis, atau politik. Semua ini mungkin berlaku secara bersamaan. Singkatnya, sebuah
pesan dapat menyampaikan banyak konten bahkan ke satu penerima.3
Analisis isi mengikuti proses sistematis untuk mengkodekan dan menarik kesimpulan dari teks. Dimulai dengan
menentukan unit data mana yang akan dianalisis. Dalam teks tertulis atau lisan, unit data terdiri dari empat jenis:
sintaksis, referensial, proposisional, atau tematik. Setiap jenis unit adalah dasar untuk mengkodekan teks ke dalam
kategori yang saling eksklusif dalam pencarian kami akan makna.
• sintaksis satuan dapat berupa kata, frasa, kalimat, atau paragraf; kata adalah unit data terkecil dan paling dapat
diandalkan untuk dianalisis. Meskipun kita pasti dapat menghitung unit-unit ini, kita lebih tertarik pada makna yang
diungkapkan penggunaannya. Dalam analisis isi, kami mungkin menentukan kata-kata yang paling umum
digunakan untuk menggambarkan produk A versus pesaingnya, produk B. Kami bertanya, Apakah deskripsi untuk
produk A ini lebih cenderung mengarah pada opini yang menguntungkan dan dengan demikian pada preferensi dan
akhirnya pemilihan, dibandingkan dengan deskripsi yang digunakan untuk produk B?
• Referensi unit adalah dijelaskan dengan kata, frasa, dan kalimat; mereka mungkin objek, peristiwa, orang, dan
sebagainya, yang mengacu pada ekspresi verbal atau tekstual. Peserta dapat merujuk pada suatu produk sebagai
“klasik”, “penampil kekuatan”, atau “peringkat pertama dalam keamanan”—setiap kata atau frasa dapat digunakan
untuk menggambarkan objek yang berbeda, dan itu adalah objek yang dikodekan dan dianalisis oleh peneliti.
kaitannya dengan frasa.
• proposisional unit adalah pernyataan tentang suatu objek, peristiwa, orang, dan sebagainya. Misalnya, seorang
peneliti yang menilai iklan untuk langganan majalah mungkin menyimpulkan, "Pelanggan yang merespons
penawaran A akan menghemat $15 dari tarif terbitan tunggal." Ini adalah pernyataan penghematan yang
dilampirkan pada teks klaim iklan khusus ini.
• Tematik unit adalah topik terkandung di dalam (dan di seberang) teks; mereka mewakili abstraksi tingkat
tinggi yang disimpulkan dari teks dan konteksnya. Tanggapan terhadap pertanyaan terbuka tentang
perilaku pembelian mungkin mencerminkan tema temporal: masa lalu ("Saya tidak pernah membeli merek
alternatif sebelum Anda mengubah paket"), masa kini ("Saya sangat menyukai kemasan baru"), atau masa
depan (“Saya akan membeli produk lebih sering jika datang dalam lebih banyak rasa”). Kita juga bisa melihat
komentar yang berkaitan dengan tema atau topik "kemasan" versus karakteristik produk, "rasa."
Seperti semua metodologi penelitian lainnya, penggunaan analitis dari analisis isi "dipengaruhi oleh
keputusan yang dibuat sebelum pengumpulan data. Analisis isi menjaga terhadap persepsi selektif dari isi,
menyediakan penerapan kriteria reliabilitas dan validitas yang ketat, dan dapat diterima untuk
komputerisasi.
Contoh
Mari kita lihat aplikasi informal analisis isi untuk pertanyaan terbuka yang bermasalah. Dalam contoh ini,
yang kami proses tanpa menggunakan perangkat lunak analisis konten, misalkan karyawan di departemen
penjualan perusahaan manufaktur ditanya, "Bagaimana hubungan perusahaan-pelanggan dapat
ditingkatkan?" Contoh tanggapan menghasilkan sebagai berikut:
• Kita harus berhenti berusaha mempercepat proses penjualan ketika pelanggan telah menyatakan keberatan atau
kekhawatirannya.
• Kita harus memiliki perangkat lunak yang memungkinkan pelacakan pesanan pelanggan secara real-time.
• Laptop kami sudah usang. Kami tidak dapat bekerja dengan perangkat lunak terbaru atau mengakses informasi dengan cepat saat
kami berada di lapangan.
• Manajer [departemen penjualan] saya bersikap kasar kepada pelanggan ketika dia mendapat telepon saat saya di
lapangan. Dia harus dipindahkan atau dipecat.
• Manajemen harus berhenti menekan kami untuk memenuhi kuota penjualan ketika pelanggan kami telah membatasi status
buka untuk membeli mereka.
Langkah pertama dalam analisis mensyaratkan bahwa unit yang dipilih atau dikembangkan membantu menjawab
pertanyaan penelitian. Dalam contoh kita, pertanyaan penelitian berkaitan dengan mempelajari siapa atau apa yang
dianggap tenaga penjualan sebagai sumber untuk meningkatkan hubungan perusahaan-pelanggan. Lintasan pertama
melalui data menghasilkan beberapa kategori umum dalam satu dimensi konsep: sumber tanggung jawab, ditunjukkan
pada Tampilan 15-4. Kategori-kategori ini saling eksklusif. Penggunaan "lainnya" membuat kumpulan kategori menjadi
lengkap. Namun, jika banyak peserta sampel menyarankan perlunya tindakan oleh pihak lain—misalnya, pemerintah atau
asosiasi perdagangan—maka memasukkan semua tanggapan tersebut ke dalam kategori “lainnya” akan mengabaikan
banyak kekayaan data. Seperti skema pengkodean untuk respons numerik, pilihan kategori sangat penting.
Karena tanggapan terhadap jenis pertanyaan ini sering menyarankan tindakan khusus, evaluasi kedua
dari data menggunakan unit proposisional. Jika kita hanya menggunakan set kategori dalam Tampilan 15-4,
analisis akan menghilangkan banyak informasi. Analisis kedua menghasilkan kategori untuk tindakan
perencanaan:
• Hubungan manusia.
• Teknologi.
• Latihan.
• Perencanaan strategis.
• Area aksi lainnya.
• Tidak ada area tindakan yang teridentifikasi.
A. Manajemen
1. Manajer penjualan 10
2. Proses penjualan 20
3. Lainnya 7
B. Penjual
1. Pelatihan 15
C. Pelanggan
1. Proses pembelian 12
2. Lainnya 8
D. Kondisi lingkungan
E. Teknologi 20
F. Lainnya
Bagaimana kita dapat mengkategorikan tanggapan yang menyarankan proses teknologi pelatihan gabungan?
Tampilan#15-5 mengilustrasikan kombinasi alternatif. Mengambil kategori dari daftar !pertama dari area aksi
memungkinkan untuk mendapatkan penghitungan frekuensi yang akurat dari kemungkinan klasifikasi bersama
untuk pertanyaan ini.
Dengan menggunakan perangkat lunak yang tersedia, peneliti dapat menghabiskan lebih sedikit waktu untuk mengkodekan tanggapan
terbuka dan menangkap kategori. Perangkat lunak juga menghilangkan biaya pengiriman tanggapan yang tinggi ke !rms pengkodean luar. Apa
yang dulunya membutuhkan staf pengkodean beberapa hari sekarang dapat dilakukan dalam beberapa jam.
Perangkat lunak analisis konten menerapkan algoritme statistik untuk tanggapan pertanyaan terbuka. Ini
memungkinkan proses stemming, aliasing, dan eksklusi.Stemming menggunakan derivasi dari kata dasar umum
untuk membuat alias (misalnya, using mencari, mencari, mencari, untuk Cari). Aliasmencari sinonim (bijaksana atau
pintar untuk cerdas). Pengecualian!menyaring kata-kata sepele (menjadi, adalah, dari ) dalam pencarian makna.4
Saat Anda menggunakan program berbasis menu, opsi kategorisasi otomatis membuat kategori yang dapat dikelola
dengan mengelompokkan istilah yang muncul bersama di seluruh kumpulan data tekstual. Kemudian, dengan beberapa
penekanan tombol, Anda dapat mengubah parameter kategorisasi dan mengubah hasil Anda. Setelah kategori Anda
konsisten dengan pertanyaan penelitian dan investigasi, Anda memilih apa yang ingin Anda ekspor ke file data atau dalam
format tab-delimited. Outputnya, dalam bentuk tabel dan plot, berfungsi sebagai modul untuk laporan akhir Anda.
Tampilan 15-6 menunjukkan plot yang dihasilkan oleh analisis isi dari data keluhan MindWriter. Jarak antara pasangan
istilah mengungkapkan seberapa besar kemungkinan istilah itu muncul bersama-sama, dan warna mewakili kategori.
Diperiksa
sebelum Pengirim
kembali daya tanggap
Kembali
tidak diperbaiki
Jaminan
Kelipatan (!3x) masalah
Produk
perbaikan
kualitas
Bagian tidak
disimpan di
Profesionalisme
persediaan
Telepon
tahan waktu
Tidak
jawaban DK sah bila responden tidak mengetahui jawabannya. Tanggapan ini memenuhi tujuan penelitian
kami; kami mengharapkan tanggapan DK dan menganggapnya berguna.
Dalam situasi kedua, jawaban DK menggambarkan kegagalan peneliti untuk mendapatkan informasi
yang sesuai. Perhatikan pertanyaan ilustratif berikut:
4. Dari berbagai merek permen karet, mana yang menurut Anda memiliki kualitas terbaik?
5. Seberapa sering setiap tahun Anda pergi ke bioskop?
Masuk akal untuk mengharapkan bahwa beberapa tanggapan DK yang sah akan dibuat untuk masing-masing
pertanyaan ini. Pada pertanyaan pertama, responden ditanya tentang tingkat informasi yang seringkali tidak
mereka miliki. Tampaknya ada sedikit alasan untuk menahan jawaban yang benar jika diketahui. Dengan demikian,
sebagian besar jawaban DK atas pertanyaan ini harus dianggap sah. Tanggapan DK untuk pertanyaan kedua
menghadirkan masalah yang berbeda. Tidak segera jelas apakah responden tidak mengetahui kebijakan !skal
presiden atau mengetahui kebijakan tersebut tetapi belum membuat penilaian tentangnya. Peneliti seharusnya
mengajukan dua pertanyaan: Pertama, mereka akan menentukan tingkat kesadaran responden terhadap
kebijakan !skal. Jika orang yang diwawancarai lulus tes kesadaran, maka pertanyaan kedua akan memberikan
penilaian tentang kebijakan !skal.
Dalam tiga pertanyaan yang tersisa, jawaban DK lebih cenderung menjadi kegagalan proses pertanyaan, meskipun
beberapa pasti akan sah. Responden mungkin enggan memberikan informasi. Tanggapan DK untuk pertanyaan 3 mungkin
merupakan cara untuk mengatakan, “Saya tidak ingin menjawab pertanyaan itu.” Pertanyaan 4 mungkin juga menimbulkan
respons DK di mana balasannya diterjemahkan menjadi “Ini terlalu tidak penting untuk dibicarakan.” Pada pertanyaan 5,
responden diminta untuk melakukan perhitungan tentang suatu topik untuk
>bab 15 Persiapan dan Deskripsi Data 389
1-3 tahun 30 30 32
yang mungkin mereka anggap kurang penting. Sekarang DK mungkin berarti "Saya tidak ingin melakukan pekerjaan itu untuk
sesuatu yang konsekuensinya sangat kecil."
Cara terbaik untuk menangani jawaban DK yang tidak diinginkan adalah dengan merancang pertanyaan pengukuran yang
lebih baik. Peneliti harus mengidentifikasi pertanyaan-pertanyaan yang tanggapan DK-nya tidak memuaskan dan
merancangnya. Namun, pewawancara sering mewarisi masalah ini dan harus menghadapinya di lapangan. Beberapa
tindakan kemudian mungkin. Pertama, hubungan pewawancara-responden yang baik akan memotivasi responden untuk
memberikan jawaban yang lebih bermanfaat. Ketika pewawancara mengenali respons DK yang mengelak, mereka dapat
mengulangi pertanyaan atau menyelidiki jawaban yang lebih pasti. Pewawancara juga dapat merekam setiap elaborasi oleh
responden dan menyampaikan masalahnya kepada editor.
Jika editor menemukan banyak tanggapan yang tidak diinginkan, hanya sedikit yang dapat dilakukan kecuali
komentar verbatim dapat ditafsirkan. Memahami makna sebenarnya bergantung pada petunjuk dari jawaban
responden atas pertanyaan lain. Salah satu caranya adalah dengan memperkirakan alokasi jawaban DK dari data
lain dalam kuesioner. Pola tanggapan mungkin sejajar dengan tingkat pendapatan, pendidikan, atau pengalaman.
Misalkan pertanyaan tentang apakah pelanggan menyukai tenaga penjual mereka saat ini mendapatkan jawaban
dalam Tampilan#15-7. Korelasi antara tahun pembelian dan jawaban “tidak tahu” dan jawaban “tidak”
menunjukkan bahwa sebagian besar jawaban “tidak tahu” adalah jawaban “tidak” yang disamarkan.
Ada beberapa cara untuk menangani jawaban “tidak tahu” dalam tabulasi. Jika hanya ada sedikit, cara penanganannya
tidak banyak berbeda, tetapi kemungkinan besar mereka akan disimpan sebagai kategori terpisah. Jika tanggapan DK sah,
itu harus tetap sebagai kategori balasan yang terpisah. Ketika kita tidak yakin bagaimana memperlakukannya, kita harus
menyimpannya sebagai kategori pelaporan yang terpisah dan membiarkan sponsor penelitian membuat keputusan.
Data Hilang
Data hilang adalah informasi dari peserta atau kasus yang tidak tersedia untuk satu atau lebih variabel yang
menarik. Dalam studi survei, data yang hilang biasanya terjadi ketika peserta secara tidak sengaja melewatkan,
menolak untuk menjawab, atau tidak mengetahui jawaban atas item pada kuesioner. Dalam studi longitudinal,
data yang hilang mungkin disebabkan oleh peserta yang keluar dari studi, atau absen selama satu atau lebih
periode pengumpulan data. Data yang hilang juga terjadi karena kesalahan peneliti, file data yang rusak, dan
perubahan dalam penelitian atau desain instrumen setelah data dikumpulkan dari beberapa partisipan, seperti
ketika variabel dihilangkan atau ditambahkan. Strategi untuk menangani data yang hilang terdiri dari proses dua
langkah: peneliti pertama mengeksplorasi pola data yang hilang untuk menentukan mekanisme untukkekurangan (
probabilitas bahwa suatu nilai hilang daripada diamati) dan kemudian memilih teknik data yang hilang.
390 >bagian IV Analisis dan Penyajian Data
>Pameran 15-8 Kumpulan Data MindWriter: Data Hilang dan Di Luar Jangkauan
Kasus 1A 1B 2A 2B 2C
5 1.0 2.0
Sah 15 14 11 14 13
hilang 0 1 4 1 2
Jarak 6 2 2 3 6
Minimum 1 3 3 2 3
Maksimum 7 5 5 5 9
Periksa distribusi sampel variabel dari kumpulan data MindWriter yang ditunjukkan pada Tampilan#15-8.
Data ini dikumpulkan pada skala interval 5 poin. Tidak ada data yang hilang dalam variabel 1A, meskipun
jelas bahwa kisaran 6 dan nilai maksimum 7 membatalkan nilai rata-rata atau rata-rata yang dihitung.
Variabel 1B dan 2B memiliki satu kasus yang hilang tetapi nilai-nilai yang berada dalam jangkauan. Variabel
2A kehilangan empat kasus, atau 27 persen dari titik datanya. Variabel terakhir, 2C, memiliki rentang 6, dua
nilai yang hilang, dan tiga nilai yang dikodekan sebagai "9." "9" sering digunakan sebagai DK atau kode nilai
yang hilang ketika skala memiliki rentang kurang dari 9 poin. Dalam hal ini baik kosong maupun 9 ada—
masalah pengkodean. Perhatikan bahwa !responden ke-5 hanya menjawab dua dari !ve pertanyaan dan
responden kedua memiliki dua jawaban yang salah kode dan satu nilai yang hilang. Akhirnya, dengan
menggunakan indeks deskriptif bentuk, yang dibahas dalam Lampiran 15a, Anda dapat menemukan tiga
variabel yang menyimpang dari simetri distribusi normal. Mereka dimiringkan (atau ditarik) ke kiri oleh
sejumlah kecil 1 dan 2 yang tidak proporsional. Dan distribusi satu variabel mencapai puncaknya di luar
dimensi normal. Kami baru saja menggunakan nilai minimum dan maksimum, rentang, dan rata-rata dan
telah menemukan kesalahan dalam pengkodean, masalah dengan pola jawaban responden, dan kasus yang
hilang.
>bab 15 Persiapan dan Deskripsi Data 391
• Data hilang sepenuhnya secara acak (MCAR)—probabilitas bahwa variabel tertentu tidak ada TIDAK
tergantung pada variabel itu sendiri dan TIDAK tergantung pada variabel lain dalam kumpulan data
(misalnya, peserta secara tidak sengaja melewatkan pertanyaan).
• Data hilang secara acak (MAR)—probabilitas bahwa variabel tertentu hilang TIDAK tergantung pada variabel itu
sendiri tetapi tergantung pada variabel lain dalam kumpulan data (misalnya, jawaban atas pertanyaan pertama
dari kumpulan pertanyaan bercabang mungkin menyebabkan data yang hilang ke pertanyaan kedua dalam set
pertanyaan bercabang).
• Data missing but not missing at random (NMAR)—ketika data yang hilang tidak dapat diprediksi dari
variabel lain dalam kumpulan data.
Tiga teknik digunakan untuk menyelamatkan kumpulan data dengan data yang hilang:
• Penghapusan berdasarkan daftar—kasus dengan data yang hilang pada satu variabel dihapus dari sampel untuk
semua analisis variabel itu.
• Penghapusan berpasangan—data yang hilang diestimasi menggunakan semua kasus yang memiliki data untuk setiap
variabel atau pasangan variabel; estimasi menggantikan data yang hilang.
• Penggantian prediktif—data yang hilang diprediksi dari nilai yang diamati pada variabel lain; nilai yang
diamati digunakan untuk menggantikan data yang hilang.
Penghapusan listwise adalah opsi default untuk MCAR dan digunakan oleh sebagian besar paket statistik seperti SPSS
dan SAS. Tidak ada bias yang diperkenalkan karena hanya kasus lengkap yang digunakan sebagai sampel untuk variabel.
Namun, jika data adalah MAR, bukan MCAR, maka bias dapat terjadi, terutama jika sejumlah besar kasus dihilangkan dari
sampel. Misalnya, dalam sebuah survei jika laki-laki lebih mungkin bertanggung jawab daripada perempuan atas hilangnya
data pada variabel yang berkaitan dengan preferensi pelatihan, maka menghapus laki-laki dari sampel akan membuat bias
analisis preferensi pelatihan terhadap preferensi pelatihan perempuan.
Penghapusan berpasangan mengasumsikan data adalah MCAR. Teknik ini, meskipun digunakan secara historis oleh
model linier, memiliki potensi untuk menimbulkan bias.
Penggantian prediktif mengasumsikan data adalah MAR. Salah satu pilihan umum yang tersedia pada sebagian
besar paket statistik adalah penggunaan mean atau skor tendensi sentral lainnya sebagai pengganti data yang
hilang. Praktik ini mengurangi variabilitas data, yang dapat menimbulkan bias.
Ketika data adalah NMAR, data yang hilang dimasukkan ke dalam analisis sebagai kategori data yang terpisah pada
variabel tersebut.
4
••
Aetna 68 27 59.6
3 Bell Atl 105 32 103,9 Belajar 1
2 CalFed 42 11 23.9 Belajar 2
1 Belajar 3
yang memberi staf entri terpusat, seperti pewawancara telepon atau peserta online, akses ke survei. Baik SAS
maupun SPSS menawarkan perangkat lunak yang dengan mudah mengakses data dari database, spreadsheet,
gudang data, atau data mart.
Pengembangan Basis Data Untuk proyek besar, program database berfungsi sebagai perangkat entri data yang
berharga. SEBUAHbasis data adalah kumpulan data yang terorganisir untuk pengambilan secara komputerisasi. Program
memungkinkan pengguna untuk mendefinisikan !lapangan dan !le data sehingga penyimpanan, pengambilan, dan
pemutakhiran disederhanakan. Hubungan antaradata !bidang, catatan data, !les, dan database diilustrasikan dalam
Tampilan 15-9. Pesanan perusahaan berfungsi sebagai contoh database. Informasi pemesanan dapat disimpan dalam
beberapa !le: !le pelanggan wiraniaga, !catatan keuangan pelanggan, catatan produksi pesanan, dan dokumentasi
pengiriman pesanan. Data dipisahkan sehingga orang yang berwenang hanya dapat melihat bagian-bagian yang sesuai
dengan kebutuhan mereka. Namun, !le dapat ditautkan sehingga ketika, misalnya, pelanggan mengubah alamat
pengirimannya, perubahan tersebut dimasukkan sekali dan semua !le yang relevan diperbarui. Opsi entri database lainnya
adalah pengambilan data email. Ini telah menjadi populer di kalangan mereka yang menggunakan survei yang dikirim
melalui email. Survei email dapat dikirimkan ke responden tertentu yang alamat emailnya diketahui. Pertanyaan
diselesaikan di layar, dikembalikan melalui email, dan dimasukkan ke dalam database.6 Intranet juga dapat menangkap
data. Ketika peserta yang terhubung oleh jaringan mengambil survei online dengan mengisi formulir database, data
ditangkap dalam database di server jaringan untuk analisis nanti atau real-time.7 Persyaratan ID dan kata sandi dapat
mencegah peserta yang tidak diinginkan dari hasil survei online yang menyimpang.
Peneliti mempertimbangkan entri database ketika mereka memiliki sejumlah besar data yang berpotensi terkait yang
akan diambil dan ditabulasi dengan cara yang berbeda dari waktu ke waktu. Aplikasi lain dari program database adalah
sebagai mekanisme entri "front-end". Seorang pewawancara telepon dapat mengajukan pertanyaan “Berapa banyak anak
yang tinggal di rumah Anda?” Perangkat lunak komputer telah diprogram untuk menerima jawaban apa pun antara 0 dan
20. Jika "P" tidak sengaja dipukul, program tidak akan menerima jawaban dan akan mengembalikan pewawancara
ke pertanyaan. Dengan instrumen online yang telah dikodekan sebelumnya, beberapa pengeditan yang telah
dibahas sebelumnya dilakukan oleh program. Selain itu, program dapat diatur untuk percabangan bersyarat
otomatis. Dalam contoh, jawaban 1 atau lebih menyebabkan program meminta penanya menanyakan usia anak-
anak. A 0 menyebabkan pertanyaan usia dilewati secara otomatis. Meskipun opsi ini tersedia setiap kali komputasi
interaktif digunakan, pemrosesan front-end biasanya dilakukan dalam desain database. Basis data kemudian akan
menyimpan data dalam satu set !le tertaut yang memungkinkan data diurutkan dengan mudah. Statistik dan tabel
deskriptif—langkah pertama dalam mengeksplorasi data—sudah siap dibuat dari dalam database.
Spreadsheet Spreadsheet adalah jenis database khusus untuk data yang memerlukan pengorganisasian, tabulasi,
dan statistik sederhana. Mereka juga menawarkan beberapa kemampuan manajemen database, grafik, dan
presentasi. Entri data padalembar kerja menggunakan baris bernomor dan kolom berhuruf dengan matriks
>bab 15 Persiapan dan Deskripsi Data 393
dari ribuan sel tempat entri dapat ditempatkan. Spreadsheet memungkinkan Anda mengetikkan angka, rumus, dan
teks ke dalam sel yang sesuai. Banyak program statistik untuk komputer pribadi dan juga aplikasi grafik dan grafik
memiliki editor data yang mirip dengan format lembar bentang Excel yang ditunjukkan pada Tampilan#15-10. Ini
adalah cara yang nyaman dan "fleksibel untuk memasukkan dan melihat data.
Pengenalan Optik
Jika Anda menggunakan pemindai gambar PC, Anda mungkin sudah familiar dengan pengenalan karakter optik (OCR)
program yang mentransfer teks tercetak ke file komputer untuk mengedit dan menggunakannya tanpa mengetik
ulang. Ada aplikasi terkait lainnya.Pemindaian optik instrumen—pilihan layanan pengujian—efisien bagi para
peneliti. Peserta ujian menggelapkan lingkaran kecil, elips, atau spasi di antara rangkaian garis paralel untuk
menunjukkan jawaban mereka. Format yang lebih "fleksibel,pengenalan tanda optik (OMR) menggunakan
antarmuka bergaya spreadsheet untuk membaca dan memproses formulir yang dibuat pengguna. Pemindai optik
memproses kuesioner yang ditandai dan menyimpan jawabannya dalam file. Metode ini, paling sering dikaitkan
dengan formulir standar dan pracetak, telah diadopsi oleh para peneliti untuk entri data dan pra-pemrosesan
karena kecepatannya (10 kali lebih cepat daripada keyboard), penghematan biaya entri data, kenyamanan dalam
pembuatan bagan dan pelaporan data, dan peningkatan akurasi. . Ini mengurangi berapa kali data ditangani,
sehingga mengurangi jumlah kesalahan yang diperkenalkan.
Teknik lain termasuk entri tanggapan langsung, di mana prosedur pemungutan suara yang digunakan di beberapa
negara bagian adalah contohnya. Dengan kartu punch yang disiapkan secara khusus, warga memberikan suara mereka
dengan menekan instrumen berbentuk pena pada kartu di sebelah kandidat yang dipilih. Ini akan membuka lubang kecil di
kolom dan baris kartu tertentu. Kartu dikumpulkan dan ditempatkan langsung ke pembaca kartu. Metode ini juga
menghilangkan langkah pengkodean dan entri. Aplikasi pemerintah lainnya adalah formulir 1040EZ yang digunakan
394 >bagian IV Analisis dan Penyajian Data
>jeprettembakan
Mencari Data Netnografi Bersih
Dalam analisis isi, peneliti menganalisis informasi anekdot untuk posting banyak komentar dari satu individu, sehingga menimbulkan
menentukan tema utama komentar. Para peneliti semakin banyak bias. Dina Mayzlin dari Yale School of Management menyarankan untuk
menggunakan data umpan balik yang diposting di Web atau secara memilih komentar dari sejumlah besar situs, daripada memilih
internal! di ruang obrolan intranet untuk menangkap konten semacam sejumlah besar komentar dari satu situs; dispersi seperti itu
itu. Postingan datang dalam bentuk review produk, evaluasi mengurangi bias. Dalam membersihkan data tersebut, Zhilin Yang dari
perusahaan, pengalaman karyawan, posting papan pesan dan City University of Hong Kong dan Robin Peterson dari New Mexico
newsgroup, serta dialog chat room dan posting forum diskusi. State University menyarankan agar peneliti menyaring pesan untuk
Memilih data tersebut untuk analisis membutuhkan beberapa mendeteksi anekdot yang tidak relevan, duplikasi, permintaan pesan
penyaringan yang cermat. Saat menggunakan posting bersih, Chrysanthos untuk diposting, dan pesan spam, yang semuanya jika dibiarkan di
Dellarocas dari Massachusetts Institute of Technology merekomendasikan kumpulan data akan menyuntikkan bias.
agar peneliti mengekstrak informasi dari situs yang dapat mengotentikasi Jika Anda ingin mencoba mengumpulkan dan menyaring data
identitas peserta; ini mengurangi atau mencegah penilaian yang tidak adil tersebut, beberapa situs yang berguna termasuk ZDnet.com,
dan perilaku diskriminatif. Beberapa situs opini menggunakan insentif Bizrate.com, Amazon.com, eBay.com, Elance.com, Complaints.com,
keuangan untuk mendorong posting, yang mungkin mendorong reviewcentre.com, dan Epinion.com.
oleh Dinas Pendapatan Internal. Hal ini dirancang untuk nomor komputerisasi dan pengenalan karakter. Teknik
pengenalan karakter yang serupa digunakan untuk berbagai bentuk pengumpulan data. Sekali lagi, kedua
pendekatan memindahkan respons dari pertanyaan ke analisis data dengan sedikit penanganan.
Pengenalan suara
Peningkatan panggilan acak terkomputerisasi telah mendorong inovasi pengumpulan data lainnya. Pengenalan
suara dan sistem respons suara memberikan beberapa alternatif menarik bagi pewawancara telepon. Setelah
mendapatkan respons suara ke nomor yang dipanggil secara acak, komputer bercabang menjadi rutinitas
kuesioner. Sistem ini berkembang pesat dan akan segera menerjemahkan tanggapan suara yang direkam ke
dalam file data.
Digital
Respon keypad telepon, yang sering digunakan oleh restoran dan tempat hiburan untuk mengevaluasi layanan
pelanggan, adalah kemampuan lain yang dimungkinkan oleh komputer yang terhubung ke saluran telepon.
Menggunakan papan tombol telepon (nada sentuh), peserta yang diundang menjawab pertanyaan dengan
menekan nomor yang sesuai. Komputer menangkap data dengan mendekode sinyal listrik nada dan menyimpan
jawaban numerik atau abjad dalam file data. Meskipun awalnya tidak dirancang untuk mengumpulkan data survei,
komponen perangkat lunak dalam Microsoft Windows 7 memiliki fungsi pengenalan suara tingkat lanjut,
memungkinkan orang untuk memasukkan dan mengedit data dengan berbicara ke mikrofon.8
Pewawancara lapangan dapat menggunakan komputer seluler atau buku catatan alih-alih papan klip dan pensil.
Dengan modem komunikasi built-in, LAN nirkabel (atau jaringan area lokal), atau tautan seluler, file mereka dapat dikirim
langsung ke komputer lain di lapangan atau ke situs jarak jauh (cloud). Hal ini memungkinkan supervisor memeriksa data
dengan segera atau menyederhanakan pemrosesan di fasilitas pusat. Ini adalah teknologi yang Nielsen Media gunakan
dengan PeopleMeter portabelnya.
Kode Batang Sejak adopsi Kode Produk Universal (UPC) pada tahun 1973, kode batang telah berkembang
dari keingintahuan teknologi menjadi andalan bisnis. Setelah studi oleh McKinsey & Company, rantai
percontohan Kroger menguji sistem produksi dan kode batang menjadi ada di mana-mana di industri itu.9
>bab 15 Persiapan dan Deskripsi Data 395
Teknologi barcode digunakan untuk menyederhanakan peran pewawancara sebagai perekam data. Ketika seorang
pewawancara melewati tongkat kode batang di atas kode yang sesuai, data dicatat dalam unit kecil dan ringan untuk
diterjemahkan nanti. Dalam proyek pemrosesan skala besar Sensus 2000, Pusat Pengambilan Data Sensus menggunakan
kode batang untuk mengidentifikasi penduduk. Peneliti mempelajari pembaca majalah dapat memindai kode batang untuk
menunjukkan sampul majalah yang dikenali oleh peserta wawancara.
Itu kode batang digunakan dalam berbagai aplikasi: terminal titik penjualan, gelang ID pasien rumah sakit,
kontrol inventaris, pelacakan produk dan merek, evaluasi teknik promosi, pelacakan pengiriman, pelari maraton,
lokasi penyewaan mobil (untuk mempercepat pengembalian mobil dan menghasilkan faktur) , dan pelacakan
kebiasaan kawin serangga. Militer menggunakan kode batang sepanjang dua kaki untuk memberi label kapal di
gudang. Kode muncul pada dokumen bisnis, suku cadang truk, dan kayu di tempat pembuatan kayu. Label
pengiriman Federal Express menggunakan kode yang disebutCodabar. Kode lain, yang berisi huruf maupun angka,
memiliki potensi untuk peneliti.
Di cakrawala
Bahkan dengan pengurangan waktu antara pengumpulan dan analisis data ini, inovasi menawarkan janji yang signifikan.
Kemampuan untuk mengintegrasikan gambar visual, streaming video, audio, dan data telah menggantikan peralatan video
sebagai metode yang disukai untuk merekam eksperimen, wawancara, atau grup fokus. Data respons dapat diekstraksi
untuk analisis data, sedangkan gambar audio dan visual tetap utuh untuk evaluasi nanti. Meskipun teknologi tidak akan
pernah menggantikan penilaian peneliti, teknologi dapat mengurangi kesalahan penanganan data, mengurangi waktu
antara pengumpulan dan analisis data, dan membantu memberikan informasi yang lebih bermanfaat.
>ringkasan
1 Langkah pertama dalam persiapan data adalah mengedit data mentah yang dikumpulkan adalah analisis isi. Ini menggunakan unit pengambilan sampel yang telah dipilih
data untuk mendeteksi kesalahan dan kelalaian yang akan membahayakan sebelumnya untuk menghasilkan jumlah frekuensi dan wawasan lain ke dalam
standar kualitas. Editor bertanggung jawab untuk memastikan data akurat, pola data.
konsisten dengan data lain, dimasukkan secara seragam, dan siap untuk
4 Jawaban “Tidak tahu” dievaluasi berdasarkan sifat pertanyaan dan
pengkodean. Dalam pekerjaan survei, adalah umum untuk menggunakan
responden. Meskipun banyak DK yang sah, beberapa dihasilkan dari
penyuntingan lapangan dan penyuntingan pusat.
pertanyaan yang ambigu atau dari situasi wawancara yang tidak
2 Coding adalah proses pemberian nomor dan lainnya memotivasi. Lebih baik melaporkan DK sebagai kategori terpisah
simbol ke jawaban sehingga kita dapat mengklasifikasikan kecuali ada alasan kuat untuk memperlakukannya sebaliknya. Data
tanggapan ke dalam kategori. Kategori harus sesuai dengan yang hilang terjadi ketika responden melewatkan, menolak menjawab,
masalah penelitian, data lengkap, saling eksklusif, dan atau tidak mengetahui jawaban suatu item kuesioner, keluar dari
unidimensional. Pengurangan informasi melalui pengkodean penelitian, atau tidak hadir selama satu atau lebih periode
mengharuskan peneliti merancang kategori dengan hati-hati, pengumpulan data. Kesalahan peneliti, file data yang rusak, dan
menggunakan data sebanyak mungkin. Codebook adalah perubahan pada instrumen selama administrasi juga menghasilkan
panduan untuk mengurangi kesalahan entri data dan berfungsi data yang hilang. Peneliti menangani data yang hilang dengan terlebih
sebagai ringkasan lokasi variabel dan informasi lain untuk tahap dahulu menjelajahi data untuk menemukan sifat pola dan kemudian
analisis. Pengembangan perangkat lunak dalam konstruksi dan memilih teknik yang cocok untuk mengganti nilai dengan menghapus
desain survei mencakup penyematan aturan pengkodean yang kasus (atau! variabel) atau memperkirakan nilai.
menyaring data saat dimasukkan, mengidentifikasi data yang
tidak dimasukkan dengan benar. 5 Entri data dilakukan dengan entri keyboard dari instrumen yang telah
3 Pertanyaan tertutup termasuk item skala dan item lainnya dikodekan sebelumnya, pemindaian optik, keyboard waktu nyata, entri
yang jawabannya diantisipasi. Pengodean awal item tertutup data pad telepon, kode batang, pengenalan suara, OCR, OMR, dan
menghindari penyelesaian lembar pengkodean yang membosankan transfer data dari notebook elektronik dan komputer laptop. Program
untuk setiap respons. Pertanyaan terbuka lebih sulit untuk dikodekan database, spreadsheet, dan editor dalam program perangkat lunak
karena jawaban tidak disiapkan sebelumnya, tetapi mereka statistik menawarkan fleksibilitas untuk memasukkan, memanipulasi,
mendorong pengungkapan informasi yang lengkap. Metode dan mentransfer data untuk analisis, pergudangan, dan penambangan.
sistematis untuk menganalisis pertanyaan terbuka
396 >bagian IV Analisis dan Penyajian Data
>kunciistilah
kode batang 395 persiapan data 376 pengenalan tanda optik (OMR) 393
analisis konten 384 Tanggapan “tidak tahu” (DK) 387 lembar kerja 392
>diskusipertanyaan
Persyaratan dalam Ulasan d Awasi terus stok Anda, dan tandai kapan
1 Tentukan atau jelaskan: Anda harus—yaitu, daripada menunggu, ambil sedikit penurunan
f Data hilang.
h Beli barang dagangan bagus sebanyak mungkin dengan harga spesial
g Pengenalan tanda optik. harga untuk membantu membuat beberapa penurunan harga.
2 Bagaimana seharusnya peneliti menangani tanggapan “tidak tahu”? saya Mengurangi pembelian pembukaan dan bergantung pada layanan pengisian.
singkatan dari "push-money"—bonus item khusus untuk 4 Pilih sampel kecil anggota kelas, asosiasi kerja,
menjual gaya sepatu tertentu.) teman, atau teman dan minta mereka untuk menjawab pertanyaan
berikut dalam satu atau dua paragraf: Apa aspirasi karir Anda untuk
b Menggunakan PM sebelum terlalu tua. Juga mengurangi harga selama
lima tahun ke depan? Gunakan salah satu dari empat unit dasar
musim. Mengadakan pertemuan dengan tenaga penjualan yang menunjukkan
analisis isi untuk menganalisis tanggapan mereka. Jelaskan temuan
sepatu mana yang harus didorong.
Anda sebagai frekuensi untuk unit analisis yang dipilih.
c Dengan menempatkan PM pada barang-barang yang laris dan berpromosi
6 Entri data mengikuti pengumpulan data dalam penelitian yang diprofilkan waktu respons subdetik untuk penemuan dan eksplorasi dalam miliaran baris
selama sketsa pembukaan. Apa yang membuat Jason khawatir kumpulan data yang melibatkan data penjualan yang dikumpulkan dalam
tentang proses ini? modul penjualan dan distribusi SAP. Pengguna bisnis yang menggunakan
teknologi seperti Microsoft Excel dan Tableau dapat segera menjelajahi dan
Dari Konsep ke Praktek memvisualisasikan ukuran super
7 Pilih salah satu kasus dari situs teks yang memiliki has kumpulan data yang mengarah pada produktivitas yang lebih tinggi dan wawasan
instrumen (periksa bagian Abstrak Kasus untuk daftar semua yang lebih bermakna. Aplikasi lain apa yang akan Anda rekomendasikan untuk
kasus dan abstrak untuk masing-masing). Kode instrumen untuk organisasi Anda, khususnya staf pemasaran atau TI!?
entri data.
>kasus*
Pikiran yang Ingin Tahu—SEKARANG! NCRCC: Teeing Up dan Arah Strategis Baru
* Anda akan menemukan deskripsi setiap kasus di bagian Indeks Kasus dari buku teks ini. Periksa Indeks Kasus untuk menentukan apakah
suatu kasus menyediakan data, instrumen penelitian, video, atau materi tambahan lainnya. Kasus tertulis dapat diunduh dari situs web teks
(www.mhhe.com/cooper12e). Semua materi video dan kasus video tersedia dari Pusat Pembelajaran Online.
>lampiran15a
Menggambarkan Data Secara Statistik
Di bagian pertama Bab 15, kita membahas bagaimana tanggapan memiliki peningkatan penjualan unit sebesar 7 persen
dari peserta diedit, diberi kode, dan dimasukkan. Membuat ringkasan mewakili 33,3# persen dari total jumlah produsen yang
numerik dari proses ini memberikan wawasan berharga kepada disurvei (3/9 3 100). Persentase kumulatif mengungkapkan
analis tentang efektivitasnya. Dalam lampiran ini- jumlah produsen yang memberikan tanggapan danorang
dix, kami meninjau konsep dari kursus statistik pengantar Anda lain yang mendahuluinya di meja. Untuk contoh ini,
yang menawarkan alat deskriptif untuk membersihkan data, persentase penjualan unit TV LCD meningkat antara 5 dan 7
menemukan masalah, dan meringkas distribusi. Distribusi (data) persen mewakili 66,7 persen. Kolom persentase kumulatif
adalah larik jumlah nilai dari nilai terendah hingga tertinggi dari sangat membantu terutama ketika data memiliki urutan
suatu variabel, yang dihasilkan dari tabulasi kejadian. Ukuran yang mendasarinya. Jika, di bagian B, kami membuat kode
statistik deskriptif digunakan untuk menggambarkan pusat, untuk sumber asal (asing5 1, domestik 5 2) untuk masing-
penyebaran, dan bentuk distribusi dan berguna sebagai alat masing dari sembilan produsen TV LCD, kolom persentase
awal untuk deskripsi data. Kami akan mendefinisikan langkah- kumulatif akan memberikan proporsi. Ituproporsi adalah
langkah ini dan menjelaskan penggunaannya sebagaiStatistik persentase elemen dalam distribusi yang memenuhi kriteria.
deskriptif setelah memperkenalkan kumpulan data sampel dan Dalam hal ini, kriterianya adalah asal pembuatan.
ikhtisar konsep dasar. Pada Tampilan 15a-2, kurva berbentuk lonceng yang
ditumpangkan pada distribusi kenaikan penjualan unit tahunan
(persen) untuk produsen TV LCD disebut distribusi normal.
Meninjau Konsep Statistik Distribusi nilai untuk setiap variabel yang memiliki distribusi
normal diatur oleh persamaan matematika. Distribusi ini
Pasar TV LCD (liquid crystal display) merupakan pasar yang menarik
merupakan kurva simetris dan mencerminkan distribusi
untuk disimak karena adanya perubahan teknologi dan pemasaran.
frekuensi dari banyak fenomena alam seperti tinggi badan orang-
Saat ini pemain utama di pasar ini adalah Sharp, LG Electronics/
orang dari jenis kelamin dan usia tertentu.
Zenith, Samsung, Sony, Dell, dan Panasonic. Hanya beberapa merek
Banyak variabel menarik yang akan diukur peneliti
lain yang mendapatkan pangsa pasar yang nyata. Produk Sharp saat
akan memiliki distribusi yang mendekati a distribusi
ini mewakili persentase terbesar dari penjualan unit. Mari kita
normal standar. Distribusi normal standar adalah kasus
asumsikan kita tertarik untuk mengevaluasi peningkatan penjualan
khusus dari distribusi normal di mana semua nilai
unit tahunan dari beberapa produsen. Kami mensurvei sembilan
diberikan skor standar. Distribusi ini memiliki rata-rata 0
produsen dan kami !nd adistribusi frekuensi (array yang dipesan dari
dan standar deviasi 1. Misalnya, produsen yang memiliki
semua nilai untuk variabel) persentase tahunan peningkatan
peningkatan penjualan unit tahunan sebesar 7 persen
penjualan unit: 5,
akan diberi skor standar nol karena 7 adalah rata-rata
6, 6, 7, 7, 7, 8, 8, 9. Dari nilai penjualan unit ini, kami membuat
distribusi TV LCD. SEBUAHskor standar (atau skor Z)
tabel untuk menyusun data. Ini menyajikan kode nilai dari nilai
memberitahu Anda berapa banyak unit kasing (produsen dalam
terendah hingga tertinggi, dengan kolom untuk hitungan,
contoh ini) di atas atau di bawah rata-rata. Skor Z, yang distandarisasi,
persen, persen untuk nilai yang hilang, dan persen kumulatif.
memungkinkan kita untuk membandingkan hasil dari distribusi
Sebuah contoh disajikan dalam Tampilan 15a-1.
normal yang berbeda, sesuatu yang sering kita lakukan dalam
Tabel menyusun data berdasarkan nilai numerik yang ditetapkan,
penelitian. Asumsikan bahwa Zenith memiliki peningkatan penjualan
dalam hal ini persentase peningkatan penjualan unit aktual yang
unit tahunan sebesar 9 persen. Untuk menghitung skor standar untuk
dicatat (kolom paling kiri). Untuk mengetahui berapa banyak
pabrikan ini, Anda akan menemukan perbedaan antara nilai dan rata-
produsen dalam setiap kategori peningkatan penjualan unit, Anda
rata dan membaginya dengan standar deviasi dari distribusi yang
dapat membaca kolom frekuensi. Misalnya, di persimpangan kolom
ditunjukkan pada Tampilan 15a-1.
frekuensi dan baris kedua, ada dua perusahaan yang membukukan
kenaikan penjualan unit tahunan sebesar 6 persen. Di kolom
persentase, Anda melihat berapa persentase produsen TV dalam #standar#skor# Zenith5# __V__la_u_e_#_2_#_saya__e_a_n__ __
1.22
Standar#deviasi 5 9_2_7_
survei yang memberikan respons untuk setiap tingkat peningkatan
penjualan unit. Tiga pabrikan yang 5 1.64
398
>bab 15 Persiapan dan Deskripsi Data 399
>Pameran 15a-1 Penjualan Unit Persentase Tahunan Meningkat untuk Produsen TV LCD
SEBUAH
5 1 11.1 11.1
6 2 22.2 33.3
7 3 33.3 66.7
8 2 22.2 88.9
9 1 11.1 100.0
Total 9 100.0
Perusahaan Asal Peningkatan Penjualan Unit (%) Frekuensi Persentase Persentase Kumulatif
7 2 22.2 33.3
8 2 22.2 55.5
6 1 11.1 77.7
7 1 11.1 88.8
9 1 11.1 100.0
Total 9 100.0
3.0
2.0
Frekuensi
1.0
0,0
5.0 6.0 7.0 8.0 9.0
Peningkatan Penjualan Unit (%)
400 >bagian IV Analisis dan Penyajian Data
95%
68%
Sebaran
SEBUAH B C
Bentuk:
Mesokurtik Leptokurtik Platykurtic
Kurtosis
D E F
Distribusi normal standar, ditunjukkan pada bagian A dari Peraga nilai (modus). Langkah-langkah umum daritendensi sentral
15a-3, adalah standar perbandingan untuk menggambarkan (atau pusat) termasuk mean, median, dan modus.
distribusi data sampel. Ini digunakan dengan statistik inferensial Itu berarti dihitung dengan rumus berikut:
yang mengasumsikan variabel terdistribusi normal.
SX
tidak
tidak
karakteristik penting dari distribusi. Karakteristik tendensi
sentral, variabilitas, dan bentuk adalah alat yang berguna untuk Untuk variabel peningkatan penjualan satuan, distribusi
meringkas distribusi. Definisi, aplikasi, dan formula mereka tanggapannya adalah 5, 6, 6, 7, 7, 7, 8, 8, 9. Rata-rata aritmatika,
berada di bawah judulStatistik deskriptif. Definisinya akan atau mean (jumlah dari sembilan nilai dibagi 9), adalah
familiar bagi sebagian besar pembaca.
_5_1
__6__1 __7__1__8__1__8_1
__6__1__7_1 __9_
___8_1
9
Ukuran Tendensi Sentral 5 7#(sebuah#rata-rata#7%#unit#penjualan#peningkatan)
Meringkas informasi seperti itu dari data yang kami kumpulkan Itu median adalah titik tengah distribusi. Setengah dari
tentang produsen TV LCD sering kali memerlukan deskripsi nilai pengamatan dalam distribusi jatuh di atas dan setengah lainnya
"biasa". Misalkan kita ingin mengetahui persentase kenaikan jatuh di bawah median. Ketika distribusi memiliki jumlah
penjualan unit yang khas untuk perusahaan-perusahaan ini. pengamatan genap, median adalah rata-rata dari dua skor
Kami mungkin akankhas sebagai respon rata-rata (mean); nilai tengah. Median adalah pencari pusat yang paling tepat untuk
tengah, ketika distribusi diurutkan dari terendah ke tertinggi data ordinal dan memiliki ketahanan terhadap skor ekstrim,
(median); atau yang paling sering terjadi sehingga menjadikannya ukuran yang lebih disukai untuk
>bab 15 Persiapan dan Deskripsi Data 401
interval dan rasio data ketika distribusi mereka tidak normal. Itu simpangan baku merangkum seberapa jauh dari rata-rata
Median terkadang dilambangkan dengansaya atau mdn. nilai data biasanya. Ini mungkin merupakan ukuran penyebaran
Dari distribusi sampel untuk variabel persentase kenaikan yang paling sering digunakan karena meningkatkan kemampuan
penjualan unit, median dari kesembilan nilai tersebut adalah 7: interpretasi dengan menghilangkan kuadrat varians dan
menyatakan penyimpangan dalam unit aslinya (misalnya,
566777889
penjualan dalam dolar, bukan kuadrat dolar). Ini juga merupakan
Jika distribusi memiliki 10 nilai, median akan menjadi rata- konsep penting untuk statistik deskriptif karena mengungkapkan
rata nilai untuk kasus ke !kelima dan keenam. jumlah variabilitas dalam kumpulan data. Seperti mean, standar
Itu mode adalah nilai yang paling sering muncul. Mungkin deviasi dipengaruhi oleh skor ekstrim. Simbol simpangan baku
disanalebih dari satu modus dalam sebuah distribusi. Bila sampel adalahs, dan untuk simpangan baku populasi adalah s.
terdapat lebih dari satu skor yang memiliki frekuensi tertinggi Atau, itu diberi label std. pengembangAnda dapat menghitung
namun sama, maka distribusinya adalah bimodal atau simpangan baku dengan mengambil akar kuadrat dari varians:
multimodal. Mungkin disanatidak modus dalam distribusi jika
setiap skor memiliki jumlah pengamatan yang sama. Modus
s 5SAYA}s2
adalah ukuran lokasi dari tendensi sentral untuk data nominal
dan titik acuan bersama dengan median dan mean untuk Standar deviasi untuk variabel persentase kenaikan penjualan
memeriksa sebaran dan bentuk distribusi. Dalam contoh unit dalam contoh kita adalah 1,22:
persentase peningkatan penjualan unit TV LCD kami, nilai yang
1.22 5SAYA}1.}
5
paling sering terjadi adalah 7. Seperti yang terungkap dalam
distribusi frekuensi pada Tampilan 15a-2, ada tiga perusahaan Itu jarak adalah selisih antara skor terbesar dan terkecil
yang mengalami peningkatan penjualan unit sebesar 7 persen. dalam distribusi. Persentase variabel peningkatan penjualan unit
Perhatikan pada Peraga 15a-3, bagian A, bahwa mean, tahunan memiliki kisaran 4 (92 5 5 4). Berbeda dengan standar
median, dan modus adalah sama dalam distribusi normal. deviasi, rentang dihitung hanya dari skor minimum dan
Ketika ukuran tendensi sentral ini menyimpang, distribusinya maksimum; dengan demikian, ini adalah ukuran penyebaran
tidak lagi normal. yang sangat kasar. Dengan rentang sebagai titik perbandingan,
dimungkinkan untuk mendapatkan gambaran tentang
Ukuran Variabilitas homogenitas (std. dev. kecil) atau heterogenitas (std. dev. besar)
dari distribusi. Untuk distribusi homogen, rasio rentang terhadap
Langkah-langkah umum dari variabilitas, alternatif disebut standar deviasi harus antara 2 dan 6. Angka di atas 6 akan
sebagai penyebaran atau sebaran, adalah varians, standar menunjukkan tingkat heterogenitas yang tinggi. Dalam contoh
deviasi, jangkauan, jangkauan interkuartil, dan deviasi kuartil. persentase peningkatan penjualan unit, rasionya adalah 4/1,225
Mereka menggambarkan bagaimana skor mengelompok atau 3.28. Rentang ini memberikan informasi yang berguna tetapi
menyebar dalam distribusi. terbatas untuk semua data. Ini adalah wajib untuk data ordinal.
Itu perbedaan adalah ukuran penyebaran skor tentang
rata-rata. Jika semua skor identik, variansnya adalah 0. Itu rentang interkuartil (IQR) adalah selisih antara kuartil
Semakin besar dispersi skor, semakin besar variansnya. Baik pertama dan ketiga dari distribusi. Ini juga disebuttengah
varians dan standar deviasi digunakan dengan data interval menyebar. Data ordinal atau peringkat menggunakan
dan rasio. Simbol untuk varians sampel adalahs2, dan untuk ukuran ini dalam hubungannya dengan median. Ini juga
varians populasi adalah huruf Yunani sigma, kuadrat (s)2. digunakan dengan data interval dan rasio ketika distribusi
Varians dihitung dengan menjumlahkan jarak kuadrat dari asimetris dicurigai atau untuk analisis eksplorasi. Ingat
mean untuk semua kasus dan membagi jumlah dengan hubungan berikut: nilai minimum dari distribusi adalah
jumlah total kasus dikurangi 1: persentil 0; maksimum, persentil ke-100. Itu
Jumlah kuadrat jarak !kuartil pertama (Q1) adalah persentil ke-25; median,Q2,
__ dari_dari adalah persentil ke-50. Kuartil ketiga (T) adalah 3yang ke-75
Perbedaan 5 s 2
5 m untuk_r_a_l_l_c_a_s_es____
_____e_a_n__
}2
X)
_ _5___6___6___7___7___7_8_8___9_
s2 5
saya5_1___saya _____
tidak 2 1 Q1 Q2 Q3 Q4
Untuk variabel persentase peningkatan penjualan unit, kami akan Deviasi kuartil, atau rentang semi-interkuartil, dinyatakan
menghitung varians sebagai: sebagai
__- Q
(5#2#7)2#1#(6#2#7)2#1#(6#2#7)2 Q 5 _Q_ 21_ __3
1 (7#2#7)2 1#(7#2#7)2#1#(7#2#7)2
2#_ 1 Itu deviasi kuartil selalu digunakan dengan median untuk data
_1 __# 7_)_ __# (_8_#2
__(8_#_2 __#7_)_2_# 2_#_7_)
1 9_#_
s2 5
2_
__#(_
5 1.5
8 ordinal. Sangat membantu untuk data interval dan rasio ketika
402 >bagian IV Analisis dan Penyajian Data
distribusinya diregangkan (atau dimiringkan) oleh nilai- Ketika suatu distribusi mendekati simetri, sk kira-kira 0.
nilai ekstrim. Dalam distribusi normal, median ditambah Dengan kemiringan positif, sk akan menjadi angka positif;
satu deviasi kuartil (T) di kedua sisi mencakup 50 persen dengan kemiringan negatif,sk akan menjadi bilangan negatif.
dari pengamatan. DelapanQs mencakup kira-kira kisaran. Perhitungan skewness untuk data peningkatan penjualan unit
Qhubungan dengan simpangan baku adalah konstan (T# persentase tahunan kami menghasilkan indeks 0 dan tidak
5 .6745s) ketika skor terdistribusi normal. Untuk contoh menunjukkan skew.
peningkatan penjualan unit persentase tahunan kami, Seperti yang diilustrasikan di bagian bawah Tampilan 15a-3,
deviasi kuartil adalah 1 [(62 8)/2 5 1]. kurtosis adalah ukuran puncak suatu distribusi (atau "atness).
Distribusi yang memiliki skor yang banyak mengelompok atau
Ukuran Bentuk menumpuk di tengah (bersama dengan lebih banyak pengamatan
daripada biasanya di ekor ekstrem) memuncak atau leptokurtik.
Ukuran bentuk, skewness dan kurtosis, masing-masing Distribusi datar, dengan skor lebih merata dan ekor lebih
menggambarkan penyimpangan dari simetri distribusi dan gemuk dari distribusi normal, disebut playkurtik. Menengah
"atness (atau peakedness) relatifnya. Mereka menggunakan atau mesokurtik distribusi mendekati normal — tidak terlalu
}
skor deviasi (X 2 X). Skor deviasimenunjukkan kepada kita memuncak atau terlalu "pada. Simbol untuk kurtosis adalah
seberapa jauh pengamatan apapun dari mean. Perusahaan ku
yang membukukan persentase kenaikan penjualan sebesar 9
x $x} 4 4
memiliki skor deviasi 2 (92 7). Ukuran bentuk seringkali sulit ku 5 3________(_ tidak saya ___)
n_1_1_)_______ S (__s
(tidak 2 1)(tidak 2 2)(tidak 2 3)
untuk ditafsirkan ketika skor ekstrim berada dalam distribusi.
Umumnya, bentuk paling baik dikomunikasikan melalui _ 3(tidak 2 1)
2 __________ 2
(tidak22)(tidak23)
tampilan visual. (Lihat grafik pada Tampilan 15a-3, bagian B
sampai F.) Dari sudut pandang praktis, perhitungan dimana s adalah deviasi standar sampel (estimasi sigma
skewness dan kurtosis paling mudah dilakukan dengan yang tidak bias).
spreadsheet atau software statistik. Nilai dari ku untuk distribusi normal atau mesokurtik
Kecondongan adalah ukuran penyimpangan distribusi dari mendekati 0. Distribusi leptokurtik bernilai positif, dan
simetri. Dalam distribusi simetris, mean, median, dan modus distribusi playkurtik bernilai negatif. Seperti halnya
berada pada lokasi yang sama. Distribusi yang memiliki kasus- skewness, semakin besar nilai absolut indeks, semakin
kasus yang membentang ke arah satu ekor atau yang lain disebut ekstrim karakteristiknya. Dalam contoh peningkatan
miring. Seperti yang ditunjukkan pada Tampilan 15a-3, bagian B, penjualan unit persentase tahunan, kurtosis dihitung
ketika ekor membentang ke kanan, ke nilai yang lebih besar, itu sebagai –0,29, yang menunjukkan penyimpangan yang
miring positif. Di bagian C, skor yang membentang ke kiri, ke sangat kecil dari kurva berbentuk normal dengan beberapa
arah nilai yang lebih kecil, membuat distribusi menjadi negatif. "perhatian yang disumbangkan oleh frekuensi yang lebih
Perhatikan hubungan antara mean, median, dan modus dalam kecil dari perkiraan dari nilai#7 dalam distribusi contoh.
distribusi asimetris. Simbol untuk kemiringan adalahsk.
xsaya
$x} 3
sk 5 _____________ S
tidak ___
(tidak 2 1)(tidak 2 2) (__ s)
>belajartujuan
Setelah membaca bab ini, Anda harus mengerti!.!.!.
1 Teknik analisis data eksplorasi memberikan wawasan dan diagnostik data dengan menekankan visual
representasi dari data.
2 Bagaimana tabulasi silang digunakan untuk menguji hubungan yang melibatkan variabel kategori, berfungsi sebagai:
kerangka kerja untuk pengujian statistik selanjutnya, dan membuat analisis berbasis tabel menggunakan satu atau lebih variabel
kontrol sebagai alat yang efisien untuk visualisasi data dan pengambilan keputusan.
“ ide-idehari,
Setiap di luarcari
industri penelitian
inspirasi dan untuk mempengaruhi
pemikiran Anda. Misalnya, visualisasi data
”
bisa terinspirasi oleh infografis yang Anda lihat di a
majalah favoritzine, atau bahkan sebuah karya seni yang Anda lihat
di sebuah museum.
Myra dan Jason sedang menyelesaikan ulasan mereka tentang materi yang disampaikan Myra untuk kemitraan terbaru
MindWriter dengan Henry and Associates. Jason, mengetahui bahwa Myra sangat ingin mendengar berita menarik
tentang proyek City Center for Performing Arts, mengantarnya melewati kantor luar. Sammye, karyawan magang
terbaru Henry and Associates, sibuk meneliti tabulasi silang. Dia memutuskan ini adalah waktu yang tepat untuk
mengirim SMS ke Sammye tentang aturan kerahasiaan data yang dia bicarakan dengan pekerja magang.
minggu lalu.
"Sammye Grayson, temui Myra Wines dari MindWriter. Sammye, mendapat anggukan dari Jason, berbagi, “Kita
Kami akan bekerja dengannya dalam proyek jangka mungkin harus melakukan pengodean ulang variabel usia
pendek selama minggu depan." Sammye bangkit untuk dan ras agar polanya muncul dengan jelas. Tim juga tertarik
menjabat tangan Myra yang terulur, saat Jason bertanya pada perbedaan antara kelompok etnis dalam preferensi
dengan polos, "Ada yang menarik di tab silang awal itu?" kinerja di masa depan. Kami juga telah !menyelesaikan
Myra tersenyum, mengangkat alis ekspresif, dan pengkodean setiap alamat pelanggan dengan kode GPS
menunggu jawaban Sammye. (Geographic Positioning System). Pemetaan awal dimulai
Sammye ragu-ragu dan kemudian, melihat Jason untuk besok; Jason menyewa kandidat master dalam geografi untuk
beberapa sinyal mengapa dia mengajukan pertanyaan di menyediakan pemetaan. Saya telah menjadwalkan panggilan
hadapan klien yang berbeda, menjawab, “Tiga dari tabulasi konferensi untuk . . . (Sammye "memindahkan halaman
silang awal muncul untuk menunjukkan beberapa dukungan kalender mejanya ke minggu berikutnya) ... Jumat minggu
untuk asumsi dewan tentang masalah alkohol—pada apakah depan dengan Jackson Murray dan anggota lain dari tim
pelanggan saat ini mendukung penjualan bir dan anggur proyek CCPA."
selama istirahat. Tapi kami tidak cukup jauh ke dalam data "Ketika dewan menyetujui rencana analisis yang Anda usulkan,"
untuk mengatakan asumsi dewan mana yang sepenuhnya tanya Myra, "Saya tidak ingat pernah melihat referensi apa pun ke
benar dan mana yang mungkin harus dimodifikasi diagram seperti kotak dengan ekor yang saya lihat pada grafik yang
berdasarkan pola yang muncul dalam subkelompok sampel.” baru saja Anda berikan kepada Jason."
“Sebagian besar dari apa yang akan dilakukan tim dalam tiga
Jason mengangkat tangan untuk menghentikan jawaban hari ke depan,” campur tangan Jason, “melibatkan lebih banyak
terperinci atas pertanyaannya. Sammye tahu dari raut wajahnya tampilan grafis daripada statistik. Saat ini kami baru memahami
bahwa dia telah melakukan kesalahan. apa yang dikatakan data kepada kami. Kami akan memutuskan
"Aku seharusnya tidak menjawab pertanyaanmu," sembur apa, jika ada, analisis baru untuk ditambahkan ke rencana yang
Sammye. "Aku berjalan tepat ke jebakan yang kamu pasang, dengan diusulkan pada hari Jumat ini. Karya awal inilah yang meletakkan
mata terbuka lebar." dasar untuk analisis yang lebih canggih berikutnya. Tidak ada
Myra melompat sebelum Jason bisa merespons. “Saya pernah yang glamor tentang itu, tapi tanpanya kita mungkin kehilangan
melihat Jason melakukan ini sebelumnya untuk magang, jadi Anda beberapa penemuan penting.”
harus merasa seperti salah satu tim. Dan, tidak, Anda seharusnya Jason berhenti sejenak untuk efek dan kemudian berkata,
tidak menanggapi—kerahasiaan adalah aturan nomor satu—dan “Ngomong-ngomong, #'diagram kecil' itu disebut plot kotak. Saya
sebagai klien, saya menghargainya. Tidak ada salahnya dilakukan benar-benar melakukan beberapa selama fase analisis awal untuk studi
kali ini, meskipun. Apa Jason gagal untuk memberitahu Anda CompleteCare MindWriter. Saya tidak memberikannya kepada Anda
adalah saya di dewan CCPA dan bagian dari tim proyek. Sebelum karena saya harus menjelaskan bagaimana menafsirkannya dan. . .”
Jason menghentikanmu, segalanya menjadi menarik. Tolong “ . . . dan apa pun yang harus Anda jelaskan tidak
lanjutkan." cukup jelas,” !nishes Myra.
406 >bagian IV Analisis dan Penyajian Data
>Pameran 16-1 Eksplorasi, Pemeriksaan, dan Analisis Data dalam Proses Penelitian
Penelitian
Rancangan Analisis awal
Perencanaan
Perbaiki Hipotesis
Pengumpulan data
& Persiapan Visualisasi data
Tentukan Rekomendasi
Pelaporan Penelitian
Pengelolaan
Keputusan
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 407
Satu otoritas telah membandingkan analisis data eksplorasi dengan peran detektif polisi dan penyelidik
lainnya dan analisis konfirmasi dengan peran hakim dan sistem peradilan. Yang pertama terlibat dalam
pencarian petunjuk dan bukti; yang terakhir disibukkan dengan mengevaluasi kekuatan bukti yang
ditemukan. Analisis data eksplorasi adalah langkah pertama dalam mencari bukti, yang tanpanya analisis
konfirmasi tidak ada artinya untuk dievaluasi.2 Konsisten dengan analogi itu, EDA memiliki kesamaan
dengan desain eksplorasi, bukan yang diformalkan. Karena tidak mengikuti struktur yang kaku, ia bebas
mengambil banyak jalan untuk mengungkap misteri dalam data—untuk menyaring yang tak terduga dari
yang bisa diprediksi.
Kontribusi utama dari pendekatan eksplorasi terletak pada penekanan pada representasi visual dan teknik
grafis di atas ringkasan statistik. Statistik ringkasan, seperti yang akan Anda lihat sebentar lagi, mungkin
mengaburkan, menyembunyikan, atau bahkan salah menggambarkan struktur data yang mendasarinya. Ketika
ringkasan numerik digunakan secara eksklusif dan diterima tanpa inspeksi visual, pemilihan model konfirmasi
dapat didasarkan pada "asumsi terpesona.3 Untuk alasan ini, analisis data harus dimulai dengan inspeksi visual.
Setelah itu, tidak hanya mungkin tetapi juga diinginkan untuk melakukan siklus antara pendekatan eksplorasi dan
konfirmasi.
Sah Kumulatif
Label Nilai Nilai Frekuensi Persen Persen Persen
21 tahun 1 60 6 6 6
10 tahun usia 5 50 5 5 90
berapapun 6 60 6 6 96
>Pameran 16-3 Tampilan Data Nominal (Usia Minimum untuk Jejaring Sosial)
Persen
21 tahun 6
18 tahun 18
16 tahun 33
13 tahun 28
10 tahun 5
Usia berapa pun 6
Tidak ada opini 4
30
25
20
Persen
15
10
0
21 18 16 13 10 Apa saja
Usia
Histogram
Histogram adalah solusi konvensional untuk menampilkan data rasio interval. Histogram digunakan
ketika dimungkinkan untuk mengelompokkan nilai-nilai variabel ke dalam interval. Histogram dibangun
dengan batang (atau tanda bintang) yang mewakili nilai data, di mana setiap nilai menempati jumlah area
yang sama di dalam area tertutup. Analis data !nd histogram berguna untuk (1) menampilkan semua
interval dalam distribusi, bahkan tanpa nilai yang diamati, dan (2) memeriksa bentuk distribusi untuk
skewness, kurtosis, dan pola modal. Saat melihat histogram, orang mungkin bertanya: Apakah ada punuk
tunggal (mode)? Apakah subgrup dapat diidentifikasi ketika ada banyak mode? Apakah nilai data straggling
terlepas dari konsentrasi pusat?5
Nilai untuk variabel pembelian tahunan rata-rata yang disajikan dalam Tampilan 16-4 diukur pada skala
rasio dan mudah dikelompokkan. Variabel lain yang memiliki urutan yang mendasari juga sesuai untuk
histogram. Histogram tidak akan digunakan untuk variabel nominal seperti usia minimum untuk jejaring
sosial (Exhibit#16-3) yang tidak memiliki urutan kategorinya.
Histogram dari pembelian tahunan rata-rata ditunjukkan pada Tampilan 16-5. Titik tengah untuk setiap interval
untuk variabel bunga, rata-rata pembelian tahunan, ditunjukkan pada sumbu horizontal; frekuensi
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 409
Kumulatif Kumulatif
Nilai Frekuensi Persen Persen Nilai Frekuensi Persen Persen
54.9 1 2 2 75.6 1 2 54
55.4 1 2 4 76.4 1 2 56
55.6 1 2 6 77.5 1 2 58
56.4 1 2 8 78.9 1 2 60
56.8 1 2 10 80.9 1 2 62
56.9 1 2 12 82.2 1 2 64
57.8 1 2 14 82,5 1 2 66
58.1 1 2 16 86.4 1 2 68
58.2 1 2 18 88.3 1 2 70
58.3 1 2 20 102.5 1 2 72
58.5 1 2 22 104.1 1 2 74
59.9 2 4 26 110.4 1 2 76
61.5 1 2 28 111.9 1 2 78
62.6 1 2 30 118,6 1 2 80
64.8 1 2 32 123.8 1 2 82
66.0 2 4 36 131.2 1 2 84
66.3 1 2 38 140.9 1 2 86
67.6 1 2 40 146.2 1 2 88
69.1 1 2 42 153,2 1 2 90
69.2 1 2 44 163.2 1 2 92
70.5 1 2 46 166.7 1 2 94
72,7 1 2 48 183.2 1 2 96
72.9 1 2 50 206.9 1 2 98
73.5 1 2 52 218.2 1 2 100
Total 50 100
15
Frekuensi
10
>jeprettembakan
Visualisasi Data Novation Membutuhkan Aplikasi Unik
Didirikan pada tahun 1998, Novation adalah ahli rantai pasokan perawatan
kesehatan terkemuka dan perusahaan kontraktor untuk lebih dari 65.000
anggota dan afiliasi. Organisasi perawatan kesehatan yang dilayani oleh
Novation menghadapi tekanan yang meningkat pada laba atas investasi saya butuh informasi Bagaimana saya bisa mendapatkan
mereka di tengah meningkatnya biaya, meningkatnya perawatan tanpa sekarang ... bagaimana saya bisa laporan yang mencakup semua
kepemimpinan, arahan, dan fokus strategis untuk kegiatan yang terkait dengan kegiatan intelijen aku ingin Pelanggan Internal saya ingin
kesehatan,” kata Gardner dalam presentasi tentang penemuan data visual dan dasbor swalayan untuk
bisnis. Itu membuat berbagi informasi, terutama dengan sistem perawatan kesehatan tentang saya harus pergi ke saya ingin saya
3 berbeda informasi
pemasok dan perilaku pembelian, bermasalah. Dengan alat visualisasi data mereka, Novation ingin
tempat untuk mendapatkan disajikan dalam
“memajukan cara organisasi berpikir tentang data,” kata Gardner. Novation mengumpulkan data dari
semua informasi. lebih berwawasan
mode.
pesanan pembelian dan faktur rumah sakit anggota, data penjualan, data distribusi dan pemasok serta
kontrak manajemen harga, dan membuat data ini tersedia bagi anggota tidak hanya di desktop, tetapi
juga di iPhone atau iPad mereka. Sistem baru perlu melayani berbagai pengguna bisnis, termasuk
semua orang mulai dari pengambil keputusan eksekutif hingga tim penjualan hingga keuangan.
untuk produk ini, memastikan bahwa sejumlah besar data dan
Novation tidak ingin membatasi pengguna pada pendekatan tipikal yang biasanya terdiri dari laporan
sejumlah besar metrik dapat diakses di lingkungan kinerja tinggi.
yang dikembangkan TI dengan data yang dipaksakan ke dalam model. Sebaliknya, Novation ingin para
Analisis dan visualisasi yang kompleks dapat dicapai dalam hitungan
pengguna ini dapat 'bermain dalam data', dan memiliki kemampuan untuk bereksperimen dengan
menit dengan menggunakan server cerdas. Keterlibatan pengguna
tampilan tambahan atau alternatif. Novation tidak ingin membatasi pengguna pada pendekatan tipikal
bisnis selama tahap perencanaan memastikan adopsi awal produk ini.
yang biasanya terdiri dari laporan yang dikembangkan TI dengan data yang dipaksakan ke dalam
Analisis yang telah diisi sebelumnya dan kasus penggunaan digunakan
model. Sebaliknya, Novation ingin para pengguna ini dapat 'bermain dalam data', dan memiliki
selama pelatihan, dan pengguna diperlihatkan cara menambah atau
kemampuan untuk bereksperimen dengan tampilan tambahan atau alternatif. Novation tidak ingin
menghapus bidang data dan memanipulasi bagan data untuk
membatasi pengguna pada pendekatan tipikal yang biasanya terdiri dari laporan yang dikembangkan
membuat pola data—dan outlier—menjadi hidup. Dengan
TI dengan data yang dipaksakan ke dalam model. Sebaliknya, Novation ingin para pengguna ini dapat
menggunakan alat visualisasi data ini, Novation akan terus
'bermain dalam data', dan memiliki kemampuan untuk bereksperimen dengan tampilan tambahan
menemukan cara untuk membantu rumah sakit dalam
atau alternatif.
memaksimalkan nilai kontrak dan mengurangi biaya rantai pasokan.
Novation bermitra dengan MicroStrategy untuk mengimplementasikan Novation melayani anggota dan afiliasi VHA Inc. (jaringan
teknologi inovatif ini. Hasilnya adalah produk yang memungkinkan
nasional sistem perawatan kesehatan milik masyarakat), UHC
pengguna bisnis membuat analisis ad hoc dengan visualisasi data yang (aliansi nasional yang mewakili sekitar 90% dari pusat medis
canggih dengan cara yang sangat cepat. Produk visualisasi data Novation kini akademik nirlaba negara), Asosiasi Rumah Sakit Anak (aliansi
diluncurkan dan pengguna berbagi laporan praktik terbaik—dan melakukan rumah sakit anak terkemuka bangsa), dan Provista, LLC
ini dengan sedikit dukungan teknis. “Pelatihan sangat penting, tetapi adopsi
(organisasi pembelian kelompok yang menyediakan
atau jumlah pengamatan di setiap interval, pada sumbu vertikal. Kami mendirikan bar vertikal di atas
titik tengah setiap interval pada skala horizontal. Ketinggian batang sesuai dengan frekuensi
pengamatan dalam interval di mana ia didirikan. Histogram ini dibangun dengan lebar interval 20
kelipatan, dan interval terakhir hanya berisi dua pengamatan, 206,9 dan 218,2. Nilai-nilai ini
ditemukan di tabel frekuensi pembelian tahunan rata-rata PrimeSell (Exhibit 16-4). Interval dengan
0#hitungan menunjukkan kesenjangan dalam data dan memperingatkan analis untuk mencari
masalah dengan penyebaran. Ketika ekor atas distribusi dibandingkan dengan tabel frekuensi, kami
menemukan tiga nilai ekstrim (183,2, 206,9, dan 218,2). Seiring dengan titik tengah memuncak dan
berkurangnya jumlah pengamatan di ekor atas,
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 411
Tampilan Batang-dan-Daun6
Itu tampilan batang-dan-daun merupakan teknik yang berkaitan erat dengan histogram. Ini berbagi beberapa
fitur histogram tetapi menawarkan beberapa keuntungan unik. Mudah dibuat dengan tangan untuk sampel kecil
atau dapat diproduksi oleh program komputer. Berbeda dengan histogram, yang kehilangan informasi dengan
mengelompokkan nilai data ke dalam interval, batang dan daun menyajikan nilai data aktual yang dapat diperiksa
secara langsung, tanpa menggunakan batang atau tanda bintang tertutup sebagai media representasi. Fitur ini
mengungkapkan distribusi nilai dalam interval dan mempertahankan urutan peringkatnya untuk menemukan
median, kuartil, dan statistik ringkasan lainnya. Ini juga memudahkan menghubungkan pengamatan khusus
kembali ke file data dan subjek yang menghasilkannya.
Visualisasi adalah keuntungan kedua dari tampilan batang dan daun. Kisaran nilai terlihat sekilas, dan
tayangan bentuk dan penyebarannya langsung terlihat. Pola dalam data—seperti kesenjangan di mana
tidak ada nilai, area di mana nilai-nilai dikelompokkan, atau nilai-nilai luar yang berbeda dari badan utama
data—mudah diamati.
Untuk mengembangkan tampilan batang-dan-daun untuk data pada Peraga 16-4, digit pertama dari
setiap item data disusun di sebelah kiri garis vertikal. Selanjutnya, kami melewati persentase pembelian
tahunan rata-rata dalam urutan yang dicatat dan menempatkan digit terakhir untuk setiap item (posisi unit,
1.0) di sebelah kanan garis vertikal. Perhatikan bahwa digit di sebelah kanan titik desimal diabaikan. Digit terakhir untuk
setiap item ditempatkan pada baris horizontal yang sesuai dengan !digit pertama. Sekarang adalah masalah sederhana
untuk mengurutkan angka di setiap baris, menciptakan tampilan batang dan daun yang ditunjukkan pada Tampilan 16-6.
Setiap baris atau baris dalam tampilan ini disebut sebagai batang, dan setiap informasi pada batang disebut a
daun. Baris atau baris pertama adalah !
5|455666788889
Arti yang dilampirkan pada baris atau baris ini adalah bahwa ada 12 item dalam kumpulan data yang !digit pertamanya adalah !ve:
54, 55, 55, 56, 56, 56, 57, 58, 58, 58, 58, dan 59. Baris kedua,
6|12466799
menunjukkan bahwa ada delapan nilai pembelian tahunan rata-rata yang !digit pertamanya adalah enam: 61, 62, 64, 66, 66,
67, 69, dan 69.
Ketika tampilan batang dan daun yang ditunjukkan pada Tampilan 16-6 diputar ke atas (diputar 90 derajat ke
kiri), bentuknya sama dengan histogram yang ditunjukkan pada Tampilan 16-5.
5 455666788889
6 12466799
7 02235678
8 02268
9
10 24
11 018
12 3
13 1
14 06
15 3
16 36
17
18 3
19
20 6
21 8
412 >bagian IV Analisis dan Penyajian Data
>Menutupnaik
Menggunakan Tabel untuk Memahami Data
Karena tugas utama peneliti adalah menemukan pesan yang diungkapkan Kehadiran nomor apa pun dalam tabel adalah untuk perbandingan
oleh data, ia membutuhkan setiap alat untuk mengungkapkan pesan dengan nomor yang sama—dari tahun lalu, dari kandidat lain, dari
tersebut. Penulis Sally Bigwood dan Melissa Spore dalam buku mereka mesin lain, lawan gol, dan seterusnya. Menggunakan aturan penulis
Menyajikan Angka, Tabel, dan Bagan menyarankan bahwa tabel adalah alat untuk pembuatan tabel, seorang peneliti yang mengeksplorasi data
utama untuk mengekstraksi pengetahuan dari data. dengan membuat tabel harus:
• Angka bulat. • Angka yang dibulatkan paling mudah dibandingkan, memungkinkan kita untuk lebih mudah menentukan rasio atau hubungan
antara satu angka dengan angka lainnya.
• Jika presisi sangat penting untuk angka (misalnya, Anda sedang meneliti pajak atau spesifikasi desain atau interaksi
obat), jangan membulatkan angkanya.
• Saat mencari perubahan dari waktu ke waktu, urutkan nomor berdasarkan tahun, dari yang paling jauh (kiri atau atas) hingga
yang terbaru.
• Bandingkan seperti • Ubah angka menjadi skala umum ketika angka mencerminkan skala yang berbeda (misalnya,
timbangan dalam satu tabel. gram versus ons konsumsi sereal; data gaji bulanan versus data upah per jam).
• Pilih kesederhanaan • Beberapa tabel yang lebih kecil mengungkapkan pola lebih baik daripada satu tabel besar dan kompleks.
atas kompleksitas.
• Tabel kompleks digunakan sebagai sumber referensi yang nyaman untuk beberapa elemen data.
• Gunakan ruang kosong dan • Desain tabel dengan jumlah kolom lebih sedikit daripada baris.
desain untuk mengarahkan
• Angka spasi tunggal yang harus dibandingkan.
mata pada angka-angka
yang harus dibandingkan • Gunakan garis kisi untuk mengelompokkan nomor dalam tabel; menghindari gridlines antara angka-angka yang harus!
dan untuk membuat pola dibandingkan.
dan pengecualian.
• Gunakan ruang kosong untuk membuat talang antar angka dalam tabel sederhana.
tion menonjol.
• Rata kanan header kolom dan nomor tabel.
• Ringkaslah masing-masing • Tulis frasa atau kalimat yang merangkum interpretasi Anda terhadap data yang disajikan; jangan biarkan
tampilan data. interpretasi menjadi kebetulan.
• Pernyataan ringkasan dapat digunakan sebagai judul tabel atau bagan dalam laporan penelitian akhir.
• Ringkasan tidak perlu menyebutkan angka apa pun.
• Label dan tabel • Judul harus komprehensif: Sertakan apa (subjek judul atau pesan), di mana (jika data memiliki
judul untuk basis geografis), kapan (tanggal atau periode waktu tercakup), dan satuan ukuran.
kejelasan pesan.
• Menyertakan informasi umum dalam judul: Ini memperpanjang judul tetapi memperpendek judul kolom tabel.
• Hindari singkatan dalam judul kolom kecuali diketahui dengan baik oleh audiens Anda.
• Hindari catatan kaki; jika digunakan, gunakan simbol—seperti tanda bintang—daripada angka (angka yang digunakan
sebagai catatan kaki dapat dikacaukan dengan nomor isi tabel).
• Untuk referensi, berikan baris sumber yang dapat dipahami untuk referensi nanti.
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 413
>Menutupnaiklanjutan
SEBUAH CONTOH
Asumsikan Anda sedang menentukan apakah akan memperluas ke Eropa Barat dengan fasilitas distribusi untuk melayani pembelian online dari perusahaan
barang khusus Anda.
Tahunan Tahunan
Pengeluaran Pembelian
Kita mulai dengan tabel di atas yang menyajikan data yang dikembangkan dari beberapa studi tentang belanja online dan perilaku pembelian di
negara-negara tertentu di Eropa Barat. Data diurutkan menurut abjad menurut negara. Sementara mengatur dalam urutan abjad mungkin ideal
untuk pengacakan atau pengurangan bias, itu bukan pilihan logis untuk kejelasan penyajian data.
Data apa yang mungkin Anda perlukan untuk membantu Anda membuat keputusan tentang fasilitas distribusi? Apakah Anda perlu mengetahui ukuran
transaksi rata-rata? Jika Anda tidak mengetahui tingkat konversi euro ke dolar, dapatkah Anda menafsirkan tabelnya? Haruskah Anda menempatkan
investasi Anda di Inggris atau di tempat lain?
Tabel 2 menyusun kembali data menggunakan pedoman Bigwood dan Spore. Pertama judul tabel telah berubah; sekarang periode tahunan
yang menjadi dasar data pengeluaran lebih jelas, serta fakta bahwa kita melihat pengeluaran per kapita untuk 5 pemain Uni Eropa teratas, yang
dikenal sebagai E5. Kami juga telah mengubah tajuk kolom untuk mencerminkan mata uang, dan kami telah membenarkan tajuk dan nomornya.
Kami telah menyusun ulang tabel menurut Pengeluaran Rata-Rata (EURO) dalam urutan menurun dan menafsirkan kolom (EURO) dengan
menambahkan kolom konversi dolar. Kami mungkin tidak memerlukan kolom paling kanan jika kami sendiri adalah pembelanja euro, tetapi jika
kami lebih mengenal mata uang lain, penambahan kolom ini membantu kami menginterpretasikan data. Dengan pengaturan ini, apakah Jerman
terlihat menarik? Meskipun saat ini mungkin tidak tampak sebagai pesaing yang kuat seperti Inggris, kita tahu itu kuat secara fiskal dan terletak di
lokasi yang lebih sentral dari negara-negara lain yang sedang dipertimbangkan.
414 >bagian IV Analisis dan Penyajian Data
>Menutupnaiklanjutan
Tabel 3 E5 Per Kapita Belanja Online Satu Tahun (2010)
Pengeluaran Tahunan Rata rata tahunan Tahunan
(EURO) Pembelian Pengeluaran (US$)
Tabel 3 menawarkan tambahan sederhana: rata-rata kolom. Dan tabel sekarang diurutkan berdasarkan Pembelian Tahunan Rata-rata dalam
periode satu tahun yang dipelajari. Presentasi ini memungkinkan penafsir data untuk menentukan negara mana yang membeli di atas rata-rata
untuk Eropa Barat dan mana yang membeli di bawah rata-rata. Jerman tampil cukup bagus. Baik?
Tabel 4 menawarkan penyusunan ulang data berdasarkan kolom yang baru dihitung, Transaksi Rata-Rata (Euro). Jerman tidak terlihat begitu
menarik sekarang. Ini terutama benar jika kita adalah penjual barang dagangan khusus dengan harga lebih tinggi.
Tabel 5 E5 Per Kapita Belanja Online Satu Tahun (2010 vs. 2015)
Perkiraan Rata-rata Perkiraan Rata-rata
Perkiraan Persen Perkiraan Internet Transaksi 2015 Transaksi 2015
Pengguna Internet 2015 Pengguna 2015 (juta) (EURO) (DOLLAR AMERIKA$)
Tidak seperti tabel sebelumnya, Tabel 5 diurutkan dari paling sedikit hingga paling banyak berdasarkan perkiraan Transaksi Rata-Rata tahun 2015 dan kami telah
menggunakan proyeksi untuk data pembelian tahun 2015. Jika mata Anda buram karena mempelajari banyak tabel, Anda mungkin akan segera melirik ke meja, dan berpikir
Jerman sebagai pusat distribusi harus menjadi pilihan yang tepat. Sementara Jerman mungkin masih menjadi pesaing (mengingat posisi keuangannya yang lebih kuat di Uni
Eropa), proyeksi ukuran transaksinya yang lebih kecil mungkin membuatnya kurang cocok untuk distributor barang khusus. Jadi perhatian yang sangat penting pada tabel:
Sebagai seorang peneliti Anda ingin berusaha untuk konsistensi. Jika Anda memesan dari paling banyak ke paling sedikit, pilih pengaturan ini untuk thissetiap meja yang Anda
lakukan.
Setelah menyusun kembali data dalam berbagai tabel, di mana Anda akan meletakkan pusat distribusi Anda?
800 100%
99%
95%
80%
600
400 50%
0 0%
Masalah tidak Beberapa Telepon pengiriman Perbaikan
Diagram Pareto
Diagram Pareto mendapatkan namanya dari seorang ekonom Italia abad ke-19. Dalam manajemen mutu,
JM Juran !pertama menerapkan konsep ini dengan mencatat bahwa hanya sedikit cacat vital yang menjelaskan sebagian
besar masalah yang dievaluasi untuk kualitas dan bahwa yang sepele dapat menjelaskan sisanya. Secara historis, ini dikenal
sebagai aturan 80/20—yaitu, peningkatan 80 persen dalam kualitas atau kinerja dapat diharapkan dengan menghilangkan
20 persen penyebab kualitas atau kinerja yang tidak dapat diterima.
Itu diagram pareto adalah diagram batang yang persentasenya berjumlah 100 persen. Data berasal
dari pilihan ganda, skala respons tunggal; sebuah pilihan ganda, skala jawaban ganda; atau jumlah
frekuensi kata (atau tema) dari analisis isi. Jawaban responden diurutkan dalam tingkat kepentingan yang
menurun, dengan tinggi batang dalam urutan menurun dari kiri ke kanan. Susunan gambar yang dihasilkan
mengungkapkan konsentrasi potensi peningkatan tertinggi dalam jumlah pengobatan paling sedikit.
Analisis keluhan pelanggan MindWriter digambarkan sebagai diagram Pareto pada Tampilan 16-7. Garis
frekuensi kumulatif dalam pameran ini menunjukkan bahwa dua masalah teratas (perbaikan tidak
menyelesaikan masalah pelanggan, dan produk dikembalikan beberapa kali untuk diperbaiki) menyumbang
80 persen dari persepsi layanan perbaikan yang tidak memadai.
plot kotak7
Itu petak kotak, atau plot kotak-dan-kumis, adalah teknik lain yang sering digunakan dalam analisis data
eksplorasi.8 Boxplot mengurangi detail tampilan batang dan daun dan memberikan gambar visual yang
berbeda dari lokasi distribusi, penyebaran, bentuk, panjang ekor, dan outlier. Boxplots adalah ekstensi dari
!ringkasan nomor-ve dari sebuah distribusi. Ringkasan ini terdiri dari median, kuartil atas dan bawah, dan
pengamatan terbesar dan terkecil. Median dan kuartil digunakan karena keduanyastatistik resisten.
Perlawanan adalah karakteristik yang “memberikan ketidakpekaan terhadap perilaku buruk yang
terlokalisasi dalam data.”9 Statistik resisten tidak terpengaruh oleh outlier dan hanya berubah sedikit
sebagai respons terhadap penggantian sebagian kecil dari kumpulan data.
Ingat diskusi tentang mean dan standar deviasi dalam Lampiran 15a. Sekarang asumsikan kita
mengambil kumpulan data [5,6,6,7,7,7,8,8,9] dan menghitung rata-ratanya. Rata-rata dari himpunan adalah
7; simpangan baku 1,22. Jika 9 diganti dengan 90, mean menjadi 16 dan standar deviasi meningkat menjadi
27,78. Mean sekarang dua kali lebih besar dari sebagian besar angka dalam distribusi, dan standar deviasi
416 >bagian IV Analisis dan Penyajian Data
Terkecil Terbesar
nilai yang diamati nilai yang diamati
dalam 1,5 IQR dalam 1,5 IQR
engsel bawah dari engsel atas
Ekstrim
Di luar Di luar atau jauh
Pagar luar Pagar bagian dalam Engsel: Engsel: Pagar bagian dalam Pagar luar
engsel bawah engsel bawah Menurunkan Atas 1,5 IQR plus 3 IQR plus
dikurangi dikurangi kuartil kuartil engsel atas engsel atas
3 IQR 1.5 IQR
50% dari
diamati
nilai-nilai adalah
dalam
kotak
lebih dari 22 kali ukuran aslinya. Mengubah hanya satu dari sembilan nilai telah mengganggu
lokasi dan menyebarkan ringkasan ke titik di mana mereka tidak lagi mewakili delapan nilai
lainnya. Baik mean dan standar deviasi dipertimbangkanstatistik tidak tahan; mereka rentan
terhadap efek nilai ekstrim di bagian ekor distribusi dan tidak mewakili nilai tipikal dengan baik
di bawah kondisi asimetri. Standar deviasi sangat bermasalah karena dihitung dari kuadrat
deviasi dari mean.10 Sebaliknya, median dan kuartil sangat resisten terhadap perubahan. Ketika
kami mengubah 9 menjadi 90, median tetap di 7 dan kuartil bawah dan atas masing-masing
tetap di 6 dan 8. Karena sifat kuartil, hingga 25 persen data dapat dibuat ekstrem tanpa
mengganggu median, komposisi persegi panjang plot, atau kuartil itu sendiri. Karakteristik
resistensi ini dimasukkan ke dalam konstruksi boxplot.
Boxplot dapat dibuat dengan mudah dengan tangan atau dengan program komputer. Bahan dasar dari plot
adalah:
Simetris
Simetris-
ukuran relatif yang lebih besar
sebanding dengan ukuran sampel
Miring kanan
Miring ke kiri
Penyebaran kecil
variasi, di mana takik di median menandai interval kepercayaan untuk menguji kesetaraan median
kelompok, membawa kita selangkah lebih dekat ke pengujian hipotesis.13 Di sini sisi-sisi kotak kembali ke
lebar penuh pada interval kon!dens atas dan bawah. Ketika interval tidak tumpang tindih, kita dapat yakin,
pada tingkat keyakinan tertentu, bahwa median dari dua populasi berbeda.
Dalam Tampilan 16-10, beberapa boxplot membandingkan !ve sektor pelanggan PrimeSell dengan data pembelian
tahunan rata-rata mereka. Kesan keseluruhan adalah salah satu masalah potensial bagi analis: tidak setara
2.500
2.000
Laba bersih ($, jutaan)
1.500
1.000
500
– 500
varians, skewness, dan outlier ekstrim. Perhatikan kesamaan profil !nance dan retailing dibandingkan dengan
sektor teknologi tinggi dan asuransi. Jika uji hipotesis direncanakan, pemeriksaan lebih lanjut dari plot ini untuk
setiap sektor akan membutuhkan tampilan batang dan daun dan ringkasan !ve-number. Dari sini, kita dapat
membuat keputusan tentang jenis tes yang akan dipilih untuk analisis konfirmasi (lihat Bab 17,
18, dan Pusat Pembelajaran Online melengkapi Analisis Multivariat, Tinjauan).
Pemetaan
Semakin banyak data peserta yang melekat pada dimensi geografis mereka karena perangkat lunak Sistem
Informasi Geografis (SIG) dan alat pengukur koordinat menjadi lebih terjangkau dan lebih mudah digunakan. Pada
dasarnya GIS bekerja dengan menghubungkan kumpulan data satu sama lain dengan setidaknya satu bidang data
umum (misalnya, alamat jalan rumah tangga). GIS memungkinkan peneliti untuk menghubungkan variabel target
dan klasifikasi dari survei ke database berbasis geografis tertentu seperti data Sensus AS, untuk mengembangkan
pemahaman yang lebih kaya tentang sikap dan perilaku sampel. Ketika data identifikasi frekuensi radio (RFID)
menjadi lebih umum, banyak data perilaku akan dapat terhubung dengan database baru yang kaya secara
geografis ini.
Cara paling umum untuk menampilkan data tersebut adalah dengan peta. Warna dan pola yang menunjukkan
pengetahuan, sikap, perilaku, atau susunan data demografis dilapiskan di atas peta jalan (!nest-level GIS), peta grup blok,
atau peta kabupaten, negara bagian, atau negara untuk membantu mengidentifikasi lokasi terbaik untuk toko berdasarkan
demografi, psikografik, dan data segmentasi tahap kehidupan. Toko bunga menyusun informasi respons promosi secara
geografis dan menggunakan peta untuk merencanakan promosi yang ditargetkan. Peneliti konsumen dan bisnis-ke-bisnis
menggunakan pemetaan data tentang kepemilikan, tingkat penggunaan, dan sensitivitas harga dalam merencanakan
peluncuran produk baru secara geografis. Meskipun ini merupakan pilihan yang menarik untuk analisis eksplorasi,
dibutuhkan perangkat lunak dan perangkat keras khusus, serta keahlian untuk mengoperasikannya. Siswa didorong untuk
mengambil
Terkadang tidak ada cara yang lebih baik untuk menampilkan data selain dengan peta. Sementara pada tahun 2009, penyitaan rumah di Amerika Serikat
mencapai titik tertinggi sepanjang masa, pada tahun 2012 beberapa pasar mulai pulih. Sekilas, saat data geospasial dipetakan, Anda dapat mengetahui
negara bagian mana yang mengalami rebound. Peta dari RealtyTrac ini menunjukkan daftar penyitaan rumah, menurut negara bagian untuk Mei 2012.
www.realtytrac.com/trendcenter
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 419
>jeprettembakan
Digital Natives Mengalihkan Perhatian Hampir Dua Kali Lebih Banyak
sebagai Mitra Imigran Digital mereka Their
Sebuah studi yang dilakukan oleh Time Warner's Time Inc. dan waktu. Sistem ini menyediakan pengukuran keterlibatan emosional yang
dilakukan oleh Boston's Innerscope Research memberikan dapat diukur. Studi ini dirancang untuk memahami peran yang dimainkan
dukungan tambahan bahwa kita berbeda dari generasi media dalam kehidupan nyata dan secara nyata. Penduduk asli digital
sebelumnya, terutama dalam hal konsumsi media—waktu yang memiliki rentang perhatian yang jauh lebih pendek, mengalihkan fokus
dihabiskan dengan media, perhatian yang diberikan pada pesan mereka rata-rata 27 kali per jam, sementara imigran digital beralih hanya 17
media dan di seluruh platform media , serta konsekuensi kali per jam.
emosional dari pola perilaku ini. “Temuan penelitian ini berarti standar [kreatif] ditetapkan
Tiga puluh subjek, setengahnya adalah penduduk asli digital lebih tinggi untuk pengiklan,” kata CEO Innerscope Research, Dr.
(dibesarkan dengan media digital) dan setengahnya adalah imigran Carl Marci. “Saya paling khawatir tentang tindakan menantang
digital (yang datang ke digital di masa dewasa tetapi tumbuh dengan untuk menangkap perhatian dan respons emosional audiens
media tradisional), dipantau saat mereka berinteraksi dengan media target saya, karena ini hampir seperti beralih dari menembak ikan
sepanjang hari normal mereka. —sebesar total 300 jam data waktu dalam tong ke [menembak] ikan kecil. Targetnya menjadi lebih
nyata. Setiap orang memakai kacamata dengan kamera tertanam cepat, dan peluang untuk menangkapnya menjadi lebih kecil.”
untuk memantau platform media apa (TV, komputer, tablet, ponsel Jenis penelitian apa yang dilakukan di sini? Masalah desain apa
pintar) yang dia gunakan dan kontennya saat itu. Sistem Pemantauan yang dibahas dalam penelitian ini? Konsep dan konstruksi apa
Biometrik Innerscope memantau respons sistem saraf otonom dengan yang mungkin diukur?
sabuk noninvasif yang dikenakan di sekitar tulang rusuk bawah peserta www.timewarner.com; www.innerscope.com
selama tidak bekerja
Sepanjang bagian ini kami telah mengeksploitasi teknik visual analisis data eksplorasi untuk melihat
melampaui ringkasan numerik dan mendapatkan wawasan tentang pola data. Beberapa pendekatan telah
menekankan perlunya matematika tingkat lanjut, dan semuanya memiliki daya tarik intuitif bagi analis.
Ketika cara yang lebih umum untuk meringkas lokasi, penyebaran, dan bentuk telah menyampaikan
gambaran data yang tidak memadai, kami telah menggunakan statistik yang lebih tahan untuk melindungi
kami dari efek skor ekstrem dan kesalahan sesekali. Kami juga telah menekankan nilai transformasi skala
asli data selama analisis awal daripada pada titik pengujian hipotesis.
Tabulasi silang adalah langkah pertama untuk mengidentifikasi hubungan antar variabel. Ketika tabel
dibuat untuk pengujian statistik, kami menyebutnyatabel kontingensi, dan tes menentukan apakah
420 >bagian IV Analisis dan Penyajian Data
>Pameran 16-11 Tabulasi Silang SPSS Gender Berdasarkan Kesempatan Penugasan di Luar Negeri
Sel Menghitung
JENIS KELAMIN 22 40 62
Pria 1 35.5 64.5 62.0
78.6 55.6
22.0 40.0
6 32 38
marjinal
Perempuan 2 15.8 84.2 38.0
21.4 44.4
Sel 2, 1 6.0 32.0
(baris 2, kolom 1)
Kolom 28 72 100
Total 28.0 72.0 1 00.0
variabel klasifikasi adalah independen satu sama lain (lihat chi-kuadrat di Bab 17). Tentu saja, tabel mungkin
lebih besar dari 23 2.
Penggunaan Persentase
Persentase melayani dua tujuan dalam penyajian data. Pertama, mereka menyederhanakan data dengan mereduksi semua
angka menjadi rentang dari 0 hingga 100. Kedua, mereka menerjemahkan data ke dalam bentuk standar, dengan basis
100, untuk perbandingan relatif. Dalam situasi sampling, jumlah kasus yang termasuk dalam kategori tidak ada artinya
kecuali jika dikaitkan dengan beberapa basis. Jumlah 28 penerima tugas di luar negeri memiliki sedikit arti kecuali kita tahu
itu dari sampel 100. Menggunakan yang terakhir sebagai dasar, kami menyimpulkan bahwa 28 persen dari sampel
penelitian ini memiliki tugas di luar negeri.
Meskipun hal di atas bermanfaat, bahkan lebih berguna ketika masalah penelitian memerlukan perbandingan
beberapa distribusi data. Asumsikan data yang dilaporkan sebelumnya dikumpulkan lima tahun yang lalu dan
penelitian ini memiliki sampel 1.500, di mana 360 dipilih untuk penugasan di luar negeri. Dengan menggunakan
persentase, kita dapat melihat hubungan relatif dan pergeseran data (lihat Tampilan 16-12).
Belajar 1 Belajar 2
Menghitung Menghitung
>jeprettembakan
Memberdayakan Excel
Saat mengembangkan tampilan data, beberapa analis riset tidak membuat tampilan, seperti Matriks GE yang ditampilkan di sini.
beralih ke paket perangkat lunak statistik tugas berat seperti SPSS atau Pengguna dapat mempraktikkan teknik pada data sampel dari
SAS, tetapi ke spreadsheet di desktop mereka. Dua profesor giat dari perusahaan nyata atau memasukkan datanya sendiri.
Pennsylvania State University, Gary L. Lilien dan Arvind Rangaswamy, Plug-in saat ini memfasilitasi tampilan untuk peramalan, analisis
telah bekerja sama untuk mengembangkan plug-in Microsoft Excel conjoint, analisis pilihan pelanggan, analisis nilai seumur hidup
yang memberdayakan spreadsheet untuk membuat beberapa pelanggan, perencanaan Matriks Portofolio GE, analisis pemosisian,
tampilan yang diinginkan secara umum hanya dengan beberapa klik analisis alokasi sumber daya, desain produk dan layanan baru, dan
mouse. “Dengan produk perangkat lunak ini, pengguna akan dapat analisis segmentasi/penargetan—semua analisis umum latihan untuk
menggunakan kekuatan analitik kelas dunia dari dalam Excel, sebuah manajer yang terlibat dalam teknik pemasaran. Berkat Lilien dan
antarmuka yang sudah nyaman bagi mereka,” klaim situs web mereka. Rangaswamy, beberapa teknik tampilan yang canggih telah
Setiap plug-in menawarkan template unik untuk entri data tempat disederhanakan secara signifikan.
petunjuk pembuatan bagan disematkan
tered, serangkaian panduan windows untuk
Dengan tabel dua dimensi, pemilihan baris atau kolom akan menonjolkan distribusi atau perbandingan
tertentu. Hal ini menimbulkan pertanyaan tentang arah mana persentase harus dihitung. Sebagian besar
program komputer menawarkan opsi untuk menyajikan persentase di kedua arah dan menukar baris dan
kolom tabel. Tetapi dalam situasi di mana satu variabel dihipotesiskan sebagai penyebab yang diduga,
dianggap mempengaruhi atau memprediksi respons, atau hanya mendahului variabel lain, kami memberi
label variabel independen. Persentase kemudian harus dihitung ke arah variabel ini. Jadi, jika variabel bebas
ditempatkan pada baris, pilih persentase baris; jika ada di kolom, pilih persentase kolom. Ke arah mana
persentase harus dijalankan dalam contoh sebelumnya? Jika hanya persentase kolom yang dilaporkan, kami
menyiratkan bahwa status penugasan memiliki beberapa efek pada jenis kelamin. Ini tidak masuk akal.
Ketika persentase dilaporkan dalam baris, implikasinya adalah bahwa gender memengaruhi pemilihan
untuk tugas di luar negeri.
Perhatian harus diberikan dalam menafsirkan persentase dari tabel. Perhatikan kembali data pada
Exhibit#16-12. Dari penelitian pertama hingga kedua, terlihat bahwa persentase perempuan yang dipilih females