Anda di halaman 1dari 50

>bagian IV

Bab 15 Persiapan dan Deskripsi Data

Bab 16 Mengeksplorasi, Menampilkan,


dan! Memeriksa Data

Bab 17 Pengujian Hipotesis

Bab 18 Langkah-langkah Asosiasi

Bab 19 Menyajikan Wawasan dan Temuan:


Laporan Tertulis

Bab 20 Menyajikan Wawasan dan Temuan:


Presentasi Lisan

Analisis dan Penyajian Data


>bab 15
Persiapan dan Deskripsi Data

>belajartujuan
Setelah membaca bab ini, Anda harus mengerti. . .

1 Pentingnya mengedit data mentah yang dikumpulkan untuk mendeteksi kesalahan dan kelalaian.

2 Bagaimana pengkodean digunakan untuk menetapkan angka dan simbol lain untuk jawaban dan untuk mengkategorikan tanggapan.

3 Penggunaan analisis isi untuk menafsirkan dan meringkas pertanyaan terbuka.

4 Masalah dengan dan solusi untuk tanggapan “tidak tahu” dan data yang hilang.

5 Opsi untuk entri dan manipulasi data.

“ bekerja untuk
pola,orang lainAnda
dan menerapkannya


Pemikiran di mana melihat apa itu
untuk situasi Anda sendiri, adalah salah satu yang terbaik
cara membuat b ig hal-hal terjadi untuk Anda
dan tim Anda.
David Novak, ketua dan CEO,
Nyam! Merek, Inc.
>membawapenelitianuntukkehidupan PikiranPenulis

Orang awam sering berpikir bahwa data hanya perlu dihitung untuk disajikan. Tetapi seorang peneliti
terlatih memahami bahwa data jarang siap untuk dihitung setelah dikumpulkan. Entri data, jika tidak
terjadi bersamaan dengan proses survei, akan menambah hari pada proses, seperti halnya memeriksa
keakuratan data. Myra Wines, kontak utama MindWriter dengan Henry!and Associates, datang lebih awal
untuk pertemuan yang dia minta dengan Jason dan menyela sesi data pada proyek Jason lainnya. Dia
memiliki kepentingan dalam apa yang sedang dikerjakan Jason, dan dia akan menawarkan proyek baru
kepada Henry and Associates.

"Apakah kehadiranku lebih awal untuk pertemuan kita menjadi Pagi ini saya menjalankan satu set frekuensi penuh. Jill, David,
masalah?" tanya Myra saat dia bergerak melewati setumpuk dan Sammye memulai analisis awal mereka … eh, 90 menit
cetakan komputer yang ditumpuk sangat tinggi tepat di dalam yang lalu.”
pintu kantor Jason. “Mungkinkah tim yang rajin di luar Anda "Jadi saya kira saya harus menunggu sampai Anda memiliki sesuatu yang

sedang mempelajari data Proyek MindWriter 2 saya?” lebih solid untuk dipelajari bahkan secara singkat tentang apa yang telah

"Belum," komentar Jason sambil melambaikan tangan ke Anda temukan sejauh ini?" tanya Myra sambil tersenyum.

kursi kosong Myra. "Beri aku satu detik saja." Dia dengan "Ah," balas Jason sambil tersenyum, "Anda telah mempelajari

cepat menulis dua catatan di Post-its dan menempelkan satu proses H&A dengan cukup baik." Myra menyeringai dan kemudian
di sketsa pensil grafik dan menempelkan yang lain ke mengubah posisinya di kursi, sedikit condong ke arah Jason. Tepat

histogram. "Sammye, kamu mau ambil ini?" Jason memanggil sebelum dia berbicara, Jason mengamati, “Oh, tidak! Anda
salah satu anggota tim di luar!ce. berubah menjadi postur 'Saatnya turun ke bisnis'. Jadi apa proyek

Sementara itu, Myra memilih kursi yang tersedia dan baru yang ingin Anda diskusikan. . . dan tenggat waktu yang

menunggu. Dia di sini untuk meyakinkan Jason untuk mustahil yang harus aku penuhi?”
mengambil proyek lain untuk MindWriter. Yang satu ini “Dengarkan aku dulu, Jason. Grup produk LT3000 MindWriter telah

memiliki perputaran yang singkat. Mengalihkan perhatiannya memutuskan perlu menggunakan 'keunggulan dalam sistem yang

ke Myra, Jason mengekstrak folder yang tergeletak di dirancang khusus' sebagai klaimnya dalam kampanye iklan baru, tetapi

credenza di belakangnya. “Sebenarnya lebah pekerja itu hukum mengatakan kami tidak memiliki cukup data untuk mendukung

adalah anggota baru staf saya, mahasiswa pascasarjana dari klaim tersebut. Biro iklan yang kami pilih memiliki peluang yang

universitas. Mereka ditugaskan ke proyek CityCenter for pendek. Kami membutuhkan data pendukung dalam waktu 10 hari.”

PerformingArts,” kata Jason. “Karena rekomendasi Anda, kami Myra mengangkat tangannya untuk menghentikan keberatan yang dia

mendapat pekerjaan itu. Saya pikir Anda tahu.” harapkan dari Jason. “Kami tahu Anda tidak punya waktu untuk

“Tentu saja aku tahu. Saya telah melayani di dewan CCPA mengumpulkan data primer baru dan menganalisisnya dalam 10 hari

selama dua tahun. Apakah Anda akan mempresentasikan … jadi saya membawa hal terbaik berikutnya. Saya punya tiga kotak

analisis pendahuluan pada pertemuan berikutnya Jumat ini?” catatan lain-lain di bagasi saya ... "

"Seperti lusa?" tanya Jason. “Hanya dalam mimpi kita! "Ayo kita lihat apa yang kamu bawakan untukku," erang Jason

Analisis awal yang Anda lihat mereka kerjakan hanya untuk dengan ramah saat dia berdiri dari kursinya. “Kemudian kita akan
kami. Meskipun kami dapat mengembangkan bagan melihat apakah proyek ini layak.” Saat dia melewati bagian luar
presentasi yang mungkin dipresentasikan ke Dewan Pusat, kantor, Jason memberi isyarat agar salah satu siswa mengikuti;
kemungkinan besar tidak ada materi yang Anda lihat lalu di samping Myra dia berkata, “Myra, temui David Chesley.
ditumpuk di sini akan berakhir di laporan sebagaimana Anda hanya beruntung bahwa pekerja magang baru saya sangat

adanya. Kami belum siap untuk menulis laporan klien. Kami bersemangat sehingga mereka akan menikmati menyulap dua
baru saja !selesai membersihkan data !le kemarin. proyek sekaligus.”
376 >bagian IV Analisis dan Penyajian Data

> pengantar
Begitu data mulai mengalir, perhatian peneliti beralih ke analisis data. Bab ini berfokus pada fase pertama dari
proses itu, persiapan data, dan deskripsi. Persiapan data meliputi penyuntingan, pengkodean, dan entri data dan
merupakan aktivitas yang memastikan keakuratan data dan konversinya dari bentuk mentah ke bentuk tereduksi
dan terklasifikasi yang lebih sesuai untuk analisis. Mempersiapkan ringkasan statistik deskriptif adalah langkah
awal lain yang mengarah pada pemahaman tentang data yang dikumpulkan. Selama langkah inilah kesalahan entri
data dapat terungkap dan diperbaiki. Peraga 15-1 mencerminkan langkah-langkah dalam
fase proses penelitian ini.

>Pameran 15-1 Persiapan Data dalam Proses Penelitian

Pengukuran
Pertanyaan

Desain Instrumen

Prates Akhir Kodekan terlebih dahulu

Instrumen Instrumen

Dikodekan & Diuji sebelumnya


Instrumen

Pengumpulan & Persiapan Data

Mengumpulkan data

Kode pos Kode Pos Gratis-


Masukkan Data
Instrumen Pertanyaan Tanggapan

Edit File Data

Analisis & Interpretasi Data


>bab 15 Persiapan dan Deskripsi Data 377

> Mengedit
Langkah pertama yang biasa dilakukan dalam analisis adalah mengedit data mentah. Mengedit mendeteksi kesalahan dan kelalaian,
memperbaikinya bila memungkinkan, dan menyatakan bahwa standar kualitas data maksimum telah tercapai. Tujuan editor adalah
untuk menjamin bahwa data adalah:

• Tepat.
• Konsisten dengan maksud pertanyaan dan informasi lain dalam survei.
• Dimasukkan seragam.
• Lengkap.
• Disusun untuk menyederhanakan pengkodean dan tabulasi.
Dalam pertanyaan berikut yang diajukan kepada orang dewasa berusia 18 tahun ke atas, satu responden memeriksa dua kategori, yang
menunjukkan bahwa dia adalah seorang pensiunan perwira dan saat ini sedang bertugas aktif.

Harap tunjukkan status militer Anda saat ini:

Cadangan tugas aktif Pensiunan

Garda Nasional Dipisahkan Tidak pernah bertugas di militer

Tanggung jawab editor adalah untuk memutuskan jawaban mana yang konsisten dengan maksud
pertanyaan atau informasi lain dalam survei dan paling akurat untuk peserta individu ini.

Pengeditan Lapangan

Dalam proyek besar, !peninjauan pengeditan lapangan adalah tanggung jawab !penyelia lapangan. Itu juga harus
dilakukan segera setelah data terkumpul. Selama stres pengumpulan data dalam wawancara pribadi dan
pencatatan kertas dan pensil dalam pengamatan, peneliti sering menggunakan singkatan ad hoc dan simbol
khusus. Segera setelah wawancara, eksperimen, atau observasi, peneliti harus meninjau formulir pelaporan. Sulit
untuk menyelesaikan apa yang disingkat atau ditulis dengan singkatan atau dicatat secara tidak terbaca jika entri
tidak tertangkap hari itu. Ketika ada celah masuk dari wawancara, panggilan balik harus dilakukan daripada
menebak apa yang "mungkin akan dikatakan oleh responden". Wawancara diri tidak memiliki tempat dalam
penelitian yang berkualitas.
Fungsi kontrol penting kedua dari !penyelia lapangan adalah untuk memvalidasi hasil !lapangan. Ini biasanya
berarti dia akan mewawancarai kembali beberapa persentase responden, setidaknya pada beberapa pertanyaan,
memverifikasi bahwa mereka telah berpartisipasi dan bahwa pewawancara bekerja dengan baik. Banyak
perusahaan riset akan menghubungi kembali sekitar 10 persen responden dalam proses validasi data ini.

Pengeditan Tengah
Sementara survei online dan entri data berikutnya telah menghilangkan beberapa masalah
pengeditan, terlepas dari mode pengumpulannya, semua data harus mendapatkan
pengeditan menyeluruh. Untuk penelitian kecil, penggunaan editor tunggal menghasilkan
konsistensi maksimum. Dalam studi besar, tugas pengeditan harus dialokasikan sehingga
setiap editor menangani satu bagian keseluruhan. Meskipun pendekatan terakhir tidak akan
mengidentifikasi inkonsistensi antara jawaban di bagian yang berbeda, masalah dapat
ditangani dengan mengidentifikasi pertanyaan di bagian yang berbeda yang mungkin
menunjukkan kemungkinan inkonsistensi dan meminta satu editor memeriksa data yang
dihasilkan oleh pertanyaan ini.
Kadang-kadang jelas bahwa suatu entri salah—misalnya, ketika seorang responden Kualitas data tidak bisa dibiarkan begitu saja. Data tidak ada
artinya jika tidak berkualitas baik, jadi membersihkan data sangat
dengan jelas menyebutkan waktu dalam hari (misalnya, 13) ketika diminta dalam
penting. Jika penelitian memberikan orang yang tepat pada waktu
minggu (misalnya, Anda mengharapkan angka 4 atau kurang)—atau data dimasukkan
yang tepat untuk menghasilkan data yang tepat untuk sebuah
di tempat yang salah. Ketika balasan tidak sesuai (di luar kisaran nilai yang diharapkan keputusan, maka peneliti tidak mempertaruhkan wawasan.
atau tidak terkait dengan pertanyaan yang diajukan) atau tidak ada,
378 >bagian IV Analisis dan Penyajian Data

>Menutupnaik
Seberapa Kotor Masalah Data Kotor?

Data kotor, data yang “menyesatkan, salah, tanpa format umum, bidang "pemasok" dari beberapa basis data, mencegah basis data tersebut
mengandung kesalahan ejaan atau tanda baca, salah input, atau digabungkan dengan benar atau mencegah peneliti menemukan pola yang
dipalsukan oleh responden”Sebuah merupakan masalah bisnis utama. Di berkaitan dengan setiap pemasok. Data salah hanya salah; paling sering
era pengumpulan data online ini, data menjadi kotor ketika data terjadi ketika data hilang, atau dipalsukan, atau ketika data, seperti pesanan
duplikat dibuat, seperti ketika responden “tidak sengaja mengklik dua pelanggan, tidak dimasukkan sama sekali.
kali tombol 'kirim' pada formulir [atau survei], atau [dalam studi klik- Langkah-langkah dasar untuk menangani data yang buruk adalah sama:
tayang web] mengunjungi kembali halaman yang telah 'kedaluwarsa' mendeteksi dan menghapus atau memperbaikinya. Tetapi beberapa ahli
dan menyegarkannya.”b Data menjadi kotor ketika sudah usang, seperti menyarankan langkah ketiga: menentukan seberapa besar kesalahan yang harus
ketika calon pelanggan pindah atau mengubah nomor telepon atau ditoleransi.g Jika data buruk ada di area kritis, seperti hasil tes darah pasien atau
alamat emailnya. Data kotor juga dapat terjadi ketika ada “terputusnya piutang perusahaan, kemungkinan besar waktu dan upaya organisasi untuk
hubungan antara data dalam sistem komputer dan data yang tertanam memperbaikinya sepadan. Jika data kotor ada di bagian catatan dari file manajemen

dalam kertas atau dokumen elektronik yang tidak dapat dibaca oleh kontak seorang salesman, itu mungkin tidak memerlukan waktu dan usaha seperti

mesin.”c itu. Masalahnya menjadi sangat buruk sehingga beberapa perusahaan telah

Di mana data kotor menjadi masalah? Cobalah ke kantor dokter Anda mempekerjakan petugas data—seseorang yang ditugaskan untuk menjaga

ketika dia mencoba mendiagnosis penyakit atau kondisi Anda. Atau restoran kebersihan data perusahaannya.h

favorit Anda sedang mencoba memutuskan item apa yang akan dikeluarkan Menurut firma riset dan penasihat Gartner Inc., 25 persen data
dari menunya. Atau pabrikan mencoba mengidentifikasi praktik perawatan penting di 1.000 perusahaan teratas dunia masih dan akan terus cacat.
mesin yang membuat komponen rusak. Atau seorang manajer hubungan saya Perkiraan lain menunjukkan bahwa jumlahnya bisa mencapai 30
manusia yang mencoba membedakan rejimen pelatihan mana yang memiliki persen.j Dun & Bradstreet Corp., yang membantu perusahaan
dampak paling positif pada laba organisasi. Craig Focardi, menulis di membersihkan file pemasok mereka, memperkirakan sebagian besar
Perbankan Hipotek, menggambarkan pemberi pinjaman sebagai hidup dari perusahaan menunjukkan 20 persen duplikat catatan pemasok.k

"diet elemen data yang hilang, tidak lengkap, dan tidak akurat untuk asal Sebuah studi PricewaterhouseCoopers menunjukkan bahwa

pinjaman." Dia menyamakannya dengan "brigade ember air, di mana air manajemen data yang buruk merugikan bisnis global “lebih dari $1,4

hilang saat ember air berpindah dari tangan ke tangan."d Dia percaya bahwa miliar per tahun dalam penipuan penagihan, akuntansi, dan

data berkualitas buruk adalah penyebab yang berkontribusi terhadap krisis inventaris.” aku Profesor pemenang Penghargaan Roger Needham dari

likuiditas hipotek saat ini di Amerika Serikat. “Selama musim panas 2007, British Computer Society, Wenfei Fan, memperkirakan bahwa "data

likuiditas pendanaan subprime mortgage menghilang sebagian karena kotor merugikan bisnis AS sebanyak $611 miliar—dan pelanggan AS

pemberi pinjaman subprime dan investor hipotek tidak memiliki data untuk sebanyak $2,5 miliar setahun."saya

secara akurat menilai kembali dan menilai ulang risiko kredit, agunan, dan Sebagian besar ahli sepakat bahwa langkah pertama adalah menetapkan

pembayaran di muka.” protokol data, aturan sederhana tentang bagaimana data dimasukkan, seperti item

Untuk mengatasi masalah kualitas data, ada baiknya mengkategorikan apa (celana, celana panjang, atau celana panjang) dipanggil atau bagaimana tanggal

masalah data kotor ke dalam empat kategori: data tidak valid, data tidak dimasukkan (20 Maret 2010 atau 20 10 Maret). Saran lainnya termasuk

lengkap, data tidak konsisten, dan data salah.e Data tidak valid adalah data mencadangkan data secara teratur, mengontrol akses ke data melalui mekanisme

yang berisi kesalahan entri, seperti kode pos yang tidak ada. Data tidak keamanan, merancang antarmuka pengguna yang mencegah input data yang tidak

lengkap ada data yang hilang yang diperlukan untuk membuat keputusan; valid, dan menggunakan perangkat lunak pendeteksi dan koreksi kesalahan saat

menghapus data dari satu database karena crash disk atau kehilangan mengirimkan data.tidak Presiden Tigris Consulting menambahkan, “Anda harus sangat

tautan antara database di gudang data dapat membuat data yang tidak berhati-hati saat menarik data dari sistem yang berbeda bersama-sama untuk

lengkap, seperti halnya data dapat menjadi medan pertempuran dalam memastikan bahwa itu adalah nama bidang yang tepat, format yang tepat dan

perang internal—“setiap orang berpegang teguh pada bagian kecilnya secara semantik, [data] berarti apa yang Anda inginkan. ”Hai Tetapi sebagian besar

sendiri dari penyimpanan data, tidak ada yang mau berbagi.”f Data tidak pakar data percaya bahwa situasinya tidak akan membaik sampai manajemen

konsisten sering dilihat hanya dari perspektif gambaran besar; data dari satu puncak menjadikan data bersih sebagai prioritas.

database mungkin sedikit atau tidak masuk akal jika dilihat dari perspektif www.tigris.com; www.gartner.com; www.dnb.com;
data dalam database yang terpisah tetapi terhubung. Ini mungkin karena www.pwc.com; www.bcs.org;
protokol data, seperti penamaan perusahaan: IBM dapat dimasukkan www.mortgagebankingmagazine.com
sebagai IBM, IBM, atau Mesin Bisnis Internasional di
>bab 15 Persiapan dan Deskripsi Data 379

>jeprettembakan
CBS: Beberapa Lab Luar Biasa

Pengunjung Las Vegas memiliki kesempatan untuk menentukan arah mengamati peserta dan umpan balik mereka dari kantor terpencil di seluruh
program CBS dengan mengunjungi Pusat Penelitian Kota Televisi CBS negeri. Fasilitas, yang dirancang oleh GES, juga menyediakan kemampuan
di MGMGrand Hotel and Casino. Apa yang membuat Las Vegas menjadi kelompok fokus, yang digunakan untuk wawancara lanjutan bersama
lokasi yang ideal untuk laboratorium penelitian adalah populasi dengan inisiatif penelitian lainnya. Peserta diberi kompensasi dengan
penduduk Amerika dan jumlah besar warga internasional di antara 39 kesempatan untuk memenangkan sistem home theater, serta kupon $10!
juta pengunjungnya setiap tahun. Dalam skrining khas dengan 250 yang dapat mereka tukarkan dengan kaos berlogo program, topi, pin,
orang, individu mewakili lebih dari 40 negara bagian dan setiap gaya gantungan kunci, dan bahkan perangkat lunak komputer di Pusat Penelitian

hidup yang mungkin. Peserta menonton segmen program baru atau Kota Televisi CBS toko. Timbul dari tes sementara yang dilakukan di
yang diusulkan selama 30 hingga 45 menit, tanpa gangguan komersial, 1991, fasilitas penelitian hari ini beroperasi 12 jam per hari sepanjang tahun.
diikuti dengan proses survei yang berlangsung selama 15 menit. Setiap Jadi pada kunjungan Anda berikutnya ke City of Lights, ketika slot atau
kursi dilengkapi dengan layar sentuh komputer yang terhubung penghibur terkenal kehilangan daya tarik, hibur diri Anda dengan riset.

dengan Nielsen ReelResearch milik Nielsen Entertainment. Peserta Apa saja keuntungan memiliki entri data layar sentuh?
berbagi umpan balik tentang pertunjukan dan demografi pribadi
secara real time, www.nielsen.com; www.viad.com

editor terkadang dapat mendeteksi jawaban yang tepat dengan meninjau informasi lain dalam kumpulan data. Namun,
praktik ini harus dibatasi pada beberapa kasus di mana sudah jelas apa jawaban yang benar. Mungkin lebih baik untuk
menghubungi responden untuk mendapatkan informasi yang benar, jika waktu dan anggaran memungkinkan. Alternatif
lain adalah editor untuk mencoret jawaban jika tidak pantas. Di sini diperlukan entri pengeditan "tidak ada jawaban" atau
"tidak diketahui".
Masalah lain yang dapat dideteksi oleh pengeditan saat menggunakan wawancara pribadi atau telepon adalah memalsukan
wawancara yang tidak pernah terjadi. “Wawancara kursi” ini sulit dikenali, tetapi editor berada dalam posisi terbaik untuk
melakukannya. Salah satu pendekatan adalah untuk memeriksa tanggapan terhadap pertanyaan terbuka. Ini adalah yang paling sulit
untuk dipalsukan. Pola respons yang khas pada pertanyaan lain akan sering muncul jika terjadi pemalsuan data. Untuk mengungkap
ini, editor harus menganalisis sebagai seperangkat instrumen yang digunakan oleh setiap pewawancara.
Berikut adalah beberapa aturan yang berguna untuk memandu editor dalam pekerjaan mereka:

• Kenali instruksi yang diberikan kepada pewawancara dan pembuat kode.

• Jangan merusak, menghapus, atau membuat entri asli oleh pewawancara atau responden tidak
terbaca; entri asli harus tetap terbaca.
• Buat semua entri pengeditan pada instrumen atau kumpulan data dalam beberapa warna khusus dan dalam
bentuk standar.
• Inisial semua jawaban diubah atau diberikan.

• Tempatkan inisial dan tanggal pengeditan pada setiap instrumen yang diselesaikan atau di bidang terpisah dalam
kumpulan data.

> Pengkodean

Pengkodean melibatkan pemberian nomor atau simbol lain untuk jawaban sehingga tanggapan dapat
dikelompokkan ke dalam sejumlah kategori. Dalam pengkodean,kategori adalah partisi dari kumpulan data dari
variabel tertentu (misalnya, jika variabelnya adalah jenis kelamin, partisi adalah pria dan Perempuan). Kategorisasi
adalah proses menggunakan aturan untuk mempartisi tubuh data. Baik pertanyaan tertutup maupun terbuka
harus diberi kode. Beberapa pertanyaan survei kertas dan online berisi kode numerik atau tekstual dan ini adalah:
380 >bagian IV Analisis dan Penyajian Data

terlihat oleh responden. Pertanyaan lain, misalnya pertanyaan tanggapan terbuka, diberi kode setelah data
dikumpulkan. Pengodean ulang variabel setelah data dianalisis awalnya dimungkinkan ketika mencoba
memahami pola di dalam data.
Kategorisasi data mengorbankan beberapa detail data tetapi diperlukan untuk analisis yang efisien. Sebagian besar
program perangkat lunak statistik dan spanduk/tabel bekerja lebih efisien dinumerik mode. Alih-alih memasukkan katapria
atau Perempuan sebagai jawaban atas pertanyaan yang menanyakan identifikasi jenis kelamin seseorang, kita akan
menggunakan kode numerik (misalnya, 0 untuk pria dan 1 untuk wanita). Pengkodean numerik menyederhanakan tugas
peneliti dalam mengubah variabel nominal, seperti jenis kelamin, menjadi "variabel dummy", topik yang kami diskusikan
dalam suplemen Pusat Pembelajaran Online: Analisis Multivariat, Sebuah Tinjauan. Perangkat lunak statistik juga dapat
menggunakan kode alfanumerik, seperti ketika kita menggunakan M dan F, atau huruf lain, dalam kombinasi dengan
angka dan simbol untuk jenis kelamin.

Konstruksi Buku Kode


SEBUAH buku kode, atau skema pengkodean, berisi setiap variabel dalam penelitian dan
menentukan penerapan aturan pengkodean pada variabel. Ini digunakan oleh peneliti atau staf
penelitian untuk mempromosikan entri data atau analisis data yang lebih akurat dan efisien. Ini
juga merupakan sumber definitif untuk menemukan posisi variabel dalam file data selama
analisis. Dalam banyak program statistik, skema pengkodean merupakan bagian integral dari
file data. Sebagian besar codebook—terkomputerisasi atau tidak—berisi nomor pertanyaan,
nama variabel, lokasi kode variabel pada media input (misalnya, spreadsheet atau data SPSS !le),
deskriptor untuk opsi respons, dan apakah variabel tersebut alfabetis atau numerik. Contoh
buku kode berbasis kertas ditunjukkan pada Tampilan 15-2. Uji coba instrumen memberikan
informasi yang cukup tentang variabel untuk menyiapkan buku kode.

Coding Pertanyaan Tertutup


Tanggapan terhadap pertanyaan tertutup termasuk item skala yang jawabannya dapat diantisipasi. Pertanyaan
tertutup lebih disukai oleh peneliti daripada pertanyaan terbuka karena efisiensi dan kekhususannya. Mereka lebih
mudah untuk dikodekan, direkam, dan dianalisis. Ketika kode dibuat dalam desain instrumen
fase penelitian survei Dengan

terkomputerisasi n dari

Peneliti di sini meminta printout


frekuensi semua variabel ketika
83 kasus telah dimasukkan. IBM
® SPSS® Statistik menyajikannya

secara berurutan dalam satu


dokumen. Bingkai kiri
menunjukkan semua variabel
disertakan dalam file keluaran
khusus ini. Kedua variabel Qual2
dan Qual3 menunjukkan 3!kasus
yang hilang. Ini akan menjadi
tanda peringatan bagi peneliti
yang baik. Selama pengeditan,
peneliti ingin memverifikasi bahwa
ini adalah contoh nyata di mana
peserta tidak menilai kualitas
kedua objek, daripada kesalahan
entri data. SPSS Inc. diakuisisi oleh
IBM pada Oktober 2009.

www.ibm.com/software/
analitik/spss
>bab 15 Persiapan dan Deskripsi Data 381

>Pameran 15-2 Contoh Buku Kode Item Kuesioner

Variabel Variabel
Pertanyaan Jumlah Deskripsi Kode Nama
______ 1 Nomor catatan RECNUM
______ 2 Nomor responden RESID

1 3 5 digit kode pos zip


99999 5 hilang

2 4 2 digit tahun KELAHIRAN

lahir 99 5 hilang

3 5 Jenis kelamin JENIS KELAMIN

1 5 Pria
2 5 Perempuan
9 5 hilang

4 6 Status pernikahan PERNIKAHAN


1 5 Menikah
2 5 Duda)
3 5 Bercerai
4 5 Terpisah
5 5 Belum pernah
menikah 9 5 hilang

5 7 Milik – Sewa PERUMAHAN


1 5 Sendiri
2 5 Menyewa
3 5 disediakan
9 5 hilang

6 Alasan pembelian
1 5 Tersebut
0 5 Tidak disebutkan

8 Dibeli di rumah RUMAH


9 Kelahiran anak ULANG TAHUN
10 Kematian kerabat atau teman KEMATIAN
11 Dipromosikan PROMO
12 Berubah pekerjaan/karir CHGJOB
13 Membayar biaya kuliah COLLEXP
14 Aset yang diperoleh AKTIVA
15 Pensiunan PENSIUNAN
16 Mengubah status pernikahan CHGMAR
17 Memulai bisnis STARTBUS
18 Bisnis yang diperluas EXPBUS
19 Pengaruh orang tua INDUK
20 Dihubungi oleh agen AGEN
21 Lain LAIN

data, prakode diperlukan karena perangkat lunak menghitung data saat dikumpulkan. Prakode sangat membantu
untuk entri data manual (misalnya, dari survei yang dilakukan sendiri melalui pos atau intersep) karena membuat
langkah perantara dalam menyelesaikan lembar kode entri data entry tidak perlu. Dengan instrumen yang telah
dikodekan sebelumnya, kode untuk kategori variabel dapat diakses langsung dari kuesioner. Partisipan,
pewawancara, pengawas lapangan, atau peneliti (tergantung metode pengumpulan data) dapat memberikan kode
yang sesuai pada instrumen dengan cara mencentang, melingkari, atau mencetaknya di tempat pengkodean yang
tepat.
Tampilan 15-3 menunjukkan pertanyaan dalam contoh buku kode. Saat precoding digunakan, pengeditan
mendahului pemrosesan data. Perhatikan pertanyaan 4, di mana responden dapat memilih di antara lima kategori
status perkawinan dan memasukkan nomor item yang paling mewakili status sekarang di bagian pengkodean
kuesioner. Kode ini kemudian ditransfer ke media input untuk analisis.
382 >bagian IV Analisis dan Penyajian Data

>Pameran 15-3 Contoh Item Kuesioner

1. Apa kode pos tempat tinggal Anda? __ __ __ __ __

2. Berapa tahun kelahiran Anda? 19__ __

3. Jenis Kelamin (1) Pria Menunjukkan

(2) Wanita pilihanmu __


dengan nomor

4. Apa status pernikahan Anda?


(1) Menikah Menunjukkan

(2) Janda pilihanmu __


(3) Bercerai dengan nomor
(4) Terpisah
(5) Belum pernah menikah

5. Apakah Anda memiliki atau menyewa tempat tinggal utama Anda?


(1) Milik Menunjukkan

(2) Sewa pilihanmu __


(3) Tempat tinggal disediakan dengan nomor

6. Apa yang mendorong Anda untuk membeli polis


asuransi jiwa terbaru Anda?

___________________________________

___________________________________

______________________

___________________________________

________________________________________________

________________________________________________

Coding Pertanyaan Terbuka Open


Salah satu alasan utama untuk menggunakan pertanyaan terbuka adalah bahwa informasi yang tidak
mencukupi atau kurangnya hipotesis dapat menghalangi penyusunan kategori tanggapan terlebih dahulu.
Peneliti dipaksa untuk mengkategorikan tanggapan setelah data dikumpulkan. Alasan lain untuk
menggunakan tanggapan terbuka termasuk kebutuhan untuk mengukur perilaku sensitif atau tidak
disetujui, menemukan arti-penting atau kepentingan, atau mendorong mode ekspresi alami.1 Juga, mungkin
lebih mudah dan lebih efisien bagi peserta untuk menulis jawaban singkat yang diketahui daripada
membaca daftar pilihan yang panjang. Apa pun alasan penggunaannya, menganalisis sejumlah besar
pertanyaan terbuka memperlambat proses analisis dan meningkatkan peluang kesalahan. Keragaman
jawaban untuk satu pertanyaan bisa sangat mengejutkan, menghambat kategorisasi pascakoleksi. Bahkan
ketika kategori diantisipasi dan dikodekan sebelumnya untuk pertanyaan terbuka, setelah data
dikumpulkan, peneliti mungkin merasa berguna untuk menilai kembali kategori yang telah ditentukan.
Salah satu contohnya adalah skala 7 poin di mana peneliti menawarkan kepada partisipan tiga tingkat
persetujuan, tiga tingkat ketidaksetujuan, dan satu posisi netral. Setelah data terkumpul, jika nuansa
kesepakatan ini tidak terwujud,
Tampilan 15-3, pertanyaan 6, mengilustrasikan penggunaan pertanyaan terbuka di mana pengetahuan
lanjutan tentang pilihan jawaban tidak tersedia. Jawaban untuk “Apa yang mendorong Anda untuk membeli
polis asuransi jiwa terbaru Anda?” harus diisi oleh peserta sebagai esai jawaban singkat. Setelah evaluasi
awal, kategori respons (ditunjukkan dalam buku kode, Tampilan 15-2) dibuat untuk item tersebut.
>bab 15 Persiapan dan Deskripsi Data 383

Aturan Pengkodean

Empat aturan memandu pra dan pasca pengkodean dan kategorisasi kumpulan data. Kategori dalam satu
variabel harus:

• Sesuai dengan masalah dan tujuan penelitian.


• Lengkap.
• Saling eksklusif.
• Berasal dari satu dimensi klasifikasi.

Peneliti mengatasi masalah ini ketika mengembangkan atau memilih setiap pertanyaan pengukuran tertentu.
Salah satu tujuan uji coba instrumen pengukuran apa pun adalah untuk mengidentifikasi dan mengantisipasi
masalah kategorisasi.

Kelayakan
Kesesuaian ditentukan pada dua tingkat: (1) partisi terbaik dari data untuk menguji hipotesis dan menunjukkan
hubungan dan (2) ketersediaan data perbandingan. Misalnya, ketika usia sebenarnya diperoleh (skala rasio), editor
dapat memutuskan untuk mengelompokkan data berdasarkan rentang usia untuk menyederhanakan penemuan
pola dalam data. Jumlah kelompok usia dan luasnya setiap rentang, serta titik akhir di setiap rentang, harus
ditentukan oleh data perbandingan—misalnya, rentang usia sensus AS, basis data pelanggan yang mencakup
rentang usia, atau data usia yang tersedia dari Fox TV digunakan untuk melakukan pembelian media iklan.

Ketuntasan
Peneliti sering menambahkan opsi "lain" ke pertanyaan pengukuran karena mereka tahu bahwa mereka tidak dapat
mengantisipasi semua kemungkinan jawaban. Namun, sejumlah besar tanggapan "lainnya", menunjukkan bahwa skala
pengukuran yang dirancang peneliti tidak mengantisipasi berbagai informasi. Editor harus menentukan apakah tanggapan
“lainnya” dengan tepat dimasukkan ke dalam kategori yang telah ditetapkan, apakah kategori baru harus ditambahkan,
apakah data “lainnya” akan diabaikan, atau jika beberapa kombinasi dari tindakan ini akan diambil.
Meskipun persyaratan kelengkapan untuk satu variabel mungkin jelas, aspek kedua kurang jelas. Apakah
satu set kategori—sering kali ditentukan sebelum data dikumpulkan—mengambil semua informasi dalam
data? Misalnya, jawaban atas pertanyaan terbuka tentang prospek ekonomi keluarga untuk tahun depan
mungkin awalnya hanya dikategorikan sebagai “optimis” atau “pesimis”. Mungkin juga mencerahkan untuk
mengklasifikasikan tanggapan dalam hal konsep lain seperti fokus yang tepat dari harapan ini (pendapatan
atau pekerjaan) dan variasi dalam tanggapan antara kepala keluarga dan orang lain dalam keluarga.

Saling Eksklusivitas
Aturan penting lainnya ketika menambahkan kategori atau menyelaraskan kembali kategori adalah bahwa
komponen kategori harus saling eksklusif. Standar ini terpenuhi ketika jawaban spesifik dapat ditempatkan dalam
satu dan hanya satu sel dalam satu set kategori. Misalnya, dalam sebuah survei, asumsikan bahwa Anda meminta
peserta untuk pekerjaan mereka. Skema kategorisasi satu editor mungkin termasuk (1) profesional, (2) manajerial,
(3) penjualan, (4) klerus, (5) kerajinan, (6) koperasi, dan (7) pengangguran. Sebagai editor, bagaimana Anda
mengkodekan jawaban peserta yang menyebutkan “penjual di Gap dan siswa tetap” atau mungkin “guru sekolah
dasar dan ahli pajak”? Menurut data sensus, tidak jarang orang dewasa di masyarakat kita memiliki lebih dari satu
pekerjaan. Di sini, definisi operasional dari pekerjaan yang dikategorikan sebagai "profesional", "manajerial, ” dan
“penjualan” akan membantu memperjelas situasi. Tetapi editor yang menghadapi situasi ini juga perlu menentukan
bagaimana data pekerjaan kedua ditangani. Salah satu opsinya adalah menambahkan !lapangan pekerjaan kedua
ke kumpulan data; lain adalah mengembangkan kode yang berbeda untuk setiap kombinasi pekerjaan ganda yang
unik.
384 >bagian IV Sebuah

>fotoprofil
QSR International telah merilis versi dua dari program perangkat lunak penelitian kualitatif XSight. Dengan alat untuk menguji teori,
memetakan analisis Anda, dan melaporkan temuan, XSight digunakan di berbagai industri lain yang menangani informasi tidak terstruktur,
termasuk SDM, hukum, pemasaran, dan pariwisata. Layar ini menunjukkan fungsi "peta" XSight. Sama seperti bagan terbalik atau papan
tulis, "peta" memberi Anda ruang untuk mengatur pemikiran Anda dan mewakili hubungan di antara mereka secara visual. Apa yang
membuat “peta” XSight unik adalah peta tersebut dapat didukung dengan tautan langsung ke informasi pendukung, seperti kutipan
peserta. Anda juga dapat mengimpor peta ke dalam brief dan presentasi klien Anda.www.qsinternational.com

Dimensi Tunggal
Masalah bagaimana menangani entri pekerjaan seperti "penjual yang menganggur" memunculkan aturan
keempat dari desain kategori. Kebutuhan set kategori untuk mengikuti prinsip klasifikasi tunggal berarti
setiap pilihan dalam set kategori didefinisikan dalam satu konsep atau konstruk. Kembali ke contoh
pekerjaan, orang dalam penelitian ini mungkin seorang tenaga penjualan dan pengangguran. Label
“penjual” mengungkapkan konsepnyajenis pekerjaan; tanggapan "menganggur" adalah dimensi lain yang
berkaitan dengan status pekerjaan saat ini tanpa memperhatikan pekerjaan normal responden. Bila
kumpulan kategori mencakup lebih dari satu dimensi, editor dapat memilih untuk membagi dimensi dan
mengembangkan bidang data tambahan; "pekerjaan" sekarang menjadi dua variabel: "jenis pekerjaan" dan
"status pekerjaan."

Menggunakan Analisis Konten untuk Pertanyaan Terbuka


Semakin banyak tanggapan berbasis teks terhadap pertanyaan pengukuran terbuka dianalisis dengan
perangkat lunak analisis konten. Analisis konten mengukur konten semantik atau apa aspek pesan.
Luasnya menjadikannya "alat yang fleksibel dan luas yang dapat digunakan sebagai metodologi yang
berdiri sendiri atau sebagai teknik khusus masalah. Organisasi pengamat tren seperti BrainReserve, Naisbitt
Group, SRI International, dan Inferential Focus menggunakan variasi analisis isi untuk proyek terpilih, sering
kali melihat perubahan dari artikel surat kabar atau majalah sebelum dapat dikonfirmasi secara statistik.
>bab 15 Persiapan dan Deskripsi Data 385

Analisis konten Naisbitt Group dari 2 juta artikel surat kabar lokal yang dikumpulkan selama periode 12
tahun menghasilkan publikasi: Megatren.

Jenis Konten
Analisis isi telah digambarkan sebagai "teknik penelitian untuk deskripsi objektif, sistematis, dan
kuantitatif dari isi nyata dari suatu komunikasi."2 Karena definisi ini terkadang dikacaukan dengan
sekadar menghitung aspek pesan yang jelas seperti kata atau atribut, interpretasi yang lebih baru
telah memperluas definisi untuk memasukkan konten laten dan manifes, makna simbolis pesan, dan
analisis kualitatif. Seorang penulis menyatakan:

Dalam satu pesan tertulis, seseorang dapat menghitung huruf, kata, atau kalimat. Seseorang dapat mengkategorikan frasa,
menggambarkan struktur logis dari ekspresi, memastikan asosiasi, konotasi, denotasi, kekuatan elokusi, dan seseorang juga dapat
menawarkan interpretasi psikiatris, sosiologis, atau politik. Semua ini mungkin berlaku secara bersamaan. Singkatnya, sebuah
pesan dapat menyampaikan banyak konten bahkan ke satu penerima.3

Analisis isi mengikuti proses sistematis untuk mengkodekan dan menarik kesimpulan dari teks. Dimulai dengan
menentukan unit data mana yang akan dianalisis. Dalam teks tertulis atau lisan, unit data terdiri dari empat jenis:
sintaksis, referensial, proposisional, atau tematik. Setiap jenis unit adalah dasar untuk mengkodekan teks ke dalam
kategori yang saling eksklusif dalam pencarian kami akan makna.

• sintaksis satuan dapat berupa kata, frasa, kalimat, atau paragraf; kata adalah unit data terkecil dan paling dapat
diandalkan untuk dianalisis. Meskipun kita pasti dapat menghitung unit-unit ini, kita lebih tertarik pada makna yang
diungkapkan penggunaannya. Dalam analisis isi, kami mungkin menentukan kata-kata yang paling umum
digunakan untuk menggambarkan produk A versus pesaingnya, produk B. Kami bertanya, Apakah deskripsi untuk
produk A ini lebih cenderung mengarah pada opini yang menguntungkan dan dengan demikian pada preferensi dan
akhirnya pemilihan, dibandingkan dengan deskripsi yang digunakan untuk produk B?

• Referensi unit adalah dijelaskan dengan kata, frasa, dan kalimat; mereka mungkin objek, peristiwa, orang, dan
sebagainya, yang mengacu pada ekspresi verbal atau tekstual. Peserta dapat merujuk pada suatu produk sebagai
“klasik”, “penampil kekuatan”, atau “peringkat pertama dalam keamanan”—setiap kata atau frasa dapat digunakan
untuk menggambarkan objek yang berbeda, dan itu adalah objek yang dikodekan dan dianalisis oleh peneliti.
kaitannya dengan frasa.

• proposisional unit adalah pernyataan tentang suatu objek, peristiwa, orang, dan sebagainya. Misalnya, seorang
peneliti yang menilai iklan untuk langganan majalah mungkin menyimpulkan, "Pelanggan yang merespons
penawaran A akan menghemat $15 dari tarif terbitan tunggal." Ini adalah pernyataan penghematan yang
dilampirkan pada teks klaim iklan khusus ini.

• Tematik unit adalah topik terkandung di dalam (dan di seberang) teks; mereka mewakili abstraksi tingkat
tinggi yang disimpulkan dari teks dan konteksnya. Tanggapan terhadap pertanyaan terbuka tentang
perilaku pembelian mungkin mencerminkan tema temporal: masa lalu ("Saya tidak pernah membeli merek
alternatif sebelum Anda mengubah paket"), masa kini ("Saya sangat menyukai kemasan baru"), atau masa
depan (“Saya akan membeli produk lebih sering jika datang dalam lebih banyak rasa”). Kita juga bisa melihat
komentar yang berkaitan dengan tema atau topik "kemasan" versus karakteristik produk, "rasa."

Seperti semua metodologi penelitian lainnya, penggunaan analitis dari analisis isi "dipengaruhi oleh
keputusan yang dibuat sebelum pengumpulan data. Analisis isi menjaga terhadap persepsi selektif dari isi,
menyediakan penerapan kriteria reliabilitas dan validitas yang ketat, dan dapat diterima untuk
komputerisasi.

Konten Apa yang Dianalisis?


Analisis isi dapat digunakan untuk menganalisis data tertulis, audio, atau video dari eksperimen,
pengamatan, survei, dan studi data sekunder. Data yang jelas untuk dianalisis konten termasuk
transkrip kelompok fokus, transkrip wawancara, dan tanggapan survei terbuka. Tetapi peneliti juga
menggunakan analisis isi pada iklan, brosur promosi, siaran pers, pidato, halaman Web, dokumen
sejarah, dan prosiding konferensi, serta artikel majalah dan surat kabar. Dalam intelijen kompetitif
dan pemasaran kandidat politik, analisis konten adalah metodologi utama.
386 >bagian IV Analisis dan Penyajian Data

Contoh
Mari kita lihat aplikasi informal analisis isi untuk pertanyaan terbuka yang bermasalah. Dalam contoh ini,
yang kami proses tanpa menggunakan perangkat lunak analisis konten, misalkan karyawan di departemen
penjualan perusahaan manufaktur ditanya, "Bagaimana hubungan perusahaan-pelanggan dapat
ditingkatkan?" Contoh tanggapan menghasilkan sebagai berikut:

• Kita harus memperlakukan pelanggan dengan lebih hormat.

• Kita harus berhenti berusaha mempercepat proses penjualan ketika pelanggan telah menyatakan keberatan atau
kekhawatirannya.

• Kita harus memiliki perangkat lunak yang memungkinkan pelacakan pesanan pelanggan secara real-time.

• Laptop kami sudah usang. Kami tidak dapat bekerja dengan perangkat lunak terbaru atau mengakses informasi dengan cepat saat
kami berada di lapangan.

• Manajer [departemen penjualan] saya bersikap kasar kepada pelanggan ketika dia mendapat telepon saat saya di
lapangan. Dia harus dipindahkan atau dipecat.

• Manajemen harus berhenti menekan kami untuk memenuhi kuota penjualan ketika pelanggan kami telah membatasi status
buka untuk membeli mereka.

Langkah pertama dalam analisis mensyaratkan bahwa unit yang dipilih atau dikembangkan membantu menjawab
pertanyaan penelitian. Dalam contoh kita, pertanyaan penelitian berkaitan dengan mempelajari siapa atau apa yang
dianggap tenaga penjualan sebagai sumber untuk meningkatkan hubungan perusahaan-pelanggan. Lintasan pertama
melalui data menghasilkan beberapa kategori umum dalam satu dimensi konsep: sumber tanggung jawab, ditunjukkan
pada Tampilan 15-4. Kategori-kategori ini saling eksklusif. Penggunaan "lainnya" membuat kumpulan kategori menjadi
lengkap. Namun, jika banyak peserta sampel menyarankan perlunya tindakan oleh pihak lain—misalnya, pemerintah atau
asosiasi perdagangan—maka memasukkan semua tanggapan tersebut ke dalam kategori “lainnya” akan mengabaikan
banyak kekayaan data. Seperti skema pengkodean untuk respons numerik, pilihan kategori sangat penting.

Karena tanggapan terhadap jenis pertanyaan ini sering menyarankan tindakan khusus, evaluasi kedua
dari data menggunakan unit proposisional. Jika kita hanya menggunakan set kategori dalam Tampilan 15-4,
analisis akan menghilangkan banyak informasi. Analisis kedua menghasilkan kategori untuk tindakan
perencanaan:

• Hubungan manusia.
• Teknologi.
• Latihan.
• Perencanaan strategis.
• Area aksi lainnya.
• Tidak ada area tindakan yang teridentifikasi.

>Pameran 15-4 Contoh Pengodean Pertanyaan Terbuka (sebelum revisi)


Pertanyaan: “Bagaimana hubungan perusahaan-pelanggan dapat ditingkatkan?”

Tempat Tanggung Jawab Tersebut Tidak Disebutkan

Perusahaan ________________ ________________

B. Pelanggan ________________ ________________

C. Perusahaan Bersama-Pelanggan ________________ ________________

F. Lainnya ________________ ________________


>bab 15 Persiapan dan Deskripsi Data 387

>Pameran 15-5 Open Question Coding (setelah revisi)


Pertanyaan: “Bagaimana hubungan perusahaan-pelanggan dapat ditingkatkan?”

Tempat Tanggung Jawab Frekuensi (tidak 5 100)

A. Manajemen

1. Manajer penjualan 10

2. Proses penjualan 20

3. Lainnya 7

5. Tidak ada area tindakan yang teridentifikasi 3

B. Penjual

1. Pelatihan 15

C. Pelanggan

1. Proses pembelian 12

2. Lainnya 8

3. Tidak ada area tindakan yang teridentifikasi 5

D. Kondisi lingkungan

E. Teknologi 20

F. Lainnya

Bagaimana kita dapat mengkategorikan tanggapan yang menyarankan proses teknologi pelatihan gabungan?
Tampilan#15-5 mengilustrasikan kombinasi alternatif. Mengambil kategori dari daftar !pertama dari area aksi
memungkinkan untuk mendapatkan penghitungan frekuensi yang akurat dari kemungkinan klasifikasi bersama
untuk pertanyaan ini.
Dengan menggunakan perangkat lunak yang tersedia, peneliti dapat menghabiskan lebih sedikit waktu untuk mengkodekan tanggapan

terbuka dan menangkap kategori. Perangkat lunak juga menghilangkan biaya pengiriman tanggapan yang tinggi ke !rms pengkodean luar. Apa
yang dulunya membutuhkan staf pengkodean beberapa hari sekarang dapat dilakukan dalam beberapa jam.

Perangkat lunak analisis konten menerapkan algoritme statistik untuk tanggapan pertanyaan terbuka. Ini
memungkinkan proses stemming, aliasing, dan eksklusi.Stemming menggunakan derivasi dari kata dasar umum
untuk membuat alias (misalnya, using mencari, mencari, mencari, untuk Cari). Aliasmencari sinonim (bijaksana atau
pintar untuk cerdas). Pengecualian!menyaring kata-kata sepele (menjadi, adalah, dari ) dalam pencarian makna.4

Saat Anda menggunakan program berbasis menu, opsi kategorisasi otomatis membuat kategori yang dapat dikelola
dengan mengelompokkan istilah yang muncul bersama di seluruh kumpulan data tekstual. Kemudian, dengan beberapa
penekanan tombol, Anda dapat mengubah parameter kategorisasi dan mengubah hasil Anda. Setelah kategori Anda
konsisten dengan pertanyaan penelitian dan investigasi, Anda memilih apa yang ingin Anda ekspor ke file data atau dalam
format tab-delimited. Outputnya, dalam bentuk tabel dan plot, berfungsi sebagai modul untuk laporan akhir Anda.
Tampilan 15-6 menunjukkan plot yang dihasilkan oleh analisis isi dari data keluhan MindWriter. Jarak antara pasangan
istilah mengungkapkan seberapa besar kemungkinan istilah itu muncul bersama-sama, dan warna mewakili kategori.

Tanggapan “Tidak Tahu”


Itu Tanggapan “tidak tahu” (DK) menyajikan masalah khusus untuk persiapan data. Ketika grup respons DK kecil, itu tidak
merepotkan. Tetapi ada kalanya hal itu menjadi perhatian utama, dan bahkan mungkin merupakan tanggapan yang paling
sering diterima. Apakah ini berarti pertanyaan yang menimbulkan respons ini tidak berguna? Jawabannya adalah, Itu
semua tergantung. Sebagian besar jawaban DK terbagi dalam dua kategori.5 Pertama, ada
388 >bagian IV Analisis dan Penyajian Data

>Pameran 15-6 Plot Kedekatan Keluhan Pelanggan MindWriter

Diperiksa
sebelum Pengirim
kembali daya tanggap

Kembali
tidak diperbaiki

Beberapa (2x) Masalah mendapatkan kotak pengiriman


Kembali perbaikan
rusak

Jaminan
Kelipatan (!3x) masalah
Produk
perbaikan
kualitas

Bagian tidak
disimpan di
Profesionalisme
persediaan
Telepon
tahan waktu

Tidak

panggilan tindak lanjut

jawaban DK sah bila responden tidak mengetahui jawabannya. Tanggapan ini memenuhi tujuan penelitian
kami; kami mengharapkan tanggapan DK dan menganggapnya berguna.
Dalam situasi kedua, jawaban DK menggambarkan kegagalan peneliti untuk mendapatkan informasi
yang sesuai. Perhatikan pertanyaan ilustratif berikut:

1. Siapa yang mengembangkan konsep Managerial Grid?

2. Apakah Anda yakin kebijakan fiskal presiden baru itu baik?


3. Apakah Anda menyukai pekerjaan Anda saat ini?

4. Dari berbagai merek permen karet, mana yang menurut Anda memiliki kualitas terbaik?
5. Seberapa sering setiap tahun Anda pergi ke bioskop?

Masuk akal untuk mengharapkan bahwa beberapa tanggapan DK yang sah akan dibuat untuk masing-masing
pertanyaan ini. Pada pertanyaan pertama, responden ditanya tentang tingkat informasi yang seringkali tidak
mereka miliki. Tampaknya ada sedikit alasan untuk menahan jawaban yang benar jika diketahui. Dengan demikian,
sebagian besar jawaban DK atas pertanyaan ini harus dianggap sah. Tanggapan DK untuk pertanyaan kedua
menghadirkan masalah yang berbeda. Tidak segera jelas apakah responden tidak mengetahui kebijakan !skal
presiden atau mengetahui kebijakan tersebut tetapi belum membuat penilaian tentangnya. Peneliti seharusnya
mengajukan dua pertanyaan: Pertama, mereka akan menentukan tingkat kesadaran responden terhadap
kebijakan !skal. Jika orang yang diwawancarai lulus tes kesadaran, maka pertanyaan kedua akan memberikan
penilaian tentang kebijakan !skal.
Dalam tiga pertanyaan yang tersisa, jawaban DK lebih cenderung menjadi kegagalan proses pertanyaan, meskipun
beberapa pasti akan sah. Responden mungkin enggan memberikan informasi. Tanggapan DK untuk pertanyaan 3 mungkin
merupakan cara untuk mengatakan, “Saya tidak ingin menjawab pertanyaan itu.” Pertanyaan 4 mungkin juga menimbulkan
respons DK di mana balasannya diterjemahkan menjadi “Ini terlalu tidak penting untuk dibicarakan.” Pada pertanyaan 5,
responden diminta untuk melakukan perhitungan tentang suatu topik untuk
>bab 15 Persiapan dan Deskripsi Data 389

>Pameran 15-7 Menangani Tanggapan “Tidak Tahu”


Pertanyaan: Apakah Anda memiliki hubungan yang produktif dengan tenaga penjual Anda saat ini?

Tahun Pembelian Iya Tidak tidak tahu

Kurang dari 1 tahun 10% 40% 38%

1-3 tahun 30 30 32

4 tahun atau lebih 60 30 30

Total 100% 100% 100%

tidak 5 650 tidak 5 150 tidak 5 200

yang mungkin mereka anggap kurang penting. Sekarang DK mungkin berarti "Saya tidak ingin melakukan pekerjaan itu untuk
sesuatu yang konsekuensinya sangat kecil."

Menangani Tanggapan DK yang Tidak Diinginkan

Cara terbaik untuk menangani jawaban DK yang tidak diinginkan adalah dengan merancang pertanyaan pengukuran yang
lebih baik. Peneliti harus mengidentifikasi pertanyaan-pertanyaan yang tanggapan DK-nya tidak memuaskan dan
merancangnya. Namun, pewawancara sering mewarisi masalah ini dan harus menghadapinya di lapangan. Beberapa
tindakan kemudian mungkin. Pertama, hubungan pewawancara-responden yang baik akan memotivasi responden untuk
memberikan jawaban yang lebih bermanfaat. Ketika pewawancara mengenali respons DK yang mengelak, mereka dapat
mengulangi pertanyaan atau menyelidiki jawaban yang lebih pasti. Pewawancara juga dapat merekam setiap elaborasi oleh
responden dan menyampaikan masalahnya kepada editor.
Jika editor menemukan banyak tanggapan yang tidak diinginkan, hanya sedikit yang dapat dilakukan kecuali
komentar verbatim dapat ditafsirkan. Memahami makna sebenarnya bergantung pada petunjuk dari jawaban
responden atas pertanyaan lain. Salah satu caranya adalah dengan memperkirakan alokasi jawaban DK dari data
lain dalam kuesioner. Pola tanggapan mungkin sejajar dengan tingkat pendapatan, pendidikan, atau pengalaman.
Misalkan pertanyaan tentang apakah pelanggan menyukai tenaga penjual mereka saat ini mendapatkan jawaban
dalam Tampilan#15-7. Korelasi antara tahun pembelian dan jawaban “tidak tahu” dan jawaban “tidak”
menunjukkan bahwa sebagian besar jawaban “tidak tahu” adalah jawaban “tidak” yang disamarkan.
Ada beberapa cara untuk menangani jawaban “tidak tahu” dalam tabulasi. Jika hanya ada sedikit, cara penanganannya
tidak banyak berbeda, tetapi kemungkinan besar mereka akan disimpan sebagai kategori terpisah. Jika tanggapan DK sah,
itu harus tetap sebagai kategori balasan yang terpisah. Ketika kita tidak yakin bagaimana memperlakukannya, kita harus
menyimpannya sebagai kategori pelaporan yang terpisah dan membiarkan sponsor penelitian membuat keputusan.

Data Hilang
Data hilang adalah informasi dari peserta atau kasus yang tidak tersedia untuk satu atau lebih variabel yang
menarik. Dalam studi survei, data yang hilang biasanya terjadi ketika peserta secara tidak sengaja melewatkan,
menolak untuk menjawab, atau tidak mengetahui jawaban atas item pada kuesioner. Dalam studi longitudinal,
data yang hilang mungkin disebabkan oleh peserta yang keluar dari studi, atau absen selama satu atau lebih
periode pengumpulan data. Data yang hilang juga terjadi karena kesalahan peneliti, file data yang rusak, dan
perubahan dalam penelitian atau desain instrumen setelah data dikumpulkan dari beberapa partisipan, seperti
ketika variabel dihilangkan atau ditambahkan. Strategi untuk menangani data yang hilang terdiri dari proses dua
langkah: peneliti pertama mengeksplorasi pola data yang hilang untuk menentukan mekanisme untukkekurangan (
probabilitas bahwa suatu nilai hilang daripada diamati) dan kemudian memilih teknik data yang hilang.
390 >bagian IV Analisis dan Penyajian Data

>Pameran 15-8 Kumpulan Data MindWriter: Data Hilang dan Di Luar Jangkauan

Kasus 1A 1B 2A 2B 2C

1 5.0 5.0 5.0 5.0 9.0

2 7.0 3.0 4.0 9.0

3 5.0 5.0 5.0 5.0 5.0

4 5.0 5.0 4.0

5 1.0 2.0

6 5.0 5.0 5.0 5.0 9.0

7 5.0 5.0 5.0 5.0 5.0

8 4.0 3.0 3.0 3.0 3.0

9 4.0 4.0 5.0 5.0 5.0

10 4.0 5.0 4.0 5.0

11 2.0 5.0 4.0 4.0 5.0

12 6.0 4.0 3.0 3.0 4.0

13 5.0 5.0 3.0 5.0

14 5.0 5.0 5.0 5.0 5.0

15 5.0 4.0 5.0 5.0 4.0

Sah 15 14 11 14 13

hilang 0 1 4 1 2

Berarti 4,53 4.50 4.45 4.14 5.61

Jarak 6 2 2 3 6

Minimum 1 3 3 2 3

Maksimum 7 5 5 5 9

Periksa distribusi sampel variabel dari kumpulan data MindWriter yang ditunjukkan pada Tampilan#15-8.
Data ini dikumpulkan pada skala interval 5 poin. Tidak ada data yang hilang dalam variabel 1A, meskipun
jelas bahwa kisaran 6 dan nilai maksimum 7 membatalkan nilai rata-rata atau rata-rata yang dihitung.
Variabel 1B dan 2B memiliki satu kasus yang hilang tetapi nilai-nilai yang berada dalam jangkauan. Variabel
2A kehilangan empat kasus, atau 27 persen dari titik datanya. Variabel terakhir, 2C, memiliki rentang 6, dua
nilai yang hilang, dan tiga nilai yang dikodekan sebagai "9." "9" sering digunakan sebagai DK atau kode nilai
yang hilang ketika skala memiliki rentang kurang dari 9 poin. Dalam hal ini baik kosong maupun 9 ada—
masalah pengkodean. Perhatikan bahwa !responden ke-5 hanya menjawab dua dari !ve pertanyaan dan
responden kedua memiliki dua jawaban yang salah kode dan satu nilai yang hilang. Akhirnya, dengan
menggunakan indeks deskriptif bentuk, yang dibahas dalam Lampiran 15a, Anda dapat menemukan tiga
variabel yang menyimpang dari simetri distribusi normal. Mereka dimiringkan (atau ditarik) ke kiri oleh
sejumlah kecil 1 dan 2 yang tidak proporsional. Dan distribusi satu variabel mencapai puncaknya di luar
dimensi normal. Kami baru saja menggunakan nilai minimum dan maksimum, rentang, dan rata-rata dan
telah menemukan kesalahan dalam pengkodean, masalah dengan pola jawaban responden, dan kasus yang
hilang.
>bab 15 Persiapan dan Deskripsi Data 391

Mekanisme untuk Menangani Data yang Hilang


Dengan mengetahui apa yang menyebabkan data hilang, peneliti dapat memilih teknik data yang hilang
yang sesuai dan dengan demikian menghindari bias dalam analisis selanjutnya. Ada tiga tipe dasar data
yang hilang:

• Data hilang sepenuhnya secara acak (MCAR)—probabilitas bahwa variabel tertentu tidak ada TIDAK
tergantung pada variabel itu sendiri dan TIDAK tergantung pada variabel lain dalam kumpulan data
(misalnya, peserta secara tidak sengaja melewatkan pertanyaan).
• Data hilang secara acak (MAR)—probabilitas bahwa variabel tertentu hilang TIDAK tergantung pada variabel itu
sendiri tetapi tergantung pada variabel lain dalam kumpulan data (misalnya, jawaban atas pertanyaan pertama
dari kumpulan pertanyaan bercabang mungkin menyebabkan data yang hilang ke pertanyaan kedua dalam set
pertanyaan bercabang).

• Data missing but not missing at random (NMAR)—ketika data yang hilang tidak dapat diprediksi dari
variabel lain dalam kumpulan data.

Tiga teknik digunakan untuk menyelamatkan kumpulan data dengan data yang hilang:

• Penghapusan berdasarkan daftar—kasus dengan data yang hilang pada satu variabel dihapus dari sampel untuk
semua analisis variabel itu.

• Penghapusan berpasangan—data yang hilang diestimasi menggunakan semua kasus yang memiliki data untuk setiap
variabel atau pasangan variabel; estimasi menggantikan data yang hilang.

• Penggantian prediktif—data yang hilang diprediksi dari nilai yang diamati pada variabel lain; nilai yang
diamati digunakan untuk menggantikan data yang hilang.

Penghapusan listwise adalah opsi default untuk MCAR dan digunakan oleh sebagian besar paket statistik seperti SPSS
dan SAS. Tidak ada bias yang diperkenalkan karena hanya kasus lengkap yang digunakan sebagai sampel untuk variabel.
Namun, jika data adalah MAR, bukan MCAR, maka bias dapat terjadi, terutama jika sejumlah besar kasus dihilangkan dari
sampel. Misalnya, dalam sebuah survei jika laki-laki lebih mungkin bertanggung jawab daripada perempuan atas hilangnya
data pada variabel yang berkaitan dengan preferensi pelatihan, maka menghapus laki-laki dari sampel akan membuat bias
analisis preferensi pelatihan terhadap preferensi pelatihan perempuan.
Penghapusan berpasangan mengasumsikan data adalah MCAR. Teknik ini, meskipun digunakan secara historis oleh
model linier, memiliki potensi untuk menimbulkan bias.
Penggantian prediktif mengasumsikan data adalah MAR. Salah satu pilihan umum yang tersedia pada sebagian
besar paket statistik adalah penggunaan mean atau skor tendensi sentral lainnya sebagai pengganti data yang
hilang. Praktik ini mengurangi variabilitas data, yang dapat menimbulkan bias.
Ketika data adalah NMAR, data yang hilang dimasukkan ke dalam analisis sebagai kategori data yang terpisah pada
variabel tersebut.

> Entri Data


entri data mengubah informasi yang dikumpulkan dengan metode sekunder atau primer menjadi media untuk dilihat dan
dimanipulasi. Keyboarding tetap menjadi andalan bagi para peneliti yang perlu segera membuat file data dan
menyimpannya dalam ruang minimal di berbagai media. Namun, para peneliti telah memperoleh keuntungan dari cara-
cara yang lebih efisien untuk mempercepat proses penelitian, terutama dari pengkodean batang dan pengenalan karakter
dan tanda optik.

Format Entri Data Alternatif


Papan ketik
Sebuah editor layar penuh, dengan mana seluruh file data dapat diedit atau diakses, adalah sarana entri data yang
layak untuk paket statistik seperti SPSS atau SAS. SPSS menawarkan beberapa produk entri data, termasuk Data
Entry Builder™, yang memungkinkan pengembangan formulir dan survei, dan Data Entry Station™,
392 >bagian IV Analisis dan Penyajian Data

>Pameran 15-9 Bidang Data, Catatan, File, dan Basis Data


Bidang data mewakili elemen tunggal informasi (misalnya, jawaban atas pertanyaan tertentu) dari semua peserta dalam penelitian. Bidang data dapat
berisi informasi numerik, alfabet, atau simbolis. SEBUAHcatatan data adalah satu set bidang data yang terkait dengan satu kasus atau peserta (misalnya,
tanggapan terhadap satu survei yang diselesaikan). Catatan mewakili baris dalam file data atau lembar kerja program spreadsheet.file data adalah
kumpulan catatan (misalnya, tanggapan dari semua peserta dalam satu studi) yang dikelompokkan bersama untuk penyimpanan pada disket, disket,
kaset, CD-ROM, atau disk optik. Database terdiri dari satu atau lebih file data yang saling terkait. Sebuah database mungkin berisi semua pelanggan
informasi survei yang dikumpulkan setiap tiga bulan selama 10 tahun terakhir.

100 Bidang Data


4
••

Aetna 68 27 59.6
3 Bell Atl 105 32 103,9 Belajar 1
2 CalFed 42 11 23.9 Belajar 2
1 Belajar 3

Basis Data Disimpan di


Catatan Data Media elektronik
Puncak 39 7 12.9

Survei atau File Data


Instrumen

yang memberi staf entri terpusat, seperti pewawancara telepon atau peserta online, akses ke survei. Baik SAS
maupun SPSS menawarkan perangkat lunak yang dengan mudah mengakses data dari database, spreadsheet,
gudang data, atau data mart.

Pengembangan Basis Data Untuk proyek besar, program database berfungsi sebagai perangkat entri data yang
berharga. SEBUAHbasis data adalah kumpulan data yang terorganisir untuk pengambilan secara komputerisasi. Program
memungkinkan pengguna untuk mendefinisikan !lapangan dan !le data sehingga penyimpanan, pengambilan, dan
pemutakhiran disederhanakan. Hubungan antaradata !bidang, catatan data, !les, dan database diilustrasikan dalam
Tampilan 15-9. Pesanan perusahaan berfungsi sebagai contoh database. Informasi pemesanan dapat disimpan dalam
beberapa !le: !le pelanggan wiraniaga, !catatan keuangan pelanggan, catatan produksi pesanan, dan dokumentasi
pengiriman pesanan. Data dipisahkan sehingga orang yang berwenang hanya dapat melihat bagian-bagian yang sesuai
dengan kebutuhan mereka. Namun, !le dapat ditautkan sehingga ketika, misalnya, pelanggan mengubah alamat
pengirimannya, perubahan tersebut dimasukkan sekali dan semua !le yang relevan diperbarui. Opsi entri database lainnya
adalah pengambilan data email. Ini telah menjadi populer di kalangan mereka yang menggunakan survei yang dikirim
melalui email. Survei email dapat dikirimkan ke responden tertentu yang alamat emailnya diketahui. Pertanyaan
diselesaikan di layar, dikembalikan melalui email, dan dimasukkan ke dalam database.6 Intranet juga dapat menangkap
data. Ketika peserta yang terhubung oleh jaringan mengambil survei online dengan mengisi formulir database, data
ditangkap dalam database di server jaringan untuk analisis nanti atau real-time.7 Persyaratan ID dan kata sandi dapat
mencegah peserta yang tidak diinginkan dari hasil survei online yang menyimpang.
Peneliti mempertimbangkan entri database ketika mereka memiliki sejumlah besar data yang berpotensi terkait yang
akan diambil dan ditabulasi dengan cara yang berbeda dari waktu ke waktu. Aplikasi lain dari program database adalah
sebagai mekanisme entri "front-end". Seorang pewawancara telepon dapat mengajukan pertanyaan “Berapa banyak anak
yang tinggal di rumah Anda?” Perangkat lunak komputer telah diprogram untuk menerima jawaban apa pun antara 0 dan
20. Jika "P" tidak sengaja dipukul, program tidak akan menerima jawaban dan akan mengembalikan pewawancara
ke pertanyaan. Dengan instrumen online yang telah dikodekan sebelumnya, beberapa pengeditan yang telah
dibahas sebelumnya dilakukan oleh program. Selain itu, program dapat diatur untuk percabangan bersyarat
otomatis. Dalam contoh, jawaban 1 atau lebih menyebabkan program meminta penanya menanyakan usia anak-
anak. A 0 menyebabkan pertanyaan usia dilewati secara otomatis. Meskipun opsi ini tersedia setiap kali komputasi
interaktif digunakan, pemrosesan front-end biasanya dilakukan dalam desain database. Basis data kemudian akan
menyimpan data dalam satu set !le tertaut yang memungkinkan data diurutkan dengan mudah. Statistik dan tabel
deskriptif—langkah pertama dalam mengeksplorasi data—sudah siap dibuat dari dalam database.

Spreadsheet Spreadsheet adalah jenis database khusus untuk data yang memerlukan pengorganisasian, tabulasi,
dan statistik sederhana. Mereka juga menawarkan beberapa kemampuan manajemen database, grafik, dan
presentasi. Entri data padalembar kerja menggunakan baris bernomor dan kolom berhuruf dengan matriks
>bab 15 Persiapan dan Deskripsi Data 393

>Pameran 15-10 Entri Data Menggunakan Spreadsheet


Setiap baris adalah catatan (tanggapan satu peserta). Setiap kolom adalah variabel yang diukur dalam survei. Dalam survei ini, pertanyaan 1,
3, dan 5 merupakan variabel nominal yang memiliki dua kategori respon. Pertanyaan 6 menggunakan beberapa kolom karena merupakan
pertanyaan peringkat multi-bagian menggunakan skala 1-ke-5. Ini adalah cara khas untuk mengkodekan variabel dalam spreadsheet sebelum
diimpor oleh SPSS (dengan asumsi Anda menggunakan spreadsheet alih-alih Editor Data SPSS untuk memulai studi Anda). Perhatikan bahwa
setiap peserta diberi nomor identifikasi (ID kasus). Setelah menjalankan frekuensi awal, memiliki bidang data ID kasus memungkinkan Anda
untuk dengan cepat menemukan dan memperbaiki data yang dicurigai seperti kode nilai ganjil atau kasus yang hilang.

dari ribuan sel tempat entri dapat ditempatkan. Spreadsheet memungkinkan Anda mengetikkan angka, rumus, dan
teks ke dalam sel yang sesuai. Banyak program statistik untuk komputer pribadi dan juga aplikasi grafik dan grafik
memiliki editor data yang mirip dengan format lembar bentang Excel yang ditunjukkan pada Tampilan#15-10. Ini
adalah cara yang nyaman dan "fleksibel untuk memasukkan dan melihat data.

Pengenalan Optik
Jika Anda menggunakan pemindai gambar PC, Anda mungkin sudah familiar dengan pengenalan karakter optik (OCR)
program yang mentransfer teks tercetak ke file komputer untuk mengedit dan menggunakannya tanpa mengetik
ulang. Ada aplikasi terkait lainnya.Pemindaian optik instrumen—pilihan layanan pengujian—efisien bagi para
peneliti. Peserta ujian menggelapkan lingkaran kecil, elips, atau spasi di antara rangkaian garis paralel untuk
menunjukkan jawaban mereka. Format yang lebih "fleksibel,pengenalan tanda optik (OMR) menggunakan
antarmuka bergaya spreadsheet untuk membaca dan memproses formulir yang dibuat pengguna. Pemindai optik
memproses kuesioner yang ditandai dan menyimpan jawabannya dalam file. Metode ini, paling sering dikaitkan
dengan formulir standar dan pracetak, telah diadopsi oleh para peneliti untuk entri data dan pra-pemrosesan
karena kecepatannya (10 kali lebih cepat daripada keyboard), penghematan biaya entri data, kenyamanan dalam
pembuatan bagan dan pelaporan data, dan peningkatan akurasi. . Ini mengurangi berapa kali data ditangani,
sehingga mengurangi jumlah kesalahan yang diperkenalkan.
Teknik lain termasuk entri tanggapan langsung, di mana prosedur pemungutan suara yang digunakan di beberapa
negara bagian adalah contohnya. Dengan kartu punch yang disiapkan secara khusus, warga memberikan suara mereka
dengan menekan instrumen berbentuk pena pada kartu di sebelah kandidat yang dipilih. Ini akan membuka lubang kecil di
kolom dan baris kartu tertentu. Kartu dikumpulkan dan ditempatkan langsung ke pembaca kartu. Metode ini juga
menghilangkan langkah pengkodean dan entri. Aplikasi pemerintah lainnya adalah formulir 1040EZ yang digunakan
394 >bagian IV Analisis dan Penyajian Data

>jeprettembakan
Mencari Data Netnografi Bersih

Dalam analisis isi, peneliti menganalisis informasi anekdot untuk posting banyak komentar dari satu individu, sehingga menimbulkan
menentukan tema utama komentar. Para peneliti semakin banyak bias. Dina Mayzlin dari Yale School of Management menyarankan untuk
menggunakan data umpan balik yang diposting di Web atau secara memilih komentar dari sejumlah besar situs, daripada memilih
internal! di ruang obrolan intranet untuk menangkap konten semacam sejumlah besar komentar dari satu situs; dispersi seperti itu
itu. Postingan datang dalam bentuk review produk, evaluasi mengurangi bias. Dalam membersihkan data tersebut, Zhilin Yang dari
perusahaan, pengalaman karyawan, posting papan pesan dan City University of Hong Kong dan Robin Peterson dari New Mexico
newsgroup, serta dialog chat room dan posting forum diskusi. State University menyarankan agar peneliti menyaring pesan untuk
Memilih data tersebut untuk analisis membutuhkan beberapa mendeteksi anekdot yang tidak relevan, duplikasi, permintaan pesan
penyaringan yang cermat. Saat menggunakan posting bersih, Chrysanthos untuk diposting, dan pesan spam, yang semuanya jika dibiarkan di
Dellarocas dari Massachusetts Institute of Technology merekomendasikan kumpulan data akan menyuntikkan bias.
agar peneliti mengekstrak informasi dari situs yang dapat mengotentikasi Jika Anda ingin mencoba mengumpulkan dan menyaring data
identitas peserta; ini mengurangi atau mencegah penilaian yang tidak adil tersebut, beberapa situs yang berguna termasuk ZDnet.com,
dan perilaku diskriminatif. Beberapa situs opini menggunakan insentif Bizrate.com, Amazon.com, eBay.com, Elance.com, Complaints.com,
keuangan untuk mendorong posting, yang mungkin mendorong reviewcentre.com, dan Epinion.com.

oleh Dinas Pendapatan Internal. Hal ini dirancang untuk nomor komputerisasi dan pengenalan karakter. Teknik
pengenalan karakter yang serupa digunakan untuk berbagai bentuk pengumpulan data. Sekali lagi, kedua
pendekatan memindahkan respons dari pertanyaan ke analisis data dengan sedikit penanganan.

Pengenalan suara
Peningkatan panggilan acak terkomputerisasi telah mendorong inovasi pengumpulan data lainnya. Pengenalan
suara dan sistem respons suara memberikan beberapa alternatif menarik bagi pewawancara telepon. Setelah
mendapatkan respons suara ke nomor yang dipanggil secara acak, komputer bercabang menjadi rutinitas
kuesioner. Sistem ini berkembang pesat dan akan segera menerjemahkan tanggapan suara yang direkam ke
dalam file data.

Digital
Respon keypad telepon, yang sering digunakan oleh restoran dan tempat hiburan untuk mengevaluasi layanan
pelanggan, adalah kemampuan lain yang dimungkinkan oleh komputer yang terhubung ke saluran telepon.
Menggunakan papan tombol telepon (nada sentuh), peserta yang diundang menjawab pertanyaan dengan
menekan nomor yang sesuai. Komputer menangkap data dengan mendekode sinyal listrik nada dan menyimpan
jawaban numerik atau abjad dalam file data. Meskipun awalnya tidak dirancang untuk mengumpulkan data survei,
komponen perangkat lunak dalam Microsoft Windows 7 memiliki fungsi pengenalan suara tingkat lanjut,
memungkinkan orang untuk memasukkan dan mengedit data dengan berbicara ke mikrofon.8

Pewawancara lapangan dapat menggunakan komputer seluler atau buku catatan alih-alih papan klip dan pensil.
Dengan modem komunikasi built-in, LAN nirkabel (atau jaringan area lokal), atau tautan seluler, file mereka dapat dikirim
langsung ke komputer lain di lapangan atau ke situs jarak jauh (cloud). Hal ini memungkinkan supervisor memeriksa data
dengan segera atau menyederhanakan pemrosesan di fasilitas pusat. Ini adalah teknologi yang Nielsen Media gunakan
dengan PeopleMeter portabelnya.

Kode Batang Sejak adopsi Kode Produk Universal (UPC) pada tahun 1973, kode batang telah berkembang
dari keingintahuan teknologi menjadi andalan bisnis. Setelah studi oleh McKinsey & Company, rantai
percontohan Kroger menguji sistem produksi dan kode batang menjadi ada di mana-mana di industri itu.9
>bab 15 Persiapan dan Deskripsi Data 395

Teknologi barcode digunakan untuk menyederhanakan peran pewawancara sebagai perekam data. Ketika seorang
pewawancara melewati tongkat kode batang di atas kode yang sesuai, data dicatat dalam unit kecil dan ringan untuk
diterjemahkan nanti. Dalam proyek pemrosesan skala besar Sensus 2000, Pusat Pengambilan Data Sensus menggunakan
kode batang untuk mengidentifikasi penduduk. Peneliti mempelajari pembaca majalah dapat memindai kode batang untuk
menunjukkan sampul majalah yang dikenali oleh peserta wawancara.
Itu kode batang digunakan dalam berbagai aplikasi: terminal titik penjualan, gelang ID pasien rumah sakit,
kontrol inventaris, pelacakan produk dan merek, evaluasi teknik promosi, pelacakan pengiriman, pelari maraton,
lokasi penyewaan mobil (untuk mempercepat pengembalian mobil dan menghasilkan faktur) , dan pelacakan
kebiasaan kawin serangga. Militer menggunakan kode batang sepanjang dua kaki untuk memberi label kapal di
gudang. Kode muncul pada dokumen bisnis, suku cadang truk, dan kayu di tempat pembuatan kayu. Label
pengiriman Federal Express menggunakan kode yang disebutCodabar. Kode lain, yang berisi huruf maupun angka,
memiliki potensi untuk peneliti.

Di cakrawala
Bahkan dengan pengurangan waktu antara pengumpulan dan analisis data ini, inovasi menawarkan janji yang signifikan.
Kemampuan untuk mengintegrasikan gambar visual, streaming video, audio, dan data telah menggantikan peralatan video
sebagai metode yang disukai untuk merekam eksperimen, wawancara, atau grup fokus. Data respons dapat diekstraksi
untuk analisis data, sedangkan gambar audio dan visual tetap utuh untuk evaluasi nanti. Meskipun teknologi tidak akan
pernah menggantikan penilaian peneliti, teknologi dapat mengurangi kesalahan penanganan data, mengurangi waktu
antara pengumpulan dan analisis data, dan membantu memberikan informasi yang lebih bermanfaat.

>ringkasan
1 Langkah pertama dalam persiapan data adalah mengedit data mentah yang dikumpulkan adalah analisis isi. Ini menggunakan unit pengambilan sampel yang telah dipilih

data untuk mendeteksi kesalahan dan kelalaian yang akan membahayakan sebelumnya untuk menghasilkan jumlah frekuensi dan wawasan lain ke dalam

standar kualitas. Editor bertanggung jawab untuk memastikan data akurat, pola data.

konsisten dengan data lain, dimasukkan secara seragam, dan siap untuk
4 Jawaban “Tidak tahu” dievaluasi berdasarkan sifat pertanyaan dan
pengkodean. Dalam pekerjaan survei, adalah umum untuk menggunakan
responden. Meskipun banyak DK yang sah, beberapa dihasilkan dari
penyuntingan lapangan dan penyuntingan pusat.
pertanyaan yang ambigu atau dari situasi wawancara yang tidak
2 Coding adalah proses pemberian nomor dan lainnya memotivasi. Lebih baik melaporkan DK sebagai kategori terpisah
simbol ke jawaban sehingga kita dapat mengklasifikasikan kecuali ada alasan kuat untuk memperlakukannya sebaliknya. Data
tanggapan ke dalam kategori. Kategori harus sesuai dengan yang hilang terjadi ketika responden melewatkan, menolak menjawab,
masalah penelitian, data lengkap, saling eksklusif, dan atau tidak mengetahui jawaban suatu item kuesioner, keluar dari
unidimensional. Pengurangan informasi melalui pengkodean penelitian, atau tidak hadir selama satu atau lebih periode
mengharuskan peneliti merancang kategori dengan hati-hati, pengumpulan data. Kesalahan peneliti, file data yang rusak, dan
menggunakan data sebanyak mungkin. Codebook adalah perubahan pada instrumen selama administrasi juga menghasilkan
panduan untuk mengurangi kesalahan entri data dan berfungsi data yang hilang. Peneliti menangani data yang hilang dengan terlebih
sebagai ringkasan lokasi variabel dan informasi lain untuk tahap dahulu menjelajahi data untuk menemukan sifat pola dan kemudian
analisis. Pengembangan perangkat lunak dalam konstruksi dan memilih teknik yang cocok untuk mengganti nilai dengan menghapus
desain survei mencakup penyematan aturan pengkodean yang kasus (atau! variabel) atau memperkirakan nilai.
menyaring data saat dimasukkan, mengidentifikasi data yang
tidak dimasukkan dengan benar. 5 Entri data dilakukan dengan entri keyboard dari instrumen yang telah
3 Pertanyaan tertutup termasuk item skala dan item lainnya dikodekan sebelumnya, pemindaian optik, keyboard waktu nyata, entri
yang jawabannya diantisipasi. Pengodean awal item tertutup data pad telepon, kode batang, pengenalan suara, OCR, OMR, dan
menghindari penyelesaian lembar pengkodean yang membosankan transfer data dari notebook elektronik dan komputer laptop. Program
untuk setiap respons. Pertanyaan terbuka lebih sulit untuk dikodekan database, spreadsheet, dan editor dalam program perangkat lunak
karena jawaban tidak disiapkan sebelumnya, tetapi mereka statistik menawarkan fleksibilitas untuk memasukkan, memanipulasi,
mendorong pengungkapan informasi yang lengkap. Metode dan mentransfer data untuk analisis, pergudangan, dan penambangan.
sistematis untuk menganalisis pertanyaan terbuka
396 >bagian IV Analisis dan Penyajian Data

>kunciistilah
kode batang 395 persiapan data 376 pengenalan tanda optik (OMR) 393

buku kode 380 catatan data 392 pemindaian optik 393

pengkodean 379 basis data 392 pengkodean sebelumnya 381

analisis konten 384 Tanggapan “tidak tahu” (DK) 387 lembar kerja 392

entri data 391 mengedit 377 pengenalan suara 394

bidang data 392 data hilang 389

file data 392 pengenalan karakter optik (OCR) 393

>diskusipertanyaan
Persyaratan dalam Ulasan d Awasi terus stok Anda, dan tandai kapan
1 Tentukan atau jelaskan: Anda harus—yaitu, daripada menunggu, ambil sedikit penurunan

Sebuah Aturan pengkodean.


harga pada sepatu yang tidak bergerak pada saat itu.

b entri data lembar kerja. e Menggunakan metode PM.

f Lebih sedikit pembelian di muka—lebih banyak ketergantungan pada persediaan


c Kode batang.
sepatu.
d Instrumen yang dikodekan sebelumnya.

g Penjualan—tangkap orang jahat sebelum terlambat dan tutup


e Analisis konten.
di luar.

f Data hilang.
h Beli barang dagangan bagus sebanyak mungkin dengan harga spesial
g Pengenalan tanda optik. harga untuk membantu membuat beberapa penurunan harga.

2 Bagaimana seharusnya peneliti menangani tanggapan “tidak tahu”? saya Mengurangi pembelian pembukaan dan bergantung pada layanan pengisian.

PM untuk tenaga penjual.


Membuat Keputusan Penelitian
3 Masalah yang dihadapi pengelola toko sepatu adalah banyaknya sepatu j Beli lebih sering, pembelian lebih baik, PM saat bergerak lambat
barang dagangan.
akhirnya harus dijual dengan harga markdown. Ini mendorong kami untuk
melakukan survei surat kepada manajer toko sepatu di mana kami bertanya, k Hati-hati membeli dengan harga terendah. Uang tunai di jalur pembelian.
Metode apa yang menurut Anda paling berhasil untuk mengurangi masalah Membeli closeouts, FD, overstock, "pembatalan." (FD
penurunan harga yang tinggi? Kami tertarik untuk mengekstrak informasi singkatan dari gaya "penghentian pabrik".)
sebanyak mungkin dari jawaban ini untuk lebih memahami berbagai strategi
aku Dengan membeli sepatu yang kurang “berkesempatan”. Beli hanya apa yang Anda
yang digunakan manajer toko. Tetapkan apa yang menurut Anda merupakan
perlu, ukuran jam tangan, jangan berlebihan dengan mode baru.
kumpulan kategori untuk mengkode 500 tanggapan yang serupa dengan 14
saya Membeli lebih banyak barang kebutuhan pokok. Membeli lebih banyak dari
yang diberikan di sini. Cobalah untuk mengembangkan seperangkat kategori
lebih sedikit garis. Menempel dengan barang dagangan yang diiklankan secara
terintegrasi yang mencerminkan teori Anda tentang manajemen penurunan
nasional lebih baik.
harga. Setelah mengembangkan set, gunakan untuk mengkodekan 14
tanggapan. tidak Tidak ada metode yang berhasil dengan situasi gaya saat ini.
Pabrikan sedang bereksperimen, pengecer mengambil penurunan harga
Sebuah Belum menemukan jawabannya. Selama kita membeli gaya
—memotong laba kotor sekitar 3 persen—menjaga stok Anda pada
sepatu, kita akan memiliki penurunan harga. Kami menggunakan PM pada barang
tingkat terendah tanpa kehilangan penjualan.
dagangan lambat, tetapi tidak menghilangkan penurunan harga. (SORE

singkatan dari "push-money"—bonus item khusus untuk 4 Pilih sampel kecil anggota kelas, asosiasi kerja,
menjual gaya sepatu tertentu.) teman, atau teman dan minta mereka untuk menjawab pertanyaan
berikut dalam satu atau dua paragraf: Apa aspirasi karir Anda untuk
b Menggunakan PM sebelum terlalu tua. Juga mengurangi harga selama
lima tahun ke depan? Gunakan salah satu dari empat unit dasar
musim. Mengadakan pertemuan dengan tenaga penjualan yang menunjukkan
analisis isi untuk menganalisis tanggapan mereka. Jelaskan temuan
sepatu mana yang harus didorong.
Anda sebagai frekuensi untuk unit analisis yang dipilih.
c Dengan menempatkan PM pada barang-barang yang laris dan berpromosi

sama. Lebih teliti memeriksa sepatu yang dibeli.


>bab 15 Persiapan dan Deskripsi Data 397

Menghidupkan Penelitian Dari Headline


5 Proses persiapan data apa yang dilakukan Jason selama 8 Simplement, Inc., yang menyediakan solusi sumber data untuk
entri data? Pelanggan Sistem Aplikasi dan Produk (SAP), mengumumkan pencapaian

6 Entri data mengikuti pengumpulan data dalam penelitian yang diprofilkan waktu respons subdetik untuk penemuan dan eksplorasi dalam miliaran baris

selama sketsa pembukaan. Apa yang membuat Jason khawatir kumpulan data yang melibatkan data penjualan yang dikumpulkan dalam

tentang proses ini? modul penjualan dan distribusi SAP. Pengguna bisnis yang menggunakan

teknologi seperti Microsoft Excel dan Tableau dapat segera menjelajahi dan
Dari Konsep ke Praktek memvisualisasikan ukuran super
7 Pilih salah satu kasus dari situs teks yang memiliki has kumpulan data yang mengarah pada produktivitas yang lebih tinggi dan wawasan
instrumen (periksa bagian Abstrak Kasus untuk daftar semua yang lebih bermakna. Aplikasi lain apa yang akan Anda rekomendasikan untuk
kasus dan abstrak untuk masing-masing). Kode instrumen untuk organisasi Anda, khususnya staf pemasaran atau TI!?
entri data.

>kasus*

Pikiran yang Ingin Tahu—SEKARANG! NCRCC: Teeing Up dan Arah Strategis Baru

Menguasai Kepemimpinan Guru NetConversions Mempengaruhi Kelley Blue Book

* Anda akan menemukan deskripsi setiap kasus di bagian Indeks Kasus dari buku teks ini. Periksa Indeks Kasus untuk menentukan apakah
suatu kasus menyediakan data, instrumen penelitian, video, atau materi tambahan lainnya. Kasus tertulis dapat diunduh dari situs web teks
(www.mhhe.com/cooper12e). Semua materi video dan kasus video tersedia dari Pusat Pembelajaran Online.
>lampiran15a
Menggambarkan Data Secara Statistik

Di bagian pertama Bab 15, kita membahas bagaimana tanggapan memiliki peningkatan penjualan unit sebesar 7 persen
dari peserta diedit, diberi kode, dan dimasukkan. Membuat ringkasan mewakili 33,3# persen dari total jumlah produsen yang
numerik dari proses ini memberikan wawasan berharga kepada disurvei (3/9 3 100). Persentase kumulatif mengungkapkan
analis tentang efektivitasnya. Dalam lampiran ini- jumlah produsen yang memberikan tanggapan danorang
dix, kami meninjau konsep dari kursus statistik pengantar Anda lain yang mendahuluinya di meja. Untuk contoh ini,
yang menawarkan alat deskriptif untuk membersihkan data, persentase penjualan unit TV LCD meningkat antara 5 dan 7
menemukan masalah, dan meringkas distribusi. Distribusi (data) persen mewakili 66,7 persen. Kolom persentase kumulatif
adalah larik jumlah nilai dari nilai terendah hingga tertinggi dari sangat membantu terutama ketika data memiliki urutan
suatu variabel, yang dihasilkan dari tabulasi kejadian. Ukuran yang mendasarinya. Jika, di bagian B, kami membuat kode
statistik deskriptif digunakan untuk menggambarkan pusat, untuk sumber asal (asing5 1, domestik 5 2) untuk masing-
penyebaran, dan bentuk distribusi dan berguna sebagai alat masing dari sembilan produsen TV LCD, kolom persentase
awal untuk deskripsi data. Kami akan mendefinisikan langkah- kumulatif akan memberikan proporsi. Ituproporsi adalah
langkah ini dan menjelaskan penggunaannya sebagaiStatistik persentase elemen dalam distribusi yang memenuhi kriteria.
deskriptif setelah memperkenalkan kumpulan data sampel dan Dalam hal ini, kriterianya adalah asal pembuatan.
ikhtisar konsep dasar. Pada Tampilan 15a-2, kurva berbentuk lonceng yang
ditumpangkan pada distribusi kenaikan penjualan unit tahunan
(persen) untuk produsen TV LCD disebut distribusi normal.
Meninjau Konsep Statistik Distribusi nilai untuk setiap variabel yang memiliki distribusi
normal diatur oleh persamaan matematika. Distribusi ini
Pasar TV LCD (liquid crystal display) merupakan pasar yang menarik
merupakan kurva simetris dan mencerminkan distribusi
untuk disimak karena adanya perubahan teknologi dan pemasaran.
frekuensi dari banyak fenomena alam seperti tinggi badan orang-
Saat ini pemain utama di pasar ini adalah Sharp, LG Electronics/
orang dari jenis kelamin dan usia tertentu.
Zenith, Samsung, Sony, Dell, dan Panasonic. Hanya beberapa merek
Banyak variabel menarik yang akan diukur peneliti
lain yang mendapatkan pangsa pasar yang nyata. Produk Sharp saat
akan memiliki distribusi yang mendekati a distribusi
ini mewakili persentase terbesar dari penjualan unit. Mari kita
normal standar. Distribusi normal standar adalah kasus
asumsikan kita tertarik untuk mengevaluasi peningkatan penjualan
khusus dari distribusi normal di mana semua nilai
unit tahunan dari beberapa produsen. Kami mensurvei sembilan
diberikan skor standar. Distribusi ini memiliki rata-rata 0
produsen dan kami !nd adistribusi frekuensi (array yang dipesan dari
dan standar deviasi 1. Misalnya, produsen yang memiliki
semua nilai untuk variabel) persentase tahunan peningkatan
peningkatan penjualan unit tahunan sebesar 7 persen
penjualan unit: 5,
akan diberi skor standar nol karena 7 adalah rata-rata
6, 6, 7, 7, 7, 8, 8, 9. Dari nilai penjualan unit ini, kami membuat
distribusi TV LCD. SEBUAHskor standar (atau skor Z)
tabel untuk menyusun data. Ini menyajikan kode nilai dari nilai
memberitahu Anda berapa banyak unit kasing (produsen dalam
terendah hingga tertinggi, dengan kolom untuk hitungan,
contoh ini) di atas atau di bawah rata-rata. Skor Z, yang distandarisasi,
persen, persen untuk nilai yang hilang, dan persen kumulatif.
memungkinkan kita untuk membandingkan hasil dari distribusi
Sebuah contoh disajikan dalam Tampilan 15a-1.
normal yang berbeda, sesuatu yang sering kita lakukan dalam
Tabel menyusun data berdasarkan nilai numerik yang ditetapkan,
penelitian. Asumsikan bahwa Zenith memiliki peningkatan penjualan
dalam hal ini persentase peningkatan penjualan unit aktual yang
unit tahunan sebesar 9 persen. Untuk menghitung skor standar untuk
dicatat (kolom paling kiri). Untuk mengetahui berapa banyak
pabrikan ini, Anda akan menemukan perbedaan antara nilai dan rata-
produsen dalam setiap kategori peningkatan penjualan unit, Anda
rata dan membaginya dengan standar deviasi dari distribusi yang
dapat membaca kolom frekuensi. Misalnya, di persimpangan kolom
ditunjukkan pada Tampilan 15a-1.
frekuensi dan baris kedua, ada dua perusahaan yang membukukan
kenaikan penjualan unit tahunan sebesar 6 persen. Di kolom
persentase, Anda melihat berapa persentase produsen TV dalam #standar#skor# Zenith5# __V__la_u_e_#_2_#_saya__e_a_n__ __
1.22
Standar#deviasi 5 9_2_7_
survei yang memberikan respons untuk setiap tingkat peningkatan
penjualan unit. Tiga pabrikan yang 5 1.64

398
>bab 15 Persiapan dan Deskripsi Data 399

>Pameran 15a-1 Penjualan Unit Persentase Tahunan Meningkat untuk Produsen TV LCD
SEBUAH

Peningkatan Penjualan Unit (%) Frekuensi Persentase Persentase Kumulatif

5 1 11.1 11.1

6 2 22.2 33.3

7 3 33.3 66.7

8 2 22.2 88.9

9 1 11.1 100.0

Total 9 100.0

Perusahaan Asal Peningkatan Penjualan Unit (%) Frekuensi Persentase Persentase Kumulatif

Asal, asing (1) 6 1 11.1 11.1

7 2 22.2 33.3

8 2 22.2 55.5

Asal, dalam negeri (2) 5 1 11.1 66.6

6 1 11.1 77.7

7 1 11.1 88.8

9 1 11.1 100.0

Total 9 100.0

>Pameran 15a-2 Histogram Peningkatan Penjualan Unit Tahunan (%)

3.0

2.0
Frekuensi

1.0

0,0
5.0 6.0 7.0 8.0 9.0
Peningkatan Penjualan Unit (%)
400 >bagian IV Analisis dan Penyajian Data

>Pameran 15a-3 Karakteristik Distribusi

Bentuk: Positif Negatif


Kecondongan Simetris Normal atau Miring Kanan atau Miring Kiri

95%
68%

Sebaran

Rata-rata Median Modus Berarti Berarti Mode


Lokasi
Mode median median

SEBUAH B C

Bentuk:
Mesokurtik Leptokurtik Platykurtic
Kurtosis

D E F

Distribusi normal standar, ditunjukkan pada bagian A dari Peraga nilai (modus). Langkah-langkah umum daritendensi sentral
15a-3, adalah standar perbandingan untuk menggambarkan (atau pusat) termasuk mean, median, dan modus.
distribusi data sampel. Ini digunakan dengan statistik inferensial Itu berarti dihitung dengan rumus berikut:
yang mengasumsikan variabel terdistribusi normal.
SX
tidak

Kami akan kembali ke pameran ini sebentar lagi. Sekarang


}5 _
mari kita tinjau beberapa alat deskriptif yang mengungkapkan X saya5_1__saya

tidak
karakteristik penting dari distribusi. Karakteristik tendensi
sentral, variabilitas, dan bentuk adalah alat yang berguna untuk Untuk variabel peningkatan penjualan satuan, distribusi
meringkas distribusi. Definisi, aplikasi, dan formula mereka tanggapannya adalah 5, 6, 6, 7, 7, 7, 8, 8, 9. Rata-rata aritmatika,
berada di bawah judulStatistik deskriptif. Definisinya akan atau mean (jumlah dari sembilan nilai dibagi 9), adalah
familiar bagi sebagian besar pembaca.
_5_1
__6__1 __7__1__8__1__8_1
__6__1__7_1 __9_
___8_1
9
Ukuran Tendensi Sentral 5 7#(sebuah#rata-rata#7%#unit#penjualan#peningkatan)

Meringkas informasi seperti itu dari data yang kami kumpulkan Itu median adalah titik tengah distribusi. Setengah dari
tentang produsen TV LCD sering kali memerlukan deskripsi nilai pengamatan dalam distribusi jatuh di atas dan setengah lainnya
"biasa". Misalkan kita ingin mengetahui persentase kenaikan jatuh di bawah median. Ketika distribusi memiliki jumlah
penjualan unit yang khas untuk perusahaan-perusahaan ini. pengamatan genap, median adalah rata-rata dari dua skor
Kami mungkin akankhas sebagai respon rata-rata (mean); nilai tengah. Median adalah pencari pusat yang paling tepat untuk
tengah, ketika distribusi diurutkan dari terendah ke tertinggi data ordinal dan memiliki ketahanan terhadap skor ekstrim,
(median); atau yang paling sering terjadi sehingga menjadikannya ukuran yang lebih disukai untuk
>bab 15 Persiapan dan Deskripsi Data 401

interval dan rasio data ketika distribusi mereka tidak normal. Itu simpangan baku merangkum seberapa jauh dari rata-rata
Median terkadang dilambangkan dengansaya atau mdn. nilai data biasanya. Ini mungkin merupakan ukuran penyebaran
Dari distribusi sampel untuk variabel persentase kenaikan yang paling sering digunakan karena meningkatkan kemampuan
penjualan unit, median dari kesembilan nilai tersebut adalah 7: interpretasi dengan menghilangkan kuadrat varians dan
menyatakan penyimpangan dalam unit aslinya (misalnya,
566777889
penjualan dalam dolar, bukan kuadrat dolar). Ini juga merupakan
Jika distribusi memiliki 10 nilai, median akan menjadi rata- konsep penting untuk statistik deskriptif karena mengungkapkan
rata nilai untuk kasus ke !kelima dan keenam. jumlah variabilitas dalam kumpulan data. Seperti mean, standar
Itu mode adalah nilai yang paling sering muncul. Mungkin deviasi dipengaruhi oleh skor ekstrim. Simbol simpangan baku
disanalebih dari satu modus dalam sebuah distribusi. Bila sampel adalahs, dan untuk simpangan baku populasi adalah s.
terdapat lebih dari satu skor yang memiliki frekuensi tertinggi Atau, itu diberi label std. pengembangAnda dapat menghitung
namun sama, maka distribusinya adalah bimodal atau simpangan baku dengan mengambil akar kuadrat dari varians:
multimodal. Mungkin disanatidak modus dalam distribusi jika
setiap skor memiliki jumlah pengamatan yang sama. Modus
s 5SAYA}s2
adalah ukuran lokasi dari tendensi sentral untuk data nominal
dan titik acuan bersama dengan median dan mean untuk Standar deviasi untuk variabel persentase kenaikan penjualan
memeriksa sebaran dan bentuk distribusi. Dalam contoh unit dalam contoh kita adalah 1,22:
persentase peningkatan penjualan unit TV LCD kami, nilai yang
1.22 5SAYA}1.}
5
paling sering terjadi adalah 7. Seperti yang terungkap dalam
distribusi frekuensi pada Tampilan 15a-2, ada tiga perusahaan Itu jarak adalah selisih antara skor terbesar dan terkecil
yang mengalami peningkatan penjualan unit sebesar 7 persen. dalam distribusi. Persentase variabel peningkatan penjualan unit
Perhatikan pada Peraga 15a-3, bagian A, bahwa mean, tahunan memiliki kisaran 4 (92 5 5 4). Berbeda dengan standar
median, dan modus adalah sama dalam distribusi normal. deviasi, rentang dihitung hanya dari skor minimum dan
Ketika ukuran tendensi sentral ini menyimpang, distribusinya maksimum; dengan demikian, ini adalah ukuran penyebaran
tidak lagi normal. yang sangat kasar. Dengan rentang sebagai titik perbandingan,
dimungkinkan untuk mendapatkan gambaran tentang
Ukuran Variabilitas homogenitas (std. dev. kecil) atau heterogenitas (std. dev. besar)
dari distribusi. Untuk distribusi homogen, rasio rentang terhadap
Langkah-langkah umum dari variabilitas, alternatif disebut standar deviasi harus antara 2 dan 6. Angka di atas 6 akan
sebagai penyebaran atau sebaran, adalah varians, standar menunjukkan tingkat heterogenitas yang tinggi. Dalam contoh
deviasi, jangkauan, jangkauan interkuartil, dan deviasi kuartil. persentase peningkatan penjualan unit, rasionya adalah 4/1,225
Mereka menggambarkan bagaimana skor mengelompok atau 3.28. Rentang ini memberikan informasi yang berguna tetapi
menyebar dalam distribusi. terbatas untuk semua data. Ini adalah wajib untuk data ordinal.
Itu perbedaan adalah ukuran penyebaran skor tentang
rata-rata. Jika semua skor identik, variansnya adalah 0. Itu rentang interkuartil (IQR) adalah selisih antara kuartil
Semakin besar dispersi skor, semakin besar variansnya. Baik pertama dan ketiga dari distribusi. Ini juga disebuttengah
varians dan standar deviasi digunakan dengan data interval menyebar. Data ordinal atau peringkat menggunakan
dan rasio. Simbol untuk varians sampel adalahs2, dan untuk ukuran ini dalam hubungannya dengan median. Ini juga
varians populasi adalah huruf Yunani sigma, kuadrat (s)2. digunakan dengan data interval dan rasio ketika distribusi
Varians dihitung dengan menjumlahkan jarak kuadrat dari asimetris dicurigai atau untuk analisis eksplorasi. Ingat
mean untuk semua kasus dan membagi jumlah dengan hubungan berikut: nilai minimum dari distribusi adalah
jumlah total kasus dikurangi 1: persentil 0; maksimum, persentil ke-100. Itu
Jumlah kuadrat jarak !kuartil pertama (Q1) adalah persentil ke-25; median,Q2,
__ dari_dari adalah persentil ke-50. Kuartil ketiga (T) adalah 3yang ke-75
Perbedaan 5 s 2
5 m untuk_r_a_l_l_c_a_s_es____
_____e_a_n__

(Nujumlah kasus 2 1) persentil. Untuk data persentase kenaikan penjualan unit,


kuartilnya adalah:
S(X 2
tidak

}2
X)
_ _5___6___6___7___7___7_8_8___9_
s2 5
saya5_1___saya _____
tidak 2 1 Q1 Q2 Q3 Q4
Untuk variabel persentase peningkatan penjualan unit, kami akan Deviasi kuartil, atau rentang semi-interkuartil, dinyatakan
menghitung varians sebagai: sebagai
__- Q
(5#2#7)2#1#(6#2#7)2#1#(6#2#7)2 Q 5 _Q_ 21_ __3
1 (7#2#7)2 1#(7#2#7)2#1#(7#2#7)2
2#_ 1 Itu deviasi kuartil selalu digunakan dengan median untuk data
_1 __# 7_)_ __# (_8_#2
__(8_#_2 __#7_)_2_# 2_#_7_)
1 9_#_
s2 5
2_
__#(_
5 1.5
8 ordinal. Sangat membantu untuk data interval dan rasio ketika
402 >bagian IV Analisis dan Penyajian Data

distribusinya diregangkan (atau dimiringkan) oleh nilai- Ketika suatu distribusi mendekati simetri, sk kira-kira 0.
nilai ekstrim. Dalam distribusi normal, median ditambah Dengan kemiringan positif, sk akan menjadi angka positif;
satu deviasi kuartil (T) di kedua sisi mencakup 50 persen dengan kemiringan negatif,sk akan menjadi bilangan negatif.
dari pengamatan. DelapanQs mencakup kira-kira kisaran. Perhitungan skewness untuk data peningkatan penjualan unit
Qhubungan dengan simpangan baku adalah konstan (T# persentase tahunan kami menghasilkan indeks 0 dan tidak
5 .6745s) ketika skor terdistribusi normal. Untuk contoh menunjukkan skew.
peningkatan penjualan unit persentase tahunan kami, Seperti yang diilustrasikan di bagian bawah Tampilan 15a-3,
deviasi kuartil adalah 1 [(62 8)/2 5 1]. kurtosis adalah ukuran puncak suatu distribusi (atau "atness).
Distribusi yang memiliki skor yang banyak mengelompok atau
Ukuran Bentuk menumpuk di tengah (bersama dengan lebih banyak pengamatan
daripada biasanya di ekor ekstrem) memuncak atau leptokurtik.
Ukuran bentuk, skewness dan kurtosis, masing-masing Distribusi datar, dengan skor lebih merata dan ekor lebih
menggambarkan penyimpangan dari simetri distribusi dan gemuk dari distribusi normal, disebut playkurtik. Menengah
"atness (atau peakedness) relatifnya. Mereka menggunakan atau mesokurtik distribusi mendekati normal — tidak terlalu
}
skor deviasi (X 2 X). Skor deviasimenunjukkan kepada kita memuncak atau terlalu "pada. Simbol untuk kurtosis adalah
seberapa jauh pengamatan apapun dari mean. Perusahaan ku
yang membukukan persentase kenaikan penjualan sebesar 9
x $x} 4 4
memiliki skor deviasi 2 (92 7). Ukuran bentuk seringkali sulit ku 5 3________(_ tidak saya ___)
n_1_1_)_______ S (__s
(tidak 2 1)(tidak 2 2)(tidak 2 3)
untuk ditafsirkan ketika skor ekstrim berada dalam distribusi.
Umumnya, bentuk paling baik dikomunikasikan melalui _ 3(tidak 2 1)
2 __________ 2

(tidak22)(tidak23)
tampilan visual. (Lihat grafik pada Tampilan 15a-3, bagian B
sampai F.) Dari sudut pandang praktis, perhitungan dimana s adalah deviasi standar sampel (estimasi sigma
skewness dan kurtosis paling mudah dilakukan dengan yang tidak bias).
spreadsheet atau software statistik. Nilai dari ku untuk distribusi normal atau mesokurtik
Kecondongan adalah ukuran penyimpangan distribusi dari mendekati 0. Distribusi leptokurtik bernilai positif, dan
simetri. Dalam distribusi simetris, mean, median, dan modus distribusi playkurtik bernilai negatif. Seperti halnya
berada pada lokasi yang sama. Distribusi yang memiliki kasus- skewness, semakin besar nilai absolut indeks, semakin
kasus yang membentang ke arah satu ekor atau yang lain disebut ekstrim karakteristiknya. Dalam contoh peningkatan
miring. Seperti yang ditunjukkan pada Tampilan 15a-3, bagian B, penjualan unit persentase tahunan, kurtosis dihitung
ketika ekor membentang ke kanan, ke nilai yang lebih besar, itu sebagai –0,29, yang menunjukkan penyimpangan yang
miring positif. Di bagian C, skor yang membentang ke kiri, ke sangat kecil dari kurva berbentuk normal dengan beberapa
arah nilai yang lebih kecil, membuat distribusi menjadi negatif. "perhatian yang disumbangkan oleh frekuensi yang lebih
Perhatikan hubungan antara mean, median, dan modus dalam kecil dari perkiraan dari nilai#7 dalam distribusi contoh.
distribusi asimetris. Simbol untuk kemiringan adalahsk.
xsaya
$x} 3
sk 5 _____________ S
tidak ___
(tidak 2 1)(tidak 2 2) (__ s)

dimana s adalah deviasi standar sampel (estimasi sigma


yang tidak bias).
>bab 16
Menjelajahi, Menampilkan, dan Meneliti Data

>belajartujuan
Setelah membaca bab ini, Anda harus mengerti!.!.!.

1 Teknik analisis data eksplorasi memberikan wawasan dan diagnostik data dengan menekankan visual
representasi dari data.

2 Bagaimana tabulasi silang digunakan untuk menguji hubungan yang melibatkan variabel kategori, berfungsi sebagai:
kerangka kerja untuk pengujian statistik selanjutnya, dan membuat analisis berbasis tabel menggunakan satu atau lebih variabel
kontrol sebagai alat yang efisien untuk visualisasi data dan pengambilan keputusan.

“ ide-idehari,
Setiap di luarcari
industri penelitian
inspirasi dan untuk mempengaruhi
pemikiran Anda. Misalnya, visualisasi data


bisa terinspirasi oleh infografis yang Anda lihat di a
majalah favoritzine, atau bahkan sebuah karya seni yang Anda lihat
di sebuah museum.

Amanda Durkee, mitra


Zanthus
>membawapenelitianuntukkehidupan PikiranPenulis

Myra dan Jason sedang menyelesaikan ulasan mereka tentang materi yang disampaikan Myra untuk kemitraan terbaru
MindWriter dengan Henry and Associates. Jason, mengetahui bahwa Myra sangat ingin mendengar berita menarik
tentang proyek City Center for Performing Arts, mengantarnya melewati kantor luar. Sammye, karyawan magang
terbaru Henry and Associates, sibuk meneliti tabulasi silang. Dia memutuskan ini adalah waktu yang tepat untuk
mengirim SMS ke Sammye tentang aturan kerahasiaan data yang dia bicarakan dengan pekerja magang.
minggu lalu.

"Sammye Grayson, temui Myra Wines dari MindWriter. Sammye, mendapat anggukan dari Jason, berbagi, “Kita
Kami akan bekerja dengannya dalam proyek jangka mungkin harus melakukan pengodean ulang variabel usia
pendek selama minggu depan." Sammye bangkit untuk dan ras agar polanya muncul dengan jelas. Tim juga tertarik
menjabat tangan Myra yang terulur, saat Jason bertanya pada perbedaan antara kelompok etnis dalam preferensi
dengan polos, "Ada yang menarik di tab silang awal itu?" kinerja di masa depan. Kami juga telah !menyelesaikan
Myra tersenyum, mengangkat alis ekspresif, dan pengkodean setiap alamat pelanggan dengan kode GPS
menunggu jawaban Sammye. (Geographic Positioning System). Pemetaan awal dimulai
Sammye ragu-ragu dan kemudian, melihat Jason untuk besok; Jason menyewa kandidat master dalam geografi untuk
beberapa sinyal mengapa dia mengajukan pertanyaan di menyediakan pemetaan. Saya telah menjadwalkan panggilan
hadapan klien yang berbeda, menjawab, “Tiga dari tabulasi konferensi untuk . . . (Sammye "memindahkan halaman
silang awal muncul untuk menunjukkan beberapa dukungan kalender mejanya ke minggu berikutnya) ... Jumat minggu
untuk asumsi dewan tentang masalah alkohol—pada apakah depan dengan Jackson Murray dan anggota lain dari tim
pelanggan saat ini mendukung penjualan bir dan anggur proyek CCPA."
selama istirahat. Tapi kami tidak cukup jauh ke dalam data "Ketika dewan menyetujui rencana analisis yang Anda usulkan,"

untuk mengatakan asumsi dewan mana yang sepenuhnya tanya Myra, "Saya tidak ingat pernah melihat referensi apa pun ke

benar dan mana yang mungkin harus dimodifikasi diagram seperti kotak dengan ekor yang saya lihat pada grafik yang

berdasarkan pola yang muncul dalam subkelompok sampel.” baru saja Anda berikan kepada Jason."

“Sebagian besar dari apa yang akan dilakukan tim dalam tiga
Jason mengangkat tangan untuk menghentikan jawaban hari ke depan,” campur tangan Jason, “melibatkan lebih banyak

terperinci atas pertanyaannya. Sammye tahu dari raut wajahnya tampilan grafis daripada statistik. Saat ini kami baru memahami
bahwa dia telah melakukan kesalahan. apa yang dikatakan data kepada kami. Kami akan memutuskan
"Aku seharusnya tidak menjawab pertanyaanmu," sembur apa, jika ada, analisis baru untuk ditambahkan ke rencana yang
Sammye. "Aku berjalan tepat ke jebakan yang kamu pasang, dengan diusulkan pada hari Jumat ini. Karya awal inilah yang meletakkan

mata terbuka lebar." dasar untuk analisis yang lebih canggih berikutnya. Tidak ada
Myra melompat sebelum Jason bisa merespons. “Saya pernah yang glamor tentang itu, tapi tanpanya kita mungkin kehilangan
melihat Jason melakukan ini sebelumnya untuk magang, jadi Anda beberapa penemuan penting.”
harus merasa seperti salah satu tim. Dan, tidak, Anda seharusnya Jason berhenti sejenak untuk efek dan kemudian berkata,

tidak menanggapi—kerahasiaan adalah aturan nomor satu—dan “Ngomong-ngomong, #'diagram kecil' itu disebut plot kotak. Saya

sebagai klien, saya menghargainya. Tidak ada salahnya dilakukan benar-benar melakukan beberapa selama fase analisis awal untuk studi

kali ini, meskipun. Apa Jason gagal untuk memberitahu Anda CompleteCare MindWriter. Saya tidak memberikannya kepada Anda

adalah saya di dewan CCPA dan bagian dari tim proyek. Sebelum karena saya harus menjelaskan bagaimana menafsirkannya dan. . .”

Jason menghentikanmu, segalanya menjadi menarik. Tolong “ . . . dan apa pun yang harus Anda jelaskan tidak
lanjutkan." cukup jelas,” !nishes Myra.
406 >bagian IV Analisis dan Penyajian Data

> Analisis Data Eksplorasi


Kenyamanan entri data melalui spreadsheet, pengenalan tanda optimal (OMR), atau editor data program statistik
membuatnya tergoda untuk langsung beralih ke analisis statistik. Godaan itu semakin kuat ketika data dapat
dimasukkan dan dilihat secara real time. Mengapa membuang waktu !mencari tahu apakah data sesuai dengan
hipotesis yang memotivasi penelitian? Mengapa tidak memperoleh ringkasan statistik deskriptif (berdasarkan
diskusi kita dalam Lampiran 15a) dan kemudian menguji hipotesis?
Analisis data eksplorasi adalah perspektif analisis data dan seperangkat teknik. Dalam bab ini, kami akan
menyajikan teknik unik dan konvensional termasuk perangkat grafis dan tabular untuk memvisualisasikan data.
Tampilan 16-1 mengingatkan Anda tentang pentingnya visualisasi data sebagai elemen integral dalam proses
analisis data dan sebagai langkah yang diperlukan sebelum pengujian hipotesis. Dalam Bab 3, kami mengatakan
penelitian yang dilakukan secara ilmiah adalah aktivitas memecahkan teka-teki serta sikap keingintahuan,
kecurigaan, dan imajinasi yang penting untuk penemuan. Maka wajar jika eksplorasi dan pemeriksaan data akan
menjadi bagian integral dari perspektif analisis data kami.
Di analisis data eksplorasi (EDA) peneliti memiliki "eksibilitas untuk menanggapi pola yang terungkap dalam
analisis awal data. Dengan demikian, pola dalam data yang dikumpulkan memandu analisis data atau
menyarankan revisi pada rencana analisis data awal. "Kelenturan ini adalah atribut penting dari penelitian ini.
pendekatan. Ketika peneliti mencoba untuk membuktikan sebab-akibat, bagaimanapun, analisis data kon!rmatory
diperlukan.Analisis data konfirmasi adalah proses analitis yang dipandu oleh inferensi statistik klasik dalam
penggunaan pengujian signifikansi dan keyakinan.1

>Pameran 16-1 Eksplorasi, Pemeriksaan, dan Analisis Data dalam Proses Penelitian

Penelitian
Rancangan Analisis awal
Perencanaan

Perbaiki Hipotesis
Pengumpulan data
& Persiapan Visualisasi data

Analisis Data & Interpretasi

Statistik Deskriptif pada Variabel

Tabulasi Silang Variabel

Persiapan Tampilan Data


(histogram, boxplot, pareto,
batang-dan-daun, AID, dll.)

Analisis data Pengujian Hipotesis

Tentukan Rekomendasi

Pelaporan Penelitian

Pengelolaan
Keputusan
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 407

Satu otoritas telah membandingkan analisis data eksplorasi dengan peran detektif polisi dan penyelidik
lainnya dan analisis konfirmasi dengan peran hakim dan sistem peradilan. Yang pertama terlibat dalam
pencarian petunjuk dan bukti; yang terakhir disibukkan dengan mengevaluasi kekuatan bukti yang
ditemukan. Analisis data eksplorasi adalah langkah pertama dalam mencari bukti, yang tanpanya analisis
konfirmasi tidak ada artinya untuk dievaluasi.2 Konsisten dengan analogi itu, EDA memiliki kesamaan
dengan desain eksplorasi, bukan yang diformalkan. Karena tidak mengikuti struktur yang kaku, ia bebas
mengambil banyak jalan untuk mengungkap misteri dalam data—untuk menyaring yang tak terduga dari
yang bisa diprediksi.
Kontribusi utama dari pendekatan eksplorasi terletak pada penekanan pada representasi visual dan teknik
grafis di atas ringkasan statistik. Statistik ringkasan, seperti yang akan Anda lihat sebentar lagi, mungkin
mengaburkan, menyembunyikan, atau bahkan salah menggambarkan struktur data yang mendasarinya. Ketika
ringkasan numerik digunakan secara eksklusif dan diterima tanpa inspeksi visual, pemilihan model konfirmasi
dapat didasarkan pada "asumsi terpesona.3 Untuk alasan ini, analisis data harus dimulai dengan inspeksi visual.
Setelah itu, tidak hanya mungkin tetapi juga diinginkan untuk melakukan siklus antara pendekatan eksplorasi dan
konfirmasi.

Tabel Frekuensi, Diagram Batang, dan Diagram Lingkaran4


Beberapa teknik yang berguna untuk menampilkan data bukanlah hal baru bagi EDA. Mereka sangat penting untuk
setiap pemeriksaan data. Misalnya,tabel frekuensi adalah perangkat sederhana untuk menyusun data. Sebuah
contoh disajikan dalam Tampilan 16-2. Ini menyusun data dengan nilai numerik yang ditetapkan, dengan kolom
untuk persen, persen valid (persen disesuaikan untuk data yang hilang), dan persen kumulatif. Variabel nominal ini
menggambarkan usia minimum yang diinginkan untuk diizinkan memiliki akun jejaring sosial. Data yang sama
disajikan dalam Tampilan 16-3 menggunakan diagram lingkaran dan diagram batang. Nilai dan persentase lebih
mudah dipahami dalam format grafik ini.
Ketika variabel minat diukur pada skala rasio interval dan merupakan salah satu dengan banyak nilai potensial,
teknik ini tidak terlalu informatif. Tampilan 16-4 (halaman 405) adalah tabel frekuensi yang diringkas dari
pembelian tahunan rata-rata 50 pelanggan teratas PrimeSell. Hanya dua nilai, 59,9 dan 66, yang memiliki frekuensi
lebih besar dari 1. Jadi, kontribusi utama tabel untuk data ini adalah daftar nilai yang berurutan. Jika tabel diubah
menjadi diagram batang, tabel tersebut akan memiliki 48 batang dengan panjang yang sama dan dua batang
dengan dua kemunculan. Bagan batang tidak menyediakan ruang untuk nilai di mana tidak ada pengamatan yang
terjadi dalam rentang. Membuat diagram lingkaran untuk variabel ini juga tidak ada gunanya.

Pameran 16-2 Tabel Frekuensi (Usia Minimum untuk Jejaring Sosial)

Sah Kumulatif
Label Nilai Nilai Frekuensi Persen Persen Persen

21 tahun 1 60 6 6 6

18 tahun minimal 2 180 18 18 24

16 tahun minimal 3 330 33 33 57

13 tahun minimal 4 280 28 28 85

10 tahun usia 5 50 5 5 90

berapapun 6 60 6 6 96

Tidak ada opini 7 40 4 4 100

1.000 100 100

Kasus yang Valid 1.000; Kasus Hilang 0


408 >bagian IV Analisis dan Penyajian Data

>Pameran 16-3 Tampilan Data Nominal (Usia Minimum untuk Jejaring Sosial)

Usia Minimum untuk Jejaring Sosial

Persen

21 tahun 6
18 tahun 18
16 tahun 33
13 tahun 28
10 tahun 5
Usia berapa pun 6
Tidak ada opini 4

Usia Minimum untuk Jejaring Sosial


35

30

25

20
Persen

15

10

0
21 18 16 13 10 Apa saja

Usia

Histogram
Histogram adalah solusi konvensional untuk menampilkan data rasio interval. Histogram digunakan
ketika dimungkinkan untuk mengelompokkan nilai-nilai variabel ke dalam interval. Histogram dibangun
dengan batang (atau tanda bintang) yang mewakili nilai data, di mana setiap nilai menempati jumlah area
yang sama di dalam area tertutup. Analis data !nd histogram berguna untuk (1) menampilkan semua
interval dalam distribusi, bahkan tanpa nilai yang diamati, dan (2) memeriksa bentuk distribusi untuk
skewness, kurtosis, dan pola modal. Saat melihat histogram, orang mungkin bertanya: Apakah ada punuk
tunggal (mode)? Apakah subgrup dapat diidentifikasi ketika ada banyak mode? Apakah nilai data straggling
terlepas dari konsentrasi pusat?5
Nilai untuk variabel pembelian tahunan rata-rata yang disajikan dalam Tampilan 16-4 diukur pada skala
rasio dan mudah dikelompokkan. Variabel lain yang memiliki urutan yang mendasari juga sesuai untuk
histogram. Histogram tidak akan digunakan untuk variabel nominal seperti usia minimum untuk jejaring
sosial (Exhibit#16-3) yang tidak memiliki urutan kategorinya.
Histogram dari pembelian tahunan rata-rata ditunjukkan pada Tampilan 16-5. Titik tengah untuk setiap interval
untuk variabel bunga, rata-rata pembelian tahunan, ditunjukkan pada sumbu horizontal; frekuensi
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 409

>Pameran 16-4 Pembelian Tahunan Rata-rata dari 50 Pelanggan Utama PrimeSell

Kumulatif Kumulatif
Nilai Frekuensi Persen Persen Nilai Frekuensi Persen Persen

54.9 1 2 2 75.6 1 2 54
55.4 1 2 4 76.4 1 2 56
55.6 1 2 6 77.5 1 2 58
56.4 1 2 8 78.9 1 2 60
56.8 1 2 10 80.9 1 2 62
56.9 1 2 12 82.2 1 2 64
57.8 1 2 14 82,5 1 2 66
58.1 1 2 16 86.4 1 2 68
58.2 1 2 18 88.3 1 2 70
58.3 1 2 20 102.5 1 2 72
58.5 1 2 22 104.1 1 2 74
59.9 2 4 26 110.4 1 2 76
61.5 1 2 28 111.9 1 2 78
62.6 1 2 30 118,6 1 2 80
64.8 1 2 32 123.8 1 2 82
66.0 2 4 36 131.2 1 2 84
66.3 1 2 38 140.9 1 2 86
67.6 1 2 40 146.2 1 2 88
69.1 1 2 42 153,2 1 2 90
69.2 1 2 44 163.2 1 2 92
70.5 1 2 46 166.7 1 2 94
72,7 1 2 48 183.2 1 2 96
72.9 1 2 50 206.9 1 2 98
73.5 1 2 52 218.2 1 2 100
Total 50 100

>Pameran 16-5 Histogram Pembelian Tahunan Rata-Rata 50 Pelanggan Terbaik PrimeSell

15
Frekuensi

10

50 70 90 110 130 150 170 190 210


Pembelian tahunan rata-rata
410 >bagian IV Analisis dan Penyajian Data

>jeprettembakan
Visualisasi Data Novation Membutuhkan Aplikasi Unik

Didirikan pada tahun 1998, Novation adalah ahli rantai pasokan perawatan
kesehatan terkemuka dan perusahaan kontraktor untuk lebih dari 65.000
anggota dan afiliasi. Organisasi perawatan kesehatan yang dilayani oleh

Novation menghadapi tekanan yang meningkat pada laba atas investasi saya butuh informasi Bagaimana saya bisa mendapatkan

mereka di tengah meningkatnya biaya, meningkatnya perawatan tanpa sekarang ... bagaimana saya bisa laporan yang mencakup semua

mendapatkan akses yang lebih cepat? informasi yang saya butuhkan?

kompensasi, kekurangan perawat, dan krisis ekonomi nasional.


Melinda Gardner, wakil presiden, informasi strategis untuk Novation, memberikan

kepemimpinan, arahan, dan fokus strategis untuk kegiatan yang terkait dengan kegiatan intelijen aku ingin Pelanggan Internal saya ingin

buat sendiri Tantangan Untuk konsisten


bisnis Novation. Timnya sangat penting untuk keberhasilan peluncuran produk visualisasi data baru disesuaikan hasil dari
Visualisasi data
laporan. data.
Novation. “Nomor produk dan konvensi penamaan tidak distandarisasi di seluruh industri perawatan Penyebaran

kesehatan,” kata Gardner dalam presentasi tentang penemuan data visual dan dasbor swalayan untuk

bisnis. Itu membuat berbagi informasi, terutama dengan sistem perawatan kesehatan tentang saya harus pergi ke saya ingin saya

3 berbeda informasi
pemasok dan perilaku pembelian, bermasalah. Dengan alat visualisasi data mereka, Novation ingin
tempat untuk mendapatkan disajikan dalam

“memajukan cara organisasi berpikir tentang data,” kata Gardner. Novation mengumpulkan data dari
semua informasi. lebih berwawasan
mode.
pesanan pembelian dan faktur rumah sakit anggota, data penjualan, data distribusi dan pemasok serta

kontrak manajemen harga, dan membuat data ini tersedia bagi anggota tidak hanya di desktop, tetapi

juga di iPhone atau iPad mereka. Sistem baru perlu melayani berbagai pengguna bisnis, termasuk

semua orang mulai dari pengambil keputusan eksekutif hingga tim penjualan hingga keuangan.
untuk produk ini, memastikan bahwa sejumlah besar data dan

Novation tidak ingin membatasi pengguna pada pendekatan tipikal yang biasanya terdiri dari laporan
sejumlah besar metrik dapat diakses di lingkungan kinerja tinggi.

yang dikembangkan TI dengan data yang dipaksakan ke dalam model. Sebaliknya, Novation ingin para
Analisis dan visualisasi yang kompleks dapat dicapai dalam hitungan

pengguna ini dapat 'bermain dalam data', dan memiliki kemampuan untuk bereksperimen dengan
menit dengan menggunakan server cerdas. Keterlibatan pengguna

tampilan tambahan atau alternatif. Novation tidak ingin membatasi pengguna pada pendekatan tipikal
bisnis selama tahap perencanaan memastikan adopsi awal produk ini.

yang biasanya terdiri dari laporan yang dikembangkan TI dengan data yang dipaksakan ke dalam
Analisis yang telah diisi sebelumnya dan kasus penggunaan digunakan

model. Sebaliknya, Novation ingin para pengguna ini dapat 'bermain dalam data', dan memiliki
selama pelatihan, dan pengguna diperlihatkan cara menambah atau

kemampuan untuk bereksperimen dengan tampilan tambahan atau alternatif. Novation tidak ingin
menghapus bidang data dan memanipulasi bagan data untuk

membatasi pengguna pada pendekatan tipikal yang biasanya terdiri dari laporan yang dikembangkan
membuat pola data—dan outlier—menjadi hidup. Dengan

TI dengan data yang dipaksakan ke dalam model. Sebaliknya, Novation ingin para pengguna ini dapat
menggunakan alat visualisasi data ini, Novation akan terus

'bermain dalam data', dan memiliki kemampuan untuk bereksperimen dengan tampilan tambahan
menemukan cara untuk membantu rumah sakit dalam

atau alternatif.
memaksimalkan nilai kontrak dan mengurangi biaya rantai pasokan.

Novation bermitra dengan MicroStrategy untuk mengimplementasikan Novation melayani anggota dan afiliasi VHA Inc. (jaringan
teknologi inovatif ini. Hasilnya adalah produk yang memungkinkan
nasional sistem perawatan kesehatan milik masyarakat), UHC

pengguna bisnis membuat analisis ad hoc dengan visualisasi data yang (aliansi nasional yang mewakili sekitar 90% dari pusat medis
canggih dengan cara yang sangat cepat. Produk visualisasi data Novation kini akademik nirlaba negara), Asosiasi Rumah Sakit Anak (aliansi
diluncurkan dan pengguna berbagi laporan praktik terbaik—dan melakukan rumah sakit anak terkemuka bangsa), dan Provista, LLC

ini dengan sedikit dukungan teknis. “Pelatihan sangat penting, tetapi adopsi
(organisasi pembelian kelompok yang menyediakan

bukanlah hal yang sulit,” kata Gardner. Dengan bantuan Microstrategy,


manajemen rantai pasokan dan layanan pengadaan).

Novation memanfaatkan kubus cerdas www.novationco.com; www.microstrategy.com

atau jumlah pengamatan di setiap interval, pada sumbu vertikal. Kami mendirikan bar vertikal di atas
titik tengah setiap interval pada skala horizontal. Ketinggian batang sesuai dengan frekuensi
pengamatan dalam interval di mana ia didirikan. Histogram ini dibangun dengan lebar interval 20
kelipatan, dan interval terakhir hanya berisi dua pengamatan, 206,9 dan 218,2. Nilai-nilai ini
ditemukan di tabel frekuensi pembelian tahunan rata-rata PrimeSell (Exhibit 16-4). Interval dengan
0#hitungan menunjukkan kesenjangan dalam data dan memperingatkan analis untuk mencari
masalah dengan penyebaran. Ketika ekor atas distribusi dibandingkan dengan tabel frekuensi, kami
menemukan tiga nilai ekstrim (183,2, 206,9, dan 218,2). Seiring dengan titik tengah memuncak dan
berkurangnya jumlah pengamatan di ekor atas,
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 411

Tampilan Batang-dan-Daun6
Itu tampilan batang-dan-daun merupakan teknik yang berkaitan erat dengan histogram. Ini berbagi beberapa
fitur histogram tetapi menawarkan beberapa keuntungan unik. Mudah dibuat dengan tangan untuk sampel kecil
atau dapat diproduksi oleh program komputer. Berbeda dengan histogram, yang kehilangan informasi dengan
mengelompokkan nilai data ke dalam interval, batang dan daun menyajikan nilai data aktual yang dapat diperiksa
secara langsung, tanpa menggunakan batang atau tanda bintang tertutup sebagai media representasi. Fitur ini
mengungkapkan distribusi nilai dalam interval dan mempertahankan urutan peringkatnya untuk menemukan
median, kuartil, dan statistik ringkasan lainnya. Ini juga memudahkan menghubungkan pengamatan khusus
kembali ke file data dan subjek yang menghasilkannya.
Visualisasi adalah keuntungan kedua dari tampilan batang dan daun. Kisaran nilai terlihat sekilas, dan
tayangan bentuk dan penyebarannya langsung terlihat. Pola dalam data—seperti kesenjangan di mana
tidak ada nilai, area di mana nilai-nilai dikelompokkan, atau nilai-nilai luar yang berbeda dari badan utama
data—mudah diamati.
Untuk mengembangkan tampilan batang-dan-daun untuk data pada Peraga 16-4, digit pertama dari
setiap item data disusun di sebelah kiri garis vertikal. Selanjutnya, kami melewati persentase pembelian
tahunan rata-rata dalam urutan yang dicatat dan menempatkan digit terakhir untuk setiap item (posisi unit,
1.0) di sebelah kanan garis vertikal. Perhatikan bahwa digit di sebelah kanan titik desimal diabaikan. Digit terakhir untuk
setiap item ditempatkan pada baris horizontal yang sesuai dengan !digit pertama. Sekarang adalah masalah sederhana
untuk mengurutkan angka di setiap baris, menciptakan tampilan batang dan daun yang ditunjukkan pada Tampilan 16-6.

Setiap baris atau baris dalam tampilan ini disebut sebagai batang, dan setiap informasi pada batang disebut a
daun. Baris atau baris pertama adalah !

5|455666788889

Arti yang dilampirkan pada baris atau baris ini adalah bahwa ada 12 item dalam kumpulan data yang !digit pertamanya adalah !ve:
54, 55, 55, 56, 56, 56, 57, 58, 58, 58, 58, dan 59. Baris kedua,

6|12466799

menunjukkan bahwa ada delapan nilai pembelian tahunan rata-rata yang !digit pertamanya adalah enam: 61, 62, 64, 66, 66,
67, 69, dan 69.
Ketika tampilan batang dan daun yang ditunjukkan pada Tampilan 16-6 diputar ke atas (diputar 90 derajat ke
kiri), bentuknya sama dengan histogram yang ditunjukkan pada Tampilan 16-5.

>Pameran 16-6 Tampilan Batang-dan-Daun Data Pembelian Tahunan Rata-Rata PrimeSell

5 455666788889
6 12466799
7 02235678
8 02268
9
10 24
11 018
12 3
13 1
14 06
15 3
16 36
17
18 3
19
20 6
21 8
412 >bagian IV Analisis dan Penyajian Data

>Menutupnaik
Menggunakan Tabel untuk Memahami Data

Karena tugas utama peneliti adalah menemukan pesan yang diungkapkan Kehadiran nomor apa pun dalam tabel adalah untuk perbandingan
oleh data, ia membutuhkan setiap alat untuk mengungkapkan pesan dengan nomor yang sama—dari tahun lalu, dari kandidat lain, dari
tersebut. Penulis Sally Bigwood dan Melissa Spore dalam buku mereka mesin lain, lawan gol, dan seterusnya. Menggunakan aturan penulis
Menyajikan Angka, Tabel, dan Bagan menyarankan bahwa tabel adalah alat untuk pembuatan tabel, seorang peneliti yang mengeksplorasi data
utama untuk mengekstraksi pengetahuan dari data. dengan membuat tabel harus:

• Angka bulat. • Angka yang dibulatkan paling mudah dibandingkan, memungkinkan kita untuk lebih mudah menentukan rasio atau hubungan
antara satu angka dengan angka lainnya.

• Jika presisi sangat penting untuk angka (misalnya, Anda sedang meneliti pajak atau spesifikasi desain atau interaksi
obat), jangan membulatkan angkanya.

• Atur angka untuk • Urutan nomor dari nomor terbesar ke terkecil.


mengungkapkan to • Dalam tabel yang disusun secara vertikal, urutkan angka terbesar di bagian atas.
pola. • Dalam susunan horizontal, urutkan bilangan terbesar di sebelah kiri.

• Saat mencari perubahan dari waktu ke waktu, urutkan nomor berdasarkan tahun, dari yang paling jauh (kiri atau atas) hingga
yang terbaru.

• Gunakan rata- • Rata-rata memberikan poin untuk perbandingan.


usia, total, atau • Jangan gunakan rata-rata jika data mentah menunjukkan distribusi bimodal.
persentase ke
• Total menekankan gambaran besar.
mencapai fokus.
• Persentase menunjukkan hubungan proporsional lebih mudah daripada data mentah.

• Bandingkan seperti • Ubah angka menjadi skala umum ketika angka mencerminkan skala yang berbeda (misalnya,
timbangan dalam satu tabel. gram versus ons konsumsi sereal; data gaji bulanan versus data upah per jam).

• Pilih kesederhanaan • Beberapa tabel yang lebih kecil mengungkapkan pola lebih baik daripada satu tabel besar dan kompleks.
atas kompleksitas.
• Tabel kompleks digunakan sebagai sumber referensi yang nyaman untuk beberapa elemen data.

• Gunakan ruang kosong dan • Desain tabel dengan jumlah kolom lebih sedikit daripada baris.
desain untuk mengarahkan
• Angka spasi tunggal yang harus dibandingkan.
mata pada angka-angka
yang harus dibandingkan • Gunakan garis kisi untuk mengelompokkan nomor dalam tabel; menghindari gridlines antara angka-angka yang harus!
dan untuk membuat pola dibandingkan.
dan pengecualian.
• Gunakan ruang kosong untuk membuat talang antar angka dalam tabel sederhana.
tion menonjol.
• Rata kanan header kolom dan nomor tabel.

• Ringkaslah masing-masing • Tulis frasa atau kalimat yang merangkum interpretasi Anda terhadap data yang disajikan; jangan biarkan
tampilan data. interpretasi menjadi kebetulan.
• Pernyataan ringkasan dapat digunakan sebagai judul tabel atau bagan dalam laporan penelitian akhir.
• Ringkasan tidak perlu menyebutkan angka apa pun.

• Label dan tabel • Judul harus komprehensif: Sertakan apa (subjek judul atau pesan), di mana (jika data memiliki
judul untuk basis geografis), kapan (tanggal atau periode waktu tercakup), dan satuan ukuran.
kejelasan pesan.
• Menyertakan informasi umum dalam judul: Ini memperpanjang judul tetapi memperpendek judul kolom tabel.

• Hindari singkatan dalam judul kolom kecuali diketahui dengan baik oleh audiens Anda.

• Hindari catatan kaki; jika digunakan, gunakan simbol—seperti tanda bintang—daripada angka (angka yang digunakan
sebagai catatan kaki dapat dikacaukan dengan nomor isi tabel).

• Untuk referensi, berikan baris sumber yang dapat dipahami untuk referensi nanti.
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 413

>Menutupnaiklanjutan
SEBUAH CONTOH

Asumsikan Anda sedang menentukan apakah akan memperluas ke Eropa Barat dengan fasilitas distribusi untuk melayani pembelian online dari perusahaan
barang khusus Anda.

Tabel 1 Pengeluaran oleh Pengguna Internet di Western Terpilih


Negara-negara Eropa 2010 (EURO dalam Miliar)

Tahunan Tahunan
Pengeluaran Pembelian

Perancis Euro 664.5 16

Jerman Euro 658.0 20

Italia Euro 345.5 14

Spanyol Euro 560.1 10

Britania Raya Euro 2284,9 36

Kita mulai dengan tabel di atas yang menyajikan data yang dikembangkan dari beberapa studi tentang belanja online dan perilaku pembelian di
negara-negara tertentu di Eropa Barat. Data diurutkan menurut abjad menurut negara. Sementara mengatur dalam urutan abjad mungkin ideal
untuk pengacakan atau pengurangan bias, itu bukan pilihan logis untuk kejelasan penyajian data.
Data apa yang mungkin Anda perlukan untuk membantu Anda membuat keputusan tentang fasilitas distribusi? Apakah Anda perlu mengetahui ukuran
transaksi rata-rata? Jika Anda tidak mengetahui tingkat konversi euro ke dolar, dapatkah Anda menafsirkan tabelnya? Haruskah Anda menempatkan
investasi Anda di Inggris atau di tempat lain?

Meja 2 E5 Per Kapita Belanja Online Satu Tahun (2010)


Pengeluaran Tahunan Rata rata tahunan Pengeluaran Tahunan
(EURO) Pembelian (DOLLAR AMERIKA$)

Britania Raya 2284.9 36 1736,2

Jerman 658.0 20 500,0

Perancis 664.5 16 505.0

Italia 345.5 14 262.6

Spanyol 560.1 10 425.6

Nilai Tukar Mata Uang: 1 US$ = 1,316 EURO

Tabel 2 menyusun kembali data menggunakan pedoman Bigwood dan Spore. Pertama judul tabel telah berubah; sekarang periode tahunan
yang menjadi dasar data pengeluaran lebih jelas, serta fakta bahwa kita melihat pengeluaran per kapita untuk 5 pemain Uni Eropa teratas, yang
dikenal sebagai E5. Kami juga telah mengubah tajuk kolom untuk mencerminkan mata uang, dan kami telah membenarkan tajuk dan nomornya.
Kami telah menyusun ulang tabel menurut Pengeluaran Rata-Rata (EURO) dalam urutan menurun dan menafsirkan kolom (EURO) dengan
menambahkan kolom konversi dolar. Kami mungkin tidak memerlukan kolom paling kanan jika kami sendiri adalah pembelanja euro, tetapi jika
kami lebih mengenal mata uang lain, penambahan kolom ini membantu kami menginterpretasikan data. Dengan pengaturan ini, apakah Jerman
terlihat menarik? Meskipun saat ini mungkin tidak tampak sebagai pesaing yang kuat seperti Inggris, kita tahu itu kuat secara fiskal dan terletak di
lokasi yang lebih sentral dari negara-negara lain yang sedang dipertimbangkan.
414 >bagian IV Analisis dan Penyajian Data

>Menutupnaiklanjutan
Tabel 3 E5 Per Kapita Belanja Online Satu Tahun (2010)
Pengeluaran Tahunan Rata rata tahunan Tahunan
(EURO) Pembelian Pengeluaran (US$)

Britania Raya 2284.9 36 1736.24 Pembeli Frekuensi Di Atas Rata-rata Pembeli

Jerman 658.0 20 500,00 Di Atas Frekuensi Rata-rata Pembeli Di

Perancis 664.5 16 504,97 Bawah Frekuensi Rata-rata Pembeli Di

Italia 345.5 14 262,57 Bawah Frekuensi Rata-rata Pembeli Di

Spanyol 560.1 10 425.61 Bawah Frekuensi Rata-rata Pembeli

Rata-rata 902.6 19.2 685,88


Nilai Tukar Mata Uang: 1 US$ = 1,316 EURO

Tabel 3 menawarkan tambahan sederhana: rata-rata kolom. Dan tabel sekarang diurutkan berdasarkan Pembelian Tahunan Rata-rata dalam
periode satu tahun yang dipelajari. Presentasi ini memungkinkan penafsir data untuk menentukan negara mana yang membeli di atas rata-rata
untuk Eropa Barat dan mana yang membeli di bawah rata-rata. Jerman tampil cukup bagus. Baik?

Tabel 4 ES Per Kapita Belanja Online Satu Tahun (2010)


Pengeluaran Tahunan Pengeluaran Tahunan Rata rata tahunan Rata-rata Transaksi Rata-rata Transaksi
(EURO) (DOLLAR AMERIKA$) Pembelian (EURO) (DOLLAR AMERIKA$)

Britania Raya 2284.9 1736.24 36 63.5 48.23


Spanyol 560.1 425.61 10 56.0 42.56
Perancis 664.5 504,97 16 41.5 31.56
Jerman 658.0 500,00 20 32.9 25.00
Italia 345.5 262,57 14 24.7 18.75
Rata-rata 902.6 685,88 19.2 47.0 35.72
Nilai Tukar Mata Uang: 1 US$ = 1,316 EURO

Tabel 4 menawarkan penyusunan ulang data berdasarkan kolom yang baru dihitung, Transaksi Rata-Rata (Euro). Jerman tidak terlihat begitu
menarik sekarang. Ini terutama benar jika kita adalah penjual barang dagangan khusus dengan harga lebih tinggi.

Tabel 5 E5 Per Kapita Belanja Online Satu Tahun (2010 vs. 2015)
Perkiraan Rata-rata Perkiraan Rata-rata
Perkiraan Persen Perkiraan Internet Transaksi 2015 Transaksi 2015
Pengguna Internet 2015 Pengguna 2015 (juta) (EURO) (DOLLAR AMERIKA$)

Jerman 89.9 72.2 51.5 37.06


Italia 78.3 45.3 58.6 42.14
Perancis 87.3 56.9 63.8 45,92
Britania Raya 94.9 58.2 95.2 68.48
Spanyol 77.7 34.5 106.4 76.55
Rata-rata 78.3 45.3 58.6 42.14

Tidak seperti tabel sebelumnya, Tabel 5 diurutkan dari paling sedikit hingga paling banyak berdasarkan perkiraan Transaksi Rata-Rata tahun 2015 dan kami telah
menggunakan proyeksi untuk data pembelian tahun 2015. Jika mata Anda buram karena mempelajari banyak tabel, Anda mungkin akan segera melirik ke meja, dan berpikir
Jerman sebagai pusat distribusi harus menjadi pilihan yang tepat. Sementara Jerman mungkin masih menjadi pesaing (mengingat posisi keuangannya yang lebih kuat di Uni
Eropa), proyeksi ukuran transaksinya yang lebih kecil mungkin membuatnya kurang cocok untuk distributor barang khusus. Jadi perhatian yang sangat penting pada tabel:
Sebagai seorang peneliti Anda ingin berusaha untuk konsistensi. Jika Anda memesan dari paling banyak ke paling sedikit, pilih pengaturan ini untuk thissetiap meja yang Anda
lakukan.
Setelah menyusun kembali data dalam berbagai tabel, di mana Anda akan meletakkan pusat distribusi Anda?

Sumber: “Europe,” NewMedia TrendWatch, diakses 1 Agustus 2012 (http://www.newmediatrendwatch.com/regional-overview/103-europe?


showall=1). Kurs EURO ke Dolar, X-Rates, diakses 28 Juli 2012 (http://www.x-rates.com/table/?from=EUR). “Historical Exchange Rates: EURO to Dollar,”
Oanda, diakses 28 Juli 2012 (http://www.oanda.com/currency/historical-rates/). Matt Creamer dan Rupal Parekh, “Mengapa Krisis Euro Juga Menjadi
Masalah Bisnis Anda,”Usia Periklanan, 23 Juli 2012, diakses 28 Juli 2012 (http://adage.com/article/news/euro-crisis-business- problem/236235/?
utm_source=daily_email&utm_medium=newsletter&utm_campaign=adage).
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 415

>Pameran 16-7 Diagram Pareto Keluhan Perbaikan MindWriter

800 100%
99%
95%

80%
600

Persentase keluhan perbaikan


Jumlah keluhan perbaikan

400 50%

0 0%
Masalah tidak Beberapa Telepon pengiriman Perbaikan

terselesaikan perbaikan mengakses menunda waktu


dibutuhkan menunda

Diagram Pareto
Diagram Pareto mendapatkan namanya dari seorang ekonom Italia abad ke-19. Dalam manajemen mutu,
JM Juran !pertama menerapkan konsep ini dengan mencatat bahwa hanya sedikit cacat vital yang menjelaskan sebagian
besar masalah yang dievaluasi untuk kualitas dan bahwa yang sepele dapat menjelaskan sisanya. Secara historis, ini dikenal
sebagai aturan 80/20—yaitu, peningkatan 80 persen dalam kualitas atau kinerja dapat diharapkan dengan menghilangkan
20 persen penyebab kualitas atau kinerja yang tidak dapat diterima.
Itu diagram pareto adalah diagram batang yang persentasenya berjumlah 100 persen. Data berasal
dari pilihan ganda, skala respons tunggal; sebuah pilihan ganda, skala jawaban ganda; atau jumlah
frekuensi kata (atau tema) dari analisis isi. Jawaban responden diurutkan dalam tingkat kepentingan yang
menurun, dengan tinggi batang dalam urutan menurun dari kiri ke kanan. Susunan gambar yang dihasilkan
mengungkapkan konsentrasi potensi peningkatan tertinggi dalam jumlah pengobatan paling sedikit.
Analisis keluhan pelanggan MindWriter digambarkan sebagai diagram Pareto pada Tampilan 16-7. Garis
frekuensi kumulatif dalam pameran ini menunjukkan bahwa dua masalah teratas (perbaikan tidak
menyelesaikan masalah pelanggan, dan produk dikembalikan beberapa kali untuk diperbaiki) menyumbang
80 persen dari persepsi layanan perbaikan yang tidak memadai.

plot kotak7
Itu petak kotak, atau plot kotak-dan-kumis, adalah teknik lain yang sering digunakan dalam analisis data
eksplorasi.8 Boxplot mengurangi detail tampilan batang dan daun dan memberikan gambar visual yang
berbeda dari lokasi distribusi, penyebaran, bentuk, panjang ekor, dan outlier. Boxplots adalah ekstensi dari
!ringkasan nomor-ve dari sebuah distribusi. Ringkasan ini terdiri dari median, kuartil atas dan bawah, dan
pengamatan terbesar dan terkecil. Median dan kuartil digunakan karena keduanyastatistik resisten.
Perlawanan adalah karakteristik yang “memberikan ketidakpekaan terhadap perilaku buruk yang
terlokalisasi dalam data.”9 Statistik resisten tidak terpengaruh oleh outlier dan hanya berubah sedikit
sebagai respons terhadap penggantian sebagian kecil dari kumpulan data.
Ingat diskusi tentang mean dan standar deviasi dalam Lampiran 15a. Sekarang asumsikan kita
mengambil kumpulan data [5,6,6,7,7,7,8,8,9] dan menghitung rata-ratanya. Rata-rata dari himpunan adalah
7; simpangan baku 1,22. Jika 9 diganti dengan 90, mean menjadi 16 dan standar deviasi meningkat menjadi
27,78. Mean sekarang dua kali lebih besar dari sebagian besar angka dalam distribusi, dan standar deviasi
416 >bagian IV Analisis dan Penyajian Data

>Pameran 16-8 Komponen Boxplot

Terkecil Terbesar
nilai yang diamati nilai yang diamati
dalam 1,5 IQR dalam 1,5 IQR
engsel bawah dari engsel atas
Ekstrim
Di luar Di luar atau jauh

nilai Cambang nilai di luar


atau outlier median atau outlier nilai

1.5 IQR IQR 1.5 IQR

Pagar luar Pagar bagian dalam Engsel: Engsel: Pagar bagian dalam Pagar luar
engsel bawah engsel bawah Menurunkan Atas 1,5 IQR plus 3 IQR plus
dikurangi dikurangi kuartil kuartil engsel atas engsel atas
3 IQR 1.5 IQR
50% dari
diamati
nilai-nilai adalah

dalam
kotak

lebih dari 22 kali ukuran aslinya. Mengubah hanya satu dari sembilan nilai telah mengganggu
lokasi dan menyebarkan ringkasan ke titik di mana mereka tidak lagi mewakili delapan nilai
lainnya. Baik mean dan standar deviasi dipertimbangkanstatistik tidak tahan; mereka rentan
terhadap efek nilai ekstrim di bagian ekor distribusi dan tidak mewakili nilai tipikal dengan baik
di bawah kondisi asimetri. Standar deviasi sangat bermasalah karena dihitung dari kuadrat
deviasi dari mean.10 Sebaliknya, median dan kuartil sangat resisten terhadap perubahan. Ketika
kami mengubah 9 menjadi 90, median tetap di 7 dan kuartil bawah dan atas masing-masing
tetap di 6 dan 8. Karena sifat kuartil, hingga 25 persen data dapat dibuat ekstrem tanpa
mengganggu median, komposisi persegi panjang plot, atau kuartil itu sendiri. Karakteristik
resistensi ini dimasukkan ke dalam konstruksi boxplot.
Boxplot dapat dibuat dengan mudah dengan tangan atau dengan program komputer. Bahan dasar dari plot
adalah:

1. Plot persegi panjang yang mencakup 50 persen dari nilai data.


2. Garis tengah (atau notasi lain) menandai median dan melewati lebar kotak.
3. Ujung-ujung kotak, disebut engsel.
4. "Kumis" yang memanjang dari engsel kanan dan kiri ke nilai terbesar dan terkecil.11
Nilai-nilai ini dapat ditemukan dalam 1,5 kali rentang interkuartil (IQR) dari kedua tepi kotak. Komponen-
komponen ini dan hubungannya ditunjukkan pada Tampilan 16-8.
Saat Anda memeriksa data, penting untuk memisahkan outlier yang sah dari kesalahan dalam pengukuran,
pengeditan, pengkodean, dan entri data. Pencilan, titik data yang melebihi 11.5 rentang interkuartil,
mencerminkan kasus yang tidak biasa dan merupakan sumber informasi penting untuk penelitian. Mereka
ditampilkan atau diberi perlakuan statistik khusus, atau bagian lain dari kumpulan data kadang-kadang dilindungi
dari pengaruhnya. Pencilan yang merupakan kesalahan entri harus dikoreksi atau dihapus selama pengeditan.
Tampilan 16-9 merangkum beberapa perbandingan yang membantu analis. Boxplots adalah alat diagnostik
yang sangat baik, terutama ketika dibuat grafik pada skala yang sama. Dua plot atas dalam pameran keduanya
simetris, tetapi yang satu lebih besar dari yang lain. Lebar kotak yang lebih besar terkadang digunakan ketika
variabel kedua, dari skala pengukuran yang sama, berasal dari ukuran sampel yang lebih besar. Lebar kotak harus
proporsional dengan akar kuadrat dari ukuran sampel, tetapi tidak semua program plot memperhitungkan hal ini.12
Distribusi miring ke kanan dan ke kiri dan distribusi dengan penyebaran yang berkurang juga disajikan dengan
jelas dalam perbandingan plot. Akhirnya, kelompok dapat dibandingkan melalui beberapa plot. Satu
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 417

>Pameran 16-9 Diagnostik dengan Boxplot

Simetris

Simetris-
ukuran relatif yang lebih besar
sebanding dengan ukuran sampel

Miring kanan

Miring ke kiri

Penyebaran kecil

Berlekuk di median untuk uji


kesetaraan median populasi

variasi, di mana takik di median menandai interval kepercayaan untuk menguji kesetaraan median
kelompok, membawa kita selangkah lebih dekat ke pengujian hipotesis.13 Di sini sisi-sisi kotak kembali ke
lebar penuh pada interval kon!dens atas dan bawah. Ketika interval tidak tumpang tindih, kita dapat yakin,
pada tingkat keyakinan tertentu, bahwa median dari dua populasi berbeda.
Dalam Tampilan 16-10, beberapa boxplot membandingkan !ve sektor pelanggan PrimeSell dengan data pembelian
tahunan rata-rata mereka. Kesan keseluruhan adalah salah satu masalah potensial bagi analis: tidak setara

>Pameran 16-10 Perbandingan Boxplot Sektor Pelanggan

2.500

2.000
Laba bersih ($, jutaan)

1.500

1.000

500

– 500

Keuangan Kesehatan Teknologi tinggi Pertanggungan Ritel


Sektor
418 >bagian IV Analisis dan Penyajian Data

varians, skewness, dan outlier ekstrim. Perhatikan kesamaan profil !nance dan retailing dibandingkan dengan
sektor teknologi tinggi dan asuransi. Jika uji hipotesis direncanakan, pemeriksaan lebih lanjut dari plot ini untuk
setiap sektor akan membutuhkan tampilan batang dan daun dan ringkasan !ve-number. Dari sini, kita dapat
membuat keputusan tentang jenis tes yang akan dipilih untuk analisis konfirmasi (lihat Bab 17,
18, dan Pusat Pembelajaran Online melengkapi Analisis Multivariat, Tinjauan).

Pemetaan
Semakin banyak data peserta yang melekat pada dimensi geografis mereka karena perangkat lunak Sistem
Informasi Geografis (SIG) dan alat pengukur koordinat menjadi lebih terjangkau dan lebih mudah digunakan. Pada
dasarnya GIS bekerja dengan menghubungkan kumpulan data satu sama lain dengan setidaknya satu bidang data
umum (misalnya, alamat jalan rumah tangga). GIS memungkinkan peneliti untuk menghubungkan variabel target
dan klasifikasi dari survei ke database berbasis geografis tertentu seperti data Sensus AS, untuk mengembangkan
pemahaman yang lebih kaya tentang sikap dan perilaku sampel. Ketika data identifikasi frekuensi radio (RFID)
menjadi lebih umum, banyak data perilaku akan dapat terhubung dengan database baru yang kaya secara
geografis ini.
Cara paling umum untuk menampilkan data tersebut adalah dengan peta. Warna dan pola yang menunjukkan
pengetahuan, sikap, perilaku, atau susunan data demografis dilapiskan di atas peta jalan (!nest-level GIS), peta grup blok,
atau peta kabupaten, negara bagian, atau negara untuk membantu mengidentifikasi lokasi terbaik untuk toko berdasarkan
demografi, psikografik, dan data segmentasi tahap kehidupan. Toko bunga menyusun informasi respons promosi secara
geografis dan menggunakan peta untuk merencanakan promosi yang ditargetkan. Peneliti konsumen dan bisnis-ke-bisnis
menggunakan pemetaan data tentang kepemilikan, tingkat penggunaan, dan sensitivitas harga dalam merencanakan
peluncuran produk baru secara geografis. Meskipun ini merupakan pilihan yang menarik untuk analisis eksplorasi,
dibutuhkan perangkat lunak dan perangkat keras khusus, serta keahlian untuk mengoperasikannya. Siswa didorong untuk
mengambil

Terkadang tidak ada cara yang lebih baik untuk menampilkan data selain dengan peta. Sementara pada tahun 2009, penyitaan rumah di Amerika Serikat
mencapai titik tertinggi sepanjang masa, pada tahun 2012 beberapa pasar mulai pulih. Sekilas, saat data geospasial dipetakan, Anda dapat mengetahui
negara bagian mana yang mengalami rebound. Peta dari RealtyTrac ini menunjukkan daftar penyitaan rumah, menurut negara bagian untuk Mei 2012.

www.realtytrac.com/trendcenter
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 419

>jeprettembakan
Digital Natives Mengalihkan Perhatian Hampir Dua Kali Lebih Banyak
sebagai Mitra Imigran Digital mereka Their

Sebuah studi yang dilakukan oleh Time Warner's Time Inc. dan waktu. Sistem ini menyediakan pengukuran keterlibatan emosional yang
dilakukan oleh Boston's Innerscope Research memberikan dapat diukur. Studi ini dirancang untuk memahami peran yang dimainkan
dukungan tambahan bahwa kita berbeda dari generasi media dalam kehidupan nyata dan secara nyata. Penduduk asli digital
sebelumnya, terutama dalam hal konsumsi media—waktu yang memiliki rentang perhatian yang jauh lebih pendek, mengalihkan fokus

dihabiskan dengan media, perhatian yang diberikan pada pesan mereka rata-rata 27 kali per jam, sementara imigran digital beralih hanya 17
media dan di seluruh platform media , serta konsekuensi kali per jam.
emosional dari pola perilaku ini. “Temuan penelitian ini berarti standar [kreatif] ditetapkan
Tiga puluh subjek, setengahnya adalah penduduk asli digital lebih tinggi untuk pengiklan,” kata CEO Innerscope Research, Dr.
(dibesarkan dengan media digital) dan setengahnya adalah imigran Carl Marci. “Saya paling khawatir tentang tindakan menantang
digital (yang datang ke digital di masa dewasa tetapi tumbuh dengan untuk menangkap perhatian dan respons emosional audiens
media tradisional), dipantau saat mereka berinteraksi dengan media target saya, karena ini hampir seperti beralih dari menembak ikan
sepanjang hari normal mereka. —sebesar total 300 jam data waktu dalam tong ke [menembak] ikan kecil. Targetnya menjadi lebih
nyata. Setiap orang memakai kacamata dengan kamera tertanam cepat, dan peluang untuk menangkapnya menjadi lebih kecil.”
untuk memantau platform media apa (TV, komputer, tablet, ponsel Jenis penelitian apa yang dilakukan di sini? Masalah desain apa
pintar) yang dia gunakan dan kontennya saat itu. Sistem Pemantauan yang dibahas dalam penelitian ini? Konsep dan konstruksi apa
Biometrik Innerscope memantau respons sistem saraf otonom dengan yang mungkin diukur?
sabuk noninvasif yang dikenakan di sekitar tulang rusuk bawah peserta www.timewarner.com; www.innerscope.com
selama tidak bekerja

Sepanjang bagian ini kami telah mengeksploitasi teknik visual analisis data eksplorasi untuk melihat
melampaui ringkasan numerik dan mendapatkan wawasan tentang pola data. Beberapa pendekatan telah
menekankan perlunya matematika tingkat lanjut, dan semuanya memiliki daya tarik intuitif bagi analis.
Ketika cara yang lebih umum untuk meringkas lokasi, penyebaran, dan bentuk telah menyampaikan
gambaran data yang tidak memadai, kami telah menggunakan statistik yang lebih tahan untuk melindungi
kami dari efek skor ekstrem dan kesalahan sesekali. Kami juga telah menekankan nilai transformasi skala
asli data selama analisis awal daripada pada titik pengujian hipotesis.

> Tabulasi Silang


Bergantung pada pertanyaan manajemen, kita dapat memperoleh wawasan berharga dengan memeriksa data
dengan tabulasi silang. Tabulasi silang adalah teknik untuk membandingkan data dari dua atau lebih variabel
kategoris seperti jenis kelamin dan pemilihan oleh perusahaan seseorang untuk penugasan di luar negeri. Tabulasi
silang digunakan dengan variabel demografis dan variabel target penelitian (pertanyaan pengukuran yang
dioperasionalkan). Teknik ini menggunakan tabel yang memiliki baris dan kolom yang sesuai dengan level atau
nilai kode dari setiap kategori variabel. Tampilan 16-11 adalah contoh tabulasi silang yang dihasilkan komputer.
Tabel ini memiliki dua baris untuk jenis kelamin dan dua kolom untuk pemilihan tugas. Kombinasi variabel dengan
nilainya menghasilkan empat sel. Setiapsel berisi hitungan kasus klasifikasi gabungan dan juga baris, kolom, dan
persentase total. Jumlah sel baris dan sel kolom sering digunakan untuk menunjukkan ukuran tabel, seperti pada 2
ini3 2 meja. Sel-sel secara individual diidentifikasi dengan nomor baris dan kolomnya, seperti yang diilustrasikan.
Jumlah baris dan kolom, disebutmarginal, muncul di bagian bawah dan kanan "margin" tabel. Mereka
menunjukkan jumlah dan persentase dari baris dan kolom yang terpisah.

Tabulasi silang adalah langkah pertama untuk mengidentifikasi hubungan antar variabel. Ketika tabel
dibuat untuk pengujian statistik, kami menyebutnyatabel kontingensi, dan tes menentukan apakah
420 >bagian IV Analisis dan Penyajian Data

>Pameran 16-11 Tabulasi Silang SPSS Gender Berdasarkan Kesempatan Penugasan di Luar Negeri

TUGAS LUAR NEGERI

Sel Menghitung

Baris Pct Iya Tidak


kandungan
Kol Pct Baris
Tot Pct 1 2 Total

JENIS KELAMIN 22 40 62
Pria 1 35.5 64.5 62.0
78.6 55.6
22.0 40.0

6 32 38
marjinal
Perempuan 2 15.8 84.2 38.0
21.4 44.4
Sel 2, 1 6.0 32.0
(baris 2, kolom 1)

Kolom 28 72 100
Total 28.0 72.0 1 00.0

variabel klasifikasi adalah independen satu sama lain (lihat chi-kuadrat di Bab 17). Tentu saja, tabel mungkin
lebih besar dari 23 2.

Penggunaan Persentase
Persentase melayani dua tujuan dalam penyajian data. Pertama, mereka menyederhanakan data dengan mereduksi semua
angka menjadi rentang dari 0 hingga 100. Kedua, mereka menerjemahkan data ke dalam bentuk standar, dengan basis
100, untuk perbandingan relatif. Dalam situasi sampling, jumlah kasus yang termasuk dalam kategori tidak ada artinya
kecuali jika dikaitkan dengan beberapa basis. Jumlah 28 penerima tugas di luar negeri memiliki sedikit arti kecuali kita tahu
itu dari sampel 100. Menggunakan yang terakhir sebagai dasar, kami menyimpulkan bahwa 28 persen dari sampel
penelitian ini memiliki tugas di luar negeri.
Meskipun hal di atas bermanfaat, bahkan lebih berguna ketika masalah penelitian memerlukan perbandingan
beberapa distribusi data. Asumsikan data yang dilaporkan sebelumnya dikumpulkan lima tahun yang lalu dan
penelitian ini memiliki sampel 1.500, di mana 360 dipilih untuk penugasan di luar negeri. Dengan menggunakan
persentase, kita dapat melihat hubungan relatif dan pergeseran data (lihat Tampilan 16-12).

>Pameran 16-12 Perbandingan Persentase dalam Studi Tabulasi Silang oleh


Luar Negeri! Tugas

Belajar 1 Belajar 2

TUGAS LUAR NEGERI TUGAS LUAR NEGERI

Menghitung Menghitung

Baris Pct Iya Tidak Baris Pct Iya Tidak

Kol Pct Baris Kol Pct Baris


Tot Pct 1 2 Total Tot Pct 1 2 Total

JENIS KELAMIN 22 40 62 JENIS KELAMIN 225 675 900


Pria 1 35.5 64.5 62.0 Pria 1 25.0 75.0 60.0
78.6 55.6 62.5 59.2
22.0 40.0 15.0 45.0

6 32 38 135 465 600


Perempuan 2 15.8 84.2 38.0 Perempuan 2 22.5 77.5 40.0
21.4 44.4 37.5 40.8
6.0 32.0 9.0 31.0

Kolom 28 72 100 Kolom 360 1140 1500


Total 28.0 72.0 100.0 Total 24.0 76.0 100.0
>bab 16 Menjelajahi, Menampilkan, dan Meneliti Data 421

>jeprettembakan
Memberdayakan Excel

Saat mengembangkan tampilan data, beberapa analis riset tidak membuat tampilan, seperti Matriks GE yang ditampilkan di sini.
beralih ke paket perangkat lunak statistik tugas berat seperti SPSS atau Pengguna dapat mempraktikkan teknik pada data sampel dari
SAS, tetapi ke spreadsheet di desktop mereka. Dua profesor giat dari perusahaan nyata atau memasukkan datanya sendiri.
Pennsylvania State University, Gary L. Lilien dan Arvind Rangaswamy, Plug-in saat ini memfasilitasi tampilan untuk peramalan, analisis
telah bekerja sama untuk mengembangkan plug-in Microsoft Excel conjoint, analisis pilihan pelanggan, analisis nilai seumur hidup
yang memberdayakan spreadsheet untuk membuat beberapa pelanggan, perencanaan Matriks Portofolio GE, analisis pemosisian,
tampilan yang diinginkan secara umum hanya dengan beberapa klik analisis alokasi sumber daya, desain produk dan layanan baru, dan
mouse. “Dengan produk perangkat lunak ini, pengguna akan dapat analisis segmentasi/penargetan—semua analisis umum latihan untuk
menggunakan kekuatan analitik kelas dunia dari dalam Excel, sebuah manajer yang terlibat dalam teknik pemasaran. Berkat Lilien dan
antarmuka yang sudah nyaman bagi mereka,” klaim situs web mereka. Rangaswamy, beberapa teknik tampilan yang canggih telah
Setiap plug-in menawarkan template unik untuk entri data tempat disederhanakan secara signifikan.
petunjuk pembuatan bagan disematkan
tered, serangkaian panduan windows untuk

Dengan tabel dua dimensi, pemilihan baris atau kolom akan menonjolkan distribusi atau perbandingan
tertentu. Hal ini menimbulkan pertanyaan tentang arah mana persentase harus dihitung. Sebagian besar
program komputer menawarkan opsi untuk menyajikan persentase di kedua arah dan menukar baris dan
kolom tabel. Tetapi dalam situasi di mana satu variabel dihipotesiskan sebagai penyebab yang diduga,
dianggap mempengaruhi atau memprediksi respons, atau hanya mendahului variabel lain, kami memberi
label variabel independen. Persentase kemudian harus dihitung ke arah variabel ini. Jadi, jika variabel bebas
ditempatkan pada baris, pilih persentase baris; jika ada di kolom, pilih persentase kolom. Ke arah mana
persentase harus dijalankan dalam contoh sebelumnya? Jika hanya persentase kolom yang dilaporkan, kami
menyiratkan bahwa status penugasan memiliki beberapa efek pada jenis kelamin. Ini tidak masuk akal.
Ketika persentase dilaporkan dalam baris, implikasinya adalah bahwa gender memengaruhi pemilihan
untuk tugas di luar negeri.
Perhatian harus diberikan dalam menafsirkan persentase dari tabel. Perhatikan kembali data pada
Exhibit#16-12. Dari penelitian pertama hingga kedua, terlihat bahwa persentase perempuan yang dipilih females

Anda mungkin juga menyukai