Information Quality, Ron S Kenett, Galit Shmueli, Ron (001-150) - 1

Machine Translated by Google

Kualitas Informasi
Kualitas Informasi
Potensi Data dan Analisis untuk
Menghasilkan Pengetahuan
Ron S. Kenett
KPA, Israel dan Universitas Turin, Italia
Galit Shmueli
Universitas Nasional Tsing Hua, Taiwan
Edisi ini pertama kali diterbitkan pada tahun 2017
© 2017 John Wiley & Sons, Ltd
Kantor terdaftar
John Wiley & Sons, Ltd, The Atrium, Gerbang Selatan, Chichester, Sussex Barat, PO19 8SQ, Inggris Raya
Untuk rincian tentang kantor editorial global kami, untuk layanan pelanggan dan untuk informasi tentang cara mengajukan
permohonan izin untuk menggunakan kembali materi hak cipta dalam buku ini, silakan lihat situs web kami di www.wiley.com.
Hak penulis untuk diidentifikasi sebagai penulis karya ini telah ditegaskan sesuai dengan Undang-Undang Hak Cipta, Desain,
dan Paten tahun 1988.
Seluruh hak cipta. Tidak ada bagian dari publikasi ini yang boleh direproduksi, disimpan dalam sistem pengambilan, atau
ditransmisikan, dalam bentuk apa pun atau dengan cara apa pun, elektronik, mekanis, fotokopi, rekaman, atau lainnya, kecuali
sebagaimana diizinkan oleh Undang-Undang Hak Cipta, Desain, dan Paten Inggris tahun 1988, tanpa izin sebelumnya dari penerbit.
Wiley juga menerbitkan bukunya dalam berbagai format elektronik. Beberapa konten yang muncul di media cetak mungkin tidak
tersedia di buku elektronik.
Sebutan yang digunakan oleh perusahaan untuk membedakan produknya sering kali diklaim sebagai merek dagang. Semua nama
merek dan nama produk yang digunakan dalam buku ini adalah nama dagang, merek layanan, merek dagang atau merek dagang
terdaftar dari pemiliknya masing-masing. Penerbit tidak terkait dengan produk atau vendor apa pun yang disebutkan dalam buku ini.
Batas Tanggung Jawab/Penafian Garansi: Meskipun penerbit dan penulis telah melakukan upaya terbaik mereka dalam
mempersiapkan buku ini, mereka tidak membuat pernyataan atau jaminan sehubungan dengan keakuratan atau kelengkapan isi buku
ini dan secara khusus menyangkal jaminan tersirat atas kelayakan untuk diperdagangkan. atau kesesuaian untuk tujuan tertentu.
Buku ini dijual dengan pemahaman bahwa penerbit tidak terlibat dalam memberikan layanan profesional dan baik penerbit maupun
penulis tidak bertanggung jawab atas kerugian yang timbul karenanya. Jika nasihat profesional atau bantuan ahli lainnya diperlukan,
jasa profesional yang kompeten harus dicari.
Perpustakaan Kongres Mengkatalogkan Data dalam Publikasi
Nama: Kenett, Ron. | Shmueli, Galit, 1971–

Judul: Kualitas informasi : potensi data dan analitik untuk menghasilkan pengetahuan /
Ron S. Kenett, Dr.
Deskripsi: Chichester, Sussex Barat : John Wiley & Sons, Inc., 2017. | Termasuk referensi bibliografi
dan indeks.
Pengidentifikasi: LCCN 2016022699| ISBN 9781118874448 (kain) | ISBN 9781118890653 (epub)
Subyek: LCSH: Penambangan data. | Statistik matematika.
Klasifikasi: LCC QA276 .K4427 2017 | DDC 006.3/12–dc23
Catatan LC tersedia di https://lccn.loc.gov/2016022699
Catatan katalog untuk buku ini tersedia dari British Library.
Ditetapkan dalam 10/12pt Times oleh SPi Global, Pondicherry, India
10 9 8 7 6 5 4 3 2 1
Untuk Sima; anak-anak kami Dolav, Ariel, Dror, dan Yoed; dan keluarga mereka dan terutama
anak-anak mereka, Yonatan, Alma, Tomer, Yadin, Aviv, Gili, Matan, dan Eden, merekalah yang
menjadi kebanggaan dan motivasi saya.
Dan untuk mengenang sahabat saya, Roberto Corradetti, yang mendedikasikan karirnya pada
statistik terapan.
RSK
Kepada keluarga saya, mentor, kolega, dan siswa yang telah mencetuskan dan memupuk
penciptaan pengetahuan baru dan pemikiran inovatif
GS
Isi
Kata pengantar ix
Tentang Penulis xi
Kata pengantar xii
Kutipan tentang buku itu xv
Tentang situs web pendamping xviii
BAGIAN I KUALITAS INFORMASI

KERANGKA 1
1 Pengantar kualitas informasi 3
2 Kualitas tujuan, kualitas data, dan kualitas analisis 18
3 Dimensi kualitas informasi dan penilaian InfoQ 31
4 InfoQ pada tahap desain penelitian 53
5 InfoQ pada tahap pengumpulan postdata 67
BAGIAN II APLIKASI InfoQ 79

6 Pendidikan 81
7 Survei pelanggan 109
8 Kesehatan 134
9 Manajemen risiko 160
10 Statistik resmi 181

viii Isi
BAGIAN III PELAKSANAAN InfoQ 219

11 InfoQ dan penelitian yang dapat direproduksi 221
12 InfoQ dalam proses review publikasi ilmiah 234
13 Mengintegrasikan InfoQ ke dalam program analisis ilmu data,

kursus metode penelitian, dan banyak lagi 252
14 Dukungan InfoQ dengan R 265
15 Dukungan InfoQ dengan Minitab 295
16 Dukungan InfoQ dengan JMP 324
Indeks 351
Kata pengantar
Saya sering diundang untuk menilai proposal penelitian. Pertanyaan-pertanyaan yang harus saya ajukan pada
diri saya sendiri dalam penilaian ini antara lain: Apakah tujuan-tujuan tersebut dinyatakan dengan cukup jelas?
Apakah penelitian tersebut mempunyai peluang yang baik untuk mencapai tujuan yang telah ditetapkan?
Akankah para peneliti dapat memperoleh data berkualitas yang memadai untuk proyek tersebut? Apakah
metode analisisnya memadai untuk menjawab pertanyaan? Dan seterusnya. Pertanyaan-pertanyaan ini sangat
mendasar, tidak hanya untuk proposal penelitian, namun juga untuk studi empiris – untuk studi apa pun yang
bertujuan untuk mengekstraksi informasi berguna dari bukti atau data. Namun hal ini jarang diungkapkan
secara terbuka. Mereka cenderung bersembunyi di belakang, dengan kemampuan muncul ke depan untuk
menyerang orang-orang yang gagal memikirkannya.
Pertanyaan-pertanyaan ini persis seperti pertanyaan-pertanyaan yang ditangani oleh kerangka InfoQ –
Kualitas Informasi –. Menjawab pertanyaan-pertanyaan tersebut memungkinkan badan-badan pemberi dana,
perusahaan, lembaga statistik nasional, dan organisasi-organisasi lain untuk menentukan peringkat proposal,
menyeimbangkan biaya dengan kemungkinan keberhasilan, dan juga untuk mengidentifikasi kelemahan-
kelemahan sehingga meningkatkan proposal dan peluang mereka dalam menghasilkan informasi yang berguna
dan berharga. Dalam konteks meningkatnya keterbatasan sumber daya keuangan, dana harus dibelanjakan
dengan baik, sehingga memaksimalkan peluang penelitian untuk mendapatkan informasi yang berguna
menjadi semakin penting. Kerangka kerja InfoQ menyediakan struktur untuk memaksimalkan peluang ini.
Sekilas melihat rak statistik di perpustakaan teknis mana pun akan mengungkapkan bahwa sebagian
besar buku berfokus secara sempit pada rincian metode analisis data. Hal yang sama berlaku untuk hampir
semua pengajaran statistika. Semuanya baik-baik saja – tentu saja penting untuk mencakup materi tersebut.
Lagi pula, tanpa pemahaman tentang alat-alat dasar, analisis dan ekstraksi pengetahuan tidak akan mungkin
dilakukan. Namun fokus yang sempit seperti ini biasanya tidak mampu menempatkan penelitian tersebut dalam
konteks yang lebih luas, sehingga jika tidak dilakukan maka peluang keberhasilannya akan berkurang. Buku
ini akan membantu memperbaiki pengawasan tersebut. Hal ini akan memberikan pembaca wawasan dan
pemahaman tentang bagian penting lain dari analisis empiris, bagian yang sangat penting jika penelitian ingin
menghasilkan kesimpulan yang valid, akurat, dan berguna.
Namun buku ini lebih dari sekadar memberikan kerangka kerja. Hal ini juga menggali rincian aspek-aspek
analisis data yang diabaikan ini. Bab ini membahas fakta bahwa data yang sama mungkin berkualitas tinggi
untuk satu tujuan dan rendah untuk tujuan lain, dan bahwa kecukupan suatu analisis bergantung pada data
dan tujuannya, serta bergantung pada aspek lain yang kurang jelas, seperti aksesibilitas, kelengkapan, dan
kerahasiaan data. Dan itu mengilustrasikan ide-ide dengan serangkaian aplikasi yang mencerahkan.
Dengan semakin banyaknya komputer yang memikul beban mekanis dalam analisis data, peluang
semakin besar bagi kita untuk mengalihkan perhatian kita ke tingkat yang lebih tinggi
x Kata Pengantar
aspek analisis: perumusan pertanyaan yang tepat, pertimbangan kualitas data untuk menjawab pertanyaan-pertanyaan
tersebut, pemilihan metode terbaik untuk mencapai tujuan, dengan mempertimbangkan keseluruhan konteks analisis.
Dengan melakukan hal ini, kami meningkatkan kualitas kesimpulan yang kami peroleh. Dan hal ini, pada gilirannya, akan
menghasilkan keputusan yang lebih baik – bagi para peneliti, pembuat kebijakan, manajer, dan pihak lainnya. Buku ini akan
memberikan alat penting dalam proses ini.
David J. Tangan
Perguruan Tinggi Kekaisaran London

Tentang Penulis
Ron S. Kenett adalah ketua Grup KPA; profesor riset, Universitas Turin, Italia; profesor
tamu di Institut Penelitian Obat Universitas Ibrani, Yerusalem, Israel dan di Fakultas
Ekonomi, Universitas Ljubljana, Slovenia.
Dia adalah mantan presiden Asosiasi Statistik Israel (ISA) dan Jaringan Statistik Bisnis
dan Industri Eropa (ENBIS). Ron menulis dan memimpin lebih dari 200 makalah dan
12 buku dengan berbagai topik mulai dari statistik industri, survei pelanggan,
pengendalian kualitas multivariat, manajemen risiko, biostatistik dan metode statistik
dalam perawatan kesehatan hingga sistem penilaian kinerja dan model manajemen
terintegrasi. Grup KPA yang ia bentuk pada tahun 1990 adalah perusahaan Israel
terkemuka yang berfokus pada menghasilkan wawasan melalui analisis dengan
pelanggan internasional seperti hp, 3M, Teva, Perrigo, Roche, Intel, Amdocs, Stratasys,
Israel Aircraft Industries, Israel Electricity Corporation, ICL, start-up, bank, dan
penyedia layanan kesehatan. Ia dianugerahi Medali Greenfield 2013 oleh Royal
Statistical Society sebagai pengakuan atas keunggulan dalam kontribusinya terhadap
penerapan statistik. Di antara banyak aktivitasnya, dia adalah anggota Dewan
Penasihat Publik Nasional untuk Statistik Israel; anggota Dewan Akademik Eksekutif,
Wingate Academic College; dan anggota dewan di beberapa perusahaan farmasi dan produk Int
Galit Shmueli adalah profesor terkemuka di Institut Ilmu Pelayanan Universitas

Nasional Tsing Hua. Dia dikenal karena penelitian dan pengajarannya di bidang
analisis bisnis, dengan fokus pada metode statistik dan penambangan data dalam
sistem informasi dan perawatan kesehatan. Dia telah menulis dan ikut menulis lebih
dari 70 artikel jurnal, bab buku, buku, dan buku teks, termasuk Penambangan Data
untuk Analisis Bisnis, Pemodelan Lelang Online , dan Memulai Analisis Bisnis.
Penelitiannya dipublikasikan di jurnal terkemuka di bidang statistik, manajemen,
pemasaran, sistem informasi, dan banyak lagi. Profesor Shmueli telah merancang dan
memberikan instruksi pada kursus dan program analisis bisnis sejak tahun 2004 di
Universitas Maryland, Sekolah Bisnis India, Statistics.com, dan Universitas Nasional
Tsing Hua, Taiwan. Dia juga pernah mengajar mata kuliah statistika teknik di Institut
Teknologi Israel dan Universitas Carnegie Mellon.
Kata pengantar
Buku ini membahas tentang pendekatan strategis dan taktis dalam analisis data dimana memberikan
nilai tambah dengan mengubah angka menjadi wawasan adalah tujuan utama dari studi empiris.
Dalam pengalaman lama kami sebagai ahli statistik terapan dan peneliti penambangan data (“ilmuwan
data”), kami berfokus pada pengembangan metode analisis data dan menerapkannya pada masalah
nyata. Namun, berdasarkan pengalaman kami, analisis data adalah bagian dari proses yang lebih
besar yang dimulai dengan perolehan masalah yang terdiri dari pendefinisian masalah yang tidak
terstruktur dan diakhiri dengan keputusan mengenai item tindakan dan intervensi yang mencerminkan
dampak sebenarnya dari sebuah penelitian.
Pada tahun 2006, penulis pertama menerbitkan makalah tentang bias pendidikan statistik di
mana, biasanya, dalam kursus statistik dan analisis data, hanya metode statistik yang diajarkan, tanpa
mengacu pada proses analisis statistik (Kennett dan Thyregod, 2006).
Pada tahun 2010, penulis kedua menerbitkan makalah yang menunjukkan perbedaan antara
pemodelan statistik yang ditujukan untuk tujuan prediksi versus pemodelan yang dirancang untuk
menjelaskan efek sebab akibat (Shmueli, 2010), implikasinya adalah bahwa tujuan suatu penelitian
harus mempengaruhi cara penelitian dilakukan. mulai dari pengumpulan data hingga pra-pemrosesan
data, eksplorasi, pemodelan, validasi, dan penerapan. Makalah terkait (Shmueli dan Koppius, 2011)
berfokus pada peran analisis prediktif dalam pembangunan teori dan pengembangan ilmiah dalam
bidang penelitian ilmu sosial dan manajemen yang didominasi penjelasan.
Pada tahun 2014, kami menerbitkan “Tentang Kualitas Informasi” (Knett dan Shmueli, 2014),
sebuah makalah yang dirancang untuk meletakkan dasar bagi pendekatan holistik terhadap analisis
data (menggunakan pemodelan statistik, pendekatan penambangan data, atau metode analisis data
lainnya) dengan menyusun bahan utama yang mengubah angka menjadi informasi.
Kami menyebut pendekatan kualitas informasi (InfoQ) dan mengidentifikasi empat komponen InfoQ
dan delapan dimensi InfoQ.
Tesis utama kami adalah bahwa analisis data, dan khususnya bidang statistik dan ilmu data, perlu
beradaptasi dengan tantangan dan teknologi modern dengan mengembangkan metode terstruktur
yang memberikan pandangan siklus hidup yang luas, mulai dari angka hingga wawasan. Pandangan
siklus hidup ini perlu difokuskan untuk menghasilkan InfoQ sebagai tujuan utama (untuk informasi
lebih lanjut lihat Kenett, 2015).
Buku ini, Kualitas Informasi: Potensi Data dan Analisis untuk Menghasilkan Pengetahuan,
menawarkan pembahasan ekstensif tentang InfoQ dan kerangka InfoQ. Hal ini bertujuan untuk
memotivasi para peneliti untuk mengembangkan lebih lanjut elemen InfoQ dan siswa dalam program
yang mengajarkan mereka bagaimana memastikan pekerjaan analitik atau statistik mereka
menghasilkan informasi berkualitas tinggi.
Kata Pengantar xiii
Mengatasi komunitas campuran ini merupakan sebuah tantangan. Di satu sisi, kami ingin memberikan
pertimbangan akademis, dan di sisi lain, kami ingin menyajikan contoh dan kasus yang memotivasi
mahasiswa dan praktisi serta memberi mereka panduan dalam proyek spesifik mereka.
Kami mencoba mencapai gabungan tujuan ini dengan menggabungkan Bagian I, yang sebagian besar merupakan tujuan utama
metodologis, dengan Bagian II yang didasarkan pada contoh dan studi kasus.
Di Bagian III, kami membahas topik tambahan yang relevan dengan InfoQ seperti penelitian yang
dapat direproduksi, tinjauan publikasi penelitian ilmiah dan terapan, penggabungan InfoQ dalam program
pengembangan akademik dan profesional, dan bagaimana tiga platform perangkat lunak terkemuka, R,
MINITAB, dan JMP mendukung Implementasi InfoQ.
Para peneliti yang tertarik dengan metode dan strategi statistik terapan kemungkinan besar akan
memulai di Bagian I dan kemudian melanjutkan ke Bagian II untuk melihat ilustrasi kerangka InfoQ yang
diterapkan di berbagai domain. Praktisi dan siswa yang mempelajari cara mengubah angka menjadi
informasi dapat memulai dari bab yang relevan di Bagian II dan kembali ke Bagian I.
Seorang pengajar atau perancang kursus analisis data, statistik terapan, atau ilmu data dapat
memanfaatkan contoh di Bagian II dan mengkonsolidasikan pendekatan dengan mencakup Bab 13 dan
bab-bab di Bagian I. Bab 13 tentang “Mengintegrasikan InfoQ ke dalam ilmu data program analitik, kursus
metode penelitian, dan banyak lagi” disiapkan secara khusus untuk audiens ini. Kami juga mengembangkan
lima studi kasus yang dapat digunakan oleh guru sebagai latihan penilaian InfoQ berbasis rating (tersedia
di http://infoq.
galitshmueli.com/class-assignment).
Dalam pengembangan InfoQ, kami mendapat banyak masukan dari banyak pihak. Secara khusus,
kami ingin mengucapkan terima kasih atas komentar mendalam dari Sir David Cox, Shelley Zacks, Benny
Kedem, Shirley Coleman, David Banks, Bill Woodall, Ron Snee, Peter Bruce, Shawndra Hill, Christine
Anderson Cook, Ray Chambers, Fritz Sheuren, Ernest Mandor, Philip Stark, dan David Steinberg. Motivasi
untuk menerapkan InfoQ pada review makalah (Bab 12) berasal dari komentar Ross Sparks yang menulis
kepada kami: “Saya sangat menyukai kerangka kerja Anda untuk mengevaluasi kualitas informasi dan
saya sudah mulai menggunakannya untuk menilai makalah yang saya minta. untuk meninjau. Khususnya
makalah yang diterapkan.” Dalam mempersiapkan materi ini, kami memanfaatkan masukan editorial
komprehensif dari Raquelle Azran dan Noa Shmueli yang dengan murah hati memberi kami keahlian
mereka yang sangat berharga—kami ingin mengucapkan terima kasih dan penghargaan atas bantuan
mereka dalam meningkatkan bahasa dan gaya teks.
Tiga bab terakhir disumbangkan oleh rekan-rekan. Mereka menciptakan jembatan antara teori dan
praktik yang menunjukkan bagaimana InfoQ didukung oleh R, MINITAB, dan JMP. Kami berterima kasih
kepada penulis bab-bab ini, Silvia Salini, Federica Cugnata, Elena Siletti, Ian Cox, Pere Grima, Lluis Marcoÿ
Almagro, dan Xavier TortÿMartorell, atas upaya mereka, yang membantu menjadikan karya ini baik secara
teoritis maupun praktis.
Kami secara khusus berterima kasih kepada Profesor David J. Hand yang telah mempersiapkan kata
pengantar buku ini. David telah menjadi sumber inspirasi bagi kami selama bertahun-tahun dan
kontribusinya menyoroti bagian-bagian penting dari pekerjaan kami.
Selama penulisan buku ini dan pengembangan kerangka InfoQ, penulis pertama mendapat manfaat
dari berbagai diskusi dengan rekan-rekan di Universitas Turin, khususnya dengan visi besar tentang peran
statistik terapan di zaman modern.
xiv Kata Pengantar
bisnis dan industri, mendiang Profesor Roberto Corradetti. Roberto adalah teman dekatnya
dan sangat mempengaruhi pekerjaan ini dengan terus menekankan perlunya pekerjaan
statistik agar diapresiasi oleh pelanggannya dalam bisnis dan industri. Selain itu, dukungan
finansial dari Diego de Castro Foundation yang ia kelola telah menyediakan waktu untuk
bekerja dalam lingkungan akademik yang merangsang baik di Fakultas Ekonomi dan
Departemen Matematika “Giuseppe Peano” UNITO, Universitas Turin. Kontribusi Roberto
Corradetti tidak dapat dianggap remeh dan harus diakui dengan rendah hati. Roberto
meninggal dunia pada bulan Juni 2015 dan meninggalkan kekosongan besar. Penulis kedua
mengucapkan terima kasih kepada peserta Simposium Penelitian Tantangan Statistik dalam
eCommerce 2015, di mana ia menyampaikan pidato utama tentang InfoQ, atas masukan
dan antusiasme mereka mengenai pentingnya kerangka InfoQ untuk penelitian ilmu sosial
dan manajemen saat ini.
Akhirnya kami dengan senang hati mengucapkan terima kasih atas bantuan profesional
dari personel Wiley termasuk Heather Kay, Alison Oliver dan Adalfin Jayasingh dan
berterima kasih atas dorongan, komentar, dan masukan mereka yang berperan penting
dalam penyempurnaan bentuk dan isi buku ini.
Ron S. Kenett dan Galit Shmueli
Referensi
Kenett, RS (2015) Statistik: pandangan siklus hidup (dengan diskusi). Rekayasa Kualitas, 27(1),
hal.111–129.
Kenett, RS dan Shmueli, G. (2014) Tentang kualitas informasi (dengan diskusi). Jurnal
Royal Statistical Society, Seri A, 177(1), hlm.3–38.
Kenett, RS dan Thyregod, P. (2006) Aspek konsultasi statistik tidak diajarkan oleh akademisi.
Statistika Neerlandica, 60(3), hlm.396–412.
Shmueli, G. (2010) Untuk menjelaskan atau memprediksi? Ilmu Statistik, 25, hlm.289–310.
Shmueli, G. dan Koppius, OR (2011) Analisis prediktif dalam penelitian sistem informasi.
MIS Triwulanan, 35(3), hlm.553–572.
Kutipan tentang buku itu

Apa yang dikatakan para ahli tentang Kualitas Informasi: Potensi Data dan Analisis
Hasilkan Pengetahuan:
Sekilas melihat rak statistik di perpustakaan teknis mana pun akan mengungkapkan bahwa sebagian
besar buku berfokus secara sempit pada rincian metode analisis data. Hal yang sama berlaku untuk
hampir semua pengajaran statistika. Buku ini akan membantu memperbaiki pengawasan tersebut. Hal
ini akan memberikan pembaca wawasan dan pemahaman tentang bagian penting lain dari analisis
empiris, bagian yang sangat penting jika penelitian ingin menghasilkan kesimpulan yang valid, akurat, dan berguna.
Tangan David
Imperial College, London, Inggris
Ada perbedaan penting antara data dan informasi. Data hanya menjadi informasi ketika berfungsi untuk
memberikan informasi, namun apa potensi data untuk memberikan informasi? Dengan upaya yang telah
dilakukan Kenett dan Shmueli, kini kita memiliki kerangka umum untuk menjawab pertanyaan tersebut.
Kerangka kerja ini relevan dengan keseluruhan proses analisis, yang menunjukkan potensi untuk
mencapai informasi berkualitas lebih tinggi di setiap langkah.
John Sal
Institut SAS, Cary, NC, AS
Para penulis memiliki kualitas yang langka: mampu menyajikan pemikiran yang mendalam dan pendekatan
yang masuk akal sedemikian rupa sehingga para praktisi dapat merasa nyaman dan memahami ketika
membaca karya mereka dan, pada saat yang sama, peneliti terdorong untuk memikirkan bagaimana mereka
melakukan pekerjaan mereka.
Fabrizio Ruggeri
Consiglio Nazionale delle Ricerche
Istituto di Matematica Applicata e Tecnologie Informatiche, Milan, Italia
Teknik sebanyak apa pun tidak dapat membuat data yang tidak relevan sesuai dengan tujuan,
menghilangkan bias yang tidak diketahui, atau mengimbangi kekurangan data. Kesimpulan yang berguna
dan dapat diandalkan memerlukan keseimbangan pertimbangan dunia nyata dan teoritis serta menyadari
bahwa tujuan, data, analisis, dan biaya harus saling berhubungan. Seringkali, buku-buku tentang statistik
dan analisis data menempatkan formula sebagai pusat perhatian dan mengabaikan pertanyaan-
pertanyaan yang lebih penting mengenai relevansi dan keterbatasan data serta tujuan analisis. Buku ini mengangkat
xvi Kutipan tentang buku
menempatkan isu-isu penting ini pada tempatnya dan memberikan struktur (dan contoh) yang sistematis
untuk membantu praktisi melihat konteks pertanyaan statistik yang lebih luas dan, dengan demikian,
melakukan pekerjaan yang lebih berharga.
Phillip Stark
Universitas California, Berkeley, AS
…masalah “Q” menjadi hal yang utama bagi siapa saja (atau lembaga mana pun) yang berharap mendapatkan manfaat
dari data tsunami yang dikatakan sebagai penyebab utama permasalahan ini… Jadi buku ini akan sangat tepat
waktu.
Kamar Ray
Universitas Wollongong, Australia
Kenett dan Shmueli menjelaskan kontributor terbesar terhadap kesimpulan yang salah dalam penelitian,
yaitu buruknya kualitas informasi yang dihasilkan dari sebuah penelitian. Masalah ini – yang diperparah
dengan munculnya Big Data – hanya mendapat sedikit perhatian dalam literatur dan ruang kelas.
Permasalahan kualitas informasi dapat sepenuhnya melemahkan kegunaan dan kredibilitas suatu
penelitian, namun para peneliti biasanya menanganinya secara ad-hoc, begitu saja, dan sering kali
sudah terlambat. Kualitas Informasi menawarkan kerangka kerja yang masuk akal untuk memastikan
bahwa data yang dimasukkan ke dalam penelitian dapat menjawab pertanyaan yang diajukan secara
efektif.
Peter Bruce
Lembaga Pendidikan Statistika
Para pembuat kebijakan mengandalkan data berkualitas tinggi dan relevan untuk mengambil keputusan
dan penting bahwa, seiring dengan semakin banyaknya jenis data yang tersedia, kita memperhatikan
semua aspek kualitas informasi yang diberikan. Hal ini tidak hanya mencakup kualitas statistik, namun
dimensi lain yang diuraikan dalam buku ini termasuk, yang sangat penting, apakah data dan analisis
menjawab pertanyaan yang relevan.
John Pullinger
Ahli Statistik Nasional, Otoritas Statistik Inggris, London, Inggris
Buku yang mengesankan ini mengisi kesenjangan dalam pengajaran metodologi statistik. Ini berkaitan
dengan topik yang diabaikan dalam buku teks statistik: kualitas informasi yang disediakan oleh produsen
proyek statistik dan digunakan oleh pelanggan data statistik dari survei, data administratif, dll. Penekanan
dalam buku ini adalah pada: mendefinisikan, mendiskusikan, menganalisis tujuan proyek pada tahap
awal dan yang tidak kalah pentingnya pada tahap analisis dan penggunaan hasil yang diperoleh adalah
hal yang sangat penting.
Moshe Sikron
Mantan Ahli Statistik Pemerintah Israel, Yerusalem, Israel
Ron Kenett dan Galit Shmueli termasuk dalam kelompok praktisi yang melampaui kecakapan
metodologis dalam mempertanyakan tujuan apa yang harus dicapai oleh analisis berbasis data, dan apa
yang dapat dilakukan untuk mengukur kesesuaian analisis untuk memenuhi kebutuhannya.
Kutipan tentang buku xvii
tujuan. Pemahaman seperti ini semakin mendesak mengingat iklim kontroversi yang ada saat ini
seputar mekanisme kendali mutu ilmu pengetahuan itu sendiri. Faktanya, ilmu pengetahuan yang
digunakan untuk mendukung pengambilan keputusan ekonomi atau kebijakan – baik itu ilmu
pengetahuan alam atau ilmu sosial – memiliki kelemahan yang jelas, tepatnya pada pemodelan
statistik dan matematis, dimana pendekatan yang mereka anjurkan – Kualitas Informasi atau InfoQ – lebih dibutu
Satu bab penuh secara khusus dikhususkan untuk kontribusi InfoQ untuk memperjelas aspek
reproduktifitas, pengulangan, dan replikasi penelitian dan publikasi ilmiah. InfoQ adalah konstruksi
empiris dan fleksibel dengan penerapan praktis tak terbatas dalam analisis data. Dalam konteks
kebijakan, InfoQ dapat digunakan untuk membandingkan berbagai dasar bukti yang mendukung
atau menentang suatu kebijakan, atau berbagai pilihan dalam kasus penilaian dampak. InfoQ adalah
konstruksi holistik yang mencakup data, metode, dan tujuan analisis. Hal ini melampaui dimensi
kualitas data yang ditemukan dalam statistik resmi dan menyerupai konsep kinerja yang lebih holistik
seperti silsilah analisis (NUSAP) dan audit sensitivitas. Dengan demikian InfoQ mencakup
pertimbangan analisis Generalisasi dan Operasionalisasi Tindakan. Yang terakhir mencakup
operasionalisasi tindakan (sejauh mana tindakan nyata dapat diperoleh dari informasi yang diberikan
oleh suatu penelitian) dan operasionalisasi konstruk (sejauh mana konstruk yang dianalisis secara
efektif ditangkap oleh variabel yang dipilih untuk tujuan tertentu). Fitur InfoQ yang diinginkan adalah
ia memerlukan keterampilan multidisiplin, yang mungkin memaksa ahli statistik untuk keluar dari
zona nyaman mereka ke dunia nyata. Buku ini mengilustrasikan delapan dimensi InfoQ dengan
banyak contoh. Bacaan yang direkomendasikan untuk ahli statistik terapan dan ahli ekonometri yang
peduli dengan implikasi pekerjaan mereka.
Andrea Saltelli
Pusat Pemerintahan Eropa dalam Kompleksitas
Kenett dan Shmueli telah memberikan kontribusi yang signifikan terhadap profesi ini dengan menarik
perhatian pada aspek analisis yang sering kali paling penting namun diabaikan; kualitas informasi.
Misalnya, buku teks statistik terlalu sering berasumsi bahwa data terdiri dari sampel acak dan diukur
tanpa kesalahan, dan kompetisi ilmu data secara implisit berasumsi bahwa kumpulan data yang
sangat besar berisi data berkualitas tinggi dan merupakan data yang dibutuhkan untuk mengatasi
masalah yang ada. . Pada kenyataannya, tentu saja, sampel acak merupakan pengecualian dan
bukan aturan, dan banyak kumpulan data, bahkan yang berukuran sangat besar, tidak sebanding
dengan upaya yang diperlukan untuk menganalisisnya. Analisis mirip dengan penambangan, bukan
alkimia; metodenya hanya dapat mengekstraksi apa yang ada pada awalnya. Kenett dan Shmueli
menjelaskan bahwa memperoleh data yang baik biasanya memerlukan upaya yang signifikan.
Untungnya, mereka menyajikan metrik untuk membantu analis memahami keterbatasan informasi
yang ada, dan cara memperbaikinya di masa mendatang. Kudos kepada penulis atas kontribusi
penting ini.
Roger Hoerl
Union College, Schenectady, NY AS
Tentang situs web pendamping

Jangan lupa untuk mengunjungi situs pendamping buku ini:
www.wiley.com/go/information_quality
Di sini Anda akan menemukan materi berharga yang dirancang untuk meningkatkan
pembelajaran Anda, termasuk:
1. Add-in JMP disajikan pada Bab 16
2. Lima studi kasus yang dapat digunakan sebagai latihan penilaian InfoQ
3. Kumpulan presentasi tentang InfoQ
Pindai kode QR ini untuk mengunjungi situs web pendamping.

Bagian I
Informasi
Kerangka Mutu
Pengantar
kualitas informasi
1.1 Pendahuluan
Misalkan Anda melakukan penelitian tentang lelang online dan mempertimbangkan untuk
membeli kumpulan data dari eBay, platform lelang online, untuk tujuan penelitian Anda.
Vendor data menawarkan empat opsi yang sesuai anggaran Anda:
1. Data seluruh lelang online yang berlangsung pada bulan Januari 2012
2. Data seluruh lelang online khusus kamera yang berlangsung pada tahun 2012
3. Data seluruh lelang online khusus kamera yang akan berlangsung pada tahun depan
4. Data sampel acak lelang online yang berlangsung pada tahun 2012
Opsi mana yang akan Anda pilih? Mungkin tidak satupun dari pilihan ini yang bernilai? Tentu
saja jawabannya tergantung pada tujuan penelitian. Namun hal ini juga bergantung pada
pertimbangan lain seperti metode dan alat analisis yang akan Anda gunakan, kualitas data,
dan kegunaan yang ingin Anda peroleh dari analisis tersebut. Dalam perkataan David Hand
(2008):
Para ahli statistik yang bekerja di lingkungan penelitian… mungkin harus

menjelaskan bahwa data tersebut tidak cukup untuk menjawab pertanyaan tertentu.
Kualitas Informasi: Potensi Data dan Analisis untuk Menghasilkan Pengetahuan,

Edisi pertama. Ron S. Kenett dan Galit Shmueli.
© 2017 John Wiley & Sons, Ltd. Diterbitkan 2017 oleh John Wiley & Sons, Ltd.
Situs web pendamping: www.wiley.com/go/information_quality
4 Pengantar kualitas informasi
Meskipun mereka yang berpengalaman dalam analisis data akan menganggap dilema ini familier,
statistik dan literatur terkait tidak memberikan panduan tentang cara menjawab pertanyaan ini secara
metodis dan cara mengevaluasi nilai kumpulan data dalam skenario seperti itu.
Statistika, penambangan data, ekonometrik, dan bidang terkait adalah disiplin ilmu yang berfokus
pada penggalian pengetahuan dari data. Mereka menyediakan perangkat untuk menguji hipotesis
yang menarik, memprediksi pengamatan baru, mengukur dampak populasi, dan merangkum data
secara efisien. Dalam bidang empiris ini, data terukur digunakan untuk memperoleh pengetahuan.
Namun, kumpulan data yang bersih, tepat, dan lengkap, yang dianalisis secara profesional, mungkin
tidak berisi informasi yang berguna untuk masalah yang sedang diselidiki. Sebaliknya, kumpulan
data yang sangat “kotor”, dengan nilai yang hilang dan cakupan yang tidak lengkap, dapat berisi
informasi yang berguna untuk beberapa tujuan. Dalam beberapa kasus, data yang tersedia bahkan
bisa menyesatkan (Patzer, 1995, hal. 14):
Data mungkin bernilai kecil atau tidak bernilai sama sekali, atau bahkan bernilai negatif, jika memberikan informasi yang salah.
Fokus buku ini adalah menilai potensi kumpulan data tertentu untuk mencapai tujuan analisis tertentu
dengan menggunakan metode analisis data dan mempertimbangkan kegunaan tertentu. Kami
menyebutnya konsep kualitas informasi (InfoQ). Kami mengusulkan definisi formal InfoQ dan
memberikan pedoman untuk penilaiannya. Tujuan kami adalah untuk menawarkan kerangka umum
yang berlaku untuk penelitian empiris. Elemen tersebut belum mendapat banyak perhatian dalam
kumpulan pengetahuan profesi statistika dan dapat dianggap sebagai kontribusi baik terhadap teori
maupun praktik statistik terapan (Kennett, 2015).
Kerangka kerja untuk menilai InfoQ diperlukan baik ketika merancang sebuah studi untuk
menghasilkan temuan InfoQ tinggi maupun pada tahap pascadesain, setelah data dikumpulkan.
Pertanyaan mengenai nilai data yang akan dikumpulkan, atau yang telah dikumpulkan, mempunyai
implikasi penting baik dalam penelitian akademis maupun dalam praktik. Dengan motivasi tersebut,
kami membangun konsep InfoQ dan kemudian mengoperasionalkannya sehingga dapat
diimplementasikan dalam praktik.
Dalam buku ini, kami membahas dan mengatasi permasalahan tingkat tinggi yang merupakan
inti dari setiap analisis data. Daripada berkonsentrasi pada serangkaian metode atau penerapan
tertentu, kami mempertimbangkan konsep umum yang mendasari setiap analisis empiris. Oleh karena
itu, kerangka InfoQ berkontribusi pada literatur tentang strategi statistik, yang juga dikenal sebagai
metastatistik (lihat Hand, 1994).
1.2 Komponen InfoQ

Definisi kami tentang InfoQ melibatkan empat komponen utama yang ada dalam setiap analisis data:
tujuan analisis, kumpulan data, metode analisis, dan kegunaan (Kennett dan Shmueli, 2014).
Pembahasan dan penilaian InfoQ memerlukan pemeriksaan dan pertimbangan keseluruhan
komponennya serta hubungan antar komponen. Dalam evaluasi tersebut kami juga mempertimbangkan
delapan dimensi yang mendekonstruksi konsep InfoQ. Dimensi ini disajikan pada Bab 3. Kami
memulai pengenalan InfoQ dengan mendefinisikan masing-masing komponennya.
Pengenalan kualitas informasi5
Sebelum menjelaskan masing-masing dari empat komponen InfoQ, kami memperkenalkan notasi
dan definisi berikut untuk membantu menghindari kebingungan:
•
g menunjukkan tujuan analisis tertentu.
• X menunjukkan dataset yang tersedia.
• f merupakan metode analisis empiris.
• U adalah ukuran utilitas.
Kami menggunakan indeks subskrip untuk menunjukkan alternatif. Misalnya, untuk menyampaikan K
tujuan analisis yang berbeda, kita menggunakan g1 , g2 ,…, gK; J metode analisis yang berbeda
1 , f2 ,…, f J . f
dilambangkan
Mengikuti definisi statistik Hand (2008) sebagai “teknologi mengekstraksi makna dari data,” kita dapat
menganggap kerangka InfoQ sebagai kerangka kerja untuk mengevaluasi penerapan teknologi (analisis
data) pada sumber daya (data) untuk tujuan tertentu.
1.2.1 Sasaran (g)

Analisis data digunakan untuk berbagai tujuan dalam penelitian dan industri. Istilah “tujuan” dapat mengacu
pada dua tujuan: tujuan penelitian tingkat tinggi (“tujuan domain”) dan tujuan empiris (“tujuan analisis”).
Seseorang memulai dari tujuan domain dan kemudian mengubahnya menjadi tujuan analisis. Contoh
klasiknya adalah menerjemahkan hipotesis yang didorong oleh suatu teori menjadi serangkaian hipotesis
statistik.
Terdapat berbagai klasifikasi tujuan belajar; beberapa klasifikasi mencakup domain dan tujuan
analisis, sementara sistem klasifikasi lainnya berfokus pada deskripsi tujuan analisis yang berbeda.
Salah satu pendekatan klasifikasi membagi domain dan tujuan analisis menjadi tiga kelas umum:
penjelasan kausal, prediksi empiris, dan deskripsi (lihat Shmueli, 2010; Shmueli dan Koppius, 2011).
Penjelasan kausal berkaitan dengan membangun dan mengukur hubungan sebab akibat antara masukan
dan hasil yang diinginkan. Eksperimen laboratorium dalam ilmu kehidupan sering kali dimaksudkan untuk
membangun hubungan sebab akibat. Penelitian akademis dalam ilmu-ilmu sosial biasanya berfokus pada
penjelasan kausal. Dalam konteks ilmu sosial, struktur kausalitas didasarkan pada model teoritis yang
menetapkan dampak sebab akibat dari beberapa konstruksi (konsep abstrak) pada konstruksi lainnya.
Oleh karena itu, tahap pengumpulan data didahului dengan tahap operasionalisasi konstruk , dimana
peneliti menetapkan variabel terukur mana yang dapat mewakili konstruk yang diinginkan. Contohnya
adalah menyelidiki pengaruh sebab akibat kecerdasan orang tua terhadap kecerdasan anak. Konstruk
“kecerdasan” dapat diukur dengan berbagai cara, misalnya melalui tes IQ. Tujuan prediksi empiris berbeda
dengan penjelasan kausal.
Contohnya termasuk memperkirakan nilai masa depan dari suatu deret waktu dan memprediksi nilai
keluaran untuk observasi baru berdasarkan sekumpulan variabel masukan. Contohnya mencakup sistem
rekomendasi di berbagai situs web, yang ditujukan untuk memprediksi layanan atau produk yang
kemungkinan besar akan diminati oleh pengguna. Prediksi perekonomian adalah jenis tujuan prediksi
lainnya, dengan perkiraan tertentu
ukuran atau indeks ekonomi yang menjadi perhatian. Terakhir, tujuan deskriptif mencakup
penghitungan dan pengujian dampak populasi dengan menggunakan ringkasan data, visualisasi
grafis, model statistik, dan pengujian statistik.
Pendekatan klasifikasi tujuan yang berbeda namun terkait (Deming, 1953) memperkenalkan
perbedaan antara studi enumeratif, yang bertujuan menjawab pertanyaan “berapa banyak?”, dan
studi analitik, yang bertujuan menjawab pertanyaan “mengapa?”
Klasifikasi ketiga (Tukey, 1977) mengklasifikasikan penelitian ke dalam analisis data eksploratif
dan konfirmasi.
Penggunaan istilah “sasaran” kami mencakup semua jenis sasaran dan klasifikasi sasaran
yang berbeda-beda. Untuk contoh tujuan tersebut dalam konteks survei kepuasan pelanggan, lihat
Bab 7 dan Kenett dan Salini (2012).
1.2.2 Data (X)

Data adalah istilah yang didefinisikan secara luas yang mencakup semua jenis data yang
dimaksudkan untuk digunakan dalam analisis empiris. Data dapat muncul dari instrumen
pengumpulan yang berbeda: survei, uji laboratorium, eksperimen lapangan, eksperimen komputer,
simulasi, penelusuran web, rekaman seluler, studi observasional, dan banyak lagi. Data dapat
bersifat primer, dikumpulkan secara khusus untuk tujuan penelitian, atau sekunder, dikumpulkan untuk alasan yang b
Data bisa univariat atau multivariat, diskrit, kontinu, atau campuran. Data dapat berisi informasi
semantik tidak terstruktur dalam bentuk teks, gambar, audio, dan video. Data dapat memiliki
berbagai struktur, termasuk data cross-sectional, deret waktu, data panel, data jaringan, data
geografis, dan banyak lagi. Data dapat mencakup informasi dari satu sumber atau dari berbagai
sumber. Data dapat berukuran berapa pun (dari observasi tunggal dalam studi kasus hingga “data
besar” dengan zettabytes) dan dimensi apa pun.
1.2.3 Analisis (f)

Kami menggunakan istilah umum analisis data untuk mencakup analisis empiris apa pun yang
diterapkan pada data. Ini termasuk model dan metode statistik (parametrik, semiparametrik,
nonparametrik, Bayesian dan klasik, dll.), algoritma penambangan data, model ekonometrik, metode
grafis, dan metode riset operasi (seperti optimasi simpleks). Metode dapat berupa ringkasan
statistik atau model multilapis yang kompleks, sederhana secara komputasi, atau intensif secara
komputasi.
1.2.4 Utilitas (U)

Sejauh mana tujuan analisis tercapai biasanya diukur dengan beberapa ukuran kinerja. Kami
menyebut ukuran ini sebagai “kegunaan”. Sebagaimana tujuan studi, utilitas mengacu pada dua
dimensi: utilitas dari sudut pandang domain dan ukuran utilitas terukur yang dioperasionalkan.
Sesuai dengan tujuannya, hubungan antara utilitas domain dan ukuran utilitas analisis harus
ditetapkan dengan benar sehingga utilitas analisis dapat digunakan untuk menyimpulkan utilitas
domain.
Dalam studi prediktif, ukuran utilitas yang populer adalah akurasi prediktif, peningkatan, dan
perkiraan biaya per prediksi. Dalam studi deskriptif, utilitas sering kali dinilai berdasarkan
Pengantar kualitas informasi 7
Gambar 1.1 Keempat komponen InfoQ.
ukuran kebaikan. Dalam pemodelan penjelasan kausal, signifikansi statistik, kekuatan statistik, dan
ukuran kekuatan kesesuaian (misalnya, R2 ) adalah hal yang umum.
1.3 Pengertian kualitas informasi

Mengikuti definisi statistik Hand (2008) sebagai “teknologi mengekstraksi makna dari data,” kami
mempertimbangkan kegunaan penerapan teknologi f pada sumber daya X untuk tujuan tertentu g.
Secara khusus, kami fokus pada pertanyaan: Apa potensi kumpulan data tertentu untuk mencapai
tujuan tertentu dengan menggunakan metode dan kegunaan analisis data tertentu? Untuk
memformalkan pertanyaan ini, kami mendefinisikan konsep InfoQ sebagai
Infoq , g X, f U, | kamu f x g
Kualitas informasi, InfoQ, ditentukan oleh kualitas komponennya g (“kualitas definisi tujuan”),
X (“kualitas data”), f (“kualitas analisis”), dan U (“kualitas ukuran utilitas” ) serta hubungan di antara
mereka. (Lihat Gambar 1.1 untuk representasi visual komponen InfoQ.)
1.4 Contoh dari studi lelang online

Mari kita mengingat kembali empat opsi kumpulan data eBay yang kami jelaskan di awal bab ini.
Untuk mengevaluasi InfoQ dari masing-masing kumpulan data ini, kita harus menentukan tujuan
studi, tujuan analisis data, dan ukuran utilitas.
Untuk lebih menggambarkan peran berbagai komponen, mari kita periksa empat komponen
studi di bidang lelang online, masing-masing menggunakan data untuk mencapai tujuan tertentu.
Studi kasus 1 Faktor penentu yang mempengaruhi harga akhir suatu lelang
Ahli ekonometrika tertarik untuk menentukan faktor-faktor yang mempengaruhi harga akhir lelang
online. Meskipun teori permainan memberikan model kausal teoretis yang mendasari harga
dalam lelang offline, lingkungan online berbeda dalam banyak hal. Platform lelang online seperti
eBay.com telah menurunkan hambatan masuk bagi penjual dan pembeli untuk berpartisipasi
dalam lelang. Aturan dan pengaturan lelang dapat berbeda dari lelang tradisional di lapangan,
begitu pula dinamika antar penawar.
Mari kita periksa studi “Harga Cadangan Publik versus Rahasia di Lelang eBay: Hasil dari
Eksperimen Lapangan Pokémon” (Katkar dan Reiley, 2006) yang menyelidiki pengaruh dua
jenis harga cadangan pada harga lelang akhir. Harga cadangan adalah nilai yang ditetapkan
oleh penjual pada awal lelang. Jika harga akhir tidak melebihi harga cadangan, maka lelang
tidak ditransaksikan. Di eBay, penjual dapat memilih untuk menempatkan harga cadangan publik
yang terlihat oleh penawar atau harga cadangan rahasia yang tidak terlihat, di mana penawar
hanya melihat bahwa ada harga cadangan tetapi tidak mengetahui nilainya.
Tujuan studi (g)
Tujuan peneliti dinyatakan sebagai berikut:
Kami bertanya, secara empiris, apakah penjual menjadi lebih baik atau lebih buruk dengan
menetapkan cadangan rahasia di atas tawaran minimum yang rendah, dibandingkan pilihan untuk
menjadikan cadangan tersebut publik dengan menggunakannya sebagai tingkat penawaran minimum.
Pertanyaan ini kemudian diubah menjadi tujuan statistik (g) untuk menguji hipotesis “bahwa
harga cadangan rahasia sebenarnya menghasilkan pendapatan yang diharapkan lebih tinggi.”
Data (X)
Para peneliti melanjutkan dengan menyiapkan

lelang untuk kartu Pokémon1 di eBay.
com dan melelang 50 pasang kartu Pokémon
yang cocok, setengahnya dengan cadangan
rahasia dan setengahnya lagi dengan tawaran
minimum publik yang setara tingginya. Kumpulan
data yang dihasilkan mencakup informasi tentang tawaran,
1Permainan kartu perdagangan Pokémon adalah salah satu

mainan tergila-gila yang paling banyak dikoleksi pada tahun 1999 dan 2000.
Diperkenalkan pada awal tahun 1999, kartu
permainan Pokémon menarik bagi pemain game dan kolektor.
Sumber: Katkar dan Reiley (2006). © Biro Riset
Ekonomi Nasional.
penawar, dan harga akhir di masing-masing 100 lelang, serta apakah lelang tersebut memiliki
harga rahasia atau harga cadangan publik. Kumpulan data tersebut juga mencakup informasi
tentang pilihan penjual, seperti waktu mulai dan penutupan setiap lelang, biaya pengiriman,
dll. Kumpulan data ini merupakan X.
Analisis data ( f)
Para peneliti memutuskan untuk “mengukur dampak dari harga cadangan rahasia (relatif
terhadap cadangan publik yang setara) pada tiga variabel independen yang berbeda:
kemungkinan lelang menghasilkan penjualan, jumlah tawaran yang diterima, dan harga yang
diterima untuk penjualan. kartu dalam pelelangan.” Hal ini dilakukan melalui model regresi
linier ( f ). Misalnya, hasil penjualan/tidak ada penjualan diregresi berdasarkan jenis cadangan
(publik/swasta) dan variabel kontrol lainnya, dan signifikansi statistik dari variabel cadangan
diperiksa.
Utilitas (U)
Para penulis menyimpulkan “Penurunan rata-rata kemungkinan penjualan ketika menggunakan

cadangan rahasia signifikan secara statistik.” Dengan menggunakan model regresi linier lain
dengan harga sebagai variabel terikat, signifikansi statistik ( nilai p) dari koefisien regresi
digunakan untuk menguji adanya pengaruh terhadap harga cadangan swasta atau
pemerintah, dan nilai koefisien regresi digunakan untuk mengukur besarnya dampaknya,
menyimpulkan bahwa “lelang cadangan rahasia akan menghasilkan harga rata-rata $0,63
lebih rendah dibandingkan lelang cadangan publik.” Oleh karena itu, utilitas (U) dalam
penelitian ini sebagian besar bergantung pada signifikansi statistik dan nilai p serta interpretasi
praktis dari besarnya koefisien regresi.
Evaluasi komponen InfoQ
Bagaimana kualitas informasi yang terkandung dalam kumpulan data penelitian ini untuk
menguji pengaruh harga cadangan swasta versus harga publik terhadap harga akhir, dengan
menggunakan model regresi dan signifikansi statistik? Para penulis membandingkan
keuntungan desain eksperimen mereka untuk menjawab pertanyaan yang mereka minati
dengan desain penelitian sebelumnya yang menggunakan data observasi:
Dengan data [observasional] yang cukup dan asumsi-asumsi ekonometrik

yang cukup untuk mengidentifikasi, kita dapat menyimpulkan pengukuran
empiris dampak harga cadangan dari data lapangan eBay…
Model struktural seperti ini membuat asumsi pengidentifikasian yang kuat
untuk memulihkan hal-hal ekonomi yang tidak dapat diobservasi (seperti
informasi pribadi penawar mengenai nilai barang tersebut)… Sebaliknya,
proyek penelitian kami kurang ambisius, karena kami hanya fokus pada
pengaruh harga cadangan rahasia relatif terhadap harga cadangan publik
(penawaran awal). Eksperimen kami memungkinkan kami melakukan
pengukuran ini dengan cara yang sesederhana, langsung, dan bebas asumsi.
Dengan kata lain, dengan eksperimen dua tingkat yang sederhana, penulis bertujuan untuk
menjawab pertanyaan penelitian spesifik (g1 ) dengan cara yang kuat, daripada membangun
model ekonomi teoritis yang luas (g2 ) yang didasarkan pada banyak asumsi.
Menariknya, ketika membandingkan kesimpulan mereka dengan literatur sebelumnya

mengenai pengaruh harga cadangan dalam penelitian yang menggunakan data observasi, penulis
menyebutkan bahwa mereka menemukan efek sebaliknya:
Hasil kami agak tidak konsisten dengan hasil Bajari dan Hortaçsu…. Mungkin Bajari
dan Hortaçsu telah membuat asumsi pemodelan yang tidak akurat, atau mungkin
ada beberapa perbedaan penting antara menawar set koin dan menawar kartu
Pokémon.
Perbedaan ini bahkan mengarahkan para peneliti untuk mengusulkan kumpulan data baru yang dapat
membantu mencapai tujuan awal dengan lebih sedikit kebingungan:
Eksperimen baru, misalnya melelang seratus item dengan harga masing-masing

$100, dapat menjelaskan pertanyaan ini.
Artinya, InfoQ dataset lelang kartu Pokémon dianggap lebih rendah dibandingkan item yang lebih
mahal.
Studi kasus 2 Memprediksi harga akhir suatu lelang pada awal lelang
Pada hari tertentu, ribuan lelang dilakukan secara online. Peramalan harga lelang yang sedang
berlangsung bermanfaat bagi pembeli, penjual, balai lelang, dan pihak ketiga. Bagi calon penawar,
perkiraan harga dapat digunakan untuk memutuskan apakah, kapan, dan berapa banyak yang
akan ditawar. Bagi penjual, perkiraan harga dapat membantu memutuskan apakah dan kapan
akan memposting item lain untuk dijual. Untuk balai lelang dan pihak ketiga, layanan seperti
asuransi penjual dapat ditawarkan dengan tarif yang dapat disesuaikan. Oleh karena itu, terdapat
kemungkinan tujuan berbeda untuk studi empiris di mana harga adalah variabel hasil, yang
diterjemahkan ke dalam InfoQ berbeda dari suatu kumpulan data. Kami menjelaskan dalam teks
berikutnya satu studi tertentu.
Tujuan studi (g)
Dalam studi yang dilakukan oleh Ghani dan Simmons (2004), para peneliti mengumpulkan data
historis lelang dari eBay dan menggunakan algoritma pembelajaran mesin untuk memprediksi
harga akhir barang lelang. Pertanyaan mereka (g) adalah apakah harga akhir lelang online dapat
diprediksi secara akurat menggunakan metode pembelajaran mesin. Ini
Pengenalan kualitas informasi 11
tujuan prediksi ke depan, dan hasil penelitian dapat meningkatkan pengetahuan ilmiah
tentang prediktabilitas harga lelang online serta menjadi dasar penerapan praktis.
Data (X)
Data yang dikumpulkan untuk setiap lelang tertutup mencakup informasi tentang penjual,
barang, format lelang, dan “fitur sementara” (statistik harga: penawaran awal, harga
pengiriman, dan harga akhir) dari lelang lain yang ditutup baru-baru ini. Perhatikan bahwa
semua informasi ini tersedia pada awal lelang yang diminati dan oleh karena itu dapat
digunakan sebagai prediktor harga akhirnya. Dalam kaitannya dengan variabel hasil yang
menjadi perhatian—harga—datanya mencakup harga akhir dalam bentuk numerik (dalam
USD). Namun, penulis mempertimbangkan dua versi variabel ini: variabel kontinu mentah
dan variabel harga kategori multikelas yang harga numeriknya dimasukkan ke dalam
interval $5.
Analisis data ( f)
Dalam penelitian ini, beberapa algoritma prediksi (f) digunakan: untuk harga numerik,
mereka menggunakan regresi linier (dan “regresi polinomial dengan derajat 2 dan 3”).
Untuk harga kategoris, mereka menggunakan pohon klasifikasi dan jaringan saraf.
Utilitas (U)
Karena tujuan penulis berfokus pada akurasi prediksi, ukuran kinerja mereka (U) dihitung
dari set ketidaksepakatan (RMSE untuk harga numerik dan % akurasi untuk harga
kategorikal). Set ini terdiri dari 400 lelang yang tidak digunakan saat membuat (“pelatihan”)
model. Mereka membandingkan kinerjanya dengan prediksi naif—harga rata-rata (untuk
harga numerik) atau kumpulan harga paling umum (untuk harga kategoris). Para penulis
menyimpulkan:
Semua metode yang kami gunakan[d] efektif dalam memprediksi hasil akhir.
harga lelang. Hasil regresi tidak begitu menjanjikan dibandingkan hasil
klasifikasi, terutama karena tugasnya lebih sulit karena harga yang diprediksi
adalah harga pasti, bukan kisaran harga. Di masa depan, kami berencana
untuk mempersempit kelompok untuk kisaran harga dan bereksperimen
dengan menggunakan algoritma klasifikasi untuk mencapai hasil yang lebih baik.
hasil yang berbutir.
Sesuai dengan tujuan penelitian mereka, kumpulan data tersebut terbukti memiliki InfoQ yang tinggi.
Selain itu, mereka mampu menegaskan perbedaan InfoQ antara dua versi data mereka
(harga numerik dan kategorikal). Mengikuti hasil mereka,
penulis mengusulkan dua aplikasi yang mungkin berguna untuk memprediksi interval harga
suatu lelang:
Asuransi Harga: Mengetahui harga akhir sebelum lelang dimulai memberikan

peluang bagi pihak ketiga untuk menawarkan asuransi harga kepada penjual….
Listing Optimizer: Model harga akhir berdasarkan atribut input lelang juga
dapat digunakan untuk membantu penjual mengoptimalkan harga jual barangnya.
Studi kasus 3 Memprediksi harga akhir dari lelang yang sedang berlangsung
Kami sekarang mempertimbangkan studi yang berbeda, juga terkait dengan prediksi harga
akhir lelang online, namun dalam kasus ini prediksi akan dihasilkan selama lelang yang sedang
berlangsung. Model yang digunakan oleh Ghani dan Simmons (2004) untuk meramalkan
harga suatu lelang adalah “model statis” dalam artian model tersebut menggunakan informasi
yang tersedia pada awal lelang, tetapi tidak tersedia di kemudian hari. Hal ini harus terjadi jika
perkiraan harga dilakukan pada awal lelang.
Perkiraan harga lelang yang sedang berlangsung berbeda-beda: selain informasi yang tersedia
pada awal lelang, kita dapat memperhitungkan semua informasi yang tersedia pada saat
prediksi, seperti tawaran yang telah diajukan sejauh ini.
Literatur terbaru tentang lelang online menyarankan model yang mengintegrasikan

informasi dinamis yang berubah selama lelang. Wang dkk. (2008) mengembangkan model
peramalan dinamis yang memperhitungkan jarak penawaran yang tidak sama, perubahan
dinamika harga dan penawaran selama lelang, serta informasi statis tentang lelang, penjual,
dan produk. Model mereka telah digunakan untuk memprediksi harga akhir lelang untuk
berbagai produk (elektronik, seni kontemporer, dll.) dan di berbagai situs lelang (lihat Jank
dan Shmueli, 2010, Bab 4). Berikut ini, kami menjelaskan secara singkat Wang dkk. (2008)
mempelajari komponen InfoQ.
Tujuan studi (g)
Tujuan (g) dinyatakan oleh Wang dkk. (2008) adalah mengembangkan model peramalan yang
memprediksi harga akhir lelang online yang sedang berlangsung dengan lebih akurat
dibandingkan model tradisional. Ini adalah tujuan yang bersifat prediktif dan berwawasan ke
depan, yang bertujuan untuk membandingkan pendekatan pemodelan baru dengan metode
yang sudah ada. Selain tujuan perkiraan utama, penulis juga menyatakan tujuan sekunder,
untuk “mendeskripsikan secara sistematis keteraturan empiris dinamika lelang.”
Data (X)
Para peneliti mengumpulkan data dari 190 lelang tertutup selama tujuh hari untuk
sistem permainan Microsoft Xbox dan Harry Potter dan Pangeran Berdarah Campuran.
buku yang dijual di eBay.com pada bulan Agustus–September 2005. Untuk setiap
lelang, data mencakup riwayat penawaran (jumlah tawaran, cap waktu, dan
identifikasi penawar) dan informasi mengenai karakteristik produk, parameter lelang
(misalnya, hari dalam seminggu tempat pelelangan dimulai), dan penawar dan
penjual. Informasi riwayat penawaran, yang mencakup waktu dan jumlah penawaran
yang diajukan selama lelang, juga digunakan sebagai informasi prediktor.
Analisis data ( f)
Model peramalan yang dikemukakan oleh Wang et al. (2008) didasarkan pada
representasi urutan penawaran dari setiap lelang dengan kurva halus (menggunakan
analisis data fungsional). Contoh empat lelang ditunjukkan pada Gambar 1.2.
Kemudian, model regresi harga pada waktu t mencakup empat jenis prediktor:
A. Prediktor statis (seperti karakteristik produk)
B. Prediktor yang bervariasi terhadap waktu (seperti jumlah tawaran pada waktu t)
Lelang #5 Lelang #11

11
08
7
9
agraH
0srP
6
e
8
7
6
05
4
6.2 6.4 6.6 6.8 7.0 6.2 6.4 6.6 6.8 7.0
Lelang #36 Lelang #52

41
9
8
agraH
agraH
7
6
5
06
1
8
6.2 6.4 6.6 6.8 7.0 6.2 6.4 6.6 6.8 7.0
Gambar 1.2 Kurva harga pada hari terakhir dari empat lelang tujuh hari (sumbu x
menunjukkan hari lelang). Harga lelang saat ini (garis berbentuk lingkaran), kurva
harga fungsional (garis halus) dan kurva harga perkiraan (garis putus-putus).
C. Dinamika harga (diperkirakan dari turunan kurva harga)
D. Harga tertinggal
Modelnya untuk harga pada waktu t diberikan oleh
Q J L
kamu xt ii D Jyt kamu ,

J L
Saya 1 J 1 aku 1
dimana x1 (t),…, xQ(t) adalah himpunan prediktor statis dan variasi waktu, D(j) y(t)
menyatakan turunan harga ke-j pada waktu t, dan y(tÿl) adalah ketertinggalan harga.
Ramalan h -step-ahead, dengan informasi yang diberikan hingga waktu T, diberikan oleh
ˆ Q ˆ J ˆ L ˆ
kamu T h T xThT D yJ T h T kamu T jam T1 .
Saya Saya
J L
Saya 1 J 1 aku 1
Utilitas (U)
Seperti dalam studi kasus 2, akurasi prediksi pada serangkaian lelang yang tidak
digunakan digunakan untuk mengevaluasi kinerja model. Dalam studi ini, penulis melihat
dua jenis kesalahan: (i) membandingkan kurva harga fungsional dan kurva harga yang
diperkirakan, dan (ii) membandingkan kurva perkiraan dengan harga lelang aktual saat
ini.
Penulis memanfaatkan informasi dalam data lelang online yang biasanya tidak
digunakan dalam penelitian lain untuk memperkirakan harga akhir lelang: informasi
yang tersedia selama lelang mengenai jumlah dan waktu penawaran.
Mereka menunjukkan bahwa informasi tambahan ini, jika diintegrasikan ke dalam model prediksi,
dapat meningkatkan akurasi perkiraan. Oleh karena itu, mereka menunjukkan bahwa InfoQ
tergolong tinggi dengan menghasilkan perkiraan yang lebih akurat serta memberikan lebih
banyak penjelasan tentang hubungan antara berbagai fitur lelang dan dinamika penawaran yang dihasilkan.
Para penulis menyimpulkan:
Model ini menghasilkan perkiraan dengan kesalahan rendah, dan

kinerjanya melebihi metode perkiraan standar, seperti pemulusan
eksponensial ganda, yang sangat meremehkan evolusi harga. Hal ini juga
menunjukkan bahwa peramalan lelang online bukanlah tugas yang
mudah. Meskipun metode tradisional sulit diterapkan, metode ini juga
tidak akurat karena tidak memperhitungkan perubahan dramatis dalam
dinamika lelang. Sebaliknya, model kami mencapai akurasi perkiraan
yang tinggi dan mengakomodasi perubahan dinamika harga dengan baik.
Studi kasus 4 Mengukur surplus konsumen dalam lelang eBay
Teori mikroekonomi klasik menggunakan gagasan surplus konsumen sebagai ukuran

kesejahteraan yang mengukur manfaat bagi konsumen dari suatu pertukaran. Marshall (1920,
hal. 124) mendefinisikan surplus konsumen sebagai “kelebihan harga yang konsumen
(konsumen) bersedia bayarkan daripada kehilangan barang tersebut, melebihi harga yang
sebenarnya ia bayar….”
Meskipun minat penelitian terhadap lelang online semakin meningkat, hanya sedikit yang
diketahui tentang tingkat surplus konsumen yang dapat diukur dalam mekanisme tersebut. Di
eBay, pemenangnya adalah penawar tertinggi, dan dia membayar tawaran tertinggi kedua.
Meskipun riwayat tawaran tersedia untuk umum, eBay tidak pernah mengungkapkan tawaran
tertinggi. Bapna dkk. (2008) berupaya mengukur surplus konsumen di eBay dengan
menggunakan kumpulan data unik yang mengungkapkan tawaran tertinggi untuk sampel dari hampir 5000 lelan
Mereka menemukan bahwa, berdasarkan asumsi tertentu, “lelang eBay menghasilkan total
surplus konsumen setidaknya $7,05 miliar pada tahun 2003.”
Tujuan studi (g)
Para peneliti menyatakan tujuan (g) sebagai memperkirakan surplus konsumen yang dihasilkan
di eBay pada tahun 2003. Ini adalah tujuan deskriptif, dan tujuannya adalah untuk memperkirakan
kuantitas ini dengan akurasi sebanyak mungkin.
Data (X)
Karena eBay tidak mengungkapkan tawaran tertinggi dalam sebuah lelang, para peneliti
menggunakan kumpulan data besar dari Cniper.com, alat berbasis web yang pada saat itu
digunakan oleh banyak pengguna eBay untuk mengajukan “tawaran menit terakhir”.
Menempatkan tawaran sangat dekat dengan penutupan lelang (“sniping”) adalah taktik untuk
memenangkan lelang dengan menghindari penempatan tawaran yang lebih tinggi oleh penawar
yang bersaing. Kumpulan data Cniper berisi tawaran tertinggi untuk semua pemenang. Penulis
kemudian menggabungkan informasi Cniper dengan data eBay untuk lelang tersebut dan
memperoleh kumpulan data 4.514 lelang yang berlangsung antara Januari dan April 2003.
Kumpulan data mereka juga unik karena berisi informasi mengenai lelang dalam tiga mata
uang berbeda dan di seluruh eBay. Kategori Produk.
Analisis empiris ( f)
Para peneliti menghitung surplus median dengan menggunakan median sampel dengan interval
kepercayaan bootstrap 95%. Mereka memeriksa berbagai subkumpulan data dan menggunakan
analisis regresi untuk mengoreksi kemungkinan bias dan mengevaluasi ketahanan terhadap
berbagai pelanggaran asumsi. Misalnya, mereka membandingkan sampel mereka dengan
sampel acak dari eBay dalam hal berbagai variabel, untuk mengevaluasi apakah pemenang
Cniper lebih cerdas dan karenanya memperoleh surplus yang lebih tinggi.
Utilitas (U)
Ketepatan estimasi nilai lebih diukur melalui interval kepercayaan. Bias akibat pengambilan
sampel yang tidak representatif diukur dengan menghitung batas atas.
Kumpulan data unik yang tersedia bagi para peneliti memungkinkan mereka menghitung
metrik yang tidak tersedia dari informasi yang tersedia untuk umum di eBay.com. Para
peneliti melakukan analisis khusus untuk mengoreksi berbagai bias dan sampai pada
perkiraan kepentingan dengan batasan konservatif. Oleh karena itu, InfoQ kumpulan data
ini tinggi untuk tujuan penelitian.
1.5 InfoQ dan kualitas belajar

Kami mendefinisikan InfoQ sebagai kerangka kerja untuk menjawab pertanyaan: Apa potensi
kumpulan data tertentu untuk mencapai tujuan tertentu menggunakan metode dan kegunaan
analisis data tertentu? Dalam masing-masing dari empat studi di Bagian 1.4, kami memeriksa empat InfoQ
komponen dan kemudian mengevaluasi InfoQ berdasarkan pemeriksaan komponen. Pada Bab 3
kami memperkenalkan pendekatan penilaian InfoQ, yang didasarkan pada delapan dimensi InfoQ.
Memeriksa masing-masing dari delapan dimensi membantu peneliti dan analis dalam mengevaluasi
InfoQ suatu kumpulan data dan studi terkait.
Selain menggunakan kerangka InfoQ untuk mengevaluasi potensi kumpulan data untuk
menghasilkan informasi berkualitas, kerangka InfoQ dapat digunakan untuk evaluasi retrospektif
dari studi empiris. Dengan mengidentifikasi empat komponen InfoQ dan menilai delapan dimensi
InfoQ yang diperkenalkan di Bab 3, seseorang dapat menentukan kegunaan suatu penelitian
dalam mencapai tujuan yang telah ditetapkan. Pada bagian II buku ini, kami menggunakan
pendekatan ini dan mengkaji berbagai penelitian di berbagai domain. Bab 12 di bagian III
menjelaskan bagaimana kerangka InfoQ dapat memberikan proses yang lebih terpandu bagi
penulis, reviewer, dan editor jurnal dan publikasi ilmiah.
1.6 Ringkasan
Pada bab ini kami memperkenalkan konsep InfoQ dan empat komponennya. Pada bab berikut,
kita membahas perbedaan InfoQ dari konsep umum kualitas data dan kualitas analisis. Beralih
dari sebuah konsep ke kerangka kerja yang dapat diterapkan dalam praktik memerlukan
metodologi untuk menilai InfoQ. Pada Bab 3, kami membagi InfoQ menjadi delapan dimensi,
untuk memfasilitasi penilaian InfoQ secara kuantitatif. Bab terakhir (Bab 4 dan 5) di bagian I
mengkaji metodologi statistik yang ada yang bertujuan untuk meningkatkan InfoQ pada tahap
desain penelitian dan pada tahap pengumpulan postdata. Menata dan mengkaji berbagai
pendekatan statistik melalui lensa InfoQ menciptakan gambaran yang lebih jelas tentang peran
berbagai pendekatan statistik
dan metode, sering kali diajarkan dalam kursus yang berbeda atau digunakan dalam bidang yang
berbeda. Singkatnya, InfoQ adalah tentang menilai dan meningkatkan potensi kumpulan data untuk
mencapai tujuan tertentu menggunakan metode dan kegunaan analisis data tertentu. Buku ini
membahas tentang penataan dan konsolidasi pendekatan semacam itu.
Referensi
Bapna, R., Jank, W. dan Shmueli, G. (2008) Surplus konsumen dalam lelang online. Informasi
Penelitian Sistem, 19, hlm.400–416.
Deming, WE (1953) Tentang perbedaan antara studi enumeratif dan analitik. Jurnal dari
Asosiasi Statistik Amerika, 48, hlm.244–255.
Ghani, R. dan Simmons, H. (2004) Memprediksi Harga Akhir Lelang Online. Lokakarya Internasional
tentang Penambangan Data dan Metode Pemodelan Adaptif untuk Ekonomi dan Manajemen, Pisa,
Italia.
Hand, DJ (1994) Mendekonstruksi pertanyaan statistik (dengan diskusi). Jurnal Kerajaan
Masyarakat Statistik, Seri A, 157(3), hlm.317–356.
Hand, DJ (2008) Statistik: Pengantar yang Sangat Singkat. Pers Universitas Oxford, Oxford.
Jank, W. dan Shmueli, G. (2010) Pemodelan Lelang Online. John Wiley & Sons, Inc.,
Hoboken.
Katkar, R. dan Reiley, DH (2006) Harga cadangan publik versus rahasia dalam lelang eBay: hasil dari
eksperimen lapangan Pokemon. Kemajuan dalam Analisis dan Kebijakan Ekonomi, 6(2), pasal 7.
Kenett, RS (2015) Statistik: pandangan siklus hidup (dengan diskusi). Rekayasa Kualitas, 27(1),
hal.111–129.
Kenett, RS dan Salini, S. (2012) Analisis modern survei pelanggan: perbandingan model dan analisis
terintegrasi (dengan diskusi). Model Stokastik Terapan dalam Bisnis dan Industri, 27, hlm.465–475.
Kenett, RS dan Shmueli, G. (2014) Tentang kualitas informasi (dengan diskusi). Jurnal
Royal Statistical Society, Seri A, 177(1), hlm.3–38.
Marshall, A. (1920) Prinsip Ekonomi, edisi ke-8. MacMillan, London.
Patzer, GL (1995) Menggunakan Data Sekunder dalam Riset Pemasaran. Praeger, Westport, CT.
Shmueli, G. (2010) Untuk menjelaskan atau memprediksi? Ilmu Statistik, 25, hlm.289–310.
Sistem Informasi Manajemen Triwulanan, 35, hlm.553–572.
Tukey, JW (1977) Analisis Data Eksplorasi. Addison-Wesley, Reading, PA.
Wang, S., Jank, W. dan Shmueli, G. (2008) Menjelaskan dan memperkirakan harga lelang online dan
dinamikanya menggunakan analisis data fungsional. Jurnal Statistik Bisnis dan Ekonomi, 26, hlm.144–
160.
Kualitas tujuan, kualitas

data, dan kualitas analisis
2.1 Pendahuluan
Jauh lebih baik memberikan perkiraan jawaban atas pertanyaan yang tepat , yang sering kali
tidak jelas, daripada jawaban tepat atas pertanyaan yang salah, yang selalu dapat dibuat tepat.
John Tukey, 1962
Pada tingkat paling dasar, kualitas suatu tujuan yang diteliti bergantung pada apakah tujuan yang
dinyatakan itu menarik dan relevan baik secara ilmiah maupun praktis.
Pada tingkat berikutnya, kualitas suatu tujuan diperoleh dari penerjemahan tujuan ilmiah atau praktis menjadi
tujuan empiris. Langkah yang menantang ini memerlukan pengetahuan tentang domain masalah dan analisis
data serta memerlukan kolaborasi erat antara analis data dan pakar domain. Tujuan empiris yang terdefinisi
dengan baik adalah tujuan yang mencerminkan tujuan ilmiah atau praktis dengan tepat. Meskipun kumpulan
data dapat berguna untuk satu tujuan ilmiah g1 , kumpulan data tersebut bisa jadi sama sekali tidak berguna
untuk tujuan ilmiah kedua g2 .
Misalnya, data suhu rata-rata bulanan suatu kota dapat digunakan untuk mengukur dan memahami
tren masa lalu dan pola musiman, sasaran g1 , digunakan secara efektif untuk menghasilkantapi tidak bisa
prakiraan cuaca harian di masa depan, sasaran g2 . Oleh karena itu,
tantangannya adalah untuk menentukan pertanyaan empiris yang tepat yang sedang diteliti untuk menghindari
apa yang disebut Kimball (1957) sebagai “kesalahan jenis ketiga” atau “memberikan jawaban yang benar
terhadap pertanyaan yang salah.”

Kualitas tujuan, kualitas data, dan kualitas analisis 19
Tugas menentukan tujuan seringkali lebih sulit dibandingkan tahapan lainnya

sebuah pelajaran. Tangan (1994) mengatakan:
Jelas bahwa menetapkan pemetaan dari domain klien ke pertanyaan statistik adalah
salah satu bagian tersulit dalam analisis statistik.
Selain itu, Mackay, dan Oldford (2000) mencatat bahwa langkah penting ini jarang disebutkan
dalam buku teks pengantar statistik:
Memahami apa yang dapat dipelajari dari suatu penyelidikan sangatlah penting sehingga
mengejutkan bahwa hal ini jarang, jika tidak pernah, dibahas dalam pengantar statistik
apa pun. Dalam tinjauan sepintas, kami tidak menemukan teks statistik dasar yang
memberikan struktur untuk memahami masalah.
Beberapa penulis telah mengindikasikan bahwa tindakan menemukan dan merumuskan masalah
merupakan aspek kunci dari pemikiran dan kinerja kreatif, suatu tindakan yang berbeda, dan mungkin
lebih penting daripada, pemecahan masalah (lihat Jay dan Perkins, 1997).
Masalah kualitas definisi tujuan sering muncul ketika menerjemahkan bahasa pemangku
kepentingan ke dalam jargon empiris. Contohnya adalah seorang manajer pemasaran yang meminta
seorang analis untuk menggunakan data perusahaan yang ada untuk “memahami apa yang membuat
pelanggan merespons secara positif atau negatif terhadap iklan kami.” Analis mungkin menerjemahkan
pernyataan ini ke dalam tujuan empiris untuk mengidentifikasi faktor penyebab yang mempengaruhi
respons pelanggan terhadap iklan, yang kemudian dapat mengarah pada perancangan dan pelaksanaan
eksperimen acak. Namun, diskusi mendalam dengan manajer pemasaran dapat mengarahkan analis
untuk menemukan bahwa hasil analisis dimaksudkan untuk digunakan untuk menargetkan pelanggan
baru dengan iklan. Meskipun manajer menggunakan istilah bahasa Inggris “memahami”, tujuannya
dalam bahasa empiris adalah “memprediksi respons iklan pelanggan di masa depan”. Oleh karena itu,
analis harus mengembangkan dan mengevaluasi model prediktif, bukan model penjelasan. Untuk
menghindari miskomunikasi seperti itu, langkah penting bagi analis adalah mempelajari cara
memperoleh informasi yang diperlukan dari pemangku kepentingan dan memahami bagaimana tujuan
mereka diterjemahkan ke dalam bahasa empiris.
2.1.1 Perolehan tujuan
Salah satu pendekatan yang berguna untuk menyusun tujuan empiris adalah pembuatan skenario,
dimana analis menyajikan skenario yang berbeda kepada pemangku kepentingan tentang bagaimana
hasil analisis dapat digunakan. Umpan balik dari pemangku kepentingan membantu mempersempit
kesenjangan antara tujuan yang dimaksudkan dan terjemahan empirisnya. Pendekatan lain yang
digunakan dalam mengembangkan sistem teknologi informasi (TI) terintegrasi adalah dengan melakukan
perolehan tujuan dengan menggunakan peta organisasi. Disiplin yang dikembangkan sepenuhnya,
terkadang disebut rekayasa persyaratan berorientasi tujuan (GORE), dirancang untuk melakukan hal
tersebut (Dardenne et al., 1993; Regev dan Wegmann, 2005).
20 Kualitas tujuan, kualitas data, dan kualitas analisis
2.1.2 Dari teori ke hipotesis empiris

Dalam penelitian akademis, berbagai disiplin ilmu memiliki metodologi berbeda untuk menerjemahkan pertanyaan
ilmiah menjadi tujuan empiris. Dalam ilmu-ilmu sosial, seperti ekonomi atau psikologi, peneliti memulai dari teori
sebab akibat dan kemudian menerjemahkannya ke dalam hipotesis statistik melalui langkah operasionalisasi.
Langkah ini, dimana konsep abstrak dipetakan ke dalam variabel terukur, memungkinkan peneliti menerjemahkan
teori konseptual menjadi tujuan empiris. Misalnya, dalam linguistik kuantitatif, hipotesis ilmiah tentang kemampuan
bahasa manusia dan penggunaannya di dunia diterjemahkan ke dalam hipotesis statistik.
2.1.3 Kualitas tujuan, InfoQ, dan perolehan tujuan

Mendefinisikan tujuan penelitian secara tidak tepat, atau menerjemahkannya secara salah ke dalam tujuan
empiris, jelas akan berdampak negatif terhadap kualitas informasi (InfoQ). InfoQ mengandalkan, namun tidak
menilai kualitas, definisi tujuan. Kerangka InfoQ menawarkan pendekatan yang membantu memastikan
keselarasan tujuan penelitian dengan komponen penelitian lainnya. Karena definisi tujuan berhubungan langsung
dengan data, analisis data, dan utilitas, definisi InfoQ bergantung pada tujuan, U(f(X|g)), sehingga memerlukan
definisi tujuan yang jelas dan mempertimbangkannya di setiap langkah. Dengan mempertimbangkan tujuan
secara langsung, penggunaan kerangka InfoQ meningkatkan kesadaran terhadap tujuan yang dinyatakan,
sehingga memberikan peluang untuk mendeteksi tantangan atau masalah dengan tujuan yang dinyatakan.
Selain itu, kerangka InfoQ dapat digunakan untuk meningkatkan proses perolehan tujuan dan pembuatan
hipotesis. Seringkali peneliti merumuskan tujuan mereka setelah mereka melihat dan berinteraksi dengan data.
Dalam komentarnya pada makalah “Tentang Kualitas Informasi” (Knett dan Shmueli, 2013), Schouten (2013)
menulis tentang pentingnya dan kesulitan dalam menentukan tujuan studi dan peran kerangka InfoQ dalam
meningkatkan kualitas definisi tujuan. . Dia menulis:
Unsur yang menentukan kualitas informasi adalah tujuan atau sasaran yang telah ditetapkan
peneliti ketika memulai analisis. Dari pengalaman saya sendiri dan melihat analisis yang
dilakukan oleh orang lain, saya menyimpulkan bahwa tujuan penelitian mungkin tidak didefinisikan
dan/atau dinyatakan secara ketat sebelumnya. Tentu saja hal-hal tersebut harus didefinisikan
dengan baik untuk menilai kelayakan penggunaan data, namun sering kali eksplorasi dan analisis
data mempertajam pikiran peneliti dan tujuan terbentuk secara interaktif. Oleh karena itu, saya
yakin bahwa penilaian terhadap dimensi InfoQ sebenarnya dapat membantu dalam memperoleh
tujuan analisis yang lebih spesifik dan terperinci. Namun, saya menduga bahwa kerangka kerja
ini hanya akan efektif jika peneliti mempunyai tujuan yang jelas.
2.2 Kualitas data

Data mentah, seperti kentang mentah, biasanya perlu dibersihkan sebelum digunakan.
Thisted, di Tangan, 2008
Jarang sekali kita menemukan kumpulan data yang tidak mempunyai masalah kualitas.
Tangan, 2008
Kualitas data adalah subjek yang sangat penting. Sayangnya, hal ini merupakan salah
satu subjek yang paling sedikit dipahami dalam manajemen mutu dan sering kali
diabaikan begitu saja.
Godfrey, 2008
Kualitas data telah lama diakui oleh para ahli statistik dan analis data sebagai tantangan serius.
Hampir semua data memerlukan pembersihan sebelum dapat digunakan lebih lanjut untuk analisis.
Namun, tingkat kebersihan dan pendekatan pembersihan data bergantung pada tujuannya. Dengan
menggunakan notasi InfoQ, kualitas data biasanya menyangkut U(X|g).
Data yang sama dapat berisi informasi berkualitas tinggi untuk satu tujuan dan informasi berkualitas
rendah untuk tujuan lain. Hal ini telah disadari dan diatasi di beberapa bidang.
Mallows (1998) mengemukakan masalah yang ke-nol, menanyakan “Bagaimana data berhubungan
dengan masalah, dan data lain apa yang mungkin relevan?” Berikut ini kami secara singkat mengkaji
beberapa pendekatan terhadap kualitas data di berbagai bidang dan menunjukkan perbedaannya
dengan InfoQ.
2.2.1 Kualitas data tipe MIS

Dalam rekayasa basis data dan sistem informasi manajemen (MIS), istilah “kualitas data” mengacu
pada kegunaan data yang ditanyakan kepada orang yang menanyakannya. Wang dkk. (1993)
memberikan contoh berikut:
Tingkat kualitas data yang dapat diterima mungkin berbeda antara satu pengguna dengan pengguna lainnya.
Seorang investor yang secara longgar mengikuti suatu saham mungkin mempertimbangkan penundaan sepuluh
menit agar harga saham cukup tepat waktu, sedangkan seorang pedagang yang membutuhkan penawaran
harga secara real-time mungkin tidak mempertimbangkan sepuluh menit yang cukup tepat waktu.
Aspek lain yang terkadang dikaitkan dengan kualitas data adalah kesesuaian dengan spesifikasi
atau standar. Wang dkk. (1993) mendefinisikan kualitas data sebagai “kesesuaian dengan
persyaratan.” Untuk tujuan mengevaluasi kualitas data, mereka menggunakan “indikator kualitas
data.” Indikator-indikator ini didasarkan pada ukuran obyektif seperti sumber data, waktu pembuatan,
metode pengumpulan dan ukuran subyektif seperti tingkat kredibilitas suatu sumber yang ditugaskan
oleh peneliti. Di Inggris, misalnya, Departemen Kesehatan menggunakan jenis MIS untuk
mendefinisikan kualitas data sehubungan dengan kualitas data pasien medis dan layanan kesehatan
di Layanan Kesehatan Nasional (Departemen Kesehatan Inggris, 2004).
Lee dkk. (2002) mengusulkan metodologi penilaian dan benchmarking InfoQ, yang disebut
penilaian metodologi dan kualitas sistem informasi (AIMQ).
Fokus mereka adalah pada kegunaan data organisasi bagi penggunanya, khususnya data dari sistem
TI. Penulis mendefinisikan empat kategori InfoQ: intrinsik, kontekstual, representasional, dan
aksesibilitas. Sedangkan kategori intrinsik mengacu pada “informasi
[yang] memiliki kualitas tersendiri,” kategori kontekstual memperhitungkan tugas yang ada (dari sudut
pandang pengguna), dan dua kategori terakhir berkaitan dengan kualitas sistem informasi. Penggunaan
istilah “InfoQ” oleh Lee et al. menunjukkan bahwa mereka mempertimbangkan data dalam konteks
pengguna, bukan secara terpisah (seperti yang tersirat dalam istilah kualitas data). Metodologi AIMQ
digunakan untuk menilai dan membuat tolok ukur penggunaan data organisasi.
Pendekatan utama InfoQ yang diterapkan dalam konteks MIS adalah penerapan analisis resolusi
entitas (ER). ER adalah proses menentukan apakah dua referensi ke objek dunia nyata mengacu pada
objek yang sama atau dua objek berbeda. Tingkat kelengkapan, akurasi, ketepatan waktu, kepercayaan,
konsistensi, aksesibilitas dan aspek lain dari data referensi dapat mempengaruhi pengoperasian proses
ER dan menghasilkan hasil yang lebih baik atau lebih buruk. Inilah salah satu alasan mengapa ER
sangat erat kaitannya dengan bidang MIS IQ, sebuah disiplin baru yang berkaitan dengan
memaksimalkan nilai aset informasi organisasi dan memastikan bahwa produk informasi yang dihasilkan
memenuhi harapan pelanggan yang menggunakannya. Meningkatkan kualitas sumber referensi secara
dramatis akan meningkatkan hasil proses ER, dan sebaliknya, mengintegrasikan referensi melalui ER
akan meningkatkan kualitas informasi secara keseluruhan dalam sistem. Sistem ER umumnya
menggunakan empat teknik dasar untuk menentukan bahwa referensi setara dan harus dihubungkan:
pencocokan langsung, analisis asosiasi, kesetaraan yang dinyatakan, dan kesetaraan transitif. Untuk
pengenalan ER, lihat Talburt (2011). Untuk studi kasus perangkat lunak sumber terbuka yang melakukan
analisis ER, dalam konteks sistem layanan kesehatan, lihat Zhou dkk. (2010).
Gackowski (2005) mengulas buku-buku MIS yang populer dan menyatakan:
Buku-buku MIS yang ada saat ini masih kurang dalam hal peran pengguna akhir dan
terlebih lagi dalam hal penyebar informasi. Teks-teks tersebut terlalu sarat dengan
teknologi, dengan cakupan yang terlalu disederhanakan mengenai dasar-dasar data,
informasi, dan khususnya peran informasi dalam bisnis.
Perlakuan InfoQ dalam buku ini mengatasi kekosongan ini dan, dalam beberapa hal, kaitannya
dengan komunitas kualitas data seperti Asosiasi Internasional untuk Informasi dan Kualitas Data (IAIDQ).
Dalam konteks yang lebih luas, teknologi dapat meningkatkan kualitas data. Misalnya, dalam entri
data manual ke sistem otomatis, validasi data otomatis dapat memberikan umpan balik langsung
sehingga kesalahan entri data dapat diperbaiki saat itu juga.
Kemajuan teknologi dalam pencatatan elektronik, pemindai, RFID, entri elektronik, transfer data
elektronik, teknologi verifikasi data dan penyimpanan data yang kuat, serta instrumen pengukuran yang
lebih canggih, telah menghasilkan banyak data yang “lebih bersih” dari waktu ke waktu (Redman, 2007).
Masalah kualitas data ini berfokus pada U(X|g), yang berbeda dari InfoQ dengan mengecualikan
komponen analisis data f. Selain itu, referensi MIS terhadap utilitas biasanya bersifat kualitatif dan bukan
kuantitatif. Ia menganggap utilitas sebagai nilai informasi yang diberikan kepada penerima dalam
konteks penggunaan yang dimaksudkan. Di InfoQ, utilitas U(X|g) dipertimbangkan dengan perspektif
kuantitatif dan terdiri dari ukuran statistik seperti kesalahan prediksi atau bias estimasi.
2.2.2 Kualitas data statistik

Konsep serupa adalah kualitas data statistik yang telah dikembangkan dan digunakan dalam
statistik resmi dan organisasi internasional yang secara rutin mengumpulkan data. Konsep kualitas
data statistik mengacu pada kegunaan ringkasan statistik yang dihasilkan oleh badan statistik
nasional dan produsen statistik resmi lainnya. Ini adalah kasus khusus InfoQ di mana f setara
dengan menghitung statistik ringkasan (walaupun operasi ini mungkin tampak sangat sederhana,
namun tetap dianggap sebagai "analisis", karena sebenarnya melibatkan estimasi).
Organisasi-organisasi tersebut telah menciptakan kerangka kerja untuk menilai kualitas data
statistik. Dana Moneter Internasional (IMF) dan Organisasi untuk Kerja Sama dan Pembangunan
Ekonomi (OECD) masing-masing mengembangkan kerangka penilaian.
Aspek yang mereka nilai adalah relevansi, akurasi, ketepatan waktu, aksesibilitas, interpretabilitas,
koherensi dan kredibilitas. Dimensi-dimensi yang berbeda ini masing-masing dinilai secara terpisah
—baik secara subyektif maupun obyektif. Misalnya, definisi OECD tentang relevansi data statistik
mengacu pada penilaian kualitatif terhadap nilai yang disumbangkan oleh data. Aspek lain lebih
bersifat teknis. Misalnya saja aksesibilitas
mengacu pada seberapa mudah data dapat ditemukan dan diakses. Lihat Bab 3 untuk rincian lebih
lanjut mengenai dimensi kualitas data yang digunakan oleh pemerintah dan lembaga internasional.
Dalam konteks kualitas survei, lembaga resmi seperti Eurostat, Pusat Statistik Sains dan
Teknik Nasional, dan Statistik Kanada telah menciptakan dimensi kualitas untuk mengevaluasi
kualitas survei dengan tujuan memperoleh “data survei yang akurat” yang diukur dengan U setara
dengan mean square error (MSE) (lihat Biemer dan Lyberg (2003)). Lembaga-lembaga tersebut
juga telah menetapkan serangkaian dimensi kualitas data untuk tujuan mengevaluasi kualitas data.
Misalnya, dimensi kualitas Eurostat adalah relevansi konsep statistik, keakuratan perkiraan,
ketepatan waktu, dan ketepatan waktu dalam menyebarkan hasil, aksesibilitas, dan kejelasan
informasi, keterbandingan, koherensi, dan kelengkapan (lihat www.nsf.gov/statistics untuk National
pedoman dan standar Pusat Statistik Sains dan Teknik).
2.2.3 Kualitas data dalam statistik

Dalam literatur statistika, pembahasan mengenai kualitas data sebagian besar terfokus pada
kebersihan data dalam hal kesalahan entri data, nilai yang hilang, kesalahan pengukuran dan
sebagainya. Berbagai aspek kualitas data ini dapat diklasifikasikan ke dalam kelompok berbeda
menggunakan kriteria berbeda. Misalnya, Hand (2008) membedakan dua jenis masalah kualitas
data: data tidak lengkap (termasuk nilai yang hilang dan bias pengambilan sampel) dan data yang
salah.
Dalam kerangka InfoQ, kami membedakan antara masalah kualitas data dan masalah InfoQ
berdasarkan apakah masalah tersebut hanya berkaitan dengan X atau dengan satu atau lebih
komponen InfoQ. Suatu isu disebut isu “kualitas data” jika isu tersebut mencirikan aspek teknis dari
data yang dapat “dibersihkan” dengan teknologi yang memadai dan tanpa mengetahui tujuannya.
Oleh karena itu, aspek seperti kesalahan entri data, kesalahan pengukuran, dan data yang rusak
diklasifikasikan sebagai “kualitas data”. Permasalahan data yang melibatkan tujuan, analisis dan/
atau kegunaan penelitian diklasifikasikan sebagai permasalahan “InfoQ”. Ini
mencakup bias pengambilan sampel dan nilai yang hilang, yang bukan sekadar kesalahan teknis: definisi
atau dampaknya bergantung pada tujuan penelitian g. Bias pengambilan sampel, misalnya, bersifat relatif
terhadap populasi yang diteliti: sampel yang sama dapat menjadi bias untuk satu tujuan dan tidak memihak
untuk tujuan lainnya. Nilai yang hilang dapat menambah ketidakpastian dalam mencapai satu tujuan, namun
mengurangi ketidakpastian dalam mencapai tujuan lainnya (misalnya, informasi yang hilang dalam laporan
keuangan dapat merugikan dalam menilai kinerja keuangan, namun berguna untuk mendeteksi perilaku
curang).
Klasifikasi masalah kualitas data lainnya juga dimungkinkan. Schouten (2013) membedakan antara
kualitas data dan InfoQ, dengan mengatakan “kualitas data adalah tentang data yang ingin dimiliki dan InfoQ
adalah tentang data yang ingin dimiliki.”
Menurutnya, berbagai metode digunakan untuk meningkatkan kualitas data dan InfoQ.
“Pemrosesan, pengeditan, imputasi, dan pembobotan data [bertujuan] untuk mengurangi kesenjangan antara
data yang ada dan data yang ingin dimiliki. Metode statistik ini bertujuan untuk meningkatkan kualitas …
data. Analisis data adalah tentang menjembatani kesenjangan antara data yang diinginkan dan yang
diinginkan.”
Di bagian selanjutnya dalam buku ini, kami menggunakan klasifikasi “kualitas data” dan “InfoQ”
berdasarkan apakah masalahnya berkaitan dengan data saja (X) atau setidaknya pada satu komponen InfoQ
lagi.
2.3 Kualitas analisis

Semua model salah, namun ada pula yang berguna.
Kotak, 1979
Kualitas analisis mengacu pada kecukupan analisis empiris sehubungan dengan data dan tujuan yang
ada. Kualitas analisis mencerminkan kecukupan pemodelan sehubungan dengan data dan untuk menjawab
pertanyaan yang menarik. Godfrey (2008) menggambarkan kualitas analisis yang rendah sebagai “model
yang buruk dan teknik analisis yang buruk, atau bahkan menganalisis data dengan cara yang sepenuhnya
salah.” Kami menambahkan kemampuan pemangku kepentingan untuk menggunakan hasil analisis. Mari
kita perhatikan beberapa aspek kualitas analisis, sehingga menjadi jelas perbedaannya dengan InfoQ dan
hubungan keduanya.
2.3.1 Kebenaran
Pendidikan statistika serta pendidikan di bidang terkait lainnya seperti ekonometrik dan penambangan data
ditujukan untuk mengajarkan analisis data berkualitas tinggi. Teknik pemeriksaan kualitas analisis meliputi
metode grafis dan kuantitatif seperti analisis residu dan validasi silang serta evaluasi kualitatif seperti
pertimbangan endogenitas (reverse causation) dalam studi kausal. Kualitas analisis bergantung pada keahlian
analis dan metode empiris serta perangkat lunak yang tersedia pada saat analisis.
Kualitas analisis sangat bergantung pada tujuan yang ingin dicapai. Penggabungan analisis dan tujuan
memungkinkan pandangan yang lebih luas tentang kecukupan analisis, karena pendekatan “buku teks”
sering kali mempertimbangkan kesesuaian metode untuk digunakan dengan tipe data tertentu untuk tujuan tertentu.
sasaran. Namun penggunaannya mungkin berada di luar cakupan tersebut dan tetap berguna. Sebagai
contoh, penggunaan model regresi linier dalam buku teks memerlukan data yang mengikuti asumsi observasi
independen. Namun, penggunaan regresi linier untuk peramalan deret waktu, dimana observasi biasanya
berkorelasi otomatis, banyak digunakan dalam praktik karena memenuhi tujuan peramalan yang cukup
akurat. Pengklasifikasi Naive Bayes dibuat berdasarkan asumsi independensi bersyarat dari prediktor,
namun meskipun asumsi tersebut dilanggar di sebagian besar aplikasi, Naive Bayes memberikan kinerja
klasifikasi yang sangat baik.
Kualitas analisis tidak hanya mengacu pada model statistik yang digunakan tetapi juga pada
metodologinya. Misalnya, membandingkan model prediktif dengan tolok ukur merupakan langkah
metodologis yang diperlukan.
2.3.2 Kegunaan analisis

Kegunaan metode analisis bagi pemangku kepentingan merupakan aspek lain dari kualitas analisis. Dalam
penerapan seperti risiko kredit, terdapat peraturan mengenai informasi yang harus disampaikan kepada
nasabah yang permintaan kreditnya ditolak. Dalam kasus seperti ini, penggunaan model yang tidak
transparan dalam hal variabel yang digunakan (“model kotak hitam”) akan memiliki kualitas analisis yang
rendah, meskipun model tersebut cukup menolak/memberikan kredit kepada calon pelanggan.
2.3.3 Budaya analisis data

Terakhir, ada aspek subjektif dari kualitas analisis. Bidang akademis yang berbeda mempertahankan
“budaya” dan norma yang berbeda tentang apa yang dianggap sebagai analisis data yang dapat diterima.
Misalnya, model regresi sering digunakan untuk inferensi kausal dalam ilmu-ilmu sosial, sedangkan di
bidang lain penggunaan seperti itu dianggap tidak dapat diterima. Oleh karena itu, kualitas analisis juga
bergantung pada budaya dan lingkungan peneliti atau tim analisis.
Saat mempertimbangkan InfoQ, kualitas analisis tidak diuji berdasarkan asumsi buku teks atau sifat
teoretis. Sebaliknya, hal itu dinilai berdasarkan tujuan tertentu g
dan kegunaan U menggunakan metode analisis f dengan kumpulan data spesifik X untuk tujuan tertentu.
2.4 Kualitas utilitas

Seperti tujuan penelitian, kegunaan suatu penelitian menyediakan hubungan antara domain dan dunia
empiris. Analis harus memahami tujuan penggunaan dan tujuan analisis untuk memilih utilitas empiris atau
ukuran kinerja yang tepat.
Istilah “utilitas” mengacu pada kegunaan keseluruhan dari apa yang ingin dicapai oleh penelitian, serta
serangkaian ukuran dan metrik yang digunakan untuk menilai hasil empiris.
2.4.1 Kinerja statistik

Suatu model mungkin berguna dalam satu dimensi dan lebih buruk daripada tidak berguna
dalam dimensi lain.
Berk dkk., 2013

Bidang statistik menawarkan banyak ukuran utilitas, tes, dan grafik yang bertujuan untuk
mengukur kinerja model statistik. Metode berkisar dari klasik hingga Bayesian; fungsi kerugian
berkisar dari metrik jarak L1 hingga jarak L2 ; metrik didasarkan pada data dalam sampel atau di
luar sampel. Hal ini mencakup pengukuran kesesuaian (misalnya, analisis residu) dan pengujian
serta pengukuran kekuatan hubungan (misalnya, nilai R2 dan p dalam model regresi).
Ukuran kinerja prediktif mencakup metrik yang dikenakan sanksi seperti kriteria informasi
Akaike (AIC) dan kriteria informasi Bayes (BIC) dan kriteria informasi keluar.
ukuran sampel seperti root mean square error (RMSE), mean absolute perception error (MAPE)
dan agregasi kesalahan prediksi lainnya. Seseorang dapat menggunakan fungsi biaya simetris
pada kesalahan prediksi atau fungsi biaya asimetris yang akan memberikan sanksi lebih besar
terhadap prediksi yang berlebihan atau terlalu rendah. Bahkan dalam pemodelan prediktif, terdapat
berbagai metrik tergantung pada tugas prediksi yang tepat dan tipe data: untuk klasifikasi
(memprediksi hasil kategorikal) seseorang dapat menggunakan matriks klasifikasi, kesalahan
keseluruhan, ukuran sensitivitas dan spesifisitas, perolehan dan presisi, penerima kurva operasi
(ROC), dan metrik area di bawah kurva (AUC). Untuk memprediksi catatan numerik, terdapat
berbagai agregasi kesalahan prediksi yang mempertimbangkan arah dan besarnya kesalahan
secara berbeda. Untuk menentukan peringkat rekor baru, diagram peningkatan adalah yang paling
umum.
Sebagai catatan tambahan, Akaike awalnya menyebut pendekatannya sebagai “prinsip
maksimalisasi entropi”, karena pendekatan ini didasarkan pada konsep entropi dalam teori informasi.
Meminimalkan AIC dalam model statistik setara dengan memaksimalkan entropi dalam sistem
termodinamika; dengan kata lain, pendekatan teori informasi dalam statistik pada dasarnya
menerapkan hukum kedua termodinamika. Oleh karena itu, AIC menggeneralisasi karya Boltzmann
tentang entropi ke pemilihan model dalam konteks regresi umum (GR). Kita kembali ke dimensi
penting generalisasi dalam konteks dimensi InfoQ di bab berikutnya.
Dengan begitu banyak potensi ukuran kinerja, kualitas utilitas sangat besar
tergantung pada kemampuan dan pengetahuan peneliti untuk memilih metrik yang memadai.
2.4.2 Kegunaan teoretis dan ekonomis keputusan

Dalam penerapan praktis, sering kali terdapat biaya dan keuntungan yang terkait dengan keputusan
yang harus diambil berdasarkan hasil pemodelan. Misalnya, dalam deteksi penipuan, kesalahan
klasifikasi kasus penipuan dikaitkan dengan sejumlah biaya, sedangkan kesalahan klasifikasi
kasus non-penipuan dikaitkan dengan biaya lainnya. Oleh karena itu, dalam studi jenis ini, penting
untuk menggunakan ukuran berbasis biaya untuk menilai kegunaan model. Di bidang kendali
proses statistik (SPC), parameter bagan kendali klasik didasarkan pada distribusi sampling dari
statistik yang dipantau (biasanya mean sampel atau deviasi standar). Kelas peta kendali yang
berbeda didasarkan pada “desain ekonomi” (lihat Montgomery, 1980; Kenett et al., 2014), di mana
batas bagan, ukuran sampel, dan waktu antar sampel ditetapkan berdasarkan model minimalisasi
biaya yang memperhitungkan biaya. karena pengambilan sampel, penyelidikan, perbaikan dan
pembuatan produk cacat (Serel, 2009).
Teori keputusan memberikan kerangka rasional untuk memilih antara tindakan alternatif ketika
konsekuensi yang dihasilkan dari pilihan ini tidak diketahui secara sempurna. Dalam kata pengantar
Lindley untuk volume yang diedit oleh Di Bacco dkk. (2004), ia menjawab pertanyaan apa yang
dimaksud dengan statistik dengan mengacu pada orang-orang yang ia anggap sebagai bapak
pendiri: Harold Jeffreys, Bruno de Finetti, Frank Ramsey, dan Jimmie Savage:
Jeffreys dan de Finetti mengembangkan probabilitas sebagai apresiasi koheren

terhadap ketidakpastian, namun Ramsey dan Savage memandang dunia dengan
cara yang berbeda. Titik awal mereka bukanlah konsep ketidakpastian melainkan
pengambilan keputusan dalam menghadapi ketidakpastian. Mereka berpikir dalam
bentuk tindakan, bukan dalam kontemplasi pasif terhadap dunia yang tidak menentu.
Koherensi bagi mereka bukanlah soal bagaimana keyakinan Anda bersatu, melainkan
apakah beberapa tindakan Anda, yang dipertimbangkan secara kolektif, masuk
akal….
2.4.3 Kinerja komputasi

Dalam aplikasi industri, waktu komputasi seringkali sangat penting. Mesin pencari Google harus
mengembalikan hasil kueri dengan jeda waktu yang sangat sedikit; Amazon dan Facebook harus
memilih produk atau iklan yang akan ditampilkan segera setelah pengguna mengklik. Bahkan
dalam studi akademis, dalam beberapa kasus kelompok penelitian tidak dapat menunggu berbulan-
bulan untuk menyelesaikan proses, sehingga menggunakan jalan pintas, perkiraan, komputasi
paralel, dan solusi lain untuk mempercepat waktu proses. Dalam kasus seperti ini, utilitas juga
mencakup pengukuran komputasi seperti waktu proses dan sumber daya komputasi, serta skalabilitas.
2.4.4 Jenis utilitas lainnya

Interpretabilitas hasil analisis mungkin dianggap penting bagi kegunaan suatu model, di mana
seseorang lebih memilih model yang dapat diinterpretasikan daripada model “kotak hitam”,
sementara dalam kasus lain pengguna mungkin agnostik terhadap interpretasi, sehingga
interpretabilitas bukan bagian dari fungsi utilitas.
Bagi akademisi, kegunaan penting dari analisis data adalah publikasi! Oleh karena itu, pilihan
metrik kinerja mungkin diarahkan untuk mencapai persyaratan di bidangnya. Hal ini dapat sangat
bervariasi tergantung bidangnya. Misalnya, jurnal Basic and Applied Social Psychology baru-baru
ini mengumumkan bahwa mereka tidak akan mempublikasikan nilai p, uji statistik, pernyataan
signifikansi, atau interval kepercayaan dalam naskah yang diserahkan (Trafimow dan Marks, 2015).
2.4.5 Menghubungkan utilitas empiris dan utilitas studi

Ketika mempertimbangkan kualitas utilitas U, ada dua bahaya yang dapat menurunkan kualitas: (i)
tidak adanya utilitas studi, sehingga membatasi studi pada ukuran utilitas statistik, dan (ii)
ketidaksesuaian antara ukuran utilitas dan utilitas studi.
Sehubungan dengan fokus hanya pada utilitas statistik, kita dapat mengutip lagi Lindley (2004)
yang mengkritik publikasi saat ini yang menggunakan metode Bayesian karena mengabaikan
mempertimbangkan utilitas. Dia menulis:
Jika saat ini kita melihat makalah statistik biasa yang menggunakan metode Bayesian,
probabilitas akan banyak digunakan, namun utilitas, atau utilitas yang diharapkan
maksimum (MEU), jarang disebutkan… Saat saya melihat statistik saat ini, saya Saya
heran dengan kegagalan total dalam menggunakan utilitas…. Kemungkinannya ada
tetapi kegunaannya tidak ada. Kegagalan ini menjadi kritik utama saya terhadap statistik
saat ini; kita mengabaikan tugas kita di tengah jalan, membuat kesimpulan tetapi menolak
menjelaskan kepada orang lain bagaimana bertindak berdasarkan kesimpulan tersebut.
Kurangnya makalah yang memberikan diskusi mengenai utilitas adalah kelalaian lain
dari publikasi kami.
Memilih ukuran yang tepat bergantung pada identifikasi yang benar dari kegunaan penelitian yang
mendasarinya serta penerjemahan yang tepat dari kegunaan penelitian ke dalam metrik empiris.
Hal ini serupa dengan kasus definisi tujuan dan kualitasnya.
Ukuran kinerja harus bergantung pada tujuan yang ingin dicapai, sifat data, dan metode analisis.
Misalnya, kesalahan umum di berbagai bidang adalah penggunaan statistik R2 untuk mengukur akurasi
prediksi (lihat Shmueli, 2010; Shmueli dan Koppius, 2011). Ingat contoh kita sebelumnya tentang
seorang manajer pemasaran yang memberi tahu analis bahwa tujuan analisisnya adalah untuk
“memahami respons pelanggan terhadap iklan,” sementara model tersebut secara efektif digunakan
untuk menargetkan pelanggan baru dengan iklan. Jika analis menggunakan (secara salah) jalur
pemodelan penjelas, maka pilihan ukuran kinerja penjelas mereka, seperti R2 (“Seberapa baik model
saya menjelaskan pengaruh informasi pelanggan terhadap respons iklan mereka?”), akan menurunkan
kualitas utilitas . Utilitas berkualitas rendah ini biasanya ditemukan pada tahap penerapan model, saat
kekuatan prediktif model penjelas akan diamati untuk pertama kalinya.
Kesalahan lain yang menurunkan kualitas utilitas adalah hanya mengandalkan nilai p untuk menguji
hipotesis dengan sampel yang sangat besar, sebuah praktik umum di beberapa bidang yang kini
menggunakan ratusan ribu atau bahkan jutaan observasi. Karena nilai p merupakan fungsi dari ukuran
sampel, dengan sampel yang sangat besar seseorang dapat memperoleh nilai p yang kecil (sangat
signifikan secara statistik) bahkan untuk efek yang sangat kecil sekalipun. Oleh karena itu, kita harus
mengkaji besarnya dampak dan mempertimbangkan relevansi praktisnya (lihat Lin dkk., 2013).
Dengan menjamurnya kontes penambangan data, yang diselenggarakan di platform publik seperti
kaggle.com, terdapat penekanan kuat pada pencarian model yang mengoptimalkan ukuran kinerja
tertentu, seperti RMSE atau peningkatan. Namun, dalam studi kehidupan nyata, jarang sekali suatu
model dipilih berdasarkan ukuran utilitas tunggal.
Sebaliknya, analis mempertimbangkan beberapa ukuran dan mengkaji kegunaan model berdasarkan
berbagai pertimbangan praktis, seperti kecukupan penggunaan oleh pemangku kepentingan, biaya
penerapan, dan ketahanan dalam berbagai kondisi yang mungkin terjadi. Demikian pula, dalam
penelitian akademis, pemilihan model tidak didasarkan pada optimalisasi satu ukuran utilitas, melainkan
pada kriteria tambahan seperti kehematan dan kekokohan, dan yang terpenting, pada dukungan
terhadap penemuan-penemuan yang bermakna.
Oleh karena itu, kualitas utilitas berdampak langsung pada InfoQ. Seperti halnya kualitas
tujuan, kerangka InfoQ meningkatkan kesadaran terhadap hubungan antara domain dan
dunia empiris, sehingga membantu menghindari keterputusan antara analisis dan kenyataan,
seperti yang terjadi dalam kompetisi data mining.
2.5 Ringkasan
Bab ini meletakkan dasar untuk sisa buku ini dengan memeriksa masing-masing dari empat
komponen InfoQ (tujuan, data, analisis, dan kegunaan) dari perspektif kualitas. Kami
mempertimbangkan kualitas intrinsik dari komponen-komponen ini, sehingga membedakan
kualitas komponen tunggal dari gagasan InfoQ secara keseluruhan. Bab berikutnya
memperkenalkan delapan dimensi InfoQ yang digunakan untuk mendekonstruksi konsep
umum InfoQ. InfoQ menggabungkan empat komponen yang dibahas di sini dengan delapan
dimensi yang dibahas dalam Bab 3. Contoh dalam bab ini dan bab lainnya menunjukkan
bagaimana InfoQ menggabungkan pengumpulan dan pengorganisasian data dengan analisis
dan operasionalisasi data, yang dirancang untuk mencapai tujuan spesifik yang mencerminkan
fungsi utilitas tertentu. Dalam arti tertentu, InfoQ memperluas domain teori keputusan dengan
mempertimbangkan implikasi modern dari ketersediaan data, analisis canggih dan dapat
diakses, serta sistem berbasis data dengan tugas operasional. Setelah Bab 3 kami
mencurahkan bab-bab khusus untuk tahap pengumpulan data dan desain studi serta tahap
pengumpulan pascadata, dari perspektif InfoQ. Contoh-contoh dalam berbagai penerapan disediakan di
Referensi
Berk, RA, Brown, L., George, E., Pitkin, E., Traskin, M., Zhang, K. dan Zhao, L. (2013)
Apa yang Dapat Anda Pelajari dari Model Kausal yang Salah, dalam Buku Pegangan Analisis Kausal
untuk Penelitian Sosial, Morgan, SL (editor), Springer, Dordrecht.
Biemer, P. dan Lyberg, L. (2003) Pengantar Kualitas Survei. John Wiley & Sons, Inc.,
Hoboken, NJ.
Box, GEP (1979) Kekokohan dalam Strategi Pembangunan Model Ilmiah, dalam Kekokohan dalam
Statistik, Launer, RL dan Wilkinson, GN (editor), Academic Press, New York, hlm.201–236.
Dardenne, A., van Lamsweerde, A. dan Fickas, S. (1993) akuisisi persyaratan yang diarahkan pada tujuan.
Ilmu Pemrograman Komputer, 20, hlm.3–50.
Di Bacco, N., d'Amore, G. dan Scalfari, F. (2004) Studi Statistik Bayesian Terapan dalam
Biologi dan Kedokteran. Springer, Boston, MA.
Gackowski, Z. (2005) Sistem informasi dalam lingkungan bisnis: pandangan yang berfokus pada tujuan.
Menginformasikan Jurnal Sains, 8, hlm.101–122.
Godfrey, AB (2008) Memperhatikan kualitas data. Majalah Six Sigma Forum, 8, hlm.5–6.
Hand, DJ (1994) Mendekonstruksi pertanyaan statistik (dengan diskusi). Jurnal Kerajaan
Masyarakat Statistik, Seri A, 157(3), hlm.317–356.
Jay, ES dan Perkins, DN (1997) Kompas Kreativitas: Tinjauan Penemuan Masalah, dalam Buku Panduan
Penelitian Kreativitas, vol. 1, Runco, MA (editor), Hampton, Cresskill, NJ, hlm.257–293.
Kenett, RS dan Shmueli, G. (2013) Tentang kualitas informasi. Jurnal Statistik Kerajaan
Masyarakat, Seri A, 176(4), hlm.1–25.
Kenett, R., Zacks, S. dan Amberti, D. (2014) Statistik Industri Modern: Dengan Aplikasi di R, MINITAB
dan JMP, edisi ke-2. John Wiley & Sons, Chichester, Sussex Barat, Inggris.
Kimball, AW (1957) Kesalahan jenis ketiga dalam konsultasi statistik. Jurnal Amerika
Asosiasi Statistik, 52, 133–142.
Lee, Y., Strong, D., Kahn, B. dan Wang, R. (2002) AIMQ: metodologi penilaian kualitas informasi.
Informasi & Manajemen, 40, hlm.133–146.
Lin, M., Lucas, H. dan Shmueli, G. (2013) Terlalu besar untuk gagal: sampel besar dan masalah nilai
p. Penelitian Sistem Informasi, 24(4), hlm.906–917.
Lindley, DV (2004) Beberapa Refleksi Keadaan Statistik Saat Ini, dalam Studi Statistika Bayesian
Terapan dalam Biologi dan Kedokteran, di Bacco, M., d'Amore, G. dan Scalfari, F. (editor), Springer,
Boston, MA.
Mackay, RJ dan Oldford, RW (2000) Metode ilmiah, metode statistik, dan kecepatan cahaya. Ilmu
Statistik, 15(3), hlm.254–278.
Mallows, C. (1998) Masalah ke-nol. Ahli Statistik Amerika, 52, hlm.1–9.
Montgomery, DC (1980) Desain ekonomi dari diagram kendali: tinjauan dan literatur
survei. Jurnal Teknologi Kualitas, 12, hlm.75–87.
Redman, T. (2007) Statistik dalam Kualitas Data dan Informasi, dalam Ensiklopedia Statistik dalam
Kualitas dan Keandalan, Ruggeri, F., Kenett, RS dan Faltin, F. (pemimpin redaksi), John Wiley &
Sons, Ltd, Chichester , Inggris.
Regev, G. dan Wegmann, W. (2005) Dari Mana Sasaran Berasal: Prinsip-Prinsip yang Mendasari
Rekayasa Persyaratan Berorientasi Sasaran. Prosiding Konferensi Rekayasa Persyaratan
Internasional IEEE ke-13 (RE'05), Paris, Prancis.
Schouten, B. (2013) Komentar tentang 'kualitas informasi'. Jurnal Statistik Kerajaan
Masyarakat, Seri A, 176(4), hlm.27–29.
Serel, DA (2009) Desain ekonomi diagram kendali EWMA berdasarkan fungsi kerugian.
Pemodelan Matematika dan Komputer, 49(3–4), hlm.745–759.
Shmueli, G. (2010) Untuk menjelaskan atau memprediksi? Ilmu Statistik, 25(3), hlm.289–310.
MIS Triwulanan, 35(3), hlm.553–572.
Talburt, JR (2011) Resolusi Entitas dan Kualitas Informasi. Morgan Kaufmann, Burlington, VT.
Trafimow, D. dan Marks, M. (2015) Editorial. Psikologi Sosial Dasar dan Terapan, 37(1), hlm.1–2.
Tukey, JW (1962) Masa depan analisis data. Sejarah Statistik Matematika, 33( 1), hlm.1–67.
Departemen Kesehatan Inggris (2004) Strategi Penjaminan Kualitas Informasi NHS – Draf Konsultasi.
Departemen Kesehatan, London. http://webarchive.nationalarchives.gov.
Inggris/20130107105354/http://www.dh.gov.uk/prod_consum_dh/groups/dh_digitalassets/@dh/
@en/documents/digitalasset/dh_4087588.pdf (diakses 2 Mei 2016).
Wang, RY, Kon, HB dan Madnick, SE (1993) Analisis Persyaratan Kualitas Data dan
Pemodelan. Konferensi Internasional ke-9 tentang Rekayasa Data, Wina.
Zhou, Y., Talburt, J., Su, Y. dan Yin, L. (2010) OYSTER: Alat Resolusi Entitas dalam Pertukaran
Informasi Kesehatan. Prosiding Konferensi Internasional Kelima tentang Kerja Sama dan Promosi
Sumber Daya Informasi dalam Sains dan Teknologi (COINFO10), hlm.356–362.
Dimensi kualitas
informasi dan penilaian InfoQ
3.1 Pendahuluan
Kualitas informasi (InfoQ) adalah abstraksi atau konstruksi holistik. Untuk dapat menilai konstruksi
seperti itu dalam praktiknya, kami mengoperasionalkannya ke dalam variabel-variabel yang dapat diukur.
Seperti InfoQ, kualitas data juga merupakan konstruksi yang memerlukan operasionalisasi. Persoalan
penilaian kualitas data telah dibahas dan diterapkan di beberapa bidang dan oleh beberapa organisasi
internasional. Kami memulai bab ini dengan melihat berbagai pendekatan dalam mengoperasionalkan
kualitas data. Kami kemudian mengambil, di Bagian 3.2, pendekatan serupa untuk mengoperasionalkan
InfoQ. Bagian 3.3 membahas tentang metode penilaian dimensi InfoQ dan Bagian 3.4 memberikan
contoh penilaian berbasis peringkat InfoQ. Contoh mendalam tambahan diberikan di Bagian II.
3.1.1 Mengoperasionalkan “kualitas data” dalam riset pemasaran

Dalam riset pemasaran dan literatur medis, kualitas data dinilai dengan menentukan kriteria
keterkinian, keakuratan, ketersediaan, dan relevansi kumpulan data.
(Patzer, 1995):
1. Kekinian mengacu pada durasi antara waktu pengumpulan data dan waktu penelitian dilakukan.
2. Akurasi mengacu pada kualitas data.

32 Dimensi kualitas informasi dan penilaian InfoQ
3. Ketersediaan menggambarkan informasi dalam data yang tersedia bagi

analis.
4. Relevansi mengacu pada relevansi data dengan tujuan analisis: apakah data memuat variabel
yang diperlukan dalam bentuk yang benar dan apakah data tersebut diambil dari populasi yang
diminati.
Kaynak dan Herbig (2014) menyebutkan empat kriteria yang perlu dipertimbangkan untuk kualitas
data dalam riset pemasaran lintas budaya:
1. Kompatibilitas dan komparabilitas—Saat membandingkan kumpulan data yang berbeda dari

berbagai negara, apakah digunakan unit pengukuran dan definisi yang serupa?
2. Akurasi dan keandalan data—Apakah data telah diselewengkan secara sadar,

atau apakah koleksinya cacat?
3. Keterkinian—Apakah data diperbarui secara jarang dan tidak terduga?
4. Ketersediaan
Keempat kriteria Patzer dan Kaynak dan Herbig mempertimbangkan data (X) dan tujuan (g), namun
tidak mempertimbangkan metode analisis data (f ) dan utilitas (U). Secara khusus, keterkinian, akurasi,
keandalan, ketersediaan, dan komparabilitas merupakan karakteristik kumpulan data dan berhubungan
secara implisit dengan tujuan analisis, sedangkan hanya relevansi yang berhubungan langsung dengan
data dan tujuan analisis.
3.1.2 Mengoperasionalkan “kualitas data” dalam penelitian kesehatan masyarakat
Boslaugh (2007) mempertimbangkan tiga pertanyaan utama untuk membantu menilai kualitas data
sekunder (data yang dikumpulkan untuk tujuan selain penelitian yang ada):
1. Apa tujuan awal pengumpulan data tersebut?
2. Jenis data apa, kapan dan bagaimana data dikumpulkan?
3. Prosedur pembersihan dan/atau pengodean ulang apa yang telah diterapkan pada data?
Pertanyaan-pertanyaan ini berguna pada tahap pra-penelitian, ketika seseorang harus mengevaluasi
kegunaan kumpulan data untuk penelitian yang sedang dilakukan. Konsep dalam ketiga pertanyaan
tersebut dapat diringkas menjadi tujuan pengumpulan, tipe data, umur data, instrumen dan proses
pengumpulan data, dan prapemrosesan data. Kriteria tersebut dapat dikelompokkan ke dalam kriteria
“kualitas sumber” dan “kualitas data” (Kaynak dan Herbig, 2014). Jelas sekali, kualitas sumber
mempengaruhi kualitas data:
Hampir tidak mungkin untuk mengetahui terlalu banyak tentang proses pengumpulan
data karena hal ini dapat mempengaruhi kualitas data dalam banyak hal, beberapa di
antaranya tidak terlihat jelas.
Dimensi kualitas informasi dan penilaian InfoQ 33
Boslaugh (2007, hal. 5) lebih lanjut mempertimbangkan ketersediaan, kelengkapan, dan format data:
Kumpulan data sekunder harus diperiksa dengan hati-hati untuk memastikan bahwa data tersebut
mencakup data yang diperlukan, bahwa data tersebut didefinisikan dan diberi kode sedemikian
rupa sehingga memungkinkan dilakukannya analisis yang diinginkan, dan bahwa peneliti akan
diizinkan untuk mengakses data yang diperlukan.
Kami sekali lagi mencatat bahwa pertanyaan dan kriteria yang disebutkan berhubungan dengan data dan
tujuan, namun tidak dengan metode atau kegunaan analisis; namun definisi InfoQ memerlukan keempat
komponen tersebut.
3.1.3 Mengoperasionalkan “kualitas data” dalam

sistem informasi manajemen
Dalam bidang sistem informasi manajemen (SIM), kualitas data diartikan sebagai tingkat kesesuaian terhadap
spesifikasi atau standar. Wang dkk. (1993) mendefinisikan kualitas data sebagai “kesesuaian dengan persyaratan.”
Mereka mengoperasionalkan konstruksi ini dengan mendefinisikan indikator kualitas yang didasarkan pada
ukuran objektif seperti sumber data, waktu pembuatan, dan metode pengumpulan, serta ukuran subjektif seperti
tingkat kredibilitas data yang ada, sebagaimana ditentukan oleh peneliti.
Seperti disebutkan dalam Bab 2, Lee dkk. (2002) mengusulkan metodologi penilaian dan benchmarking
InfoQ sistem TI yang disebut AIMQ. Mereka menyusun 15 dimensi dari makalah akademis di MIS: aksesibilitas,
jumlah yang sesuai, dapat dipercaya, kelengkapan, representasi ringkas, representasi konsisten, kemudahan
pengoperasian, bebas kesalahan, interpretasi, objektivitas, relevansi, reputasi, keamanan, ketepatan waktu, dan
pemahaman. Mereka kemudian mengelompokkan 15 dimensi tersebut ke dalam empat kategori: intrinsik,
kontekstual, representasional, dan aksesibilitas. Meskipun mereka menggunakan istilah IQ, namun berbeda
dengan InfoQ. Konsep IQ menunjukkan pertimbangan pengguna sistem TI (dan oleh karena itu beberapa
dimensinya mencakup relevansi, ketepatan waktu, dll.). Namun, IQ sama sekali tidak mempertimbangkan analisis
data. Untuk mengoperasionalkan empat kategori, Lee et al. (2002) mengembangkan kuesioner dengan delapan
item untuk masing-masing 15 dimensi. Instrumen ini kemudian digunakan untuk menilai sistem TI suatu organisasi
dan untuk membandingkannya dengan praktik terbaik dan organisasi lain.
3.1.4 Mengoperasionalkan “kualitas data” di

pemerintah dan organisasi internasional
Menilai kualitas data adalah salah satu aspek inti pekerjaan lembaga statistik.
Instansi pemerintah dan organisasi internasional yang mengumpulkan data untuk pengambilan keputusan telah
mengembangkan operasionalisasi kualitas data dengan mempertimbangkan berbagai dimensi. Kualitas data
abstraksi biasanya didefinisikan sebagai “kesesuaian untuk digunakan” dalam kaitannya dengan kebutuhan
pengguna. Konstruk ini dioperasionalkan dengan mempertimbangkan sekumpulan dimensi. Kami secara singkat
mencantumkan dimensi yang digunakan oleh beberapa organisasi terkemuka.
Konsep kualitas data statistik telah dikembangkan dan digunakan dalam statistik resmi Eropa serta organisasi
seperti Dana Moneter Internasional (IMF),
Statistik Kanada, dan Organisasi untuk Kerjasama Ekonomi dan Pembangunan (OECD). OECD
mengoperasionalkan konstruksi ini dengan mendefinisikan tujuh dimensi penilaian kualitas (lihat bab 5
dalam Giovanni, 2008):
1. Relevansi— Penilaian kualitatif terhadap nilai yang disumbangkan oleh data
2. Akurasi— Sejauh mana data secara tepat memperkirakan atau menggambarkan kuantitas atau
karakteristik yang ingin diukur
3. Ketepatan waktu dan ketepatan waktu— Lamanya waktu yang berlalu antara ketersediaan data
kemampuan dan fenomena yang dijelaskan
4. Aksesibilitas—Seberapa mudah data dapat ditemukan dan diakses
5. Interpretabilitas— Kemudahan data dipahami dan dianalisis
6. Koherensi— Sejauh mana data terhubung secara logis dan saling menguntungkan
konsisten
7. Kredibilitas—Kepercayaan pengguna terhadap data berdasarkan persepsi mereka terhadap data tersebut
penghasil data
Badan Eurostat Komisi Eropa menggunakan tujuh dimensi untuk menilai kualitas data dari survei
(Ehling dan Körner, 2007):
1. Relevansi konsep statistik mengacu pada apakah semua statistik yang diperlukan telah dihasilkan
dan sejauh mana konsep yang digunakan (definisi, klasifikasi, dll.) mencerminkan kebutuhan
pengguna.
2. Keakuratan perkiraan menunjukkan kedekatan perhitungan atau perkiraan dengan nilai yang tepat
atau benar.
3. Ketepatan waktu dan ketepatan waktu dalam menyebarkan hasil—Ketepatan waktu informasi
mencerminkan jangka waktu antara ketersediaannya dan peristiwa atau fenomena yang dijelaskan;
Ketepatan waktu mengacu pada jeda waktu antara tanggal rilis data dan tanggal target kapan data
seharusnya dikirimkan.
4. Aksesibilitas dan kejelasan informasi —Aksesibilitas mengacu pada kondisi fisik di mana pengguna
dapat memperoleh data; kejelasan mengacu pada lingkungan informasi data (apakah data disertai
dengan metadata yang sesuai, ilustrasi seperti grafik dan peta, dll.).
5. Keterbandingan adalah sejauh mana perbedaan antar statistik disebabkan oleh perbedaan antara
nilai sebenarnya dari karakteristik statistik.
6. Koherensi statistik mengacu pada kecukupannya untuk dapat digabungkan secara andal dalam
berbagai cara dan untuk berbagai kegunaan.
Badan Perlindungan Lingkungan AS (EPA) telah mengembangkan Kualitas

Assurance (QA) Rencana Proyek sebagai alat untuk didokumentasikan oleh manajer proyek dan perencana
jenis dan kualitas data dan informasi yang diperlukan untuk membuat keputusan lingkungan.
Program ini bertujuan untuk mengontrol dan meningkatkan kualitas data dalam hal presisi,
akurasi, keterwakilan, kelengkapan, dan komparabilitas (PARCC) pengukuran lingkungan
yang digunakan dalam studinya. Mereka mendefinisikan dimensi ini sebagai berikut:
1. Presisi adalah derajat kesesuaian antara pengukuran berulang terhadap sifat yang
sama pada sampel yang sama atau pada sampel terpisah yang dikumpulkan sedekat
mungkin dalam waktu dan tempat.
2. Akurasi adalah ukuran keyakinan suatu pengukuran. Semakin kecil perbedaan antara
pengukuran suatu parameter (estimasi) dan nilai “sebenarnya” atau nilai yang
diharapkan, semakin akurat pengukurannya.
3. Keterwakilan adalah sejauh mana pengukuran benar-benar menggambarkan suatu hal

kondisi lingkungan sebenarnya atau populasi yang dievaluasi.
4. Kelengkapan adalah ukuran jumlah sampel yang harus Anda ambil agar informasi
dapat digunakan, dibandingkan dengan jumlah sampel yang direncanakan semula.
5. Keterbandingan adalah sejauh mana data dari suatu penelitian dapat dibandingkan
secara langsung dengan data masa lalu dari proyek saat ini atau data dari penelitian lain.
Organisasi Kesehatan Dunia (WHO) menetapkan kerangka kualitas data yang disebut
Kerangka Jaringan Metrik Kesehatan (HMN, 2006), berdasarkan Kerangka Penilaian Kualitas
Data IMF (DQAF) dan Sistem Diseminasi Data Umum (GDDS) IMF. Kerangka kerja ini
menggunakan enam kriteria untuk menilai kualitas layanan kesehatan.
data dan indikator terkait yang dihasilkan dari sistem informasi kesehatan:
1. Ketepatan waktu— Periode antara pengumpulan data dan ketersediaannya hingga a

tingkat yang lebih tinggi atau publikasinya
2. Periodisitas— Frekuensi pengukuran suatu indikator
3. Konsistensi— Konsistensi internal data dalam kumpulan data serta konsistensi antara
kumpulan data dan dari waktu ke waktu serta sejauh mana revisi mengikuti jadwal
dan proses yang teratur, mapan, dan transparan
4. Keterwakilan— Sejauh mana data cukup mewakili

populasi dan subpopulasi yang relevan
5. Disagregasi— Ketersediaan statistik yang dikelompokkan berdasarkan jenis kelamin,

usia, status sosial ekonomi, wilayah geografis atau administratif utama, dan etnis, jika
diperlukan
6. Kerahasiaan, keamanan data, dan aksesibilitas data—Sejauh mana praktik tersebut

sesuai dengan pedoman dan standar lain yang ditetapkan untuk penyimpanan,
pencadangan, pengangkutan informasi (terutama melalui Internet), dan pengambilan
Contoh-contoh ini memberikan latar belakang penilaian InfoQ. Tujuan kami menyajikan dimensi
InfoQ adalah untuk mengusulkan struktur umum yang berlaku untuk analisis empiris apa pun dan
memperluas pendekatan kualitas data yang dijelaskan di atas.
3.2 Delapan dimensi InfoQ

Dengan mengambil pendekatan yang mirip dengan penilaian kualitas data yang dijelaskan di bagian
sebelumnya, kami mendefinisikan delapan dimensi untuk menilai InfoQ yang mempertimbangkan dan
memengaruhi tidak hanya data dan tujuan, X dan g, namun juga metode analisis (f) dan kegunaannya.
dari penelitian (U). Dengan pendekatan ini, kami menyediakan dekomposisi InfoQ yang dapat
digunakan untuk menilai dan meningkatkan inisiatif penelitian dan untuk mengevaluasi studi yang telah selesai.
3.2.1 Resolusi data

Resolusi data mengacu pada skala pengukuran dan tingkat agregasi X. Skala pengukuran data harus
dievaluasi secara cermat dalam hal kesesuaiannya dengan tujuan, metode analisis yang akan
digunakan, dan resolusi U yang diperlukan. Mengingat skala asli yang tercatat , peneliti harus
mengevaluasi kecukupannya. Biasanya mudah untuk menghasilkan skala yang lebih teragregasi
(misalnya, dua kategori pendapatan, bukan sepuluh), namun bukan skala yang lebih halus. Data
mungkin direkam oleh berbagai instrumen atau berbagai sumber. Untuk memilih di antara beberapa
pengukuran, informasi tambahan tentang keandalan dan ketepatan alat ukur atau sumber data
berguna. Skala pengukuran yang lebih halus sering kali dikaitkan dengan lebih banyak noise;
karenanya pilihan skala dapat mempengaruhi analisis empiris secara langsung.
Tingkat agregasi data juga harus dievaluasi relatif terhadap g. Misalnya, pertimbangkan pembelian
obat-obatan yang dijual bebas setiap hari di apotek besar. Jika tujuan analisis adalah memperkirakan
tingkat persediaan obat-obatan yang berbeda di masa depan, ketika penyetokan ulang dilakukan
setiap minggu, maka agregat mingguan lebih baik daripada agregat harian karena lebih sedikit
kesalahan pencatatan data dan gangguan. Namun, untuk deteksi dini wabah penyakit, dimana
peringatan yang dihasilkan satu atau dua hari lebih awal dapat memberikan perbedaan yang signifikan
dalam hal pengobatan, maka agregat mingguan memiliki kualitas yang rendah. Selain frekuensi data,
tingkat agregasi juga penting: untuk tujuan inventarisasi, informasi tingkat pengobatan diperlukan,
sedangkan untuk mendeteksi wabah penyakit, obat-obatan dapat dikelompokkan berdasarkan gejala,
dan rangkaian harian gabungan gejala akan lebih baik.
Contoh lain berkaitan dengan studi kasus lelang online di Bab 1. Di banyak platform lelang online,
waktu penawaran biasanya dicatat dalam hitungan detik dan harga dalam satuan mata uang. Di eBay,
misalnya, waktu penawaran dilaporkan pada tingkat detik (misalnya, 20 Agustus 2010, 03.14.07 Waktu
Musim Panas Pasifik) dan harga pada tingkat dolar dan sen (misalnya, $23,01). Model peramalan oleh
Wang et al. (2008) menggunakan waktu penawaran pada tingkat kedua dan jumlah penawaran tingkat
pusat hingga waktu prediksi untuk menghasilkan perkiraan harga dalam sen per detik selama lelang.
Sebaliknya, model peramalan oleh Ghani dan Simmons (2004) menghasilkan perkiraan harga akhir
dalam interval $5, hanya menggunakan informasi yang tersedia pada awal lelang.
Konsep subkelompok rasional yang digunakan dalam pengendalian proses statistik adalah kasus
khusus tingkat agregasi. Pengaturan subkelompok yang rasional menentukan tingkat variabilitas
proses dan jenis sinyal yang akan dideteksi. Jika subgrup rasional terdiri dari pengukuran dalam
jangka waktu singkat dalam suatu proses produksi, maka metode pengendalian proses statistik akan
menangkap sinyal-sinyal di luar kendali jangka pendek, sedangkan subgrup rasional yang tersebar
dalam periode yang lebih panjang akan mendukung deteksi sinyal-sinyal jangka panjang. tren dan
sinyal di luar kendali (lihat Kenett dkk., 2014). Dengan menggunakan notasi kami, f adalah metode
pengendalian proses statistik, X adalah datanya, g1 adalah sinyal jangka pendek, g2 adalah sinyal
jangka panjang, dan U adalah ukuran perilaku peringatan yang diinginkan.
3.2.2 Struktur data

Struktur data berkaitan dengan jenis data dan karakteristik data seperti nilai yang rusak dan hilang
karena desain penelitian atau mekanisme pengumpulan data. Tipe data mencakup data numerik
terstruktur dalam berbagai bentuk (misalnya, data cross-sectional, deret waktu, dan jaringan) serta
data nonnumerik tidak terstruktur (misalnya, teks, teks dengan hyperlink, audio, video, dan data
semantik). Tingkat InfoQ tipe data tertentu bergantung pada tujuan yang ada. Bapna dkk. (2006)
membahas nilai “tipe data” yang berbeda untuk menjawab pertanyaan penelitian baru dalam penelitian
perdagangan elektronik:
Untuk setiap investigasi penelitian, kami berupaya mengidentifikasi dan memanfaatkan

tipe data terbaik, yaitu data yang paling tepat untuk membantu mencapai tujuan
penelitian tertentu.
Contoh dari literatur lelang online terkait dengan pengaruh “umpan balik penjual” terhadap harga
lelang. Penjual di eBay menerima peringkat umpan balik numerik dan komentar tekstual. Meskipun
sebagian besar studi penjelas mengenai faktor penentu harga menggunakan peringkat umpan balik
numerik sebagai kovariat, studi yang dilakukan oleh Pavlou dan Dimoka (2006) menunjukkan bahwa
penggunaan komentar tekstual sebagai kovariat dalam model harga menghasilkan nilai R2 (U) yang
jauh lebih tinggi dibandingkan dengan menggunakan peringkat numerik.
Nilai yang rusak dan hilang memerlukan penanganan dengan cara penghapusan, imputasi,
pemulihan data, atau metode lain, tergantung pada g. Nilai yang salah dapat dianggap sebagai nilai
yang hilang bila tujuannya adalah untuk memperkirakan parameter populasi, misalnya dalam survei di
mana responden dengan sengaja memasukkan jawaban yang salah. Namun, untuk beberapa tujuan,
nilai-nilai yang salah yang sengaja dikirimkan mungkin bersifat informatif dan oleh karena itu tidak
boleh dibuang atau “diperbaiki”.
3.2.3 Integrasi data

Mengintegrasikan berbagai sumber dan/atau jenis data sering kali menciptakan pengetahuan baru
mengenai tujuan yang ada, sehingga meningkatkan InfoQ. Contohnya adalah studi yang
memperkirakan surplus konsumen dalam lelang online (Bapna et al., 2008a; lihat Bab 1), dimana data
dari eBay (X1 ) yang tidak memiliki nilai tawaran tertinggi digabungkan dengan data dari situs web
bernama Cniper.com (sekarang tidak aktif lagi) (X2 ) yang berisi informasi yang hilang. Memperkirakan
surplus konsumen tidak mungkin dilakukan dengan menggunakan X1
atau X2 , dan hanya kombinasi keduanya yang menghasilkan InfoQ yang memadai. Dalam contoh
lelang Pavlou dan Dimoka (2006), komentar tekstual digunakan sebagai kovariat.
Metodologi analisis baru, seperti analisis data fungsional dan penambangan teks, ditujukan
untuk meningkatkan InfoQ tipe data baru dan kombinasinya. Misalnya, dalam studi peramalan lelang
online oleh Wang et al. (2008) (lihat Bab 1), analisis data fungsional digunakan untuk mengintegrasikan
urutan penawaran temporal dengan informasi lelang dan penjual cross-sectional. Kombinasi ini
memungkinkan perkiraan harga akhir yang lebih tepat dibandingkan dengan model yang hanya
didasarkan pada data cross-sectional. Pendekatan fungsional juga memungkinkan penghitungan
dampak berbagai faktor terhadap proses harga selama lelang (Bapna dkk., 2008b).
Aspek lain dari integrasi data adalah menghubungkan catatan antar database. Meskipun
algoritme tautan rekaman populer untuk meningkatkan InfoQ, penelitian yang menggunakan tautan
rekaman sering kali menggunakan teknik penyembunyian yang mengurangi risiko identifikasi dan
pelanggaran privasi dan kerahasiaan. Teknik seperti itu (misalnya, menghilangkan pengidentifikasi,
menambahkan noise, gangguan data, dan mikroagregasi) jelas dapat menurunkan InfoQ, bahkan
hingga membuat kumpulan data gabungan tidak berguna untuk tujuan yang ada. Solusi, seperti
“penambangan data yang menjaga privasi” dan “pengungkapan selektif,” ditujukan untuk
memanfaatkan kumpulan data yang terhubung dengan InfoQ tinggi tanpa mengorbankan privasi
(lihat, misalnya, Fienberg, 2006).
3.2.4 Relevansi temporal

Proses memperoleh pengetahuan dari data dapat ditempatkan pada suatu garis waktu yang
mencakup periode pengumpulan data, analisis data, dan penerapan studi serta kesenjangan waktu
antar periode tersebut (seperti digambarkan pada Gambar 3.1). Durasi dan kesenjangan yang
berbeda ini masing-masing dapat memengaruhi InfoQ. Durasi pengumpulan data dapat menambah
atau mengurangi InfoQ, tergantung pada tujuan penelitian (misalnya, mempelajari efek longitudinal
versus tujuan cross-sectional). Demikian pula, transisi yang tidak terkendali selama fase
pengumpulan dapat bermanfaat atau mengganggu, bergantung pada g.
Oleh karena itu, studi lelang online yang mengumpulkan data tentang produk modis atau populer
(yang menghasilkan data dalam jumlah besar) untuk memperkirakan dampaknya mencoba
membatasi periode pengumpulan data sebanyak mungkin. Eksperimen yang dilakukan oleh Katkar
dan Reiley (2006) mengenai pengaruh harga cadangan terhadap harga lelang online (lihat Bab 1)
dilakukan selama periode dua minggu pada bulan April 2000. Data lelang buku Harry Potter dan
konsol Microsoft Xbox di Wang dkk. (2008) dikumpulkan pada bulan bukan hari libur Agustus dan
September 2005. Sebaliknya, sebuah penelitian yang
Data Data Belajar

koleksi analisis penyebaran
t1 t2 t3 t4 t5 t6
Gambar 3.1 Timeline penelitian, mulai dari pengumpulan data hingga penerapan studi.
tertarik untuk membandingkan pra-liburan dengan penawaran pasca-liburan atau perilaku penjualan
akan memerlukan pengumpulan selama periode yang mencakup waktu pra-liburan dan pasca-liburan.
Kesenjangan antara pengumpulan dan analisis data, yang sesuai dengan kriteria keterkinian di Bagian
3.1, biasanya lebih besar untuk data sekunder (data yang tidak dikumpulkan untuk tujuan penelitian).
Dalam pemodelan prediktif, dimana konteks prediksi harus sedekat mungkin dengan konteks
pengumpulan data, kelambatan temporal dapat menurunkan InfoQ secara signifikan. Misalnya,
kumpulan data lelang online iPad di eBay tahun 2010 mungkin memiliki InfoQ yang rendah untuk
meramalkan atau bahkan memperkirakan harga iPad saat ini karena cepatnya perubahan minat
terhadap gadget elektronik.
Aspek lain yang mempengaruhi relevansi temporal adalah ketepatan waktu analisis, atau
ketepatan waktu f(X|g). Raiffa (1970, p. 264) menyebut hal ini sebagai “kesalahan jenis keempat:
terlambat menyelesaikan masalah yang benar.” Ketepatan waktu analisis dipengaruhi oleh sifat X,
kompleksitas f , dan pada akhirnya oleh penerapan f pada X. Sifat kumpulan data (ukuran, ketersebaran,
dll.) dapat memengaruhi ketepatan waktu analisis dan pada gilirannya memengaruhi kegunaannya
untuk tujuan di tangan. Misalnya, menghitung statistik ringkasan untuk kumpulan data yang sangat
besar mungkin memerlukan waktu beberapa jam, sehingga InfoQ dianggap rendah untuk tujuan tugas
waktu nyata (g1 ) tetapi tinggi untuk analisis retrospektif (g2 ). Kompleksitas komputasi f
juga menentukan waktu analisis: Metode estimasi rantai Markov Monte Carlo dan algoritma prediksi
intensif komputasi membutuhkan waktu lebih lama daripada memperkirakan model linier atau
menghitung statistik ringkasan. Dalam contoh peramalan harga lelang online, pilihan model peramalan
linier diperlukan untuk menghasilkan perkiraan lelang yang sedang berlangsung secara tepat waktu.
Wang dkk. (2008) menggunakan smoothing splines untuk memperkirakan kurva harga untuk setiap
lelang dalam kumpulan data—informasi yang kemudian digunakan dalam model peramalan. Meskipun
spline penghalusan tidak selalu menghasilkan kurva yang monoton (seperti yang diharapkan dari kurva
harga dari awal hingga akhir lelang tipe eBay), metode ini jauh lebih cepat daripada memasang spline
penghalusan monoton, yang memang menghasilkan kurva monotonik. . Oleh karena itu, dalam hal ini
spline penghalusan menghasilkan InfoQ lebih tinggi daripada spline monoton untuk aplikasi peramalan
real-time. Relevansi temporal dan ketepatan waktu analisis jelas bergantung pada ketersediaan
perangkat lunak dan perangkat keras serta efisiensi peneliti atau tim analisis.
3.2.5 Kronologis data dan tujuan

Pilihan variabel yang akan dikumpulkan, hubungan temporal antara variabel tersebut dan maknanya
dalam konteks g semuanya sangat mempengaruhi InfoQ. Kita harus mempertimbangkan sifat tujuan
yang retrospektif versus prospektif serta jenisnya dalam kaitannya dengan penjelasan, prediksi, atau
deskripsi sebab akibat (Shmueli, 2010). Dalam studi prediktif, variabel masukan harus tersedia pada
saat prediksi, sedangkan dalam model penjelas, argumen sebab akibat menentukan hubungan antara
variabel terikat dan bebas. Istilah endogenitas, atau sebab akibat terbalik, dapat terjadi ketika variabel
masukan penyebab dihilangkan dari model, sehingga menghasilkan estimasi parameter yang bias.
Oleh karena itu, endogenitas menghasilkan InfoQ yang rendah dalam studi penjelasan, namun tidak
harus dalam studi prediktif, karena menghilangkan variabel masukan dapat menghasilkan akurasi
prediksi yang lebih tinggi (lihat Shmueli, 2010). Yang juga terkait adalah uji kausalitas Granger (Granger, 1969)
bertujuan untuk menentukan apakah rangkaian waktu X yang tertinggal berisi informasi yang berguna untuk
memprediksi nilai masa depan dari rangkaian waktu Y lainnya dengan menggunakan model regresi.
Dalam konteks lelang online, tingkat InfoQ yang terkandung dalam “jumlah penawar” untuk model harga
lelang bergantung pada tujuan penelitian. Teori lelang klasik menetapkan jumlah penawar sebagai faktor
penting yang mempengaruhi harga: semakin banyak penawar, semakin tinggi harganya. Oleh karena itu,
data mengenai jumlah penawar berkualitas tinggi dalam model harga yang dapat menjelaskan. Namun,
untuk tujuan memperkirakan harga lelang online yang sedang berlangsung, di mana jumlah penawar tidak
diketahui hingga akhir lelang, InfoQ “jumlah penawar”, meskipun tersedia dalam kumpulan data retrospektif,
sangatlah rendah. Oleh karena itu, model peramalan Wang et al. (2008) yang dijelaskan dalam Bab 1
mengecualikan jumlah penawar atau jumlah penawaran dan sebagai gantinya menggunakan jumlah
kumulatif penawaran hingga waktu prediksi.
3.2.6 Generalisasi
Kegunaan f(X|g) bergantung pada kemampuan menggeneralisasi f pada populasi yang sesuai.
Dua jenis generalisasi adalah generalisasi statistik dan ilmiah. Generalisasi statistik mengacu pada
kesimpulan dari sampel ke populasi target. Generalisasi ilmiah mengacu pada penerapan model berdasarkan
populasi target tertentu ke populasi lain. Hal ini dapat berarti menggeneralisasi pola estimasi populasi atau
memodelkan f ke populasi lain atau menerapkan estimasi f dari satu populasi untuk memprediksi pengamatan
individu pada populasi lain.
Menentukan tingkat generalisasi memerlukan karakterisasi yang cermat g.

Misalnya, untuk inferensi mengenai parameter populasi, generalisasi statistik dan bias pengambilan sampel
adalah fokusnya, dan pertanyaan yang menarik adalah, “Populasi apa yang diwakili oleh sampel?” (Rao,
1985). Sebaliknya, untuk memprediksi nilai observasi baru, pertanyaan yang menarik adalah apakah f
menangkap asosiasi dalam data pelatihan X (data yang digunakan untuk pembuatan model) yang dapat
digeneralisasikan ke data yang akan diprediksi.
Generalizability merupakan dimensi yang berguna untuk memperjelas konsep reproducibility,

repeatability, dan replicability (Kennett dan Shmueli, 2015). Ketiga istilah tersebut mempunyai arti yang
berbeda dan terkadang bertentangan, baik antarbidang maupun dalam bidang (lihat Bab 11). Di sini kami
hanya menunjukkan bahwa perbedaan antara mereplikasi wawasan dan mereplikasi hasil numerik yang
persis sama adalah serupa dan terkait dengan perbedaan antara InfoQ (wawasan) dan kualitas data atau
analisis (hasil numerik).
Jenis generalisasi lainnya, dalam konteks pengujian kemampuan, adalah konsep objektivitas spesifik
(Rasch, 1977). Objektivitas khusus dicapai jika hasil pertanyaan dalam kuesioner yang digunakan untuk
membandingkan tingkat siswa tidak bergantung pada pertanyaan spesifik dan siswa lainnya. Dengan kata
lain, tujuannya adalah untuk menggeneralisasi data siswa tertentu yang menjawab serangkaian pertanyaan
ke populasi hasilnya, terlepas dari responden tertentu atau pertanyaan tertentu.
Jenis kemampuan generalisasi yang diperlukan mempengaruhi pilihan f dan U. Misalnya, metode
berbasis data lebih rentan terhadap overfitting, yang bertentangan dengan kemampuan generalisasi ilmiah.
Generalisasi statistik biasanya dievaluasi dengan menggunakan ukuran
bias pengambilan sampel dan kesesuaian. Sebaliknya, kemampuan generalisasi ilmiah untuk
memprediksi observasi baru biasanya dievaluasi berdasarkan keakuratan prediksi kumpulan
ketidaksepakatan dari populasi yang akan diprediksi, untuk melindungi dari overfitting.
Studi lelang online dari Bab 1 menggambarkan tipe generalisasi yang berbeda. Studi “pengaruh
harga cadangan terhadap harga akhir” (Katkar dan Reiley, 2006) berkaitan dengan generalisasi
statistik. Katkar dan Reiley (2006) merancang eksperimen sedemikian rupa sehingga menghasilkan
sampel yang representatif. Fokus mereka adalah pada kesalahan standar dan signifikansi statistik.
Studi peramalan oleh Wang et al. (2008) berkaitan dengan generalisasi terhadap lelang individual
baru. Mereka mengevaluasi keakuratan prediksi pada set ketidaksepakatan. Studi ketiga tentang
“surplus konsumen di eBay” berkaitan dengan generalisasi statistik dari sampel ke semua lelang
eBay pada tahun 2003. Karena sampel tidak diambil secara acak dari populasi, Bapna dkk. (2008a)
melakukan analisis khusus, membandingkan sampel mereka dengan sampel yang diambil secara
acak (lihat lampiran B dalam Bapna dkk., 2008a).
3.2.7 Operasionalisasi
Dua jenis operasionalisasi hasil analisis dipertimbangkan: operasionalisasi konstruk dan
operasionalisasi tindakan.
3.2.7.1 Membangun operasionalisasi
Konstruk adalah abstraksi yang menggambarkan suatu fenomena yang menjadi perhatian teoretis.
Data terukur adalah operasionalisasi konstruksi yang mendasarinya. Misalnya, stres psikologis
dapat diukur melalui kuesioner atau pengukuran fisiologis, seperti kadar kortisol dalam air liur
(Kirschbaum dan Hellhammer, 1989), dan kesejahteraan ekonomi dapat diukur melalui pendapatan
atau tingkat pengangguran. Hubungan antara konstruk yang mendasari ÿ dan operasionalisasinya
X = ÿ(ÿ) dapat bervariasi, dan levelnya relatif terhadap g merupakan aspek penting lainnya dari
InfoQ. Peran operasionalisasi konstruk bergantung pada g(X=ÿ(ÿ|g)) dan terutama pada apakah
tujuannya bersifat penjelas, prediktif, atau deskriptif. Dalam model penjelas, berdasarkan teori
kausal yang mendasarinya, beberapa operasionalisasi mungkin dapat diterima untuk mewakili
konstruksi yang diinginkan. Selama X diasumsikan mengukur ÿ, maka variabel tersebut dianggap
memadai. Dengan menggunakan contoh kita sebelumnya pada teks sebelumnya, baik jawaban
kuesioner maupun pengukuran fisiologis dapat diterima untuk mengukur stres psikologis.
Sebaliknya, dalam tugas prediktif, yang tujuannya adalah menciptakan prediksi yang cukup akurat
terhadap variabel terukur tertentu, pilihan variabel yang dioperasionalkan sangatlah penting.
Memprediksi stres psikologis seperti yang dilaporkan dalam kuesioner (X1 ) berbeda dengan
memprediksi tingkat ukuran fisiologis (X2 ). Oleh karena itu, InfoQ dalam studi prediktif lebih
bergantung pada kualitas X dan stabilitasnya sepanjang periode pembuatan dan penerapan
model, sedangkan dalam studi penjelasan InfoQ lebih mengandalkan kecukupan X untuk mengukur
ÿ.
Kembali ke konteks lelang online, studi surplus konsumen bergantung pada jumlah penawaran
yang dapat diobservasi, yang dianggap mencerminkan konstruksi “kesediaan untuk membayar”
yang mendasari penawar. Konstruk yang sama dioperasionalkan secara berbeda dalam jenis
penelitian lainnya. Sebaliknya, dalam peramalan harga mempelajari variabel terukur sebesar
bunga adalah harga lelang, yang selalu didefinisikan dengan cara yang sama. Contohnya
adalah penelitian McShane dan Wyner (2011) dalam konteks perubahan iklim, yang
menunjukkan bahwa untuk tujuan memprediksi suhu, “kovariat alami” yang berbasis teori lebih
rendah daripada “proksi semu” yang merupakan perkiraan dimensi lebih rendah dari kovariat
alami. Tugas deskriptif lebih mirip dengan tugas prediktif dalam arti fokus pada tingkat yang
dapat diamati. Dalam studi deskriptif, tujuannya adalah untuk mengungkap sinyal dalam
kumpulan data (misalnya, untuk memperkirakan distribusi pendapatan atau untuk mengungkap
pola temporal dalam rangkaian waktu). Karena tidak ada teori kausal yang mendasari penelitian
deskriptif, dan karena hasil dilaporkan pada tingkat variabel yang diukur, InfoQ bergantung,
seperti dalam tugas prediktif, pada kualitas variabel yang diukur dan bukan pada hubungannya
dengan konstruk yang mendasarinya.
3.2.7.2 Operasionalisasi tindakan
Operasionalisasi tindakan adalah tentang memperoleh tindakan nyata dari informasi yang
diberikan oleh sebuah penelitian. Ketika sebuah laporan, yang menyajikan analisis kumpulan
data tertentu dalam konteks tujuan tertentu, menghasilkan tindakan tindak lanjut yang jelas,
kami mempertimbangkan laporan InfoQ yang lebih tinggi. Dimensi operasionalisasi tindakan
telah dibahas dalam berbagai konteks. Dalam lingkungan bisnis dan industri, definisi operasional
terdiri dari (i) kriteria yang diterapkan pada suatu objek atau sekelompok objek, (ii) uji kepatuhan
terhadap objek atau kelompok tersebut, dan (iii) aturan pengambilan keputusan untuk
menafsirkan hasil pengujian apakah objek atau kelompok tersebut memenuhi atau tidak.
Definisi Deming (2000) ini sangat mirip dengan pernyataan pembuka Shewhart dalam bukunya
Statistical Method from the Viewpoint of Quality Control (Shewhart, 1986):
Secara garis besar ada tiga langkah dalam proses pengendalian kualitas:
spesifikasi barang yang diinginkan, produksi barang untuk memenuhi spesifikasi,
dan pemeriksaan barang yang diproduksi untuk melihat apakah barang tersebut
memenuhi spesifikasi.
Dalam konteks kinerja organisasi yang luas, Deming (2000) mengajukan tiga pertanyaan
penting untuk membantu menilai tingkat operasionalisasi tindakan dari studi organisasi tertentu.
Ini adalah sebagai berikut:
1. Apa yang ingin Anda capai?
2. Dengan metode apa Anda akan mencapainya?
3. Bagaimana Anda mengetahui bila Anda telah mencapainya?
Dalam konteks sistem pendidikan, Panel Tujuan Pendidikan Nasional

(NEGP) di Amerika merekomendasikan agar negara bagian menjawab empat pertanyaan pada
laporan siswa mereka yang menarik bagi orang tua (Goodman dan Hambleton, 2004):
1. Bagaimana keadaan anak saya?
2. Jenis keterampilan atau pengetahuan apa yang dicerminkan oleh kinerjanya?

3. Bagaimana prestasi anak saya dibandingkan dengan siswa lain di sekolah,

distrik, negara bagian, dan, jika ada, negara?
4. Apa yang dapat saya lakukan untuk membantu anak saya berkembang?
Operasionalisasi tindakan statistik resmi juga telah dibahas secara luas oleh lembaga statistik
resmi, secara internal, dan dalam literatur. Mengutip Forbes dan Brown (2012):
Permasalahan yang dapat menyebabkan kesalahpahaman adalah bahwa banyak

konsep yang digunakan dalam statistik resmi sering kali memiliki arti spesifik yang
didasarkan pada, namun tidak identik dengan, makna penggunaan sehari-hari…
Statistik resmi “perlu digunakan agar berguna” dan kegunaannya adalah salah satu
konsep menyeluruh dalam statistik resmi… Semua staf yang memproduksi statistik
harus memahami bahwa kerangka konseptual yang mendasari pekerjaan mereka
menerjemahkan dunia nyata ke dalam model yang menafsirkan realitas dan
membuatnya dapat diukur untuk tujuan statistik… Langkah pertama… adalah
mendefinisikan isu atau pertanyaan (s) bahwa informasi statistik diperlukan untuk
menginformasikan. Artinya, untuk menentukan tujuan kerangka kerja tersebut, dan
kemudian menyusun tujuan tersebut untuk … adalah memahami hubungan-
menciptakan struktur dan definisinya. Elemen penting terletak di antara isu-isu dan
pertanyaan-pertanyaan yang perlu diketahui dan definisi-definisi itu sendiri.
3.2.8 Komunikasi
Komunikasi efektif dari analisis f(X|g) dan kegunaannya U secara langsung mempengaruhi InfoQ.
Media komunikasi yang umum meliputi presentasi dan laporan visual, tekstual, dan verbal. Dalam
lingkungan penelitian, komunikasi berfokus pada publikasi tertulis dan presentasi konferensi.
Pendampingan penelitian dan proses wasit ditujukan untuk meningkatkan komunikasi (dan InfoQ)
dalam komunitas riset.
Hasil penelitian dikomunikasikan kepada publik melalui artikel di media populer dan wawancara di
televisi dan konferensi seperti www.ted.com dan yang terbaru melalui blog dan media internet lainnya.
Di sini risiko miskomunikasi jauh lebih besar. Misalnya, studi “surplus konsumen dalam lelang eBay”
diliput oleh media publik. Namun, hasil utama tidak selalu disampaikan dengan baik oleh jurnalis.
Misalnya artikel nytimes.com (http://bits.blogs.nytimes.
com/2008/01/28/tracking-consumer- savings-on-ebay/) gagal menyebutkan bahwa hasil penelitian

dievaluasi berdasarkan asumsi yang berbeda, sehingga mempengaruhi kelayakan umum. Akibatnya,
beberapa pembaca meragukan hasil penelitian (“Apakah sampel Cniper miring?”). Sebagai tanggapan,
salah satu rekan penulis penelitian memposting klarifikasi online.
Dalam industri, komunikasi biasanya dilakukan melalui presentasi dan laporan internal. Potensi
kegagalan cincin-O pada suhu rendah yang menyebabkan bencana pesawat ulang-alik Challenger
NASA diabaikan karena para insinyur gagal mengkomunikasikan hasil analisis mereka: 13 grafik
yang diedarkan ke telekonferensi tidak menunjukkan dengan jelas hubungan tersebut. antara suhu
pada 22 peluncuran sebelumnya dan 22 rekaman kondisi cincin-O (lihat Tufte, 1992). Dengan kondisi
notasi kami, arti f—dalam hal ini analisis risiko—dan implikasinya tidak dikomunikasikan dengan
baik.
Dalam pembahasan penulisan ilmiah, Gopen dan Swan (1990) menyatakan bahwa jika
pembaca ingin memahami apa yang penulis maksudkan, maka penulis harus memahami apa
yang dibutuhkan pembaca. Secara umum, ini merupakan elemen penting dalam komunikasi
yang efektif. Penting untuk ditekankan bahwa wacana ilmiah bukan sekadar penyajian informasi,
melainkan komunikasi aktual. Tidak peduli betapa senangnya seorang penulis karena telah
mengubah semua data yang benar menjadi kalimat dan paragraf; yang penting adalah apakah
sebagian besar pembaca memahami secara akurat apa yang ada dalam pikiran penulis.
Komunikasi adalah dimensi InfoQ kedelapan.
3.3 Menilai InfoQ

Delapan dimensi InfoQ memungkinkan kita mengevaluasi InfoQ untuk studi empiris (baik diterapkan
atau diusulkan), dengan mengevaluasi masing-masing dimensi. Berikut ini kami uraikan lima pendekatan
penilaian. Pendekatan-pendekatan tersebut menawarkan pandangan-pandangan yang berbeda
mengenai penelitian ini dan seseorang dapat menerapkan lebih dari satu pendekatan untuk mencapai
pemahaman yang lebih mendalam.
3.3.1 Evaluasi berbasis peringkat

Mirip dengan penggunaan dimensi “kualitas data” oleh lembaga statistik untuk mengevaluasi
kualitas data, kami mengevaluasi masing-masing dari delapan dimensi InfoQ untuk menilai
InfoQ. Evaluasi ini mengintegrasikan berbagai aspek penelitian dan memberikan skor InfoQ
keseluruhan berdasarkan penilaian para ahli. Perspektif luas dari dimensi InfoQ dirancang untuk
membantu peneliti meningkatkan nilai tambah penelitian mereka.
Menilai InfoQ menggunakan metrik kuantitatif dapat dilakukan dengan beberapa cara. Kami
menyajikan pendekatan berbasis pemeringkatan yang memeriksa laporan studi dan menilai masing-
masing dari delapan dimensi InfoQ. Pendekatan kasarnya adalah dengan menilai setiap dimensi pada skala 1–5:
Sangat rendah Rendah Dapat Diterima Tinggi Sangat tinggi

1 2 3 4 5
Peringkat untuk masing-masing delapan dimensi (Yi , i=1, …, 8) kemudian dapat

dinormalisasi menjadi fungsi keinginan (lihat Figini et al., 2010) secara terpisah untuk setiap
dimensi (0 ÿd(Yi ) ÿ 1). Skor keinginan kemudian digabungkan untuk menghasilkan skor InfoQ
keseluruhan menggunakan rata-rata geometrik keinginan individu:
1/ 8
Skor InfoQ d Y dY ÿ
dY
1 1 22 8 8
Pendekatan yang menggunakan skor keinginan menghasilkan skor nol ketika setidaknya
salah satu elemen dinilai pada nilai skala yang lebih rendah. Dengan kata lain, jika salah satu
dimensi berada pada peringkat terendah, InfoQ dianggap nol. Opsi yang lebih halus
terdiri dari rata-rata skor penilaian dengan rata-rata aritmatika atau rata-rata geometrik.
Dalam contoh di buku ini, kami menggunakan pendekatan keinginan.
Kami mengilustrasikan penggunaan pendekatan berbasis pemeringkatan ini untuk studi Katkar
dan Reiley (2006) di Bagian 3.4. Kami juga menggunakan pendekatan ini untuk setiap penelitian
yang diuraikan dalam Bagian II dan III buku ini.
3.3.2 Pembuatan skenario

Pendekatan yang berbeda dalam menilai InfoQ, terutama pada tahap “pembuktian konsep”, adalah
dengan menguraikan jenis jawaban yang diharapkan dihasilkan oleh analisis dan kemudian
memeriksa data dengan cara eksploratif, atau menentukan data yang ideal, sebagai alternatif. jika
analis data memiliki kendali atas pengumpulan data, dan kemudian membandingkan hasil yang
ada dengan hasil yang ideal.
Misalnya, beberapa penelitian di bidang biosurveilans ditujukan untuk mengevaluasi kegunaan
pelacakan data pradiagnostik untuk mendeteksi wabah penyakit lebih awal dibandingkan tindakan
diagnostik tradisional. Untuk mengevaluasi kegunaan data tersebut (dan algoritma potensial) ketika
tidak ada data wabah yang sebenarnya, diperlukan pembuatan skenario tentang bagaimana wabah
penyakit memanifestasikan dirinya dalam data pradiagnostik. Pembuatan skenario dapat
mengandalkan pengetahuan seperti kasus-kasus historis tunggal (misalnya, Goldenberg et al.,
2002) atau pada pengintegrasian pengetahuan epidemiologi ke dalam berbagai simulasi data untuk
menghasilkan “data dengan wabah” (misalnya, Lotze et al., 2010). Beragamnya simulasi
mencerminkan ketidakpastian yang ada dalam memetakan pengetahuan epidemiologi ke dalam jejak data.
3.3.3 Pengambilan sampel percontohan
Di banyak bidang, merupakan praktik umum untuk memulai analisis dengan studi percontohan
berdasarkan sampel kecil. Pendekatan ini memberikan wawasan awal tentang dimensi InfoQ.
Setelah uji coba tersebut, kumpulan data dapat diperluas, jangka waktu baru untuk mencatat data
dapat ditentukan, dan penelusuran lebih mendalam mengenai masalah yang ada dan pemangku
kepentingan utama dapat dimulai. Strategi ini juga merupakan praktik umum dalam desain survei,
dimana uji coba dengan responden yang representatif dilakukan untuk menentukan validitas dan
kegunaan kuesioner (Knett dan Salini, 2012).
3.3.4 Analisis data eksplorasi (EDA)

Perangkat lunak statistik dan visualisasi modern menyediakan berbagai teknik visualisasi seperti
plot matriks, plot koordinat paralel, dan plot gelembung dinamis serta kemampuan seperti visualisasi
interaktif. Teknik-teknik ini mendukung analis dalam mengeksplorasi dan menentukan, dengan
“format tangan bebas”, tingkat InfoQ dalam data.
Analisis data eksplorasi (EDA) sering kali dilakukan secara berulang dengan memperbesar fitur-
fitur penting dan outlier serta memicu penyelidikan lebih lanjut dan pengumpulan data tambahan.
Alat eksplorasi lain yang berguna untuk menilai InfoQ, yang disebut “model eksplorasi” oleh De
Veaux (2009), mencakup pohon klasifikasi dan regresi, analisis klaster, dan teknik reduksi data.
Oleh karena itu EDA merupakan strategi lain untuk mengevaluasi dan meningkatkan InfoQ.
3.3.5 Analisis sensitivitas

Analisis sensitivitas adalah jenis penilaian kuantitatif penting yang diterapkan dalam berbagai
domain yang melibatkan pembuatan kebijakan, termasuk pembangunan ekonomi, sistem
transportasi, perencanaan kota, dan tren lingkungan. InfoQ memberikan pendekatan yang
efisien untuk analisis sensitivitas dengan mengubah salah satu komponen InfoQ sambil
menjaga tiga komponen lainnya tetap konstan. Misalnya, seseorang mungkin mengevaluasi
InfoQ untuk tiga tujuan yang berbeda, g1 , g2 , g3 , dengan himpunan data X yang sama,
metode analisis spesifik f, dan utilitas spesifik U. Perbedaan antara InfoQ yang diperoleh untuk
tujuan berbeda kemudian dapat menunjukkan batasan dari kegunaan X, f, dan U.
Misalnya, pertimbangkan penggunaan model ansambel (menggabungkan model berbeda
dari sumber berbeda) dalam memprediksi perubahan iklim. Dalam tinjauan tajam terhadap
model yang digunakan dalam studi perubahan iklim, Saltelli dkk. (2015) menyatakan bahwa
ansambel tidak mewakili rentang model yang mungkin (dan masuk akal) yang sesuai dengan
data yang dihasilkan oleh model fisik. Ini menyiratkan bahwa model yang digunakan mewakili
elemen struktural dengan kemampuan generalisasi yang buruk terhadap model fisik. Mereka
juga mengklaim bahwa analisis sensitivitas yang dilakukan pada model ini hanya memvariasikan
sebagian asumsi dan hanya satu per satu. Manipulasi asumsi tunggal seperti ini menghalangi
interaksi antar masukan yang tidak pasti, yang mungkin sangat relevan dengan proyeksi iklim.
Hal ini juga menunjukkan lemahnya generalisasi. Dari segi operasionalisasi, penulis
membedakan simulasi kebijakan dengan justifikasi kebijakan.
Simulasi kebijakan mewakili skenario alternatif; pembenaran kebijakan memerlukan
pembentukan hubungan sebab akibat. Operasionalisasi model iklim oleh pembuat kebijakan
memerlukan kemampuan untuk memberikan justifikasi terhadap tindakan tertentu. Inilah
bagian problematis yang ingin penulis tekankan. Penilaian InfoQ terhadap berbagai penelitian
yang dikutip oleh penulis dapat membantu membedakan antara penelitian yang memberikan
simulasi kebijakan dan penelitian yang memberikan justifikasi kebijakan.
3.4 Contoh: Penilaian InfoQ lelang online

data eksperimental
Seperti dijelaskan dalam Bab 1, Katkar dan Reiley (2006) menyelidiki pengaruh dua jenis
harga cadangan pada harga lelang akhir di eBay. Data X mereka berasal dari eksperimen
penjualan 25 pasang kartu Pokémon yang identik, di mana setiap kartu dilelang dua kali, satu
dengan harga cadangan publik dan satu lagi dengan harga cadangan rahasia. Data tersebut
terdiri dari informasi lengkap seluruh 50 lelang. Katkar dan Reiley menggunakan regresi linier
(f ) untuk menguji pengaruh cadangan swasta atau publik terhadap harga akhir dan untuk
mengukurnya. Utilitas (U) adalah signifikansi statistik untuk mengevaluasi pengaruh harga
cadangan swasta atau publik dan koefisien regresi untuk mengukur besarnya dampak. Mereka
menyimpulkan bahwa
Lelang cadangan rahasia akan menghasilkan harga rata-rata $0,63 lebih rendah
dibandingkan lelang cadangan publik.
Kami mengevaluasi delapan dimensi InfoQ berdasarkan makalah Katkar dan Reiley (2006).
Evaluasi yang lebih menyeluruh memerlukan interaksi dengan penulis penelitian dan akses terhadap
data mereka. Untuk tujuan demonstrasi kami menggunakan skala 1–5 dan menghasilkan skor InfoQ
berdasarkan fungsi keinginan dengan d(1)=0, d(2)=0.25, d(3)=0.5, d(4)=0.75, dan d(5)=1.
3.4.1 Resolusi data

Percobaan dilakukan selama dua minggu pada bulan April 2000. Oleh karena itu kami tidak memiliki
data mengenai kemungkinan pengaruh musiman selama periode lain dalam setahun. Resolusi data
dalam sen USD, namun tawaran individu dibatalkan dan hanya harga akhir yang dipertimbangkan.
Rangkaian waktu lainnya (misalnya, jumlah kumulatif penawaran) juga dikumpulkan untuk menghasilkan
statistik akhir lelang seperti “jumlah total penawaran”. Mengingat tujuan umum untuk mengukur
pengaruh penggunaan harga rahasia versus harga cadangan publik terhadap harga akhir lelang, data
yang ada tampaknya agak terbatas. Jendela data dua minggu memungkinkan kontrol eksperimen yang
baik tetapi membatasi resolusi data untuk mempelajari efek yang lebih umum. Oleh karena itu kami
menilai resolusi data sebagai Y1= 4 (tinggi).
3.4.2 Struktur data

Data tersebut hanya mencakup informasi mengenai tingkat faktor yang ditetapkan oleh peneliti dan tiga
hasil: harga akhir, apakah lelang ditransaksikan, dan jumlah penawaran yang diterima. Data ditetapkan
oleh peneliti atau dikumpulkan dari situs lelang. Meskipun data rangkaian waktu berpotensi tersedia
untuk 50 lelang (misalnya rangkaian penawaran dan jumlah kumulatif penawar), para peneliti
menggabungkannya ke dalam total lelang. Data tekstual tersedia tetapi tidak digunakan. Misalnya,
nama pengguna penawar dapat digunakan untuk melacak masing-masing penawar yang mengajukan
beberapa tawaran. Sehubungan dengan data yang rusak, salah satu pemenang lelang secara tak
terduga menilai penjual, meskipun peneliti meminta untuk tidak melakukan hal tersebut (untuk menjaga
peringkat tetap konstan selama percobaan). Untungnya, kerusakan ini tidak mempengaruhi analisis,
karena desain penelitiannya. Sumber korupsi data lain yang tak terduga adalah kebijakan eBay yang
tidak mengizinkan penawaran di bawah harga cadangan publik. Oleh karena itu, jumlah penawaran
dalam lelang dengan harga cadangan rahasia tidak dapat dibandingkan dengan jumlah penawaran
yang sama dalam lelang harga cadangan publik. Para peneliti terpaksa menurunkan variabel “total
penawaran serius” baru, yang menghitung jumlah penawaran di atas harga cadangan rahasia.
Mengingat tingkat perhatian yang mendetail terhadap kondisi eksperimen, namun kurangnya
penggunaan rangkaian waktu dan data tekstual yang tersedia, kami menilai dimensi ini sebagai Y2=4 (tinggi).
3.4.3 Integrasi data

Para peneliti menganalisis data dua minggu dalam konteks strategi desain eksperimental. Integrasi
dengan faktor DOE jelas tercapai. Tampaknya tidak ada data tekstual atau data semantik lainnya yang
terintegrasi. Kami menilai dimensi ini sebagai Y3=4 (tinggi).
3.4.4 Relevansi temporal

Durasi percobaan yang singkat dan desain percobaan meyakinkan bahwa hasilnya tidak akan dikacaukan
dengan pengaruh waktu. Para peneliti mencoba untuk menghindari kerancuan hasil dengan perubahan
peringkat penjual dan oleh karena itu secara aktif meminta pemenang untuk menghindari memberi peringkat
pada penjual. Selain itu, pemilihan kartu Pokémon juga disesuaikan dengan ketepatan waktu, karena pada
saat itu barang-barang tersebut banyak diminati.
Terakhir, karena tujuan yang bersifat retrospektif, tidak ada urgensi dalam melakukan analisis data segera
setelah pengumpulan data. Kami menilai dimensi ini sebagai Y4= 5 (sangat tinggi).
3.4.5 Kronologis data dan tujuan

Variabel penyebab (rahasia atau cadangan publik) dan variabel pemblokiran (minggu) ditentukan pada tahap
desain lelang dan dimanipulasi sebelum lelang dimulai.
Kami menilai dimensi ini sebagai Y5=5 (sangat tinggi).
3.4.6 Generalisasi
Studi ini berkaitan dengan generalisasi statistik: Apakah efek yang ditemukan dalam sampel dapat
digeneralisasikan ke dalam konteks lelang online yang lebih luas? Salah satu kemungkinan bias, yang diakui
oleh penulis, adalah peringkat penjual mereka nol (menunjukkan penjual baru) yang membatasi kemampuan
generalisasi penelitian ini pada penjual yang lebih bereputasi.
Selain itu, mereka membatasi keumuman hasil mereka pada item bernilai rendah, yang mungkin tidak dapat
digeneralisasikan pada item yang lebih mahal. Kami menilai dimensi ini sebagai Y6=3 (dapat diterima).
3.4.7 Operasionalisasi
Dalam operasionalisasi konstruk, para peneliti mempertimbangkan dua teori yang menjelaskan pengaruh
harga rahasia versus harga cadangan publik terhadap harga akhir. Salah satu penjelasan psikologisnya
adalah: para penawar bisa “terjebak dalam penawaran” pada jumlah penawaran yang rendah dan akhirnya
mengajukan penawaran lebih tinggi dibandingkan jika penawaran dimulai dengan harga yang lebih tinggi.
Teori kedua adalah model penawar yang rasional: “lelang dengan penawaran awal yang rendah dan cadangan
rahasia yang tinggi dapat memberikan lebih banyak informasi kepada penawar dibandingkan lelang dengan
penawaran awal yang tinggi.” Meskipun kedua teori ini mengandalkan konstruksi operasional seperti
“informasi” dan “terjebak dalam penawaran,” para peneliti membatasi studi mereka pada opsi harga cadangan
dan harga akhir yang dapat diukur di eBay.
Dalam hal operasionalisasi tindakan, hasil studi dapat langsung digunakan oleh pembeli dan penjual di
platform lelang online, serta situs lelang (mengingat adanya pembatasan generalisasi di luar eBay dan di luar
kartu Pokémon). Ingatlah bahwa penelitian ini menguji pengaruh harga cadangan tidak hanya pada harga
lelang akhir tetapi juga pada kemungkinan lelang menghasilkan penjualan. Para penulis menyimpulkan:
Hanya 46% lelang cadangan rahasia yang menghasilkan penjualan, dibandingkan dengan
70% lelang cadangan publik untuk barang yang sama. Lelang cadangan rahasia menghasilkan
0,72 lebih sedikit penawar serius per lelang, dan $0,62 lebih sedikit pada lelang akhir
harga lelang, dibandingkan rata-rata lelang cadangan publik. Oleh karena itu kami dapat
menyarankan agar penjual menghindari penggunaan harga cadangan rahasia, khususnya
untuk kartu Pokémon.
Para penulis membatasi rekomendasi mereka pada barang-barang berbiaya rendah dengan
mengutip dari The Official eBay Guide (Kaiser dan Kaiser, 1999): “Jika harga jual minimum Anda di
bawah $25, berpikirlah dua kali sebelum menggunakan lelang cadangan. Penawar sering kali
menyamakan cadangan dengan mahal.”
Perhatikan bahwa karena hasil studi ini berlaku untuk “lelang rata-rata”, maka hasil ini paling dapat
ditindaklanjuti baik untuk platform lelang online yang menyelenggarakan banyak lelang atau untuk
penjual yang menjual banyak barang. Hasilnya tidak memberi tahu kita tentang keakuratan prediksi
untuk satu lelang.
Kami menilai dimensi ini sebagai Y7=4 (tinggi).
3.4.8 Komunikasi
Studi penelitian ini mengkomunikasikan analisisnya melalui makalah yang diterbitkan di jurnal peer-
jurnal yang direview. Hasil analisis disajikan dalam bentuk scatter plot, rangkaian estimasi model regresi
(estimasi efek dan standar error) serta interpretasinya dalam teks. Kami berasumsi bahwa penelitian
tersebut melakukan upaya diseminasi tambahan (misalnya, makalah ini tersedia untuk umum secara
online sebagai kertas kerja).
Abstrak makalah ini ditulis dalam bahasa non-teknis dan jelas sehingga dapat dengan mudah dipahami
tidak hanya oleh akademisi dan peneliti tetapi juga oleh peserta eBay. Kelemahan komunikasi utama
dari analisis ini adalah dalam hal visualisasi, dimana plot dapat menyampaikan beberapa hasil dengan
lebih jelas. Oleh karena itu kami menilai dimensi ini sebagai Y8= 4 (tinggi).
3.4.9 Skor kualitas informasi

Skor yang kami tetapkan untuk masing-masing dimensi adalah sebagai berikut:
1. Penyelesaian data 4
2. Struktur data 3. 4
Integrasi data 4. 4
Relevansi temporal 5. 5
Kronologi data dan tujuan 6. 5
Generalisasi 7. 3
Operasionalisasi 8. 4
Komunikasi 4
Berdasarkan penilaian subjektif ini, yang mewakili pendapat para ahli yang diperoleh dari publikasi
tunggal eksperimen lelang, kami memperoleh skor InfoQ berdasarkan rata-rata geometri keinginan
sebesar 77%, yang berarti relatif tinggi.
Dimensi yang relatif lemah adalah kemampuan generalisasi; dimensi terkuat adalah relevansi temporal
dan kronologi data serta tujuan. Upaya untuk meninjau skor
dengan beberapa perspektif waktu membuktikan bahwa skor ini kuat meskipun pendapat para ahli cenderung
berbeda sampai batas tertentu. Untuk mendapatkan skor berdasarkan konsensus, seseorang dapat meminta
sejumlah ahli (tiga hingga lima orang) untuk meninjau kasus tersebut dan membandingkan skor mereka.
Jika skornya konsisten, seseorang dapat memperoleh skor InfoQ yang konsisten. Jika terdapat perbedaan,
maka pertemuan konsensus para ahli akan dilakukan untuk membahas alasan di balik skor mereka dan
melakukan rekonsiliasi skor.
Jika rentang skor tetap ada, maka skor InfoQ dapat disajikan sebagai rentang nilai.
3.5 Ringkasan
Dalam bab ini kami membagi konsep InfoQ menjadi delapan dimensi, masing-masing dimensi berkaitan
dengan aspek berbeda dari komponen tujuan–data–analisis–utilitas.
Dengan adanya studi empiris, kita kemudian dapat menilai tingkat InfoQ dengan memeriksa masing-masing
dari delapan dimensi. Kami menyajikan empat pendekatan penilaian dan mengilustrasikan pendekatan
berbasis rating dengan menerapkannya pada penelitian Katkar dan Reiley (2006) mengenai pengaruh harga
cadangan dalam lelang online.
Penilaian InfoQ dapat dilakukan pada tahap perencanaan suatu penelitian, pada saat penelitian, atau
setelah penelitian dilaporkan. Pada Bab 13 kita membahas penerapan penilaian InfoQ pada proposal
penelitian mahasiswa pascasarjana. Pada Bab 4 dan 5, kami berfokus pada metode statistik yang dapat
diterapkan, baik secara apriori maupun a posteriori, untuk meningkatkan InfoQ, dan Bab 6–10 membahas
tentang penilaian InfoQ terhadap studi yang telah diselesaikan. Penilaian tersebut memberikan peluang
untuk peningkatan InfoQ, pada desain penelitian, selama atau setelah penelitian selesai.
Masing-masing dimensi InfoQ berkaitan dengan metode peningkatan InfoQ yang memerlukan
keterampilan multidisiplin. Misalnya, integrasi data terkait dengan kemampuan TI seperti teknologi ekstrak–
transformasi–muat (ETL), dan operasionalisasi tindakan dapat dikaitkan dengan proses manajemen di mana
item tindakan ditentukan untuk meluncurkan intervensi terfokus. Untuk pembahasan komprehensif tentang
teknik analitik data, lihat Shmueli dkk. (2016).
Pada Bagian II, kami mengkaji berbagai penelitian dari berbagai bidang dengan menggunakan rating-
pendekatan berbasis untuk menilai delapan dimensi InfoQ. Kombinasi area aplikasi dan penilaian InfoQ
memberikan contoh berbasis konteks. Kami menyarankan untuk memulai dengan domain minat tertentu,
meninjau contoh di masing-masing bab, lalu beralih ke domain dan bab lain. Kombinasi contoh spesifik
domain dan studi kasus lintas domain dirancang untuk memberikan perspektif umum dan mendalam
mengenai nilai tambah penilaian InfoQ.
Referensi
Bapna, R., Goes, P., Gopal, R. dan Marsden, JR (2006) Beralih dari penelitian yang dibatasi data ke
penelitian yang mendukung data: pengalaman dan tantangan dalam mengumpulkan, memvalidasi, dan
menganalisis data e-commerce berskala besar. Ilmu Statistik, 21, hlm.116–130.
Bapna, R., Jank, W. dan Shmueli, G. (2008a) Surplus konsumen dalam lelang online. Informasi
Penelitian Sistem, 19, hlm.400–416.
Bapna, R., Jank, W. dan Shmueli, G. (2008b) Pembentukan harga dan dinamikanya secara online
lelang. Sistem Pendukung Keputusan, 44, hlm.641–656.
Boslaugh, S. (2007) Sumber Data Sekunder Kesehatan Masyarakat: Panduan Praktis. Cambridge
University Press, Cambridge, Inggris.
De Veaux, RD (2009) Eksplorasi Data Mining yang Berhasil dalam Prakteknya. Seri Penjelajah JMP.
http://www.williams.edu/Mathematics/rdeveaux/success.pdf (diakses 24 Mei 2016).
Deming, WE (2000) Keluar dari Krisis. MIT Pers, Cambridge, MA.
Ehling, M. dan Körner, T. (2007) Buku Panduan Eurostat tentang Metode dan Alat Penilaian Kualitas
Data, Wiesbaden. http://ec.europa.eu/eurostat/web/quality/qualityÿreporting (diakses 30 April 2016).
Fienberg, SE (2006) Privasi dan kerahasiaan dalam dunia e-commerce: penambangan data,
pergudangan data, pencocokan dan batasan pengungkapan. Ilmu Statistik, 21, hlm.143–154.
Figini, S., Kenett, RS dan Salini, S. (2010) Mengintegrasikan penilaian risiko operasional dan keuangan
catatan. Rekayasa Kualitas dan Keandalan Internasional, 26, hlm.887–897.
Forbes, S. dan Brown, D. (2012) Pemikiran konseptual di kantor statistik nasional. Statistik
Jurnal IAOS, 28, hlm.89–98.
Ghani, R. dan Simmons, H. (2004) Memprediksi Harga Akhir Lelang Online. Lokakarya Internasional
tentang Penambangan Data dan Metode Pemodelan Adaptif untuk Ekonomi dan Manajemen, Pisa.
Giovanni, E. (2008) Pengertian Statistik Ekonomi. Organisasi untuk Kerja Sama Ekonomi dan Penerbitan
Pembangunan, Jenewa.
Goldenberg, A., Shmueli, G., Caruana, RA dan Fienberg, SE (2002) Deteksi statistik dini wabah antraks
dengan melacak penjualan obat bebas. Prosiding National Academy of Sciences, 99(8), hlm.5237–
5240.
Goodman, D. dan Hambleton, R. (2004) Laporan nilai ujian siswa dan panduan interpretatif: tinjauan
praktik saat ini dan saran untuk penelitian masa depan. Pengukuran Terapan dalam Pendidikan,
17(2), hlm.145–220.
Gopen, G. dan Swan, J. (1990) Ilmu penulisan ilmiah. Ilmuwan Amerika, 78,
hal.550–558.
Granger, CWJ (1969) Menyelidiki hubungan sebab akibat dengan model ekonometrik dan metode lintas-
spektral. Ekonometrika, 37, hlm.424–438.
Sekretariat Jaringan Metrik Kesehatan (2008) Kerangka dan Standar Jaringan Metrik Kesehatan untuk
Sistem Informasi Kesehatan Negara, edisi ke-2. Organisasi Kesehatan Dunia, Jaringan Metrik
Kesehatan, Jenewa.
Kaiser, LF dan Kaiser, M. (1999) Panduan Resmi eBay untuk Membeli, Menjual, dan Mengumpulkan
Tentang Apa Saja. Simon & Schuster, New York.
Katkar, R. dan Reiley, DH (2006) Harga cadangan publik versus rahasia dalam lelang eBay: hasil dari
eksperimen lapangan Pokemon. Kemajuan dalam Analisis dan Kebijakan Ekonomi, 6(2), pasal 7.
Kaynak, E. dan Herbig, P. (2014) Buku Panduan Pemasaran Lintas Budaya. Routledge, London.
Kenett, RS dan Salini, S. (2012) Analisis Modern Survei Kepuasan Pelanggan: Dengan
Aplikasi Menggunakan R. John Wiley & Sons, Ltd, Chichester, Inggris.
Kenett, RS dan Shmueli, G. (2015) Memperjelas terminologi yang menjelaskan reprodusibilitas ilmiah.
Metode Alam, 12, hlm.699.
Kenett, R., Zacks, S. dan Amberti, D. (2014) Statistik Industri Modern: Dengan Aplikasi di R, MINITAB
dan JMP, edisi ke-2. John Wiley & Sons, Chichester, Sussex Barat, Inggris.
Kirschbaum, C. dan Hellhammer, DH (1989) Kortisol ludah dalam penelitian psikobiologis:

gambaran. Neuropsibiologi, 22, hlm.150–169.
Lee, Y., Strong, D., Kahn, B. dan Wang, R. (2002) AIMQ: metodologi penilaian kualitas informasi.
Informasi & Manajemen, 40, hlm.133–146.
Lotze, T., Shmueli, G. dan Yahav, I. (2010) Simulasi dan Evaluasi Kumpulan Data Biosurveillance,
dalam Biosurveillance: Metode dan Prioritas Studi Kasus, KassÿHout, T. dan Zhang, X. (editor),
CRC Press, Boca Raton, FL.
McShane, BB dan Wyner, AJ (2011) Analisis statistik terhadap beberapa proksi suhu: apakah
rekonstruksi suhu permukaan selama 1000 tahun terakhir dapat diandalkan? Annals of Applied
Statistics, 5, hlm.5–44.
Patzer, GL (1995) Menggunakan Data Sekunder dalam Riset Pemasaran. Praeger, Westport, CT.
Pavlou, PA dan Dimoka, A. (2006) Sifat dan peran komentar teks umpan balik di pasar online: implikasi
terhadap pembangunan kepercayaan, harga premium, dan diferensiasi penjual.
Penelitian Sistem Informasi, 17(4), hlm.392–414.
Raiffa, H. (1970) Analisis Keputusan: Kuliah Pengantar Pilihan dalam Ketidakpastian.
Addison-Wesley, Reading, MA.
Rao, CR (1985) Distribusi Tertimbang yang Timbul dari Metode Penetapan: Populasi Apa yang Diwakili
Sampel?, dalam Perayaan Statistik: Volume Centenary ISI, Atkinson, AC dan Fienberg, SE (editor),
Springer, New York, hal.543–569.
Rasch, G. (1977) Tentang objektivitas spesifik: upaya memformalkan permintaan keumuman dan
validitas pernyataan ilmiah. Buku Tahunan Filsafat Denmark, 14, hlm.58–93.
Saltelli, A., Stark, P., Becker, W. dan Stano, P. (2015) Model iklim sebagai panduan ekonomi: tantangan
ilmiah atau pencarian aneh? Isu Sains dan Teknologi, 31(3). http://
issue.org/31ÿ3/climate-models-as-economic-guides-scientific-challenge-or-quixotic-quest (diakses
pada 30 April 2016).
Shewhart, WA (1986) Metode Statistik dari Sudut Pandang Pengendalian Mutu, Deming,
WD (editor), Dover Publications, New York.
Shmueli, G. (2010) Untuk menjelaskan atau memprediksi? Ilmu Statistik, 25(3), hlm.289–310.
Shmueli, G., Bruce, P. dan Patel, NR (2016) Data Mining untuk Analisis Bisnis: Konsep, Teknik, dan
Aplikasi di Microsoft Office Excel dengan XLMiner, edisi ke-3. John Wiley & Sons, Inc., Hoboken, NJ.
Tufte, RE (1992) Tampilan Visual Informasi Kuantitatif. Pers Grafis, Cheshire,

CT.
Wang, RY, Kon, HB dan Madnick, SE (1993) Analisis Persyaratan Kualitas Data dan
Pemodelan. Konferensi Internasional ke-9 tentang Rekayasa Data, Wina.
Wang, S., Jank, W. dan Shmueli, G. (2008) Menjelaskan dan memperkirakan harga lelang online dan
dinamikanya menggunakan analisis data fungsional. Jurnal Statistik Bisnis dan Ekonomi, 26,
hlm.144–160.
InfoQ pada tahap desain penelitian
4.1 Pendahuluan
Metodologi statistik mencakup pendekatan desain penelitian yang bertujuan untuk menghasilkan
data dengan metode analisis berkualitas tinggi, f, dan secara implisit memiliki kualitas informasi
tinggi (InfoQ). Misalnya, bidang desain eksperimen (DoE atau DoX) berfokus pada perancangan
eksperimen yang menghasilkan data dengan kekuatan yang cukup untuk mendeteksi efek sebab
akibat yang diinginkan, dalam batasan sumber daya. Domain uji klinis menggunakan desain
penelitian yang mengatasi kendala etika dan kendala subjek manusia lainnya. Dan metodologi
survei menawarkan rencana pengambilan sampel yang bertujuan untuk menghasilkan data survei
dengan InfoQ tinggi. Dalam bab ini kami meninjau beberapa pendekatan statistik untuk
meningkatkan InfoQ pada tahap desain penelitian. Secara khusus, kami melihat pendekatan dan
metodologi untuk meningkatkan InfoQ sebelum pengumpulan data. Meskipun data tidak tersedia
pada tahap perencanaan ini, ada berbagai faktor yang dapat mempengaruhi InfoQ bahkan pada tahap ini.
Penting untuk membedakan antara penyebab yang mempengaruhi kualitas data dan InfoQ a
priori (atau ex ante) dan a posteriori (atau ex post). Penyebab apriori diketahui selama tahap
desain penelitian dan sebelum pengumpulan data. Hal ini diakibatkan, misalnya, dari keterbatasan
sumber daya (misalnya ukuran sampel), pertimbangan etis, hukum, dan keamanan (misalnya
ketidakmampuan untuk menguji obat tertentu pada orang tertentu dalam uji klinis) dan kendala.
pada kombinasi tingkat faktor dalam desain eksperimental. Masalah a posteriori (fokus Bab 5)
dihasilkan dari kinerja sebenarnya dari mekanisme yang menghasilkan atau mengumpulkan data
dan ditemukan (atau tidak) setelah data dikumpulkan (misalnya, kesalahan entri data, kesalahan
pengukuran, kendala ex post dalam kondisi eksperimental dan manipulasi data yang disengaja).
Pertimbangkan kumpulan data terukur X dan kumpulan data target X*ÿX. Kami menyatakan data
yang dipengaruhi oleh penyebab apriori dengan X=ÿ1 (X*), oleh penyebab a posteriori dengan
X=ÿ2 (X*) dan oleh kedua penyebab dengan X=ÿ1 {ÿ2 (X*)}. Dalam bab ini kami menjelaskan
pendekatan yang ada untuk meningkatkan InfoQ dalam berbagai skenario a

54 InfoQ pada tahap desain penelitian

Tabel 4.1 Strategi statistik untuk meningkatkan InfoQ berdasarkan penyebab apriori pada tahap
desain.
Strategi untuk meningkatkan InfoQ Penyebab apriori
Desain Pengacakan; pemblokiran; replikasi; Keterbatasan sumber daya;

eksperimen menghubungkan protokol pengumpulan data berjalan mustahil
dengan desain yang sesuai
Uji klinis Pengacakan; pemblokiran; replikasi; menghubungkan protokol Keterbatasan sumber daya;
pengumpulan data dengan desain yang sesuai; etika; keamanan
membutakan; plasebo
Pengambilan Mengurangi kesalahan nonsampling Keterbatasan sumber daya;
sampel survei (misalnya, pengujian awal kuesioner, etika; keamanan
mengurangi nonresponse) dan kesalahan
pengambilan sampel (misalnya, pengacakan,
stratifikasi, mengidentifikasi populasi target dan sampel)
Eksperimen Pengacakan; pemblokiran; replikasi; Tidak mungkin
komputer menghubungkan protokol pengumpulan data atau sulit memperoleh
dengan desain yang sesuai; desain pengisian ruang data yang sebenarnya;
waktu dan biaya yang
terkait dengan simulasi komputer
masalah data apriori dan kendala penurunan InfoQ terkait. Tabel 4.1 merangkum strategi dan kendalanya.
Bagian selanjutnya memperluas setiap poin.
4.2 Data dan eksperimen primer versus sekunder

versus data observasi
Sebelum membahas empat pendekatan statistik utama untuk meningkatkan InfoQ pada tahap desain
penelitian, kami memperjelas perbedaan antara kedua jenis metode pengumpulan data dan kaitannya dengan
bab ini. Perbedaan pertama adalah antara data primer dan sekunder. Yang kedua adalah antara data
eksperimen dan observasi. Mari kita periksa masing-masingnya.
4.2.1 Data primer versus data sekunder

Istilah data primer dan data sekunder populer dalam ilmu sosial, riset pemasaran, epidemiologi, dan kesehatan
masyarakat. Perbedaan antara data primer dan sekunder bergantung pada hubungan antara peneliti atau tim
yang merancang penelitian dan mengumpulkan data serta pihak yang menganalisisnya. Oleh karena itu,
kumpulan data yang sama dapat menjadi data primer dalam satu analisis dan data sekunder dalam analisis
lainnya (Boslaugh, 2007).
Data primer mengacu pada data yang dikumpulkan oleh peneliti untuk tujuan analisis tertentu. Data
sekunder mengacu pada data yang dikumpulkan oleh orang lain selain peneliti atau
InfoQ pada tahap desain penelitian 55
dikumpulkan sebelumnya oleh peneliti untuk tujuan yang berbeda dari tujuan penelitian yang diminati. Data
tersebut mungkin dikumpulkan oleh peneliti atau organisasi lain untuk tujuan analisis yang sama atau untuk
tujuan yang sama sekali berbeda. Singkatnya, data primer dikumpulkan di bawah kendali peneliti dengan
mempertimbangkan tujuan penelitian, sedangkan data sekunder dikumpulkan terlepas dari penelitian yang
diminati.
Perhatikan bahwa istilah primer dan sekunder tidak menyiratkan urutan kepentingan atau kegunaan data,
namun hanya sumber pengumpulan dan tujuan relatif terhadap studi yang diminati. Kelebihan dan kekurangan
data primer dan sekunder dibahas dalam riset pemasaran dan literatur kesehatan masyarakat (Patzer, 1995,
bab 2; Boslaugh, 2007, hlm. 3–4). Pertimbangan penggunaan data sekunder dibandingkan pengumpulan data
primer mencakup biaya perolehan dan penghematan waktu, luasnya data, keahlian pengumpul data,
ketersediaan pengukuran yang diperlukan, pengetahuan tentang proses pengumpulan, dan tantangan yang
dihadapi.
Dalam bab ini kita fokus pada tahap desain pengumpulan pradata suatu penelitian. Metodologi statistik
yang kita diskusikan ditujukan kepada peneliti yang memiliki kendali atas pengumpulan data. Oleh karena itu,
kami melihat data primer. Pada Bab 5 kita melihat metode pengumpulan postdata untuk meningkatkan InfoQ.
Kami menangani data sekunder serta “data primer dengan tujuan yang direvisi”—yaitu, data yang dikumpulkan
untuk satu tujuan, namun kemudian tujuan penelitian direvisi, sehingga menjadikan data tersebut bersifat
“sekunder”.
Meskipun perbedaan antara data primer dan sekunder mungkin tampak jelas, terdapat beberapa desain
studi campuran. Salah satu jenis penelitian yang kita bahas dalam bab ini—eksperimen komputer—
menggabungkan data primer dan sekunder.
Secara khusus, biasanya menggunakan data sekunder untuk membangun model dan kemudian menggunakan
model tersebut untuk mensimulasikan “data primer.” Hibrida data primer-sekunder lainnya adalah meta-analisis,
di mana “data” mengacu pada hasil penelitian sebelumnya yang mempelajari pertanyaan penelitian yang sama.
Metodologi statistik kemudian digunakan untuk menggabungkan hasil-hasil sebelumnya untuk memperoleh
hasil yang lebih tepat dan dapat diandalkan, yaitu untuk meningkatkan InfoQ.
4.2.2 Data eksperimen versus observasi

Perbedaan umum dan penting lainnya antara metode pengumpulan data adalah antara data eksperimen,
seperti data uji coba terkontrol secara acak (RCT), dan data observasi, yaitu data yang dikumpulkan dengan
mengamati suatu fenomena yang ada.
Data eksperimen dapat dikumpulkan di laboratorium (in vitro), di mana peneliti memiliki kendali lebih besar
terhadap lingkungan, atau “di alam liar” (in vivo). Perusahaan seperti Amazon (www.amazon.com) dapat
menjalankan eksperimen pada sampel pengguna acak dan mendapatkan hasilnya dalam hitungan menit.
Perusahaan survei web seperti SurveyMonkey (www.
SurveyMonkey.com) dapat mengarahkan survei ke kelompok tertentu dalam panel online yang besar.
Untuk tujuan studi kausal, peneliti biasanya lebih memilih mengumpulkan data eksperimen.
Namun, jika tidak mungkin atau sangat sulit untuk melakukan eksperimen karena alasan etika atau hukum, atau
karena biaya yang mahal, peneliti biasanya menggunakan data observasi. Dalam menganalisis data tersebut,
mereka mungkin menggunakan metode analitik yang memberikan kemampuan inferensial antar kelompok
seperti studi transportabilitas (Bareinboim dan Pearl, 2013a, 2013b).
Data observasi terkadang menjadi metode pilihan, terutama bila tujuan penelitian bersifat nonkausal:
deskriptif atau prediktif. Era big data telah menyaksikan pertumbuhan besar dalam pemodelan prediktif
berdasarkan data observasi, dengan penerapan di banyak bidang. Salah satu karakteristik data observasi,
yang berguna untuk prediksi, adalah bahwa data yang dikumpulkan biasanya lebih mirip dengan data selama
target waktu prediksi dibandingkan dengan data dalam eksperimen laboratorium.
Perhatikan bahwa perbedaan data primer-sekunder berbeda dengan perbedaan eksperimental/

observasional. Data primer dapat berupa eksperimen atau observasi. Demikian pula, data sekunder dapat
diperoleh dari eksperimen lain atau dari data observasi yang dikumpulkan untuk tujuan yang berbeda dari
penelitian yang diminati. Selain itu, data observasi dapat dikumpulkan dengan menerapkan metode DoE.
Misalnya, metode desain eksperimental yang optimal telah digunakan (Steinberg et al., 1995) dalam
menentukan lokasi sensor untuk mendeteksi gempa bumi. Prosedur umum untuk menerapkan metode desain
optimal pada data observasi telah diusulkan oleh Berni (2003).
Dalam konteks kesehatan, Shavit et al. (2007) mengusulkan pendekatan untuk biaya-
analisis efektivitas studi yang diperlukan untuk mengevaluasi teknologi kesehatan untuk penggantian. Mereka
menganggap bias yang melekat dalam desain penelitian sebagai faktor utama yang membedakan kemampuan
penelitian dalam memprediksi manfaat dari teknologi layanan kesehatan baru. Metode mereka memungkinkan
untuk melakukan, pada tahap desain, evaluasi ekonomi terhadap bias yang melekat dalam desain penelitian
sebagai cara alternatif untuk memperoleh ukuran kesalahan sistematis. Analisis berbasis ekonomi ini juga
bertujuan untuk meningkatkan InfoQ pada tahap desain.
Pada bagian berikut dalam bab ini, kita melihat desain eksperimental dan desain observasional serta
metode statistik yang bertujuan untuk meningkatkan InfoQ dari data yang dihasilkan.
4.3 Desain statistik eksperimen

Eksperimen terkontrol dianggap sebagai standar emas untuk menyimpulkan kausalitas, namun eksperimen
memerlukan banyak sumber daya. Tujuan dari bidang DoE adalah untuk mengumpulkan data secara proaktif
dengan cara yang paling efisien untuk menjawab pertanyaan sebab akibat yang menarik. Tujuan, g, dari
eksperimen yang dirancang secara statistik (DoE) biasanya diklasifikasikan menjadi:
• Penyaringan—Mengidentifikasi faktor-faktor utama yang mempengaruhi suatu respons. Biasanya, daftar

panjang faktor-faktor yang mempunyai dampak potensial terhadap respons direduksi menjadi daftar
pendek “faktor-faktor aktif” melalui model linier.
• Membandingkan—Menguji pengaruh satu faktor terhadap suatu respons, sering kali dengan adanya
faktor pengganggu lainnya.
• Optimalisasi—Menemukan subset ruang faktor yang mengoptimalkan respons.

Eksperimen dirancang untuk memetakan apa yang disebut ruang desain, biasanya melalui model
nonlinier dan metode optimasi.
• Penguatan—Mengurangi sensitivitas respons terhadap variabel kebisingan, pada subkumpulan ruang faktor
yang diidentifikasi sebagai optimal. Hal ini dicapai dengan menggunakan rangkaian eksperimen internal dan
eksternal yang mencerminkan pengaturan kontrol dan faktor kebisingan yang proaktif (Phadke, 1989).
Mengingat salah satu tujuan ini dan kendala sumber daya yang umum, faktor eksperimental-
kombinasi level dipilih dan array eksperimental dipilih. Pertimbangan ini mengasumsikan bahwa data akhir akan
sama dengan data ideal: X=ÿ1 (X*). Kemudian, dengan asumsi analisis statistik memadai, data yang dihasilkan oleh
eksperimen tersebut diharapkan menghasilkan InfoQ yang tinggi dalam menjawab pertanyaan yang menarik, pada
tingkat kesalahan tipe I dan II (U) yang diperlukan.
Perhatikan bahwa data yang dikumpulkan melalui desain untuk mencapai tujuan g1 harus menghasilkan InfoQ
Misalnya,
yang tinggi dibandingkan dengan tujuan tersebut, namun mungkin memiliki InfoQ yang rendah untuk gi ÿ g1 .
data dari penelitian yang dirancang untuk menyaring beberapa lusin faktor mungkin memiliki InfoQ yang rendah untuk
membandingkan efek dalam kaitannya dengan faktor yang dipilih dan tingkatnya.
Untuk menunjukkan hal ini, pertimbangkan percobaan faktorial pecahan 27ÿ3 yang dirancang untuk menyaring tujuh
faktor (berlabel M, S, V0, K, P0, T0, dan T) yang mempengaruhi kinerja piston (lihat Gambar 4.1). Eksperimen
semacam itu terdiri dari desain dengan dua tingkat untuk setiap faktor dan memungkinkan untuk menyaring pengaruh
faktor berdasarkan efek linier dan
Gambar 4.1 Tangkapan layar JMP dari eksperimen faktorial pecahan 27ÿ3 dengan simulator piston yang dijelaskan
dalam Kenett dan Zacks (2014). Sumber: Kenett dan Zacks (2014).
Direproduksi dengan izin dari John Wiley & Sons, Inc.
interaksi. Eksperimen khusus ini adalah bagian dari pendekatan umum untuk mengajar DoE
menggunakan simulator, sehingga memberikan pengalaman interaktif langsung dengan metode DoE.
Simulator piston adalah tambahan gratis pada perangkat lunak JMP yang digunakan di Kenett dan
Zacks (2014) untuk mengajarkan kontrol proses statistik dan DoE. Dari kanan ke kiri, susunan
eksperimental berada dalam urutan standar dan sesuai dengan desain ortogonal yang sepenuhnya
seimbang.
Rancangan alternatifnya adalah dengan menggunakan rancangan penyaringan pasti dengan 17
proses pada tujuh faktor yang sama (lihat Gambar 4.2). Desain ini menggabungkan tiga level untuk
setiap faktor dan oleh karena itu memberikan kemampuan untuk memodelkan efek kuadrat hanya
dengan satu kali percobaan lebih banyak dibandingkan dengan desain sebelumnya.
Untuk membandingkan desain, kita dapat menggunakan sebagian kecil plot ruang desain yang
mengkarakterisasi ruang eksperimen dalam bentuk varians prediksi (lihat Gambar 4.3). Plot menunjukkan
bahwa rata-rata varians prediksi untuk desain faktorial pecahan 27ÿ3 adalah 0,0135 dan untuk desain
penyaringan pasti, 0,225. Selain itu, kita melihat bahwa varians prediksi dalam eksperimen faktorial
pecahan kurang lebih seragam di seluruh wilayah desain, dibandingkan dengan desain penyaringan
pasti. Dalam desain tersebut kita melihat bahwa varians prediksi berkisar antara 0,1 hingga 0,4 di
pinggiran rentang eksperimen. Desain pilihan jelas bergantung pada tujuan penyelidikan.
Gambar 4.2 Tangkapan layar JMP dari eksperimen desain penyaringan definitif dengan simulator piston
yang dijelaskan dalam Kenett dan Zacks (2014). Sumber: Kenett dan Zacks (2014). Direproduksi dengan
izin dari John Wiley & Sons, Inc.
Gambar 4.3 Tangkapan layar JMP pecahan plot ruang desain dan diagnostik desain desain
penyaringan pecahan (kiri) dan pasti (kanan).
Skrining dengan desain faktorial fraksional lebih baik; namun desain penyaringan yang pasti
memungkinkan pengoptimalan yang lebih baik karena mengambil efek kuadrat. Jika tujuan kita
adalah untuk mengidentifikasi cara terbaik mengoperasikan piston untuk mencapai kinerja target,
kita akan memilih desain penyaringan pasti meskipun kinerjanya lebih buruk daripada desain
seimbang faktorial fraksional. Untuk informasi lebih lanjut mengenai desain penyaringan yang pasti
dan optimasi desain di bawah batasan pada tingkat faktor eksperimental, lihat Goos dan Jones
(2011).
Dalam studi eksperimental lelang online yang dibahas di Bab 3, kami mempertimbangkan
pilihan item yang akan dilelang oleh peneliti (kartu Pokémon), desain eksperimen (menjual 25
pasang kartu Pokémon identik, masing-masing kartu dilelang dua kali: sekali dengan cadangan
umum dan sekali lagi dengan cadangan rahasia) dan pengaturan eksperimental (misalnya, semua
lelang adalah lelang tujuh hari dan dimulai pada hari Minggu antara jam 7 dan 9 malam.
Waktu Standar Timur, dan peringkat penjual dipertahankan pada nol), yang semuanya ditujukan
secara langsung untuk mencapai InfoQ yang tinggi untuk menjawab pertanyaan komparatif tertentu.
Sebaliknya, data yang sama akan menjadi InfoQ yang rendah untuk studi penyaringan guna
menentukan faktor-faktor utama yang mempengaruhi harga akhir, karena banyak faktor potensial
seperti durasi lelang, hari awal dan akhir dalam seminggu, dan peringkat penjual sengaja dibuat.
diadakan konstan.
Tiga prinsip utama desain eksperimental—pengacakan, pemblokiran, dan replikasi—

mengasumsikan bahwa pengumpulan data berada di bawah kendali pelaku eksperimen
dan oleh karena itu memaksimalkan InfoQ melalui pembuatan data “pintar”. Namun pada
tahap pascadesain, setelah data dikumpulkan, yang dapat dilakukan hanyalah
mengevaluasi apakah dan bagaimana prinsip-prinsip ini telah dicapai dengan mengaudit
protokol pelaksanaan eksperimen. Kita kembali ke sini di Bab 5.
4.4 Uji klinis dan eksperimen dengan

subyek manusia
Uji klinis didefinisikan sebagai “studi prospektif yang membandingkan efek dan nilai
intervensi terhadap kontrol pada manusia” (Friedman et al., 1999, hal. 2).
Dalam uji klinis, prinsip utamanya adalah pengacakan dan penyamaran ganda (double
blind) dimana dokter dan pasien tidak memiliki pengetahuan tentang penugasan
pengobatan; terkadang triple blinding diterapkan, dimana analis data pun tidak mengetahui
arti dari label berbagai kelompok yang dia analisis. Tujuannya adalah untuk menghasilkan
data yang tidak bias yang kemudian dapat digunakan untuk mengevaluasi atau
membandingkan dampak intervensi. Namun, menghasilkan data dengan InfoQ tinggi
melalui uji klinis agak berbeda dengan DoE. Meskipun desain uji klinis dan eksperimen
yang melibatkan manusia berakar pada DoE klasik, faktor manusia yang terlibat (misalnya
pasien dan dokter) memperkenalkan dua faktor pembeda penting, yaitu etika dan
keamanan, yang dapat membatasi tingkat InfoQ dari penelitian tersebut. data yang
dihasilkan X = ÿ1 (X*). Jika dalam DoE klasik kendala utamanya adalah sumber daya,
sedangkan dalam uji klinis atau eksperimen lain yang melibatkan subjek manusia, aspek
penting dari desain penelitian adalah pertimbangan etis. Pertimbangan etis membatasi
desain eksperimental dan dapat menurunkan InfoQ. Misalnya, beberapa kombinasi
pengobatan mungkin tidak etis, beberapa rangkaian proses mungkin tidak etis, atau
bahkan kurangnya pengobatan bisa jadi tidak etis. Penghentian awal uji coba melalui
analisis kesia-siaan adalah strategi yang masuk akal. Uji klinis biasanya memerlukan
kelompok kontrol, namun tidak memberikan pengobatan atau memberikan plasebo mungkin tidak etis
beberapa kasus.
Selain itu, strategi pengacakan, yang merupakan inti dari eksperimen, masih
diperdebatkan secara etis (Friedman et al., 1999, hal. 45). Prinsip penting dalam analisis
uji klinis adalah menghubungkan protokol pengumpulan data dengan analisis data: “saat
kamu mengacak, maka kamu juga harus menganalisis” (Senn, 2004). Untuk penanganan
komprehensif masalah statistik dan etika uji klinis pertama pada manusia, lihat Senn dkk.
(2007).
Badan Pengawas Obat dan Makanan (FDA) mengeluarkan dokumen panduan berjudul
“Strategi Pengayaan Uji Klinis untuk Mendukung Persetujuan Obat Manusia dan Produk
Biologis” (FDA, 2012). Dokumen tersebut mendefinisikan pengayaan sebagai “penggunaan
prospektif dari setiap karakteristik pasien untuk memilih populasi penelitian di mana
deteksi efek obat (jika memang ada) lebih mungkin terjadi dibandingkan pada populasi
yang tidak dipilih.” Tujuan dari panduan ini adalah untuk meningkatkan InfoQ dengan
metode desain yang efektif.
Strategi pengayaan dipertimbangkan dalam konteks uji coba terkontrol secara acak (RCT) dan
sebagian besar mempengaruhi pemilihan pasien sebelum pengacakan. Ini mencakup tiga metode utama:
1. Strategies to drop heterogeneity – Strategi ini mencakup pemilihan pasien dengan pengukuran
dasar dalam rentang yang sempit (variabilitas antar pasien menurun) dan mengecualikan pasien
yang penyakit atau gejalanya membaik secara spontan atau yang pengukurannya sangat
bervariasi. Penurunan variabilitas yang diberikan oleh pendekatan ini meningkatkan kekuatan
belajar.
2. Strategi pengayaan prognostik - Memilih pasien dengan kemungkinan lebih besar mengalami
kejadian akhir terkait penyakit atau kondisi yang memburuk secara signifikan. Pendekatan ini
meningkatkan perbedaan efek absolut antar kelompok tetapi tidak akan mengubah efek relatif.
3. Strategi pengayaan prediktif – Memilih pasien yang lebih mungkin merespons pengobatan obat
dibandingkan pasien lain dengan kondisi yang sedang dirawat.
Seleksi seperti ini dapat menghasilkan ukuran efek yang lebih besar dan memungkinkan penggunaan populasi penelitian
yang lebih kecil.
Semua strategi ini bertujuan untuk meningkatkan InfoQ penelitian klinis.

InfoQ berpotensi menurun karena faktor manusia yaitu kepatuhan pasien dan dokter terhadap
rejimen pengobatan yang diamanatkan oleh desain eksperimental. Hal ini dapat membatasi jenis
pertanyaan penelitian yang dapat dijawab. Dalam kasus ekstrim, “seorang penyelidik mungkin tidak dapat
membandingkan intervensi, namun hanya dapat membandingkan strategi intervensi” (Friedman dkk.,
1999, hal. 3). Selain itu, respon manusia dapat dipengaruhi tidak hanya oleh pengobatan tetapi juga oleh
efek psikologis dan efek lainnya. Oleh karena itu, plasebo dan membutakan
dipekerjakan secara luas.
Dokumen panduan FDA menyatakan: “Praktik-praktik seperti mendorong kepatuhan yang baik
dengan membuat pasien sadar akan kondisi dan tuntutan uji coba, menghindari titrasi obat yang terlalu
cepat yang dapat menyebabkan efek samping awal yang tidak dapat ditoleransi, menggunakan petunjuk
dan peringatan kepatuhan. sistem, dan menghitung pil (atau menggunakan “botol pintar” untuk memantau
penggunaan narkoba) sehingga pasien yang tidak patuh dapat didorong untuk bekerja lebih baik telah
menjadi standar. Kadang-kadang juga ada upaya yang lebih spesifik untuk mengidentifikasi dan
mendaftarkan obat yang patuh ke dalam uji klinis.” Kalimat terakhir adalah tentang meningkatkan InfoQ
dengan desain studi yang tepat, termasuk pengelolaan kepatuhan pasien dan pendaftaran pasien yang
efektif. Kepatuhan pasien yang buruk terhadap pengobatan yang diteliti mengurangi InfoQ. Selain itu,
FDA memberikan peringatan: “menghilangkan pasien yang patuh yang diidentifikasi setelah pengacakan
umumnya tidak dapat diterima karena pasien tersebut kemungkinan besar bukan merupakan sampel
acak dari populasi penelitian dan karena kepatuhan itu sendiri telah dikaitkan dengan hasil, bahkan
kepatuhan dalam mengambil plasebo.”
Oleh karena itu, ketidakpatuhan yang tidak ditangani oleh desain bersifat negatif
mempengaruhi kualitas penelitian dan tidak dapat diabaikan dalam analisis.
Dua faktor lebih lanjut yang menurunkan InfoQ untuk membandingkan intervensi adalah masalah
keamanan dan kebutuhan akan informed consent. Pertimbangan keamanan dapat mempengaruhi InfoQ
dengan mempengaruhi desain penelitian, misalnya dengan membatasi dosis pada tingkat yang relatif rendah
tingkat. Implikasi lain dari keamanan adalah sangat kecilnya ukuran sampel yang digunakan
dalam studi fase I (untuk menilai tingkat toksisitas suatu obat terhadap manusia) dan sifat
pemberian obat yang berurutan. Faktanya, desain multitahap dan sekuensial sangat populer
dalam konteks uji klinis karena pertimbangan etika dan keamanan. Kebutuhan untuk
mendapatkan persetujuan dari peserta uji klinis menimbulkan kendala pada kemampuan
untuk mendapatkan hasil yang “objektif” karena berdampak pada efek psikologis dan tingkat
kepatuhan. Oleh karena itu, keterbatasan data yang timbul dari pertimbangan etika dan
keamanan dalam uji klinis dapat menyebabkan InfoQ lebih rendah.
4.5 Desain studi observasional: Sampling survei

Literatur statistik mengenai metodologi untuk merancang studi observasional mencakup
survei sampel. Metodologi pengambilan sampel bertujuan untuk mencapai estimasi presisi
tinggi dan bias rendah, dalam keterbatasan sumber daya. Merancang studi survei terdiri dari
penentuan permasalahan pengambilan sampel seperti ukuran sampel, skema pengambilan
sampel, dan alokasi pengambilan sampel guna mengurangi kesalahan pengambilan sampel,
serta mengatasi permasalahan nonsampling seperti nonresponse dan perancangan kuesioner
untuk mengurangi kesalahan nonsampling (bias pengukuran). dan bias seleksi). Oleh karena
itu, InfoQ dipengaruhi oleh kesalahan sampling dan nonsampling, relatif terhadap tujuan yang
ada. Metodologi survei bertujuan untuk menciptakan instrumen pengumpulan data (kuesioner)
dan proses survei yang menghasilkan data yang andal dan valid. Misalnya, kita harus
membedakan antara survei individual, dimana pendapat responden diminta, dan survei
rumah tangga dan perusahaan, dimana responden diminta untuk memberikan tanggapan
yang mewakili seluruh rumah tangga atau organisasi. Tujuan survei menentukan bagaimana
kuesioner dirumuskan dan bagaimana survei dilakukan (untuk evaluasi pembuatan kuesioner
survei, lihat Forsyth et al., 1999).
Survei individu dengan InfoQ tinggi dapat berubah menjadi InfoQ rendah jika opini yang dicari
adalah opini perusahaan dan bukan opini pribadi. Contoh lainnya adalah survei yang
mengukur tingkat pengangguran (seperti Survei Populasi Saat Ini di Amerika Serikat) namun
tidak dirancang untuk menghasilkan statistik tentang jumlah pekerjaan yang dimiliki. Kedua
jenis survei yang berbeda ini biasanya menghasilkan angka pengangguran yang berbeda.
Langkah pertama dalam merancang survei adalah menghasilkan pernyataan statistik

yang jelas tentang informasi yang diinginkan serta definisi yang jelas mengenai populasi sasaran.
Kedua faktor yang menentukan g ini tidak hanya mempengaruhi analisis data tetapi juga
instrumen pengumpulan data. Seperti halnya DoE dan uji klinis, desain penelitian harus
mempertimbangkan keterbatasan sumber daya serta pertimbangan etika, hukum, dan keselamatan.
Dalam semua kasus, ketika subjek manusia dilibatkan (sebagai unit eksperimen atau sebagai
partisipan yang disurvei), proses persetujuan khusus biasanya diperlukan untuk melaksanakan
penelitian. Di Amerika Serikat, semua organisasi yang didanai pemerintah federal memiliki
dewan peninjau kelembagaan (IRB), yang bertugas menyetujui, memantau, dan meninjau
penelitian yang melibatkan subjek manusia. Di negara lain, dewan seperti ini disebut komite
Helsinki. Misi dewan peninjau ini adalah untuk melindungi keselamatan dan kesejahteraan
peserta serta memvalidasi tujuan penelitian yang diusulkan untuk memastikan bahwa
desain penelitian akan mencapai InfoQ yang memadai. Seperti dalam uji klinis, InfoQ berpotensi dibatasi
oleh kendala tersebut.
Meninjau kembali contoh lelang online, pertimbangkan studi survei yang bertujuan membandingkan ciri-
ciri perilaku pemenang lelang yang mengajukan penawaran versus mereka yang membayar harga “beli
sekarang” (pilihan yang populer di banyak lelang online, yang memungkinkan individu untuk membeli
barang). barang dengan harga tetap sebelum dimulainya penawaran). Kegelisahan dkk. (2008) mensurvei
pemenang lelang eBay untuk menguji apakah daya saing, impulsif, dan tingkat hedonistik perlu memisahkan
penawar dari pembeli dengan harga tetap. Untuk mendapatkan data dengan InfoQ tinggi, mereka mencoba
mengurangi bias nonsampling (misalnya, dengan menggunakan skala yang telah divalidasi sebelumnya
dalam kuesioner dan mengirimkan beberapa tindak lanjut) serta bias sampling (dengan memilih sampel
lelang untuk produk populer selama periode terbatas). jangka waktu). Beberapa keterbatasan mengurangi
InfoQ dalam penelitian ini: isu-isu nonsampling mencakup tingkat respons sebesar 27% (113 kuesioner
yang dapat digunakan) dan perubahan kebijakan eBay selama periode survei yang menyebabkan
pergeseran dari survei Web ke survei email (sehingga memperkenalkan “survei efek "tipe").
Masalah pengambilan sampel berkaitan dengan kemampuan generalisasi dari sampel ke populasi yang
lebih besar, mengingat ukuran sampel yang kecil dan hanya satu produk yang dipilih. Untuk informasi lebih
lanjut mengenai survei pelanggan, lihat Kenett dan Salini (2012).
4.6 Eksperimen komputer (simulasi)

Dalam eksperimen komputer, komputer menjalankan model stokastik atau deterministik intensif komputasi
yang mensimulasikan fenomena ilmiah (misalnya, model dinamika fluida komputasi). Eksperimen komputer
berdasarkan desain DoE kemudian digunakan untuk mengumpulkan nilai respons untuk sekumpulan nilai
masukan. Ini kemudian digunakan untuk membangun model statistik (disebut “emulator” atau “metamodel”)
dari respons dalam kaitannya dengan variabel masukan. Model yang digunakan untuk hal ini disebut model
Kriging, DACE, atau Gaussian, dan model ini memperhitungkan kurangnya kesalahan eksperimental dalam
pengoperasian komputer (lihat Kenett dan Zacks, 2014). Metode statistik seperti “desain pengisian ruang”
digunakan untuk menghasilkan data dengan InfoQ tinggi untuk membantu merancang sistem dan produk
yang kuat. Eksperimen komputer berkisar dari simulasi yang sangat dasar hingga simulasi sistem dinamis
kompleks yang intensif komputer. Variasi ini tercermin dari berbagai tingkat “kesetiaan” atau akurasi dan
digunakan dalam inferensi berbasis Bayesian (Huang dan Allen, 2005). Memvalidasi dan mengkalibrasi
simulasi komputer merupakan tugas yang tidak sepele, dan salah satu risiko besar dan sering terjadi adalah
penggunaan model simulasi yang salah (lihat Bayarri dkk., 2007). Model yang salah jelas akan menyebabkan
InfoQ rendah. Pendekatan untuk memperoleh emulator stokastik dari eksperimen simulasi disajikan dalam
Bates et al. (2006), gagasannya adalah bahwa emulator yang memodelkan respons dapat diambil
sampelnya menggunakan eksperimen pengisian ruang, untuk mendapatkan model variabilitas respons.
Kombinasi model untuk tingkat respons dan emulator stokastik yang menyediakan data variabilitas respons
memberikan solusi yang optimal dan kuat. Kombinasi ini memiliki InfoQ yang tinggi jika tujuannya adalah
merancang produk atau sistem yang tepat sasaran dan kuat terhadap variabilitas faktor input.
4.7 Studi multiobjektif

Sebagian besar literatur desain studi statistik, dalam hal InfoQ, difokuskan pada tujuan tertentu dalam domain DoE,
uji klinis, atau metodologi survei. Meskipun eksperimen, uji coba, atau survei dapat ditujukan untuk menjawab
beberapa pertanyaan, pertanyaan-pertanyaan tersebut biasanya diurutkan berdasarkan kepentingannya, sehingga
data yang dikumpulkan menghasilkan tingkat InfoQ yang tinggi untuk pertanyaan-pertanyaan berprioritas tinggi
dan InfoQ yang lebih rendah untuk pertanyaan-pertanyaan dengan prioritas lebih rendah.
Ketika merancang studi untuk mencapai berbagai tujuan yang sama pentingnya, beberapa makalah yang
mengembangkan desain studi memang membahas banyak tujuan.
Tujuan paling populer di mana-mana adalah pertimbangan biaya. Salah satu contohnya adalah BenÿGal dan
Caramanis (2002), yang mempertimbangkan tujuan memaksimalkan informasi dan langkah-langkah ekonomi.
Mereka mengusulkan strategi berurutan kepada DoE dengan menggunakan pendekatan pemrograman dinamis
yang mencapai tujuan gabungan ini. Istilah informasi yang digunakan oleh BenÿGal dan Caramanis adalah dalam
pengertian entropi Shannon.
Contoh kedua adalah algoritma akuisisi data yang dikembangkan oleh SaarÿTsechansky dkk. (2009), yang
bertujuan untuk mencapai akurasi prediksi yang tinggi (atau fungsi utilitas prediktif lainnya) sekaligus meminimalkan
biaya akuisisi. Algoritme memilih nilai prediktor mana (atau label respons mana yang hilang) yang harus
dikumpulkan, dengan mempertimbangkan biaya dan kontribusinya terhadap akurasi prediksi.
Dalam contoh lain, Ginsburg dan Ben Gal (2006) menyarankan strategi eksperimen untuk desain model
empiris yang kuat. Pendekatan ini digunakan untuk merancang eksperimen yang meminimalkan varians dari solusi
optimal yang kuat. Kriteria optimalitas DoE baru ini, disebut Vs-optimal, memprioritaskan estimasi koefisien model,
sehingga varians dari solusi optimal diminimalkan berdasarkan eksperimen yang dilakukan. Pendekatan ini
memberikan studi InfoQ tinggi yang berfokus pada pencapaian kinerja yang kuat.
Sebagai contoh terakhir, kami menyebutkan karya Engel dkk. (2016) yang membahas metode desain yang
kuat ketika agen degradasi mempengaruhi kinerja dari waktu ke waktu. Dalam konteks ini, penulis menyajikan
metode untuk menentukan target yang memperhitungkan, pada tahap desain, perubahan persyaratan yang pada
akhirnya dapat menyebabkan kegagalan. Dengan kata lain, suatu sistem biasanya dirancang untuk memenuhi
tujuan tertentu yang dijelaskan dalam dokumen persyaratan. Namun, seiring berjalannya waktu, persyaratan ini
mungkin berubah dan biasanya menjadi lebih ketat, dan kinerja yang dulu dianggap dapat diterima kini tidak lagi
berlaku. Perubahan tujuan ini dapat diantisipasi secara apriori dan diperhitungkan dalam spesifikasi desain. Dalam
makalah mereka, Engel dkk. (2016) menyajikan contoh alat pacu jantung yang dipengaruhi oleh agen kegagalan
degradasi tersebut.
Ini, dan contoh-contoh lain sebelumnya, menunjukkan bagaimana pertimbangan apriori dapat digunakan untuk
memastikan InfoQ yang tinggi dari sebuah studi atau desain.
4.8 Ringkasan
Dalam bab ini, kita melihat beberapa pendekatan statistik yang diterapkan pada tahap pengumpulan pradata,
dengan tujuan menghasilkan data dengan InfoQ tinggi. Kami memberikan contoh skenario data primer dan
sekunder serta eksperimen dan observasi
kasus. Kami membahas prinsip-prinsip utama DoE, uji klinis, pengambilan sampel survei, dan
eksperimen komputer yang bertujuan untuk memaksimalkan InfoQ sambil tetap mematuhi
batasan dan persyaratan yang diakibatkan oleh faktor-faktor seperti keselamatan, pertimbangan
etika, kendala sumber daya, dll. Kendala tersebut—yang kami sebut sebagai a penyebab apriori
—mempengaruhi InfoQ bahkan sebelum data dikumpulkan. Tabel 4.1 merangkum strategi
untuk meningkatkan InfoQ pada tahap pengumpulan pradata serta kasus apriori yang
menurunkan InfoQ. Pada bab selanjutnya kita akan membahas strategi untuk memaksimalkan
InfoQ pada tahap pengumpulan postdata.
Referensi
Angst, CM, Agarwal, R. dan Kuruzovich, J. (2008) Menawar atau membeli? Ciri-ciri belanja individu
sebagai prediktor jalan keluar strategis dalam lelang online. Jurnal Internasional Perdagangan
Elektronik, 13(1), hlm.59–84.
Bareinboim, E. dan Pearl, J. (2013a) Meta-Transportabilitas Efek Kausal: Pendekatan Formal.
Prosiding Konferensi Internasional Kecerdasan Buatan dan Statistik (AISTATS) ke-16, AIII,
Scottsdale, AZ.
Bareinboim, E. dan Pearl, J. (2013b) Transportabilitas Kausal dengan Eksperimen Terbatas.
Prosiding Konferensi Kecerdasan Buatan (AAAI) ke-27, AIII, Bellevue, Washington.
Bates, R., Kenett, R., Steinberg, D. dan Wynn, H. (2006) Mencapai desain yang kuat dari simulasi
komputer. Teknologi Mutu dan Manajemen Kuantitatif, 3, hlm.161–177.
Bayarri, M., Berger, J., Paulo, R., Sacks, J., Cafeo, J., Cavendish, J., Lin, C.ÿH. dan Tu, J.
(2007) Kerangka validasi model komputer. Teknometri, 49, hlm.138–154.
BenÿGal, I. dan Caramanis, M. (2002) DoE berurutan melalui pemrograman dinamis. II

Transaksi, 34, hlm. 1087–1100.
Berni, R. (2003) Penggunaan data observasi untuk menerapkan desain eksperimen yang optimal.
Rekayasa Keandalan Kualitas Internasional, 19, hlm.307–315.
Engel, A., Kenett, RS, Shahar, S. dan Reich, Y. (2016) Mengoptimalkan Desain Sistem di Bawah
Agen Kegagalan yang Menurun. Prosiding Simposium Internasional Model Stokastik dalam
Rekayasa Keandalan, Ilmu Hayati dan Manajemen Operasi (SMRLO16), Beer Sheva, Israel.
Food and Drug Administration (2012) Strategi Pengayaan Uji Klinis untuk Mendukung Persetujuan
Obat Manusia dan Produk Biologis. http://www.fda.gov/downloads/drugs/
bimbingankepatuhanregulatorinformasi/panduan/ucm332181.pdf (diakses 20 Oktober 2015).
Forsyth, B., Levin, K. dan Fisher, S. (1999) Uji Metode Penilaian untuk Kuesioner Survei Pendirian.
Prosiding Bagian Metode Penelitian Survei, American Statistical Association. www.amstat.org/
sections/srms/proceedings/papers/1999_021.pdf (diakses 20 Oktober 2015).
Friedman, LM, Furberg, CD dan DeMets, DL (1999) Dasar-dasar Uji Klinis, edisi ke-3. Springer, New
York.
Ginsburg, H. dan Ben Gal, I. (2006) Merancang eksperimen untuk masalah optimasi yang kuat:
kriteria Vs-optimalitas. Transaksi IIE, 38, hlm.445–461.
Goos, P. dan Jones, B. (2011) Desain Eksperimen Optimal: Pendekatan Studi Kasus. Yohanes
Wiley & Sons, Inc., Hoboken, NJ.
Huang, D. dan Allen, TT (2005) Desain dan analisis eksperimen fidelitas variabel diterapkan pada desain
proses perlakuan panas katup mesin. Statistik Terapan, 54, hlm.443–463.
Kenett, RS dan Salini, S. (2012) Analisis Modern Survei Kepuasan Pelanggan: Dengan
Aplikasi Menggunakan R. John Wiley & Sons, Ltd, Chichester, Inggris.
Kenett, RS dan Zacks, S. (2014), Statistik Industri Modern: Dengan Aplikasi Menggunakan R,
MINITAB dan JMP, edisi ke-2. John Wiley & Sons, Inc., Hoboken, NJ.
Patzer, GL (1995) Menggunakan Data Sekunder dalam Riset Pemasaran: Amerika Serikat dan
Di seluruh dunia. Praeger, Westport, CT.
Phadke, MS (1989) Rekayasa Kualitas Menggunakan Desain yang Kuat. Prentice Hall, Englewood
Tebing, NJ.
SaarÿTsechansky, M., Melville, P. dan Provost, F. (2009) Akuisisi nilai fitur aktif.
Ilmu Manajemen, 55(4), hlm.664–684.
Senn, S. (2004) Kontroversi mengenai pengacakan dan aditif dalam uji klinis.
Statistik Kedokteran, 23, hlm.3729–3753.
Senn, S., Amin, D., Bailey, R., Bird, S., Bogacka, B., Colman, P., Garett, A., Grieve, A. dan Lachmann, P.
(2007) Masalah statistik di studi orang pertama. Jurnal Royal Statistical Society: Seri A (Statistik dalam
Masyarakat), 170(3), hlm.517–579.
Shavit, O., Leshno, M., Goldberger, A., Shmueli, A. dan Hoffman, A. (2007) Saatnya memilih desain studi!
Analisis manfaat bersih dari desain studi alternatif untuk memperoleh informasi untuk evaluasi teknologi
kesehatan. FarmakoEkonomi, 25 (11), hlm.903–911.
Steinberg, D., Rabinowitz, N., Shimshoni, Y. dan Mizrachi, D. (1995) Mengkonfigurasi jaringan seismografis
untuk pemantauan optimal garis patahan dan berbagai sumber. Buletin Persatuan Seismologi Amerika,
85(6), hlm.1847–1857.
InfoQ pada tahap

pengumpulan postdata
5.1 Pendahuluan
Pada Bab 4, kami menguji faktor-faktor yang mempengaruhi tahap desain studi pengumpulan pradata,
yang menghasilkan InfoQ rendah dan kumpulan data X yang terkait dengan kumpulan data target X*.
Bab tersebut menyajikan serangkaian metode untuk meningkatkan InfoQ pada tahap pengumpulan
pradata.
Dalam bab ini, kita beralih ke tahap selanjutnya dari studi empiris, setelah data dikumpulkan. Data
tersebut mungkin dikumpulkan oleh peneliti untuk tujuan penelitian (data primer) atau sebaliknya (data
sekunder dan semisekunder). Datanya mungkin observasional atau eksperimental. Selain itu,
penelitian tersebut mungkin memiliki tujuan yang direvisi atau bahkan kegunaan yang direvisi.
Perubahan ini mempengaruhi cara data dianalisis untuk memperoleh InfoQ penelitian yang tinggi.
Kami mulai dengan memaparkan poin-poin penting tentang data primer, sekunder, dan
semisekunder, serta tujuan yang direvisi dan utilitas yang direvisi. Kami kemudian beralih ke diskusi
tentang metode dan pendekatan yang ada yang dirancang untuk meningkatkan kualitas informasi
pada tahap pengumpulan pascadata. Metodenya berkisar dari “memperbaiki” data hingga
menggabungkan data dari beberapa penelitian hingga memasukkan data yang hilang. Dalam beberapa
kasus kita dapat langsung memodelkan distorsi antara X dan X*. Untuk berbagai metode yang dibahas
di sini, kami menguji hubungan antara kumpulan data target X* dan kumpulan data aktual X
sebagai fungsi dari penyebab apriori, ÿ1 , dan penyebab a posteriori, ÿ2 , melalui hubungan X=ÿ2 {ÿ1
(X*)}. Setiap pendekatan dirancang untuk meningkatkan InfoQ penelitian dengan mengatasi penyebab
a posteriori tertentu.

68 InfoQ pada tahap pengumpulan postdata
5.2 Pengumpulan data postdata
Pada Bab 4 kita telah menjelaskan istilah data primer dan data sekunder serta perbedaan di
antara keduanya. Ingatlah bahwa perbedaannya didasarkan pada hubungan antara peneliti
atau tim yang mengumpulkan data dan pihak yang menganalisisnya. Oleh karena itu, kumpulan
data yang sama dapat menjadi data primer dalam satu analisis dan data sekunder dalam
analisis lainnya (Boslaugh, 2007). Data primer mengacu pada data yang dikumpulkan oleh
peneliti untuk tujuan analisis tertentu. Data sekunder mengacu pada data yang dikumpulkan
oleh orang lain selain peneliti atau dikumpulkan sebelumnya oleh peneliti untuk tujuan yang
berbeda. Terakhir, ada hibrida. Pada Bab 4 kita melihat eksperimen komputer, yang
menghasilkan data primer (simulasi) berdasarkan data sekunder (dari model fisik).
Pada bagian selanjutnya, kita melihat metode dan pendekatan yang ada untuk
meningkatkan InfoQ pada tahap pengumpulan pascadata untuk data yang muncul baik dari
sumber primer, sekunder, atau hibrid. Meskipun data primer dirancang untuk memuat InfoQ
tinggi karena keterlibatan peneliti dalam desain penelitian, kenyataannya pengumpulan data
adalah bahwa X yang dihasilkan hampir selalu tidak persis seperti yang diharapkan, karena
sebab-sebab a posteriori. “Masalah yang tidak terduga mungkin saja muncul saat percobaan
dilakukan. Misalnya, eksperimen dapat menghasilkan hasil yang tidak dapat diukur atau titik
eksperimen dapat menghasilkan 'outlier', yaitu pengamatan yang nilainya tampak tidak sesuai
dengan pola keseluruhan data” (Knett et al., 2006).
Oleh karena itu, metode peningkatan InfoQ pada tahap pengumpulan postdata dapat ditujukan
pada data sekunder, misalnya penyesuaian bias seleksi; pada data semisekunder, misalnya
meta-analisis; dan bahkan pada data primer, misalnya, menangani nilai yang hilang.
Data primer dapat menjadi data sekunder jika tujuan atau kegunaan penelitian direvisi atau
ketika tujuan sekunder tercapai. Sebuah konteks yang populer dalam praktiknya, namun jarang
dibahas dalam statistik atau literatur penambangan data dari sudut pandang kualitas informasi,
adalah kasus data primer dengan tujuan yang direvisi. Cox (2009) mencatat, “Tujuan dapat
didefinisikan ulang, diharapkan dapat ditingkatkan, dan terkadang diubah secara radikal seiring
berjalannya waktu.”
Demikian pula, Friedman dkk. (2015, hal. 182) berkomentar bahwa dalam uji klinis,
“Seseorang ingin mendapatkan jawaban atas beberapa pertanyaan, namun penelitian harus
dirancang dengan hanya memikirkan satu pertanyaan besar.” Oleh karena itu, sering kali
beberapa pertanyaan akan dijawab menggunakan data yang dikumpulkan melalui desain untuk
menjawab satu pertanyaan utama. Secara khusus, evaluasi efek samping merupakan hal yang
penting, namun bukan tujuan utama uji klinis. Hasilnya adalah “uji klinis memiliki keterbatasan
metodologis dalam mengevaluasi efek samping. Hal ini termasuk jumlah peserta yang tidak
memadai, durasi tindak lanjut, dan pemilihan peserta yang terbatas.”
Dalam contoh lain yang dibahas di Bab 4, Engel dkk. (2016) mempertimbangkan metode
desain yang kuat ketika agen degradasi mempengaruhi kinerja dari waktu ke waktu.
Dalam hal ini, menetapkan target yang tidak memperhitungkan perubahan persyaratan, jika
terealisasi, akan menyebabkan kegagalan. Karena perubahan tujuan ini belum diantisipasi
pada tahap desain, analisis a posteriori perlu mempertimbangkan perubahan spesifikasi desain.
InfoQ pada tahap pengumpulan postdata 69
Situasi umum lainnya di mana tujuan revisi muncul adalah dalam proses peninjauan artikel jurnal.
Dalam ilmu sosial dan ekonomi, pengulas biasanya meminta penulis menjawab pertanyaan penelitian
tambahan. Dalam beberapa kasus, tidak mungkin mengumpulkan data tambahan yang secara langsung
memiliki InfoQ tinggi untuk pertanyaan-pertanyaan baru ini, dan penulis terpaksa menggunakan data
yang ada dalam menjawab pertanyaan-pertanyaan baru.
Untuk informasi lebih lanjut mengenai proses peninjauan dan kualitas informasi yang harus dipastikan,
lihat Bab 12.
Contoh praktis yang dramatis dari data primer yang dikumpulkan melalui simulasi dengan tujuan
yang direvisi terkait dengan bencana pesawat ulang-alik Columbia. Badan Investigasi Kecelakaan
Columbia melaporkan bahwa program simulasi yang disebut CRATER digunakan untuk menganalisis
dampak puing-puing busa pada ubin pelindung pesawat ulang-alik. Simulasi tersebut memodelkan
dampak puing yang lebih kecil sebanyak 400 kali lipat dibandingkan dengan dampak yang ditimbulkan
pada pesawat ulang-alik saat lepas landas. Para insinyur yang mengembangkan CRATER telah keluar,
dan insinyur pengganti yang menggunakannya tidak menyadari dampak dari skala tersebut. Analisis
yang dilakukannya menunjukkan bahwa pesawat ulang-alik itu aman. Informasi yang keliru ini, dengan
InfoQ yang jelas rendah, mempunyai konsekuensi yang tragis (lihat www.nasa.gov/
Kolombia/caib).
Oleh karena itu, metode dan pendekatan yang dijelaskan pada bagian berikut ini relevan dengan
berbagai skenario data–tujuan–utilitas. Namun penerapannya spesifik pada tujuan dan kegunaan yang
diinginkan.
5.3 Pembersihan dan pra-pemrosesan data

“Kebersihan” data telah lama diakui oleh para ahli statistik sebagai tantangan serius.
Hand (2008) berkomentar bahwa “sangat jarang menemukan kumpulan data yang tidak mempunyai
masalah kualitas.” Godfrey (2008) mencatat bahwa “Kualitas data adalah subjek yang sangat penting.
Sayangnya, hal ini merupakan salah satu subjek yang paling sedikit dipahami dalam manajemen mutu
dan, sering kali, diabaikan begitu saja.”
Pertimbangkan kumpulan data terukur X dan kumpulan data target X*ÿX. Literatur kualitas data
mencakup metode “pembersihan” X untuk mencapai X* dan pedoman pengumpulan, transfer, dan
penyimpanan data yang mengurangi jarak antara X dan X*.
Nyatakan prosedur kualitas data (pembersihan, menghindari kesalahan, dll.) dengan h(·). Kami
membedakan antara dua tipe umum prosedur h(X) dan h(X|g). Yang pertama, h(X), berfokus pada
prosedur yang menghasilkan atau membersihkan X untuk meminimalkan jaraknya dari X*, tanpa
mempertimbangkan apa pun kecuali kumpulan data itu sendiri.
Perangkat perekam data yang canggih, seperti pemindai dan pembaca identifikasi frekuensi radio
(RFID), metode validasi data, teknologi transfer dan verifikasi data, dan penyimpanan data yang kuat,
serta instrumen pengukuran yang lebih canggih, telah menghasilkan produk yang “lebih bersih” data
(Redman, 2007) dalam hal jarak antara X
dan X*. Kualitas data tipe sistem informasi manajemen (MIS) (lihat Bab 3) berfokus pada operasi h(X) .
Sebaliknya, h(X|g) berfokus pada prosedur kualitas yang menghasilkan atau membersihkan X
tergantung pada tujuannya g. Salah satu contohnya adalah imputasi data statistik klasik (Little dan
Rubin, 2002; Fuchs dan Kenett, 2007), dimana jenis imputasi didasarkan pada
mekanisme pembuatan data yang diasumsikan hilang dan bergantung pada tujuan meminimalkan bias
(yang penting dalam studi penjelasan dan deskriptif).
Contoh lainnya adalah metode penanganan nilai prediktor yang hilang dalam penelitian dengan tujuan
prediktif oleh SaarÿTsechansky dan Provost (2007). Pendekatan mereka didasarkan pada beberapa
model prediktif dengan menggunakan subkumpulan prediktor yang berbeda dan kemudian menerapkan,
untuk setiap observasi baru, model yang mengecualikan prediktor yang hilang untuk observasi tersebut.
Contoh ketiga adalah algoritma akuisisi data yang dikembangkan oleh SaarÿTsechansky dkk. (2009)
untuk data dengan label respons yang hilang. Algoritme memilih nilai prediktor atau label respons yang
hilang untuk dikumpulkan, dengan mempertimbangkan tujuan prediksi (dengan mempertimbangkan
biaya dan kontribusi terhadap akurasi prediksi).
Mengumpulkan nilai yang tercatat adalah jenis pembersihan data lainnya, yang umum dilakukan
di industri farmasi. Pembulatan ke atas digunakan untuk mengatasi rendahnya
pengukuran resolusi dan meningkatkan kejelasan pelaporan. Kami membedakan perbedaan antara
pembulatan ke atas dan pemotongan, yang dibahas di Bagian 5.7. Ada variasi berbeda dalam
pembulatan. Misalnya, pembulatan ganda dilakukan jika suatu bilangan dibulatkan dua kali, pertama
dari n0 digit ke n1 digit, lalu dari n1
digit hingga n2 digit (di mana n0> n1> n2 .) Penghitungan dapat dilakukan pada bilangan antara
pembulatan pertama dan kedua. Contoh lainnya adalah pembulatan menengah, yaitu nilai yang
digunakan selama perhitungan dibulatkan sebelum hasil akhirnya diturunkan. Pembulatan data
kontinyu dilakukan untuk memperoleh nilai yang lebih mudah dilaporkan dan dikomunikasikan
dibandingkan aslinya. Hal ini juga digunakan untuk menghindari pelaporan pengukuran atau perkiraan
dengan sejumlah angka desimal yang tidak mencerminkan kemampuan pengukuran atau tidak memiliki
arti praktis, sebuah konsep yang dikenal sebagai presisi palsu.
Konvensi Farmakope AS (USP) menyatakan bahwa “Angka tidak boleh dibulatkan sampai
penghitungan akhir nilai yang dapat dilaporkan telah diselesaikan.”
Boreman dan Chatfield (2015) menunjukkan dengan contoh yang sangat meyakinkan bahwa, dari
sudut pandang teknis, selalu lebih baik bekerja dengan data yang tidak dibulatkan. Mereka
merekomendasikan agar data hanya dibulatkan bila diperlukan untuk tujuan pelaporan formal atau
akhir, yang biasanya ditentukan oleh format batas spesifikasi, yaitu jumlah desimal yang dikutip dalam
batas spesifikasi. Rekomendasi ini secara implisit mengacu pada dimensi komunikasi InfoQ dan
menunjukkan pentingnya membedakan antara kebutuhan perhitungan statistik dan presentasi hasil.
Strategi “pembersihan data” h(X|g) lainnya adalah deteksi dan penanganan outlier dan observasi
yang berpengaruh. Pilihan antara menghapus observasi tersebut, memasukkannya ke dalam analisis,
atau memodifikasinya bergantung pada tujuan.
Apakah pembersihan data selalu meningkatkan InfoQ? Untuk XÿX* kita mengharapkan
InfoQ( f,X,g,U) ÿInfoQ( f,X*,g,U). Dalam kebanyakan kasus, masalah kualitas data menurunkan
kemampuan mengekstraksi pengetahuan, sehingga menyebabkan InfoQ( f,X,g,U)<InfoQ( f,X*,g,U).
Nilai yang hilang dan nilai yang salah sering kali menambah gangguan pada sinyal sampel kami yang
terbatas. Namun, terkadang X* sama informatifnya atau bahkan lebih informatif daripada X ketika
mengondisikan tujuan, dan karenanya, memilih h(X)=X adalah optimal. Misalnya saja ketika tujuannya adalah untuk mem
hasil pengamatan baru dengan adanya seperangkat prediktor, nilai prediktor yang hilang dapat menjadi
berkah jika nilai tersebut cukup informatif mengenai hasilnya (Ding dan Simonoff, 2010). Contohnya
adalah terjadinya data yang hilang dalam laporan keuangan, yang dapat berguna untuk memprediksi
kecurangan pelaporan. Responden yang menolak untuk membocorkan data mengenai pendapatan
mereka mungkin lebih dapat dipercaya (yaitu, data yang hilang), sehingga fokus pada kovariat dalam entri
data yang hilang ini akan membedakan jenis pelaporan.
5.4 Pembobotan ulang dan penyesuaian bias

Bias seleksi merupakan penyebab a posteriori yang membuat sampel tidak mewakili populasi yang diteliti.
Dalam survei, salah satu penyebab bias seleksi adalah tidak adanya respons. Hal ini menyebabkan
beberapa kelompok menjadi terlalu atau kurang terwakili dalam sampel.
Masalah lainnya adalah seleksi mandiri, dimana individu memilih apakah akan menjalani pengobatan
atau merespons survei. Bias seleksi mandiri menimbulkan tantangan serius dalam mengevaluasi efek
pengobatan dengan data observasi. Dalam studi non-eksperimental, observasi tidak dilakukan secara
acak pada kelompok perlakuan dan kontrol. Oleh karena itu, selalu ada kemungkinan bahwa manusia
(atau hewan, perusahaan, atau entitas lain) akan memilih kelompok perlakuan atau kontrol berdasarkan
preferensi atau hasil yang diharapkan.
Dua pendekatan utama untuk mengatasi bias seleksi mandiri adalah pendekatan ekonometrik Heckman
(Heckman, 1979) dan pendekatan pencocokan skor kecenderungan statistik (Rosenbaum dan Rubin,
1983). Kedua metode ini berupaya mencocokkan kelompok perlakuan yang dipilih sendiri dengan
kelompok kontrol yang memiliki kecenderungan (atau probabilitas) yang sama untuk memilih intervensi.
Dalam pencocokan skor kecenderungan, skor kecenderungan dihitung untuk setiap observasi, dan
kemudian skor tersebut digunakan untuk membuat sampel yang cocok. Jadi h(X) adalah himpunan bagian
dari data asli yang mencakup himpunan observasi yang diberi perlakuan dan kontrol yang cocok.
Pengamatan yang tidak cocok dikeluarkan dari analisis lebih lanjut. Sampel yang cocok kemudian
dianalisis menggunakan metode analisis yang diminati, seperti uji-t atau regresi linier.
Bias seleksi akibat tidak adanya respons atau seleksi mandiri juga menimbulkan tantangan dalam
studi deskriptif yang tujuannya adalah untuk memperkirakan beberapa parameter (misalnya, proporsi
pemilih untuk suatu partai politik atau pendapatan rata-rata rumah tangga). Pendekatan umum yang
bertujuan untuk mengoreksi bias seleksi pada data, terutama pada data survei, adalah dengan melakukan
pembobotan ulang atau penyesuaian. Bobot dihitung berdasarkan keterwakilan yang kurang atau
berlebihan, sehingga observasi yang kurang terwakili dalam sampel mendapat bobot lebih besar dari 1
dan observasi yang terlalu terwakili mendapat bobot lebih kecil dari 1. Penghitungan bobot memerlukan
pengetahuan tentang rasio populasi yang relevan (atau perkiraannya). Misalnya, jika sampel kita terdiri
dari 80% laki-laki dan 20% perempuan, sedangkan populasinya memiliki jumlah laki-laki dan perempuan
yang sama, maka setiap laki-laki dalam sampel mendapat bobot 0,5/0,8=0,625 dan setiap perempuan
mendapat bobot 0,5 /0.2=2.5. Pendugaan rata-rata pendapatan penduduk kini dilakukan dengan
menggunakan rata-rata tertimbang masyarakat yang dijadikan sampel. Untuk pengujian yang mendeteksi
bias nonresponse, lihat Kenett dkk. (2012).
Penggunaan bobot bertujuan untuk mengurangi bias dengan mengorbankan peningkatan varians,
dalam upaya memaksimalkan mean squared error (MSE) dari estimator yang diinginkan. Dengan kata
lain, h(X) dipilih untuk memaksimalkan U[ f{h(X|g)}]=MSE. Namun, ada perbedaan pendapat di antara keduanya
ahli statistik survei mengenai kegunaan pembobotan ulang data, karena “estimator yang diberi
bobot dapat memberikan hasil yang sangat buruk, terutama pada sampel yang kecil” (Little, 2009).
Ketika tujuan analisis adalah memperkirakan parameter populasi dan f setara dengan estimasi,
maka penyesuaian terhadap bias estimator adalah hal biasa. Metodologi komprehensif untuk
menangani permasalahan tersebut disebut estimasi area kecil (Pfeffermann, 2013).
Dalam contoh surplus konsumen eBay (Bagian 1.4), Bapna dkk. mengusulkan penaksir
surplus konsumen yang bias-koreksi dalam lelang nilai umum (di mana barang yang dilelang
memiliki nilai yang sama untuk semua penawar), yang didasarkan pada penawaran tertinggi.
5.5 Meta-analisis
Meta-analisis adalah metodologi statistik yang dikembangkan untuk merangkum dan
membandingkan hasil antar penelitian. Ini terdiri dari sejumlah besar alat di mana studi individu
adalah unit eksperimen. Dalam meta-analisis, “data” mengacu pada hasil statistik dari serangkaian
penelitian sebelumnya yang menyelidiki pertanyaan penelitian yang sama.
Metodologi statistik kemudian digunakan untuk menggabungkan hasil studi yang berbeda untuk
memperoleh hasil yang lebih tepat dan dapat diandalkan, yaitu untuk meningkatkan InfoQ.
Penyebab-penyebab selanjutnya yang menurunkan InfoQ mencakup bias “laci file”, yaitu studi
yang tidak menemukan dampaknya tetap tidak dipublikasikan dan tidak dimasukkan ke dalam
meta-analisis; bias yang didorong oleh agenda, yaitu peneliti dengan sengaja memilih serangkaian
penelitian yang tidak representatif untuk dimasukkan ke dalam analisis; dan ketidaksadaran akan
paradoks Simpson, yang muncul karena agregasi penelitian. Meta-analisis terdiri dari
mengidentifikasi semua bukti pada topik tertentu dan menggabungkan hasil studi tunggal untuk
memberikan ringkasan perkiraan kuantitatif hubungan kepentingan, yang umumnya merupakan
rata-rata tertimbang dari perkiraan studi individu. Kuantifikasi dan penyelidikan sumber heterogenitas
juga merupakan bagian dari proses tersebut. Meta-analisis pertama kali dikembangkan dengan
tujuan merangkum hasil uji klinis untuk menilai kemanjuran/efektivitas pengobatan yang diberikan.
Namun penggunaannya telah diperluas ke epidemiologi observasional dan situasi lainnya, dan
meta-analisis data kualitatif juga telah diusulkan (DixonÿWoods et al., 2005).
Pilihan ukuran dampak yang mewakili hasil masing-masing penelitian bergantung pada data
yang tersedia dalam penelitian tersebut, pertanyaan penelitian yang diselidiki, dan sifat-sifat
ukuran yang mungkin dievaluasi dalam konteks lingkungan penelitian tertentu. Metode untuk
memperoleh perkiraan ringkasan secara garis besar dibagi menjadi model efek tetap dan model
efek acak. Yang pertama berasumsi bahwa semua penelitian mengukur dampak yang sama,
sedangkan yang kedua berasumsi bahwa penelitian mengukur efek yang berbeda dan
mempertimbangkan variasi antar penelitian. Di antara metode efek tetap yang paling banyak
digunakan adalah metode varians terbalik dan, untuk hasil biner, metode Mantel–Haenszel dan
Peto. Komponen mendasar dalam meta-analisis adalah mengukur heterogenitas antar penelitian
dengan menyelidiki sumbernya.
Hal ini dapat dicapai dengan membentuk kelompok penelitian berdasarkan karakteristik tertentu
dan membandingkan varians di dalam dan antar kelompok. Meta-regresi menyelidiki apakah ada
hubungan linier antara ukuran hasil dan satu atau lebih kovariat (Negri, 2012).
Saat melakukan meta-analisis, tujuannya bukan sekadar menghitung perkiraan gabungan. Untuk
mencapai kualitas informasi, aspek-aspek tambahan dari bukti yang tersedia untuk evaluasi harus
dipertimbangkan, seperti kualitas penelitian yang disertakan dan oleh karena itu kecukupannya untuk
memberikan informasi mengenai isu yang diselidiki, konsistensi hasil di seluruh penelitian, dan bukti-bukti
yang ada. bias publikasi.
Setelah penelitian diidentifikasi dan diambil, data yang diperlukan untuk melakukan meta-analisis harus
diambil dari publikasi. Hal ini dapat mencakup informasi mengenai desain penelitian, populasi penelitian,
jumlah subjek dalam kategori paparan/hasil, metode statistik, dan sebagainya. Jelasnya, data yang diekstraksi
bergantung pada ukuran dampak yang dipilih. Karakteristik lain yang akan digunakan dalam analisis
subkelompok penelitian, serta indikator kualitas penelitian dan variabel lain yang mungkin penting untuk
menggambarkan penelitian (misalnya lokasi, tingkat respons) juga perlu dicatat. Ekstraksi data dari studi
individual merupakan langkah penting lainnya, dimana masalah yang tidak terduga sering kali muncul.
Kesalahan dalam artikel yang dipublikasikan cukup umum terjadi, dan terkadang penelitian yang memenuhi
kriteria inklusi harus dikeluarkan karena data dalam tabel tidak konsisten. Ekstraksi data dalam meta-analisis
merupakan contoh analisis posteriori data sekunder.
5.6 Analisis desain eksperimental retrospektif

Eksperimen yang dirancang biasanya terdiri dari rangkaian percobaan yang seimbang yang memungkinkan
estimasi efek faktor dan interaksinya secara efisien (lihat Bab 3).
Namun dalam menjalankan eksperimen yang dirancang, sering kali dijumpai permasalahan yang terantisipasi
dan tidak terantisipasi sehingga data X yang dikumpulkan berbeda dengan data target yang direncanakan
untuk dikumpulkan oleh desain eksperimen X*.
Dalam merancang eksperimen, kami mencoba memperhitungkan kendala dan keterbatasan yang
diantisipasi. Misalnya, potensi dampak bahan mentah atau kondisi pengoperasian dapat diperhitungkan
dengan menjalankan eksperimen di blok terpisah. Kendala praktis mungkin menentukan bahwa beberapa
faktor akan “bersarang” di dalam faktor lain atau akan ada batasan pada urutan proses. Dalam contoh lain,
mungkin ada beberapa poin eksperimen yang sebelumnya kita ketahui sebagai hal yang mustahil untuk
dilaksanakan karena persyaratan logistik atau teknologi. Meski demikian, masalah yang tidak terduga mungkin
saja muncul saat percobaan dilakukan. Misalnya, eksperimen dapat menghasilkan hasil yang tidak dapat
diukur, atau titik eksperimen dapat menghasilkan “outlier”, pengamatan yang nilainya tampak tidak sesuai
dengan pola keseluruhan data. Dalam menganalisis data, model yang mendasarinya disesuaikan dengan
data tersebut. Misalnya, eksperimen faktorial dua tingkat digunakan untuk memperkirakan parameter model
linier yang, pada gilirannya, bergantung pada sifat estimasi desain eksperimen.
Untuk menangani masalah a posteriori ini dan menjembatani kesenjangan antara X dan X*, Kenett dkk.
(2006) mengusulkan penerapan metode bootstrap untuk menangani data yang hilang dan memvalidasi model
yang digunakan untuk menyesuaikan data.
Ketika suatu model salah ditentukan, dikatakan telah terjadi kesalahan jenis ketiga.
Bootstrapping dapat digunakan untuk menandai kesalahan jenis ketiga atau, sebagai alternatif, memvalidasi a
model tertentu. Penggunaan model yang tidak memadai sering kali menyebabkan estimasi varians residu
yang berlebihan dan meningkatkan kesalahan standar untuk parameter model.
Oleh karena itu, perbandingan kesalahan standar bootstrap dengan kesalahan yang berasal dari analisis
model regresi merupakan diagnostik yang berharga. Jika kesalahan standar bootstrap jelas lebih kecil
dibandingkan kesalahan saat menyesuaikan model regresi dengan data eksperimen, kemungkinan besar
model tersebut tidak memadai.
Strategi analisis data eksperimen umum dengan bootstrapping diusulkan
oleh Kenett dkk. (2006) melibatkan enam langkah:
1. Evaluasi kondisi eksperimen termasuk identifikasi batasan eksperimen dan batasan a posteriori
yang tidak direncanakan dalam desain eksperimen awal. Kendala-kendala ini tercermin dari tidak
adanya atau adanya tambahan percobaan, kendala pada pengaturan tingkat faktor, atau masalah
pengacakan dan run-order.
2. Desain strategi bootstrap. Hal ini melibatkan penentuan model matematika dasar yang digunakan
dalam analisis data dan algoritma bootstrapping yang cocok dengan pengaturan eksperimental.
3. Analisis bootstrap. Ini adalah langkah berulang di mana uji coba awal data sampel ulang dievaluasi
menggunakan sebagian besar tampilan grafis untuk memvalidasi keakuratan algoritme bootstrap.
4. Kesesuaian data menggunakan regresi diikuti dengan perhitungan standard error dari model
regresi dan distribusi bootstrap secara empiris.
5. Pemeriksaan diagnostik dilakukan dengan membandingkan kesalahan standar regresi

koefisien dan kesalahan standar bootstrap.
6. Pemasangan berulang. Kesenjangan diinterpretasikan melalui siklus berulang kedua hingga

analisis selesai. Iterasi ini melibatkan adaptasi model regresi secara berurutan hingga kecocokan
tercapai dengan hasil bootstrapping.
Keenam langkah ini adalah contoh bagaimana kualitas informasi dapat ditingkatkan dengan analisis
posteriori.
5.7 Model yang memperhitungkan “kehilangan” data:

Sensor dan pemotongan
Dalam bidang yang pengukuran kepentingannya adalah durasi, penyebab a posteriori yang umum adalah
penyensoran data. Kedokteran dan rekayasa keandalan adalah dua bidang di mana para peneliti tertarik
pada kelangsungan hidup atau waktu menuju kegagalan. Penyedia telekomunikasi tertarik dengan masa
hidup pelanggan (sebelum pindah ke operator lain atau churn), pendidik melacak alasan putus sekolah,
dan manajer risiko mencoba mengidentifikasi pola pembayaran pinjaman yang gagal. Dalam semua
kasus, seseorang berurusan dengan kelangsungan hidup – dan sensor –
mengetik data.
Pengamatan yang disensor adalah pengamatan yang hanya mengamati sebagian durasi
yang diinginkan—misalnya, jika kita mengukur waktu hingga kegagalan (kelangsungan hidup)
suatu komponen, maka komponen yang disensor adalah komponen yang tidak mengamati waktu
kegagalannya. Oleh karena itu, kami memiliki sebagian informasi X, bukan X*: kami hanya
mengetahui bahwa komponen tersebut bertahan setidaknya selama durasi pengumpulan data.
Jika kita mengamati “kelahiran” tetapi bukan “kematian” observasi, maka disebut sensor kanan,
karena kita tidak mengamati peristiwa yang menarik (kegagalan) pada akhir periode pengumpulan
data. Sensor kanan paling sering terjadi ketika penelitian mempunyai waktu akhir pengumpulan
yang telah ditentukan, yang mana pada saat itu semua pengamatan yang tidak gagal akan
disensor dengan benar. Skenario pengumpulan data lain yang mengarah pada data tersensor
kanan adalah ketika peneliti menetapkan sejumlah observasi “gagal” untuk dikumpulkan dan
menghentikan pengumpulan ketika ukuran sampel tercapai. Pada saat itu, observasi yang tersisa akan disens
Dua jenis sensor lainnya adalah sensor kiri dan sensor interval. Pada sensor kiri, observasi
memang gagal selama periode pengumpulan data, namun durasi minat dimulai sebelum
dimulainya pengumpulan data, misalnya saat kita tidak mengetahui kapan komponen yang diamati
mulai bekerja. Dalam penyensoran interval, kita tidak mengamati waktu mulai atau berakhirnya
pengamatan, tetapi kita mengetahui bahwa selama masa pengumpulan data, pengamatan tidak
gagal. Hal ini terjadi, misalnya, ketika kita melacak komponen sistem perangkat lunak setiap
minggu dengan kegagalan yang dikumpulkan, tanpa informasi mengenai waktu kegagalannya.
Gambar 5.1 mengilustrasikan ketiga jenis penyensoran ini.
Jenis data parsial lainnya yang berbeda adalah hasil pemotongan. Pemotongan terjadi ketika
kita tidak dapat mengamati pengukuran yang melebihi atau di bawah ambang batas (atau interval).
Misalnya, seseorang tidak dapat mengukur suhu tubuh lebih rendah atau lebih tinggi dari yang
tersedia pada termometer. Dalam industri farmasi, banyak ditemukan contoh pengukuran yang
dipengaruhi oleh batas kuantifikasi (LoQ) dari sistem pengukuran. Berbeda dengan sensor yang
merupakan bentuk pembatasan deteksi
Tidak disensor
Disensor dengan benar
Disensor kiri
Interval disensor
Belajar Belajar
awal akhir
Gambar 5.1 Ilustrasi sensor kanan, kiri, dan interval. Setiap baris menunjukkan masa observasi.
(LoD), kami tidak memiliki informasi tentang pengamatan yang melebihi ambang batas.
Dengan kata lain, meskipun penyensoran beroperasi pada durasi (pengamatan yang melebihi
durasi pengumpulan data akan disensor), pemotongan akan memengaruhi besaran pengukuran
(besarnya yang melebihi atau sebelum rentang/nilai yang memungkinkan tidak diamati). Dalam
beberapa hal, penyensoran adalah masalah data yang hilang, sementara pemotongan berpotensi
menimbulkan bias dalam penduga statistik. Secara umum, batas deteksi suatu prosedur analitis
adalah jumlah terendah analit dalam suatu sampel yang dapat dideteksi tetapi belum tentu diukur
sebagai nilai yang tepat sehingga LoD mewakili suatu jenis penyensoran. Sebaliknya, batas
kuantifikasi suatu prosedur analitik individual adalah jumlah analit terendah dalam suatu sampel
yang dapat ditentukan secara kuantitatif dengan presisi dan akurasi yang sesuai. LoQ adalah
parameter pengujian kuantitatif untuk senyawa tingkat rendah dalam matriks sampel dan
digunakan khususnya untuk penentuan pengotor dan/atau produk degradasi. Dalam praktiknya,
ini adalah bentuk pemotongan.
Berbagai model statistik tersedia untuk data yang disensor dan terpotong. Karena penyebab
a posteriori berbeda dalam penyensoran dan pemotongan, maka pendekatan statistiknya pun
berbeda. Dalam model untuk data yang disensor, data lengkap dan data yang disensor
dimodelkan bersama-sama, menggunakan fungsi distribusi kumulatif F(t)=P(Tÿ t), atau fungsi
survival S(t)=1ÿF(t)= P(T>t), dimana t menunjukkan waktu. Model populer untuk data yang
disensor adalah penduga nonparametrik Kaplan – Meier, model regresi semiparametrik Cox,
dan model regresi parametrik Weibull. Untuk informasi lebih lanjut mengenai topik ini, lihat
Mandel (2007).
Kami mencatat bahwa pilihan model yang disensor ( f) harus bergantung pada tujuan.
Misalnya, meskipun model semiparametrik Cox dapat berguna untuk model deskriptif, seperti
memperkirakan tingkat kelangsungan hidup suatu populasi yang diteliti, model ini tidak berguna
untuk memprediksi kelangsungan hidup observasi baru yang waktu kelangsungan hidupnya lebih
lama daripada periode pengumpulan data dari yang modelnya diperkirakan (Yahav dan Shmueli,
2014). Sebaliknya, untuk data terpotong seseorang menggunakan model parametrik yang
bergantung pada rentang pemotongan.
5.8 Ringkasan
Dalam bab ini kami menjelaskan beberapa penyebab umum a posteriori yang berpotensi
memperburuk InfoQ, karena tantangan dalam tahap pengumpulan data. Kami juga mendiskusikan
pendekatan statistik utama untuk mengatasi penyebab-penyebab tersebut. Pendekatannya
berkisar dari penggunaan data saja untuk memperhitungkan korupsi (operasi tipe MIS, imputasi
data sederhana) hingga metode yang menggabungkan informasi dari berbagai sumber (meta-
analisis) atau sumber eksternal (bobot) hingga menggabungkan model stokastik (misalnya ,
model bertahan hidup) untuk “memulihkan” proses asli yang menghasilkan data. Tabel 5.1
merangkum poin-poin utama. Mengambil pendekatan InfoQ membantu peneliti atau analis
memilih metode yang tepat di antara berbagai kemungkinan. Meskipun pembobotan ulang
mungkin berguna untuk beberapa tujuan dan analisis, hal ini mungkin tidak berguna untuk tujuan
(atau metode analisis) lainnya. Demikian pula, apakah dan bagaimana memasukkan data harus
bergantung pada tujuan penelitian dan metode analisis yang dimaksudkan . f.
Tabel 5.1 Strategi statistik untuk meningkatkan InfoQ berdasarkan penyebab posteriori pada tahap
pengumpulan pascadata dan pendekatan untuk meningkatkan InfoQ.
Strategi untuk meningkatkan InfoQ Penyebab a posteriori
Imputasi data hilang; penghapusan observasi atau Kesalahan entri data,

pengukuran; membangun beberapa kesalahan pengukuran, dan
model terpisah; penanganan lain atas manipulasi data
nilai yang hilang; teknologi canggih yang disengaja; instrumen
untuk pengumpulan, transfer, dan pengumpulan yang rusak;
penyimpanan data; mendeteksi dan tidak merespons
menangani outlier dan observasi yang
berpengaruh
Pembobotan Ulang Lampirkan bobot pada observasi; Bias seleksi (seleksi mandiri,
membuat sampel pengobatan-kontrol yang nonrespons)
cocok
Meta-analisis Mengurangi kesalahan nonsampling (misalnya, Bias “laci file”, agendaÿ
pengujian awal kuesioner, mengurangi bias yang didorong, paradoks
nonresponse) dan kesalahan pengambilan Simpson
sampel (misalnya, pengacakan, stratifikasi,
mengidentifikasi populasi target dan
sampel)
Retrospektif Pengacakan; pemblokiran; Eksperimen yang dijalankan tidak
KELINCI BETINA
replikasi; menghubungkan protokol layak, faktor-faktor yang sulit diubah dan
pengumpulan data dengan desain yang tidak memungkinkan
sesuai; desain pengisian ruang dilakukannya pengacakan,
pengamatan di luar jangkauan,
kendala-kendala yang tidak terduga
Sensor dan Model parametrik, semiparametrik, dan Kendala waktu

nonparametrik untuk data yang disensor; pengumpulan data; keterbatasan
pemotongan model parametrik untuk data instrumen pengumpulan
terpotong
Referensi
Boreman, P. dan Chatfield, M. (2015) Hindari bahaya penggunaan data bulat. Jurnal Analisis Farmasi
dan Biomedis, 115, hlm.502–508.
Cox, DR (2009) Pengacakan dalam desain percobaan. Tinjauan Statistik Internasional, 77, 415–429.
Ding, Y. dan Simonoff, J. (2010) Investigasi metode data yang hilang untuk pohon klasifikasi yang
diterapkan pada data respons biner. Jurnal Penelitian Pembelajaran Mesin, 11, hlm.131–170.
DixonÿWoods, M., Agarwal, S., Jones, D., Sutton, A., Young, B., DixonÿWoods, M., Agarwal, S., Jones,
D. dan Young, B. (2005 ) Mensintesis bukti kualitatif dan kuantitatif: tinjauan metode yang mungkin.
Jurnal Penelitian & Kebijakan Pelayanan Kesehatan, 10, hlm.45–53.
Engel, A., Kenett, RS, Shahar, S. dan Reich, Y. (2016) Mengoptimalkan Desain Sistem di Bawah Agen
Kegagalan yang Menurun. Prosiding Simposium Internasional Model Stokastik dalam Rekayasa
Keandalan, Ilmu Hayati dan Manajemen Operasi (SMRLO16), Beer Sheva, Israel.
Friedman, LM, Furberg, CD, DeMets, D., Reboussin, DM dan Granger, CB (2015)
Dasar-dasar Uji Klinis, edisi ke-5. Penerbitan Internasional Springer, Cham.
Fuchs, C. dan Kenett, RS (2007) Data Hilang dan Imputasi, dalam Ensiklopedia Statistik Kualitas dan
Keandalan, Ruggeri, F., Kenett, RS dan Faltin, F. (pemimpin redaksi), John Wiley & Sons, Ltd ,
Chichester, Inggris.
Godfrey, AB (2008) Memperhatikan kualitas data. Majalah Six Sigma Forum, 8, hlm.5–6.
Heckman, JJ (1979) Bias pemilihan sampel sebagai kesalahan spesifikasi. Econometrica: Jurnal
Masyarakat Ekonometrika, 47, hlm.153–161.
Kenett, RS, Rahav, E. dan Steinberg, D. (2006) Analisis bootstrap dari eksperimen yang dirancang.
Rekayasa Kualitas dan Keandalan Internasional, 22, hlm.659–667.
Kenett, RS, Deldossi, L. dan Zappa, D. (2012) Standar Kualitas dan Bagan Kendali yang Diterapkan
pada Survei Pelanggan, dalam Analisis Modern Survei Kepuasan Pelanggan, Kenett, RS dan Salini,
S. (editor), John Wiley & Sons , Ltd, Chichester, Inggris.
Little, R. (2009) Pembobotan dan Prediksi dalam Survei Sampel. Kertas Kerja 81. Departemen
Biostatistik, Universitas Michigan, Ann Arbor.
Little, RJA dan Rubin, DB (2002) Analisis Statistik dengan Data Hilang. John Wiley & Sons, Inc., New
York.
Mandel, M. (2007) Sensor dan pemotongan – menyoroti perbedaannya. Orang Amerika
Ahli Statistik, 61(4), hlm.321–324.
Negri, E. (2012) Meta-Analysis, dalam Metode Statistik dalam Layanan Kesehatan, Faltin, F., Kenett, RS
dan Ruggeri, F. (editor), John Wiley & Sons, Ltd, Chichester, UK.
Pfeffermann, D. (2013). Perkembangan penting baru dalam estimasi area kecil. Statistik
Sains, 28, hlm.40–68.
Redman, T. (2007) Statistik dalam Kualitas Data dan Informasi, dalam Ensiklopedia Statistik dalam
Kualitas dan Keandalan, Ruggeri, F., Kenett, RS dan Faltin, F. (pemimpin redaksi), John Wiley &
Sons, Ltd, Chichester , Inggris.
Rosenbaum, PR, dan Rubin, DB (1983) Peran sentral skor kecenderungan dalam
studi observasional untuk efek sebab akibat. Biometrika, 70 (1), hlm.41–55.
SaarÿTsechansky, M. dan Provost, F. (2007) Menangani fitur yang hilang saat menerapkan model
klasifikasi. Jurnal Penelitian Pembelajaran Mesin, 8, hlm.1625–1657.
SaarÿTsechansky, M., Melville, P. dan Provost, F. (2009) Akuisisi nilai fitur aktif.
Ilmu Manajemen, 55, hlm.664–684.
Yahav, I. dan Shmueli, G. (2014) Hasil penting: memperkirakan tingkat kelangsungan hidup pasien
transplantasi ginjal sebelum transplantasi menggunakan skor kecenderungan berbasis simulator.
Sejarah Riset Operasi, 216(1), hlm.101–128.
Bagian II
Aplikasi InfoQ
Pendidikan
6.1 Pendahuluan
Pendidikan adalah salah satu instrumen paling ampuh untuk mengurangi kemiskinan dan kesenjangan
dalam masyarakat dan meletakkan dasar bagi pertumbuhan ekonomi yang berkelanjutan. Sasaran
pembangunan milenium kedua Bank Dunia adalah mencapai pendidikan dasar universal pada tahun
2015 (www.worldbank.org/mdgs/education.html). Dalam konteks ini, Bank Dunia mengumpulkan data
mengenai masukan, partisipasi, efisiensi, dan hasil pendidikan dari tanggapan resmi terhadap survei
dan dari laporan yang diberikan oleh otoritas pendidikan di setiap negara. Dasbor Indikator Utama
Pendidikan
menyajikan potret global sistem pendidikan, mulai dari pendidikan dasar hingga pendidikan tinggi.
EdStats All Indicator Query Bank Dunia berisi sekitar 2500 indikator yang sebanding secara internasional
yang menggambarkan akses pendidikan, kemajuan, penyelesaian, melek huruf, guru, populasi, dan
pengeluaran (http://datatopics.worldbank.org/
pendidikan). Indikatornya mencakup siklus pendidikan mulai dari pendidikan dasar hingga pendidikan
kejuruan dan pendidikan tinggi. Basis data ini juga mencakup data hasil pembelajaran dari penilaian
pembelajaran internasional dan regional (misalnya PISA, PIACC), data ekuitas dari survei rumah tangga,
dan data proyeksi/pencapaian hingga tahun 2050. Beberapa indikator kualitas dilacak dan dilaporkan
termasuk tingkat pengulangan, tingkat penyelesaian sekolah dasar, murid-
rasio guru, dan tingkat melek huruf orang dewasa. Laporan yang tersedia saat ini mengandalkan lebih
dari 2000 indikator kualitas yang dirancang untuk menjawab pertanyaan spesifik seperti berikut:
• Berapa banyak siswa yang menyelesaikan sekolah dasar?
• Berapa banyak siswa per guru di kelas dasar?
• Apakah ada beberapa siswa yang mengulang kelas?

82 Pendidikan
• Apakah perempuan lebih sering mengulang kelas di sekolah dasar dibandingkan laki-laki?
• Wilayah manakah yang memiliki tingkat pengulangan tertinggi?
• Negara manakah yang memiliki rasio siswa/guru sekolah dasar tertinggi?
• Negara manakah yang memiliki tingkat pengulangan tertinggi di sekolah dasar?
• Negara manakah yang memiliki tingkat pengulangan tertinggi di sekolah menengah?
• Apakah tingkat melek huruf orang dewasa meningkat?
• Negara manakah yang memiliki tingkat melek huruf orang dewasa paling rendah?
• Apakah tingkat melek huruf orang dewasa setara antara laki-laki dan perempuan?
• Apakah kesenjangan gender dalam tingkat melek huruf menurun seiring berjalannya waktu?
Data yang dijelaskan sebelumnya, X, dianalisis dengan metode f untuk memenuhi tujuan, g, yang tersirat dalam pertanyaan-
pertanyaan ini. Fungsi utilitas, U, dapat mencerminkan kebutuhan berbagai pemangku kepentingan termasuk orang tua, guru, dan
pembuat kebijakan. Informasi yang diberikan oleh berbagai laporan resmi untuk menjawab pertanyaan-pertanyaan yang disebutkan
sebelumnya sebagian besar bersifat deskriptif dan bergantung pada kompilasi berbagai sumber data dengan tingkat pengendalian
kualitas dan kualitas data yang berbeda-beda. Menilai tingkat kualitas informasi (InfoQ) dari laporan-laporan ini, sehubungan dengan
masing-masing pertanyaan sebelumnya, akan memberikan skor rendah pada integrasi data, relevansi temporal, serta kronologi data
dan tujuan. Pernyataan ini didasarkan pada kenyataan bahwa indikator-indikator dipertimbangkan secara terpisah, data diberi
tanggal, dan pengambil keputusan yang tertarik untuk membentuk kebijakan dengan dukungan data tersebut mengalami kesenjangan
antara data yang dilaporkan dan tujuan mereka sebagai manajer atau anggota parlemen.
Dalam bab ini, kami mempertimbangkan secara rinci tiga bidang penerapan terkait pendidikan.
Aplikasi pertama difokuskan pada industri pelaporan pengujian ekstensif di Amerika Serikat. Setelah memberikan konteks umum
berdasarkan pekerjaan yang dilakukan pada Penilaian Kemajuan Pendidikan Nasional (NAEP), pembuat rapor nasional di Amerika
Serikat (http://nces.ed.gov/nationsreportcard), kami mengevaluasi tingkat InfoQ dari laporan Missouri Assessment Program (MAP).
Contoh kedua menafsirkan pernyataan ASA tentang model nilai tambah pendidikan (VAM) menggunakan dimensi InfoQ. Contoh
ketiga mengenai penilaian pemahaman konseptual atau “pemahaman mendalam” dengan menggunakan Meaning Equivalence
Reusable Learning Objects (MERLO). Contoh ini didasarkan pada penerapan MERLO dalam program penilaian yang sedang
berlangsung terhadap guru matematika di Italia. Laporan berdasarkan MERLO
penilaian kemudian dievaluasi menggunakan dimensi InfoQ.
6.2 Nilai ujian di sekolah
Di Amerika Serikat, lebih dari 60.000.000 laporan individu dikirim setiap tahunnya kepada orang tua anak sekolah. 6000000 laporan
lainnya dihasilkan di Kanada. Lebih dari 1000 ujian kredensial (misalnya sekuritas, akuntan, perawat) seringkali melebihi 100.000
Pendidikan 83
kandidat. Masyarakat, pendidik, pengambil kebijakan, orang tua, dan peserta ujian ingin memahami skor dan
laporan skor. Jenis pertanyaan yang diajukan oleh berbagai pemangku kepentingan berdasarkan laporan
tersebut adalah sebagai berikut:
1. Pertanyaan orang tua:
• Apakah anak saya mencapai kemajuan sebesar satu tahun dalam setahun?
• Apakah anak saya tumbuh dengan baik dan memenuhi standar negara?
• Apakah pertumbuhan anak saya dalam matematika sama pesatnya dengan membaca?
• Apakah pertumbuhan anak saya tahun ini sama besarnya dengan tahun lalu?
2. Pertanyaan guru:
• Apakah siswa saya mencapai kemajuan selama satu tahun dalam satu tahun?
• Apakah siswa saya tumbuh dengan baik dalam memenuhi standar negara?
• Seberapa dekat siswa saya untuk menjadi mahir?
• Apakah ada siswa dengan pertumbuhan sangat rendah yang memerlukan perhatian khusus?
3. Pertanyaan administrator:
• Apakah siswa di distrik/sekolah kita mencapai kemajuan selama satu tahun?

area konten?
• Apakah siswa kita tumbuh dengan baik untuk memenuhi standar negara?
• Apakah sekolah/program ini menunjukkan pertumbuhan yang sama besarnya dengan sekolah/program lain (yang spesifik)?
• Dapatkah saya mengukur pertumbuhan siswa bahkan untuk siswa yang tidak mengubah kategori
kemahiran?
• Dapatkah saya menggabungkan hasil dari nilai yang berbeda untuk membuat ringkasan
kesimpulan?
Investasi waktu dan uang yang cukup besar telah dilakukan untuk mengatasi program pengujian yang
menghasilkan laporan siswa di berbagai tingkat agregasi. Bidang pengujian penuh dengan para ahli yang
mengerjakan aplikasi teori respons item (IRT), penilaian data kinerja, perbandingan skor tes, estimasi keandalan,
dan masalah pengendalian kualitas seperti deteksi kecurangan dan kemajuan teknologi komputer.
Kekurangan laporan siswa tersebut dilaporkan dalam Goodman dan Hambleton (2004) dan meliputi:
• Tidak ada tujuan yang jelas, tidak ada petunjuk tentang di mana harus mulai membaca.
• Kategori kinerja yang tidak ditentukan.
• Laporan tidak menunjukkan adanya kesalahan pengukuran.

84 Pendidikan
• Font sering kali terlalu kecil sehingga sulit dibaca dengan mudah.
• Informasi kebutuhan pengajaran tidak mudah digunakan—misalnya, bagi orang tua.

Cobalah untuk menafsirkan pernyataan: “Anda memerlukan bantuan dalam memperluas makna dengan
menarik kesimpulan dan menggunakan pemikiran kritis untuk menghubungkan dan mensintesis informasi
di dalam dan di seluruh teks, ide, dan konsep.”
• Beberapa istilah yang tidak ditentukan pada tampilan: persentil, skor z , tingkat pencapaian,
dan banyak lagi.
Untuk meningkatkan laporan pengujian, beberapa standar telah dikembangkan. Misalnya, standar pengujian
AERA–APA–NCME menyatakan:
Ketika informasi skor tes dirilis….mereka yang bertanggung jawab harus memberikan interpretasi
yang tepat….informasi diperlukan tentang cakupan konten, arti skor, ketepatan skor, kesalahan
interpretasi yang umum, dan penggunaan yang tepat.…Laporan skor harus disertai dengan a
pernyataan yang jelas tentang tingkat kesalahan pengukuran yang terkait dengan setiap skor
atau tingkat klasifikasi dan informasi tentang cara menafsirkan skor (http://teststandards.org).
Sebagai contoh nyata penerapan InfoQ untuk menjawab pertanyaan tertentu menggunakan laporan sekolah
(data), perhatikan laporan tes MAP siswa kelas 8 Sara Armstrong yang disajikan pada Gambar 6.1. Laporan
skor tidak mudah diikuti. Ada beberapa skala dan laporan ini tidak menceritakan cerita logis dari titik A ke titik D.
Laporan ini digunakan sebagai referensi dalam konferensi orang tua-guru dan untuk perencanaan pembelajaran,
dan kualitas informasi yang diberikan oleh laporan ini mempunyai konsekuensi penting. . Untuk informasi lebih
lanjut tentang MAP, lihat http://dese.mo.gov/collegeÿcareerÿreadiness/
penilaian/tingkat kelas/peta-informasi-orang tua. Kami akan meninjau delapan dimensi InfoQ laporan ini di akhir
bagian ini.
Beberapa hal yang perlu dipertimbangkan dalam merancang laporan pengujian meliputi:
1. Jumlah bidang pengetahuan/keterampilan yang dilaporkan—terlalu banyak akan menimbulkan masalah,

terlalu sedikit tidak berguna.
2. Informasi normatif atau informasi yang mengacu pada kriteria (atau keduanya) dapat diberikan.
3. Kalau normatif, siapa yang termasuk dalam kelompok acuan: semua, lewat saja, semua lewat, pertamaÿ
pencatat waktu?
4. Jika kriteria direferensikan, berapa nilai potongannya?
5. Laporkan ketepatan skor.
Laporan SAT Skills Insight terkait tersedia di www.collegeboard.com sebagai alat online gratis yang membantu
siswa menempatkan keterampilan mereka pada peta dengan membantu mereka memahami apa yang mereka
ketahui dan apa yang perlu mereka ketahui lebih baik. Gambar 6.2 menyajikan contoh laporan tersebut, dengan
memperbesar skor 500–590 dalam pembacaan kritis. Kami menyajikannya berbeda dengan laporan MAP pada
Gambar 6.1. Sebagai contoh, perhatikan pembacaan SAT dan
Missouri Seni Komunikasi

639 696 723
Penilaian
A
Program Skor Skala: 710
(PETA) Ahli 400 500 600 700 800 900 999
Standar Isi/Pengetahuan # %
B
Laporan Siswa Deskripsi Tingkat Prestasi Membaca Tingkat
(Untaian Harapan Tingkat Kelas)
Siswa akan memiliki dasar yang kuat
poin poin
yang mungkindiperoleh
15 63
Lanjut-Siswa 1. berbicara dan menulis Bahasa Inggris Standar (termasuk
SARA ARMSTRONG tata bahasa, penggunaan, tanda baca, ejaan, kapitalisasi)
menganalisis informasi yang kompleks, tujuan penulis, karakter;
mensintesis Informasi; merangkum ide-ide kompleks; membuat 2. membaca dan menilai fiksi, puisi, dan drama 19 65
Kelas 8 kesimpulan yang rumit. Menulis-Siswa mengedit teks dengan benar
dengan menerapkan aturan/ketentuan Bahasa Inggris Standar.
3. membaca dan mengevaluasi karya dan materi nonfiksi 34 75
Data Simulasi (seperti biografi, surat kabar, manual teknis)
Kisaran skor MAP: 723–875. 4. menulis secara formal (seperti laporan, narasi, esai) dan TIDAK
Tujuan informal (seperti outline, catatan)

lsaaadtM
h
aynnahrraaiu S
a
Siswa Mahir
Laporan ini memberikan informasi
Membaca-Siswa Meringkas; menyimpulkan makna kosa kata dan
tentang kinerja Program Penilaian
sebab/akibat; menafsirkan bahasa kiasan; menganalisis fitur teks; ikuti
Missouri. Ini menggambarkan
petunjuk multi-langkah; mengidentifikasi teknik penulis; menganalisis teks;
kinerja dalam empat tingkat pencapaian
membuat kesimpulan, interpretasi, prediksi, perbandingan, menggunakan
di bidang konten. Ini digunakan untuk
materi yang kompleks; mengevaluasi bukti, keandalan sumber daya.
perencanaan pembelajaran, sebagai Menulis-Siswa mengedit untuk rincian dan tujuan yang relevan; mengatur dan
titik acuan selama konferensi mengedit teks; konsisten menggunakan aturan/konvensi standar bahasa Inggris.
orang tua-guru, dan untuk pencatatan permanen.
Kisaran skor MAP: 696-722.
Bacaan
Dasar -Siswa mendefinisikan kosa kata sederhana; mengidentifikasi gagasan
utama; menarik kesimpulan sederhana; membuat kesimpulan sederhana;
# %
mengingat detail dari teks; menentukan keandalan sumber daya. Siswa Menulis
Standar Proses/Kinerja
Menulis paragraf untuk audiens tertentu C poin poin
Siswa akan mendemonstrasikan kemampuannya dalam bidang konten yang mungkinyang diperoleh
Sasaran 1 - Mengumpulkan, menganalisis & menerapkan informasi

Standar 5 - memahami/mengevaluasi sumber daya 6 60
Di bawah Bacaan Standar 6 - menemukan/mengevaluasi hubungan 23 60
Tanggal lahir: 23/06/93 Dasar -Siswa mengidentifikasi tujuan penulis, bahasa kiasan, alur cerita, Sasaran 2 - Berkomunikasi secara efektif
dan latar; gunakan petunjuk konteks untuk memilih kosakata. Menulis-
Standar 2 - merevisi komunikasi 15 60
Siswa membuat pengatur grafis; menulis paragraf dasar;
menunjukkan kesadaran penonton.
Sasaran 3 - Mengenali & memecahkan masalah
Standar 5 - bernalar secara logis 18 65

Tanggal Tes: 26/03/07
KODE : 048-078-2589
Tingkat pencapaian menunjukkan bahwa anak Anda dapat melakukan sebagian Persentil Nasional TerraNova : 64 Skor Lexile: 1234 TerraNova adalah
Sekolah: LEMBAH PINUS
besar dari apa yang dijelaskan untuk tingkat tersebut dan bahkan lebih dari apa yang
Distrik: SUNGAI BESAR tes pilihan ganda. Dalam Membaca, siswa Anda D
dijelaskan untuk tingkat di bawahnya. Anak Anda mungkin juga mampu melakukan mendapat nilai lebih baik dari 64 persen siswa di negara tersebut.
Negara Bagian: MISSOURI
beberapa kompetensi yang dijelaskan pada tingkat berikutnya yang lebih tinggi, namun
tidak cukup untuk mencapai tingkat kinerja tersebut. Lexile Framework for Reading merupakan skala membaca yang mempertemukan
Kota/Negara Bagian: DI MANA SAJA, MO
kemampuan pembaca dengan bahan bacaan yang sesuai. Lihat lampiran untuk
informasi lebih lanjut.
18/05/07
Gambar 6.1 Laporan tes Program Penilaian Missouri untuk siswa fiksi Sara Armstrong. Sumber:
http:// dese.mo.gov. © Departemen Pendidikan Dasar dan Menengah Missouri.
86 Pendidikan
Gambar 6.2 Keterampilan Membaca Kritis SAT. Sumber: https:// sat.collegeboard.org/ home. ©
Dewan Perguruan Tinggi.
menulis informasi diagnostik laporan: “Untuk meningkatkan kinerja dalam MEMBACA, anak
Anda harus berusaha 1) menarik kesimpulan tentang gagasan utama dalam sebuah teks, 2)
memahami teknik dan keputusan penulis, dan 3) membuat, mendukung, dan memperluas
kesimpulan tentang isi, peristiwa, tokoh, latar, tema, dan gaya. Untuk meningkatkan kinerja
dalam MENULIS, anak Anda harus berupaya 1) mengatur tulisan berdasarkan satu topik atau
gagasan utama, 2) berupaya menghindari kesalahan dalam konvensi penggunaan, tata
bahasa, ejaan, dan tanda baca bahasa Inggris yang mengganggu pemahaman dan 3 )
mendukung gagasan dengan rincian yang lebih spesifik.”
Instruksi ini memberikan informasi InfoQ yang lebih tinggi daripada laporan MAP.
Goodman dan Hambleton (2004) menunjukkan masalah utama dalam pelaporan skor
seperti memberikan penjelasan yang rumit. Perhatikan, misalnya, catatan kaki berikut dari
laporan NAEP: “Perbandingan antar negara bagian memperhitungkan kesalahan pengambilan
sampel dan pengukuran dan bahwa setiap negara bagian dibandingkan dengan negara bagian
lainnya. Signifikansi ditentukan oleh penerapan prosedur Bonferroni
Pendidikan 87
berdasarkan 946 perbandingan dengan membandingkan selisih antara dua mean dengan empat kali
akar kuadrat dari jumlah kesalahan standar kuadrat.”
Potensi kendala lain yang disebutkan oleh Goodman dan Hambleton (2004) mencakup ukuran font yang
kecil, catatan kaki yang tidak jelas, akronim yang tidak dieja, halaman yang berantakan, tidak menunjukkan
ketepatan skor, tidak mendefinisikan istilah-istilah kunci, penggunaan jargon, dan grafik yang dirancang dengan buruk.
Dengan latar belakang desain laporan pengujian ini, mari kita perhatikan laporan MAP yang
ditampilkan pada Gambar 6.1 dari lensa InfoQ. Kita mulai dengan mengidentifikasi empat komponen
InfoQ dan kemudian memeriksa masing-masing dari delapan dimensi InfoQ.
Studi kasus 1 Laporan MAP
komponen InfoQ
Keempat komponen InfoQ dalam penelitian ini adalah:
Sasaran (g): Sebagai contoh, pertanyaan orang tua: “Apakah anak saya tumbuh sesuai
tepat untuk memenuhi standar negara?”
Data (X): Hasil tes anak pada tahun berjalan
Analisis (f): Laporan MAP ditampilkan pada Gambar 6.1
Utilitas (U): Mengarahkan perhatian pada tindakan yang diperlukan (pujian, pelengkap
instruksi, peningkatan tindak lanjut pencapaian anak, dll.)
Dimensi InfoQ
Kedelapan dimensi InfoQ dalam penelitian ini dievaluasi sebagai berikut:
(1) Resolusi data: Resolusi data mengacu pada skala pengukuran dan tingkat agregasi data.
Skala pengukuran data harus dievaluasi secara cermat dalam kaitannya dengan
kesesuaiannya dengan tujuan. Data mungkin dicatat oleh berbagai instrumen atau
berbagai sumber, dan, dalam hal ini, informasi tambahan tentang keandalan dan
ketepatan alat pengukur atau sumber data akan berguna. Laporan MAP menyajikan
data spesifik siswa untuk satu mata pelajaran selama periode penilaian.
Laporan ini menggunakan beberapa skala pengukuran, ada yang bersifat jangkar dan ada pula
yang berkesinambungan, tanpa memberikan logika terhadap kompleksitas ini.
(2) Struktur data: Struktur data berkaitan dengan desain penelitian atau mekanisme
pengumpulan data. Tingkat InfoQ tipe data tertentu bergantung pada tujuan yang ada.
Laporan MAP didasarkan pada hasil pengujian tanpa perbandingan atau tolok ukur
apa pun dan tanpa mempertimbangkan tren. Data dikelompokkan ke dalam standar
konten/pengetahuan dan standar proses/kinerja.
(3) Integrasi data: Dengan beragamnya sumber data dan tipe data, sering kali terdapat
kebutuhan untuk mengintegrasikan berbagai sumber dan/atau tipe data. Seringkali, itu
88 Pendidikan
integrasi beberapa tipe data menciptakan pengetahuan baru mengenai tujuan

yang ada, sehingga meningkatkan InfoQ. Laporan MAP tidak menyertakan
integrasi data apa pun.
(4) Relevansi temporal: Proses memperoleh pengetahuan dari data dapat ditempatkan
pada suatu garis waktu yang mencakup pengumpulan data dan analisis data.
Durasi dan kesenjangan yang berbeda ini masing-masing dapat memengaruhi
InfoQ. Durasi pengumpulan data dapat ditambah atau dikurangi InfoQ,
tergantung tujuan penelitian. Dalam konteks laporan ujian, relevansi temporal
dijamin oleh kebutuhan untuk memperbarui laporan selama konferensi orang
tua-guru. Batas waktu praktis ini menjamin relevansi temporal laporan MAP.
(5) Kronologi data dan tujuan: Pilihan variabel yang akan dikumpulkan, hubungan
temporal antara variabel tersebut dan maknanya dalam konteks tujuan yang ada
juga mempengaruhi InfoQ. Laporan MAP berkaitan dengan hasil pengujian dari
pengujian dalam rentang waktu penilaian yang relevan. Hal ini memastikan
kronologi data dan tujuan.
(6) Generalisasi: Kegunaan analisis empiris bergantung pada kemampuan untuk

menggeneralisasi analisis tersebut pada populasi yang sesuai. Dua jenis
generalisasi adalah generalisasi statistik dan ilmiah. Generalisasi statistik
mengacu pada kesimpulan dari sampel ke populasi target.
Generalisasi ilmiah mengacu pada penerapan model berdasarkan populasi
target tertentu ke populasi lain. Laporan MAP tidak mencakup laporan kesalahan
pengukuran apa pun dan tidak menyediakan kemampuan generalisasi statistik.
Juga tidak menggeneralisasi melampaui subjek atau siswa tertentu. Peningkatan
kemampuan generalisasi dapat dicapai dengan memberikan ringkasan statistik
kelompok anak dan penilaian kinerja anak dibandingkan kelompok tersebut.
(7) Operasionalisasi: Operasionalisasi berkaitan dengan operasionalisasi konstruk

dan operasionalisasi tindakan. Konstruk adalah abstraksi yang menggambarkan
suatu fenomena yang menjadi perhatian teoretis. Data terukur adalah
operasionalisasi konstruksi yang mendasarinya. Laporan ini bertujuan untuk
mengukur “tingkat pencapaian” dan memberikan deskripsi teks dari masing-masing lima tingkat.
Operasionalisasi tindakan berkaitan dengan implikasi praktis dari informasi yang
diberikan. Laporan MAP tidak memberikan dukungan untuk operasionalisasi
tindakan. Hal ini sangat kontras dengan laporan tes SAT yang dengan jelas
menyatakan bidang mana yang perlu lebih diperkuat dan keterampilan mana
yang perlu diperkuat.
(8) Komunikasi: Komunikasi yang efektif mengenai analisis dan kegunaannya

berdampak langsung pada InfoQ. Laporan MAP jelas kurang dalam hal ini
dengan format yang sembarangan, font yang kecil, dan visualisasi yang buruk.
Pendidikan 89
Kami menyajikan penilaian subjektif untuk masing-masing dimensi dan skor InfoQ pada
Tabel 6.1. Skor InfoQ keseluruhan sebagai persentase adalah 33%, yang termasuk rendah.
Dimensi terkuat adalah relevansi temporal dan kronologi data serta tujuan. Informasi yang
dipelajari dari pemeriksaan masing-masing delapan dimensi InfoQ dapat digunakan
untuk meningkatkan MAP yang disajikan pada Gambar 6.1. Faktanya, hal ini memberikan
daftar area yang perlu dipertimbangkan dalam merancang dan menerapkan perbaikan
tersebut.
Tabel 6.1 Penilaian InfoQ untuk laporan MAP.
Dimensi InfoQ Peringkat
Resolusi data 2
Struktur data 2
Integrasi data 2
Relevansi temporal 4
Kronologi data dan tujuan 4
Generalisasi 2
Operasionalisasi 2
Komunikasi 2
skor InfoQ 33%
6.3 Model nilai tambah untuk penilaian pendidikan
Dalam beberapa kasus, didorong oleh inisiatif Race to the Top yang dilancarkan pemerintah
federal , banyak negara bagian dan distrik sekolah di Amerika Serikat telah memasukkan, dalam
evaluasi kinerja mereka, ukuran efektivitas guru berdasarkan data prestasi siswa.
Negara bagian dan distrik mulai mengukur efektivitas guru dengan menggunakan nilai tes dan
model nilai tambah atau VAM. Model-model ini memberikan ukuran kontribusi guru terhadap
prestasi siswa yang memperhitungkan faktor-faktor di luar kendali guru.
Pendekatan dasar VAM adalah memprediksi kinerja skor tes standar yang akan diperoleh setiap
siswa dengan rata-rata guru dan kemudian membandingkan kinerja rata-rata siswa dari guru
tertentu dengan rata-rata skor yang diprediksi. Perbedaan antara kedua skor tersebut—
bagaimana kinerja siswa sebenarnya jika berhadapan dengan seorang guru dan bagaimana
kinerja mereka jika menghadapi guru rata-rata—diberikan kepada guru tersebut sebagai nilai
yang ditambahkan pada kinerja nilai ujian siswa.
VAM biasanya menggunakan bentuk model regresi yang memprediksi skor atau pertumbuhan
siswa pada tes standar dari variabel latar belakang (termasuk skor tes sebelumnya), dengan
istilah dalam model untuk guru yang pernah mengajar siswa tersebut di masa lalu. Persentil
dihitung untuk setiap siswa dari model, menghubungkan pertumbuhannya dengan pertumbuhan
siswa lain dengan nilai tes sebelumnya yang serupa. Untuk setiap guru, median atau rata-rata
persentil siswanya digunakan untuk menghitung VAM guru.
90 Pendidikan
skor. Jika siswa seorang guru mempunyai pertumbuhan prestasi yang tinggi dibandingkan dengan siswa lain
yang mempunyai prestasi sebelumnya yang serupa, maka guru tersebut akan mempunyai nilai VAM yang
tinggi. Beberapa VAM juga memasukkan variabel latar belakang siswa lainnya. Bentuk model yang digunakan
mungkin menyebabkan biasnya skor VAM bagi sebagian guru. Misalnya, siswa “berbakat” atau siswa
penyandang disabilitas mungkin menunjukkan peningkatan nilai ujian yang lebih kecil jika model tidak
memperhitungkan status mereka secara akurat.
Penggunaan skor VAM untuk meningkatkan pendidikan mengharuskan skor tersebut memberikan informasi
yang bermakna tentang kemampuan guru dalam mendorong pembelajaran siswa. Misalnya, skor VAM harus
memprediksi bagaimana kemajuan siswa dari guru di kelas selanjutnya dan bagaimana siswa mereka di masa
depan akan mendapatkan hasil di bawah bimbingan mereka. Skor VAM dapat memberikan informasi kepada
guru dan administrator tentang kinerja siswanya dan mengidentifikasi bidang-bidang yang memerlukan
perbaikan, namun tidak memberikan informasi tentang cara meningkatkan pengajaran. Peningkatan tersebut
perlu ditargetkan pada tujuan tertentu, dan skor VAM harus dievaluasi dalam konteks tujuan tersebut. Tanpa
mencantumkan tujuan yang ditargetkan secara eksplisit, InfoQ skor VAM tidak dapat dinilai.
Model ini dapat digunakan untuk mengevaluasi dampak kebijakan atau program pelatihan guru dengan
membandingkan rata-rata skor VAM guru dari berbagai program. Dalam penggunaan ini, skor VAM
menyesuaikan sebagian dengan latar belakang siswa yang berbeda, dan merata-ratakan hasilnya pada guru
yang berbeda akan meningkatkan stabilitas estimasi. Untuk informasi lebih lanjut tentang sifat statistik VAM,
lihat Ballou dkk. (2004), McCaffrey dkk. (2003, 2004), Andrabi dkk. (2009), Mariano dkk. (2010), dan Karl dkk.
(2013, 2014a, 2014b).
Berikut ini, kita melihat dua kasus melalui lensa InfoQ. Yang pertama adalah studi empiris terkait VAM
yang mempunyai implikasi kebijakan penting. Yang kedua adalah pernyataan yang dikeluarkan oleh ASA
tentang “Penggunaan VAM untuk Penilaian Pendidikan.”
Dengan memeriksa dua jenis analisis yang berbeda (pernyataan empiris dan tertulis), kami menunjukkan
bagaimana kerangka InfoQ dapat membantu mengkarakterisasi, memperjelas, dan mengidentifikasi praktik
baik serta tantangan dalam berbagai jenis laporan.
6.3.1 “Studi Besar Menghubungkan Guru yang Baik dengan Keuntungan Abadi”
Artikel New York Times tanggal 6 Januari 2012 “Studi Besar Menghubungkan Guru yang Baik dengan
Keuntungan Abadi”1 mencakup studi penelitian tentang “Dampak Jangka Panjang Guru: Nilai Tambah Guru
dan Hasil Siswa di Masa Dewasa” (Chetty, Friedman, dan Rockoff, NBER, www.nber.org/papers/w17699). Para
penulis menggunakan model ekonometrik yang diterapkan pada data dari nilai ujian jutaan siswa dan informasi
keuangan serta demografi lainnya untuk mengevaluasi pengaruh guru VA terhadap perolehan masa depan
siswa. Para penulis menyimpulkan:
Kami menemukan bahwa siswa yang ditugaskan pada guru dengan VA [Nilai Tambah] yang
lebih tinggi akan lebih berhasil dalam banyak dimensi. Mereka lebih berpeluang untuk kuliah,
memperoleh gaji lebih tinggi, tinggal di lingkungan yang lebih baik, dan menabung lebih banyak
untuk masa pensiun. Mereka juga kecil kemungkinannya untuk memiliki anak saat remaja.
1www.nytimes.com/2012/01/06/education/big-study-links-good-teachers-to-standing-gain.html
Pendidikan 91
Studi kasus 2 Pendapatan seumur hidup siswa
komponen InfoQ
Keempat komponen InfoQ dalam penelitian ini adalah:
Sasaran (g): Menguji apakah anak-anak yang mendapatkan guru bernilai tambah tinggi mempunyai hasil
yang lebih baik di masa dewasa (kami fokus pada tujuan ini, sementara penelitian ini mempunyai dua tujuan).
Data (X): Penugasan guru dan kelas dari tahun 1991 hingga 2009 untuk 2,5 juta anak, nilai ujian
dari tahun 1989 hingga 2009, dan data terpilih dari pengembalian pajak pendapatan federal AS
dari tahun 1996 hingga 2010 (hasil siswa: pendapatan, perguruan tinggi, kelahiran remaja,
lingkungan sekitar kualitas, karakteristik induk)
Analisis (f): Regresi linier. (“Digunakan untuk memprediksi nilai ujian siswa yang diajar oleh guru j
pada tahun t+1 menggunakan data nilai ujian dari t tahun sebelumnya”)
Utilitas: Ukuran efek, kesalahan prediksi minimal
Dimensi InfoQ
Kami sekarang mengevaluasi studi pada masing-masing dari delapan dimensi InfoQ:
(1) Resolusi data: Data mencakup satu observasi per siswa–mata pelajaran–
kombinasi tahun. “Penelitian hanya didasarkan pada statistik yang mengumpulkan ribuan
individu, bukan pada data individu.”
(2) Struktur data: Data mengenai nilai VA guru dan variabel sosio-ekonomi dan penghasilan telah
dipertimbangkan secara komprehensif dalam penelitian ini.
(3) Integrasi data: Data terintegrasi dari pengembalian pajak pendapatan federal AS dengan data
distrik sekolah (“sekitar 90% catatan siswa cocok dengan data pajak”).
(4) Relevansi temporal: Data mewakili gambaran singkat yang relevan untuk dekade pertama abad
kedua puluh satu.
(5) Kronologi data dan tujuan: Pengaruh minat kehadiran guru VA terhadap perolehan siswa jangka
panjang. Untuk menilai kronologi data dan tujuannya, kita harus mempertimbangkan
relevansi analisis data dengan kebutuhan pengambil keputusan dan perumusan kebijakan.
(6) Generalisasi: Model bertujuan untuk menggeneralisasi kepada guru secara umum dan secara
khusus menggunakan inferensi statistik, sehingga menunjukkan bahwa dicari generalisasi
statistik. Namun, karena ukuran sampel yang sangat besar, penggunaan nilai p dapat
menyesatkan dalam menentukan ukuran dampak yang berarti.
(7) Operasionalisasi: Pengoperasian informasi yang dilakukan laporan dapat diterjemahkan dalam
bentuk kebijakan pengangkatan dan promosi guru serta pengembangan karir.
92 Pendidikan
(8) Komunikasi: Menafsirkan dan menyajikan hasil analisis statistik merupakan titik
terlemah penelitian. Pertama, makalah ini melaporkan dampak yang signifikan
secara statistik tanpa harus melaporkan besarnya.
Dengan adanya satu juta sampel rekaman, signifikansi statistik dapat dicapai
bahkan dengan efek yang sangat kecil. Misalnya, meskipun kemiringan garis
regresi yang ditunjukkan pada Gambar 6.3 tampak dramatis dan signifikan secara
statistik, pendapatan berfluktuasi kurang dari $1000 per tahun. Untuk menyiasati
besarnya hal yang memalukan ini, penulis melihat “nilai seumur hidup” seorang
siswa. (“Rata-rata, memiliki guru [bernilai tambah tinggi] selama satu tahun akan
meningkatkan pendapatan kumulatif seumur hidup seorang anak sebesar $50.000
(setara dengan $9.000 dalam nilai sekarang pada usia 12 tahun dengan tingkat
bunga 5%).”) Dengan kata lain, terdapat kesenjangan besar antara hasil analisis
kuantitatif dan pernyataan kualitatif luas yang diklaim penelitian tersebut.
Masalah komunikasi lainnya berkaitan dengan memvisualisasikan hasil. Makalah ini

menampilkan hasilnya melalui beberapa bagan dan bahkan menyediakan serangkaian
slide dan video. Namun, grafik tersebut menyesatkan karena pilihan skalanya. Misalnya,
skala sumbu y tidak dimulai dari nol pada dua grafik yang ditunjukkan pada Gambar 6.3
dan 6.4 (yang satu mengukur pendapatan pada usia 28 dan yang lainnya mengukur rata-
rata nilai ujian).
Peringkat untuk masing-masing delapan dimensi diberikan pada Tabel 6.2. Skor InfoQ
keseluruhan untuk penelitian ini adalah 49%. Dimensi yang paling kuat adalah integrasi
data, dan dimensi yang paling lemah adalah generalisasi, operasionalisasi, dan komunikasi.
22.000
21500
21.000
n)aie8spP
nalisahagda u(
2
20500
20.000
–0,15 –0.10 –0,05 0,00 0,05 0,10 0,15
Guru VA (kelas 4– 8)
Gambar 6.3 Pendapatan per skor nilai tambah guru. Diadaptasi dari http://
rajchetty.com/ chettyfiles/ value_added.htm
Pendidikan 93
0,23 Variabel
Skor rata-rata keseluruhan
Skor rata-rata untuk guru
0,22
Guru VA tinggi masuk
0,21
u
nan-d
nakrasna atleiajN
rarh
ia urt
b
a
0,20
0,19
–3 –2 –1 0 1 2
Nilai
Gambar 6.4 Nilai ujian menurut sekolah berdasarkan nilai nilai tambah guru yang tinggi.
Diadaptasi dari http:// rajchetty.com/ chettyfiles/ value_added.htm
Tabel 6.2 Penilaian InfoQ untuk studi pendapatan

seumur hidup siswa.
Resolusi data 4
Struktur data 4
Integrasi data 5
Generalisasi 2
Operasionalisasi 2
Komunikasi 2
skor InfoQ 49%
Kesimpulan seperti ini dapat mempunyai implikasi kebijakan yang penting. Oleh karena itu mari kita periksa
penelitian ini menggunakan kerangka InfoQ.
6.3.2 Pernyataan ASA tentang VAM
Pada tanggal 8 April 2014, ASA mengeluarkan pernyataan bertajuk Menggunakan Model Nilai
Tambah untuk Penilaian Pendidikan (ASA, 2014). Kutipan dari ringkasan eksekutif dokumen ini
berbunyi sebagai berikut: “Banyak negara bagian dan distrik sekolah telah mengadopsinya
94 Pendidikan
Model Nilai Tambah (VAM) sebagai bagian dari sistem akuntabilitas pendidikan. Tujuan dari model ini…
adalah untuk memperkirakan pengaruh masing-masing guru atau sekolah terhadap prestasi siswa
sambil memperhitungkan perbedaan latar belakang siswa. VAM semakin dipromosikan atau diberi
mandat sebagai komponen dalam pengambilan keputusan berisiko tinggi seperti menentukan
kompensasi, mengevaluasi dan memberi peringkat guru, mengangkat atau memberhentikan guru,
memberikan masa jabatan, dan menutup sekolah… VAM adalah model statistik yang kompleks, dan
diperlukan keahlian statistik tingkat tinggi untuk mengembangkan model dan menafsirkan hasilnya.
Estimasi dari VAM harus selalu disertai dengan pengukuran presisi dan diskusi mengenai asumsi dan
kemungkinan keterbatasan model. Keterbatasan ini sangat relevan jika VAM digunakan untuk frekuensi
tinggi.
tujuan taruhan. VAM umumnya didasarkan pada nilai tes yang terstandarisasi, dan tidak secara
langsung mengukur potensi kontribusi guru terhadap hasil siswa lainnya.
VAM biasanya mengukur korelasi, bukan sebab-akibat: Dampak—positif atau negatif yang dikaitkan
dengan seorang guru mungkin sebenarnya disebabkan oleh faktor-faktor lain yang tidak tercakup dalam
model…Pemeringkatan guru berdasarkan skor VAM mereka dapat menimbulkan konsekuensi yang
tidak diinginkan sehingga menurunkan kualitas.”
Studi kasus 3 Pernyataan VAM ASA
Sekarang mari kita evaluasi pernyataan ASA menggunakan terminologi dan kerangka InfoQ.
komponen InfoQ
Untuk penilaian InfoQ, kita mulai dengan mengidentifikasi empat komponen InfoQ:
Sasaran (g): Mengevaluasi kinerja guru untuk mengelola proses pendidikan dengan lebih baik,
pemangku kepentingan adalah administrator pendidikan dan pembuat kebijakan pendidikan.
Data (X): Hasil tes terstandar dan informasi latar belakang siswa.
Analisis (f): VAM berdasarkan regresi linier.
Utilitas (U): Kesalahan prediksi minimal.
Tujuan, data, dan kegunaan yang sama dapat dipertimbangkan dengan metode analisis alternatif
yang disebut persentil pertumbuhan siswa (SGP). Kami secara singkat memperkenalkan SGP
untuk memberikan konteks evaluasi InfoQ VAM.
Seperti disebutkan, SGP adalah alternatif VAM yang menciptakan metrik
efektivitas guru dengan menghitung median atau rata-rata peringkat
persentil bersyarat pencapaian siswa pada tahun tertentu untuk siswa di
kelas guru. Untuk siswa tertentu dengan nilai Aig tahun ini dan sejarah nilai
{Ai,g ÿ 1 , Ai,g ÿ 2 , …, Ai , 1}, seseorang mencari persentil yang sesuai
dengan nilai sebenarnya siswa tersebut, Aig, dalam distribusi nilai dengan
syarat memiliki riwayat nilai ujian {Ai,g ÿ 1 , Ai,g ÿ 2 , …, Ai , 1}. Singkatnya,
analis mengevaluasi seberapa tinggi distribusi yang dicapai siswa, mengingat masa lalunya
Pendidikan 95
skor. Kemudian guru dievaluasi berdasarkan median atau rata-rata peringkat

persentil bersyarat siswanya. Regresi kuantil digunakan untuk memperkirakan ciri-
ciri distribusi kondisional prestasi siswa.
Secara khusus, seseorang memperkirakan kuantil bersyarat untuk semua kemungkinan
riwayat skor tes, yang kemudian digunakan untuk menetapkan peringkat persentil kepada
siswa. Model SGP tidak memperhitungkan karakteristik latar belakang siswa lainnya dan
mengecualikan fitur-fitur lain yang termasuk dalam banyak VAM yang digunakan oleh negara
bagian dan distrik sekolah. Untuk informasi lebih lanjut tentang SGP lihat Betebenner (2009, 2011).
Walsh dan Isenberg (2015) menemukan bahwa perbedaan skor evaluasi
berdasarkan VAM dan SGP tidak berhubungan dengan karakteristik guru siswa.
Sekali lagi, tujuan kami di sini adalah meninjau pernyataan ASA VAM dari
perspektif InfoQ.
Dimensi InfoQ
Dengan latar belakang model penilaian guru ini, kami mempertimbangkan

Pernyataan ASA VAM dalam delapan dimensi InfoQ:
1. Resolusi data: VAM menggunakan data nilai dan latar belakang siswa,
berdasarkan guru dan kelas. Data yang berkaitan dengan karakteristik kelas
seperti tingkat keterlibatan siswa atau kohesi sosial kelas tidak digunakan
dalam VAM. Informasi mengenai siswa “berbakat” atau penyandang disabilitas
juga tidak digunakan.
2. Struktur data: Struktur data komprehensif dalam hal skor tetapi tidak mencakup
data semantik seperti laporan tertulis mengenai kinerja siswa. Data yang
digunakan sebenarnya merupakan jenis data panel dengan informasi siswa
dan guru pada tingkat individu kelas.
3. Integrasi data: Data skor siswa dan guru dari waktu ke waktu dicocokkan untuk
menerapkan VAM.
4. Relevansi temporal: Skor nilai tambah guru berpotensi diperbarui pada setiap
akhir periode pelaporan.
5. Kronologi data dan tujuan: Keputusan spesifik mengenai penugasan atau

promosi guru didukung oleh perkiraan VAM yang tertinggal.
6. Kemampuan untuk digeneralisasikan: Laporan analisis VAM sebagian besar berkaitan dengan
masing-masing guru dan, dengan demikian, memberikan kemampuan generalisasi statistik
hanya pada tingkat masing-masing guru.
7. Operasionalisasi: VAM didasarkan pada operasionalisasi konstruk “efektivitas

guru” dengan menggunakan fungsi berdasarkan nilai tes.
Pengoperasian perkiraan VAM terkena kesalahan atribusi, seperti
96 Pendidikan
dijelaskan dalam pernyataan ASA VAM. Pernyataan tersebut memperingatkan

agar tidak menggeneralisasi efek korelasi menjadi efek sebab-akibat. Pernyataan
tersebut tidak memberikan rekomendasi konkrit (operasionalisasi tindakan rendah).
8. Komunikasi: Pernyataan ASA tentang VAM sebagian besar terfokus pada bagaimana
keluaran model mengenai nilai tambah guru digunakan dan diinterpretasikan.
Ringkasnya, pernyataan ASA VAM bersifat komprehensif dalam hal model statistik dan
asumsi terkait. Kami merangkum peringkat untuk setiap dimensi pada Tabel 6.3. Skor
InfoQ untuk pernyataan VAM adalah 57%. Peringatan dan implikasi asumsi tersebut
terhadap operasionalisasi VAM adalah poin utama pernyataan tersebut. Resolusi data,
struktur data, integrasi data, dan relevansi temporal di VAM sangat tinggi. Kesulitannya
terletak pada kronologi data dan tujuan, operasionalisasi, generalisasi, dan komunikasi
hasil VAM. Pernyataan ASA dirancang untuk mencerminkan penggunaan VAM yang
bermasalah ini. Namun dimensi ini masih bersifat ambigu dan menyisakan banyak ruang
untuk penafsiran. Menelaah dan menyatakan permasalahan ini melalui dimensi InfoQ
membantu menciptakan gambaran pendekatan VAM yang lebih jelas dan sistematis.
Tabel 6.3 Penilaian InfoQ untuk VAM (berdasarkan pernyataan

ASA).
Resolusi data 5
Struktur data 4
Integrasi data 5
Generalisasi 3
Operasionalisasi 2
Komunikasi 3
skor InfoQ 57%
6.4 Menilai pemahaman konsep

Bagian ini membahas tentang InfoQ pendekatan pengukuran penilaian formatif yang digunakan
dalam pendidikan. Penilaian tersebut digunakan selama sesi pelatihan atau pendidikan untuk
berkontribusi pada pembelajaran siswa dan peningkatan materi dan gaya penyampaian.
Sebelum membahas evaluasi InfoQ, kami memperkenalkan topik
Pendidikan 97
penilaian formatif pendidikan dengan review beberapa topik, antara lain sains konsep dan MERLO,
dengan contoh pengajaran literasi kuantitatif. Dalam lampiran bab ini, kami juga menyertakan penerapan
MERLO dalam mata kuliah pengantar statistika.
Mendengarkan percakapan di antara para ahli konten mengungkapkan kecenderungan umum untuk
secara fleksibel memformulasi ulang isu yang sedang didiskusikan dengan memperkenalkan sudut
pandang alternatif, yang sering kali dikodekan dalam representasi alternatif dalam sistem tanda yang
berbeda. Misalnya, percakapan yang berawal dari percakapan lisan mungkin berlanjut hingga mencakup
pernyataan tertulis, gambar, diagram, persamaan, dan lain-lain, yang masing-masing memiliki
komentarnya sendiri-sendiri. Istilah kesetaraan makna menunjukkan kesamaan makna di beberapa
representasi. Ini menandakan kemampuan untuk mentranskode makna dalam transformasi makna yang
polimorfik (satu-ke-banyak) dari situasi konseptual tertentu melalui berbagai representasi di dalam dan di
seluruh sistem tanda. Mendengarkan percakapan di antara para pakar konten juga mengungkapkan tren
umum dalam mengidentifikasi pola asosiasi antara ide-ide penting, hubungan, dan isu-isu mendasar.
Para ahli ini terlibat dalam penemuan kreatif dan eksplorasi hubungan yang tersembunyi, namun
berpotensi dapat bertahan, yang menguji dan memperluas pola asosiasi yang mungkin tidak dapat
diidentifikasi dengan jelas atau mudah. Istilah “pemikiran konseptual” digunakan untuk menggambarkan
cara-cara mempertimbangkan suatu masalah; hal ini membutuhkan kemampuan, pengetahuan, dan
pengalaman untuk mengkomunikasikan ide-ide baru melalui representasi alternatif dari makna bersama
dan untuk menciptakan label leksikal dan prosedur praktis untuk memelihara dan mengembangkannya
lebih lanjut. Pendekatan ini awalnya dikembangkan oleh Uri Shafrir dari University of Toronto di Kanada
dan Masha Etkind dari Ryerson University, juga di Toronto (Shafrir dan Etkind, 2010). Penerapan MERLO
dalam program pendidikan statistik dan literasi kuantitatif diperkenalkan di Etkind et al. (2010). Untuk
penerapan MERLO dan pemetaan konsep pada teknologi baru dan lingkungan e-learning termasuk
MOOC, lihat Shafrir dan Kenett (2015).
Elemen penting dalam pemikiran konseptual adalah penerapan MERLO

penilaian dan pedagogi MERLO. Item MERLO membentuk database multidimensi yang memungkinkan
pemilahan dan pemetaan konsep-konsep penting melalui pernyataan target dari situasi konseptual
tertentu dan pernyataan relevan tentang makna bersama. Setiap simpul MERLO merupakan rangkaian
item, yang ditopang oleh pernyataan target yang menggambarkan situasi konseptual dan mengkodekan
fitur berbeda dari konsep penting dan pernyataan lain yang mungkin—atau mungkin tidak—memiliki
kesetaraan makna dengan target. Secara kolektif, kelompok item ini mengkodekan pemetaan konseptual
lengkap yang mencakup seluruh konten kursus (area konten tertentu dalam suatu disiplin ilmu). Gambar
6.5 menunjukkan template untuk membangun kelompok item yang ditambatkan dalam pernyataan target
tunggal.
Pernyataan dalam empat kuadran templat—Q1, Q2, Q3, dan Q4—diurutkan secara tematis
berdasarkan hubungannya dengan pernyataan target yang mengaitkan node tertentu (kelompok item).
Mereka diklasifikasikan berdasarkan dua kriteria pemilahan: kesamaan permukaan dengan target dan
kesetaraan makna dengan target. Misalnya, jika pernyataan mengandung teks dalam bahasa alami,
maka yang dimaksud dengan “kesamaan permukaan” yang kami maksud adalah kata-kata yang sama/
serupa yang muncul dalam urutan yang sama/serupa seperti dalam pernyataan target, dan yang dimaksud dengan “m
A
98 Pendidikan
k(
Pernyataan sasaran
Ya
Kemiripan permukaan (SS)
Ya TIDAK
Pertanyaan 1 Pertanyaan 2
SS Ya SS TIDAK
Saya iya AKU Ya
TIDAK
SS Ya SS TIDAK
SAYA Tidak AKU TIDAK
Pertanyaan 3 Pertanyaan 4
Gambar 6.5 Templat untuk membuat rangkaian item di MERLO.
kesetaraan” yang kami maksud adalah bahwa mayoritas dalam komunitas yang berbagi subbahasa
(Cabre, 1998; Kittredge, 1983) dengan kosa kata yang terkontrol (misalnya, statistik) kemungkinan
besar akan setuju bahwa makna pernyataan yang diurutkan setara dengan makna dari pernyataan
tersebut. pernyataan sasaran.
Pedagogi MERLO memandu episode pengajaran/pembelajaran berurutan dalam suatu kursus
dengan memusatkan perhatian peserta didik pada makna. Format item MERLO memungkinkan
instruktur untuk menilai pemahaman mendalam tentang konten konseptual dengan memperoleh
respons yang menandakan kemampuan pelajar untuk mengenali dan menghasilkan berbagai
representasi yang memiliki kesetaraan makna. Item MERLO tipikal berisi lima pernyataan yang
tidak diberi tanda: pernyataan target ditambah empat pernyataan tambahan dari kuadran Q2, Q3,
dan, terkadang, juga Q4. Instruksi tugas untuk tes MERLO adalah sebagai berikut: “Setidaknya
dua dari lima pernyataan ini—tetapi mungkin lebih dari dua—memiliki kesetaraanÿ
makna: 1) Tandai semua pernyataan—tetapi hanya pernyataan—yang memiliki kesetaraan
maknanya dan 2) Tuliskan secara singkat konsep yang memandu Anda dalam mengambil
keputusan tersebut.”
Misalnya, item MERLO pada Gambar 6.6 (matematika/fungsi) berisi lima representasi (A–E)
yang mencakup teks, persamaan, tabel, dan diagram; setidaknya dua dari representasi ini memiliki
kesetaraan makna. Dengan demikian, pembelajar pertama-tama diminta untuk melaksanakan
tugas pengenalan dalam situasi dimana pernyataan sasaran tertentu tidak diberi tanda, yaitu ciri-
ciri konsep yang akan dibandingkan tidak dibuat secara eksplisit. Untuk melakukan tugas ini,
pembelajar perlu memulai dengan memecahkan kode dan mengenali arti setiap pernyataan dalam
himpunan. Proses decoding ini biasanya dilakukan dengan menganalisis konsep-konsep yang
mendefinisikan “makna” setiap pernyataan. Analisis yang sukses atas semua pernyataan dalam
lima kumpulan pernyataan (item) memerlukan pemahaman mendalam tentang konten konseptual
dari domain tertentu.
Format item MERLO memerlukan inferensi aturan dan penerapan aturan dengan cara yang mirip
dengan solusi item penalaran analogis. Setelah pelajar menandai pernyataan-pernyataan yang
menurut pendapatnya memiliki kesamaan makna, dia merumuskan dan menjelaskan secara
singkat konsep/ide/kriteria yang ada dalam pikirannya ketika mengambil keputusan tersebut.
Gambar 6.6 Contoh soal MERLO (matematika/ fungsi).

100 Pendidikan
Respons pembelajar terhadap soal MERLO menggabungkan pilihan ganda/respon ganda

(disebut juga pengenalan) dan jawaban singkat (disebut produksi). Selanjutnya, terdapat dua
skor utama untuk setiap item MERLO: skor pengakuan dan skor produksi. Defisit pemahaman
spesifik dapat dilacak sebagai rendahnya skor pengenalan pada kuadran Q2 dan Q3, karena
ketidaksesuaian antara valensi kesamaan permukaan dan kesetaraan makna (Gambar 6.5).
Skor produksi MERLO
soal tes didasarkan pada kejelasan deskripsi pelajar tentang situasi konseptual yang mendasari
soal tersebut dan penyertaan eksplisit dalam deskripsi label leksikal konsep dan hubungan yang
relevan dan penting. Implementasi pedagogi MERLO di kelas mencakup kuis MERLO interaktif,
serta penyertaan item MERLO sebagai bagian dari ulangan tengah semester dan ujian akhir.
Kuis interaktif MERLO adalah prosedur di kelas yang memberikan kesempatan kepada pelajar
untuk mendiskusikan tampilan PowerPoint item MERLO dalam kelompok kecil dan mengirimkan
respons individu ke komputer instruktur melalui pesan teks seluler atau dengan menggunakan
clicker (Sistem Respon Kelas (Classroom Response Systems (Sistem Respon Kelas) CRS)).
Kuis semacam itu memakan waktu 20–30 menit dan mencakup empat langkah berikut: diskusi
kelompok kecil, respons individu, umpan balik mengenai respons produksi, dan umpan balik
mengenai respons pengakuan dan diskusi kelas. Untuk contoh langsung dari diskusi semacam
itu, lihat video berdurasi 1 menit di https://goo.gl/XENVPn.
Penerapan MERLO telah didokumentasikan untuk meningkatkan hasil pembelajaran.

Implementasi tersebut dilakukan pada situasi pembelajaran yang berbeda; lihat Shafrir dan
Etkind (2006).
Untuk mendemonstrasikan laporan yang diperoleh dari penilaian MERLO, kami mengacu
pada hasil kelas matematika di sebuah sekolah menengah di Turin, Italia (Arzarello et al., 2015a,
2015b). Penilaian MERLO dilakukan setelah mengajarkan sepuluh konsep di sekolah menengah.
Persentase, pangkat, transisi, proporsi terbalik, garis, dan keliling dinilai dalam dua kelas paralel.
Pecahan, sudut, fungsi, dan persamaan hanya dinilai pada satu kelas. Statistik dasar dari skor
pengakuan MERLO disajikan pada Tabel 6.4. Pada Gambar 6.7 kami menampilkan plot kotak
skor pengakuan untuk sepuluh konsep yang diajarkan di sebuah sekolah menengah Italia di
Turin. Pemahaman konseptual tentang kekuatan adalah yang terendah, dan sudut pandang,
yang tertinggi. Umpan balik awal ini sebagian besar ditujukan kepada guru dan perancang materi
yang digunakan di kelas. Plot kotak pada Gambar 6.7 mengidentifikasi siswa tertentu dengan
nilai rendah yang mungkin memerlukan perhatian ekstra. Dalam kekuatan kami melihat empat
siswa dengan nilai sempurna; menyelidiki mengapa mereka memahami lebih baik daripada yang
lain dapat menciptakan pengalaman belajar yang bermanfaat bagi seluruh kelompok.
Pada Gambar 6.8 kita melihat bahwa pangkat kurang dipahami dibandingkan kebanyakan
konsep termasuk persentase dan pecahan dan sudut tersebut lebih dipahami daripada fungsi
dan persamaan. Perbandingan tersebut memberikan instruktur wawasan yang berguna untuk
meningkatkan strategi pedagogi dan pengajaran.
Kita melihat bahwa fungsi, persamaan, dan pangkat mempunyai skor yang jauh lebih rendah
dibandingkan sudut, pecahan, garis, transisi, dan perbandingan terbalik. Perbedaan struktural
ini memberikan lebih banyak informasi untuk dimanfaatkan oleh para pakar pendidikan. Analisis
yang disajikan pada Gambar 6.7 dan 6.8 serta Tabel 6.4 dan 6.5 dilakukan dengan Minitab v17.2.
Pendidikan 101
Tabel 6.4 Nilai pengakuan MERLO untuk sepuluh konsep yang diajarkan di sekolah
menengah Italia.
Variabel TN* Berarti Minimum Maksimum
Persentase 42 2 3.500 0,000 5.000

Pecahan 29 0 4.172 2.000 5.000
Kekuatan 49 1 2.531 1.000 5.000
Transisi 43 1 3.930 2.000 5.000
Garis 38 7 4.158 0.000 5.000
Proporsi terbalik 42 0 3.762 1.000 5.000
Lingkar 44 2 3.500 1.000 5.000
Sudut 18 1 4.444 2.000 5.000
Fungsi 24 0 3.167 1.000 5.000
Persamaan 23 1 3.130 2.000 5.000
N* mewakili data yang hilang.
3
ka
nauO ro
R
Lg nEkeM
S
p
0
Garis
Sudut
Kekuatan
Pecahan Transisi
FungsiPersamaan
Persentase
Lingkar
Proporsi terbalik
Gambar 6.7 Plot kotak skor pengakuan MERLO dalam sepuluh topik matematika yang diajarkan
di sekolah menengah Italia. Tanda bintang mewakili outlier di luar tiga standar deviasi rata-rata.
Tukey simultan 95% CI

perbedaan cara
Pangkat – pecahan
Transisi – pecahan
Garis – pecahan
Prop terbalik – pecahan
Keliling – pecahan
Sudut – pecahan
Fungsi – pecahan
Persamaan – pecahan
Persentase – pecahan
Transisi – kekuasaan
Garis – kekuatan
Prop terbalik – kekuatan
Keliling – kekuatan
Sudut – kekuatan
Fungsi – kekuatan
Persamaan – pangkat
Persentase – kekuatan
Garis – transisi
Prop terbalik – transisi
Lingkar – transisi
Sudut – transisi
Fungsi – transisi
Persamaan – transisi
Persentase – transisi
Prop terbalik – garis
Keliling – garis
Sudut – garis
Fungsi – garis
Persamaan – garis
Persentase – garis
Keliling – penyangga terbalik
Sudut – penyangga terbalik
Fungsi – penyangga terbalik
Persamaan – prop terbalik
Persentase – penyangga terbalik
Sudut – keliling
Fungsi – keliling
Persamaan – keliling
Persentase – keliling
Fungsi – sudut
Persamaan – sudut
Persentase – sudut
Persamaan – fungsi
Persentase – fungsi
Persentase – persamaan
–3 –2 –1 0 Jika suatu interval 1 2 3

tidak mengandung nol, maka mean yang bersangkutan berbeda secara signifikan.
Gambar 6.8 Interval kepercayaan untuk perbedaan skor pengakuan MERLO antar topik.
Pendidikan 103
Tabel 6.5 Pengelompokan skor pengakuan MERLO menggunakan

metode Tukey dan tingkat kepercayaan 95%.
Faktor N Berarti Pengelompokan
Sudut 18 4.444 A
Pecahan 29 4.172 AB
Garis 38 4.158 AB
Transisi 43 3.930 ABC
Proporsi terbalik 42 3.762 ABC
Lingkar 44 3.500 SM
Persentase 42 3.500 SM
Fungsi 24 3.167 CD
Persamaan 23 3.130 CD
Kekuatan 49 2.531 D
Berarti tidak berbagi surat berbeda nyata.
Studi kasus 4 Penilaian MERLO
komponen InfoQ
Sasaran (g): Mengevaluasi pemahaman siswa terhadap konsep-konsep yang termasuk

dalam kurikulum pengajaran guna meningkatkan pendekatan pengajaran dan
kemungkinan bahan ajar yang digunakan di kelas.
Data (X): Skor pengakuan MERLO.
Analisis (f): Statistik deskriptif, visualisasi data, perbandingan berpasangan simultan
Tukey, dan pengelompokan faktor.
Utilitas (U): Kesalahan standar minimal dalam perkiraan rata-rata skor MERLO.
Dimensi InfoQ
Di bawah ini kami berikan penilaian InfoQ atas laporan berdasarkan skor MERLO dalam
delapan dimensi InfoQ:
1. Resolusi data: Data turunan MERLO menggabungkan data dari skor pengenalan
sepuluh pernyataan target. Dalam hal ini, resolusi datanya tinggi.
2. Struktur data: Struktur data item MERLO dirancang untuk mencerminkan berbagai
aspek pemahaman konsep menggunakan informasi yang dinyatakan sendiri,
dibandingkan dengan data perilaku yang diamati. Data yang dihasilkan mencakup
pilihan pernyataan (data kategorikal) serta deskripsi konsep yang mendorong
jawaban, seperti yang dilaporkan oleh peserta didik (data teks).
3. Integrasi data: Data dari skor MERLO tidak mencakup data materi pelajaran yang
dipelajari atau individu yang tingkat pemahamannya dinilai.
104 Pendidikan
4. Relevansi temporal: Proses memperoleh pengetahuan tentang pemahaman konseptual

dari data dalam proses pendidikan memerlukan pemutakhiran dalam konteks
evolusi individu yang dinilai.
5. Kronologi data dan tujuan: Kuis MERLO dan pendidikan interaktif menyediakan
sinkronisasi kronologi data dan tujuan yang sangat tinggi.
Guru dapat memperoleh penilaian cepat terhadap kemampuan dan kesulitan siswa,
yang dapat digunakan untuk segera mengarahkan proses pembelajaran ke arah
tertentu.
6. Generalisasi: Hasil kuis atau tugas MERLO dapat membantu guru meningkatkan alat
untuk digunakan di masa mendatang. Dalam hal ini, ada generalisasi terhadap
penawaran kursus dengan topik yang sama di masa depan.
7. Operasionalisasi: Konsep ilmu memberikan kerangka pendidikan dan psikologis yang

komprehensif untuk penilaian MERLO. Informasi yang diperoleh dari MERLO
memberikan perhatian terfokus pada konsep-konsep yang perlu disajikan dengan
lebih baik atau individu yang memerlukan perhatian khusus.
8. Komunikasi: Skor pengakuan MERLO membantu mengkomunikasikan berbagai aspek

pemahaman konsep, termasuk aspek diferensial dari skor rendah terhadap
pernyataan Q2 dan Q3.
Peringkat untuk delapan dimensi ditunjukkan pada Tabel 6.6. Secara keseluruhan, skor
penilaian InfoQ dari data turunan MERLO adalah 68%, skor yang relatif tinggi sehingga
menjadikannya metode yang efektif untuk melakukan kegiatan penilaian formatif.
Dampak penilaian MERLO telah terbukti dalam berbagai aplikasi pendidikan termasuk
pendidikan matematika dan statistik, desain arsitektur, dan kesehatan (Shafrir dan
Kenett, 2015).
Tabel 6.6 Penilaian InfoQ untuk MERLO.
Resolusi data 4
Struktur data 3
Integrasi data 3
Generalisasi 4
Operasionalisasi 4
Komunikasi 4
skor InfoQ 68%
Pendidikan 105
Tabel 6.7 Penilaian dimensi InfoQ dari contoh-contoh dari pendidikan.
Dimensi InfoQ (1) Laporan (2) Pendapatan (3) VAM (4)

PETA siswa penyataan MERLO
Resolusi data 2 4 5 4
Struktur data 2 4 4 3
Integrasi data 2 5 5 3
Relevansi temporal 4 3 5 4
Kronologi data dan 4 4 2 4
tujuan
Generalisasi 2 2 3 4
Operasionalisasi 2 2 2 4
Komunikasi 2 2 4
Gunakan skor kasus 33 49 3 57 68
6.5 Ringkasan
Bab ini menyajikan empat studi kasus terkait pendidikan. Tabel 6.7 menyajikan penilaian InfoQ dari
masing-masing empat studi kasus dengan mengkualifikasikan skala dari 1 (“sangat buruk”) hingga 5
(“sangat baik”) untuk delapan dimensi InfoQ studi kasus. Penilaian ini bersifat subyektif dan
berdasarkan diskusi yang kami lakukan dengan rekan-rekan. Sebagai ukuran ringkasan, kami
menggunakan skor InfoQ pada skala 0–100. Dari Tabel 6.7 kita melihat bahwa kasus penggunaan
menerima skor InfoQ dari 33 hingga 68%. Penilaian ini juga dapat menunjukkan dimensi dimana
perbaikan terfokus akan meningkatkan tingkat InfoQ dari analisis dan laporan terkait.
Lampiran: Implementasi MERLO untuk

mata kuliah pengantar statistika
Motivasi dari penelitian ini adalah kesadaran bahwa sebagian besar pengenalan kelas statistik
(umumnya disebut “Statistik 101”) terbukti memiliki efektivitas yang sangat rendah. Dalam beberapa
kasus, paparan pertama siswa terhadap statistik menimbulkan bias dan prasangka negatif serta
berdampak buruk pada karier seumur hidup yang mengakibatkan hilangnya peluang pribadi dan
profesional. Kursus pengantar ini biasanya tidak mempersiapkan siswa untuk menerapkan metode
statistik dan pemikiran statistik di tempat kerja atau kehidupan pribadi mereka. Di sini, kami menerapkan
alat metodologi sains konsep dan fokus pada kualitas informasi yang dihasilkan melalui analisis
statistik penilaian MERLO sebagai intervensi perbaikan yang memperkuat peran konstruktif dan penting
statistik dan literasi kuantitatif dalam kehidupan dan pendidikan modern.
Mengajarkan metode statistik adalah tugas yang menantang. Mengajarkan konsep statistik adalah
tugas yang lebih menantang yang memerlukan keterampilan, pengalaman, dan teknik yang memadai.
Untuk mendemonstrasikan penggunaan MERLO dalam pendidikan statistik, kami mengacu pada
106 Pendidikan
Contoh 3.33, halaman 89, dalam bab 3 tentang model probabilitas dan fungsi distribusi dari Kenett
dkk. (2014):
Mesin penyisipan dirancang untuk memasukkan komponen ke dalam papan sirkuit

cetak komputer. Setiap komponen yang dimasukkan ke papan dipindai secara optik.
Penyisipan bebas dari kesalahan atau kesalahannya diklasifikasikan ke dalam dua
kategori utama berikut: penyisipan yang salah (kabel rusak, bantalan terlepas, dll.)
atau komponen salah. Jadi, kita mempunyai tiga kategori umum.
Misalkan J1= Jumlah komponen yang bebas kesalahan, J2= Jumlah kesalahan
penyisipan dan J3= Jumlah komponen yang salah. Probabilitas suatu penyisipan
termasuk dalam salah satu kategori ini adalah p1=0,995, p2=0,001, p3=0,004.
Tingkat penyisipan mesin ditetapkan pada 3500 komponen per jam.
Pertanyaan: Berapa probabilitas bahwa selama satu jam pengoperasian tidak akan ada lebih dari
20 kesalahan penyisipan?
Solusi tipikal i: Pr(J2+J3 ÿ 20)=Binomial (20;3500,0,005)=0,7699.
Pernyataan target MERLO untuk konsep dasar ini dapat dinyatakan sebagai peristiwa Bernoulli
independen yang dijumlahkan sebagai variabel acak binomial, dengan sampel item MERLO menjadi
Q1: Probabilitas tidak lebih dari 20 kesalahan penyisipan dalam satu jam berasal dari distribusi
binomial dengan n=3500 dan p=0,005.
Q2: Pr(J2+J3 ÿ20)=binomial (20;3500,0,005)=0,7699.
Q3: Untuk menghitung probabilitas tidak lebih dari 20 kesalahan penyisipan dalam satu jam,
kami berasumsi 3480 penyisipan dan p=0,005.
Q4: Untuk menghitung probabilitas tidak lebih dari 20 kesalahan penyisipan dalam satu jam,
kami mengasumsikan 3480 penyisipan dan distribusi hipergeometri.
Sebagai contoh lain pertimbangkan pernyataan target: Nilai p adalah probabilitas untuk
mendapatkan hasil observasi atau hasil yang lebih ekstrim, jika hipotesis nol benar, dan kita dapat
mempunyai representasi alternatif berikut:
Q2: Pertimbangkan hipotesis nol bahwa sistem beroperasi seperti yang dijelaskan sebelumnya,
jika kita menolak hipotesis ini ketika kita mendapatkan lebih dari 20 kesalahan penyisipan,
p=1 ÿ Pr(J2+J3 ÿ 20)=0,23.
Q3: Nilai p adalah probabilitas hipotesis nol benar.
Q4: Nilai p yang besar menunjukkan bahwa hipotesis alternatif benar.
Seperti disebutkan, mempersiapkan item MERLO melibatkan perancangan pernyataan Q2–Q4

dan pembuatan set yang terdiri dari kombinasi empat pernyataan tersebut di samping pernyataan
target untuk evaluasi oleh siswa. Instruksi tes untuk soal MERLO mengharuskan pelajar untuk
mengenali dan menandai semua kecuali hanya pernyataan yang memiliki kesamaan makna
(setidaknya 2 dari 5 pernyataan dalam soal MERLO). Selain itu, siswa diminta untuk menjelaskan
secara singkat konsep yang ada dalam pikirannya saat mengambil keputusan tersebut. Jadi,
respon pelajar terhadap item MERLO
Pendidikan 107
menggabungkan pengenalan, yaitu pilihan ganda/respon ganda, dan produksi, yaitu

jawaban singkat.
Seperti disebutkan, item MERLO dinilai dengan menghitung jumlah pernyataan yang
benar (bertanda atau tidak). Ketika serangkaian item MERLO diberikan kepada siswa,
skor ini mencerminkan tingkat pemahaman individu. Selain itu, skor berdasarkan konsep
memberikan umpan balik kepada instruktur mengenai topik spesifik yang dibahas dalam
kursus. Defisit pemahaman spesifik dapat dilacak sebagai rendahnya skor pengenalan
pada kuadran Q2 dan Q3, karena ketidaksesuaian antara valensi kesamaan permukaan
dan kesetaraan makna. Skor yang rendah pada Q2 menunjukkan bahwa pembelajar
gagal memasukkan pernyataan-pernyataan tertentu ke dalam “batas makna” konsep yang
memiliki kesetaraan makna (namun tidak memiliki kesamaan permukaan) dengan target;
skor Q2 yang rendah menandakan pemahaman yang berlebihan (terlalu eksklusif) tentang
makna yang mendasari konsep tersebut. Skor yang rendah pada Q3 menunjukkan bahwa
pembelajar gagal mengecualikan pernyataan-pernyataan tertentu dari “batas makna”
konsep yang tidak memiliki kesetaraan makna (namun memiliki kesamaan permukaan)
dengan target; skor Q3 yang lebih rendah ini menandakan pemahaman yang terlalu
rendah (terlalu inklusif) terhadap makna konsep tersebut. Pendekatan pedagogi ini sangat
berbeda dengan skenario kelas biasa dimana siswa diberikan latihan (seperti sebelumnya)
dan diminta untuk menyelesaikannya secara individu.
Referensi
Andrabi, T., Das, J., Khwaja, A. dan Zajonc, T. (2009) Apakah Perkiraan Nilai Tambah Menambah Nilai?
Akuntansi Dinamika Pembelajaran, Makalah Penelitian Fakultas HKS Seri RWP09ÿ034, Sekolah
Pemerintahan John F. Kennedy, Universitas Harvard, http://dash.
harvard.edu/handle/1/4435671 (diakses 30 April 2016).
Arzarello, F., Kenett, RS, Robutti, O., Shafrir, U., Prodromou, T. dan Carante, P. (2015a)
Mengajar dan Menilai dengan Alat Metodologi Baru (MERLO): Pedagogi Baru? Dalam Konferensi
Internasional IMA tentang Hambatan dan Pendukung Pembelajaran Matematika: Meningkatkan
Pembelajaran dan Pengajaran untuk Semua Pembelajar, Hersh, MA dan Kotecha, M. (editor), Glasgow, Inggris.
Arzarello, F., Carante, P., Kenett, RS, Robutti, O. dan Trinchero, G. (2015b) Proyek MERLO: Alat Baru
untuk Pendidikan, IES 2015—Metode Statistik untuk Penilaian Layanan, Bari, Italia.
ASA, American Statistical Association (2014) Pernyataan ASA tentang Model Nilai Tambah untuk
Pendidikan. https://www.amstat.org/policy/pdfs/ASA_VAM_Statement.pdf (diakses 30 April 2016).
Ballou, D., Sanders, W. dan Wright, P. (2004) Mengontrol latar belakang siswa dalam nilai-
penilaian tambahan terhadap guru. Jurnal Statistik Pendidikan dan Perilaku, 29, hlm.37–65.
Betebenner, DW (2009) Pertumbuhan siswa yang mengacu pada norma dan kriteria. Pendidikan
Pengukuran: Isu dan Praktek, 28 (4), hlm.42–51.
Betebenner, DW (2011) Tinjauan Teknis Metodologi Persentil Pertumbuhan Siswa: Persentil Pertumbuhan
Siswa dan Proyeksi/Lintasan Pertumbuhan Persentil. http://www.
nj.gov/education/njsmart/kinerja/SGP_Technical_Overview.pdf (diakses 30 April 2016).
108 Pendidikan
Cabre, MT (1998) Terminologi: Teori, Metode, dan Aplikasi. Benyamin, Amsterdam.

Etkind, M., Kenett, RS dan Shafrir, U. (2010) Manajemen Pembelajaran Berbasis Bukti: Diagnosis dan
Perkembangan Berpikir Konseptual dengan Objek Pembelajaran Ekivalensi Reusable (MERLO). Dalam
Konferensi Internasional Pengajaran Statistik (ICOTS) ke-8, Ljubljana, Slovenia.
Goodman, D. dan Hambleton, R. (2004) Laporan nilai ujian siswa dan panduan interpretatif: tinjauan
praktik saat ini dan saran untuk penelitian masa depan. Pengukuran Terapan dalam Pendidikan, 17(2),
hlm.145–220.
Karl, A., Yang, Y. dan Lohr, S. (2013) Estimasi kemungkinan maksimum yang efisien dari model campuran
linier keanggotaan berganda, dengan penerapan pada penilaian nilai tambah pendidikan. Statistik
Komputasi dan Analisis Data, 59, hlm.13–27.
Karl, A., Yang, Y. dan Lohr, S. (2014a) Perhitungan estimasi kemungkinan maksimum untuk model
campuran linier umum multirespons dengan efek acak berkorelasi dan tidak bersarang.
Statistik Komputasi dan Analisis Data, 73, hlm.146–162.
Karl, A., Yang, Y. dan Lohr, S. (2014b) Model efek acak berkorelasi untuk data hilang yang tidak dapat
diabaikan dalam penilaian nilai tambah efek guru. Jurnal Statistik Pendidikan dan Perilaku, 38, hlm.577–
603.
Kenett, RS, Zacks, S. dan Amberti, D. (2014) Statistik Industri Modern: Dengan Penerapan
Menggunakan R, MINITAB dan JMP edisi ke-2. John Wiley & Sons, Sussex.
Kittredge, RI (1983) Pemrosesan Semantik Teks dalam Subbahasa Terbatas, dalam Linguistik Komputasi,
Cercone, NJ (editor), Pergamon Press, Oxford, Inggris, hlm.45–58.
Lohr, S. (2014) Manik-manik merah dan pengetahuan mendalam: deming dan kualitas pendidikan, Deming
kuliah, Pertemuan Statistik Gabungan, Boston, MA.
Mariano, L., McCaffrey, D. dan Lockwood, J. (2010) Model efek guru dari data longitudinal tanpa
mengasumsikan penskalaan vertikal. Jurnal Statistik Pendidikan dan Perilaku, 35, hlm.253–279.
McCaffrey, DF, Lockwood, JR, Koretz, DM dan Hamiltion, LS (2003) Mengevaluasi Nilai-
Model Tambahan untuk Akuntabilitas Guru. Perusahaan RAND, Santa Monica.
McCaffrey, D., Lockwood, JR, Louis, T. dan Hamilton, L. (2004) Model model nilai tambah efek guru. Jurnal
Statistik Pendidikan dan Perilaku, 29(1), hlm.67–101.
Shafrir, U. dan Etkind, M. (2006) eLearning untuk kedalaman web semantik. Jurnal Teknologi Pendidikan
Inggris, 37(3), hlm.425–444.
Shafrir, U. dan Etkind, M. (2010) Ilmu Konsep: Isi dan Struktur Pola Berlabel
dalam Pengalaman Manusia. Versi 31.0.
Shafrir, U. dan Kenett, RS (2015) Analisis Pembelajaran MERLO Berbasis Bukti Sains Konsep, dalam
Buku Pegangan Teori dan Desain Pembelajaran Terapan dalam Pendidikan Modern, IGI Global,
Hershey, PA.
Walsh, E. dan Isenberg, E. (2015) Bagaimana nilai tambah dibandingkan dengan persentase pertumbuhan siswa
ubin? Statistika dan Kebijakan Publik, 10.1080/2330443X.2015.1034390
Survei pelanggan
7.1 Pendahuluan
Studi kepuasan pelanggan berhubungan dengan pelanggan, konsumen, dan kepuasan
pengguna dari suatu produk atau layanan. Topik ini awalnya dikembangkan dalam teori dan
aplikasi pemasaran. BusinessDictionary (www.businessdictionary.com) mendefinisikan
kepuasan pelanggan sebagai “tingkat kepuasan yang diberikan oleh barang atau jasa suatu
perusahaan yang diukur dengan jumlah pelanggan tetap.” Menurut definisi ini, kepuasan
pelanggan nampaknya merupakan kuantitas yang obyektif dan mudah diukur.
Namun, berbeda dengan variabel seperti jenis produk yang dibeli atau lokasi geografis,
kepuasan pelanggan tidak serta merta diamati secara langsung. Biasanya, dalam konteks
ilmu sosial, analisis tindakan tersebut dilakukan secara tidak langsung dengan menggunakan
variabel proksi. Variabel yang tidak teramati disebut sebagai variabel laten, sedangkan
variabel proksi disebut dengan variabel teramati. Dalam banyak kasus, variabel laten
sangatlah kompleks dan pilihan variabel proksi yang sesuai tidak serta merta terlihat jelas.
Misalnya, untuk menilai kepuasan pelanggan suatu maskapai penerbangan, perlu
diidentifikasi atribut yang menjadi ciri jenis layanan tersebut. Kerangka umum untuk menilai
maskapai penerbangan mencakup atribut seperti layanan di dalam pesawat, ketepatan
waktu, ketanggapan personel, kursi pesawat, dan karakteristik layanan nyata lainnya.
Secara umum, beberapa atribut bersifat objektif, terkait dengan karakteristik teknis layanan
yang spesifik, dan atribut lainnya bersifat subjektif, berkaitan dengan perilaku, perasaan,
dan manfaat psikologis. Pada akhirnya, untuk merancang kuesioner survei, serangkaian
variabel yang diamati harus diidentifikasi.
Dalam praktiknya, banyak survei kepuasan pelanggan yang dilakukan perusahaan
dianalisis dengan cara yang sangat sederhana, tanpa menggunakan model atau metode statistik.

110 Survei pelanggan
Laporan umum mencakup statistik deskriptif dan tampilan grafis dasar. Dalam bab ini kami fokus pada
kualitas informasi survei pelanggan. Secara khusus, kami menunjukkan bagaimana InfoQ survei dapat
meningkat dengan menggabungkan analisis dasar dengan alat yang lebih canggih, sehingga
memberikan wawasan tentang pola yang tidak jelas dan hubungan antar variabel survei. Secara
khusus, kami menggunakan kerangka InfoQ untuk membandingkan tujuh metode analisis (f) yang
populer dalam analisis survei pelanggan. Kami berasumsi dalam semua kasus bahwa data (X) adalah
data kuesioner survei yang khas dan kegunaannya (U) adalah untuk menginformasikan perusahaan
atau organisasi pengelola mengenai kepuasan pelanggannya untuk meningkatkan kepuasan pelanggan
dan/atau mengurangi ketidakpuasan pelanggan. Di Bagian 7.3 kami menjelaskan dan mempertimbangkan
berbagai tujuan (g) yang ingin dicapai oleh survei pelanggan.
7.2 Desain survei pelanggan

Survei pelanggan biasanya didasarkan pada pengisian kuesioner yang dilakukan sendiri.
Survei yang dilakukan sendiri menggunakan pertanyaan terstruktur untuk memetakan persepsi dan
tingkat kepuasan, menjadi data yang dapat dianalisis secara statistik. Beberapa survei menargetkan
semua pelanggan lama dan/atau saat ini; mereka sebenarnya adalah sejenis sensus. Dalam survei
berbasis peristiwa, hanya pelanggan yang diidentifikasi berdasarkan peristiwa tertentu, seperti panggilan
ke pusat layanan atau pembelian sistem baru, yang dimasukkan dalam kelompok yang disurvei. Di
negara lain, sampel diambil dan hanya pelanggan dalam sampel yang menerima kuesioner. Dalam
pengambilan sampel, beberapa skema pengambilan sampel dapat diterapkan. Mulai dari sampel
probabilitas, seperti pengambilan sampel klaster, bertingkat, sistematik, atau acak sederhana, hingga
sampel non-probabilitas, seperti pengambilan sampel kuota, kemudahan, penilaian, atau pengambilan sampel bola salju.
Proses survei terdiri dari empat tahap utama: perencanaan, pengumpulan, analisis, dan penyajian.
Survei modern dilakukan melalui berbagai macam teknik termasuk wawancara telepon, kuesioner
kertas yang dilaporkan sendiri, kuesioner email, survei internet, dan survei online.
survei berbasis, survei berbasis SMS, wawancara tatap muka, konferensi video, dan banyak lagi.
Dalam mengevaluasi hasil survei kepuasan pelanggan, tiga pertanyaan latar belakang harus diperiksa:
1. Apakah kuesioner dirancang dengan baik?
2. Apakah survei telah dilakukan dengan benar?
3. Apakah data telah dianalisis dengan baik?
Menanggapi pertanyaan-pertanyaan ini memerlukan pemahaman tentang proses survei, konteks

organisasi, dan metode statistik. Survei kepuasan pelanggan dapat menjadi bagian dari pendekatan
terpadu secara keseluruhan. Model terintegrasi mendapatkan banyak perhatian baik dari peneliti
maupun praktisi (Rucci et al., 1998; MacDonald et al., 2003; Godfrey dan Kenett, 2007). Kenett (2004)
menyajikan model terintegrasi generik yang telah diterapkan di berbagai industri dan bisnis. Blok
penyusun dasar model ini adalah kumpulan data yang mewakili suara pelanggan (VoC),
Survei pelanggan 111
suara proses (VoP), dan suara tenaga kerja (VoW). Integrasi tersebut, melalui jaringan Bayesian (BN) atau
metode statistik lainnya, menyediakan hubungan antara variabel-variabel yang diukur dalam tiga dimensi ini.
Tautan ini dapat menunjukkan, misalnya, sejauh mana karyawan yang puas berarti pelanggan yang bahagia dan
peningkatan kinerja keuangan. Integrasi di Sears Roebuck menunjukkan bahwa peningkatan kepuasan karyawan
sebesar 5 poin (dari 100) menghasilkan peningkatan kepuasan pelanggan sebesar 1,5 unit (dari 5), yang
diperkirakan menghasilkan peningkatan pertumbuhan pendapatan sebesar 0,5% (Rucci dkk., 1998).
Dalam menangani kepuasan pelanggan, ada beberapa pernyataan yang biasa disampaikan mengenai
dampak peningkatan loyalitas dan kepuasan pelanggan. Hal ini didasarkan pada pengalaman praktis dan
penelitian (lihat, misalnya, http://tarp.com/home.html). Beberapa pernyataan yang lebih populer adalah sebagai
berikut:
1. Pertumbuhan dari retensi
• Pelanggan yang sangat puas mempunyai kemungkinan enam kali lebih besar untuk membeli kembali produk Anda.
lebih baik daripada pelanggan yang hanya puas.
• Pelanggan setia membelanjakan 5–6% lebih banyak anggaran belanjanya dibandingkan pelanggan
yang tidak setia.
2. Peningkatan keuntungan dari retensi
• Peningkatan retensi pelanggan sebesar 5% saja dapat meningkatkan laba sebesar 25–85%.
• Pelanggan setia tidak begitu sensitif terhadap harga.
3. Mengurangi biaya perolehan
• Mendapatkan pelanggan memerlukan biaya lima hingga tujuh kali lebih besar dibandingkan mempertahankan satu pelanggan.
• Pelanggan yang puas, rata-rata, menceritakan kepada lima orang lainnya tentang barang mereka
pengalaman.
4. Biaya pembelotan
• Rata-rata pelanggan yang mempunyai masalah akhirnya menceritakan kepada sembilan orang lainnya
tentang itu.
• 91% pelanggan yang tidak puas tidak akan pernah membeli lagi dari Anda.
Survei kepuasan pelanggan tahunan (ACSS) dilakukan setiap tahun oleh perusahaan, organisasi, dan
lembaga pemerintah untuk:
• Mengidentifikasi pendorong utama kepuasan dan memprioritaskan tindakan
• Bandingkan data dari waktu ke waktu untuk mengidentifikasi pola pengalaman pelanggan
• Menyebarluaskan hasilnya ke khalayak yang tepat di dalam perusahaan untuk mendorong perubahan
dalam organisasi
Tabel 7.1 Hasil utama dalam proyek ACSS berbasis Internet.
Kategori Hasil kerja
Membangun infrastruktur • Evaluasi kuesioner (jika relevan)

ÿ Pemeriksaan efektivitas kuesioner tahun lalu
• Desain dan pengembangan kuesioner
ÿ (Re)desain kuesioner
ÿ Menyiapkan situs survei
ÿ Pengujian dan validasi
• Manajemen daftar kontak
Pengumpulan data • Pengumpulan data (survei elektronik dan telepon)
• Tanggapan terbuka
Analisis data • Fase pembersihan data
• Pelaporan dan analisis
ÿ Laporan lengkap
– Wawasan, analisis tren
ÿ Ringkasan eksekutif
ÿ Data mentah untuk alat penelusuran
Dukungan dan pemeliharaan • Manajer proyek
(personel) • Dukungan teknis untuk:
ÿ Memantau data secara real time (selama survei)
ÿ Menyelesaikan masalah pengoperasian kuesioner oleh
pelanggan (melalui email atau telepon)
• Melakukan survei telepon (jika relevan)
• Manajemen mutu—sebuah fungsi yang bertanggung jawab
untuk KPI dan metrik kualitas
Rencana ACSS berbasis Internet, dan langkah/hasilnya, disajikan pada Tabel 7.1. Perjanjian
tingkat layanan teknis (SLA) yang umum, ketika melakukan ACSS berbasis Internet, disajikan pada
Tabel 7.2.
ACSS biasanya merupakan bagian dari rencana yang lebih besar yang dirancang dan disetujui
pada awal tahun keuangan. Pada saat itu, keputusan yang mempunyai dampak strategis dan
anggaran dibuat.
Jika tahun anggaran dimulai pada bulan Januari, permulaan siklus ACSS biasanya direncanakan
pada bulan Agustus. Dalam konteks ini, kerangka umum pelaksanaan ACSS terdiri dari kegiatan-
kegiatan yang tercantum pada Tabel 7.3.
Untuk menjalankan siklus tahunan ini, diperlukan komite pengarah yang efektif dan metodologi
perbaikan. Untuk rincian tentang kemampuan organisasi dalam konteks organisasi pengembangan
sistem dan perangkat lunak, lihat Kenett dan Baker (2010).
Tabel 7.1, 7.2, dan 7.3 menggambarkan rencana tahunan ACSS dan memberikan gambaran
khas ACSS, dalam keseluruhan inisiatif strategis untuk mencapai keunggulan operasional. Ketika
menerapkan pendekatan terpadu, inisiatif ACSS dilengkapi
Tabel 7.2 Perjanjian tingkat layanan untuk survei kepuasan pelanggan berbasis Internet.
Subjek Metrik
SLA untuk pemeliharaan • Waktu yang dibutuhkan untuk melakukan perbaikan
(MTTR)—3 jam (jam kerja, pada

Pemeliharaan mencakup insiden dan masalah seperti:
hari kerja)
1. Pelanggan tidak dapat mengakses situs survei • Rata-rata waktu antar kegagalan
2. Pelanggan tidak dapat memasukkan jawaban tertentu
(MTBF)—tiga hari
3. Survei tidak responsif
4. Waktu respons buruk • Waktu rata-rata antara waktu kritis
5. Laporan kemajuan tidak dapat diakses kegagalan (MTBCF)—dua minggu
SLA untuk ketersediaan sistem • % ketersediaan—95%
• Waktu hingga halaman web dimuat

(awalnya)—empat detik
SLA untuk kinerja • Waktu hingga halaman disegarkan
berdasarkan
jawaban pengguna—dua detik.
Tabel 7.3 Rencana kegiatan ACSS pada umumnya.
Bulan Aktivitas
Agustus Rencana dan desain survei ACSS

September Peluncuran survei ACSS
Oktober Eksekusi survei ACSS
November Analisis dan komunikasi data survei ACSS
Desember Proses anggaran tahunan organisasi
Januari Peluncuran inisiatif strategis tahunan
Februari Keputusan mengenai area perbaikan tahunan dan KPI
Berbaris Peluncuran inisiatif perbaikan
April Eksekusi perbaikan
Mungkin Eksekusi perbaikan
Juni Eksekusi perbaikan
Juli Tinjauan kemajuan inisiatif perbaikan
oleh inisiatif lain seperti survei karyawan, dasbor yang mencerminkan VoP, dan survei berdasarkan
peristiwa yang dipicu oleh peristiwa tertentu. Contoh peristiwa yang diikuti dengan kuesioner survei
kepuasan mencakup panggilan ke pusat layanan atau pembelian produk baru. Di bagian berikut,
kami menjelaskan masing-masing dari empat komponen InfoQ dalam analisis survei pelanggan.
7.3 Komponen InfoQ

7.3.1 Sasaran (g) dalam survei pelanggan
Ada berbagai tujuan yang ingin dicapai oleh perusahaan dan organisasi dengan survei kepuasan
pelanggan. Contoh tujuan survei kepuasan pelanggan meliputi:
• Memutuskan di mana akan meluncurkan inisiatif perbaikan
• Mengidentifikasi faktor pendorong kepuasan secara keseluruhan
• Mendeteksi tren positif atau negatif
• Menyoroti praktik terbaik dengan membandingkan produk atau saluran pemasaran
• Menyempurnakan kuesioner
• Menetapkan tujuan perbaikan
• Merancang kartu skor berimbang dengan menggunakan masukan pelanggan
• Menentukan arti dari skala penilaian
• Mengkomunikasikan hasil secara efektif menggunakan grafik atau lainnya
7.3.2 Utilitas (U) dalam survei pelanggan

Ukuran keberhasilan langsung berkaitan dengan peningkatan kepuasan pelanggan dan
penurunan ketidakpuasan pelanggan. Fungsi utilitas terkait terdiri dari indeks loyalitas pelanggan
seperti kesediaan untuk merekomendasikan atau niat membeli kembali. Manfaat utamanya
adalah peningkatan hasil bisnis.
7.3.3 Data (X) dalam survei pelanggan

Dalam survei kepuasan pelanggan, individu sasaran diminta untuk mengisi kuesioner, yang
mungkin berisi antara 5 dan 100 pertanyaan (Salini dan Kenett, 2009; Kenett dan Salini, 2012).
Mari kita periksa ACSS yang ditujukan pada pelanggan produk elektronik yang didistribusikan ke
seluruh dunia (kita menyebutnya perusahaan ABC). Survei ini bertujuan untuk menilai tingkat
kepuasan pelanggan dari berbagai fitur produk dan layanan terkait. Kuesioner terdiri dari 81
pertanyaan termasuk demografi dan kepuasan perusahaan secara keseluruhan. Keluaran
penting dari survei ini adalah untuk mengetahui aspek produk dan layanan mana yang
memengaruhi kepuasan secara keseluruhan, tingkat rekomendasi, dan niat membeli kembali.
Topik yang dibahas dalam survei ini meliputi peralatan, dukungan penjualan, dukungan teknis,
pelatihan, portal pelanggan, dukungan administratif, syarat dan ketentuan, serta perencanaan
lokasi dan pemasangan. Variabel demografi yang dapat membantu membuat profil respons
pelanggan mencakup negara, jenis industri, dan usia peralatan.
“Kuesioner” yang dibuat sendiri memberikan penilaian menyeluruh terhadap kepuasan

pelanggan dari produk atau layanan tertentu. Pengukuran kepuasan pelanggan yang berbeda
digunakan untuk mengoperasionalkan konstruksi “kepuasan pelanggan.” Variabel respons
(terikat) dalam model kepuasan pelanggan biasanya dinyatakan dalam skala yang ditetapkan,
dengan skor konvensional yang sesuai seperti skala 5 poin atau 7 poin. Namun, skala ini juga
dapat bersifat dikotomis atau dibuat dengan merangkum penilaian dalam dua kategori. Skema
satu membagi pelanggan yang menjawab “5” pada skala 5 poin dari yang lain. Persentasenya
menghasilkan indeks kepuasan berlabel TOP5. Di sisi lain skala, pelanggan yang menjawab
“1” atau “2” dikumpulkan untuk membuat indeks berlabel BOT12. Beberapa organisasi
menggabungkan label “puas” dan “sangat puas” yang menghasilkan indeks dengan nilai lebih
tinggi namun resolusinya jauh lebih rendah. Frekuensi TOP5 yang tinggi dari produk atau
layanan tertentu merupakan contoh praktik terbaik yang perlu ditiru, sedangkan frekuensi BOT12
yang tinggi memberikan peluang untuk perbaikan.
7.3.4 Analisis ( f ): Model analisis data survei pelanggan

Analisis survei pelanggan didasarkan pada serangkaian model seperti model regresi, model
komposisi, dan model struktural (lihat Zanella, 2001; Kenett dan Salini, 2012; VivesÿMestres
dkk., 2016). Analisis komprehensif tentang kesalahan pengambilan sampel dalam konteks
pengambilan sampel probabilitas disajikan oleh Chambers (2015) dalam volume yang telah
diedit mengenai teori dan metode untuk menilai kualitas dalam survei bisnis. Selain kesalahan
pengambilan sampel, volume ini juga membahas berbagai kesalahan nonsampling, yang
mencakup koherensi dan komparabilitas statistik. Pembaca dirujuk ke volume ini sebagai contoh
penilaian kualitas untuk survei bisnis tahunan dan bulanan dari Swedia dan Inggris. Beberapa
model untuk menganalisis data survei pelanggan disajikan pada bagian selanjutnya.
7.4 Model analisis data survei pelanggan

7.4.1 Model regresi
Kami menyajikan tiga pendekatan berbasis regresi yang populer untuk memodelkan data survei
kepuasan pelanggan:
A. Model regresi linier biasa. Variabel penjelas menggambarkan dimensi yang berkaitan
dengan aspek spesifik suatu produk atau layanan, misalnya usia peralatan atau lokasi
geografis. Model regresi berlaku untuk data yang dapat dinyatakan pada skala penilaian
terurut konvensional. Data tersebut dapat merujuk pada karakteristik pribadi responden,
seperti usia, atau jumlah pembelian atau jumlah total pengeluaran pada periode
sebelumnya yang diukur dalam skala berkelanjutan.
Teknik analisis statistik yang umum untuk data tersebut menerapkan kriteria kuadrat
terkecil untuk memperoleh perkiraan parameter yang tidak diketahui dan metode terkait
untuk memeriksa kesesuaian.
B. Model dan teknik regresi memperhitungkan karakter ordinal dari respon dan variabel penjelas.
Dalam konteks ini, analisis regresi monotonik memegang peranan penting (lihat Kruskal
(1965)). Dalam Zanella (1998), model regresi nonlinier dengan variabel laten disajikan untuk
memperoleh representasi skala rasio dari respon.
C. Model regresi logistik. Jika seseorang dapat mengasumsikan distribusi probabilitas untuk
respons yang menggambarkan kepuasan secara keseluruhan, maka nilai yang diharapkan
dari respons tersebut dapat disajikan, dengan pengondisian pada situasi berbeda yang
dijelaskan oleh nilai-nilai variabel penjelas. Pendekatan regresi logistik memungkinkan kita
untuk mempertimbangkan fakta bahwa nilai variabel respons berada pada skala ordinal,
karena mengacu pada distribusi probabilitas respons secara lebih langsung.
7.4.2 Model struktural

Pendekatan pemodelan alternatif adalah model persamaan struktural (SEM), juga dikenal sebagai
model jalur, seperti model berbasis kovarians (model struktural linier dengan variabel laten (LISREL))
atau model berbasis komposit (model jalur kuadrat terkecil parsial (PLSPM)) . Model seperti ini
memungkinkan kita untuk membangun hubungan antara variabel laten, yang terkait dengan dimensi
yang menggambarkan kepuasan pelanggan (Bollen, 1989; Boari dan Cantaluppi, 2011). Model
persamaan struktural terdiri dari dua sistem persamaan: persamaan struktural dan model
pengukuran.
Baumgartner dan Homburg (1996) memberikan komentar dan rekomendasi berdasarkan kasus
penerapan model struktural yang lengkap dalam pemasaran. Kegunaan model ditentukan dengan
memeriksa kecukupan model, melalui indikator seperti statistik chi-kuadrat, sisa akar rata-rata
kuadrat, indeks kesesuaian, perkiraan koefisien persamaan pengukuran, dan seterusnya. Metode
LISREL digunakan untuk menghitung Indeks Kepuasan Pelanggan Amerika (ACSI) (Anderson dan
Fornell, 2000; Kenett dan Salini, 2012) dan juga Indeks Kepuasan Pelanggan Eropa (ECSI). Masalah
utama dari pendekatan yang dijelaskan sebelumnya adalah bahwa skala metrik diasumsikan untuk
variabel, sedangkan dalam praktiknya diukur dengan skala ordinal. Beberapa transformasi untuk
mendapatkan skala metrik dapat digunakan dengan hati-hati.
7.4.3 KUALITAS LAYANAN

Dalam karya mendasar Parasumaran et al. (1985, 1988, 1991), model SERVQUAL yang terkenal
dikembangkan untuk memetakan kesenjangan antara tingkat kepuasan yang dirasakan dan yang
diharapkan (lihat Gambar 7.1). Dalam model ini kami mempertimbangkan lima kesenjangan:
• Kesenjangan 1: Harapan pelanggan versus persepsi manajemen mengenai apa yang pelanggan
inginkan
• Kesenjangan 2: Persepsi manajemen versus spesifikasi kualitas layanan

Pelanggan
Dari mulut ke mulut Pribadi Masa lalu
komunikasi kebutuhan
pengalaman
Mengharapkan
melayani
Kesenjangan 5
Dirasakan
melayani
Pemberi
Melayani Luar
pengiriman komunikasi
Kesenjangan 4
Kesenjangan 1 kepada pelanggan
Kesenjangan 3
Kualitas layanan
Kesenjangan 2
spesifikasi
Persepsi manajemen
harapan pelanggan
Gambar 7.1 Model kesenjangan SERVQUAL. Sumber: Parasuraman dkk. (1988). Direproduksi dengan izin dari
Elsevier.
• Kesenjangan 3: Spesifikasi kualitas layanan versus pemberian layanan aktual
• Kesenjangan 4: Pemberian layanan versus komunikasi eksternal
• Kesenjangan 5: Harapan pelanggan versus layanan yang dirasakan
Strategi umum untuk menutup Kesenjangan 5 terdiri dari penutupan Kesenjangan 4 terlebih dahulu, kemudian
Kesenjangan 1, 2, dan 3.
Model ini dioperasionalkan dengan kuesioner yang menyelidiki kinerja yang diharapkan dan dirasakan pelanggan.
Beberapa kritik terhadap pendekatan model kesenjangan diungkapkan oleh Cronin dan Taylor (1992), yang
menimbulkan keraguan tentang indikator SERVQUAL yang tepat untuk menggambarkan kualitas layanan. Kritik ini
memunculkan model lain yang lebih baik, SERVPERF. Kedua model tersebut mewakili hubungan terstruktur antara
variabel yang mewakili komponen layanan dan kepuasan secara keseluruhan.
Dalam model kepuasan pelanggan umum seperti SERVQUAL atau SERPERF, kepuasan pelanggan dianggap
sebagai “atribut multidimensi,” di mana setiap komponen berhubungan dengan dimensi konstruksi konseptual, yaitu
aspek produk atau layanan yang dianggap penting. dalam menentukan kepuasan pelanggan. Sintesis evaluasi atribut
kepuasan “marginal” tunggal mempunyai sifat yang menentukan dan oleh karena itu bersifat konvensional. Secara
khusus, model ini menyatakan secara eksplisit hubungan fungsional dari variabel laten yang sesuai dengan berbagai
dimensi dan menargetkan variabel satu dimensi yang terkait dengan konsep yang diselidiki seperti kepuasan
pelanggan secara keseluruhan.
7.4.4 Jaringan Bayesian

BN menerapkan struktur model grafis yang dikenal sebagai grafik asiklik terarah (DAG) yang
populer dalam statistik, pembelajaran mesin, dan kecerdasan buatan.
BN sangat teliti secara matematis dan dapat dimengerti secara intuitif. Mereka memungkinkan
representasi dan penghitungan distribusi probabilitas gabungan (JPD) yang efektif pada
sekumpulan variabel acak (Pearl, 1985, 1988, 2000). Struktur DAG ditentukan oleh dua himpunan:
himpunan node dan himpunan tepi berarah. Node mewakili variabel acak dan digambarkan
sebagai lingkaran yang diberi label dengan nama variabel. Tepinya mewakili hubungan antar
variabel dan diwakili oleh panah antar node. Secara khusus, tepi dari node Xi ke node Xj mewakili
hubungan antara variabel yang bersesuaian. Jadi, tanda panah menunjukkan bahwa nilai yang
diambil oleh variabel Xj bergantung pada nilai yang diambil oleh variabel Xi .
Properti ini
digunakan untuk mengurangi, terkadang secara signifikan, jumlah parameter yang diperlukan
untuk mengkarakterisasi JPD variabel. Pengurangan ini memberikan cara yang efisien untuk
menghitung probabilitas posterior berdasarkan bukti yang ada dalam data (Jensen, 2001; Ben
Gal, 2007; Pearl, 2000). Selain struktur DAG, yang sering dianggap sebagai bagian “kualitatif”
dari model, parameter “kuantitatif” model juga perlu ditentukan. Parameter ini dijelaskan dengan
menerapkan properti Markov, dimana distribusi probabilitas bersyarat (CPD) pada setiap node
hanya bergantung pada induknya. Untuk variabel acak diskrit, probabilitas bersyarat ini sering
kali diwakili oleh sebuah tabel, yang mencantumkan probabilitas lokal yang diambil oleh node
anak pada setiap nilai yang layak—untuk setiap kombinasi nilai induknya. Distribusi gabungan
dari kumpulan variabel dapat ditentukan secara unik oleh tabel probabilitas bersyarat lokal (CPT)
ini. Dalam mempelajari struktur jaringan, seseorang dapat memasukkan daftar putih tautan
kausalitas yang dipaksakan berdasarkan pendapat para ahli dan daftar hitam tautan yang tidak
boleh dimasukkan ke dalam jaringan.
Kenett dan Salini (2009) menerapkan BN pada data yang dikumpulkan dari 266 perusahaan
yang berpartisipasi dalam ACSS. Data tersebut mencakup tanggapan terhadap kuesioner yang
terdiri dari 81 pertanyaan. Gambar 7.2 menunjukkan BN yang dihasilkan, dengan panah yang
menghubungkan jawaban terhadap pertanyaan spesifik pada skala 1–5 dan lokasi geografis
pelanggan. Misalnya, kita dapat melihat bahwa tingkat kepuasan dari persediaan mempengaruhi
tingkat kepuasan dari peralatan, pelatihan, dan portal web. Tingkat kepuasan dari peralatan
mempengaruhi kepuasan secara keseluruhan dan tingkat rekomendasi perusahaan.
Grafik menyajikan struktur BN, dan CPT mewakili estimasi model. Berdasarkan jaringan, kita
dapat melakukan berbagai pemeriksaan diagnostik. Misalnya, kita dapat menghitung distribusi
tanggapan terhadap berbagai pertanyaan untuk pelanggan yang menunjukkan bahwa mereka
kemungkinan besar akan merekomendasikan produk tersebut kepada orang lain.
Analisis semacam itu memungkinkan pembuatan profil pelanggan setia dan merancang indikator
peringatan dini yang memprediksi ketidakpuasan pelanggan. Dalam arti tertentu, BN menyediakan
alat pendukung keputusan bagi para pengambil keputusan dimana skenario alternatif dapat
dinilai dan tujuan operasional dapat ditetapkan. Untuk informasi lebih lanjut mengenai penerapan
BN pada analisis survei pelanggan, lihat Kenett dan Baker (2010), Kenett dan Salini (2011b),
Kenett dkk. (2011b), dan Cugnata dkk. (2014, 2016).
Dukungan teknis
Negara1 7%
Kepuasan dari...
Negara2 13%
Persediaan Negara bagian1 11%
Negara bagian3 16%
Negara1 1% Kepuasan keseluruhan... Negara bagian2 15%
Negara bagian4 38%
Negara bagian2 7% Negara1 7% Negara bagian3 36%
Peralatan Negara bagian5 26%

Negara bagian3 46% Negara2 11% Negara bagian4 29%
Negara1 4%
Negara bagian4 41%
Negara bagian3 26% Negara5 10%
Negara bagian2 7%
Negara bagian4 40%
Negara bagian5 4%
Negara bagian3 30%
Negara bagian5 16%
Negara bagian4 52% Admin dan supp...
Negara bagian2 13%
Negara bagian3 36%

Pemasok terbaik
Rekomendasi
Negara4 38% Negara1 36%
Solusi Pelatihan Negara1 7%
Negara1 7% Negara1 2% Negara bagian2 10%
Negara bagian3 7%
Negara bagian2 7% Negara bagian2 3% Negara bagian3 24%
Negara bagian3 58% Negara bagian3 46% Negara bagian4 33%

Syarat dan ketentuan...
Negara4 24% Negara bagian4 36% Negara5 10%
Negara1 8%
Negara bagian5 4% Negara bagian5 12%
Negara2 16%
Negara bagian3 44%
Negara bagian4 27%
Negara bagian5 5%
Pintu gerbang
Negara bagian2 7%
Negara bagian3 57%
Negara bagian4 32%
Negara
Negara bagian5 5%
Benalux 26% Pembelian kembali
Penjualan 5% Negara1 7%
Perancis
Negara1 9% Negara bagian2 11%

Jerman 21%
Negara2 15% 5% Negara bagian3 21%
Israel
32% 11% Negara4 30%

Negara bagian3
Italia
Negara bagian4 29% Inggris 32% Negara5 31%
Negara5 15%
Gambar 7.2 Respons jaringan Bayesian terhadap pertanyaan kepuasan dari berbagai topik, kepuasan
keseluruhan, niat membeli kembali, tingkat rekomendasi, dan negara responden.
120 survei pelanggan
7.4.5 Model Rasch

Model Rasch (RM) pertama kali diusulkan pada tahun 1960an untuk mengevaluasi tes kemampuan (Rasch,
1960). Tes ini didasarkan pada penilaian pengguna terhadap serangkaian item. Penilaian suatu mata pelajaran
diasumsikan bergantung pada dua faktor: kemampuan relatif mata pelajaran dan kesulitan intrinsik soal
tersebut . Selanjutnya RM telah digunakan untuk mengevaluasi perilaku atau sikap. Dalam kasus survei
pelanggan, kedua faktor tersebut masing-masing menjadi properti subjek dan intensitas item . Dalam
beberapa tahun terakhir model ini telah digunakan dalam evaluasi layanan. Dalam konteks ini, kedua faktor
tersebut menjadi kepuasan pelanggan individu dan item (pertanyaan) menjadi tingkat kualitas intrinsik. Kedua
faktor ini diukur dengan parameter ÿi , yang mengacu pada kepuasan orang (pelanggan) i, dan ÿj , yang
mengacu pada kualitas item (pertanyaan) j. Parameter-parameter ini kemudian dapat dibandingkan. Interaksi
keduanya dinyatakan dengan perbedaan ÿi ÿÿj .
Perbedaan positif berarti kepuasan pelanggan lebih tinggi daripada tingkat kualitas barang. Perbedaan ÿi ÿÿj
menentukan probabilitas jawaban spesifik terhadap pertanyaan j. Khususnya, dalam kasus dikotomis dimana
jawaban pertanyaan adalah “0” untuk “tidak puas” dan “1” untuk “puas”, probabilitas jawaban xij=1 oleh
pelanggan i dengan tingkat kepuasan ÿi , ketika menjawab pertanyaan j berkualitas ÿj ,

dimodelkan sebagai
pengalaman Saya
J
hal 1| P
aku j
Saya ,
J aku j
1 pengalaman Saya
Dalam model dikotomis, data dikumpulkan dalam matriks skor mentah, dengan n baris (satu untuk setiap
pelanggan) dan J kolom (satu untuk setiap pertanyaan), yang nilainya 0 atau 1.
J
Jumlah setiap baris r x mewakili skor total pelanggan i untuk semua item,
Saya
ij
N
J 1
sedangkan jumlah setiap kolom s x mewakili skor yang diberikan oleh semua pelanggan.
J ij
Saya 1
tomer untuk pertanyaan j. RM memiliki beberapa properti penting. Properti pertama adalah item hanya
mengukur satu fitur laten (satu dimensi). Hal ini merupakan keterbatasan dalam penerapan survei kepuasan
pelanggan yang biasanya terdapat beberapa dimensi independen. Ciri penting lainnya dari RM adalah
jawaban suatu item tidak bergantung pada jawaban item lainnya (kemandirian lokal). Dalam konteks survei
kepuasan pelanggan, hal ini merupakan suatu keuntungan. Untuk parameter yang tidak membuat asumsi,
dengan menerapkan transformasi logit log / p , ÿi dan ÿj dapat dinyatakan pada skala yang sama (linearitas
parameter); estimasi ÿi dan ÿj bebas uji dan sampel (keterpisahan parameter), dan
1 P
aku j aku j
total baris dan kolom pada matriks skor mentah merupakan statistik yang cukup untuk estimasi
dari ÿi dan ÿj (statistik yang memadai). Untuk informasi lebih lanjut tentang properti ini, lihat Andrich (2004).
Model dikotomis Rasch telah diperluas ke kasus lebih dari dua kategori terurut seperti skala Likert 1–5.
Pendekatan ini mengasumsikan bahwa antara setiap kategori dan kategori berikutnya, terdapat ambang batas
yang mengkualifikasikan posisi item sebagai fungsi dari tingkat kualitas yang disajikan oleh setiap kategori
jawaban. Ambang batas adalah ketika dua kategori yang berdekatan mempunyai peluang yang sama untuk
dipilih sehingga, misalnya, peluang untuk memilih kategori pertama adalah peluang untuk tidak melebihi
ambang batas pertama. Jadi, jawaban setiap ambang batas h dari suatu item j bergantung pada suatu nilai
ÿj +ÿh , di mana ÿj mencirikan respons terhadap item j. Suku kedua mewakili ambang batas h
dari ÿj yang mengacu pada item j. Ambang batas diurutkan (ÿhÿ1<ÿh ), karena mencerminkan
urutan kategori. Untuk lebih jelasnya lihat De Battisti dkk. (2011). Ekstensi ini memungkinkan
kami memodelkan respons pada skala 1–5.
Kegunaan RM dapat dievaluasi dengan statistik rasio kemungkinan Andersen, yang
menguji asumsi bahwa perkiraan parameter kesulitan adalah sama.
RM menyediakan banyak alat diagnostik seperti kurva karakteristik item, kebaikan-
plot of-fit, peta orang-item, peta jalur dan berbagai uji statistik (untuk lebih jelasnya, lihat bab
14 dalam Kenett dan Salini, 2011b).
7.4.6 Model anak

Tanggapan terhadap survei kepuasan pelanggan diatur oleh pengalaman spesifik dan
pertimbangan psikologis. Ketika dihadapkan pada alternatif-alternatif yang berbeda, orang
membuat pilihan dengan perbandingan berpasangan atas item-item tersebut atau dengan
penghapusan secara berurutan. Pilihan seperti itu dipengaruhi oleh ketidakpastian dalam
pilihan dan keacakan murni. Memodelkan distribusi tanggapan jauh lebih tepat dibandingkan
dengan mempertimbangkan statistik ringkasan tunggal. Pertimbangan tersebut mengarah
pada pengembangan model kombinasi variabel acak binomial seragam dan bergeser (CUB),
yang awalnya diusulkan dalam Piccolo (2003) (lihat juga Iannario dan Piccolo (2012)). Model
CUB digunakan dalam survei dimana subjek mengungkapkan pendapat pasti yang dipilih dari
daftar kategori yang diurutkan dengan m alternatif. Model ini membedakan antara tingkat
kepuasan suatu item dan keacakan pilihan akhir. Komponen yang tidak dapat diamati ini
masing-masing didefinisikan sebagai perasaan dan ketidakpastian .
Perasaan tersebut merupakan hasil dari beberapa faktor yang berhubungan dengan
responden seperti negara asal, jabatan di perusahaan, dan pengalaman bertahun-tahun. Hal
ini diwakili oleh jumlah variabel acak yang konvergen ke distribusi kontinu unimodal. Untuk
memodelkan hal ini, model CUB merasakan dengan variabel acak binomial yang digeser,
ditandai dengan parameter ÿ dan massa br untuk respons r di mana
M 1 R 1
B Tn.
1 , R 1, 2, M ,.
R
R 1
Ketidakpastian merupakan hasil dari variabel-variabel seperti waktu menjawab, tingkat

keterlibatan pribadi responden dengan topik yang disurvei, ketersediaan informasi, kelelahan,
pemahaman parsial terhadap soal, kurang percaya diri, malas, apatis, kebosanan, dan
sebagainya. Model dasar untuk efek ini adalah variabel acak seragam diskrit:
1
kamu m , R 1, 2, , M .
R
M
Model pilihan diskrit CUB terintegrasi adalah
Pr R r B 1 kamu Tn , 1 ,2, ,m
R R
untuk 0 ÿÿÿ 1, dan
M 1 1
UGD M 1 .
2 2
7.4.7 Peta kendali

Kualitas yang dirasakan, tingkat kepuasan, dan keluhan pelanggan dapat dikontrol secara efektif
dengan diagram kendali yang digunakan dalam konteks pengendalian proses statistik (SPC).
Metode SPC awalnya dikembangkan pada tahun 1920an untuk meningkatkan kualitas produk.
Peta kendali umumnya diklasifikasikan menjadi dua kelompok. Jika karakteristik kualitas diukur
pada skala kontinu, kita mempunyai peta kendali untuk variabel. Apabila suatu sifat mutu
digolongkan sesuai atau tidak sesuai berdasarkan ada atau tidaknya ciri-ciri tertentu, maka
digunakan peta kendali atribut-atribut tersebut . Untuk pengenalan diagram kendali dasar dan
lanjutan, lihat Kenett dan Zacks (2014). Dalam menganalisis data survei kepuasan pelanggan,
kita dapat menggunakan diagram kendali untuk mengidentifikasi pergeseran tingkat kepuasan
dari survei sebelumnya atau menyelidiki pencapaian target yang telah ditetapkan.
Secara umum, kami menguji hipotesis
H0 : 0
H1: 0
dimana ÿ dapat berupa mean, standard error, atau proporsi, bergantung pada jenis dan cakupan
peta kendali tertentu (misalnya, untuk variabel atau atribut).
Semua rincian sebelumnya juga berlaku ketika kita tertarik untuk menguji pergeseran
parameter tertentu seperti Dalam kasus
0
atau
ini, hanya
0. satu batas kendali, baik batas kendali atas
(UCL) atau batas kendali bawah (LCL), yang dilaporkan pada kendali. bagan.
Secara spesifik, grafik p dengan batas kendali = pkpp 1 atau / n digunakan untuk mon-
persentase responden yang menjawab “5” (sangat tinggi) pada pertanyaan kepuasan secara
keseluruhan. Di sini n adalah jumlah responden, dan k adalah pengali konstan deviasi standar
binomial yang digunakan untuk menetapkan batas kendali. Nilai k=2 sering diterapkan dalam
penerapan diagram kendali untuk analisis data kepuasan pelanggan. Untuk lebih jelasnya, lihat
Kenett dkk. (2011a). Untuk penerapan diagram kendali multivariat menggunakan metode
komposisi, lihat VivesÿMestres dkk. (2014, 2015, 2016).
7.5 Evaluasi InfoQ

Kami sekarang beralih ke evaluasi masing-masing metode untuk menganalisis data survei pelanggan
menggunakan kerangka InfoQ dengan mempertimbangkan masing-masing dari delapan dimensi InfoQ.
Dalam hal ini, kami menggunakan kerangka InfoQ untuk membandingkan tujuh metode analisis ( f ) yang populer
dalam analisis survei pelanggan. Kami berasumsi dalam semua kasus bahwa data (X) adalah data
kuesioner survei yang khas dan kegunaannya (U) adalah untuk menginformasikan perusahaan atau
organisasi pengelola mengenai kepuasan pelanggannya untuk meningkatkan kepuasan pelanggan
dan/atau mengurangi ketidakpuasan pelanggan. Meskipun terdapat beragam tujuan (seperti
dijelaskan dalam Bagian 7.3), di sini kami fokus pada mengidentifikasi faktor pendorong kepuasan
secara keseluruhan, sebagai ilustrasi.
7.5.1 Model regresi

Model regresi bertujuan untuk menghasilkan informasi dengan memberikan hubungan penjelasan
antara kovariat dan respons survei. Karakteristik dimensi InfoQ untuk model tersebut adalah:
1. Resolusi data: Model regresi dapat menangani semua jenis data, termasuk ordinal, nominal,
dan kontinu. Dengan demikian, mereka memberikan kemampuan untuk menangani resolusi
data secara memadai.
2. Struktur data: Melalui tanggapan terhadap pertanyaan dan komentar terbuka, survei
menggabungkan komponen terstruktur dan tidak terstruktur. Dalam kebanyakan kasus,
model regresi tidak secara langsung memodelkan teks semantik. Langkah ekstra dalam
penambangan teks diperlukan untuk tujuan itu.
3. Integrasi data: Menggabungkan sumber data dan tipe data sebagian dapat ditangani dengan
model regresi seperti metode fusi data.
4. Relevansi temporal: Efek waktu dapat dimasukkan ke dalam model regresi sehingga relevansi
temporal, sebagaimana tercermin dalam data, dapat terwakili sepenuhnya.
5. Kronologi data dan tujuan: Penerapan model regresi dalam sistem online dapat memberikan
pembaruan yang konstan atau perkiraan retrospektif.
6. Generalisasi: Model regresi didasarkan pada teori statistik dan oleh karena itu menyediakan
sarana untuk inferensi statistik dan generalisasi dari sampel ke populasi.
7. Operasionalisasi: Wawasan yang diperoleh dari model regresi, yang menghubungkan kovariat
dengan tanggapan, memberikan penjelasan yang terbukti berguna dalam merancang item
tindakan terfokus.
8. Komunikasi: Formulasi matematis model regresi memberikan koefisien yang dapat

diinterpretasikan dalam bahasa manajerial (yaitu, setiap koefisien menyatakan besarnya
pengaruh variabel tersebut terhadap hasil).
Namun, analis harus membuat pernyataan eksplisit berdasarkan koefisien ini untuk
memastikan bahwa pernyataan tersebut dipahami dengan benar. Dalam banyak kasus,
pemasangan model dilengkapi dengan grafik yang mewakili prediksi nilai kovariat tertentu,
analisis residu, dan evaluasi kesesuaian.
7.5.2 Model struktural

Model struktural memberikan informasi dengan menyesuaikan data ke model struktural. Karakteristik
dimensi InfoQ untuk model tersebut adalah:
1. Resolusi data: SEM dirancang untuk menangani data berbasis kuesioner. Oleh karena itu,
mereka biasanya tidak mempertimbangkan kovariat kontinu atau tekstual.
2. Struktur data: Model struktural secara eksplisit menyajikan struktur data yang menggabungkan
variabel laten. Klarifikasi paksa terhadap struktur data ini cukup unik.
3. Integrasi data: Integrasi data dari sumber berbeda biasanya tidak dipertimbangkan dalam model
struktural.
4. Relevansi temporal: ACSI, yang menggunakan model struktural, didasarkan pada serangkaian
survei berbasis telepon. Hal ini memberikan pendekatan operasional untuk memastikan
relevansi temporal.
5. Kronologi data dan tujuan: Penggunaan model struktural biasanya menghasilkan laporan bulanan
tanpa pertimbangan khusus untuk penyesuaian khusus informasi dari survei.
6. Generalisasi: Model struktural dibangun berdasarkan persamaan struktural yang mewakili

struktur yang dapat digeneralisasikan dan menyajikan hubungan antar variabel laten.
Uji statistik dapat digunakan untuk menggeneralisasi hubungan sampel dengan populasi.
7. Operasionalisasi: Model struktural secara langsung memperlakukan konstruk kepuasan yang

tidak dapat diobservasi (dan konstruk lainnya) sebagai variabel laten dan mengikatnya ke
variabel yang dapat diobservasi dan diukur (variabel nyata). Oleh karena itu, hal ini
memungkinkan analis untuk menyampaikan model teoretis dan pengetahuan ahlinya dalam
kaitannya dengan variabel laten dan manifes.
8. Komunikasi: Program perangkat lunak seperti Amos (wwwÿ03.ibm.com/software/

Products/en/spssÿamos), SmartPLS (www.smartpls.de), dan paket R sem (https://cran.rÿ
project.org/web/packages/sem/sem.pdf) memberikan representasi grafis dari persamaan
struktural dan nilai korelasi antara variabel terukur yang diamati dan variabel laten yang tidak
teramati.
7.5.3 KUALITAS LAYANAN

Model tipe SERVQUAL memberikan informasi yang memungkinkan manajer layanan untuk fokus pada
item tindakan tertentu. Karakteristik dimensi InfoQ untuk model tersebut adalah:
1. Resolusi data: Data yang digunakan dalam model tersebut didasarkan pada kuesioner.
2. Struktur data: Data yang biasanya digunakan dalam model tersebut didasarkan pada skala Likert
yang ditetapkan pada 1–5.
3. Integrasi data: Data kuesioner diterapkan pada model tanpa mengacu langsung pada
indikator kinerja terkait layanan seperti waktu respons dan keluhan pelanggan.
4. Relevansi temporal: Survei SERVQUAL biasanya dilakukan setahun sekali.
5. Kronologi data dan tujuan: Pendekatan yang digunakan adalah dukungan tahunan
rencana perbaikan.
6. Generalisasi: Struktur kesenjangan memberikan dasar untuk generalisasi karakteristik

layanan, di luar titik kontak pelanggan spesifik yang diselidiki dalam kuesioner
SERVQUAL tertentu.
7. Operasionalisasi: Struktur kesenjangan memberikan dasar bagi tindakan peningkatan

layanan yang spesifik.
8. Komunikasi: Analisis data dari model tersebut biasanya disajikan di

bentuk tabel.
7.5.4 Jaringan Bayesian

Ciri-ciri utama BN ditinjau dari dimensi InfoQ adalah:
1. Resolusi data: BN dapat menangani variabel kontinu, nominal, dan ordinal yang
didiskritisasi. Beberapa BN juga dapat menangani data berkelanjutan secara langsung.
2. Struktur data: Data yang ditangani oleh BN dapat mencakup data semantik yang berasal
dari analisis teks (“sekantong kata”) dan data operasional seperti waktu respons atau
jumlah keluhan pelanggan. Dalam implementasinya yang paling sederhana, BN
didasarkan pada data yang didiskritisasi dan CPD antar variabel terkait.
3. Integrasi data: BN sangat efektif dalam mengintegrasikan variabel kualitatif dan kuantitatif.
4. Relevansi temporal: BN dapat diperbarui secara rutin dengan memuat data terbaru dan
memperoleh perkiraan posterior yang diperbarui. Kemampuan ini, yang berasal dari
konteks BN Bayesian, memberikan kemampuan unik untuk memastikan relevansi
temporal yang berkelanjutan.
5. Kronologi data dan tujuan: Dalam BN, variabel temporal seperti tahun atau bulan dapat
digunakan dalam jaringan dan dengan demikian memungkinkan pengondisian fleksibel
yang memberikan peningkatan kronologi data dan tujuan.
6. Generalisasi: Kemampuan diagnostik dan prediktif BN memberikan kemampuan

generalisasi pada subset populasi. Hubungan kausalitas memberikan generalisasi lebih
lanjut pada konteks lain seperti proses organisasi atau fungsi pekerjaan tertentu.
7. Operasionalisasi: Penggunaan model dengan kemampuan pengkondisian memberikan alat

yang efektif untuk menetapkan tujuan perbaikan dan mendiagnosis kantong ketidakpuasan.
8. Komunikasi: Tampilan visual BN membuatnya sangat menarik bagi pengambil keputusan yang
merasa tidak nyaman dengan model matematika.
7.5.5 Model Rasch

RM memberikan informasi pada tingkat individu dan item. Ciri-ciri dimensi InfoQ untuk model ini adalah:
1. Resolusi data: Model ruam mengandalkan kuesioner dengan item spesifik yang cocok dengan
titik kontak pelanggan yang mewakili interaksi yang menentukan pengalaman pelanggan.
2. Struktur data: Data yang digunakan berdasarkan jawaban terhadap pertanyaan, bukan jawaban
komentar atau informasi semantik apa pun.
3. Integrasi data: RM mengintegrasikan item dan karakteristik spesifik individu. Kedua komponen
ini juga dapat dijelaskan dengan menggunakan kovariat yang sesuai.
4. Relevansi temporal: Penerapan survei berbasis Rasch biasanya dilakukan

secara berkala.
5. Kronologi data dan tujuan : Informasi dari model tidak bisa

diperbarui kecuali survei baru dilakukan.
6. Generalisasi: Model ini sangat dapat digeneralisasikan, seperti yang awalnya dipahami oleh
Georg Rasch dengan konsep objektivitas spesifik.
7. Operasionalisasi: Model ini memberikan perbedaan yang jelas antara kecenderungan individu
dan tingkat kepuasan spesifik item.
8. Komunikasi: Estimasi model dapat disajikan secara visual dengan bar plot atau lainnya.
Berbagai plot diagnostiknya menyediakan alat presentasi data yang efektif.
7.5.6 Model anak

Model CUB memperhitungkan ketidakpastian pengukuran dalam mengevaluasi tingkat kepuasan
pelanggan. Karakteristik dimensi InfoQ untuk model tersebut adalah:
1. Resolusi data: Data untuk analisis model CUB berasal dari a

daftar pertanyaan.
2. Struktur data: Model CUB tidak secara eksplisit menangani komentar tekstual atau
kovariat.
3. Integrasi data: Model CUB mengintegrasikan intensitas perasaan terhadap suatu item tertentu
dengan ketidakpastian respon. Kedua komponen ini juga dapat dijelaskan dengan menggunakan
kovariat yang sesuai.
4. Relevansi temporal: Analisis menggunakan CUB relevan dengan survei berkala atau tujuan khusus.
5. Kronologi data dan tujuan: Model tidak menyediakan sebagian

memperbarui.
6. Generalisasi: Model itu sendiri tidak dapat digeneralisasikan. Namun, komponen-komponennya

menawarkan interpretasi kognitif dan psikologis yang menarik.
7. Operasionalisasi: Model ini sebagian besar terfokus pada penjelasan hasil survei. Wawasan tentang
ketidakpastian dan perasaan dapat menghasilkan beragam inisiatif yang menarik.
8. Komunikasi: Estimasi model dapat disajikan secara visual dengan plot batang
atau sebaliknya.
7.5.7 Peta kendali

Informasi yang diberikan oleh analisis diagram kendali survei pelanggan bervariasi.
Karakteristik dimensi InfoQ untuk analisis tersebut adalah:
1. Resolusi data: Bagan kendali dapat menangani data kontinu dan kategorikal.
2. Struktur data: Data yang digunakan dalam obrolan kontrol bisa univariat atau
multivariat.
3. Integrasi data: Diagram kendali dapat dibagi berdasarkan nilai kovariat. Bagan kendali univariat
dasar tidak memberikan pendekatan integrasi data yang efektif.
4. Relevansi temporal: Survei berdasarkan peristiwa, dianalisis dengan diagram kendali,

memberikan informasi terkini secara berkesinambungan.
5. Kronologi data dan tujuan: Diagram kendali memberikan indikasi efektif mengenai perubahan dari
waktu ke waktu atau perbedaan antar topik survei.
6. Generalisasi: Analisis memberikan wawasan yang relevan dengan data yang ada
tanpa teori yang bisa digeneralisasikan.
7. Operasionalisasi: Temuan-temuan ini dengan jelas membedakan efek-efek signifikan dan efek-efek
acak, sehingga membantu para pengambil keputusan untuk memfokuskan upaya perbaikan
mereka secara efektif.
8. Komunikasi: Tampilan visual dari peta kendali membuatnya sangat menarik

untuk komunikasi dan visualisasi analisis.
7.6 Ringkasan
Tabel 7.4 menyajikan peringkat untuk masing-masing model yang dijelaskan di Bagian 7.4,
berdasarkan pembahasan di Bagian 7.5, menggunakan delapan dimensi InfoQ. Penilaian tersebut
diperoleh dengan menggunakan skala 1 (“sangat buruk”) hingga 5 (“sangat baik”). Skor InfoQ
keseluruhan, berdasarkan model, dihitung menggunakan cara geometris fungsi keinginan, dalam
persentase. Nilainya berkisar antara 39% hingga 87% dengan model BN menghasilkan kualitas
informasi tertinggi. Penilaian ini bersifat subyektif dan berdasarkan diskusi dengan berbagai ahli.
Model yang memperoleh skor InfoQ tertinggi adalah BN, model regresi, dan diagram kendali.
Bab ini menyajikan tujuh jenis model yang digunakan dalam analisis survei pelanggan. Setiap
model memiliki karakteristik unik yang dinilai menggunakan dimensi InfoQ. Dalam menganalisis survei
pelanggan, serangkaian model dapat meningkatkan InfoQ yang dihasilkan oleh masing-masing model.
Pendekatan seperti ini telah diusulkan oleh Kenett dan Salini (2011a) dengan penerapan pada studi
kasus tertentu. Kemampuan mengintegrasikan berbagai model, dengan kekuatan yang saling
melengkapi, menghadirkan tambahan kemampuan InfoQ, kemampuan mengintegrasikan analisis
dari berbagai model untuk meningkatkan InfoQ secara keseluruhan.
Lampiran: Peningkatan InfoQ posteriori untuk bias

seleksi non-respons survei
Nonresponse adalah isu penting dalam analisis survei. Seperti dibahas di Bagian 5.4, bias seleksi
akibat tidak adanya respons merupakan penyebab a posteriori yang dapat menyebabkan rangkaian
survei yang telah diselesaikan tidak mewakili populasi yang diteliti, dalam arti bahwa beberapa
kelompok terlalu atau kurang terwakili dalam survei tersebut. contoh. Dalam lampiran ini kami
mengilustrasikan penggunaan lain InfoQ dalam survei pelanggan dengan memeriksa studi yang
mengoreksi nonresponse dalam analisis data a posteriori.
Dalam mengkomunikasikan hasil survei pelanggan, tujuannya adalah untuk mewakili kerangka
yang kita lihat melalui sampel pengembalian kuesioner. Dalam banyak contoh, tautan ke kuesioner
situs web dikirim ke semua pelanggan yang terdaftar dan survei tersebut sebenarnya merupakan
upaya sensus. Idealnya, kami ingin mendapatkan tanggapan dari semua pelanggan dan
mengumpulkan kumpulan data X*. Pada kenyataannya kami mengambil kumpulan data X yang hanya
terdiri dari pelanggan yang merespons sehingga XÿX*. Apakah kita harus selalu mempertimbangkan
tanggapan yang diberikan, seperti yang dibahas di Bagian 5.4? Hal ini mempunyai implikasi negatif
dalam hal varian estimator dan dimensi komunikasi InfoQ yang kedelapan. Hasil yang diberi bobot
lebih sulit dikomunikasikan kepada manajer non-teknis yang menganggap hal ini sebagai semacam
“pemalsuan data”. Hal ini memotivasi kami untuk terlebih dahulu menentukan perlunya memberi
bobot pada respons, dengan harapan hal ini dapat dihindari.
Pertimbangkan tujuan memperkirakan tingkat kepuasan pelanggan. Untuk mengidentifikasi pola
non-respons yang signifikan dalam survei pelanggan, Kenett (1991) mengusulkan pendekatan
berdasarkan perbandingan respons yang diamati dengan respons yang diharapkan berdasarkan
berbagai klasifikasi pelanggan seperti lokasi geografis. Respons yang diharapkan diperoleh dari
distribusi daftar lengkap pelanggan berdasarkan skema klasifikasi yang relevan.
.naiag
ksgg
ailm
isa
le
Q
neg
irb
d
la
u
vo
b
a
inr4
o
lgk
a
fu
n
ean
.m
iS
T
7
b
d
a
p
yI
s
isnQ
emofinDI Q
ishV
ec7
1M
2
3
4
5
6rB
Rg
s.C
U
5
N
E
e.C
a R
S
B
7
isuloasteaR d 5 3 3 5 3 3 5
rutkautratS d 3 4 2 4 2 4 4
isargaeta tndI 3 3 2 4 2 2 4
isla
nraovpem leeRt 5 3 3 4 3 3 3
igoln oananu
ota
jruK
dt 2 2 5 2 3 4
isasilareneG 4 5 5 5 4 3
sasilanoisarepO 3 3 4 3 3 3
87%
isakinumoK 3 4 3 5 2 3 5
QroofknsI
i.ltikahagalg
tw
e
arejn
o
a
rb
ecga
kW
e
m
ia
d
yt
s
Tanggapan pelanggan, dalam kelompok tertentu, dianalisis menggunakan residu yang disesuaikan
dan, untuk mengoreksi beberapa pengujian, nilai kritis diperoleh dari Bonferroni-
pengujian berbasis untuk menentukan signifikansi residu yang disesuaikan. Jika bias non-respons
yang signifikan ditentukan, estimasi model mungkin perlu dievaluasi dengan memberi bobot pada
respons menggunakan bobot yang ditentukan oleh daftar lengkap pelanggan (kelompok sasaran).
Untuk mengetahui lebih lanjut mengenai pembobotan tanggapan, lihat Bagian 5.4.
Sebagai contoh, perhatikan Tabel A yang menyajikan tanggapan survei kepuasan pelanggan
business to business (B2B) yang ditujukan pada kelompok sasaran yang terdiri dari 586 pelanggan
di enam negara (Knett dan Salini, 2012). Survei diselesaikan oleh 266 pelanggan, dan residu yang
disesuaikan, berdasarkan negara, dicantumkan di kolom Z. Jika n=jumlah total survei yang
dikembalikan (di sini n=266), K=jumlah kategori (di sini K=6), ni =jumlah survei yang kembali dalam
kategori i, dan pi =proporsi kategori i dalam kerangka sampling atau populasi sasaran, i=1, …, K,
maka
n iiE
Z Saya
, saya1,K ,
S Saya
dimana Ei =Npi adalah ekspektasi imbal hasil pada kelompok i dan Si =(Npi (1ÿpi ))1/2 adalah deviasi
standar imbal hasil pada kelompok i, i=1, …, K.
Untuk menentukan signifikansi Zi , diterapkanuji M yang didasarkan pada batas atas Bonferroni.
Jika semua residu yang disesuaikan, Zi , lebih kecil, dalam nilai absolut, dari nilai kritis C, tidak ada
bias signifikan yang dinyatakan. Sel dengan nilai Zi , di atas C atau di bawah ÿC, dinyatakan berbeda
nyata, dan upaya tindak lanjut, seperti pembobotan tanggapan, dimulai. Untuk K=6, C=2,39 dengan
nilai p 5%. Untuk detailnya, lihat Kenett dan Zacks (2014).
Kami melihat bahwa pelanggan dari Perancis kurang terwakili secara signifikan. Mengingat
tingkat respons keseluruhan sebesar 266/586, kami memperkirakan 28 respons pelanggan dari
Perancis, namun dalam praktiknya hanya 15 respons. Residu yang disesuaikan sebesar ÿ2,61 lebih
kecil dari C=ÿ2,39 menunjukkan kurangnya representasi yang signifikan.
Hasil ini memerlukan analisis lanjutan untuk melihat apakah kepuasan responden di Prancis
secara keseluruhan berbeda dengan responden di negara lain. Jika ya, maka diperlukan pembobotan
tanggapan terhadap kepuasan secara keseluruhan agar dapat menyajikan perkiraan yang tidak bias
Tabel A Koreksi pengumpulan postdata untuk bias nonresponse dalam survei kepuasan
pelanggan menggunakan residu yang disesuaikan.
Wilayah Populasi Pi Pengembalian yang Diharapkan Z Makna
Benelux 64 0,11 29 26 ÿ0,59 Oke

Perancis 61 0,10 28 15 ÿ2,61 signifikansi 5%.
Jerman 215 0,37 98 112 1,78 Oke
Israel 73 0,12 33 23 ÿ1,86 Oke
Italia 78 0,13 35 39 0,72 Oke
Britania Raya 95 0,16 43 51 1.33 Oke
Total 586 1 266

Information Quality, Ron S Kenett, Galit Shmueli, Ron (001-150) - 1

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Information Quality, Ron S Kenett, Galit Shmueli, Ron (001-150) - 1

Diunggah oleh

Hak Cipta:

Format Tersedia

Machine Translated by Google

Machine Translated by Google

Edisi ini pertama kali diterbitkan pada tahun 2017

© 2017 John Wiley & Sons, Ltd

Perpustakaan Kongres Mengkatalogkan Data dalam Publikasi

Nama: Kenett, Ron. | Shmueli, Galit, 1971–

Catatan katalog untuk buku ini tersedia dari British Library.

Ditetapkan dalam 10/12pt Times oleh SPi Global, Pondicherry, India

Kata pengantar xii

Kutipan tentang buku itu xv

Tentang situs web pendamping xviii

BAGIAN I KUALITAS INFORMASI

1 Pengantar kualitas informasi 3

2 Kualitas tujuan, kualitas data, dan kualitas analisis 18

3 Dimensi kualitas informasi dan penilaian InfoQ 31

4 InfoQ pada tahap desain penelitian 53

5 InfoQ pada tahap pengumpulan postdata 67

BAGIAN II APLIKASI InfoQ 79

7 Survei pelanggan 109

9 Manajemen risiko 160

10 Statistik resmi 181

BAGIAN III PELAKSANAAN InfoQ 219

12 InfoQ dalam proses review publikasi ilmiah 234

13 Mengintegrasikan InfoQ ke dalam program analisis ilmu data,

14 Dukungan InfoQ dengan R 265

15 Dukungan InfoQ dengan Minitab 295

16 Dukungan InfoQ dengan JMP 324

Perguruan Tinggi Kekaisaran London

Galit Shmueli adalah profesor terkemuka di Institut Ilmu Pelayanan Universitas

Kata Pengantar xiii

xiv Kata Pengantar

Ron S. Kenett dan Galit Shmueli

Kutipan tentang buku itu

xvi Kutipan tentang buku

Kutipan tentang buku xvii

Tentang situs web pendamping

1. Add-in JMP disajikan pada Bab 16

3. Kumpulan presentasi tentang InfoQ

Pindai kode QR ini untuk mengunjungi situs web pendamping.

Para ahli statistik yang bekerja di lingkungan penelitian… mungkin harus

Kualitas Informasi: Potensi Data dan Analisis untuk Menghasilkan Pengetahuan,

4 Pengantar kualitas informasi

1.2 Komponen InfoQ

Pengenalan kualitas informasi5

• X menunjukkan dataset yang tersedia.

• f merupakan metode analisis empiris.

• U adalah ukuran utilitas.

1.2.1 Sasaran (g)

6 Pengantar kualitas informasi

1.2.2 Data (X)

1.2.3 Analisis (f)

1.2.4 Utilitas (U)

Pengantar kualitas informasi 7

Gambar 1.1 Keempat komponen InfoQ.

1.3 Pengertian kualitas informasi

1.4 Contoh dari studi lelang online

8 Pengantar kualitas informasi

Tujuan studi (g)

Tujuan peneliti dinyatakan sebagai berikut:

Para peneliti melanjutkan dengan menyiapkan

1Permainan kartu perdagangan Pokémon adalah salah satu

Pengantar kualitas informasi 9

Para penulis menyimpulkan “Penurunan rata-rata kemungkinan penjualan ketika menggunakan